Conversione di testi in formato numerico con TfidfVectorizer: una guida passo passo |  di Rashida Nasrin Sucky |  Ottobre 2023

 | Intelligenza-Artificiale

fotografato da Mohamed Nohassi SU Unsplash

Come calcolare i valori Tfidf manualmente e utilizzando sklearn

TFIDF è un metodo per convertire i testi in forma numerica per l’apprendimento automatico o i modelli di intelligenza artificiale. In altre parole, TFIDF è un metodo per estrarre caratteristiche dai testi. Questo è un metodo più sofisticato rispetto al metodo CountVectorizer() di cui ho parlato il mio ultimo articolo.

Il metodo TFIDF fornisce un punteggio per ogni parola che rappresenta l’utilità di quella parola o la rilevanza della parola. Misura l’uso della parola rispetto alle altre parole presenti nel documento.

Questo articolo calcolerà manualmente i punteggi TFIDF in modo da comprendere chiaramente il concetto di TFIDF. Verso la fine vedremo anche come utilizzare il vettorizzatore TFIDF della libreria sklearn.

Ci sono due parti: TF e IDF. Vediamo come funziona ogni parte.

TF

TF è elaborato come “Frequenza del termine”. Il TF può essere calcolato come:

TF = # di occorrenze di una parola in un documento

O

TF = (# di occorrenze in un documento) / (# di parole in un documento)

Lavoriamo su un esempio. Troveremo il TF per ogni parola per questo documento:

Il mio nome è Lilly

Vediamo un esempio per ciascuna delle formule.

TF = # di occorrenze di una parola in un documento

Se qui prendiamo la prima formula, che è semplicemente il numero di occorrenze di una parola in un documento, TF per la parola “MY” è 1 poiché è apparsa solo una volta.

Allo stesso modo, il TF per la parola

‘nome’ = 1, ‘è’ = 1, ‘Lilly’ = 1

Ora usiamo la seconda formula.

TF = (# di occorrenze in un documento) / (# di parole in un documento)

Se prendiamo la seconda formula, la prima parte della formula (numero di occorrenze in un documento) è 1 e la seconda parte (numero di parole in un documento) è 4.

Quindi, il TF per la parola “MY” è 1/4 o 0,25.

Allo stesso modo, il TF per le parole

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *