TFIDF è un metodo per convertire i testi in forma numerica per l’apprendimento automatico o i modelli di intelligenza artificiale. In altre parole, TFIDF è un metodo per estrarre caratteristiche dai testi. Questo è un metodo più sofisticato rispetto al metodo CountVectorizer() di cui ho parlato il mio ultimo articolo.
Il metodo TFIDF fornisce un punteggio per ogni parola che rappresenta l’utilità di quella parola o la rilevanza della parola. Misura l’uso della parola rispetto alle altre parole presenti nel documento.
Questo articolo calcolerà manualmente i punteggi TFIDF in modo da comprendere chiaramente il concetto di TFIDF. Verso la fine vedremo anche come utilizzare il vettorizzatore TFIDF della libreria sklearn.
Ci sono due parti: TF e IDF. Vediamo come funziona ogni parte.
TF
TF è elaborato come “Frequenza del termine”. Il TF può essere calcolato come:
TF = # di occorrenze di una parola in un documento
O
TF = (# di occorrenze in un documento) / (# di parole in un documento)
Lavoriamo su un esempio. Troveremo il TF per ogni parola per questo documento:
Il mio nome è Lilly
Vediamo un esempio per ciascuna delle formule.
TF = # di occorrenze di una parola in un documento
Se qui prendiamo la prima formula, che è semplicemente il numero di occorrenze di una parola in un documento, TF per la parola “MY” è 1 poiché è apparsa solo una volta.
Allo stesso modo, il TF per la parola
‘nome’ = 1, ‘è’ = 1, ‘Lilly’ = 1
Ora usiamo la seconda formula.
TF = (# di occorrenze in un documento) / (# di parole in un documento)
Se prendiamo la seconda formula, la prima parte della formula (numero di occorrenze in un documento) è 1 e la seconda parte (numero di parole in un documento) è 4.
Quindi, il TF per la parola “MY” è 1/4 o 0,25.
Allo stesso modo, il TF per le parole
Fonte: towardsdatascience.com