Una guida passo passo con spiegazioni complete del codice per la classificazione del testo utilizzando il deep learning in Python
Questo articolo è stato realizzato dopo aver letto numerose risorse di documentazione e aver guardato video su YouTube su dati testuali, classificazione, reti neurali ricorrenti e altri argomenti interessanti su come sviluppare un progetto di apprendimento automatico utilizzando dati di testo. Molte informazioni non sono così facili da usare e alcune parti sono offuscate, quindi voglio far risparmiare al lettore molto tempo e far luce sui concetti più importanti nell’uso dei dati testuali in qualsiasi progetto di machine learning.
Il codice di supporto per gli esempi qui presentati può essere trovato all’indirizzo: https://github.com/Eligijus112/NLP-python
Gli argomenti trattati in questo articolo saranno:
- Conversione di testo in sequenze
- Conversione degli indici di sequenza in vettori incorporati
- Spiegazione approfondita della RNN
- La funzione di perdita per la classificazione
- Pipeline PNL completa utilizzando Pytorch
PNL sta per Nnaturale llingua Plavorazione¹. Questo è un argomento molto vasto su come utilizzare sia l’hardware che il software in attività come:
- Tradurre una lingua in un’altra
- Classificazione del testo
- Riepilogo del testo
- Prossima previsione del token
- Riconoscimento dell’entità denominata
E molto altro ancora. In questo articolo, voglio coprire le tecniche più popolari e familiarizzare il lettore con i concetti tramite esempi semplici e codificati.
Molti compiti nella PNL iniziano da lì tokenizzare il testo².
La tokenizzazione del testo è un processo in cui dividiamo il testo originale in parti più piccole: gettoni. I token possono essere caratteri, sottoparole, parole o un mix di tutti e tre.
Consideriamo la stringa:
“La PNL in Python è divertente e molto ben documentata. Iniziamo!”
Utilizzerò token a livello di parola perché la stessa logica si applicherebbe anche alla tokenizzazione di livello inferiore.
Fonte: towardsdatascience.com