Padroneggiare la PNL: codifica Python approfondita per modelli di deep learning | di Eligijus Bujokas | Ottobre 2023 | Intelligenza-Artificiale

Una guida passo passo con spiegazioni complete del codice per la classificazione del testo utilizzando il deep learning in Python

Questo articolo è stato realizzato dopo aver letto numerose risorse di documentazione e aver guardato video su YouTube su dati testuali, classificazione, reti neurali ricorrenti e altri argomenti interessanti su come sviluppare un progetto di apprendimento automatico utilizzando dati di testo. Molte informazioni non sono così facili da usare e alcune parti sono offuscate, quindi voglio far risparmiare al lettore molto tempo e far luce sui concetti più importanti nell’uso dei dati testuali in qualsiasi progetto di machine learning.

Il codice di supporto per gli esempi qui presentati può essere trovato all’indirizzo: https://github.com/Eligijus112/NLP-python

Gli argomenti trattati in questo articolo saranno:

Conversione di testo in sequenze
Conversione degli indici di sequenza in vettori incorporati
Spiegazione approfondita della RNN
La funzione di perdita per la classificazione
Pipeline PNL completa utilizzando Pytorch

PNL sta per Nnaturale llingua Plavorazione¹. Questo è un argomento molto vasto su come utilizzare sia l’hardware che il software in attività come:

Tradurre una lingua in un’altra
Classificazione del testo
Riepilogo del testo
Prossima previsione del token
Riconoscimento dell’entità denominata

E molto altro ancora. In questo articolo, voglio coprire le tecniche più popolari e familiarizzare il lettore con i concetti tramite esempi semplici e codificati.

Molti compiti nella PNL iniziano da lì tokenizzare il testo².

La tokenizzazione del testo è un processo in cui dividiamo il testo originale in parti più piccole: gettoni. I token possono essere caratteri, sottoparole, parole o un mix di tutti e tre.

Consideriamo la stringa:

“La PNL in Python è divertente e molto ben documentata. Iniziamo!”

Utilizzerò token a livello di parola perché la stessa logica si applicherebbe anche alla tokenizzazione di livello inferiore.

Fonte: towardsdatascience.com