Padroneggiare la PNL: codifica Python approfondita per modelli di deep learning |  di Eligijus Bujokas |  Ottobre 2023

 | Intelligenza-Artificiale

Una guida passo passo con spiegazioni complete del codice per la classificazione del testo utilizzando il deep learning in Python

fotografato da Waypixel SU Unsplash

Questo articolo è stato realizzato dopo aver letto numerose risorse di documentazione e aver guardato video su YouTube su dati testuali, classificazione, reti neurali ricorrenti e altri argomenti interessanti su come sviluppare un progetto di apprendimento automatico utilizzando dati di testo. Molte informazioni non sono così facili da usare e alcune parti sono offuscate, quindi voglio far risparmiare al lettore molto tempo e far luce sui concetti più importanti nell’uso dei dati testuali in qualsiasi progetto di machine learning.

Il codice di supporto per gli esempi qui presentati può essere trovato all’indirizzo: https://github.com/Eligijus112/NLP-python

Gli argomenti trattati in questo articolo saranno:

  • Conversione di testo in sequenze
  • Conversione degli indici di sequenza in vettori incorporati
  • Spiegazione approfondita della RNN
  • La funzione di perdita per la classificazione
  • Pipeline PNL completa utilizzando Pytorch

PNL sta per Nnaturale llingua Plavorazione¹. Questo è un argomento molto vasto su come utilizzare sia l’hardware che il software in attività come:

  • Tradurre una lingua in un’altra
  • Classificazione del testo
  • Riepilogo del testo
  • Prossima previsione del token
  • Riconoscimento dell’entità denominata

E molto altro ancora. In questo articolo, voglio coprire le tecniche più popolari e familiarizzare il lettore con i concetti tramite esempi semplici e codificati.

Molti compiti nella PNL iniziano da lì tokenizzare il testo².

La tokenizzazione del testo è un processo in cui dividiamo il testo originale in parti più piccole: gettoni. I token possono essere caratteri, sottoparole, parole o un mix di tutti e tre.

Consideriamo la stringa:

“La PNL in Python è divertente e molto ben documentata. Iniziamo!”

Utilizzerò token a livello di parola perché la stessa logica si applicherebbe anche alla tokenizzazione di livello inferiore.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *