Un punto di ingresso in HuggingFace. Una guida passo passo sulle nozioni di base per... | di Mina Ghashami | Novembre 2023 | Intelligenza-Artificiale

Una guida passo passo alle nozioni di base per principianti

HuggingFace può essere complesso e complicato se non sai da dove iniziare per impararlo. Un punto di ingresso nel repository HuggingFace è esegui_mlm.py E run_clm.py script.

In questo post, esamineremo esegui_mlm.py sceneggiatura. Questo script seleziona un modello di linguaggio mascherato da HuggingFace e lo ottimizza su un set di dati (o lo addestra da zero). Se sei un principiante e hai pochissima conoscenza dei codici HuggingFace, questo post ti aiuterà a comprenderne le nozioni di base.

Sceglieremo un modello di linguaggio mascherato, caricheremo un set di dati da HuggingFace e ottimizzeremo il modello sul set di dati. Alla fine valuteremo il modello. Tutto questo è necessario per comprendere la struttura del codice, quindi la nostra attenzione non è rivolta a nessun caso d’uso specifico.

Iniziamo.

La messa a punto è una tecnica comune nel deep learning per prendere un modello di rete neurale pre-addestrato e modificarlo per adattarlo meglio a un nuovo set di dati o attività.

L’ottimizzazione funziona bene quando il set di dati non è abbastanza grande per addestrare un modello profondo da zero! Quindi si parte da un modello base già appreso.

Nella messa a punto, prendi un modello pre-addestrato su un’origine dati di grandi dimensioni (ad esempio ImageNet per immagini o BooksCorpus per NLP), quindi continua ad addestrarlo sul tuo set di dati per adattare la modalità alla tua attività. Ciò richiede molti meno dati ed epoche aggiuntivi rispetto all’addestramento da pesi casuali.

HuggingFace (HF) ha molte funzioni integrate che ci consentono di mettere a punto un modello pre-addestrato in poche righe di codice. I passaggi principali sono i seguenti:

caricare il modello pre-addestrato
caricare il tokenizzatore pre-addestrato
caricare il set di dati che si desidera utilizzare per la messa a punto
tokenizzare il set di dati sopra utilizzando il tokenizzatore
utilizzare l’oggetto Trainer per addestrare il modello pre-addestrato sul set di dati tokenizzato

Vediamo ogni passaggio nel codice. Tralasceremo intenzionalmente molti dettagli per dare solo una panoramica di come appare la struttura complessiva.

Fonte: towardsdatascience.com