Abbracciare il viso funge da sede per molti popolari modelli di PNL open source. Molti di questi modelli sono efficaci così come sono, ma spesso richiedono una sorta di formazione o messa a punto per migliorare le prestazioni per il caso d’uso specifico. Mentre l’implosione del LLM continua, faremo un passo indietro in questo articolo per rivisitare alcuni degli elementi fondamentali forniti da HuggingFace che semplificano la formazione dei modelli PNL.
Tradizionalmente i modelli NLP possono essere addestrati utilizzando Vanilla PyTorch, TensorFlow/Keras e altri framework ML popolari. Sebbene sia possibile seguire questa strada, è necessaria una comprensione più approfondita del framework che si sta utilizzando, nonché più codice per scrivere il ciclo di formazione. Con HuggingFace Classe formatorec’è un modo più semplice per interagire con i modelli NLP Transformers che desideri utilizzare.
Trainer è una classe appositamente ottimizzata per Trasformatori modelli e fornisce anche una stretta integrazione con altre librerie Transformers come Set di dati E Valutare. Trainer a un livello più avanzato supporta anche librerie di formazione distribuite e può essere facilmente integrato con piattaforme infrastrutturali come Amazon SageMaker.
In questo esempio daremo un’occhiata all’utilizzo della classe Trainer localmente per mettere a punto il popolare modello BERT su Set di dati IMBD per un caso d’uso di classificazione del testo (Set di dati di recensioni di film di grandi dimensioni Citazione).
NOTA: Questo articolo presuppone una conoscenza di base di Python e del dominio della PNL. Non entreremo in alcuna teoria specifica dell’apprendimento automatico sulla creazione o selezione di modelli, questo articolo è dedicato a comprendere come possiamo ottimizzare i modelli pre-addestrati esistenti disponibili nell’HuggingFace Model Hub.
- Impostare
- Messa a punto del BERT
- Risorse aggiuntive e conclusioni
Per questo esempio, lavoreremo in Sage Maker Studio e utilizzare un kernel conda_python3 su un’istanza ml.g4dn.12xlarge. Tieni presente che puoi utilizzare un tipo di istanza più piccolo, ma ciò potrebbe influire sulla velocità di addestramento a seconda del numero di CPU/worker disponibili.
Fonte: towardsdatascience.com