I Large Language Models (LLM) sono strumenti efficaci e di uso generale, ma spesso mancano di conoscenze specifiche del dominio, che vengono spesso archiviate in repository aziendali.
La messa a punto di un LLM personalizzato con i tuoi dati può colmare questa lacuna e la preparazione dei dati è il primo passo in questo processo. È anche un passaggio cruciale che può influenzare in modo significativo le prestazioni del tuo modello messo a punto.
Tuttavia, la creazione manuale di set di dati può essere costosa e richiedere molto tempo. Un altro approccio consiste nell’utilizzare un LLM per generare set di dati sintetici, spesso utilizzando modelli ad alte prestazioni come GPT-4, che possono rivelarsi molto costosi.
In questo articolo, mi propongo di portare alla vostra attenzione un'alternativa economicamente vantaggiosa per automatizzare la creazione di set di dati di istruzioni da vari documenti. Questa soluzione prevede l'utilizzo di una libreria open source leggera chiamata Bonito.
Comprendere le istruzioni
Prima di immergerci nella libreria Bonito e nel suo funzionamento, dobbiamo prima capire cos'è un'istruzione.
Un'istruzione è un testo o un suggerimento fornito a un LLM, come Llama, GPT-4, ecc. Dirige il modello a produrre un tipo specifico di risposta. Attraverso le istruzioni, le persone possono guidare la discussione, assicurandosi che le risposte del modello siano pertinenti, utili e in linea con ciò che desidera l'utente. Creare istruzioni chiare e precise è importante per ottenere il risultato desiderato.
Presentazione di Bonito, un modello open source per la generazione di attività condizionali
Bonito è un modello open source progettato per la generazione di attività condizionali. Può essere utilizzato per creare set di dati di ottimizzazione delle istruzioni sintetiche per adattare modelli linguistici di grandi dimensioni ai dati privati specializzati degli utenti.
Fonte: towardsdatascience.com