Come generare set di dati di istruzioni da qualsiasi documento per la messa a punto LLM |  di Yanli Liu |  Marzo 2024

 | Intelligenza-Artificiale

Genera set di dati sintetici di alta qualità in modo economico utilizzando librerie leggere

I Large Language Models (LLM) sono strumenti efficaci e di uso generale, ma spesso mancano di conoscenze specifiche del dominio, che vengono spesso archiviate in repository aziendali.

La messa a punto di un LLM personalizzato con i tuoi dati può colmare questa lacuna e la preparazione dei dati è il primo passo in questo processo. È anche un passaggio cruciale che può influenzare in modo significativo le prestazioni del tuo modello messo a punto.

Tuttavia, la creazione manuale di set di dati può essere costosa e richiedere molto tempo. Un altro approccio consiste nell’utilizzare un LLM per generare set di dati sintetici, spesso utilizzando modelli ad alte prestazioni come GPT-4, che possono rivelarsi molto costosi.

In questo articolo, mi propongo di portare alla vostra attenzione un'alternativa economicamente vantaggiosa per automatizzare la creazione di set di dati di istruzioni da vari documenti. Questa soluzione prevede l'utilizzo di una libreria open source leggera chiamata Bonito.

Immagine generata dall'autore utilizzando la chat di Bing fornita da DALL.E 3

Comprendere le istruzioni

Prima di immergerci nella libreria Bonito e nel suo funzionamento, dobbiamo prima capire cos'è un'istruzione.

Un'istruzione è un testo o un suggerimento fornito a un LLM, come Llama, GPT-4, ecc. Dirige il modello a produrre un tipo specifico di risposta. Attraverso le istruzioni, le persone possono guidare la discussione, assicurandosi che le risposte del modello siano pertinenti, utili e in linea con ciò che desidera l'utente. Creare istruzioni chiare e precise è importante per ottenere il risultato desiderato.

Presentazione di Bonito, un modello open source per la generazione di attività condizionali

Bonito è un modello open source progettato per la generazione di attività condizionali. Può essere utilizzato per creare set di dati di ottimizzazione delle istruzioni sintetiche per adattare modelli linguistici di grandi dimensioni ai dati privati ​​specializzati degli utenti.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *