Affrontare la complessità dei costi: una combinazione di idee Le cascate LLM illuminano il percorso verso un'implementazione efficiente di modelli linguistici di grandi dimensioni | di Yuval Zukerman | Marzo 2024 | Intelligenza-Artificiale

fotografato da Giosuè Sortino SU Unsplash

E se ti dicessi che potresti risparmiare il 60% o più sul costo della spesa per l'API LLM senza compromettere la precisione? Sorprendentemente, ora puoi.

I Large Language Models (LLM) fanno ormai parte della nostra vita quotidiana. Le aziende utilizzano la tecnologia per automatizzare i processi, migliorare l'esperienza dei clienti, creare prodotti migliori, risparmiare denaro e altro ancora.

Ospitare i tuoi LLM è molto impegnativo. Offrono ampie capacità ma sono spesso costosi da gestire. Spesso richiedono infrastrutture complesse e enormi quantità di dati. Il costo e la complessità sono il motivo per cui si utilizza il prompt engineering. Puoi anche utilizzare la generazione aumentata di recupero (RAG) per migliorare il contesto e ridurre le allucinazioni. Con entrambe le tecniche, scarichi i LLM in esecuzione su OpenAI, Cohere o Google. Tuttavia, estendere l’adozione del LLM a nuovi casi d’uso, soprattutto con i modelli più recenti e potenti, può far lievitare nuovi costi che in precedenza non erano stati contabilizzati. I modelli più deboli possono essere più economici, ma puoi fidarti di loro per domande complesse? Ora, una nuova ricerca ci mostra come risparmiare denaro e ottenere risultati LLM altrettanto buoni, a volte migliori.

Conosci LLM Cascades

Nella ricerca di costi LLM inferiori, i ricercatori si sono rivolti al concetto di LLM Cascades. Nei secoli bui, prima del lancio di ChatGPT, un team di Google e dell'Università di Toronto ha definito questo termine come programmi che utilizzano calcoli di probabilità per ottenere i migliori risultati utilizzando più LLM.

Più recentemente, il Carta GPT frugale cascate definite come l'invio di una query dell'utente a un elenco di LLM, uno dopo l'altro, dai LLM più deboli a quelli più forti, finché la risposta non è sufficientemente buona. FrugalGPT Cascades utilizza un modello dedicato per determinare quando la risposta è sufficientemente buona rispetto a una soglia di qualità.

Un recente articolo intitolato “Grande modello linguistico a cascata con una miscela di rappresentazioni di pensiero per un ragionamento efficiente in termini di costi” della George Mason University, Microsoft e Virginia Tech offrono un'alternativa: una funzione in grado di determinare se la risposta è sufficientemente buona senza mettere a punto un altro modello.

Miscela di pensiero LLM Cascades

Invece di utilizzare diversi LLM, il ragionamento “Mixture of thinking” (MoT) ne utilizza solo due: GPT 3.5 Turbo e GPT 4. Il primo modello è considerato il LLM “più debole”, mentre il secondo è il LLM “forte”. Gli autori hanno sfruttato la “coerenza della risposta” di LLM per segnalare se la risposta di un LLM è sufficientemente buona. I LLM producono risposte coerenti a richieste simili quando sono sicuri che le risposte siano corrette. Pertanto, quando le risposte LLM più deboli sono coerenti, non è necessario chiamare il LLM più forte. Al contrario, questi LLM producono risposte incoerenti quando mancano di fiducia. Questo è quando hai bisogno di un LLM più forte per rispondere alla richiesta. (Nota: puoi anche utilizzare una coppia LLM più debole/più forte a tua scelta.)

I prompt stessi utilizzano suggerimenti contestuali di poche inquadrature per migliorare la qualità delle risposte LLM. Tali suggerimenti guidano la risposta del LLM fornendo esempi di domande e risposte simili.

Per migliorare il ragionamento del modello e semplificare la misurazione della coerenza, i ricercatori introducono una nuova tecnica di suggerimento per i compiti di ragionamento “mescolando” due tecniche di suggerimento:

Catena di pensiero (CoT) Il suggerimento incoraggia i LLM a generare passaggi o ragionamenti intermedi prima di arrivare a una risposta finale. La generazione di questi passaggi aiuta il modello a migliorare i risultati delle attività complicate. Aumenta anche la precisione della risposta.
Programma di pensiero (PoT) estende i suggerimenti della catena di pensiero e utilizza l'output del modello come nuovo input per ulteriori suggerimenti. I suggerimenti che utilizzano questa tecnica spesso richiedono al modello di rispondere con il codice anziché con il linguaggio umano.

Il documento introduce inoltre due metodi per determinare la coerenza delle risposte:

Votazione: questo metodo campiona più risposte da query LLM con richieste simili o variando l'opzione della temperatura di risposta. Quindi misura quanto sono simili tra loro le risposte del LLM. Si presuppone che la risposta che concorda maggiormente con tutte le altre risposte sia corretta. Il team ha inoltre definito un valore di “soglia” flessibile che allinea la coerenza delle risposte e i vincoli di budget.
Verifica: questo approccio confronta le risposte più coerenti del LLM attraverso due distinte rappresentazioni di pensiero (ad esempio, CoT e PoT). L'algoritmo accetta la risposta LLM più debole se le due risposte rapide sono identiche.

Poiché la votazione richiede più richieste, potrebbe essere più adatto disporre di un budget per guidare il numero di soglie.

In conclusione: la combinazione di pensieri ti fa risparmiare denaro

Diamo un'occhiata a quanti soldi fa risparmiare la tecnica MoT e al suo impatto sulla precisione della risposta.

I ricercatori hanno utilizzato la seguente somma per calcolare il costo immediato:

Il costo per sollecitare il modello più debole (perché potremmo sollecitarlo più volte)
Il costo del processo di valutazione delle risposte
Se il processo di valutazione rifiuta la risposta, aggiungiamo il costo per promuovere il modello forte

I risultati furono drammatici:

L'utilizzo delle varianti MoT, che combinano voto e verifica con CoT e PoT, può portare a prestazioni comparabili al 40% del costo dell'utilizzo esclusivo di GPT-4.
Nei test contro il CREPE Set di dati di domande e risposte, MoT ha sovraperformato GPT-4 al 47% del suo costo.
Mescolare PoT e CoT migliora il processo decisionale rispetto all'utilizzo di una sola delle tecniche.
L’aumento della soglia quando si utilizza il metodo di voto non ha avuto un impatto significativo sulla qualità nonostante i costi aggiuntivi.
Il modello di coerenza si è dimostrato efficace nell'identificare in modo affidabile le risposte LLM corrette. Ha previsto con successo quando ricorrere all’utilizzo del modello forte per ottenere risultati ottimali.

Ospitare e gestire internamente Large Language Models (LLM) comporta sfide significative. Portano complessità, costi elevati e la necessità di infrastrutture estese e risorse di dati. Di conseguenza, i LLM presentano ostacoli sostanziali per le organizzazioni che cercano di sfruttare le loro ampie capacità. Ciò potrebbe portarti a rivolgerti ai LLM ospitati. Tuttavia, questo approccio presenta alle aziende aumenti di costi imprevisti e sfide di budget mentre si espandono verso nuovi casi d’uso. Ciò è particolarmente evidente quando si integrano i modelli più recenti e potenti. Per evitare questo destino, ti trovi di fronte a un nuovo dilemma: puoi fidarti di modelli più deboli e più convenienti? Riesci a superare le preoccupazioni sulla loro accuratezza nel gestire domande complesse?

LLM Cascades with Mixture of Thought (MoT) offre due significativi passi avanti:

Notevoli risparmi sui costi rispetto all'utilizzo esclusivo dei modelli più recenti.
Risultati dimostrabili alla pari con gli ultimi modelli.

Questa svolta fornisce alle organizzazioni un approccio pratico ed efficiente per destreggiarsi nel delicato equilibrio tra le potenti capacità degli LLM e l’imperativo di gestire i costi in modo efficace.

Fonte: towardsdatascience.com