FrugalGPT e riduzione dei costi operativi LLM |  di Matthew Gunton |  Marzo 2024

 | Intelligenza-Artificiale

Esistono diversi modi per determinare il costo di gestione di un LLM (uso di elettricità, costi di calcolo, ecc.), tuttavia, se utilizzi un LLM di terze parti (un LLM-as-a-service), in genere ti addebitano in base al token che usi. Diversi fornitori (OpenAI, Anthropic, Cohere, ecc.) hanno modi diversi di contare i token, ma per semplicità, considereremo il costo basato sul numero di token elaborati da LLM.

La parte più importante di questo quadro è l’idea che modelli diversi costano importi diversi. Gli autori dell'articolo hanno opportunamente assemblato la tabella seguente evidenziando la differenza di costo e la differenza tra loro è significativa. Ad esempio, i token di output di AI21 costano un ordine di grandezza in più rispetto a quelli di GPT-4 in questa tabella!

Tabella 1 dalla carta

Nell'ambito dell'ottimizzazione dei costi, dobbiamo sempre trovare un modo per ottimizzare la qualità della risposta riducendo al minimo i costi. In genere, i modelli a costo più elevato sono spesso modelli con prestazioni più elevate, in grado di fornire risposte di qualità superiore rispetto a quelli a costo inferiore. La relazione generale può essere vista nel grafico sottostante, con le prestazioni di Frugal GPT sovrapposte in rosso.

Figura 1c dalla carta confrontando vari LLM in base alla frequenza con cui risponderebbero accuratamente alle domande basate sul set di dati HEADLINES

Utilizzando l'ampia differenza di costo tra i modelli, il sistema FrugalGPT dei ricercatori si basa su una cascata di LLM per fornire all'utente una risposta. In parole povere, la query dell'utente inizia con il LLM più economico e, se la risposta è abbastanza buona, viene restituita. Tuttavia, se la risposta non è abbastanza buona, la query viene passata al successivo LLM più economico.

I ricercatori hanno utilizzato la seguente logica: se un modello meno costoso risponde in modo errato a una domanda, è probabile che un modello più costoso dia la risposta correttamente. Pertanto, per ridurre al minimo i costi, la catena viene ordinata dal meno costoso al più costoso, presupponendo che la qualità aumenti man mano che il prezzo aumenta.

Figura 2e dalla carta illustrando la cascata LLM

Questa configurazione si basa sulla determinazione affidabile quando una risposta è abbastanza buona e quando non lo è. Per risolvere questo problema, gli autori hanno creato un modello DistilBERT che prenderebbe la domanda e la risposta, quindi assegnerebbe un punteggio alla risposta. Poiché il modello DistilBERT è esponenzialmente più piccolo degli altri modelli nella sequenza, il costo per gestirlo è quasi trascurabile rispetto agli altri.

Ci si potrebbe naturalmente chiedere, se la qualità è la cosa più importante, perché non semplicemente interrogare il miglior LLM e lavorare su modi per ridurre i costi di gestione del miglior LLM?

Quando è uscito questo documento, GPT-4 era il miglior LLM che hanno trovato, ma GPT-4 non ha sempre fornito una risposta migliore rispetto al sistema FrugalGPT! (I lettori più attenti lo vedranno come parte del grafico costi/prestazioni di prima) Gli autori ipotizzano che, proprio come la persona più capace non sempre dà la risposta giusta, neanche il modello più complesso lo farà. Pertanto, facendo passare la risposta attraverso un processo di filtraggio con DistilBERT, rimuovi tutte le risposte che non sono all'altezza e aumenti le probabilità di una buona risposta.

Figura 5a dalla carta mostrando casi in cui FrugalGPT sta sovraperformando GPT-4

Di conseguenza, questo sistema non solo riduce i costi ma può anche aumentare la qualità molto più del semplice utilizzo del miglior LLM!

I risultati di questo articolo sono affascinanti da considerare. Per me, ciò solleva dubbi su come possiamo andare oltre con il risparmio sui costi senza dover investire in un’ulteriore ottimizzazione del modello.

Una di queste possibilità è quella di memorizzare nella cache tutte le risposte del modello in un database vettoriale e quindi eseguire una ricerca di similarità per determinare se la risposta nella cache funziona prima di avviare la cascata LLM. Ciò ridurrebbe significativamente i costi sostituendo un'operazione LLM costosa con un'operazione di query e somiglianza relativamente meno costosa.

Inoltre, viene da chiedersi se valga ancora la pena ottimizzare i costi per modelli obsoleti, poiché se si riesce a ridurre il loro costo per token, possono comunque creare valore sulla cascata LLM. Allo stesso modo, la domanda chiave qui è a che punto si ottengono rendimenti decrescenti aggiungendo nuovi LLM alla catena.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *