Come ho sfruttato gli LLM open source per ottenere enormi risparmi su un progetto informatico di grandi dimensioni | di Ryan Shrott | Agosto 2023 | Intelligenza-Artificiale

Indice contenuti

Raggiungere l’efficienza in termini di costi in progetti di elaborazione di grandi dimensioni con LLM open source e noleggio GPU.

fotografato da Alessandro Grigio SU Unsplash

introduzione

Nel mondo dei modelli linguistici di grandi dimensioni (LLM), il costo del calcolo può rappresentare un ostacolo significativo, soprattutto per progetti estesi. Recentemente ho intrapreso un progetto che richiedeva l’esecuzione di 4.000.000 di prompt con una lunghezza media di input di 1000 token e una lunghezza media di output di 200 token. Sono quasi 5 miliardi di token! L’approccio tradizionale del pagamento per token, come è comune con modelli come GPT-3.5 e GPT-4, avrebbe comportato costi salati. Tuttavia, ho scoperto che sfruttando i LLM open source, potevo spostare il modello di prezzo in modo da pagare per ora di tempo di elaborazione, con conseguenti risparmi sostanziali. Questo articolo descriverà in dettaglio gli approcci che ho adottato e confronterà e confronterà ciascuno di essi. Tieni presente che, sebbene condivida la mia esperienza con i prezzi, questi sono soggetti a modifiche e possono variare a seconda della regione e delle circostanze specifiche. Il punto chiave qui è il potenziale risparmio sui costi quando si sfruttano i LLM open source e si noleggia una GPU all’ora, piuttosto che i prezzi specifici indicati. Se intendi utilizzare le soluzioni da me consigliate per il tuo progetto, ho lasciato un paio di link di affiliazione alla fine di questo articolo.

API ChatGPT

Ho condotto un test iniziale utilizzando GPT-3.5 e GPT-4 su un piccolo sottoinsieme dei miei dati di input rapidi. Entrambi i modelli hanno dimostrato prestazioni lodevoli, ma GPT-4 ha costantemente sovraperformato GPT-3.5 nella maggior parte dei casi. Per darti un’idea del costo, l’esecuzione di tutti i 4 milioni di prompt utilizzando l’API Open AI sarebbe simile a questa:

Costo totale dell’esecuzione di prompt da 4 mm con una lunghezza di input di 1.000 token e una lunghezza di output di 200 token

Sebbene GPT-4 offrisse alcuni vantaggi in termini di prestazioni, il costo era sproporzionatamente elevato rispetto alle prestazioni incrementali che aggiungeva ai miei risultati. Al contrario, GPT-3.5 Turbo, sebbene più conveniente, non è stato all’altezza in termini di prestazioni, commettendo errori evidenti sul 2-3% dei miei input rapidi. Considerati questi fattori, non ero disposto a investire 7.600 dollari in un progetto che era…