Raggiungere l’efficienza in termini di costi in progetti di elaborazione di grandi dimensioni con LLM open source e noleggio GPU.
introduzione
Nel mondo dei modelli linguistici di grandi dimensioni (LLM), il costo del calcolo può rappresentare un ostacolo significativo, soprattutto per progetti estesi. Recentemente ho intrapreso un progetto che richiedeva l’esecuzione di 4.000.000 di prompt con una lunghezza media di input di 1000 token e una lunghezza media di output di 200 token. Sono quasi 5 miliardi di token! L’approccio tradizionale del pagamento per token, come è comune con modelli come GPT-3.5 e GPT-4, avrebbe comportato costi salati. Tuttavia, ho scoperto che sfruttando i LLM open source, potevo spostare il modello di prezzo in modo da pagare per ora di tempo di elaborazione, con conseguenti risparmi sostanziali. Questo articolo descriverà in dettaglio gli approcci che ho adottato e confronterà e confronterà ciascuno di essi. Tieni presente che, sebbene condivida la mia esperienza con i prezzi, questi sono soggetti a modifiche e possono variare a seconda della regione e delle circostanze specifiche. Il punto chiave qui è il potenziale risparmio sui costi quando si sfruttano i LLM open source e si noleggia una GPU all’ora, piuttosto che i prezzi specifici indicati. Se intendi utilizzare le soluzioni da me consigliate per il tuo progetto, ho lasciato un paio di link di affiliazione alla fine di questo articolo.
API ChatGPT
Ho condotto un test iniziale utilizzando GPT-3.5 e GPT-4 su un piccolo sottoinsieme dei miei dati di input rapidi. Entrambi i modelli hanno dimostrato prestazioni lodevoli, ma GPT-4 ha costantemente sovraperformato GPT-3.5 nella maggior parte dei casi. Per darti un’idea del costo, l’esecuzione di tutti i 4 milioni di prompt utilizzando l’API Open AI sarebbe simile a questa:
Sebbene GPT-4 offrisse alcuni vantaggi in termini di prestazioni, il costo era sproporzionatamente elevato rispetto alle prestazioni incrementali che aggiungeva ai miei risultati. Al contrario, GPT-3.5 Turbo, sebbene più conveniente, non è stato all’altezza in termini di prestazioni, commettendo errori evidenti sul 2-3% dei miei input rapidi. Considerati questi fattori, non ero disposto a investire 7.600 dollari in un progetto che era…