Ottimizzazione degli LLM su una singola scheda grafica consumer | di Naser Tamimi | Gennaio 2024 | Intelligenza-Artificiale

Indice contenuti

IA GENERATIVA

Apprendimenti derivanti dalla messa a punto di un modello linguistico di grandi dimensioni su una singola GPU consumer

Quando pensiamo ai modelli linguistici di grandi dimensioni o a qualsiasi altro modello generativo, il primo hardware che ci viene in mente è la GPU. Senza le GPU, molti progressi nell’intelligenza artificiale generativa, nel machine learning, nel deep learning e nella scienza dei dati sarebbero stati impossibili. Se 15 anni fa i giocatori erano entusiasti delle ultime tecnologie GPU, oggi data scientist e ingegneri del machine learning si uniscono a loro e inseguono le novità anche in questo campo. Sebbene di solito i giocatori e gli utenti ML guardino due diversi tipi di GPU e schede grafiche.

Gli utenti di giochi utilizzano solitamente schede grafiche consumer (come le GPU NVIDIA GeForce RTX Series), mentre gli sviluppatori di machine learning e intelligenza artificiale di solito seguono le notizie sulle GPU per data center e cloud computing (come V100, A100 o H100). Le schede grafiche per giochi di solito hanno molta meno memoria GPU (al massimo 24 GB a partire da gennaio 2024) rispetto alle GPU Data Center (solitamente nell’intervallo da 40 GB a 80 GB). Inoltre, il loro prezzo è un’altra differenza significativa. Mentre la maggior parte delle schede grafiche consumer può arrivare fino a $ 3000, la maggior parte delle schede grafiche Data Center parte da quel prezzo e può arrivare facilmente a decine di migliaia di dollari.

Poiché molte persone, me compreso, potrebbero avere una scheda grafica consumer per i giochi o per l’uso quotidiano, potrebbero essere interessate a vedere se possono utilizzare le stesse schede grafiche per l’addestramento, la messa a punto o l’inferenza dei modelli LLM. Nel 2020 ho scritto un articolo completo sulla possibilità di utilizzare schede grafiche consumer per progetti di data science (collegamento all’articolo). A quel tempo, i modelli erano per lo più piccoli modelli ML o Deep Learning e anche una scheda grafica con 6 GB di memoria poteva gestire molti progetti di formazione. Ma in questo articolo utilizzerò una scheda grafica di questo tipo per modelli linguistici di grandi dimensioni con miliardi di parametri.

Per questo articolo ho utilizzato la mia scheda Geoforce 3090 RTX che ha 24 GB di memoria GPU. Per riferimento, le schede grafiche per data center come A100 e H100 hanno rispettivamente 40 GB e 80 GB di memoria. Inoltre, una tipica istanza AWS EC2 p4d.24xlarge ha 8 GPU (V100) con un totale di 320 GB di memoria GPU. Come puoi vedere la differenza tra un semplice consumatore…

Fonte: towardsdatascience.com