Negli ultimi anni, l’attenzione nella modellazione del linguaggio si è concentrata sul miglioramento delle prestazioni attraverso l’aumento del numero di parametri nei modelli basati su trasformatori. Questo approccio ha portato a risultati impressionanti e prestazioni all’avanguardia in molte attività di elaborazione del linguaggio naturale.

Abbiamo perseguito questa linea di ricerca anche presso DeepMind e recentemente abbiamo presentato Gopher, un modello da 280 miliardi di parametri che ha stabilito prestazioni leader in un’ampia gamma di attività tra cui la modellazione del linguaggio, la comprensione della lettura e la risposta alle domande. Da allora è stato pubblicato un modello ancora più grande denominato Megatron-Turing NLG con 530 miliardi di parametri.

A causa dei costi ingenti legati all’addestramento di questi modelli di grandi dimensioni, è fondamentale stimare la migliore configurazione di addestramento possibile per evitare sprechi di risorse. In particolare, il costo di calcolo per l’addestramento dei trasformatori è determinato da due fattori: la dimensione del modello e il numero di token di addestramento.

L’attuale generazione di modelli linguistici di grandi dimensioni ha allocato maggiori risorse computazionali per aumentare il conteggio dei parametri di modelli di grandi dimensioni e mantenere la dimensione dei dati di addestramento fissa a circa 300 miliardi di token. In questo lavoro, indaghiamo empiricamente il compromesso ottimale tra l’aumento delle dimensioni del modello e la quantità di dati di addestramento con l’aumento delle risorse computazionali. Nello specifico, poniamo la domanda: “Qual è la dimensione ottimale del modello e il numero di token di addestramento per un determinato budget di calcolo?” Per rispondere a questa domanda, addestriamo modelli di varie dimensioni e con vari numeri di token e stimiamo empiricamente questo compromesso.
La nostra scoperta principale è che gli attuali modelli linguistici di grandi dimensioni sono decisamente troppo grandi per il loro budget di calcolo e non vengono addestrati su dati sufficienti. In effetti, lo troviamo per il numero di FLOP di formazione utilizzati per allenarsi GopherSarebbe stato preferibile un modello 4 volte più piccolo addestrato su 4 volte più dati.

Testiamo la nostra ipotesi di ridimensionamento dei dati mediante l’addestramento Cincillà, un modello di parametri da 70 miliardi addestrato per 1,3 trilioni di token. Sebbene il costo di calcolo dell’addestramento per Chinchilla e Gopher sia lo stesso, scopriamo che supera Gopher e altri modelli linguistici di grandi dimensioni su quasi ogni attività misurata, nonostante abbia 70 miliardi di parametri rispetto ai 280 miliardi di Gopher.

Dopo il rilascio di Chinchilla, è stato rilasciato un modello denominato PaLM con 540 miliardi di parametri e addestrato su 768 miliardi di token. Questo modello è stato addestrato con un budget di elaborazione pari a circa 5 volte quello di Chinchilla e ha sovraperformato Chinchilla in una serie di attività. Sebbene il corpus di addestramento sia diverso, i nostri metodi prevedono che un modello di questo tipo addestrato sui nostri dati supererebbe Chinchilla nonostante non sia ottimale dal punto di vista computazionale. Dato il budget di calcolo PaLM, prevediamo che un modello da 140 miliardi di parametri addestrato su 3 trilioni di token sarà ottimale e più efficiente per l’inferenza.

Un ulteriore vantaggio dei modelli più piccoli e più performanti è che il tempo di inferenza e i costi di memoria vengono ridotti, rendendo l’esecuzione delle query sui modelli più rapida e possibile su meno hardware. In pratica, anche se i FLOP di addestramento tra Gopher e Chinchilla sono gli stessi, il costo dell’utilizzo di Chinchilla è sostanzialmente inferiore, oltre ad avere prestazioni migliori. Potrebbero essere possibili ulteriori semplici ottimizzazioni in grado di continuare a fornire grandi guadagni.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *