Perché la diffusione del testo?
Sebbene la comunità di ricerca sull’intelligenza artificiale abbia esplorato per anni la generazione di testo basata sulla diffusione, applicarla a modelli di grandi dimensioni è rimasta una sfida. DiffusionGemma cambia questo cambiando il modo in cui i modelli utilizzano l’hardware.
Il compromesso con i modelli tradizionali
La maggior parte dei modelli linguistici si comportano come una macchina da scrivere, generando un token alla volta da sinistra a destra. Nel cloud, questo è efficiente perché i server possono raggruppare insieme migliaia di richieste degli utenti per condividere il carico hardware. Ma quando viene eseguito localmente per un singolo utente, questo processo parola per parola lascia la GPU o il TPU dedicati sottoutilizzati: passa la maggior parte del tempo semplicemente aspettando la successiva “pressione di un tasto”.
DiffusionGemma ribalta questa inefficienza. Invece di prevedere le parole in sequenza, redige simultaneamente un intero paragrafo di 256 token. Assegnando al processore del computer una maggiore quantità di lavoro contemporaneamente, DiffusionGemma utilizza l’hardware al massimo delle sue potenzialità. Aggiorna l’inferenza del modello da una singola macchina da scrivere sequenziale a un’enorme macchina da stampa che stampa simultaneamente l’intero blocco di testo.
Fonte: deepmind.google
