Negli ultimi anni, sono stati ottenuti miglioramenti significativi delle prestazioni nella modellazione del linguaggio autoregressivo aumentando il numero di parametri nei modelli Transformer. Ciò ha portato a un enorme aumento del costo energetico della formazione e ha portato alla generazione di densi “Large Language Models” (LLM) con oltre 100 miliardi di parametri. Allo stesso tempo, sono stati raccolti grandi set di dati contenenti trilioni di parole per facilitare la formazione di questi LLM.
Esploriamo un percorso alternativo per migliorare i modelli linguistici: aumentiamo i trasformatori con il recupero su un database di passaggi di testo tra cui pagine web, libri, notizie e codice. Chiamiamo il nostro metodo RETRO, che sta per “Retrieval Enhanced TRansfOrmers”.
Nei tradizionali modelli linguistici dei trasformatori, i vantaggi della dimensione del modello e della dimensione dei dati sono collegati: finché il set di dati è sufficientemente grande, le prestazioni della modellazione linguistica sono limitate dalla dimensione del modello. Tuttavia, con RETRO il modello non si limita ai dati visualizzati durante l’addestramento: ha accesso all’intero set di dati di addestramento attraverso il meccanismo di recupero. Ciò si traduce in miglioramenti prestazionali significativi rispetto a un trasformatore standard con lo stesso numero di parametri. Mostriamo che la modellazione del linguaggio migliora continuamente man mano che aumentiamo le dimensioni del database di recupero, almeno fino a 2 trilioni di token – 175 vite intere di lettura continua.
Per ogni passaggio di testo (approssimativamente un paragrafo di un documento), viene effettuata una ricerca del vicino più vicino che restituisce sequenze simili trovate nel database di training, e la loro continuazione. Queste sequenze aiutano a prevedere la continuazione del testo di input. L’architettura RETRO intercala la regolare attenzione al sé a livello del documento e l’attenzione incrociata con i vicini recuperati a un livello di passaggio più fine. Ciò si traduce in continuazioni più accurate e più fattuali. Inoltre, RETRO aumenta l’interpretabilità delle previsioni del modello e fornisce un percorso per interventi diretti attraverso il database di recupero per migliorare la sicurezza della continuazione del testo. Nei nostri esperimenti sul Pile, un benchmark di modellazione linguistica standard, un modello RETRO da 7,5 miliardi di parametri supera il modello Jurassic-1 da 175 miliardi di parametri su 10 set di dati su 16 e supera il Gopher 280B su 9 set di dati su 16.
Di seguito, mostriamo due esempi dal nostro modello di base 7B e dal nostro modello di modello RETRO 7.5B che evidenziano come gli esempi di RETRO siano più concreti e rimangano più in tema rispetto al campione di base.
Fonte: deepmind.google