Estendere la lunghezza del contesto in modelli linguistici di grandi dimensioni | di Donato Riccio | Ottobre 2023 | Intelligenza-Artificiale

Come trasformare il tuo lama in una giraffa

Immagine dell’autore. (Lama generati dall’IA)

La lunghezza del contesto si riferisce al numero massimo di token che il modello può ricordare durante la generazione del testo. Una finestra di contesto più lunga consente al modello di comprendere meglio le dipendenze a lungo raggio nel testo. I modelli con contesti più lunghi possono costruire connessioni tra idee distanti nel testo, generando risultati più coerenti a livello globale.

Durante l’addestramento, il modello elabora i dati di testo in blocchi o finestre a lunghezza fissa. I modelli devono essere addestrati su testi lunghi per sfruttare effettivamente contesti lunghi. Le sequenze di allenamento devono contenere documenti, libri, articoli, ecc., con migliaia di token.
La lunghezza dei dati di training imposta un limite alla lunghezza del contesto utilizzabile.

Quindi, perché non addestriamo i modelli su sequenze più lunghe?

Non così in fretta.

Aumentando la lunghezza del contesto aumenta il numero di possibili combinazioni di token che il modello deve imparare a prevedere con precisione.
Ciò consente una modellazione a lungo raggio più solida, ma richiede anche più memoria e potenza di elaborazione, con conseguenti costi di formazione più elevati.

Senza alcuna ottimizzazione, il calcolo scala quadraticamente con la lunghezza del contesto, il che significa che un modello a 4096 token richiederà 64 volte più calcoli rispetto a un modello a 512 token.

È possibile utilizzare metodi di attenzione sparsa o approssimativa per ridurre il costo di calcolo, ma potrebbero anche influire sulla precisione del modello.

La formazione e l’utilizzo di modelli linguistici ad ampio contesto presentano tre sfide principali:

Adattamento di contesti lunghi nel modello.
Accelerazione dell’inferenza e della formazione in modo che non richiedano un’eternità.
Garantire un’inferenza di alta qualità che mantenga la consapevolezza dell’intero contesto.

Il meccanismo di attenzione è la componente principale dei modelli di trasformatore. Mette in relazione diverse posizioni di una sequenza per calcolarne la rappresentazione, consentendo ai modelli di concentrarsi su parti rilevanti del testo e comprenderlo meglio. Il ridimensionamento dei trasformatori su sequenze più lunghe deve affrontare sfide dovute alla complessità quadratica della piena attenzione.

Fonte: towardsdatascience.com