Alzare il livello dei modelli linguistici aperti | Intelligenza-Artificiale

Indice contenuti

Ai2 sta rilasciando OLMo 2, una famiglia di modelli linguistici open source che promuove la democratizzazione dell'intelligenza artificiale e riduce il divario tra soluzioni aperte e proprietarie.

I nuovi modelli, disponibili nelle versioni con parametri 7B e 13B, vengono addestrati su un massimo di 5 trilioni di token e dimostrano livelli di prestazioni che corrispondono o superano modelli comparabili completamente aperti pur rimanendo competitivi con modelli open-weight come Llama 3.1 sui benchmark accademici inglesi.

“Dal rilascio del primo OLMo nel febbraio 2024, abbiamo assistito a una rapida crescita nell’ecosistema del modello linguistico aperto e a una riduzione del divario prestazionale tra modelli aperti e proprietari”, ha spiegato Ai2.

Il team di sviluppo ha ottenuto questi miglioramenti attraverso diverse innovazioni, tra cui misure migliorate di stabilità della formazione, approcci di formazione graduali e metodologie post-formazione all'avanguardia derivate dai loro studi. Litigio 3 struttura. Notevoli miglioramenti tecnici includono il passaggio dalla norma dello strato non parametrico a RMSNorm e l'implementazione dell'incorporamento posizionale rotatorio.

Una svolta nella formazione del modello OLMo 2

Il processo di formazione ha utilizzato un sofisticato approccio in due fasi. La fase iniziale ha utilizzato il set di dati OLMo-Mix-1124 di circa 3,9 trilioni di token, provenienti da DCLM, Dolma, Starcoder e Proof Pile II. La seconda fase ha incorporato una miscela attentamente curata di dati web di alta qualità e contenuti specifici del dominio attraverso il set di dati Dolmino-Mix-1124.

Particolarmente degna di nota è la variante OLMo 2-Instruct-13B, che è il modello più capace della serie. Il modello dimostra prestazioni superiori rispetto ai modelli Qwen 2.5 14B instruct, Tülu 3 8B e Llama 3.1 8B instruct in vari benchmark.

I benchmark confrontano il modello linguistico aperto di OLMo 2 con altri modelli come Mistral, Qwn, Llama, Gemma e altri. — *(Credito: Ai2)*

Impegno per la scienza aperta

Rafforzando il proprio impegno nei confronti della scienza aperta, Ai2 ha rilasciato una documentazione completa che include pesi, dati, codice, ricette, punti di controllo intermedi e modelli ottimizzati per le istruzioni. Questa trasparenza consente la completa ispezione e riproduzione dei risultati da parte della più ampia comunità di intelligenza artificiale.

La versione introduce anche un quadro di valutazione chiamato OLMES (Open Language Modeling Evaluation System), che comprende 20 benchmark progettati per valutare capacità fondamentali come il ricordo della conoscenza, il ragionamento basato sul buon senso e il ragionamento matematico.

OLMo 2 alza il livello nello sviluppo dell'intelligenza artificiale open source, accelerando potenzialmente il ritmo dell'innovazione nel settore pur mantenendo trasparenza e accessibilità.

(Foto di Rick Barrett)

Vedi anche: OpenAI migliora la sicurezza dell'IA con nuovi metodi di red teaming