Alibaba Marco-o1: Miglioramento delle capacità di ragionamento LLM

 | Intelligenza-Artificiale

Alibaba ha annunciato Marco-o1, un modello linguistico di grandi dimensioni (LLM) progettato per affrontare compiti di risoluzione dei problemi sia convenzionali che aperti.

Marco-o1, del team MarcoPolo di Alibaba, rappresenta un altro passo avanti nella capacità dell'intelligenza artificiale di gestire sfide di ragionamento complesse, in particolare in matematica, fisica, programmazione e in aree in cui potrebbero essere assenti standard chiari.

Basandosi sui progressi del ragionamento di OpenAI con il suo modello o1Marco-o1 si distingue incorporando diverse tecniche avanzate, tra cui la messa a punto della catena di pensiero (CoT), Monte Carlo Tree Search (MCTS) e nuovi meccanismi di riflessione. Questi componenti lavorano di concerto per migliorare le capacità di risoluzione dei problemi del modello in vari domini.

Il team di sviluppo ha implementato una strategia completa di messa a punto utilizzando più set di dati, tra cui una versione filtrata del set di dati CoT Open-O1, un set di dati CoT Marco-o1 sintetico e un set di dati di istruzioni Marco specializzato. In totale, il corpus di formazione comprende oltre 60.000 campioni accuratamente selezionati.

Il modello ha dimostrato risultati particolarmente impressionanti nelle applicazioni multilingue. Durante i test, Marco-o1 ha ottenuto notevoli miglioramenti della precisione del 6,17% sul set di dati MGSM inglese e del 5,60% sulla sua controparte cinese. Il modello ha mostrato particolare forza nei compiti di traduzione, soprattutto quando si tratta di gestire espressioni colloquiali e sfumature culturali.

Una delle caratteristiche più innovative del modello è l'implementazione di diverse granularità delle azioni all'interno del quadro MCTS. Questo approccio consente al modello di esplorare percorsi di ragionamento a diversi livelli di dettaglio, da passaggi ampi a “mini-passi” più precisi di 32 o 64 token. Il team ha inoltre introdotto un meccanismo di riflessione che spinge il modello ad autovalutarsi e a riconsiderare il proprio ragionamento, portando a una maggiore precisione in scenari complessi di risoluzione dei problemi.

L'integrazione MCTS si è rivelata particolarmente efficace, con tutte le versioni del modello potenziate da MCTS che mostrano miglioramenti significativi rispetto alla versione base Marco-o1-CoT. Gli esperimenti del team con diverse granularità delle azioni hanno rivelato modelli interessanti, anche se notano che determinare la strategia ottimale richiede ulteriori ricerche e modelli di ricompensa più precisi.

Confronto benchmark dell'ultimo modello Marco-o1 LLM con integrazione MCTS con modelli e varianti AI precedenti.
(Credito: MarcoPolo Team, AI Business, Alibaba International Digital Commerce)

Il team di sviluppo è stato trasparente riguardo agli attuali limiti del modello, riconoscendo che, sebbene Marco-o1 mostri forti caratteristiche di ragionamento, non è ancora all'altezza di un modello “o1” completamente realizzato. Sottolineano che questa versione rappresenta un impegno continuo al miglioramento piuttosto che un prodotto finito.

Guardando al futuro, il team di Alibaba ha annunciato l’intenzione di incorporare modelli di ricompensa, tra cui Outcome Reward Modeling (ORM) e Process Reward Modeling (PRM), per migliorare le capacità decisionali di Marco-o1. Stanno anche esplorando tecniche di apprendimento per rinforzo per affinare ulteriormente le capacità di risoluzione dei problemi del modello.

Il modello Marco-o1 e i set di dati associati sono stati messi a disposizione della comunità di ricerca tramite il repository GitHub di Alibaba, completo di documentazione completa e guide di implementazione. La versione include istruzioni di installazione e script di esempio sia per l'utilizzo diretto del modello che per la distribuzione tramite FastAPI.

(Foto di Alina Grubnjak)

Vedi anche: Le nuove tecniche di formazione sull’intelligenza artificiale mirano a superare le sfide attuali

Vuoi saperne di più sull'intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell'intelligenza artificiale e dei big data che si svolgerà ad Amsterdam, in California, e a Londra. L'evento completo è collocato in contemporanea con altri eventi importanti, tra cui Conferenza sull'automazione intelligente, BlockX, Settimana della trasformazione digitaleE Fiera sulla sicurezza informatica e sul cloud.

Esplora altri prossimi eventi e webinar sulla tecnologia aziendale forniti da TechForge Qui.

Tag: ai, Alibaba, intelligenza artificiale, modello linguistico di grandi dimensioni, llm, Marco, mct, modelli

Fonte: www.artificialintelligence-news.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *