Mistral AI ha annunciato NeMo, un modello 12B creato in collaborazione con NVIDIAQuesto nuovo modello vanta un'impressionante finestra di contesto fino a 128.000 token e rivendica prestazioni all'avanguardia in termini di ragionamento, conoscenza del mondo e accuratezza della codifica per la sua categoria di dimensioni.
La collaborazione tra Mistral AI e NVIDIA ha prodotto un modello che non solo spinge i confini delle prestazioni, ma dà anche priorità alla facilità d'uso. Mistral NeMo è progettato per essere una sostituzione perfetta per i sistemi che attualmente utilizzano Mistral 7B, grazie alla sua dipendenza dall'architettura standard.
In una mossa per incoraggiare l'adozione e l'ulteriore ricerca, Mistral AI ha reso disponibili sia i checkpoint di base pre-addestrati che quelli sintonizzati sulle istruzioni con la licenza Apache 2.0. Questo approccio open source probabilmente piacerà sia ai ricercatori che alle aziende, accelerando potenzialmente l'integrazione del modello in varie applicazioni.
Una delle caratteristiche principali di Mistral NeMo è la consapevolezza della quantizzazione durante l'addestramento, che consente l'inferenza FP8 senza compromettere le prestazioni. Questa capacità potrebbe rivelarsi cruciale per le organizzazioni che cercano di distribuire in modo efficiente modelli linguistici di grandi dimensioni.
Mistral AI ha fornito confronti delle prestazioni tra il modello base Mistral NeMo e due recenti modelli open source pre-addestrati: Gemma 2 9B e Llama 3 8B.
“Il modello è progettato per applicazioni globali e multilingue. È addestrato sulla chiamata di funzione, ha una grande finestra di contesto ed è particolarmente forte in inglese, francese, tedesco, spagnolo, italiano, portoghese, cinese, giapponese, coreano, arabo e hindi”, ha spiegato Mistral AI.
“Si tratta di un nuovo passo avanti verso la messa a disposizione di tutti di modelli di intelligenza artificiale all'avanguardia, in tutte le lingue che compongono la cultura umana”.
Mistral NeMo presenta Tekken, un nuovo tokenizzatore basato su Tiktoken. Addestrato su oltre 100 lingue, Tekken offre un'efficienza di compressione migliorata sia per il testo in linguaggio naturale che per il codice sorgente rispetto al tokenizzatore SentencePiece utilizzato nei precedenti modelli Mistral. L'azienda segnala che Tekken è circa il 30% più efficiente nella compressione del codice sorgente e di diverse lingue principali, con guadagni ancora più significativi per coreano e arabo.
Mistral AI sostiene inoltre che Tekken supera il tokenizzatore Llama 3 nella compressione del testo per circa l'85% di tutte le lingue, il che conferisce potenzialmente a Mistral NeMo un vantaggio nelle applicazioni multilingue.
I pesi del modello sono ora disponibili su HuggingFace per entrambi base E istruire versioni. Gli sviluppatori possono iniziare a sperimentare con Mistral NeMo usando lo strumento mistral-inference e adattarlo con mistral-finetune. Per coloro che usano la piattaforma di Mistral, il modello è accessibile con il nome open-mistral-nemo.
In un cenno alla collaborazione con NVIDIA, Mistral NeMo è anche confezionato come un microservizio di inferenza NVIDIA NIM, disponibile tramite ai.nvidia.comQuesta integrazione potrebbe semplificare l'implementazione per le organizzazioni che hanno già investito nell'ecosistema AI di NVIDIA.
Il rilascio di Mistral NeMo rappresenta un significativo passo avanti nella democratizzazione dei modelli di IA avanzati. Combinando elevate prestazioni, capacità multilingue e disponibilità open source, Mistral AI e NVIDIA stanno posizionando questo modello come uno strumento versatile per un'ampia gamma di applicazioni di IA in vari settori e campi di ricerca.
(Fotografato da Davide Clode)
Guarda anche: Meta si unisce ad Apple nel trattenere i modelli di intelligenza artificiale dagli utenti dell'UE
Vuoi saperne di più sull'intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera AI e Big Data che si svolge ad Amsterdam, California e Londra. L'evento completo è co-localizzato con altri eventi leader tra cui Conferenza sull'automazione intelligente, BloccoX, Settimana della Trasformazione DigitaleE Fiera della sicurezza informatica e del cloud.
Esplora altri prossimi eventi e webinar sulla tecnologia aziendale forniti da TechForge Qui.
Fonte: www.artificialintelligence-news.com