Galileo, uno sviluppatore leader di intelligenza artificiale generativa per applicazioni aziendali, ha rilasciato la sua ultima Indice di allucinazione.
Il quadro di valutazione, incentrato sulla generazione aumentata del recupero (RAG), ha valutato 22 importanti LLM di Gen AI di importanti attori tra cui OpenAI, Anthropic, Google e MetaL'indice di quest'anno si è ampliato in modo significativo, aggiungendo 11 nuovi modelli per riflettere la rapida crescita degli LLM open source e closed source negli ultimi otto mesi.
Vikram Chatterji, CEO e co-fondatore di Galileo, ha affermato: “Nell'attuale panorama dell'IA in rapida evoluzione, sviluppatori e aziende affrontano una sfida critica: come sfruttare la potenza dell'IA generativa bilanciando costi, accuratezza e affidabilità. Gli attuali benchmark si basano spesso su casi d'uso accademici, piuttosto che su applicazioni del mondo reale”.
L'indice ha utilizzato la metrica di valutazione proprietaria di Galileo, context adherence, per verificare le imprecisioni di output su varie lunghezze di input, che vanno da 1.000 a 100.000 token. Questo approccio mira ad aiutare le aziende a prendere decisioni informate sul bilanciamento di prezzo e prestazioni nelle loro implementazioni AI.
I risultati principali dell'indice includono:
- Antropico Claude 3.5 Sonetto è emerso come il modello con le migliori prestazioni complessive, ottenendo costantemente punteggi quasi perfetti in scenari di breve, medio e lungo periodo.
- Di Google Gemelli 1.5 Flash classificato come il modello più performante in termini di rapporto costo-efficacia, garantendo ottime prestazioni in tutte le attività.
- Istruzione Qwen2-72B di Alibaba si è distinto come il miglior modello open source, eccellendo in particolare negli scenari di breve e medio periodo.
L'indice ha inoltre evidenziato diverse tendenze nel panorama degli LLM:
- Modelli open source stanno rapidamente colmando il divario con le loro controparti closed-source, offrendo prestazioni allucinatorie migliorate a costi inferiori.
- Attuale LLM RAG dimostrano miglioramenti significativi nella gestione di lunghezze di contesto estese senza sacrificare qualità o accuratezza.
- Modelli più piccoli a volte hanno prestazioni migliori rispetto a quelle più grandi, il che suggerisce che una progettazione efficiente può essere più importante della scala.
- L'emergere di performer forti da fuori gli Stati Uniticome quello di Mistral Mistral-grande e qwen2-72b-instruct di Alibaba, indicano una crescente competizione globale nello sviluppo dell'LLM.
Mentre modelli closed-source come Claude 3.5 Sonnet e Gemini 1.5 Flash mantengono il loro primato grazie ai dati di training proprietari, l'indice rivela che il panorama si sta evolvendo rapidamente. La performance di Google è stata particolarmente degna di nota, con il suo modello open-source Gemma-7b che ha avuto prestazioni scadenti mentre il suo closed-source Gemini 1.5 Flash si è costantemente classificato vicino alla cima.
Mentre il settore dell'intelligenza artificiale continua a confrontarsi con il problema delle allucinazioni, che rappresentano un ostacolo importante alla produzione di prodotti di intelligenza artificiale di ultima generazione, l'indice di allucinazione di Galileo fornisce preziose informazioni alle aziende che desiderano adottare il modello più adatto alle proprie esigenze specifiche e ai limiti di budget.
Guarda anche: I senatori indagano su OpenAI in materia di sicurezza e pratiche di impiego
Vuoi saperne di più sull'intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera AI e Big Data che si svolge ad Amsterdam, California e Londra. L'evento completo è co-localizzato con altri eventi leader tra cui Conferenza sull'automazione intelligente, BloccoX, Settimana della Trasformazione DigitaleE Fiera della sicurezza informatica e del cloud.
Esplora altri prossimi eventi e webinar sulla tecnologia aziendale forniti da TechForge Qui.
Il post Da Anthropic a Google: chi sta vincendo contro le allucinazioni dell'intelligenza artificiale? è apparso per la prima volta su Notizie di intelligenza artificiale.
Fonte: www.artificialintelligence-news.com