OpenAI presenta o1-mini, un modello di ragionamento conveniente incentrato sulle materie STEM. Il modello dimostra prestazioni impressionanti in matematica e codifica, somigliando molto al suo predecessore, OpenAI o1, su vari benchmark di valutazione. OpenAI prevede che o1-mini fungerà da soluzione rapida ed economica per le applicazioni che richiedono capacità di ragionamento senza una conoscenza globale estesa. Il lancio di o1-mini è mirato agli utenti API Tier 5, offrendo una riduzione dei costi dell'80% rispetto a OpenAI o1-preview. Diamo un'occhiata più approfondita al funzionamento di o1 Mini.
Panoramica
- o1-mini di OpenAI è un modello di ragionamento STEM conveniente, che supera i suoi concorrenti.
- La formazione specializzata rende o1-mini un esperto in STEM, eccellendo in matematica e codifica.
- Le valutazioni umane mettono in risalto i punti di forza di o1-mini nel ragionamento, favorendolo rispetto a GPT-4o.
- Le misure di sicurezza garantiscono un utilizzo responsabile di o1-mini, con una maggiore robustezza del jailbreak.
- L'innovazione di OpenAI con o1-mini offre uno strumento STEM affidabile e trasparente.
o1-mini vs altri LLM
LLM di solito sono pre-addestrati su grandi set di dati di testo. Ma ecco il trucco: nonostante abbiano questa vasta conoscenza, a volte può essere un po' un peso. Vedete, tutte queste informazioni li rendono un po' lenti e costosi da usare in scenari del mondo reale.
Ciò che distingue o1-mini dagli altri LLM è il fatto che è formato per STEM. Questa formazione specializzata rende o1-mini un esperto in attività correlate a STEM. Il modello è efficiente e conveniente, perfetto per le applicazioni STEM. Le sue prestazioni sono impressionanti, specialmente in matematica e codifica. O1-mini è ottimizzato per velocità e accuratezza nel ragionamento STEM. È uno strumento prezioso per ricercatori ed educatori.
o1-mini eccelle nei parametri di intelligenza e ragionamento, superando o1-preview e o1, ma ha difficoltà nei compiti di conoscenza fattuale non STEM.
Leggi anche: o1: Il nuovo modello di OpenAI che “pensa” prima di rispondere a problemi difficili
GPT 4o contro o1 contro o1-mini
Il confronto delle risposte a una domanda di ragionamento verbale evidenzia la disparità di prestazioni. Mentre GPT-4o ha faticato, o1-mini e o1-preview hanno eccelso, fornendo risposte accurate. In particolare, la velocità di o1-mini è stata notevole, rispondendo circa 3-5 volte più velocemente.
Come utilizzare o1-mini?
- ChatGPT Plus e utenti del team: Accedi a o1-mini dal selettore modello oggi stesso, con limiti settimanali di 50 messaggi.
- Utenti ChatGPT Enterprise e Education: L'accesso ad entrambi i modelli inizierà la prossima settimana.
- Sviluppatori:Gli utenti dell'API di livello 5 possono sperimentare questi modelli oggi, ma funzionalità come la chiamata di funzioni e lo streaming non sono ancora disponibili.
- Utenti gratuiti di ChatGPT: o1-mini sarà presto disponibile per tutti gli utenti gratuiti.
Prestazioni stellari di o1-mini: matematica, programmazione e oltre
Il modello OpenAI o1-mini è stato messo alla prova in varie competizioni e benchmark e le sue prestazioni sono piuttosto impressionanti. Diamo un'occhiata ai diversi componenti uno per uno:
Matematica
Nella competizione di matematica AIME per le scuole superiori, o1-mini ha ottenuto il 70,0%, che è alla pari con il modello o1 più costoso (74,4%) e significativamente migliore di o1-preview (44,6%). Questo punteggio colloca o1-mini tra i primi 500 studenti delle scuole superiori degli Stati Uniti, un risultato notevole.
Codifica
Passando alla codifica, o1-mini brilla sul sito web della competizione Codeforces, ottenendo un punteggio Elo di 1650. Questo punteggio è competitivo con o1 (1673) e supera o1-preview (1258). Ciò colloca o1-mini nell'86° percentile dei programmatori che competono sulla piattaforma Codeforces. Inoltre, o1-mini si comporta bene nel benchmark di codifica HumanEval e nelle sfide di cattura della bandiera della sicurezza informatica (CTF) a livello di scuola superiore, consolidando ulteriormente la sua abilità di codifica.
STELO
o1-mini ha dimostrato il suo valore in vari benchmark accademici che richiedono forti capacità di ragionamento. In benchmark come GPQA (scienza) e MATH-500, o1-mini ha superato GPT-4o, dimostrando la sua eccellenza in attività correlate a STEM. Tuttavia, quando si tratta di attività che richiedono una gamma più ampia di conoscenze, come MMLU, o1-mini potrebbe non funzionare bene come GPT-4o. Questo perché o1-mini è ottimizzato per il ragionamento STEM e potrebbe non avere la vasta conoscenza del mondo che possiede GPT-4o.
Valutazione delle preferenze umane
I valutatori umani hanno confrontato attivamente le prestazioni di o1-mini con quelle di GPT-4o su prompt impegnativi in vari domini. I risultati hanno mostrato una preferenza per o1-mini nei domini incentrati sul ragionamento, ma GPT-4o ha preso il comando nelle aree incentrate sul linguaggio, evidenziando i punti di forza dei modelli in diversi contesti.
Componente di sicurezza in o1-mini
La sicurezza e l'allineamento del modello o1-mini sono di fondamentale importanza per garantirne un utilizzo responsabile ed etico. Ecco una spiegazione delle misure di sicurezza implementate:
- Tecniche di allenamento: L'approccio formativo di o1-mini rispecchia quello del suo predecessore, o1-preview, focalizzandosi su allineamento e sicurezza. Questa strategia assicura che gli output del modello siano allineati con i valori umani e riducano i potenziali rischi, un aspetto cruciale del suo sviluppo.
- Robustezza del jailbreak: Una delle principali caratteristiche di sicurezza di o1-mini è la sua migliorata robustezza al jailbreak. Su una versione interna del dataset StrongREJECT, o1-mini dimostra una robustezza al jailbreak superiore del 59% rispetto a GPT-4o. La robustezza al jailbreak si riferisce alla capacità del modello di resistere ai tentativi di manipolare o abusare dei suoi output, assicurando che rimanga allineato con lo scopo previsto.
- Valutazioni di sicurezza: Prima di implementare o1-mini, è stata condotta una valutazione di sicurezza approfondita. Questa valutazione ha seguito lo stesso approccio utilizzato per o1-preview, che includeva misure di preparazione, red-teaming esterno e valutazioni di sicurezza complete. Il red-teaming esterno prevede il coinvolgimento di esperti indipendenti per identificare potenziali vulnerabilità e rischi per la sicurezza.
- Risultati dettagliati: I risultati di queste valutazioni di sicurezza sono pubblicati nella scheda di sistema allegata. Questa trasparenza consente agli utenti e ai ricercatori di comprendere le misure di sicurezza del modello e di prendere decisioni informate sul suo utilizzo. La scheda di sistema fornisce informazioni sulle prestazioni, le limitazioni e i potenziali rischi del modello, assicurando un'implementazione e un utilizzo responsabili.
Nota finale
o1-mini di OpenAI è un punto di svolta per le applicazioni STEM, offrendo efficienza in termini di costi e prestazioni impressionanti. La sua formazione specializzata migliora le capacità di ragionamento, in particolare in matematica e codifica. Con robuste misure di sicurezza, o1-mini eccelle nei benchmark STEM, fornendo uno strumento affidabile e trasparente per ricercatori ed educatori.
Rimani sintonizzato su Blog di Analytics Vidhya per saperne di più sugli utilizzi di o1 mini!
Fonte: www.analyticsvidhya.com