È dicembre: il mondo sta rallentando e in alcuni angoli cade la neve. Ma OpenAI? Hanno appena iniziato. In vero spirito festivo, Sam Altman e il suo team stanno dando il via a una serie di regali di 12 giorni, e il primo è un grosso problema: OpenAI o1, il loro modello più potente finora. Per mesi, GPT-4 è stato il LLM di riferimento per tutto, ma ora o1 è qui per dare una scossa alle cose. Cosa porta in tavola? In questo blog, metteremo l'uno contro l'altro OpenAI o1 e GPT-4o per alcuni compiti e vedremo quale modello risulterà vincitore. Cominciamo.
OpenAI o1- Cosa c'è di nuovo?
L'ultimo modello o1 di OpenAI è una versione perfezionata del modello o1-preview rilasciato a settembre 2024. È progettato per affrontare attività più complesse con maggiore precisione e velocità.
- Rispetto al suo predecessore o1-preview, o1 dimostra una notevole capacità di pensare in modo più conciso per problemi più semplici. Il tempo di riflessione è proporzionato al livello di difficoltà della query.
- Secondo OpenAI, o1 supera significativamente il suo predecessore, o1-Preview, nel ragionamento matematico e nelle attività relative alla codifica.
- o1 ha funzionalità multimodali, il che significa che può funzionare con testo, immagini e audio mentre l'anteprima di o1 era limitata solo al testo.
Saperne di più: OpenAI o1 è disponibile: il modello più avanzato è disponibile per l'USO!
Come accedere a o1?
o1 è disponibile in ChatGPT Plus e ChatGPT Pro piano. Non è disponibile nel piano gratuito. Mentre il piano ChatGPT Pro consente chat illimitate con o1, il piano Plus consente solo un numero limitato di chat con o1. Per accedere a o1:
- Vai su ChatGPT e accedi al tuo account Pro/Plus.
- In alto, sul lato sinistro dello schermo, sotto la scelta del modello, puoi selezionare il modello con cui desideri lavorare.
o1 contro GPT-4o: la resa dei conti
Anche con l'anteprima di o1 che ha fatto rumore negli ultimi mesi, GPT-4o ha mantenuto la sua posizione come la scelta migliore sia per gli utenti tecnici che per quelli non tecnici di ChatGPT. Lanciato nel maggio 2024, GPT-4o è un raffinato modello multimodale celebrato per la sua precisione, velocità e versatilità.
Elabora senza problemi testo, immagini e audio con tempi di risposta simili a quelli umani e precisione all'avanguardia. Eccellendo nel ragionamento complesso e nella comprensione sfumata, vanta un'impressionante capacità di comprensione Punteggio 88,7%. sui parametri MMLU, stabilendo uno standard elevato per l’IA multimodale.
Ora o1 sta rubando i riflettori con le sue eccezionali prestazioni in matematica, programmazione e risoluzione di problemi complessi. È un'audace affermazione di eccellenza, ma o1 supera davvero GPT-4o come modello definitivo?
Per scoprirlo, li stiamo mettendo alla prova con cinque compiti impegnativi. Ecco i 5 compiti:
- Comprendere il problema e progettare un diagramma di flusso
- Analisi delle immagini con la scienza
- Analisi delle immagini con la matematica
- Risolvi un puzzle di Sudoku
- Generazione di immagini
Vediamo quale LLM emerge come il campione indiscusso!
Sfida 1: comprendere il problema e progettare un diagramma di flusso
Richiesta: “Ho bisogno di un semplice diagramma di flusso e di una spiegazione dettagliata degli strumenti e delle tecnologie necessarie per implementare un sistema di analisi del sentiment.
Il sistema dovrebbe recuperare notizie relative alle azioni utilizzando un'API News, analizzare il sentiment (positivo, negativo o neutro) e fornire ai clienti un riepilogo di 140 caratteri e il sentiment.
Risultato:
Con GPT-4o abbiamo ottenuto una descrizione concettuale del diagramma di flusso insieme a un'immagine vaga che rappresenta un diagramma di flusso. Anche se la descrizione del testo mostra i passaggi in modo preciso e accurato, il diagramma è pieno di errori di ortografia e di un flusso di eventi confuso.
Con o1 abbiamo ottenuto un diagramma di flusso semplice ma pulito senza errori di ortografia. Quindi, nella descrizione del testo, abbiamo ottenuto i dettagli riguardanti ciascuna parte del diagramma di flusso, spiegati bene. Abbiamo ottenuto alcune informazioni aggiuntive su altri strumenti e tecnologie che potremmo utilizzare per l'attività. Alla fine, abbiamo ottenuto un riepilogo conciso che spiega brevemente ogni passaggio: una risposta completa end-to-end!
Verdetto: Per questo compito – o1 ha colpito la palla fuori dal parco.
Sfida 2: Analisi delle immagini con la scienza
Richiesta: “Calcola l'output di questo schema elettrico.”
Risultato:
GPT-4o identifica correttamente lo schema elettrico e identifica correttamente alcuni componenti dell'immagine inclusa la tensione di ingresso e di uscita. Tuttavia, non riesce a leggere il grafico all'interno dell'immagine per ottenere informazioni dettagliate sui valori di tensione. Piuttosto, nella sua risposta, ci suggerisce quei valori per ulteriori calcoli.
o1, impiega un paio di secondi per analizzare l'immagine. Identifica correttamente tutti i componenti e legge anche i valori per ciascun componente dall'immagine. Il modello descrive l'operazione eseguita all'interno del circuito. Quindi calcola i parametri chiave del circuito, tiene conto anche dei piccoli fattori di carico e li segnala. Un colpo da maestro di o1! Non solo ha compreso il compito, ma ha anche letto tutti i valori dai grafici all'interno dell'immagine per calcolare i valori di output: corretti e concisi!
Verdetto: Chiaramente, o1 è un master in Fisica!
Sfida 3: Analisi delle immagini con la matematica
Richiesta: “Qual è la probabilità di vittoria di ciascuna squadra in questa partita?”
Risultato:
Generato da GPT-4o
Generato da o1
GPT-4o comprendeva correttamente il gioco ma non riusciva a comprendere correttamente il formato riprodotto. Ha letto correttamente altri dettagli nell'immagine come il punteggio e i wicket presi dal giocatore di bocce. Tuttavia, nel complesso, la sua analisi non è stata dettagliata e non ci ha fornito la probabilità di vittoria di nessuna squadra.
o1, ha capito il compito e ha fatto un ottimo lavoro analizzando l'immagine. Dall'identificazione corretta della partita, al formato, ai dettagli riguardanti la squadra che schiera e anche alla pausa tè. Infine, fa un lavoro fantastico calcolando la probabilità di vittoria di ciascuna squadra, fornendo ottime ragioni a sostegno della sua risposta.
Verdetto: o1 fa il lavoro e lo fa bene!
Sfida 4: risolvi un Sudoku
Richiesta: “Risolvi il seguente Sudoku e fornisci la soluzione finale come immagine.”
Risultato:
Generato da o1
GPT-4o genera istantaneamente la risposta come grafico Matplotlib. La risposta è stata rapida ma errata.
o1 invece impiega del tempo per pensare alla soluzione. Mette con cura i punti al posto degli spazi vuoti e poi prova diverse iterazioni, spiega i posizionamenti, quindi identifica anche l'errore in ciascuna delle sue soluzioni ma alla fine, il risultato finale che genera, non è ancora la soluzione giusta. La sua risposta è stata ritardata, ben ponderata, ma errata!
Verdetto: Quindi per questo compito, sia GPT-4o che o1 non sono riusciti a fornire la soluzione giusta, che era:
Sfida 5: generazione di immagini
Richiesta: “Crea l'immagine di un cane che corre vicino alla riva del mare”
Risultato:
GPT-4o genera rapidamente l'immagine di un cane felice che salta in riva al mare. Esegui il compito che abbiamo chiesto in modo rapido ed efficiente. Oh e che cane carino!
o1 per ora non può generare immagini. Pertanto, ci fornisce semplicemente un suggerimento dettagliato che possiamo utilizzare per generare un'immagine utilizzando un generatore di immagini AI. Sembra che non sia ancora collegato a DALL.E!
Verdetto: Per questa sfida, GPT-4o è imbattuto.
Conclusione
o1 sta senza dubbio superando GPT-4o nella maggior parte dei casi. Grazie alle sue capacità migliorate di ragionamento e pensiero logico, eccelle nel comprendere query complesse e nel generare risposte più pertinenti e precise. È più veloce della versione di anteprima o1 e notevolmente più conciso nelle risposte.
Ma è perfetto? E' l'AGI? Certamente no. Come ogni modello, o1 ha i suoi limiti. Può generare risposte errate e richiedere più iterazioni per arrivare al risultato desiderato.
Detto questo, o1 è uno strumento straordinario per ricercatori, scienziati, progettisti e persino studenti. Le sue eccezionali capacità di risoluzione dei problemi, la grande attenzione ai dettagli e le funzionalità vocali avanzate lo rendono una risorsa potente. Che si tratti di affrontare attività complesse o di assistere con flussi di lavoro creativi, o1 racchiude un immenso potenziale per migliorare la produttività e l'innovazione.
Domande frequenti
R. o1 è l'ultima versione del modello di anteprima o1 lanciato da OpenAI. Questo modello eccelle nel ragionamento avanzato, nel pensiero logico, nella matematica e nelle attività legate alla codifica.
R. CHatGPT pro è l'ultimo piano di OpenAI che include l'uso illimitato degli ultimi modelli di OpenAI come o1 pro, o1, GPT-4o, GPT – 4o mini e altro ancora. Questo piano includerà funzionalità e capacità avanzate per migliorare la velocità e l’efficienza di questi modelli.
R. o1 è migliore di GPT 4o per attività come ragionamento avanzato, matematica, scienze a livello di dottorato e programmazione. GPT-4o è ottimo per le attività quotidiane che coinvolgono la generazione di testo e immagini.
R. Sì, puoi utilizzare o1 nel piano ChatGPT Plus. Ma c'è un limite al suo utilizzo in questo piano.
R. Sì, o1 è LLM multimodale. Può elaborare testo, immagini e file audio.
Fonte: www.analyticsvidhya.com