GPT-4o offre un'interazione IA simile a quella umana con integrazione di testo, audio e visione

 | Intelligenza-Artificiale

OpenAI ha lanciato il suo nuovo modello di punta, GPT-4o, che integra perfettamente input e output di testo, audio e video, promettendo di migliorare la naturalezza delle interazioni con la macchina.

GPT-4o, dove la “o” sta per “omni”, è progettato per soddisfare uno spettro più ampio di modalità di input e output. “Accetta come input qualsiasi combinazione di testo, audio e immagine e genera qualsiasi combinazione di output di testo, audio e immagine”, ha annunciato OpenAI.

Gli utenti possono aspettarsi un tempo di risposta di soli 232 millisecondi, rispecchiando la velocità di conversazione umana, con un tempo di risposta medio impressionante di 320 millisecondi.

Capacità pionieristiche

L'introduzione di GPT-4o segna un passo avanti rispetto ai suoi predecessori elaborando tutti gli input e gli output attraverso un'unica rete neurale. Questo approccio consente al modello di conservare informazioni e contesto critici che in precedenza andavano persi nella pipeline del modello separata utilizzata nelle versioni precedenti.

Prima di GPT-4o, la “Modalità vocale” poteva gestire interazioni audio con latenze di 2,8 secondi per GPT-3.5 e 5,4 secondi per GPT-4. La configurazione precedente prevedeva tre modelli distinti: uno per la trascrizione dell'audio in testo, un altro per le risposte testuali e un terzo per riconvertire il testo in audio. Questa segmentazione ha portato alla perdita di sfumature come tono, altoparlanti multipli e rumore di fondo.

Come soluzione integrata, GPT-4o vanta notevoli miglioramenti nella comprensione della visione e dell'audio. Può eseguire compiti più complessi come armonizzare canzoni, fornire traduzioni in tempo reale e persino generare output con elementi espressivi come risate e canti. Esempi delle sue ampie capacità includono la preparazione per i colloqui, la traduzione delle lingue al volo e la generazione di risposte del servizio clienti.

Nathaniel Whittemore, fondatore e amministratore delegato di Superintelligenteha commentato: “Gli annunci di prodotto saranno intrinsecamente più divisivi degli annunci tecnologici perché è più difficile dire se un prodotto sarà veramente diverso finché non si interagisce effettivamente con esso. E soprattutto quando si tratta di una diversa modalità di interazione uomo-computer, c'è ancora più spazio per convinzioni diverse su quanto sarà utile.

“Detto questo, il fatto che non sia stato annunciato un GPT-4.5 o un GPT-5 distrae anche le persone dal progresso tecnologico che rappresenta un modello nativamente multimodale. Non è un modello testuale con aggiunta di voce o immagine; è un token multimodale in entrata e in uscita multimodale. Ciò apre una vasta gamma di casi d’uso che richiederanno del tempo per filtrare nella coscienza”.

Prestazioni e sicurezza

GPT-4o corrisponde ai livelli prestazionali di GPT-4 Turbo nelle attività di testo e codifica in inglese, ma supera significativamente nelle lingue non inglesi, rendendolo un modello più inclusivo e versatile. Stabilisce un nuovo punto di riferimento nel ragionamento con un punteggio elevato dell'88,7% su MMLU COT a 0 colpi (domande di conoscenza generale) e 87,2% su MMLU senza CoT a 5 colpi.

Il modello eccelle anche nei benchmark audio e di traduzione, superando i precedenti modelli all'avanguardia come Whisper-v3. Nelle valutazioni multilingue e visive, dimostra prestazioni superiori, migliorando le capacità multilingue, audio e visive di OpenAI.

OpenAI ha incorporato solide misure di sicurezza in GPT-4o fin dalla progettazione, incorporando tecniche per filtrare i dati di addestramento e perfezionando il comportamento attraverso misure di salvaguardia post-addestramento. Il modello è stato valutato attraverso un quadro di preparazione ed è conforme agli impegni volontari di OpenAI. Valutazioni in aree come la sicurezza informatica, la persuasione e l'autonomia del modello indicano che GPT-4o non supera un livello di rischio “medio” in nessuna categoria.

Ulteriori valutazioni sulla sicurezza hanno coinvolto un ampio team rosso esterno con oltre 70 esperti in vari settori, tra cui psicologia sociale, pregiudizi, equità e disinformazione. Questo controllo completo mira a mitigare i rischi introdotti dalle nuove modalità di GPT-4o.

Disponibilità e futura integrazione

A partire da oggi, le funzionalità di testo e immagini di GPT-4o sono disponibili in ChatGPT, incluso un livello gratuito e funzionalità estese per gli utenti Plus. Una nuova modalità vocale basata su GPT-4o entrerà in fase di test alpha all'interno di ChatGPT Plus nelle prossime settimane.

Gli sviluppatori possono accedere a GPT-4o tramite API per attività di testo e visione, beneficiando della velocità raddoppiata, del prezzo dimezzato e dei limiti di velocità migliorati rispetto a GPT-4 Turbo.

OpenAI prevede di espandere le funzionalità audio e video di GPT-4o a un gruppo selezionato di partner fidati tramite l'API, con un'implementazione più ampia prevista nel prossimo futuro. Questa strategia di rilascio graduale mira a garantire test approfonditi di sicurezza e usabilità prima di rendere disponibile al pubblico l'intera gamma di funzionalità.

“È estremamente significativo che abbiano reso questo modello disponibile gratuitamente a tutti, oltre a rendere l'API più economica del 50%. Si tratta di un enorme aumento dell’accessibilità”, ha spiegato Whittemore.

OpenAI invita il feedback della comunità per perfezionare continuamente GPT-4o, sottolineando l'importanza del contributo dell'utente nell'identificare e colmare le lacune in cui GPT-4 Turbo potrebbe ancora sovraperformare.

(Credito immagine: OpenAI)

Guarda anche: OpenAI adotta misure per aumentare la trasparenza dei contenuti generati dall'intelligenza artificiale

Vuoi saperne di più sull'intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell'intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L'evento completo è collocato in contemporanea con altri eventi importanti, tra cui Conferenza sull'automazione intelligente, BlockX, Settimana della trasformazione digitaleE Fiera sulla sicurezza informatica e sul cloud.

Esplora altri prossimi eventi e webinar sulla tecnologia aziendale forniti da TechForge Qui.

Tag: ai, API, intelligenza artificiale, punti di riferimenti, chatgpt, codifica, sviluppatori, sviluppo, gpt-4o, Modello, multimodale, openai, prestazione, programmazione

Fonte: www.artificialintelligence-news.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *