Aggiornamenti a Gemini 2.5 da Google DeepMind | Intelligenza-Artificiale

Indice contenuti

Nuove funzionalità Gemini 2.5

Uscita audio nativa e miglioramenti all’API Live

Oggi, il API in tempo reale sta introducendo una versione di anteprima dell’input audiovisivo e del dialogo in uscita audio nativo, così puoi creare direttamente esperienze di conversazione, con un Gemini più naturale ed espressivo.

Consente inoltre all’utente di orientarne il tono, l’accento e lo stile di conversazione. Ad esempio, puoi dire al modello di usare una voce drammatica quando racconta una storia. E supporta l’uso degli strumenti, per poter effettuare ricerche per tuo conto.

Puoi sperimentare una serie di funzionalità iniziali, tra cui:

Dialogo affettivo, in cui il modello rileva l’emozione nella voce dell’utente e risponde in modo appropriato.
Audio proattivo, in cui il modello ignorerà le conversazioni in background e saprà quando rispondere.
Thinking in Live API, in cui il modello sfrutta le capacità di pensiero di Gemini per supportare attività più complesse.

Stiamo inoltre rilasciando nuove anteprime per la sintesi vocale in 2.5 Pro e 2.5 Flash. Questi hanno il supporto unico nel suo genere per più altoparlanti, consentendo la sintesi vocale con due voci tramite l’uscita audio nativa.

Come il dialogo audio nativo, la sintesi vocale è espressiva e può catturare sfumature davvero sottili, come i sussurri. Funziona in oltre 24 lingue e passa facilmente dall’una all’altra.

Fonte: deepmind.google