Aggiornamenti a Gemini 2.5 da Google DeepMind

 | Intelligenza-Artificiale

Nuove funzionalità Gemini 2.5

Output audio nativo e miglioramenti per vivere API

Oggi, il API dal vivo sta introducendo una versione di anteprima di input audiovisivi e dialoghi audio nativi, in modo da poter costruire direttamente esperienze di conversazione, con un gemelli più naturali ed espressivi.

Inoltre, consente all'utente di guidare il suo tono, accento e stile di parlare. Ad esempio, puoi dire al modello di usare una voce drammatica quando si racconta una storia. E supporta l'uso dello strumento, per essere in grado di cercare per tuo conto.

Puoi sperimentare una serie di prime funzionalità, tra cui:

  • Il dialogo affettivo, in cui il modello rileva l'emozione nella voce dell'utente e risponde in modo appropriato.
  • Audio proattivo, in cui il modello ignorerà le conversazioni di fondo e saprà quando rispondere.
  • Pensare nell'API live, in cui il modello sfrutta le capacità di pensiero di Gemini per supportare compiti più complessi.

Stiamo inoltre rilasciando nuove anteprime per text-to-spealch in 2,5 Pro e 2.5 flash. Questi hanno un supporto unico nel suo genere per più altoparlanti, che consentono il testo a parlare con due voci tramite audio nativo.

Come il dialogo audio nativo, il testo-vendita è espressivo e può catturare sfumature davvero sottili, come i sussurri. Funziona in oltre 24 lingue e cambia perfettamente tra loro.

Fonte: 77b50d0-dot-gdm-deepmind-com-prod.appspot.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *