Funzionalità audio native di Gemini 2.5 | Intelligenza-Artificiale

Indice contenuti

Sicurezza e responsabilità

Abbiamo valutato in modo proattivo i potenziali rischi in ogni fase del processo di sviluppo di queste funzionalità audio native, utilizzando ciò che abbiamo imparato per orientare le nostre strategie di mitigazione. Convalidiamo queste misure attraverso rigorose valutazioni di sicurezza interne ed esterne, anche complete squadra rossa per uno schieramento responsabile. Inoltre, tutte le uscite audio dei nostri modelli sono integrate con SynthIDla nostra tecnologia di watermarking, per garantire la trasparenza rendendo identificabile l’audio generato dall’intelligenza artificiale.

Funzionalità audio native per gli sviluppatori

Stiamo introducendo output audio nativi sui modelli Gemini 2.5, offrendo agli sviluppatori nuove funzionalità per creare applicazioni più ricche e interattive tramite l’API Gemini in Studio sull’intelligenza artificiale di Google O IA del vertice.

Per iniziare l’esplorazione, gli sviluppatori possono provare il dialogo audio nativo con l’anteprima Flash di Gemini 2.5 in Google AI Studio flusso scheda. La generazione vocale controllabile (TTS) è disponibile in anteprima sia per Gemini 2.5 Pro che per Flash selezionando la generazione vocale nel menu generare media scheda all’interno di Google AI Studio.

Fonte: deepmind.google