Le funzionalità audio native di Gemini 2.5 | Intelligenza-Artificiale

Indice contenuti

Sicurezza e responsabilità

Abbiamo valutato in modo proattivo potenziali rischi durante ogni fase del processo di sviluppo per queste caratteristiche audio native, usando ciò che abbiamo imparato per informare le nostre strategie di mitigazione. Convalidiamo queste misure attraverso rigorose valutazioni di sicurezza interne ed esterne, comprese le complete squadra rossa per distribuzione responsabile. Inoltre, tutte le uscite audio dai nostri modelli sono incorporate SinteticoLa nostra tecnologia di filigrana, per garantire la trasparenza rendendo identificabile audio generato dall'IA.

Funzionalità audio native per gli sviluppatori

Stiamo portando output audio nativi ai modelli Gemini 2.5, offrendo agli sviluppatori nuove funzionalità per costruire applicazioni più ricche e più interattive tramite l'API Gemini in Google per studiare O Vertex ai.

Per iniziare a esplorare, gli sviluppatori possono provare dialoghi audio nativi con l'anteprima di Gemini 2.5 Flash in Google AI Studio's flusso scheda. La generazione vocale controllabile (TTS) è disponibile in anteprima sia per Gemini 2.5 Pro e Flash selezionando la generazione del parlato nel generare media Scheda all'interno di Google AI Studio.

Fonte: deepmind.google