Cosa dicono i clienti
Clienti Google Cloud stanno già utilizzando le funzionalità audio native di Gemini per ottenere risultati aziendali concreti, dall’elaborazione dei mutui alle chiamate ai clienti.
- “Gli utenti spesso dimenticano che stanno parlando con l’intelligenza artificiale entro un minuto dall’utilizzo di Sidekick e in alcuni casi hanno ringraziato il bot dopo una lunga chat… Le nuove funzionalità AI API Live offerte tramite Gemini (2.5 Flash Native Audio) consentono ai nostri commercianti di vincere.” – David Wurtz, vicepresidente del prodotto, Shopify
- “Integrando il modello Gemini 2.5 Flash Native Audio… abbiamo migliorato in modo significativo le capacità di Mia dal suo lancio nel maggio 2025. Questa potente combinazione ci ha permesso di generare oltre 14.000 prestiti per i nostri broker partner.” – Jason Bressler, Direttore tecnico, United Wholesale Mortgage (UWM)
- “Lavorare con il modello Gemini 2.5 Flash Native Audio tramite Vertex AI consente agli addetti alla reception AI di Newo.ai di raggiungere un’intelligenza conversazionale senza pari… Possono identificare l’oratore principale anche in ambienti rumorosi, cambiare lingua durante una conversazione e suonare in modo straordinariamente naturale ed emotivamente espressivo.” – David Yang, cofondatore di Newo.ai
Traduzione vocale dal vivo
Gemini ora supporta in modo nativo nuove funzionalità di traduzione vocale dal vivo progettate per gestire sia l’ascolto continuo che la conversazione bidirezionale.
Con l’ascolto continuo, Gemini traduce automaticamente il parlato in più lingue in un’unica lingua di destinazione. Ciò ti consente di indossare le cuffie e ascoltare il mondo intorno a te nella tua lingua.
Per le conversazioni bidirezionali, la traduzione vocale dal vivo di Gemini gestisce la traduzione tra due lingue in tempo reale, cambiando automaticamente la lingua di output in base a chi sta parlando. Ad esempio, se parli inglese e desideri chattare con una persona che parla hindi, ascolterai le traduzioni inglesi in tempo reale nelle tue cuffie, mentre il tuo telefono trasmetterà l’hindi quando avrai finito di parlare.
La traduzione vocale dal vivo di Gemini ha una serie di funzionalità chiave che aiutano nel mondo reale:
- Copertura linguistica: Traduce il parlato in oltre 70 lingue e 2000 coppie linguistiche combinando la conoscenza del mondo e le capacità multilingue del modello Gemini con le sue capacità audio native
- Trasferimento di stile: Cattura le sfumature del linguaggio umano, preservando l’intonazione, il ritmo e il tono di chi parla, in modo che la traduzione risulti naturale.
- Ingresso multilingue: Comprende più lingue contemporaneamente in un’unica sessione, aiutandoti a seguire conversazioni multilingue senza dover perdere tempo con le impostazioni della lingua.
- Rilevamento automatico: Identifica la lingua parlata e inizia la traduzione, quindi non è nemmeno necessario sapere quale lingua si parla per iniziare a tradurre.
- Robustezza al rumore: Filtra il rumore ambientale per consentirti di conversare comodamente anche in ambienti esterni rumorosi.
Fonte: deepmind.google
