Spingere le frontiere della generazione audio

 | Intelligenza-Artificiale

Le nostre tecnologie pionieristiche di generazione vocale aiutano le persone in tutto il mondo a interagire con assistenti digitali e strumenti di intelligenza artificiale più naturali, conversazionali e intuitivi.

La parola è centrale per la connessione umana. Aiuta le persone di tutto il mondo a scambiare informazioni e idee, esprimere emozioni e creare comprensione reciproca. Mentre la nostra tecnologia creata per generare voci naturali e dinamiche continua a migliorare, stiamo sbloccando esperienze digitali più ricche e coinvolgenti.

Negli ultimi anni, abbiamo ampliato le frontiere della generazione audio, sviluppando modelli in grado di creare parlato naturale e di alta qualità da una gamma di input, come testo, controlli del tempo e voci particolari. Questa tecnologia alimenta l’audio con un solo altoparlante in molti prodotti ed esperimenti Google, tra cui Gemelli in diretta, Progetto Astra, Voci di viaggio E Il doppiaggio automatico di YouTube – e sta aiutando le persone in tutto il mondo a interagire con assistenti digitali e strumenti di intelligenza artificiale più naturali, conversazionali e intuitivi.

Collaborando con i partner di Google, abbiamo recentemente contribuito a sviluppare due nuove funzionalità in grado di generare dialoghi di lunga durata con più oratori per rendere i contenuti complessi più accessibili:

  • Panoramica sull’audio di NotebookLM trasforma i documenti caricati in dialoghi coinvolgenti e vivaci. Con un clic, due host AI riassumono il materiale degli utenti, stabiliscono collegamenti tra gli argomenti e scherzano avanti e indietro.
  • Illuminare crea discussioni formali generate dall’intelligenza artificiale sui documenti di ricerca per contribuire a rendere la conoscenza più accessibile e digeribile.

Qui forniamo una panoramica della nostra ultima ricerca sulla generazione del parlato alla base di tutti questi prodotti e strumenti sperimentali.

Tecniche pionieristiche per la generazione audio

Da anni investiamo nella ricerca sulla generazione audio ed esploriamo nuovi modi per generare dialoghi più naturali nei nostri prodotti e strumenti sperimentali. Nella nostra precedente ricerca su Tempesta sonoraper prima cosa abbiamo dimostrato la capacità di generare segmenti di 30 secondi di dialogo naturale tra più interlocutori.

Ciò ha esteso il nostro lavoro precedente, SoundStream E AudioLMche ci ha permesso di applicare molte tecniche di modellazione del linguaggio basato su testo al problema della generazione dell’audio.

SoundStream è un codec audio neurale che comprime e decomprime in modo efficiente un input audio, senza comprometterne la qualità. Nell’ambito del processo di formazione, SoundStream apprende come mappare l’audio su una serie di token acustici. Questi token catturano tutte le informazioni necessarie per ricostruire l’audio con alta fedeltà, comprese proprietà come prosodia E timbro.

AudioLM tratta la generazione audio come un’attività di modellazione del linguaggio per produrre i token acustici di codec come SoundStream. Di conseguenza, il framework AudioLM non fa ipotesi sul tipo o sulla composizione dell’audio generato e può gestire in modo flessibile una varietà di suoni senza bisogno di aggiustamenti architettonici, rendendolo un buon candidato per modellare dialoghi con più altoparlanti.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *