Spingere le frontiere della generazione audio | Intelligenza-Artificiale

Indice contenuti

Tecnologie

Pubblicato: 30 ottobre 2024
Autori: Zalán Borsos, Matt Sharifi e Marco Tagliasacchi

Un'illustrazione che mostra schemi vocali, progressi iterativi nella generazione del dialogo e una conversazione rilassata tra due voci.

Le nostre tecnologie pionieristiche di generazione vocale aiutano le persone in tutto il mondo a interagire con assistenti digitali e strumenti di intelligenza artificiale più naturali, conversazionali e intuitivi.

La parola è centrale per la connessione umana. Aiuta le persone di tutto il mondo a scambiare informazioni e idee, esprimere emozioni e creare comprensione reciproca. Mentre la nostra tecnologia creata per generare voci naturali e dinamiche continua a migliorare, stiamo sbloccando esperienze digitali più ricche e coinvolgenti.

Negli ultimi anni, abbiamo ampliato le frontiere della generazione audio, sviluppando modelli in grado di creare parlato naturale e di alta qualità da una gamma di input, come testo, controlli del tempo e voci particolari. Questa tecnologia alimenta l'audio con un solo altoparlante in molti prodotti ed esperimenti Google, tra cui Gemelli in diretta, Progetto Astra, Voci di viaggio E Il doppiaggio automatico di YouTube – e sta aiutando le persone in tutto il mondo a interagire con assistenti digitali e strumenti di intelligenza artificiale più naturali, conversazionali e intuitivi.

Collaborando con i partner di Google, abbiamo recentemente contribuito a sviluppare due nuove funzionalità in grado di generare dialoghi di lunga durata con più oratori per rendere i contenuti complessi più accessibili:

Panoramica sull'audio di NotebookLM trasforma i documenti caricati in dialoghi coinvolgenti e vivaci. Con un clic, due host AI riassumono il materiale degli utenti, stabiliscono collegamenti tra gli argomenti e scherzano avanti e indietro.
Illuminare crea discussioni formali generate dall'intelligenza artificiale sui documenti di ricerca per contribuire a rendere la conoscenza più accessibile e digeribile.

Qui forniamo una panoramica della nostra ultima ricerca sulla generazione del parlato alla base di tutti questi prodotti e strumenti sperimentali.

Tecniche pionieristiche per la generazione audio

Da anni investiamo nella ricerca sulla generazione audio ed esploriamo nuovi modi per generare dialoghi più naturali nei nostri prodotti e strumenti sperimentali. Nella nostra precedente ricerca su Tempesta sonoraper prima cosa abbiamo dimostrato la capacità di generare segmenti di 30 secondi di dialogo naturale tra più interlocutori.

Ciò ha esteso il nostro lavoro precedente, SoundStream E AudioLMche ci ha permesso di applicare molte tecniche di modellazione del linguaggio basato su testo al problema della generazione dell'audio.

SoundStream è un codec audio neurale che comprime e decomprime in modo efficiente un input audio, senza comprometterne la qualità. Nell'ambito del processo di formazione, SoundStream apprende come mappare l'audio su una serie di token acustici. Questi token catturano tutte le informazioni necessarie per ricostruire l'audio con alta fedeltà, comprese proprietà come prosodia E timbro.

AudioLM tratta la generazione audio come un'attività di modellazione del linguaggio per produrre i token acustici di codec come SoundStream. Di conseguenza, il framework AudioLM non fa ipotesi sul tipo o sulla composizione dell'audio generato e può gestire in modo flessibile una varietà di suoni senza bisogno di aggiustamenti architettonici, rendendolo un buon candidato per modellare dialoghi con più altoparlanti.

Esempio di un dialogo con più parlanti generato da NotebookLM Audio Overview, basato su alcuni documenti relativi alle patate.

Basandosi su questa ricerca, la nostra più recente tecnologia di generazione del parlato è in grado di produrre 2 minuti di dialogo, con maggiore naturalezza, coerenza dell'oratore e qualità acustica, quando viene fornita una sceneggiatura del dialogo e indicatori di svolta dell'oratore. Il modello esegue anche questo compito in meno di 3 secondi su un singolo Chip v5e dell'unità di elaborazione tensore (TPU).in un passaggio di inferenza. Ciò significa che genera audio oltre 40 volte più velocemente del tempo reale.

Scalare i nostri modelli di generazione audio

Il passaggio dai modelli di generazione a singolo altoparlante ai modelli a più altoparlanti è quindi diventato una questione di dati e capacità del modello. Per aiutare il nostro ultimo modello di generazione vocale a produrre segmenti vocali più lunghi, abbiamo creato un codec vocale ancora più efficiente per comprimere l'audio in una sequenza di token, a soli 600 bit al secondo, senza compromettere la qualità del suo output.

I token prodotti dal nostro codec hanno una struttura gerarchica e sono raggruppati per intervalli temporali. I primi token all'interno di un gruppo catturano informazioni fonetiche e prosodiche, mentre gli ultimi token codificano dettagli acustici fini.

Anche con il nostro nuovo codec vocale, produrre un dialogo di 2 minuti richiede la generazione di oltre 5000 token. Per modellare queste lunghe sequenze, abbiamo sviluppato un modello specializzato Trasformatore architettura in grado di gestire in modo efficiente gerarchie di informazioni, adattandosi alla struttura dei nostri token acustici.

Con questa tecnica possiamo generare in modo efficiente token acustici che corrispondono al dialogo, all'interno di un singolo passaggio di inferenza autoregressiva. Una volta generati, questi token possono essere decodificati in una forma d'onda audio utilizzando il nostro codec vocale.

Animazione che mostra come il nostro modello di generazione del parlato produce un flusso di token audio in modo autoregressivo, che vengono decodificati in una forma d'onda composta da un dialogo a due altoparlanti.

Per insegnare al nostro modello come generare scambi realistici tra più parlanti, lo abbiamo preaddestrato su centinaia di migliaia di ore di dati vocali. Poi lo abbiamo messo a punto su un set di dati molto più piccolo di dialoghi con un'elevata qualità acustica e annotazioni precise dei relatori, costituiti da conversazioni senza copione di una serie di doppiatori e realistiche disfluenze – gli “umm” e gli “aah” della conversazione reale. Questo passaggio ha insegnato al modello come passare in modo affidabile da un altoparlante all'altro durante un dialogo generato e a produrre solo audio di qualità da studio con pause, tono e tempi realistici.

In linea con il ns Principi dell'intelligenza artificiale e il nostro impegno nello sviluppo e nell'implementazione responsabile delle tecnologie AI, stiamo incorporando la nostra tecnologia SynthID per filigranare i contenuti audio non transitori generati dall'intelligenza artificiale da questi modelli, per contribuire a salvaguardare dal potenziale uso improprio di questa tecnologia.

Nuove esperienze linguistiche in vista

Ora siamo concentrati sul miglioramento della fluidità del nostro modello, sulla qualità acustica e sull'aggiunta di controlli più dettagliati per funzionalità, come la prosodia, mentre esploriamo il modo migliore per combinare questi progressi con altre modalità, come il video.

Le potenziali applicazioni per la generazione vocale avanzata sono vaste, soprattutto se combinate con la nostra famiglia di modelli Gemini. Dal miglioramento delle esperienze di apprendimento al rendere i contenuti più universalmente accessibili, siamo entusiasti di continuare a spingere i confini di ciò che è possibile con le tecnologie basate sulla voce.