I ricercatori di Amazon hanno addestrato un nuovo modello linguistico di grandi dimensioni (LLM) per la sintesi vocale che, secondo loro, mostra abilità “emergenti”.
Il modello da 980 milioni di parametri, chiamato BASE TTS, è il più grande modello di sintesi vocale mai creato. I ricercatori hanno addestrato modelli di varie dimensioni su un massimo di 100.000 ore di dati vocali di pubblico dominio per vedere se avrebbero osservato gli stessi balzi prestazionali che si verificano nei modelli di elaborazione del linguaggio naturale una volta superata una certa scala.
Hanno scoperto che il loro modello di medie dimensioni da 400 milioni di parametri – addestrato su 10.000 ore di audio – ha mostrato un netto miglioramento in termini di versatilità e robustezza nelle frasi di prova complicate.
Le frasi del test contenevano caratteristiche lessicali, sintattiche e paralinguistiche complesse come nomi composti, emozioni, parole straniere e punteggiatura che normalmente intralciano i sistemi di sintesi vocale. Sebbene BASE TTS non li gestisse perfettamente, commetteva un numero significativamente inferiore di errori nell’accento, nell’intonazione e nella pronuncia rispetto ai modelli esistenti.
“Queste frasi sono progettate per contenere compiti impegnativi, nessuno dei quali BASE TTS è esplicitamente addestrato a svolgere”, hanno spiegato i ricercatori.
La versione più grande del modello da 980 milioni di parametri – addestrata su 100.000 ore di audio – non ha dimostrato ulteriori capacità oltre la versione da 400 milioni di parametri.
Sebbene si tratti di un processo sperimentale, la creazione di BASE TTS dimostra che questi modelli possono raggiungere nuove soglie di versatilità man mano che crescono: un segnale incoraggiante per l’intelligenza artificiale conversazionale. I ricercatori pianificano ulteriore lavoro per identificare la dimensione ottimale del modello per le abilità emergenti.
Il modello è inoltre progettato per essere leggero e flessibile, confezionando separatamente dati emotivi e prosodici. Ciò potrebbe consentire la trasmissione dell’audio parlato dal suono naturale attraverso connessioni a larghezza di banda ridotta.
Puoi trovare il documento completo BASE TTS su arXiv Qui.
(Fotografato da Nik SU Unsplash)
Guarda anche: OpenAI distribuisce la memoria ChatGPT per selezionare utenti
Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è collocato in contemporanea con altri eventi importanti, tra cui BlockX, Settimana della trasformazione digitaleE Fiera sulla sicurezza informatica e sul cloud.
Esplora altri prossimi eventi e webinar sulla tecnologia aziendale forniti da TechForge Qui.
Fonte: www.artificialintelligence-news.com