È arrivata la sincronizzazione labiale multi-altoparlante con AI | Intelligenza-Artificiale

IA veloceuno strumento di localizzazione video e audio basato sull’intelligenza artificiale, ha annunciato il lancio della sua nuova funzionalità di sincronizzazione labiale multi-altoparlante. Con la sincronizzazione labiale basata sull’intelligenza artificiale, 750.000 utenti possono tradurre i propri contenuti in oltre 130 lingue per sembrare fluenti come un madrelingua.

Per molto tempo è mancata la sincronizzazione tra i movimenti delle labbra e le voci nei contenuti doppiati. Gli esperti ritengono che questo sia uno dei motivi per cui il doppiaggio è relativamente impopolare nei paesi di lingua inglese. Infatti, i movimenti delle labbra rendono i contenuti localizzati più realistici e quindi più attraenti per il pubblico.

C’è un studio di Yukari Hirata, una professoressa nota per il suo lavoro in linguistica, secondo cui osservare i movimenti delle labbra (piuttosto che i gesti) aiuta a percepire i difficili contrasti fonemici nella seconda lingua. La lettura labiale è anche uno dei modi in cui impariamo a parlare in generale.

Oggi, con la nuova funzionalità di Rask, è possibile portare i contenuti localizzati a un nuovo livello, rendendo i video doppiati più naturali.

L’intelligenza artificiale ristruttura automaticamente la faccia inferiore in base ai riferimenti. Tiene conto dell’aspetto dell’oratore e di ciò che sta dicendo per rendere il risultato finale più realistico.

Come funziona:

Carica un video con una o più persone nell’inquadratura.
Traduci il video in un’altra lingua.
Premi il pulsante “Lip Sync Check” e l’algoritmo valuterà la compatibilità del video per la sincronizzazione labiale.
Se il video supera il controllo, premi “Lip Sync” e attendi il risultato.
Scarica il video.

Secondo Maria Chmir, fondatrice e CEO di Rask AI, la nuova funzionalità aiuterà i creatori di contenuti ad espandere il proprio pubblico. L’intelligenza artificiale regola visivamente i movimenti delle labbra per far sembrare che un personaggio parli la lingua fluentemente come un madrelingua.

La tecnologia si basa sull’apprendimento generativo della rete avversaria (GAN), che consiste in un generatore e un discriminatore. Sia il generatore che il discriminatore competono tra loro per stare un passo avanti rispetto all’altro. Il generatore genera chiaramente il contenuto (movimenti delle labbra), mentre il discriminatore è responsabile del controllo di qualità.

La versione beta è disponibile per tutti i clienti in abbonamento Rask.

(Nota del redattore: questo articolo è sponsorizzato da IA veloce)

Tag: ai, intelligenza artificiale, TUTTAVIA, Rete avversaria generativa, sincronizzazione labiale, rask, veloce ai