Tencent Hunyuan Video-Foley porta audio realistico al video AI | Intelligenza-Artificiale

Indice contenuti

Una squadra del laboratorio di Hunyuan di Tencent ha creato una nuova AI, “Hunyuan Video-Foley,” Ciò porta finalmente l’audio realistico in video generato. È progettato per ascoltare video e generare una colonna sonora di alta qualità che è perfettamente sincronizzata con l’azione sullo schermo.

Hai mai visto un video generato dall’intelligenza artificiale e ti sei sentito come se mancasse qualcosa? La grafica potrebbe essere sbalorditiva, ma spesso hanno un inquietante silenzio che rompe l’incantesimo. Nell’industria cinematografica, il suono che riempie quel silenzio – il fruscio delle foglie, il battito del tuono, il tintinnio di un bicchiere – si chiama arte di Foley, ed è un mestiere scrupoloso eseguito da esperti.

Abbinare quel livello di dettaglio è una grande sfida per l’IA. Per anni, i sistemi automatizzati hanno lottato per creare suoni credibili per i video.

In che modo Tencent risolve l’audio generato dall’IA per il problema video?

Uno dei principali motivi per cui i modelli video-to-aughio (V2A) non sono stati a corto nel dipartimento sonoro che i ricercatori chiamano “squilibrio di modalità”. In sostanza, l’IA stava ascoltando di più le richieste di testo che veniva dato di quanto non guardasse il video reale.

Ad esempio, se hai dato a un modello un video di una spiaggia trafficata con persone che camminano e segnali che volano, ma il prompt del testo diceva solo “il suono delle onde oceaniche”, probabilmente avresti solo il suono delle onde. L’intelligenza artificiale ignorerebbe completamente i passi nella sabbia e le chiamate degli uccelli, rendendo la scena senza vita.

Inoltre, la qualità dell’audio era spesso scadente, e semplicemente non c’era abbastanza video di alta qualità con suono per addestrare i modelli in modo efficace.

La squadra di Hunyuan di Tencent ha affrontato questi problemi da tre diverse angolazioni:

Tencent ha capito che l’IA aveva bisogno di un’istruzione migliore, quindi hanno costruito una massiccia biblioteca di video di video, audio e di testo di 100.000 ore da cui da imparare. Hanno creato una pipeline automatizzata che ha filtrato contenuti di bassa qualità da Internet, sbarazzandosi delle clip con lunghi silenzi o audio compresso e sfocato, garantendo l’IA appresa dal miglior materiale possibile.

Hanno progettato un’architettura più intelligente per l’IA. Pensalo come insegnare il modello a multitasking correttamente. Il sistema presta prima attenzione incredibilmente al link visivo-audio per ottenere i tempi nel modo giusto, come abbinare il tonfo di un passo al momento esatto in cui una scarpa colpisce il marciapiede. Una volta che ha quel tempismo bloccato, incorpora quindi la richiesta di testo per comprendere l’umore e il contesto complessivi della scena. Questo doppio approccio garantisce che i dettagli specifici del video non vengano mai trascurati.

Per garantire che il suono era di alta qualità, usavano una strategia di addestramento chiamata Allineamento di rappresentanza (REPA). È come avere un ingegnere audio esperto che guarda costantemente oltre la spalla dell’intelligenza artificiale durante il suo allenamento. Confronta il lavoro dell’intelligenza artificiale con le caratteristiche di un modello audio pre-addestrato e di livello professionale per guidarlo verso la produzione di un suono più pulito, più ricco e più stabile.

Oggi stiamo annunciando la versione open source di Hunyuanvideo-Foley, il nostro nuovo framework di testo end-to-end text-to-augio (TV2A) per generare audio ad alta fedeltà.

Questo strumento autorizza i creatori nella produzione di video, nel cinema e nello sviluppo del gioco per generare livello professionale … pic.twitter.com/mff2m5xfvc

– Hunyuan (@Tencenthunyuan) 28 agosto 2025

I risultati parlare suono per se stessi

Quando Tencent ha testato Hunyuan Video-Figliay contro altri principali modelli di AI, i risultati audio erano chiari. Non era solo che le metriche basate su computer fossero migliori; Gli ascoltatori umani hanno costantemente valutato il suo output come qualità superiore, meglio abbinati al video e più accuratamente cronometrato.

Attraverso la scheda, l’IA ha apportato miglioramenti nel far corrispondere il suono all’azione sullo schermo, sia in termini di contenuto che di tempi. I risultati su più set di dati di valutazione supportano questo:

Risultati di valutazione di Tencent Hunyuan Video-Figliay contro altri principali modelli di AI.

Il lavoro di Tencent aiuta a colmare il divario tra i video silenziosi di AI e un’esperienza di visualizzazione coinvolgente con audio di qualità. Sta portando la magia di Foley Art nel mondo della creazione automatizzata di contenuti, che potrebbe essere una potente capacità per cineasti, animatori e creatori di tutto il mondo.

Vedi anche: Google Vids ottiene avatar AI e strumenti da immagine a video

Banner per la serie di eventi AI e Big Data Expo.

Vuoi saperne di più sull’intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L’evento completo fa parte di Techex ed è collocato con altri eventi tecnologici leader, clicca Qui Per ulteriori informazioni.

AI News è alimentato da TechForge Media. Esplora altri prossimi eventi tecnologici aziendali e webinar Qui.

Fonte: www.artificialintelligence-news.com