MusicGen reinventato: i progressi nascosti di Meta nella musica basata sull'intelligenza artificiale | di Max Hilsdorf | Novembre 2023 | Intelligenza-Artificiale

Fino ad ora, la maggior parte dei modelli musicali generativi produceva suono mono. Ciò significa che MusicGen non posiziona suoni o strumenti sul lato sinistro o destro, risultando in un mix meno vivace ed emozionante. Il motivo per cui finora il suono stereo è stato per lo più trascurato è che generare stereo non è un compito banale.

Come musicisti, quando produciamo segnali stereo, abbiamo accesso alle singole tracce strumentali del nostro mix e possiamo posizionarle dove vogliamo. MusicGen non genera tutti gli strumenti separatamente ma produce invece un segnale audio combinato. Senza accesso a queste sorgenti strumentali, creare un suono stereo è difficile. Sfortunatamente, dividere un segnale audio nelle sue singole sorgenti è un problema difficile (ho pubblicato un post sul blog a questo proposito) e la tecnologia non è ancora pronta al 100%.

Pertanto, Meta ha deciso di incorporare la generazione stereo direttamente nel modello MusicGen. Utilizzando un nuovo set di dati costituito da musica stereo, hanno addestrato MusicGen a produrre uscite stereo. I ricercatori sostengono che la generazione stereo non comporta costi di elaborazione aggiuntivi rispetto al mono.

Anche se ho la sensazione che la procedura stereo non sia descritta molto chiaramente nel documento, da quanto ho capito funziona in questo modo (Figura 3): MusicGen ha imparato a generare due segnali audio compressi (canale sinistro e destro) invece di un segnale mono. Questi segnali compressi devono quindi essere decodificati separatamente prima di essere combinati per creare l’uscita stereo finale. Il motivo per cui questo processo non richiede il doppio del tempo è che MusicGen ora può produrre due segnali audio compressi all’incirca nello stesso tempo impiegato in precedenza per un segnale.

Figura 3 — Aggiornamento stereo MusicGen. Tieni presente che il processo non era sufficientemente documentato nel documento per poterne essere sicuro al 100%. Prendila come un’ipotesi plausibile. Immagine dell’autore.

La capacità di produrre un suono stereo convincente distingue davvero MusicGen da altri modelli all’avanguardia come MusicLM o Stable Audio. Dal mio punto di vista, questa “piccola” aggiunta fa un’enorme differenza nella vivacità della musica generata. Ascoltate voi stessi (potrebbe essere difficile sentire dagli altoparlanti dello smartphone):

Mono

Stereo

MusicGen è stato impressionante dal giorno in cui è stato rilasciato. Tuttavia, da allora, il team FAIR di Meta ha continuato a migliorare il proprio prodotto, consentendo risultati di qualità superiore che sembrano più autentici. Quando si tratta di modelli di testo in musica che generano segnali audio (non MIDI ecc.), MusicGen è in vantaggio rispetto ai suoi concorrenti dal mio punto di vista (a novembre 2023).

Inoltre, poiché MusicGen e tutti i suoi prodotti correlati (EnCodec, AudioGen) sono open source, costituiscono un’incredibile fonte di ispirazione e un framework di riferimento per aspiranti ingegneri audio AI. Se guardiamo ai miglioramenti apportati da MusicGen in soli 6 mesi, posso solo immaginare che il 2024 sarà un anno entusiasmante.

Un altro punto importante è che con il suo approccio trasparente, Meta sta anche svolgendo un lavoro fondamentale per gli sviluppatori che desiderano integrare questa tecnologia nel software per musicisti. Generare campioni, fare brainstorming di idee musicali o cambiare il genere del tuo lavoro esistente: queste sono alcune delle interessanti applicazioni che stiamo già iniziando a vedere. Con un livello sufficiente di trasparenza, possiamo assicurarci di costruire un futuro in cui l’intelligenza artificiale renderà la creazione di musica più emozionante invece di essere solo una minaccia per la musicalità umana.

Fonte: towardsdatascience.com