3 innovazioni dell'intelligenza artificiale musicale da aspettarsi nel 2024 | di Max Hilsdorf | Dicembre 2023 | Intelligenza-Artificiale

Indice contenuti

Separazione della fonte visualizzata. Immagine tratta da questa post sul blog dall’autore.

Cos’è la separazione della fonte?

La separazione delle fonti musicali è il compito di dividere un brano musicale completamente prodotto nelle sue fonti strumentali originali (ad esempio voce, ritmo, chiavi). Se non hai mai sentito parlare della separazione delle fonti, ho scritto un file completo post sul blog su come funziona e perché è un problema tecnologico così impegnativo.

Il primo grande passo avanti nella separazione delle fonti è avvenuto nel 2019, quando è uscito Deezer Fessura come strumento open source. Da questo salto tecnologico, il settore ha registrato una situazione piuttosto stabile, piccoli passi di miglioramento. Tuttavia, se confronti l’originale Spleeter con i moderni strumenti open source come Meta DEMUCI o soluzioni commerciali come LALAL.aisembra una differenza tra il giorno e la notte. Quindi, dopo anni di progressi lenti e incrementali, perché dovrei aspettarmi che la separazione delle fonti esploda nel 2024?

Perché dovremmo aspettarci scoperte rivoluzionarie nella separazione delle fonti?

In primo luogo, la separazione della fonte è a tecnologia chiave di volta per altri problemi di intelligenza artificiale musicale. Avere uno strumento di separazione delle sorgenti veloce, flessibile e dal suono naturale potrebbe portare la classificazione, l’etichettatura o l’aumento dei dati della musica a un livello superiore. Molti ricercatori e aziende stanno osservando attentamente i progressi nella separazione delle fonti, pronti ad agire quando si verificherà la prossima svolta.

In secondo luogo, diversi tipi di scoperte sposterebbe il campo in avanti. Il più evidente è un aumento della qualità della separazione. Anche se vedremo sicuramente dei progressi in questo senso, non mi aspetto un grande passo in avanti (sono felice di essere smentito). Tuttavia, a parte la qualità dell’output, gli algoritmi di separazione della sorgente presentano altri due problemi:

1. Velocità: La separazione della fonte spesso viene eseguita su grandi reti neurali generative. Per le singole tracce, questo potrebbe andare bene. Tuttavia, per i carichi di lavoro più grandi che potresti incontrare nelle applicazioni commerciali, la velocità è solitamente ancora troppo lenta, soprattutto se la separazione della sorgente viene eseguita durante l’inferenza.

2. Flessibilità: In generale, gli strumenti di separazione delle fonti offrono un insieme fisso di radici (ad esempio “voce”, “batteria”, “basso”, “altro”). Tradizionalmente, non esiste un modo per eseguire una separazione delle sorgenti personalizzata in base alle esigenze dell’utente, poiché ciò richiederebbe l’addestramento di un’intera nuova rete neurale su questo compito.

Molte applicazioni interessanti emergono una volta che la separazione delle sorgenti è sufficientemente veloce da poter essere eseguita durante l’inferenza (cioè prima di ogni singola previsione del modello). Ad esempio, ho scritto sul potenziale dell’utilizzo della separazione della fonte per rendere spiegabile l’intelligenza artificiale della musica black-box. Direi che esiste notevole interesse commerciale nell’ottimizzazione della velocità che potrebbe portare a una svolta l’anno prossimo.

Inoltre, la flessibilità limitata dell’attuale generazione di IA per la separazione delle fonti la rende inutilizzabile per vari casi d’uso, anche se il potenziale esiste, in linea di principio. In un giornale chiamato Separa tutto ciò che descrivii ricercatori hanno introdotto a separazione delle fonti basata su prompt sistema, quest’anno. Immagina di digitare “dammi il sintetizzatore principale nella seconda strofa, ma senza l’effetto ritardo” in una casella di testo e verrà fuori la sorgente audio desiderata. Questo è il potenziale a cui stiamo guardando.

Riepilogo: separazione delle fonti

In sintesi, è probabile che la separazione delle fonti musicali faccia grandi passi avanti nel 2024 grazie alla sua importanza nell’intelligenza artificiale musicale e ai continui miglioramenti in termini di velocità e flessibilità. Nuovi sviluppi, come i sistemi basati su prompt, lo stanno rendendo più facile da usare e adattabile alle diverse esigenze. Tutto ciò promette un utilizzo più ampio nel settore, che potrebbe motivare scoperte rivoluzionarie nel campo della ricerca.

Incorporamenti nell’elaborazione del linguaggio naturale (NLP)

Per capire cosa sono gli incorporamenti musicali e perché sono importanti, diamo un’occhiata al campo dell’elaborazione del linguaggio naturale (NLP), da cui ha origine questo termine. Prima dell’avvento degli incorporamenti nella PNL, il campo si basava principalmente su metodi più semplici e basati su statistiche per comprendere il testo. Ad esempio, in un semplice approccio “bag-of-words” (BoW), conteresti semplicemente la frequenza con cui ogni parola di un vocabolario ricorre in un testo. Questo rende BoW non più utile di una semplice nuvola di parole.

Un esempio di una semplice nuvola di parole. Immagine dell’autore.

L’introduzione degli incorporamenti ha cambiato significativamente il panorama della PNL. Gli incorporamenti sono rappresentazioni matematiche di parole (o frasi) in cui la somiglianza semantica tra le parole si riflette nella distanza tra i vettori in questo spazio di incorporamento. In poche paroleil significato di parole, frasi o interi libri può essere ridotto a una serie di numeri. Spesso, da 100 a 1000 numeri per parola/testo sono già sufficienti per catturarne il significato, matematicamente.

Incorporamenti Word2Vec (10k) visualizzati con t-SNE sul file Proiettore da incorporamento Tensorflow. Sono evidenziate le prime 5 parole più simili a “violino”. Schermata dell’autore.

Nella figura sopra puoi vedere 10.000 parole rappresentate in un grafico tridimensionale, in base ai loro incorporamenti numerici. Poiché questi incorporamenti catturano il significato di ogni parola, possiamo semplicemente cercare gli incorporamenti più vicini nella tabella per trovare termini simili. In questo modo possiamo facilmente identificare i 5 termini più simili a “violino”: “violoncello”, “concerto”, “pianoforte”, “sonata” e “clarinetto”.

Principali vantaggi degli incorporamenti:

Comprensione contestuale: A differenza dei metodi precedenti, gli incorporamenti sono sensibili al contesto. Ciò significa che la stessa parola può avere incorporazioni diverse in base al suo utilizzo in frasi diverse, garantendo una comprensione più sfumata del linguaggio.
Somiglianza semantica: Parole con significati simili sono spesso vicine nello spazio di incorporamento, il che rende gli incorporamenti predestinati per attività di recupero trovate nei motori di ricerca musicale o nei sistemi di raccomandazione.
Modelli pre-addestrati: Con modelli come BERT, gli incorporamenti vengono appresi da grandi corpora di testo e possono essere ottimizzati per attività specifiche, riducendo significativamente la necessità di dati specifici per attività.

Incorporamenti per la musica

Poiché gli incorporamenti non sono altro che numeri, tutto può essere sintetizzato in un incorporamento significativoin linea di principio. Un esempio è riportato nella figura seguente, dove diversi generi musicali sono visualizzati in uno spazio bidimensionale, a seconda della loro somiglianza.

Incorporamenti di generi musicali visualizzati in uno spazio bidimensionale Ogni rumore in una volta. Schermata dell’autore.

Tuttavia, sebbene gli incorporamenti siano utilizzati con successo nell’industria e nel mondo accademico da più di 5 anni, lo facciamo ancora nessun modello di incorporamento specifico del dominio ampiamente adottato per la musica. Chiaramente, c’è molto potenziale economico nello sfruttare gli incorporamenti per la musica. Ecco alcuni casi d’uso per gli incorporamenti che potrebbero essere implementati immediatamente con uno sforzo di sviluppo minimo, dato l’accesso a incorporamenti musicali di alta qualità:

Ricerca di somiglianza musicale: cerca in qualsiasi database musicale brani simili a un determinato brano di riferimento.
Ricerca da testo a musica: effettua ricerche in un database musicale con il linguaggio naturale, invece di utilizzare tag predefiniti.
Apprendimento automatico efficiente: I modelli basati sull’embedding spesso richiedono 10-100 volte meno dati di addestramento rispetto agli approcci tradizionali basati su spettrogrammi o rappresentazioni audio simili.

Nel 2023, abbiamo già fatto molti progressi verso modelli di incorporamento di musica open source di alta qualità. Ad esempio, Microsoft E LAION entrambi hanno rilasciato modelli CLAP addestrati separatamente (un tipo specifico di modello di incorporamento) per il dominio audio generale. Tuttavia, questi modelli sono stati per lo più addestrati sul parlato e sui suoni ambientali, creandoli meno efficace per la musica. Successivamente, sia Microsoft che LAION hanno rilasciato versioni specifiche per la musica dei loro modelli CLAP addestrati esclusivamente su dati musicali. CARTA GEOGRAFICA quest’anno ha anche rilasciato diversi modelli di incorporamento specifici per la musica.

La mia impressione dopo aver testato tutti questi modelli è che ci stiamo avvicinando sempre di più, ma non abbiamo nemmeno raggiunto ciò che gli incorporamenti di testo potevano fare 3 anni fa. A mio giudizio, il collo di bottiglia principale restano i dati. Possiamo supporre che tutti i principali attori come Google, Apple, Meta, Spotify ecc. utilizzino già in modo efficace modelli di incorporamento musicale, poiché hanno accesso a enormi quantità di dati musicali. Tuttavia, la comunità open source non è stata in grado di recuperare terreno e fornire un modello convincente.

Riepilogo: incorporamenti musicali per uso generale

Gli incorporamenti sono una tecnologia promettente, che rende le attività di recupero più accurate e consente l’apprendimento automatico quando i dati sono scarsi. Sfortunatamente, un modello rivoluzionario di incorporamento della musica specifico per un dominio deve ancora essere rilasciato. La mia speranza e il mio sospetto è che le iniziative open source o anche i grandi attori impegnati in versioni open source (come Meta) risolvano questo problema nel 2024. Siamo già vicini e una volta raggiunto un certo livello di qualità di incorporamento, ogni azienda sarà adottando la tecnologia musicale basata sull’incorporamento per creare molto più valore in un tempo molto più breve.

Il 2023 è stato un anno strano… Da un lato, l’intelligenza artificiale è diventata la parola d’ordine più importante nella tecnologia e i casi d’uso per ChatGPT, Midjourney, ecc. sono facili da trovare per quasi tutti gli utenti finali e le aziende. D’altro canto, solo pochi prodotti finali effettivi sono stati lanciati e adottati su larga scala. Naturalmente, Drake ora può cantare “My Heart Will Go On”, ma finora non è stato costruito alcun business case attorno a questa tecnologia. E sì, l’intelligenza artificiale ora può generare campioni vocali per i produttori di beat. Tuttavia, in realtà, alcuni compositori si stanno sforzando di mettere a punto i propri modelli di intelligenza artificiale per mancanza di soluzioni commerciali attraenti.

Alla luce di ciò, la più grande svolta per l’intelligenza artificiale musicale potrebbe non essere un’innovazione di ricerca fantasiosa. Potrebbe invece rappresentare un passo avanti nella maturità dei prodotti e dei servizi basati sull’intelligenza artificiale che soddisfano le esigenze delle aziende o degli utenti finali. Lungo questo percorso, ci sono ancora molte sfide da risolvere per chiunque voglia creare prodotti Music AI:

Comprendere le esigenze dell’industria musicale o dell’utente finale: La tecnologia stessa è spesso abbastanza indipendente dal caso d’uso. Scoprire come la tecnologia può soddisfare bisogni reali è una sfida fondamentale.
Trasformare demo fantasiose in prodotti robusti: Oggi, un data scientist può costruire un prototipo di chatbot o persino uno strumento per generare musica in un giorno. Tuttavia, trasformare una demo divertente in un prodotto utile, sicuro e maturo è impegnativo e richiede tempo.
Navigazione in questioni relative alla proprietà intellettuale e alle licenze: Considerazioni etiche e legali lasciano le aziende e gli utenti restii a fornire o adottare prodotti basati sull’intelligenza artificiale.
Garantire finanziamenti/investimenti e primi flussi di reddito: Nel 2023 sono state fondate innumerevoli startup di intelligenza artificiale musicale. Una visione forte e un chiaro business case saranno obbligatori per garantire i finanziamenti e consentire lo sviluppo del prodotto.
Marketing e adozione degli utenti: Oggigiorno anche i prodotti più innovativi possono facilmente passare inosservati. Gli utenti finali e le aziende sono inondati di report e promesse sul futuro dell’intelligenza artificiale, rendendo difficile raggiungere il pubblico target.

Ad esempio, diamo un’occhiata più da vicino al modo in cui l’intelligenza artificiale già influisce sulla produzione musicale attraverso nuovi plugin per workstation audio digitali (DAW). In un recente post sul blogNative Instruments presenta 10 nuovi plugin per la potenza dell’intelligenza artificiale. Per mostrare ciò che è già possibile, diamo un’occhiata “Emergent Drums 2” di Audialab. Emergent Drums consente ai musicisti di farlo progetta i loro campioni di batteria da zero con l’intelligenza artificiale generativa. Il plugin è ben integrato nella DAW e funziona come un vero e proprio plugin per drum machine. Date un’occhiata voi stessi:

Video dimostrativo: “Emergent Drums” di Audialab.

Zoomando ancora, le potenziali applicazioni per l’intelligenza artificiale musicale sono vaste e vanno dalla produzione musicale all’istruzione, al marketing e alla distribuzione. Sfruttare l’immenso potenziale tecnologico dell’intelligenza artificiale per fornire valore reale in questi settori sarà una sfida chiave da risolvere nel prossimo anno.

Sommario: Dalla ricerca ai prodotti

Il 2023 è stato un anno fondamentale per Music AI, ponendo le basi per quello che verrà dopo. La vera svolta per il 2024? Non si tratta solo di tecnologia: si tratta di farla funzionare per persone reali, in scenari reali. Aspettatevi di vedere la Music AI uscire dal laboratorio ed entrare nelle nostre vite, influenzando tutto, dal modo in cui creiamo al modo in cui consumiamo la musica.

Fonte: towardsdatascience.com