MusicLM ottimizzato in base alle preferenze dell’utente

fotografato da Firmbee.com SU Unsplash

MusicLM, l’intelligenza artificiale di testo in musica di punta di Google, è stata originariamente pubblicata all’inizio del 2023. Anche nella sua versione base, ha rappresentato un importante passo avanti e ha colto di sorpresa l’industria musicale. Tuttavia, poche settimane fa, MusicLM ha ricevuto un aggiornamento significativo. Ecco un confronto affiancato per due prompt selezionati:

Suggerimento: “Musica dance con una linea melodica di synth e arpeggio”:

Suggerimento: “una melodia nostalgica suonata da una banda di fisarmoniche”

Questo aumento di qualità può essere attribuito a un nuovo articolo di Google Research intitolato: “MusicRL: Aligning Music Generation to Human Preferenc\es”. Apparentemente, questo aggiornamento è stato considerato così significativo che hanno deciso di rinominare il modello. Tuttavia, sotto il cofano, MusicRL è identico a MusicLM nella sua architettura chiave. L’unica differenza: Ritocchi.

Quando si costruisce un modello di intelligenza artificiale da zero, si inizia con zero conoscenze e si fanno essenzialmente ipotesi casuali. Il modello estrae quindi modelli utili attraverso l’addestramento sui dati e inizia a mostrare comportamenti sempre più intelligenti man mano che l’addestramento procede. Uno svantaggio di questo approccio è questo la formazione da zero richiede molti dati. Il finetuning è l’idea che un modello esistente venga utilizzato e adattato a un nuovo compito, o adattato per affrontare lo stesso compito in modo diverso. Poiché il modello ha già appreso i modelli più importanti, sono necessari molti meno dati.

Ad esempio, un potente LLM open source come Mistral7B può essere addestrato da zero da chiunque, in linea di principio. Tuttavia, la quantità di dati necessaria per produrre risultati anche lontanamente utili è enorme. Invece, le aziende utilizzano il modello Mistral7B esistente e gli forniscono una piccola quantità di dati proprietari per fargli risolvere nuovi compiti, che si tratti di scrivere query SQL o classificare e-mail.

IL chiave da asportoy è che la messa a punto non cambia la struttura fondamentale del modello. Adatta solo leggermente la sua logica interna per ottenere prestazioni migliori in un compito specifico. Ora, utilizziamo questa conoscenza per capire come Google ha perfezionato MusicLM sui dati degli utenti.

Pochi mesi dopo l’articolo su MusicLM, è stata rilasciata una demo pubblica come parte dell’AI Test Kitchen di Google. Lì, gli utenti potevano sperimentare gratuitamente il modello da testo a musica. Tuttavia, potresti conoscere il detto: Se il prodotto è gratuito, TU sei il prodotto. Non sorprende che Google non faccia eccezione a questa regola. Durante l’utilizzo della demo pubblica di MusicLM, ti sei trovato occasionalmente di fronte a due output generati e ti è stato chiesto di indicare quale preferisci. Attraverso questo metodo, Google è riuscita a raccogliere 300.000 preferenze utente entro un paio di mesi.

Esempio delle valutazioni delle preferenze dell’utente acquisite nel parco giochi pubblico MusicLM. Immagine tratta da Carta MusicRL.

Come puoi vedere dallo screenshot, gli utenti lo erano non esplicitamente informato che le loro preferenze verrebbero utilizzate per l’apprendimento automatico. Sebbene ciò possa sembrare ingiusto, è importante notare che molte delle nostre azioni su Internet vengono utilizzate per la formazione sul ML, che si tratti della cronologia delle ricerche di Google, dei nostri Mi piace su Instagram o delle nostre playlist Spotify private. In confronto a questi casi piuttosto personali e delicati, le preferenze musicali nel parco giochi MusicLM sembrano trascurabili.

Esempio di raccolta dati utente su articoli collaborativi di Linkedin

È bene essere consapevoli che la raccolta dei dati degli utenti per l’apprendimento automatico avviene continuamente e di solito senza un consenso esplicito. Se sei su Linkedin, potresti essere stato invitato a contribuire ai cosiddetti “articoli collaborativi”. In sostanza, gli utenti sono invitati a fornire suggerimenti su domande nel loro ambito di competenza. Ecco un esempio di a articolo collaborativo su come scrivere una canzone popolare di successo (qualcosa di cui non sapevo di aver bisogno).

Intestazione di a articolo collaborativo sulla scrittura di canzoni. Sul lato destro mi viene chiesto di contribuire per guadagnare il badge “Top Voice”.

Gli utenti sono incentivati ​​a contribuire, guadagnandosi il badge “Top Voice” sulla piattaforma. Comunque la mia impressione è questa nessuno legge davvero questi articoli. Questo mi porta a credere che queste migliaia di coppie domanda-risposta vengano utilizzate da Microsoft (proprietaria di Linkedin). addestrare un sistema di intelligenza artificiale esperto su questi dati. Se il mio sospetto fosse fondato, troverei questo esempio molto più problematico rispetto alla richiesta di Google agli utenti di indicare il loro brano preferito.

Ma torniamo a MusicLM!

La domanda successiva è come Google sia riuscita a utilizzare questa massiccia raccolta di preferenze dell’utente per mettere a punto MusicLM. Il segreto sta in una tecnica chiamata Apprendimento per rinforzo dal feedback umano (RLHF) che è stata una delle scoperte chiave di ChatGPT nel 2022. In RLHF, le preferenze umane vengono utilizzate per addestrare un modello di intelligenza artificiale che impara a imitare le decisioni sulle preferenze umane, risultando in un valutatore umano artificiale. Una volta questo cosiddetto modello di ricompensa è addestrato, può prendere in considerazione due tracce qualsiasi e prevedere quale sarebbe molto probabilmente preferita dai valutatori umani.

Con il modello di ricompensa impostato, MusicLM potrebbe essere messo a punto per massimizzare la preferenza prevista dell’utente per i suoi risultati. Ciò significa che il modello testo-musica ha generato migliaia di tracce, ciascuna traccia ricevendo una valutazione dal modello di ricompensa. Attraverso l’adattamento iterativo dei pesi del modello, MusicLM ha imparato a generare musica che “piace” al valutatore umano artificiale.

RLHF ha spiegato. Immagine tratta da MusicaRL carta.

Oltre alla messa a punto delle preferenze dell’utente, MusicLM è stata messa a punto anche su altri due criteri:
1. Pronta adesione
MuLanIl modello di incorporamento testo-audio proprietario di Google è stato utilizzato per calcolare la somiglianza tra il prompt dell’utente e l’audio generato. Durante la messa a punto, questo punteggio di aderenza è stato massimizzato.
2. Qualità audio
Google ha addestrato un altro modello di ricompensa sui dati degli utenti per valutare la qualità audio soggettiva degli output generati. Questi dati utente sembrano essere stati raccolti in sondaggi separati, non nella demo pubblica di MusicLM.

Il nuovo modello perfezionato sembra farlo superano in modo affidabile il vecchio MusicLMascoltare gli esempi forniti su pagina dimostrativa. Naturalmente, una demo pubblica selezionata può essere ingannevole, poiché gli autori sono incentivati ​​a mostrare esempi che rendano il loro nuovo modello il migliore possibile. Speriamo di poter testare presto MusicRL in un parco giochi pubblico.

Tuttavia, il documento fornisce anche a valutazione quantitativa di qualità soggettiva. Per questo, Google ha condotto uno studio e ha chiesto agli utenti di confrontare due tracce generate per lo stesso prompt, assegnando a ciascuna traccia un punteggio da 1 a 5. Utilizzando questa metrica dal nome fantasioso Mean Opinion Score (MOS), possiamo confrontare non per ciascun modello vince solo il numero di confronti diretti, ma calcola anche il punteggio medio del valutatore (MOS).

Benchmark quantitativi. Immagine tratta da MusicaRL carta.

Qui, MusicLM rappresenta il modello MusicLM originale. MusicRL-R è stato ottimizzato solo per la qualità audio e la pronta aderenza. MusicRL-U è stato messo a punto esclusivamente sul feedback umano (il modello di ricompensa). Infine, MusicRL-RU è stata messa a punto su tutti e tre gli obiettivi. Non sorprende che MusicRL-RU batte tutti gli altri modelli sia nel confronto diretto che sulla media delle valutazioni.

Il documento riporta inoltre che MusicRL-RU, il modello completamente perfezionato, batte MusicLM nell’87% dei confronti diretti. L’importanza di RLHF può essere dimostrata analizzando i confronti diretti tra MusicRL-R e MusicRL-RU. In questo caso, quest’ultimo ha avuto una percentuale di vincita del 66%, superando in modo affidabile il suo concorrente.

Sebbene la differenza nella qualità dell’output sia evidente, sia qualitativamente che quantitativamente, il nuovo MusicLM lo è sono ancora piuttosto lontani dai risultati a livello umano nella maggior parte dei casi. Anche nella pagina demo pubblica, molti output generati suonano strani, ritmicamente, non riescono a catturare gli elementi chiave del prompt o soffrono di strumenti dal suono innaturale.

A mio parere, questo documento è ancora significativo, così come lo è il primo tentativo di utilizzare RLHF per la generazione musicale. RLHF è stato ampiamente utilizzato nella generazione di testo per più di un anno. Ma perché ci è voluto così tanto tempo? Sospetto che raccogliere il feedback degli utenti e mettere a punto il modello sia piuttosto costoso. Google probabilmente ha rilasciato la demo pubblica di MusicLM con l’intento principale di raccogliere il feedback degli utenti. Questa è stata una mossa intelligente e ha dato loro un vantaggio rispetto a Meta, che ha modelli altrettanto capaci, ma nessuna piattaforma aperta su cui raccogliere i dati degli utenti.

Tutto sommato, Google si è spinta avanti rispetto alla concorrenza sfruttando metodi di perfezionamento comprovati presi in prestito da ChatGPT. Sebbene anche con RLHF, il nuovo MusicLM non abbia ancora raggiunto una qualità a livello umano, Google può ora mantenere e aggiornare il suo modello di ricompensa, migliorare le generazioni future di modelli di testo in musica con la stessa procedura di messa a punto.

Sarà interessante vedere se e quando altri concorrenti come Meta o Stability AI riusciranno a recuperare terreno. Per noi utenti tutto questo è giusto grandi notizie! Otteniamo demo pubbliche gratuite e modelli più capaci.

Per i musicisti, il ritmo degli sviluppi attuali può sembrare un po’ minaccioso, e per una buona ragione. Mi aspetto di vedere generazione di testo-musica a livello umano nei prossimi 1-3 anni. Con questo intendo un’intelligenza artificiale text-to-music che è capace di produrre musica almeno quanto ChatGPT lo era nel scrivere testi quando è stato rilasciato. I musicisti devono conoscere l’intelligenza artificiale e come può già supportarli nel loro lavoro quotidiano. Mentre l’industria musicale viene nuovamente sconvolta, la curiosità e la flessibilità saranno la chiave principale del successo.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *