Stability AI svela il modello "Stable Audio" per la generazione audio controllabile | Intelligenza-Artificiale

Stabilità dell’intelligenza artificiale ha introdotto “Stable Audio”, un modello di diffusione latente progettato per rivoluzionare la generazione audio.

Questa svolta promette di essere un altro passo avanti per l’intelligenza artificiale generativa e combina metadati di testo, durata dell’audio e condizionamento dell’ora di inizio per offrire un controllo senza precedenti sul contenuto e sulla lunghezza dell’audio generato, consentendo anche la creazione di brani completi.

I modelli di diffusione audio tradizionalmente affrontavano una limitazione significativa nella generazione di audio di durate fisse, che spesso portavano a frasi musicali brusche e incomplete. Ciò era dovuto principalmente al fatto che i modelli venivano addestrati su blocchi audio casuali ritagliati da file più lunghi e quindi forzati in lunghezze predeterminate.

Stable Audio affronta efficacemente questa sfida storica, consentendo la generazione di audio con lunghezze specifiche, fino alla dimensione della finestra di training.

Una delle caratteristiche più straordinarie di Stable Audio è l’uso di una rappresentazione latente dell’audio fortemente sottocampionata, che si traduce in tempi di inferenza notevolmente accelerati rispetto all’audio grezzo. Attraverso tecniche di campionamento a diffusione all’avanguardia, il modello di punta Stable Audio può generare 95 secondi di audio stereo a una frequenza di campionamento di 44,1 kHz in meno di un secondo utilizzando la potenza di una GPU NVIDIA A100.

Una solida base

L’architettura principale di Stable Audio comprende un autoencoder variazionale (VAE), un codificatore di testo e un modello di diffusione condizionata basato su U-Net.

Il VAE svolge un ruolo fondamentale comprimendo l’audio stereo in una codifica latente con perdita di rumore e resistente al rumore che accelera significativamente sia i processi di generazione che quelli di addestramento. Questo approccio, basato su Descrizione Codec audio architetture di codifica e decodifica, facilita la codifica e la decodifica di audio di lunghezza arbitraria garantendo al tempo stesso un output ad alta fedeltà.

Per sfruttare l’influenza delle istruzioni di testo, Stability AI utilizza un codificatore di testo derivato da a APPLAUSO modello appositamente addestrato sul proprio set di dati. Ciò consente al modello di permeare le caratteristiche del testo con informazioni sulle relazioni tra parole e suoni. Queste caratteristiche del testo, estratte dal penultimo strato del codificatore di testo CLAP, sono integrate nella diffusione U-Net attraverso strati di attenzione incrociata.

Durante l’addestramento, il modello impara a incorporare due proprietà chiave dei blocchi audio: il secondo iniziale (“seconds_start”) e la durata totale del file audio originale (“seconds_total”). Queste proprietà vengono trasformate in incorporamenti appresi discreti al secondo, che vengono quindi concatenati con i token del prompt di testo. Questo condizionamento unico consente agli utenti di specificare la lunghezza desiderata dell’audio generato durante l’inferenza.

Il modello di diffusione nel cuore di Stable Audio vanta l’incredibile cifra di 907 milioni di parametri e sfrutta una sofisticata miscela di livelli residui, livelli di auto-attenzione e livelli di attenzione incrociata per eliminare il rumore dell’input considerando gli incorporamenti di testo e temporizzazione. Per migliorare l’efficienza della memoria e la scalabilità per sequenze di lunghezze maggiori, il modello incorpora implementazioni di attenzione efficienti in termini di memoria.

Per addestrare il modello di punta Stable Audio, Stability AI ha curato un ampio set di dati comprendente oltre 800.000 file audio che comprendono musica, effetti sonori e stem di singoli strumenti. Questo ricco set di dati, fornito in collaborazione con AudioSparx – un importante fornitore di musica stock – ammonta all’incredibile cifra di 19.500 ore di audio.

Stable Audio rappresenta l’avanguardia della ricerca sulla generazione audio, emergendo dal laboratorio di ricerca audio generativa di Stability AI, Armonia. Il team continua a dedicarsi al progresso delle architetture dei modelli, al perfezionamento dei set di dati e al miglioramento delle procedure di formazione. Il loro obiettivo prevede l’aumento della qualità dell’output, la messa a punto della controllabilità, l’ottimizzazione della velocità di inferenza e l’espansione della gamma di lunghezze di output ottenibili.

Stability AI ha accennato alle prossime versioni di Harmonai, stuzzicando la possibilità di modelli open source basati su Stable Audio e codice di formazione accessibile.

Questo ultimo annuncio rivoluzionario segue una serie di storie degne di nota sulla stabilità. All’inizio di questa settimana si è unita Stability altre sette importanti società di intelligenza artificiale che ha firmato l’impegno volontario della Casa Bianca sulla sicurezza dell’intelligenza artificiale come parte del suo secondo round.

Puoi provare Stable Audio tu stesso Qui.

(Fotografato da Eric Nopanen SU Unsplash)

Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è co-localizzato con Settimana della trasformazione digitale.

Esplora altri prossimi eventi e webinar sulla tecnologia aziendale forniti da TechForge Qui.

Ryan è un redattore senior presso TechForge Media con oltre un decennio di esperienza nella copertura delle tecnologie più recenti e nell’intervista a figure leader del settore. Spesso lo si vede alle conferenze tecnologiche con un caffè forte in una mano e un laptop nell’altra. Se è un genio, probabilmente gli piace. Trovatelo su Twitter (@Gadget_Ry) o Mastodon (@gadgetry@techhub.social)

Visualizza tutti i post