Meta svela cinque modelli di intelligenza artificiale per l'elaborazione multimodale, la generazione di musica e altro ancora | Intelligenza-Artificiale

Indice contenuti

Meta lo ha fatto svelato cinque nuovi importanti modelli e ricerche di intelligenza artificiale, inclusi sistemi multimodali in grado di elaborare sia testo che immagini, modelli linguistici di nuova generazione, generazione di musica, rilevamento vocale tramite intelligenza artificiale e sforzi per migliorare la diversità nei sistemi di intelligenza artificiale.

Le pubblicazioni provengono dal team Fundamental AI Research (FAIR) di Meta, che da oltre un decennio si concentra sul progresso dell’intelligenza artificiale attraverso la ricerca aperta e la collaborazione. Poiché l’intelligenza artificiale si innova rapidamente, Meta ritiene che collaborare con la comunità globale sia fondamentale.

“Condividendo pubblicamente questa ricerca, speriamo di ispirare iterazioni e, in definitiva, di contribuire a far avanzare l’intelligenza artificiale in modo responsabile”, ha affermato Meta.

Chameleon: elaborazione multimodale di testo e immagini

Tra i rilasci ci sono componenti chiave dei modelli “Chameleon” di Meta sotto una licenza di ricerca. Chameleon è una famiglia di modelli multimodali in grado di comprendere e generare simultaneamente sia testo che immagini, a differenza della maggior parte dei modelli linguistici di grandi dimensioni che sono tipicamente unimodali.

“Proprio come gli esseri umani possono elaborare parole e immagini simultaneamente, Chameleon può elaborare e fornire sia immagini che testo allo stesso tempo”, ha spiegato Meta. “Chameleon può accettare qualsiasi combinazione di testo e immagini come input e anche produrre qualsiasi combinazione di testo e immagini.”

I potenziali casi d'uso sono praticamente illimitati, dalla generazione di didascalie creative alla creazione di nuove scene con testo e immagini.

Previsione multi-token per un addestramento più rapido del modello linguistico

Meta ha anche rilasciato modelli preaddestrati per il completamento del codice che utilizzano la “previsione multi-token” con una licenza di ricerca non commerciale. L'addestramento del modello linguistico tradizionale è inefficiente poiché prevede solo la parola successiva. I modelli multi-token possono prevedere più parole future contemporaneamente per addestrarsi più velocemente.

“Sebbene l'approccio (di una sola parola) sia semplice e scalabile, è anche inefficiente. Richiede molti ordini di grandezza in più di testo rispetto a quello di cui i bambini hanno bisogno per imparare lo stesso grado di fluidità linguistica”, ha affermato Meta.

JASCO: modello migliorato da testo a musica

Dal punto di vista creativo, JASCO di Meta consente di generare clip musicali dal testo offrendo allo stesso tempo un maggiore controllo accettando input come accordi e ritmi.

“Mentre i modelli text-to-music esistenti come MusicGen si basano principalmente su input di testo per la generazione di musica, il nostro nuovo modello, JASCO, è in grado di accettare vari input, come accordi o battute, per migliorare il controllo sugli output musicali generati”, ha spiegato Meta .

AudioSeal: rilevamento del parlato generato dall'intelligenza artificiale

Meta affermazioni AudioSeal è il primo sistema di filigrana audio progettato per rilevare il parlato generato dall'intelligenza artificiale. Può individuare i segmenti specifici generati dall'intelligenza artificiale all'interno di clip audio più grandi fino a 485 volte più velocemente rispetto ai metodi precedenti.

“AudioSeal viene rilasciato con una licenza commerciale. È solo una delle numerose linee di ricerca responsabile che abbiamo condiviso per aiutare a prevenire l’uso improprio degli strumenti di intelligenza artificiale generativa”, ha affermato Meta.

Migliorare la diversità da testo a immagine

Un'altra importante versione mira a migliorare la diversità dei modelli testo-immagine che spesso possono mostrare pregiudizi geografici e culturali.

Meta ha sviluppato indicatori automatici per valutare le potenziali disparità geografiche e ha condotto un ampio studio su oltre 65.000 annotazioni per capire come le persone percepiscono la rappresentazione geografica a livello globale.

“Ciò consente una maggiore diversità e una migliore rappresentazione nelle immagini generate dall’intelligenza artificiale”, ha affermato Meta. Il codice e le annotazioni pertinenti sono stati rilasciati per contribuire a migliorare la diversità tra i modelli generativi.

Condividendo pubblicamente questi modelli innovativi, Meta afferma di sperare di promuovere la collaborazione e guidare l’innovazione all’interno della comunità dell’intelligenza artificiale.

(Fotografato da Dima Solomin)

Guarda anche: NVIDIA presenta gli ultimi progressi nell'intelligenza artificiale visiva

Vuoi saperne di più sull'intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell'intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L'evento completo è collocato in contemporanea con altri eventi importanti, tra cui Conferenza sull'automazione intelligente, BlockX, Settimana della trasformazione digitaleE Fiera sulla sicurezza informatica e sul cloud.

Esplora altri prossimi eventi e webinar sulla tecnologia aziendale forniti da TechForge Qui.

Tag: ai, intelligenza artificiale, audioseal, camaleonte, Giusto, ottengo, meta, hai un obiettivo, Modelli, generazione musicale, fonte aperta, testo in immagine

Fonte: www.artificialintelligence-news.com

Categorie

Chameleon: elaborazione multimodale di testo e immagini

Previsione multi-token per un addestramento più rapido del modello linguistico

JASCO: modello migliorato da testo a musica

AudioSeal: rilevamento del parlato generato dall'intelligenza artificiale

Migliorare la diversità da testo a immagine

Lascia un commento Annulla risposta

Articoli Correlati

Ultimi post

La griglia può far fronte al crescente appetito dell'IA? | Intelligenza-Artificiale

Esplorare come l'IA ha cambiato la vita quotidiana | Intelligenza-Artificiale

20 Domande di intervista di chatgpt con risposte | Intelligenza-Artificiale

Test antropici AI che gestisce un vero business con risultati bizzarri | Intelligenza-Artificiale

Informazioni

Seguici

Chameleon: elaborazione multimodale di testo e immagini

Previsione multi-token per un addestramento più rapido del modello linguistico

JASCO: modello migliorato da testo a musica

AudioSeal: rilevamento del parlato generato dall'intelligenza artificiale

Migliorare la diversità da testo a immagine

Lascia un commento Annulla risposta

Articoli Correlati