Ricerca

Pubblicato

Verso sistemi di IA più multimodali, robusti e generali

La prossima settimana segna l’inizio della 37a conferenza annuale sui Neural Information Processing Systems (NeurIPS), la più grande conferenza sull’intelligenza artificiale (AI) al mondo. NeurIPS 2023 si svolgerà dal 10 al 16 dicembre a New Orleans, negli Stati Uniti.

I team di Google DeepMind presenteranno più di 180 documenti alla conferenza e ai workshop principali.

Presenteremo demo dei nostri modelli IA all’avanguardia per previsioni meteorologiche globali, scoperta dei materialiE filigranare i contenuti generati dall’intelligenza artificiale. Ci sarà anche l’opportunità di ascoltare la squadra dietro Gemini, la nostra modalità AI più grande e potentel.

Ecco alcuni dei punti salienti della nostra ricerca:

Multimodalità: linguaggio, video, azione

UniSim è un simulatore universale di interazioni nel mondo reale.

I modelli di intelligenza artificiale generativa possono creare dipinti, comporre musica e scrivere storie. Ma per quanto capaci possano essere questi modelli in un mezzo, la maggior parte fatica a trasferire tali competenze ad un altro. Approfondiremo come le abilità generative potrebbero aiutare ad apprendere attraverso le modalità. In una presentazione in primo piano, lo mostriamo i modelli di diffusione possono essere utilizzati per classificare le immagini senza alcuna formazione aggiuntiva richiesta. I modelli di diffusione come Imagen classificano le immagini in un modo più umano rispetto ad altri modelli, basandosi su forme piuttosto che su trame. Inoltre, mostriamo come è giusto prevedere le didascalie dalle immagini può migliorare l’apprendimento della visione artificiale. Il nostro approccio ha superato i metodi attuali sui compiti visivi e linguistici e ha mostrato maggiori potenzialità di scalabilità.

Modelli più multimodali potrebbero lasciare il posto ad assistenti digitali e robot più utili per aiutare le persone nella loro vita quotidiana. In un poster sotto i riflettori, noi creare agenti che possano interagire con il mondo digitale come fanno gli esseri umani – tramite screenshot e azioni di tastiera e mouse. Separatamente, lo mostriamo con sfruttando la generazione di video, inclusi sottotitoli e didascalie, i modelli possono trasferire conoscenze prevedendo piani video per azioni robot reali.

Uno dei prossimi traguardi potrebbe essere quello di generare un’esperienza realistica in risposta alle azioni svolte da esseri umani, robot e altri tipi di agenti interattivi. Presenteremo una demo di UniSimil nostro simulatore universale di interazioni nel mondo reale. Questo tipo di tecnologia potrebbe avere applicazioni in tutti i settori, dai videogiochi e film, alla formazione di agenti per il mondo reale.

Costruire un’IA sicura e comprensibile

Illustrazione artistica dell’intelligenza artificiale (AI). Questa immagine raffigura la ricerca sulla sicurezza dell’intelligenza artificiale. È stato creato dall’artista Khyati Trehan come parte del progetto Visualizing AI lanciato da Google DeepMind.

I grandi modelli linguistici possono generare risposte impressionanti, ma sono soggetti ad “allucinazioni”, testo che sembra corretto ma è inventato. I nostri ricercatori sollevano la questione se un metodo per trovare la posizione memorizzata di un fatto (localizzazione) possa consentire la modifica del fatto. Sorprendentemente, lo hanno scoperto la localizzazione di un fatto e la modifica della posizione non modificano il fattosuggerendo la complessità della comprensione e del controllo delle informazioni archiviate nei LLM. Con Tracr, proponiamo un nuovo modo di valutare l’interpretabilità metodi traducendo programmi leggibili dall’uomo in modelli di trasformatori. Noi abbiamo open source una versione di Tracr per aiutare a servire come verità fondamentale per valutare i metodi di interpretabilità.

Quando si sviluppano e si distribuiscono modelli di grandi dimensioni, la privacy deve essere integrata in ogni fase del processo. Per la formazione, i nostri team stanno studiando come misurare se i modelli linguistici memorizzano i dati – al fine di tutelare materiale privato e sensibile. Parallelamente, i nostri ricercatori dimostrano come valutare la tutela della privacy allenarsi con una tecnica efficace abbastanza per l’uso nel mondo reale. In un’altra presentazione orale, i nostri scienziati indagano su limitazioni della formazione attraverso i modelli “studente” e “docente”. che hanno diversi livelli di accesso e vulnerabilità se attaccati.

Abilità emergenti

Illustrazione artistica dell’intelligenza artificiale (AI). Questa immagine immagina l’Intelligenza Generale Artificiale (AGI). È stato creato da Novoto Studio come parte del progetto Visualizing AI lanciato da Google DeepMind.

Man mano che i modelli di grandi dimensioni diventano più capaci, la nostra ricerca sta spingendo i limiti delle nuove capacità per sviluppare sistemi di intelligenza artificiale più generali.

Sebbene i modelli linguistici siano utilizzati per compiti generali, mancano della necessaria comprensione esplorativa e contestuale per risolvere problemi più complessi. Introduciamo l’Albero dei pensieri, un nuovo framework per l’inferenza del modello linguistico per aiutare i modelli a esplorare e ragionare su un’ampia gamma di possibili soluzioni. Organizzando il ragionamento e la pianificazione come un albero invece della catena di pensieri piatta comunemente usata, dimostriamo che un modello linguistico è in grado di risolvere compiti complessi come il “gioco 24” in modo molto più accurato.

Per aiutare le persone a risolvere i problemi e a trovare ciò che cercano, i modelli di intelligenza artificiale devono elaborare in modo efficiente miliardi di valori univoci. Con Feature Multiplexing, un unico spazio di rappresentazione viene utilizzato per molte funzionalità diverse, consentendo ai modelli di incorporamento di grandi dimensioni (LEM) di adattarsi a prodotti per miliardi di utenti.

Infine, con DoReMi mostriamo come l’utilizzo dell’intelligenza artificiale per automatizzare la combinazione di tipi di dati di addestramento può accelerare significativamente l’addestramento del modello linguistico e migliorare le prestazioni su compiti nuovi e mai visti.

Promuovere una comunità globale di intelligenza artificiale

Siamo orgogliosi di sponsorizzare NeurIPS e supportare i workshop condotti da LatinX nell’intelligenza artificiale, QueerInAIE Donne in mlcontribuire a promuovere collaborazioni di ricerca e sviluppare una comunità diversificata di intelligenza artificiale e apprendimento automatico. Quest’anno, NeurIPS avrà un percorso creativo caratterizzato dal nostro progetto Visualizing AI, che commissiona agli artisti la creazione di rappresentazioni dell’IA più diverse e accessibili.

Se parteciperai a NeurIPS, vieni al nostro stand per saperne di più sulla nostra ricerca all’avanguardia e incontrare i nostri team che ospitano workshop e presentano durante la conferenza.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *