Ricerca
Avanzare gli agenti IA adattivi, potenziare la creazione di scene 3D e innovare la formazione LLM per un futuro più intelligente e sicuro
La prossima settimana, i ricercatori di intelligenza artificiale di tutto il mondo si riuniranno per 38a conferenza annuale sui sistemi di elaborazione delle informazioni neurali (NeurIPS), che si svolgerà dal 10 al 15 dicembre a Vancouver,
Verranno premiati due articoli condotti dai ricercatori di Google DeepMind Prova del tempo premi per la loro “innegabile influenza” sul campo. Ilya Sutskever presenterà Apprendimento da sequenza a sequenza con reti neurali che è stato scritto in collaborazione con il vicepresidente di Drastic Research di Google DeepMind, Oriol Vinyals e il distinto scienziato Quoc V. Le. Il ricercatore di Google David Warde e il ricercatore di Google DeepMind Ian Goodfellow interverranno Reti avversarie generative.
Mostreremo anche come traduciamo la nostra ricerca fondamentale in applicazioni nel mondo reale, con dimostrazioni dal vivo incluse Gemma ambito, L'intelligenza artificiale per la generazione musicale, previsioni del tempo e altro ancora.
I team di Google DeepMind presenteranno più di 100 nuovi articoli su argomenti che vanno dagli agenti di intelligenza artificiale e media generativi agli approcci di apprendimento innovativi.
Creazione di agenti IA adattivi, intelligenti e sicuri
Gli agenti IA basati su LLM si stanno dimostrando promettenti nello svolgimento di attività digitali tramite comandi in linguaggio naturale. Tuttavia, il loro successo dipende da un'interazione precisa con interfacce utente complesse, che richiede dati di addestramento estesi. Con AndroidControlcondividiamo il set di dati di controllo più diversificato fino ad oggi, con oltre 15.000 demo raccolte da esseri umani in più di 800 app. Gli agenti IA addestrati utilizzando questo set di dati hanno mostrato miglioramenti prestazionali significativi che speriamo aiutino a far avanzare la ricerca su agenti IA più generali.
Affinché gli agenti IA possano generalizzare tra le attività, devono imparare da ogni esperienza che incontrano. Presentiamo un metodo per apprendimento dell’astrazione nel contesto che aiuta gli agenti a cogliere modelli e relazioni di compiti chiave da demo imperfette e feedback in linguaggio naturale, migliorando le loro prestazioni e adattabilità.
Lo sviluppo di un'IA agente che funzioni per raggiungere gli obiettivi degli utenti può contribuire a rendere la tecnologia più utile, ma l'allineamento è fondamentale quando si sviluppa un'IA che agisce per nostro conto. A tal fine, proponiamo un metodo teorico per misurare l'orientamento agli obiettivi di un sistema di intelligenza artificialee mostrare anche come a la percezione che il modello ha del suo utente può influenzare i suoi filtri di sicurezza. Insieme, queste informazioni sottolineano l’importanza di solide misure di salvaguardia per prevenire comportamenti non intenzionali o non sicuri, garantendo che le azioni degli agenti di intelligenza artificiale rimangano allineate con gli usi sicuri e previsti.
Avanzamento della creazione e simulazione di scene 3D
Poiché la domanda di contenuti 3D di alta qualità cresce in settori come quello dei giochi e degli effetti visivi, la creazione di scene 3D realistiche rimane costosa e richiede molto tempo. Il nostro recente lavoro introduce nuovi approcci di generazione, simulazione e controllo 3D, semplificando la creazione di contenuti per flussi di lavoro più rapidi e flessibili.
La produzione di risorse e scene 3D realistiche e di alta qualità spesso richiede l'acquisizione e la modellazione di migliaia di foto 2D. Mostriamo CAT3Dun sistema in grado di creare contenuti 3D in appena un minuto, da qualsiasi numero di immagini, anche solo da un'immagine o da un messaggio di testo. CAT3D raggiunge questo obiettivo con un modello di diffusione multi-vista che genera ulteriori immagini 2D coerenti da molti punti di vista diversi e utilizza tali immagini generate come input per le tradizionali tecniche di modellazione 3D. I risultati superano i metodi precedenti sia in termini di velocità che di qualità.
Anche la simulazione di scene con molti oggetti rigidi, come un tavolo disordinato o mattoncini Lego che cadono, rimane un'attività computazionalmente impegnativa. Per superare questo ostacolo, presentiamo una nuova tecnica chiamata SDF-Sim che rappresenta le forme degli oggetti in modo scalabile, accelerando il rilevamento delle collisioni e consentendo una simulazione efficiente di scene grandi e complesse.
I generatori di immagini AI basati su modelli di diffusione faticano a controllare la posizione 3D e l’orientamento di più oggetti. La nostra soluzione, Risorse neuraliintroduce rappresentazioni specifiche dell'oggetto che catturano sia l'aspetto che la posa 3D, apprese attraverso la formazione su dati video dinamici. Neural Assets consente agli utenti di spostare, ruotare o scambiare oggetti tra le scene: uno strumento utile per l'animazione, i giochi e la realtà virtuale.
Migliorare il modo in cui i LLM apprendono e rispondono
Stiamo anche migliorando il modo in cui i LLM formano, apprendono e rispondono agli utenti, migliorando le prestazioni e l'efficienza su diversi fronti.
Con finestre di contesto più ampie, i LLM possono ora imparare da potenzialmente migliaia di esempi contemporaneamente, noto come apprendimento in contesto many-shot (ICL). Questo processo migliora le prestazioni del modello in attività come matematica, traduzione e ragionamento, ma spesso richiede dati di alta qualità generati dall'uomo. Per rendere la formazione più conveniente, esploriamo metodi per adattare l'ICL multi-shot che riducono la dipendenza da dati curati manualmente. I dati disponibili per l'addestramento dei modelli linguistici sono così tanti che il vincolo principale per i team che li costruiscono diventa il calcolo disponibile. Noi affrontare una questione importante: con un budget di elaborazione fisso, come si sceglie la dimensione giusta del modello per ottenere i migliori risultati?
Un altro approccio innovativo, che chiamiamo Modelli linguistici a inversione temporale (TRLM), esplora la preformazione e la messa a punto di un LLM per funzionare al contrario. Quando vengono fornite risposte LLM tradizionali come input, un TRLM genera query che potrebbero aver prodotto tali risposte. Se abbinato a un LLM tradizionale, questo metodo non solo aiuta a garantire che le risposte seguano meglio le istruzioni dell'utente, ma migliora anche la generazione di citazioni per il testo riassuntivo e migliora i filtri di sicurezza contro i contenuti dannosi.
La cura di dati di alta qualità è vitale per l’addestramento di modelli di intelligenza artificiale di grandi dimensioni, ma la cura manuale è difficile su larga scala. Per far fronte a ciò, il ns Selezione di esempi congiunti (JEST) ottimizza l'addestramento identificando i dati più apprendibili all'interno di batch più grandi, consentendo fino a 13 volte in meno di cicli di addestramento e 10 volte in meno di calcoli, superando le linee di base di preaddestramento multimodale all'avanguardia.
Le attività di pianificazione rappresentano un’altra sfida per l’intelligenza artificiale, in particolare negli ambienti stocastici, dove i risultati sono influenzati dalla casualità o dall’incertezza. I ricercatori utilizzano vari tipi di inferenza per la pianificazione, ma non esiste un approccio coerente. Lo dimostriamo la pianificazione stessa può essere vista come un tipo distinto di inferenza probabilistica e proporre un quadro per classificare diverse tecniche di inferenza in base alla loro efficacia di pianificazione.
Riunisce la comunità globale dell’intelligenza artificiale
Siamo orgogliosi di essere Diamond Sponsor della conferenza e di supportarla Le donne nell'apprendimento automatico, LatinX nell'intelligenza artificiale E Nero nell'intelligenza artificiale nella costruzione di comunità in tutto il mondo che lavorano nel campo dell’intelligenza artificiale, dell’apprendimento automatico e della scienza dei dati.
Se quest'anno partecipi a NeurIPs, passa agli stand di Google DeepMind e Google Research per esplorare la ricerca all'avanguardia in demo, workshop e altro ancora durante la conferenza.
Fonte: deepmind.google