Affrontare più attività con un unico modello di linguaggio visivo | Intelligenza-Artificiale

Un aspetto chiave dell’intelligenza è la capacità di apprendere rapidamente come eseguire un nuovo compito quando vengono fornite brevi istruzioni. Ad esempio, un bambino può riconoscere gli animali veri allo zoo dopo aver visto alcune immagini degli animali in un libro, nonostante le differenze tra i due. Ma affinché un tipico modello visivo possa apprendere un nuovo compito, deve essere addestrato su decine di migliaia di esempi specificatamente etichettati per quel compito. Se l’obiettivo è contare e identificare gli animali in un’immagine, come in “tre zebre”, si dovrebbero raccogliere migliaia di immagini e annotare ciascuna immagine con la loro quantità e specie. Questo processo è inefficiente, costoso e dispendioso in termini di risorse, poiché richiede grandi quantità di dati annotati e la necessità di addestrare un nuovo modello ogni volta che deve affrontare una nuova attività. Nell’ambito della missione di DeepMind volta a risolvere l’intelligence, abbiamo esplorato se un modello alternativo potesse rendere questo processo più semplice ed efficiente, date solo informazioni limitate su attività specifiche.

Oggi, nel preprint del ns cartapresentiamo Fenicottero, un unico modello di linguaggio visivo (VLM) che stabilisce un nuovo stato dell’arte nell’apprendimento in poche riprese su un’ampia gamma di compiti multimodali a tempo indeterminato. Ciò significa che Flamingo può affrontare una serie di problemi difficili con solo una manciata di esempi specifici di attività (in “pochi scatti”), senza che sia necessaria alcuna formazione aggiuntiva. La semplice interfaccia di Flamingo lo rende possibile, prendendo come input un prompt costituito da immagini, video e testo interlacciati e quindi generando il linguaggio associato.

Simile al comportamento di grandi modelli linguistici (LLM), che possono affrontare un compito linguistico elaborando esempi del compito nel loro prompt testuale, l’interfaccia visiva e testuale di Flamingo può indirizzare il modello verso la risoluzione di un compito multimodale. Date alcune coppie di esempio di input visivi e risposte testuali previste composte nel prompt di Flamingo, è possibile porre una domanda al modello con una nuova immagine o video e quindi generare una risposta.

Figura 1. Dati i due esempi di immagini di animali e un testo che ne identifica il nome e un commento su dove possono essere trovati, Flamingo può imitare questo stile con una nuova immagine per produrre una descrizione pertinente: “Questo è un fenicottero. Si trovano nei Caraibi.”.

Nei 16 compiti che abbiamo studiato, Flamingo batte tutti i precedenti approcci di apprendimento a poche riprese quando vengono forniti solo quattro esempi per compito. In diversi casi, lo stesso Flamingo il modello supera i metodi perfezionati e ottimizzati per ciascuna attività in modo indipendente e utilizza più ordini di grandezza di dati specifici dell’attività. Ciò dovrebbe consentire alle persone non esperte di utilizzare rapidamente e facilmente modelli di linguaggio visivo accurati su nuovi compiti da svolgere.

Figura 2. Sinistra: Prestazioni a pochi colpi del Flamingo in 16 diverse attività multimodali rispetto a prestazioni all’avanguardia specifiche per attività. Giusto: Esempi di input e output attesi per tre dei nostri 16 benchmark.

In pratica, Flamingo fonde grandi modelli linguistici con potenti rappresentazioni visive – ciascuna pre-addestrata e congelata separatamente – aggiungendo nuovi componenti architettonici nel mezzo. Quindi viene addestrato su una miscela di dati multimodali complementari su larga scala provenienti solo dal web, senza utilizzare dati annotati per scopi di apprendimento automatico. Seguendo questo metodo, partiamo da Cincillàil nostro modello linguistico con parametri 70B ottimizzato per il calcolo recentemente introdotto, per addestrare il nostro Flamingo finale modello, un VLM con parametri 80B. Una volta completata questa formazione, Flamingo può essere adattato direttamente alle attività visive tramite un semplice apprendimento a pochi scatti senza alcuna regolazione aggiuntiva specifica dell’attività.

Abbiamo anche testato le capacità qualitative del modello oltre i nostri attuali benchmark. Come parte di questo processo, abbiamo confrontato le prestazioni del nostro modello durante i sottotitoli delle immagini relative al sesso e al colore della pelle e abbiamo eseguito i sottotitoli generati dal nostro modello tramite l’API Perspective di Google, che valuta la tossicità del testo. Sebbene i risultati iniziali siano positivi, è fondamentale una maggiore ricerca volta alla valutazione dei rischi etici nei sistemi multimodali e invitiamo le persone a valutare e considerare attentamente queste questioni prima di pensare di implementare tali sistemi nel mondo reale.

Le capacità multimodali sono essenziali per importanti applicazioni di intelligenza artificiale, come aiutare i non vedenti con le sfide visive quotidiane o migliorare l’identificazione dei contenuti che incitano all’odio In rete. Flamingo consente di adattarsi in modo efficiente a questi esempi e ad altre attività al volo senza modificare il modello. È interessante notare che il modello dimostra capacità di dialogo multimodale pronte all’uso, come mostrato qui.

Figura 3 – Flamingo può impegnarsi in un dialogo multimodale fuori dagli schemi, qui visto mentre discute di un’improbabile immagine di “mostro zuppa” generata da DALL E2 di OpenAI (a sinistra), passando e identificando i famosi Prova di Stroop (Giusto).

Flamingo è una famiglia di modelli generici efficace ed efficiente che può essere applicata ad attività di comprensione di immagini e video con esempi minimi specifici per attività. Modelli come Flamingo promettono grandi benefici per la società in modi pratici e stiamo continuando a migliorare la loro flessibilità e capacità in modo che possano essere implementati in modo sicuro a vantaggio di tutti. Le capacità di Flamingo aprono la strada a ricche interazioni con modelli di linguaggio visivo appresi che possono consentire una migliore interpretabilità e nuove entusiasmanti applicazioni, come un assistente visivo che aiuta le persone nella vita di tutti i giorni – e finora siamo soddisfatti dei risultati.