Miglioramento delle prestazioni e della spiegabilità di Zero-Shot CLIP |  di Alexey Kravets |  Novembre 2023

 | Intelligenza-Artificiale

Parte 2 – Classificazione visiva tramite descrizione da LLM

Questa è la seconda parte di una serie sul miglioramento delle prestazioni di Zero-Shot CLIP. Nella prima parte ho fornito una spiegazione dettagliata di come funziona il modello CLIP e ho descritto un metodo semplice per migliorarne le prestazioni. Ciò ha comportato l’estensione di prompt standard come “Una foto di {classe}” con suggerimenti personalizzati generati da un modello linguistico di grandi dimensioni (LLM). Se non l’hai già fatto, puoi trovare la parte 1 Qui. In questo articolo presenteremo un metodo relativamente simile per migliorare le prestazioni CLIP zero-shot che è inoltre altamente spiegabile.

Il modello CLIP è un impressionante predittore a colpo zero, che consente previsioni su attività per le quali non è stato esplicitamente addestrato. Nonostante le sue capacità intrinseche, esistono diverse strategie per migliorarne notevolmente le prestazioni. Nel primo articolo abbiamo visto una di queste strategie, tuttavia, sebbene ottenere prestazioni migliorate sia prezioso, ci sono casi in cui potremmo essere disposti a fare dei compromessi per dare priorità a una migliore spiegabilità. In questo secondo articolo della nostra serie esploreremo un metodo che non solo migliora le prestazioni del modello CLIP zero-shot, ma garantisce anche che le sue previsioni siano facilmente comprensibili e interpretabili.

Oggi sono disponibili varie tecniche di spiegabilità per i modelli di deep learning. In un articolo precedenteHo approfondito i gradienti integrati, un metodo che racconta come ciascuna caratteristica di un input influenza l’output di un modello di apprendimento automatico, in particolare le reti neurali profonde. Un altro approccio popolare per l’interpretazione del modello si basa sui valori Shap, in cui assegniamo il contributo di ciascuna caratteristica all’output del modello sulla base di concetti della teoria dei giochi cooperativi. Sebbene questi metodi siano versatili e possano essere applicati a qualsiasi modello di deep learning, possono essere alquanto difficili da implementare e interpretare. CLIP, che è stato addestrato per mappare le caratteristiche di immagine e testo nello stesso spazio di incorporamento, fornisce un metodo di spiegabilità alternativo basato sul testo. Questo approccio è più user-friendly e offre una facile interpretabilità, fornendo una prospettiva diversa sulla spiegazione del modello.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *