In questo post implementeremo la ricerca da testo a immagine (che ci consente di cercare un’immagine tramite testo) e la ricerca da immagine a immagine (che ci consente di cercare un’immagine in base a un’immagine di riferimento) utilizzando un leggero pre- modello addestrato. Il modello che utilizzeremo per calcolare la somiglianza di immagini e testo è ispirato al Contrastive Language Image Pre-Training (CLIP), di cui parlo in un altro articolo.
A chi è utile? Tutti gli sviluppatori che desiderano implementare la ricerca di immagini, scienziati dei dati interessati ad applicazioni pratiche o lettori non tecnici che desiderano conoscere l’intelligenza artificiale nella pratica.
Quanto è avanzato questo post? Questo post ti guiderà attraverso l’implementazione della ricerca di immagini nel modo più rapido e semplice possibile.
Prerequisiti: Esperienza di codifica di base.
Questo articolo è un complemento al mio articolo su “Pre-formazione contrastiva linguaggio-immagine”. Sentiti libero di verificarlo se desideri una comprensione più approfondita della teoria:
I modelli CLIP sono addestrati per prevedere se una didascalia arbitraria appartiene a un’immagine arbitraria. Utilizzeremo questa funzionalità generale per creare il nostro sistema di ricerca di immagini. Nello specifico, utilizzeremo i codificatori di immagini e testo di CLIP per condensare gli input in un vettore, chiamato incorporamento, che può essere considerato come un riepilogo dell’input.
L’idea alla base di CLIP è che testo e immagini simili avranno incorporamenti vettoriali simili.
Fonte: towardsdatascience.com