SAM: segmenta il modello di qualsiasi cosa. Personalizza rapidamente l'atterraggio del tuo prodotto... | di Rafael Guedes | Gennaio 2024 | Intelligenza-Artificiale

Personalizza rapidamente la pagina di destinazione del tuo prodotto con SAM

I trasformatori sono stati ampiamente applicati ai casi d’uso dell’elaborazione del linguaggio naturale, ma possono essere applicati anche a molti altri domini dell’intelligenza artificiale come la previsione di serie temporali o la visione artificiale.

Grandi esempi di modelli Transformers applicati alla visione artificiale sono Stable Diffusion per la generazione di immagini, Detection Transformer per il rilevamento di oggetti o, più recentemente, SAM per la segmentazione delle immagini. Il grande vantaggio offerto da questi modelli è che possiamo utilizzare i suggerimenti di testo per manipolare le immagini senza troppi sforzi, basta un buon suggerimento.

I casi d’uso per questo tipo di modelli sono infiniti, soprattutto se lavori in un’azienda di e-commerce. Un caso d’uso semplice, dispendioso in termini di tempo e costoso è il processo che va dalla fotografia di un articolo alla pubblicazione sul sito Web per la vendita. Le aziende devono fotografare gli oggetti, rimuovere gli oggetti di scena utilizzati e, infine, dipingere il buco lasciato dall’oggetto prima di pubblicare l’oggetto sul sito web. E se l’intero processo potesse essere automatizzato dall’intelligenza artificiale e le nostre risorse umane si limitassero a gestire i casi d’uso complessi e a rivedere ciò che è stato fatto dall’intelligenza artificiale?

In questo articolo, fornirò una spiegazione dettagliata di SAM, un modello di segmentazione delle immagini, e della sua implementazione su un ipotetico caso d’uso in cui vogliamo eseguire un test A/B per capire quale tipo di sfondo aumenterebbe il tasso di conversione.

Figura 1: Segment Anything Model (immagine generata dall’autore con DALL-E)

Come sempre, il codice è disponibile su Github.

Segment Anything Model (SAM) (1) è un modello di segmentazione sviluppato da Meta che mira a creare maschere degli oggetti in un’immagine guidati da un prompt che può essere testo, una maschera, un riquadro di delimitazione o semplicemente un punto in un’immagine.

L’ispirazione viene dagli ultimi sviluppi nell’elaborazione del linguaggio naturale e, in particolare, dai modelli linguistici di grandi dimensioni, dove dato un suggerimento ambiguo, l’utente si aspetta una risposta coerente. Nella stessa linea di pensiero, gli autori volevano creare un modello che restituisse una maschera di segmentazione valida anche quando il prompt è ambiguo e potrebbe fare riferimento a più oggetti in un’immagine. Questo ragionamento ha portato allo sviluppo di un algoritmo pre-addestrato e di un…

Fonte: towardsdatascience.com