Approfondimento sui trasformatori per il rilevamento di oggetti (DETR) | Intelligenza-Artificiale

Indice contenuti

Approfondimento e spiegazioni chiare sul documento “Rilevamento end-to-end con trasformatori”

Nota: questo articolo approfondisce l’intricato mondo della visione artificiale, concentrandosi in particolare sui trasformatori e sul meccanismo di attenzione. Si consiglia di conoscere i concetti chiave dell’articolo “L’attenzione è tutto ciò di cui hai bisogno.”

DETRCorto per DItezione TRansformer, ha aperto la strada a una nuova ondata di rilevamento di oggetti su idea di Nicolas Carion e del team di Ricerca sull’intelligenza artificiale di Facebook nel 2020.

Pur non avendo attualmente lo status SOTA (State Of The Art), la riformulazione innovativa del DETR dei compiti di rilevamento degli oggetti ha influenzato in modo significativo i modelli successivi, come CO-DETR, che rappresenta l’attuale stato dell’arte in Rilevamento oggetti E Segmentazione delle istanze.

Allontanandosi dallo scenario convenzionale del problema uno-a-molti, in cui ogni verità fondamentale corrisponde a una miriade di candidati ancoraggi, DETR introduce una nuova prospettiva considerando il rilevamento degli oggetti come un impostare il problema della previsionecon una corrispondenza uno a uno tra previsioni e verità di base, eliminando così la necessità di determinate tecniche di post-elaborazione.

Il rilevamento degli oggetti è un dominio della visione artificiale che si concentra sull’identificazione e la localizzazione degli oggetti all’interno di immagini o fotogrammi video. Oltre a classificare semplicemente un oggetto, fornisce un riquadro di delimitazione, che indica la posizione dell’oggetto nell’immagine, consentendo così ai sistemi di comprendere il contesto spaziale e il posizionamento dei vari oggetti identificati.

Il rilevamento degli oggetti è di per sé molto utile, ad esempio nella guida autonoma, ma è anche un compito preliminare segmentazione delle istanzedove proviamo a cercare un contorno più preciso degli oggetti, pur essendo in grado di differenziare tra istanze diverse (a differenza della segmentazione semantica).

Soppressione non massima, immagine dell’autore

Soppressione non massima (NMS) è stato a lungo la pietra angolare degli algoritmi di rilevamento degli oggetti, svolgendo un ruolo indispensabile nella post-elaborazione per perfezionare i risultati della previsione. Nelle strutture tradizionali di rilevamento degli oggetti, il modello propone una serie di riquadri di delimitazione attorno alle potenziali regioni degli oggetti, alcuni dei quali mostrano invariabilmente una sostanziale sovrapposizione (come mostrato nell’immagine sopra).

NMS affronta questo problema preservando il riquadro di delimitazione con il massimo punteggio di oggettività previstoe sopprimendo contemporaneamente i riquadri vicini che manifestano un elevato grado di sovrapposizione, quantificato dalla metrica Intersection over Union (IoU). Nello specifico, data una soglia IoU prestabilita, NMS seleziona iterativamente il riquadro di delimitazione con il punteggio di confidenza più alto e annulla quelli con IoU che supera questa soglia, garantendo una previsione singolare e altamente sicura per oggetto

Nonostante la sua ubiquità, DETR (DEtection TRansformer) elude audacemente il convenzionale NMS, reinventando il rilevamento degli oggetti mediante formulandolo come un problema di previsione insiemistica.

Sfruttando i trasformatori, DETR prevede direttamente un insieme di riquadri di delimitazione di dimensione fissa e ovvia alla necessità del tradizionale NMS, in modo notevole semplificando la pipeline di rilevamento degli oggetti preservando, se non migliorando, le prestazioni del modello.

Nel quadro di alto livello, DETR lo è

Un codificatore di immagini (in realtà è un doppio codificatore di immagini perché innanzitutto c’è a La spina dorsale della CNN seguito da a Trasformatore Codificatore per una maggiore espressività)
UN Decodificatore del trasformatore che produce i riquadri di delimitazione dalla codifica dell’immagine.