Classificazione delle immagini per principianti | di Mina Ghashami | Ottobre 2023 | Intelligenza-Artificiale

Indice contenuti

Architettura VGG e ResNet dal 2014

Immagini da unsplash – modificato dall’autore

La classificazione delle immagini è stato il primo argomento in cui ho insegnato Intervista Kickstart per preparare i professionisti a trovare lavoro nelle migliori aziende tecnologiche. Ho scritto questo post mentre mi stavo preparando per una delle mie lezioni lì. Quindi, se non hai familiarità con questo argomento, questa spiegazione intuitiva potrebbe aiutare anche te.

In questo post esamineremo i modelli VGG e ResNet; Entrambi sono lavori fondamentali e influenti nello sviluppo di reti neurali convoluzionali (CNN) per la visione artificiale. Il VGG(2) è stato proposto nel 2014 da un gruppo di ricerca di Oxford, mentre il ResNet(3) è stato proposto dai ricercatori Microsoft nel 2015.

Iniziamo.

VGG sta per Gruppo di geometria visiva ed è un gruppo di ricerca presso l’Università di Oxford. Nel 2014, hanno progettato un’architettura di rete neurale convoluzionale profonda per il compito di classificazione delle immagini e le hanno dato il nome; cioè VGG. (2).

Architettura di rete VGG

Questa rete è disponibile in poche configurazioni; hanno tutti la stessa architettura, solo il numero di livelli è diverso. I più famosi sono VGG16 e VGG19. Il VGG19 è più profondo e ha prestazioni migliori del VGG16. Per semplicità, ci concentriamo su VGG16.

L’architettura di VGG16 è rappresentata nell’immagine qui sotto. Come vediamo ha 16 strati; 13 strati convoluzionali e 3 strati completamente connessi.

Architettura VGG16 — immagine dell’autore

È un’architettura molto semplice; è composto da 6 blocchi in cui i primi 5 blocchi contengono strati convoluzionali seguiti da un pool massimo e il sesto blocco contiene solo strati completamente connessi.

Tutti i livelli convoluzionali utilizzano filtri 3×3 con passo=1, e tutto il i livelli di pooling massimi sono 2×2 con passo = 2 quindi dimezzano la larghezza e l’altezza della mappa delle caratteristiche di input. Questo è chiamato downsampling poiché riduce la dimensione della mappa delle caratteristiche di output.

Tieni presente che i livelli convoluzionali iniziano con 64 filtri e raddoppiano dopo ogni raggruppamento fino a raggiungere 512 filtri. Tutti gli strati convoluzionali utilizzano lo “stesso” riempimento per mantenere…

Fonte: towardsdatascience.com