L’ascesa dei trasformatori di visione.  L’era di ResNet sta volgendo al termine?  |  di Nate Cibik

 | Intelligenza-Artificiale

E così, sembra che la risposta non sia una lotta all’ultimo sangue tra CNN e Transformers (vedi i tanti eccessivamente indulgente elogi per LSTM), ma piuttosto qualcosa di un po’ più romantico. Non solo l’adozione di convoluzioni 2D in trasformatori gerarchici come CvT e PVTv2 crea convenientemente caratteristiche multiscala, riduce la complessità dell’autoattenzione e semplifica l’architettura alleviando la necessità di codifica posizionale, ma questi modelli impiegano anche connessioni residue, un altro tratto ereditato dei loro progenitori. I punti di forza complementari dei trasformatori e delle CNN sono stati riuniti in una progenie vitale.

Quindi è finita l’era di ResNet? Sembrerebbe certamente di sì, anche se qualsiasi documento avrà sicuramente bisogno di includere questa instancabile spina dorsale per il confronto per qualche tempo a venire. È importante ricordare, tuttavia, che qui non ci sono perdenti, ma solo una nuova generazione di estrattori di funzionalità potenti e trasferibili per il divertimento di tutti, se sanno dove guardare. Modelli efficienti in termini di parametri come PVTv2 democratizzano la ricerca di architetture più complesse offrendo una potente estrazione di funzionalità con un ingombro di memoria ridotto e meritano di essere aggiunti all’elenco dei backbone standard per il benchmarking di nuove architetture.

Lavoro futuro

Questo articolo si è concentrato su come l’impollinazione incrociata delle operazioni convoluzionali e dell’attenzione al sé ci ha dato l’evoluzione dei trasformatori di caratteristiche gerarchiche. Questi modelli hanno mostrato prestazioni dominanti ed efficienza dei parametri su piccola scala, rendendoli dorsali ideali per l’estrazione delle caratteristiche (specialmente in ambienti con vincoli di parametri). Tuttavia, manca l’esplorazione del fatto che le efficienze e i pregiudizi induttivi su cui questi modelli traggono vantaggio su scala più piccola possano trasferirsi in un successo su larga scala e minacciare il predominio dei ViT puri con conteggi di parametri molto più elevati.

Grandi modelli multimodali (LMMS) come Large Language e Visual Assistant (La lava) e altre applicazioni che richiedono la comprensione del linguaggio naturale dei dati visivi si basano sul pre-addestramento contrastivo linguaggio-immagine (CLIP) incorporamenti generati dalle funzionalità ViT-L, e quindi ereditano i punti di forza e di debolezza di ViT. Se la ricerca sul ridimensionamento dei trasformatori gerarchici mostrasse che i loro vantaggi, come le funzionalità multiscala che migliorano la comprensione a grana fine, consentono loro di ottenere prestazioni migliori o simili con una maggiore efficienza dei parametri rispetto a ViT-L, ciò avrebbe un impatto pratico diffuso e immediato su qualsiasi cosa. utilizzando CLIP: LMM, robotica, tecnologie assistive, realtà aumentata/virtuale, moderazione dei contenuti, istruzione, ricerca e molte altre applicazioni che interessano la società e l’industria potrebbero essere migliorate e rese più efficienti, abbassando la barriera per lo sviluppo e l’implementazione di queste tecnologie.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *