Rilevamento di oggetti personalizzati: esplorazione dei fondamenti di YOLO e formazione sui dati personalizzati | di Günter Röhrich | Gennaio 2024 | Intelligenza-Artificiale

Sfruttare modelli pre-addestrati, aumentare immagini e riquadri di delimitazione e svelare la potenza delle reti neurali convoluzionali nel rilevamento di oggetti

Il deep learning ha fatto enormi progressi negli ultimi dieci anni e, sebbene i primi modelli fossero difficili da comprendere e applicare, i framework e gli strumenti moderni consentono a chiunque abbia un minimo di comprensione del codice di addestrare la propria rete neurale per attività di visione artificiale.

In questo articolo dimostrerò in modo approfondito come caricare e aumentare i dati nonché i riquadri di delimitazione, addestrare un algoritmo di rilevamento degli oggetti ed eventualmente vedere con quanta precisione siamo in grado di rilevare gli oggetti nelle immagini di prova. Sebbene i kit di strumenti disponibili siano diventati molto più facili da usare nel tempo, ci sono ancora alcune insidie in cui potresti imbatterti.

La visione artificiale è un campo di ricerca e di applicazione molto popolare e, ancor più, ampio. I progressi compiuti nel deep learning, soprattutto nell’ultimo decennio, hanno accelerato enormemente la nostra comprensione del deep learning e del suo ampio potenziale di utilizzo.

Perché vediamo questi progressi proprio ora? Come lo descrive François Chollet (il padre della libreria Keras), abbiamo assistito a un aumento delle capacità di calcolo delle CPU di un fattore pari a circa 5000, solo tra il 1990 e il 2010. Gli investimenti nelle GPU hanno persino portato avanti la ricerca.

In generale, vediamo tre compiti essenziali legati al CV:

Classificazione delle immagini: questo è probabilmente il compito più intuitivo a cui possiamo pensare. Data un’immagine, vogliamo che l’algoritmo assegni una singola etichetta di classe (ad esempio “gatto”) all’immagine, oppure puntiamo piuttosto a più classi, come “gatto”, “cane” e “persona”, tutte in un’unica immagine .
Segmentazione delle immagini: questa attività è probabilmente più conosciuta nel contesto dei nostri telefoni cellulari. Ogni volta che selezioniamo la modalità “ritratto” sul nostro telefono, possiamo osservare il nostro telefono segmentare l’oggetto principale dallo sfondo. Se utilizzi uno sfondo virtuale nelle chiamate aziendali, è anche un’attività di segmentazione eseguita in background.
Rilevamento oggetti: questo è ciò per cui siete venuti! Vogliamo trovare determinati oggetti in un’immagine e disegnare dei rettangoli attorno ad essi. Ognuno di questi…

Fonte: towardsdatascience.com