Gestire la risonanza magnetica e il deep learning con Python | di Carla Pitarca Abaigar | Dicembre 2023 | Intelligenza-Artificiale

Indice contenuti

Una guida completa all’analisi MRI attraverso modelli di deep learning in PyTorch

Prima di tutto vorrei presentarmi. Mi chiamo Carla Pitarch e sono una dottoranda in AI. La mia ricerca è incentrata sullo sviluppo di un sistema automatizzato di classificazione del grado del tumore al cervello estraendo informazioni da immagini di risonanza magnetica (MRI) utilizzando modelli di Deep Learning (DL), in particolare reti neurali convoluzionali (CNN).

All’inizio del mio percorso di dottorato, immergermi nei dati MRI e nel DL era un mondo completamente nuovo. I passaggi iniziali per l’esecuzione dei modelli in questo ambito non sono stati così semplici come previsto. Nonostante abbia trascorso un po’ di tempo a fare ricerche in questo ambito, ho riscontrato la mancanza di archivi completi che guidassero l’avvio sia alla MRI che al DL. Pertanto, ho deciso di condividere alcune delle conoscenze che ho acquisito in questo periodo, sperando che rendano il tuo viaggio un po’ più agevole.

L’avvio di attività di visione artificiale (CV) tramite DL spesso implica l’utilizzo di set di dati di immagini pubbliche standard come ImageNet caratterizzato da immagini naturali RGB a 3 canali. I modelli PyTorch sono predisposti per queste specifiche, prevedendo che le immagini di input siano in questo formato. Tuttavia, quando i nostri dati di immagine provengono da un dominio distinto, come il campo medico, divergente sia nel formato che nelle caratteristiche da questi set di dati di immagini naturali, presenta delle sfide. Questo post approfondisce questo problema, sottolineando due passaggi preparatori cruciali prima dell’implementazione del modello: allineare i dati con i requisiti del modello e preparare il modello per elaborare in modo efficace i nostri dati.

Cominciamo con una breve panoramica degli aspetti fondamentali delle CNN e della MRI.

Reti neurali convoluzionali

In questa sezione, approfondiremo il regno delle CNN, presupponendo che i lettori abbiano una conoscenza fondamentale del DL. Le CNN rappresentano le architetture gold standard in CV, specializzate nell’elaborazione di dati di immagini di input 2D e 3D. Il nostro focus in questo post sarà incentrato sull’elaborazione dei dati di immagine 2D.

La classificazione delle immagini, associando classi o etichette di output alle immagini di input, è un compito fondamentale nelle CNN. L’architettura pionieristica LeNet5 introdotta da LeCun et al.¹ nel 1989 ha gettato le basi per le CNN. Tale architettura può essere così riassunta:

Architettura CNN con due strati di convoluzione, due strati di pooling e uno strato completamente connesso precedente allo strato di output.

Le architetture CNN 2D funzionano ricevendo pixel di immagine come input, aspettandosi che un’immagine sia un tensore con forma Height x Width x Channels. Le immagini a colori sono generalmente costituite da 3 canali: rosso, verde e blu (RGB), mentre le immagini in scala di grigi sono costituite da un singolo canale.

Un’operazione fondamentale nelle CNN è convoluzioneeseguito applicando una serie di filtri O noccioli in tutte le aree dei dati di input. La figura seguente mostra un esempio di come funziona la convoluzione in un contesto 2D.

Esempio di convoluzione su un’immagine 5×5 con un filtro 3×3 che produce una caratteristica convoluta 3×3.

Il processo prevede lo scorrimento del filtro sull’immagine verso destra e il calcolo della somma ponderata per ottenere una mappa delle caratteristiche convoluta. L’output rappresenterà se uno specifico modello visivo, ad esempio un bordo, viene riconosciuto in quella posizione nell’immagine di input. Dopo ogni strato convoluzionale, una funzione di attivazione introduce la non linearità. Le scelte più popolari includono: ReLU (unità lineare rettificata), Leaky ReLu, Sigmoid, Tanh e Softmax. Per ulteriori dettagli su ciascuna funzione di attivazione, questo post fornisce spiegazioni chiare Funzioni di attivazione nelle reti neurali | di SAGAR SHARMA | Verso la scienza dei dati.

Diversi tipi di livelli contribuiscono alla costruzione delle CNN, ciascuno dei quali svolge un ruolo distinto nella definizione della funzionalità della rete. Oltre agli strati convoluzionali, molti altri strati importanti utilizzati nelle CNN includono:

Strati di raggruppamentocome il pooling massimo o il pooling medio, riducono in modo efficace le dimensioni della mappa delle funzionalità preservando le informazioni essenziali.
Strati di eliminazione vengono utilizzati per prevenire l’overfitting disattivando casualmente una frazione di neuroni durante l’allenamento, migliorando così la capacità di generalizzazione della rete.
Strati di normalizzazione batch concentrarsi sulla standardizzazione degli input per ogni livello, il che accelera la formazione della rete.
Strati completamente connessi (FC). stabilire connessioni tra tutti i neuroni di uno strato e tutte le attivazioni dello strato precedente, integrando le caratteristiche apprese per facilitare le classificazioni finali.

Le CNN imparano a identificare i modelli gerarchicamente. Gli strati iniziali si concentrano su caratteristiche di basso livello, passando progressivamente a caratteristiche altamente astratte negli strati più profondi. Una volta raggiunto lo strato FC, il file Softmax la funzione di attivazione stima le probabilità della classe per l’input dell’immagine.

Al di là della nascita di LeNet, importanti architetture CNN come AlexNet², GoogLeNet³, VGGNet⁴, ResNet⁵ e la più recente Transformer⁶ hanno contribuito in modo significativo al regno del DL.