Un approccio grafico

Foto dell’autore

Chiunque si avventuri nel regno dell’apprendimento automatico o della modellazione predittiva si imbatte nel concetto di test delle prestazioni del modello. I libri di testo di solito differiscono solo in ciò che il lettore impara per primo: regressione con il suo MSE (errore medio standard) o classificazione con una pletora di indicatori di prestazione, come accuratezza, sensibilità o precisione, solo per citarne alcuni. Anche se la lettera può essere calcolata come una semplice frazione di previsioni corrette/errate ed è quindi molto intuitiva, l’AUC ROC può essere scoraggiante all’inizio. Tuttavia, è anche un parametro utilizzato frequentemente per valutare la qualità dei predittori. Analizziamo prima i suoi meccanismi per comprenderne i dettagli essenziali.

Supponiamo di aver costruito un classificatore binario che prevede la probabilità che un campione appartenga a una determinata classe. Il nostro set di dati di test con classi note ha prodotto i seguenti risultati, che possono essere riassunti in una matrice di confusione e riportati più dettagliatamente in una tabella, dove i campioni sono stati ordinati in base alla probabilità prevista di appartenere alla classe P (positiva):

Matrice di confusione e tabella di previsione dettagliata con le probabilità dei singoli campioni. Immagine dell’autore.

L’AUC ROC è definita come l’area sotto la curva ROC (caratteristica operativa del ricevitore). La curva ROC è il grafico del tasso di veri positivi (TPR) rispetto al tasso di falsi positivi (FPR) (Wikipedia). Il TPR (noto anche come sensibilità) è il rapporto tra i casi positivi correttamente identificati e tutti i casi positivi. Nel nostro caso il TPR è calcolato come 4/5 (quattro casi su cinque sono stati classificati correttamente come positivi). L’FPR è calcolato come rapporto tra il numero di casi negativi erroneamente classificati come positivi (falsi positivi) e il numero totale di casi effettivamente negativi. Nel nostro caso, l’FPR è calcolato come 2/6 (due casi negativi su 6 sono stati erroneamente classificati come positivi, se impostiamo la soglia di “positività” alla probabilità di 0,5).

Possiamo tracciare la curva ROC dai valori TPR e FPR e calcolare l’AUC (Area Under Curve):

Curva ROC basata sulle probabilità di previsione. Immagine dell’autore.

Da dove provengono i valori TPR/FPR individuali per la curva AUC? A tal fine, consideriamo la nostra tabella delle probabilità e calcoliamo TPR/FPR per ciascun campione, impostando la probabilità con la quale consideriamo positivo un campione, come quella indicata nella tabella. Anche quando superiamo il livello abituale di 0,5, al quale i campioni vengono solitamente dichiarati “negativi”, continuiamo ad assegnarli come positivi. Seguiamo questa procedura nel nostro esempio:

Immagine dell’autore

Un campione su cinque positivi è stato classificato correttamente come positivo alla soglia di 0,81, nessun campione è stato previsto negativo. Continuiamo finché non incontriamo il primo esempio negativo:

Immagine dell’autore

In questo caso, il nostro TPR si ferma al valore precedente (3 campioni positivi su 5 sono stati previsti correttamente), ma l’FPR aumenta, abbiamo erroneamente assegnato un campione negativo su sei alla classe positiva. Continuiamo fino alla fine:

Immagine dell’autore

Et voilà: arriviamo alla tabella completa che serve per creare la curva ROC.

Ma che dire dell’indice C di Harrell (noto anche come indice di concordanza o indice C)? Consideriamo il compito particolare di prevedere la morte al verificarsi di una particolare malattia, ad esempio il cancro. Alla fine, tutti i pazienti moriranno, indipendentemente dal cancro: un semplice classificatore binario non sarà di grande aiuto. I modelli di sopravvivenza tengono conto della durata fino all’esito (morte). Quanto prima si verifica l’evento, tanto maggiore è il rischio per l’individuo di riscontrarne l’esito. Se dovessi valutare la qualità di un modello di sopravvivenza, guarderesti l’indice C (noto anche come Concordanza, alias C di Harrell).

Per comprendere il calcolo del C-index dobbiamo introdurre due nuovi concetti: coppie ammissibili e coppie concordanti. Le coppie ammissibili sono coppie di campioni (ad esempio: pazienti) con risultati diversi durante l’osservazione, cioè mentre l’esperimento veniva condotto, un paziente di tale coppia ha sperimentato il risultato, mentre l’altro è stato censurato (cioè non ha ancora raggiunto il risultato). Queste coppie ammissibili vengono quindi analizzate per verificare se l’individuo con il punteggio di rischio più elevato ha vissuto l’evento, mentre quello censurato no. Questi casi sono chiamati coppie concordanti.

Semplificando un po’, il C-index è calcolato come il rapporto tra il numero di coppie concordanti e il numero di coppie ammissibili (ometto il caso dei legami di rischio per semplicità). Esaminiamo il nostro esempio, presupponendo di aver utilizzato un modello di sopravvivenza che calcola il rischio anziché la probabilità. La tabella seguente contiene solo le coppie consentite. La colonna “Concordanza” è impostata su 1, se il paziente con il punteggio di rischio più elevato ha sperimentato l’evento (era uno del nostro gruppo “positivo”). L’id è semplicemente il numero di riga della tabella precedente. Presta particolare attenzione al confronto degli individui 4 con 5 o 7.

Immagine dell’autore

Questo ci lascia con 27 coppie concordanti su 30 ammissibili. Il rapporto (la C di Harrell semplificata) è C = 0,9, il che ci ricorda con sospetto l’AUC precedentemente calcolata.

Possiamo costruire una matrice di concordanza che visualizza come viene calcolata la statistica C, come suggerito da Carrington et al. Il grafico mostra i punteggi di rischio dei positivi effettivi rispetto ai punteggi di rischio dei negativi effettivi e mostra la proporzione di coppie correttamente classificate (verde) su tutte le coppie (verde + rosso) se interpretiamo ciascun quadrato della griglia come la rappresentazione di un campione:

Matrice di concordanza per il calcolo della C di Harrell. Immagine dell’autore

La matrice di concordanza mostra le coppie correttamente classificate in concordanza verso il basso a destra, le coppie classificate in modo errato verso l’alto a sinistra e un bordo in mezzo che corrisponde esattamente alla curva ROC che abbiamo visto prima.

Analizzando il processo di costruzione di una curva ROC e della matrice di concordanza, riconosciamo una somiglianza: in entrambi i casi abbiamo classificato i nostri campioni in base al loro punteggio di probabilità/rischio e verificato se la classificazione corrispondeva alla verità fondamentale. Più alta impostiamo la soglia di probabilità per la classificazione, più falsi positivi otteniamo. Minore è il rischio di casi effettivamente positivi, maggiore è la probabilità che un caso effettivamente negativo venga erroneamente classificato come positivo. Tracciando di conseguenza i nostri dati classificati, abbiamo prodotto una curva con la stessa forma e area, che chiamiamo AUC o C di Harrell, a seconda del contesto.

Spero che questo esempio abbia contribuito a sviluppare un’intuizione sia per l’AUC che per Harrell’s C.

L’idea di confrontare questi due parametri è nata da una fruttuosa discussione durante l’incontro dell’Advanced Machine Learning Study Group, complimenti Torsten!

Riferimento: Carrington, AM, Fieguth, PW, Qazi, H. et al. Una nuova AUC parziale concordante e statistica c parziale per dati sbilanciati nella valutazione degli algoritmi di apprendimento automatico. BMC Med Informa Decis Mak 204 (2020). https://doi.org/10.1186/s12911-019-1014-6

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *