Il tuo set di dati ha valori mancanti?  Fare niente!  |  di Samuele Mazzanti |  Ottobre 2023

 | Intelligenza-Artificiale

I valori mancanti sono molto comuni nei set di dati reali. Nel corso del tempo sono stati proposti molti metodi per affrontare questo problema. Solitamente consistono o nel rimuovere i dati che contengono valori mancanti o nell’imputarli con alcune tecniche.

In questo articolo, testerò una terza alternativa:

Facendo nulla.

In effetti, i migliori modelli per set di dati tabulari (vale a dire XGBoost, LightGBM e CatBoost) possono gestire in modo nativo i valori mancanti. Quindi la domanda a cui cercherò di rispondere è:

Questi modelli riescono a gestire i valori mancanti in modo efficace o otterremmo un risultato migliore con un’imputazione preliminare?

Sembra che ci sia un convinzione diffusa che dobbiamo fare qualcosa sui valori mancanti. Ad esempio, ho chiesto a ChatGPT cosa dovrei fare se il mio set di dati contiene valori mancanti e mi ha suggerito 10 modi diversi per eliminarli (puoi leggere la risposta completa Qui).

Ma da dove nasce questa convinzione?

Di solito, questo tipo di opinioni provengono da modelli storici, in particolare dalla regressione lineare. Anche questo è il caso. Vediamo perché.

Supponiamo di avere questo set di dati:

Un set di dati con valori mancanti. (Immagine dell’autore)

Se provassimo ad addestrare una regressione lineare su queste funzionalità, otterremmo un errore. Infatti, per poter fare previsioni, la regressione lineare deve moltiplicare ciascuna caratteristica per un coefficiente numerico. Se mancano una o più caratteristiche è impossibile fare una previsione per quella riga.

Questo è il motivo per cui sono stati proposti molti metodi di imputazione. Ad esempio, una delle possibilità più semplici è sostituire i valori nulli con la media della caratteristica.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *