Statistiche robuste per scienziati dei dati Parte 1: Misure resilienti della tendenza centrale e delle dispersioni |  di Alessandro Tomassini |  Gennaio 2024

 | Intelligenza-Artificiale

Costruire una base: comprendere e applicare misure robuste nell’analisi dei dati

Generazione di immagini con DALL-E

Il ruolo delle statistiche nella scienza dei dati è centrale, poiché collega i dati grezzi a informazioni fruibili. Tuttavia, non tutti i metodi statistici sono uguali, soprattutto di fronte alla dura realtà dei dati (confusi) del mondo reale. Questo ci porta allo scopo delle statistiche robuste, un sottocampo progettato per resistere alle anomalie dei dati che spesso mandano fuori rotta i metodi statistici tradizionali.

Sebbene le statistiche classiche ci siano state utili, la loro suscettibilità ai valori anomali e estremi può portare a conclusioni fuorvianti. Inserisci statistiche robuste, che mirano a fornire risultati più affidabili in una più ampia varietà di condizioni. Questo approccio non consiste nello scartare senza considerazione i valori anomali, ma nello sviluppare metodi meno sensibili ad essi.

Le statistiche robuste si fondano sul principio di resilienza. Si tratta di costruire metodi statistici che non siano influenzati, o siano influenzati minimamente, da piccole deviazioni rispetto ai presupposti cari ai metodi tradizionali. Questa resilienza è cruciale nell’analisi dei dati del mondo reale, dove set di dati perfettamente distribuiti sono l’eccezione, non la norma.

I concetti chiave nelle statistiche robuste sono valori anomali, punti di leva e punti di ripartizione.

Valori anomali e punti Legerave

I valori anomali sono punti dati che si discostano in modo significativo dalle altre osservazioni nel set di dati. I punti di leva, in particolare nel contesto dell’analisi di regressione, sono valori anomali nello spazio delle variabili indipendenti che possono influenzare eccessivamente l’adattamento del modello. In entrambi i casi la loro presenza può distorcere i risultati delle analisi statistiche classiche.

Ad esempio, consideriamo un set di dati in cui misuriamo l’effetto delle ore sui punteggi degli esami. Un valore anomalo potrebbe essere uno studente che ha studiato molto poco ma ha ottenuto un punteggio eccezionalmente alto, mentre un punto di leva potrebbe essere uno studente che ha studiato un numero insolitamente alto di ore rispetto ai suoi compagni.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *