Statistiche robuste per scienziati dei dati Parte 2: Misure resilienti delle relazioni tra variabili |  di Alessandro Tomassini |  Marzo 2024

 | Intelligenza-Artificiale

Dalle tecniche di base a quelle avanzate per l'analisi di dati ricchi di valori anomali.

Immagine generata con DALL-E

Ganalizzare le interconnessioni tra le variabili è essenziale per prendere decisioni basate sui dati. Quando valutiamo accuratamente questi collegamenti, rafforziamo l’affidabilità e la legittimità dei nostri risultati, cruciali sia in contesti accademici che pratici.

I data scientist si rivolgono spesso alla correlazione di Pearson e alla regressione lineare per sondare e misurare le relazioni variabili. Questi metodi presuppongono la normalità, l'indipendenza e la diffusione coerente dei dati (o omoschedasticità) e funzionano bene quando queste condizioni sono soddisfatte. Tuttavia, gli scenari basati sui dati del mondo reale raramente sono ideali. Sono generalmente rovinati da rumore e valori anomali, che possono distorcere i risultati delle tecniche statistiche tradizionali, portando a conclusioni errate. Questo articolo, il secondo della nostra serie sulle statistiche robuste, cerca di superare questi ostacoli approfondendo alternative solide che promuovano informazioni più affidabili, anche in presenza di irregolarità nei dati.

Nel caso ti fossi perso la prima parte:

Correlazione di Pearson è un metodo statistico progettato per catturare il grado di associazione tra due variabili continue, utilizzando una scala che va da -1, che indica una perfetta proporzionalità inversa, a +1, che rappresenta una perfetta proporzionalità diretta, con il punto neutro 0 che riflette la mancanza di qualsiasi distinguibile relazione. Questo metodo presuppone che le variabili in questione aderiscano ad una distribuzione normale e mantengano una relazione lineare. Tuttavia, è interessante notare che la correlazione di Pearson è molto sensibile ai valori anomali, che possono distorcere in modo significativo il coefficiente di correlazione stimato, risultando in una rappresentazione potenzialmente fuorviante dell'intensità o della mancanza della relazione.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *