Rilevamento di valori anomali con Scikit-Learn e Matplotlib: una guida pratica |  di Riccardo Andreoni |  Ottobre 2023

 | Intelligenza-Artificiale

Scopri come visualizzazioni, algoritmi e statistiche ti aiutano a identificare le anomalie nelle tue attività di machine learning.

Ragazzo che tiene palloncini colorati
Cosa hanno a che fare i palloncini con i valori anomali? Trovi la risposta nell’introduzione. Fonte immagine: pixabay.com.

Immagina una stanza piena di palloncini coloraticiascuno simboleggia un punto dati in un set di dati. A causa delle loro diverse caratteristiche, i palloncini galleggiano a diverse altezze. Ora, immaginatene alcuni palloncini pieni di elio che inaspettatamente svettano molto al di sopra del resto. Proprio come questi palloncini eccezionali interrompono l’uniformità della stanza, i valori anomali interrompono lo schema in un set di dati.

Ritornando da questa pittoresca analogia alla pura statistica, valori anomali sono definiti come anomalie, o meglio, punti dati che si discostano in modo significativo dal resto del set di dati.

Consideriamo a Algoritmo di apprendimento automatico sviluppato per diagnosticare malattie sulla base dei dati del paziente. In questo esempio reale, i valori anomali potrebbero essere valori estremamente elevati nei risultati di laboratorio o nei parametri fisiologici. Mentre la loro origine può consistere in vari motivi come errori di raccolta dati, imprecisioni di misurazioneo genuino eventi rarila loro presenza può portare l’algoritmo a fare diagnosi errate.

Questo è il motivo per cui noi, professionisti del Machine Learning o della Data Science, dobbiamo sempre farlo trattare i valori anomali con cura.

In questo breve post, discuterò diversi metodi per identificare e rimuovere in modo efficiente i valori anomali dai tuoi dati.

Uno di essi è SVMche ho approfondito in questo post.

I valori anomali lo sono punti dati non rappresentativi in un set di dati, o meglio, punti dati che si discostano in modo significativo dal resto. Nonostante la loro semplice definizione, rilevare queste anomalie non è sempre semplice, ma prima rispondiamo alla seguente domanda fondamentale.

Perché vogliamo rilevare valori anomali in un set di dati?

Esistono due risposte a questa domanda. IL primo motivo per rilevare i valori anomali è che questi…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *