
Scopri come visualizzazioni, algoritmi e statistiche ti aiutano a identificare le anomalie nelle tue attività di machine learning.
Immagina una stanza piena di palloncini coloraticiascuno simboleggia un punto dati in un set di dati. A causa delle loro diverse caratteristiche, i palloncini galleggiano a diverse altezze. Ora, immaginatene alcuni palloncini pieni di elio che inaspettatamente svettano molto al di sopra del resto. Proprio come questi palloncini eccezionali interrompono l’uniformità della stanza, i valori anomali interrompono lo schema in un set di dati.
Ritornando da questa pittoresca analogia alla pura statistica, valori anomali sono definiti come anomalie, o meglio, punti dati che si discostano in modo significativo dal resto del set di dati.
Consideriamo a Algoritmo di apprendimento automatico sviluppato per diagnosticare malattie sulla base dei dati del paziente. In questo esempio reale, i valori anomali potrebbero essere valori estremamente elevati nei risultati di laboratorio o nei parametri fisiologici. Mentre la loro origine può consistere in vari motivi come errori di raccolta dati, imprecisioni di misurazioneo genuino eventi rarila loro presenza può portare l’algoritmo a fare diagnosi errate.
Questo è il motivo per cui noi, professionisti del Machine Learning o della Data Science, dobbiamo sempre farlo trattare i valori anomali con cura.
In questo breve post, discuterò diversi metodi per identificare e rimuovere in modo efficiente i valori anomali dai tuoi dati.
Uno di essi è SVMche ho approfondito in questo post.
I valori anomali lo sono punti dati non rappresentativi in un set di dati, o meglio, punti dati che si discostano in modo significativo dal resto. Nonostante la loro semplice definizione, rilevare queste anomalie non è sempre semplice, ma prima rispondiamo alla seguente domanda fondamentale.
Perché vogliamo rilevare valori anomali in un set di dati?
Esistono due risposte a questa domanda. IL primo motivo per rilevare i valori anomali è che questi…
Fonte: towardsdatascience.com