Questi tre carrelli possono essere visti come tre diverse distribuzioni di dati. Se inizialmente supponessimo che esistano due classi (mele e banane), le interpretazioni che seguono sarebbero errate. Piuttosto, pensa a ciascun carrello come una distribuzione diversa, quindi il primo carrello è una distribuzione di dati in cui tutti i punti dati appartengono a una singola classe, mentre il secondo e il terzo carrello sono le distribuzioni di dati con due classi.
Osservando l’esempio sopra, è facile identificare i carrelli con le distribuzioni di dati più puri o impuri (distribuzioni di classe per essere precisi). Ma per avere una quantificazione matematica della purezza di un set di dati in modo che possa essere utilizzato da un algoritmo per prendere decisioni, l’entropia e l’indice di Gini vengono in soccorso.
Entrambe queste misure esaminano la probabilità di occorrenza (o presenza) di ciascuna classe in un set di dati. Nel nostro esempio, abbiamo un totale di 8 punti dati (frutti) in ciascun caso, quindi possiamo…
Fonte: towardsdatascience.com