Un istogramma è un grafico che visualizza la frequenza dei dati numerici. È comunemente usato nella scienza dei dati e nella statistica per avere una stima grezza della distribuzione di un set di dati. La stima della densità del kernel (KDE) è un metodo per stimare la funzione di densità di probabilità (PDF) di una variabile casuale con una distribuzione sconosciuta utilizzando un campione casuale estratto da tale distribuzione. Pertanto, ci consente di dedurre la densità di probabilità di una popolazione, sulla base di un set di dati finito campionato da essa. KDE è spesso utilizzato nell’elaborazione dei segnali e nella scienza dei dati, come strumento essenziale per stimare la densità di probabilità. Questo articolo discute la matematica e l’intuizione dietro gli istogrammi e KDE e i loro vantaggi e limiti. Dimostra anche come KDE possa essere implementato in Python da zero. Tutte le figure in questo articolo sono state create dall’autore.
Densità di probabilità
Permettere X essere una variabile casuale continua. La probabilità che X assume un valore nell’intervallo (a, b) può essere scritto come
Dove f(x) È X(PDF) della funzione di densità di probabilità. IL funzione di densità cumulativa (CDF) di X è definito come:
Da qui il CDF di Xvalutato a Xè la probabilità che X assumerà un valore inferiore o uguale a X. Usando l’equazione 1, possiamo scrivere:
Usando il teorema fondamentale del calcolo infinitesimale possiamo dimostrarlo
il che significa che il PDF di X può essere determinato prendendo la derivata della sua CDF rispetto a X. Un istogramma è l’approccio più semplice per stimare il PDF di un set di dati e, come mostreremo nella sezione successiva, utilizza l’Equazione 1 per questo scopo.
Istogrammi
Nel Listato 1 creiamo una distribuzione bimodale come una miscela di due distribuzioni normali e estraiamo un campione casuale di dimensione 1000 da questa distribuzione. Qui mescoliamo due distribuzioni normali:
Pertanto, la media delle distribuzioni normali è rispettivamente 0 e 4 e la loro varianza è rispettivamente 1 e 0,8. I coefficienti di miscelazione sono 0,7 e 0,3, quindi la PDF della miscela di queste distribuzioni è:
Il Listato 1 traccia questo PDF e l’esempio nella Figura 1.
Fonte: towardsdatascience.com