Come estrarre ed etichettare automaticamente i punti dati su un grafico Seaborn KDE | di Lee Vaughan | Settembre 2023 | Intelligenza-Artificiale

DALL·E 2023— Un dipinto impressionista di una catena montuosa ondulata con cerchi dai colori vivaci lungo la cresta (tutte le restanti immagini sono dell’autore).

UN Grafico della stima della densità del kernel è un metodo, simile a un istogramma, per visualizzare la distribuzione dei punti dati. Mentre un istogramma contenitori e conteggi osservazioni e grafico di KDE leviga le osservazioni utilizzando un kernel gaussiano. Come alternative agli istogrammi, i KDE sono probabilmente più attraenti, più facili da confrontare nella stessa figura e più efficaci nell’accentuare i modelli nella distribuzione dei dati.

Annotare misure statistiche come la media, la mediana o la modalità su KDE le rende più significative. Mentre aggiungere linee per queste misure lo è facilefarli sembrare puliti e ordinati non lo è.

Linee di riferimento aggiunte con il metodo facile (a sinistra) rispetto al metodo più difficile ma più attraente (a destra)

In questo Scienza dei dati di successo rapido progetto, utilizzeremo i dati del censimento e del Congresso degli Stati Uniti per annotare a livello di codice più grafici di KDE valori mediani. Questo approccio garantirà che l’annotazione della trama automaticamente si adatta agli aggiornamenti dei set di dati.

Per maggiori dettagli sui grafici di KDE, vedi il mio articolo precedente Qui.

Perché gli Stati Uniti sì Età della candidatura legislazionei compleanni dei membri del Congresso fanno parte del registro pubblico. Per comodità, ho già compilato un file CSV con i nomi degli attuali membri del Congresso, insieme ai loro compleanni, ramo del governo e partito, e l’ho archiviato in questo Il succo.

Per la popolazione degli Stati Uniti utilizzeremo quelli del Census Bureau Popolazione civile postcensale mensile tabella per luglio 2023. Come per il set di dati precedente, si tratta di informazioni pubbliche che ho salvato in un file CSV in questo Il succo.

Per questo progetto dovremo installare Seaborn per il tracciamento e Pandas per l’analisi dei dati. È possibile installare queste librerie come segue:

Con Conda: conda install pandas seaborn

Con pip: pip install pandas seaborn