Scopri l’intuizione dietro PCA in Python e Sklearn trasformando un set di dati multidimensionale in un numero arbitrario di dimensioni e visualizzando i dati ridotti con Matplotlib
Come analisti e scienziati dei dati, ci troviamo spesso di fronte a sfide complesse a causa della crescente quantità di informazioni disponibili.
È innegabile che l’accumulo di dati provenienti da varie fonti sia diventata una costante nella nostra vita. Data scientist o no, praticamente tutti descrivono un fenomeno come un insieme di variabili o attributi.
È molto raro lavorare per risolvere una sfida analitica senza dover affrontare un set di dati multidimensionale: ciò è particolarmente evidente oggi, dove la raccolta dei dati è sempre più automatizzata e la tecnologia ci consente di acquisire informazioni da un’ampia gamma di fonti, tra cui sensori, dispositivi IoT, social media, transazioni online e molto altro.
Ma man mano che cresce la complessità di un fenomeno, crescono anche le sfide che il data scientist deve affrontare per raggiungere i propri obiettivi.
Queste sfide potrebbero includere…
- Alta dimensionalità: Avere molte colonne può portare a problemi di dimensionalità elevata, che possono rendere i modelli più complessi e difficili da interpretare.
- Dati rumorosi: La raccolta automatica dei dati può portare alla presenza di errori, dati mancanti o dati inaffidabili.
- Interpretazione: Alta dimensionalità significa bassa interpretabilità: è difficile capire quali siano le caratteristiche più influenti per un determinato problema.
- Adattamento eccessivo: Modelli troppo complessi possono soffrire di overfitting, cioè di eccessivo adattamento ai dati di training, con conseguente scarsa capacità di generalizzare nuovi dati.
- Risorse computazionali: L’analisi di set di dati grandi e complessi spesso richiede notevoli risorse computazionali. La scalabilità è una considerazione importante.
- Comunicazione dei risultati: Spiegare in modo comprensibile le scoperte ottenute da un set di dati multidimensionale è una sfida importante, soprattutto quando si comunica con…
Fonte: towardsdatascience.com