Scopri l’intuizione dietro PCA in Python e Sklearn trasformando un set di dati multidimensionale in un numero arbitrario di dimensioni e visualizzando i dati ridotti con Matplotlib

fotografato da Nivenn Lanos SU Unsplash

Come analisti e scienziati dei dati, ci troviamo spesso di fronte a sfide complesse a causa della crescente quantità di informazioni disponibili.

È innegabile che l’accumulo di dati provenienti da varie fonti sia diventata una costante nella nostra vita. Data scientist o no, praticamente tutti descrivono un fenomeno come un insieme di variabili o attributi.

È molto raro lavorare per risolvere una sfida analitica senza dover affrontare un set di dati multidimensionale: ciò è particolarmente evidente oggi, dove la raccolta dei dati è sempre più automatizzata e la tecnologia ci consente di acquisire informazioni da un’ampia gamma di fonti, tra cui sensori, dispositivi IoT, social media, transazioni online e molto altro.

Ma man mano che cresce la complessità di un fenomeno, crescono anche le sfide che il data scientist deve affrontare per raggiungere i propri obiettivi.

Queste sfide potrebbero includere…

  • Alta dimensionalità: Avere molte colonne può portare a problemi di dimensionalità elevata, che possono rendere i modelli più complessi e difficili da interpretare.
  • Dati rumorosi: La raccolta automatica dei dati può portare alla presenza di errori, dati mancanti o dati inaffidabili.
  • Interpretazione: Alta dimensionalità significa bassa interpretabilità: è difficile capire quali siano le caratteristiche più influenti per un determinato problema.
  • Adattamento eccessivo: Modelli troppo complessi possono soffrire di overfitting, cioè di eccessivo adattamento ai dati di training, con conseguente scarsa capacità di generalizzare nuovi dati.
  • Risorse computazionali: L’analisi di set di dati grandi e complessi spesso richiede notevoli risorse computazionali. La scalabilità è una considerazione importante.
  • Comunicazione dei risultati: Spiegare in modo comprensibile le scoperte ottenute da un set di dati multidimensionale è una sfida importante, soprattutto quando si comunica con…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *