La riduzione della dimensionalità diventa semplice: teoria PCA e implementazione di Scikit-Learn |  di Riccardo Andreoni |  Febbraio 2024

 | Intelligenza-Artificiale

Doma la maledizione della dimensionalità! Impara la riduzione della dimensionalità (PCA) e implementala con Python e Scikit-Learn.

Fonte immagine: unsplash.com.

Nel romanzo Pianurai personaggi che vivono in un mondo bidimensionale si ritrovano perplessi e incapaci di comprendere quando incontrano un essere tridimensionale. Utilizzo questa analogia per illustrare come fenomeni simili si verificano nel Machine Learning quando si affrontano problemi che coinvolgono migliaia o addirittura milioni di dimensioni (ovvero caratteristiche): accadono fenomeni sorprendentiche hanno implicazioni disastrose sui nostri modelli di Machine Learning.

Sono sicuro che ti sei sentito sbalordito, almeno una volta, dal un numero enorme di funzionalità coinvolti nei moderni problemi di Machine Learning. Ogni professionista della Data Science, prima o poi, dovrà affrontare questa sfida. Questo articolo esplorerà i fondamenti teorici e l’implementazione Python dell’algoritmo di riduzione della dimensionalità più utilizzato: Analisi del componente principale (PCA).

Perché dobbiamo ridurre il numero di funzionalità?

Al giorno d’oggi sono comuni set di dati che coinvolgono migliaia o addirittura milioni di caratteristiche. L’aggiunta di nuove funzionalità a un set di dati può apportare informazioni preziose, tuttavia lo faranno rallentare il processo di formazione e farlo più difficile trovare buoni modelli e soluzioni. In Data Science questo è chiamato Maledizione della dimensionalità e spesso porta ad un’interpretazione distorta dei dati e a previsioni imprecise.

I professionisti del machine learning come noi possono trarre vantaggio dal fatto che, per la maggior parte dei problemi di ML, il numero di funzionalità può essere ridotto in modo coerente. Consideriamo ad esempio un’immagine: i pixel vicino al bordo spesso non contengono informazioni preziose. Tuttavia, le tecniche per ridurre in sicurezza il numero di funzionalità in un problema di ML non sono banali e necessitano di una spiegazione che fornirò in questo post.

Immagine dell’autore.

Gli strumenti che presenterò non solo semplificano lo sforzo di calcolo e aumentano l’accuratezza della previsione, ma serviranno anche come strumento per visualizzare graficamente dati ad alta dimensione. Per…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *