IL maledizione della dimensionalità si riferisce ai problemi che sorgono quando si analizzano dati ad alta dimensione. IL dimensionalità O dimensione di un set di dati si riferisce al numero di caratteristiche linearmente indipendenti in quel set di dati, quindi a ad alta dimensionalità il set di dati è un set di dati con un gran numero di funzionalità. Questo termine fu coniato per la prima volta da Bellman nel 1961 quando osservò che il numero di campioni richiesti per stimare una funzione arbitraria con una certa accuratezza cresce esponenzialmente rispetto al numero di parametri che la funzione assume.
In questo articolo, daremo uno sguardo dettagliato ai problemi matematici che sorgono quando si analizza un insieme ad alta dimensione. Sebbene questi problemi possano sembrare controintuitivi, è possibile risolverli in modo intuitivo. Invece di una discussione puramente teorica, utilizziamo Python per creare e analizzare set di dati ad alta dimensionalità e vedere come la maledizione della dimensionalità si manifesta nella pratica. In questo articolo tutte le immagini, se non diversamente specificato, sono dell’autore.
Dimensione di un set di dati
Come accennato in precedenza, la dimensione di un set di dati è definita come il numero di caratteristiche linearmente indipendenti di cui è dotato. Una caratteristica linearmente indipendente non può essere scritta come una combinazione lineare delle caratteristiche in quel set di dati. Pertanto, se una caratteristica o una colonna in un set di dati è una combinazione lineare di altre caratteristiche, non verrà aggiunta alla dimensione di quel set di dati. Ad esempio, la Figura 1 mostra due set di dati. Il primo ha due colonne linearmente indipendenti e la sua dimensione è 2. Nel secondo set di dati, una colonna è multipla di un’altra, quindi abbiamo solo una caratteristica indipendente. Come mostra il grafico di questo set di dati, nonostante abbiano due caratteristiche, tutti i punti dati si trovano lungo una linea unidimensionale. Quindi la dimensione di questo set di dati è una.
L’effetto della dimensionalità sul volume
La ragione principale della maledizione della dimensionalità è l’effetto della dimensione sul volume. Qui ci concentriamo sull’interpretazione geometrica di un set di dati. In generale, noi…
Fonte: towardsdatascience.com