Uno dei più grandi doni della matematica è la sua strana capacità di essere tanto generale quanto consentito dalla nostra creatività. Una conseguenza importante di questa generalizzabilità è che possiamo utilizzare lo stesso insieme di strumenti per creare formalismi per argomenti molto diversi. Un effetto collaterale di quando lo facciamo è che appariranno alcune analogie inaspettate tra queste diverse aree. Per illustrare ciò che dico, cercherò di convincervi, attraverso questo articolo, che i valori principali delle coordinate PCA e le energie di un sistema quantistico sono la stessa cosa (matematica).
Per coloro che non hanno familiarità con l'analisi delle componenti principali (o PCA), la formulerò al minimo indispensabile. L'idea principale della PCA è, in base ai dati, ottenere un nuovo set di coordinate in modo tale che quando i nostri dati originali vengono riscritti in questo nuovo sistema di coordinate, gli assi puntino nella direzione della varianza più alta.
Supponiamo di avere un set di N campioni di dati (che d'ora in poi chiamerò individui), dove ogni individuo è composto M caratteristiche. Ad esempio, se chiedo il peso, l'altezza e lo stipendio di 10 persone diverse, n=10 e m=3. In questo esempio ci aspettiamo una relazione tra peso e altezza, ma non esiste alcuna relazione tra queste variabili e lo stipendio, almeno non in linea di principio. La PCA ci aiuterà a visualizzare meglio queste relazioni. Per poter capire come e perché ciò accade, esaminerò ogni passaggio dell'algoritmo PCA.
Per iniziare il formalismo, ogni individuo sarà rappresentato da un vettore Xdove ogni componente di questo vettore è una caratteristica. Ciò significa che avremo N vettori che vivono in un Mspazio bidimensionale. Il nostro set di dati può essere considerato come una grande matrice X, M X Ndove essenzialmente posizioniamo gli individui fianco a fianco (ovvero ogni individuo è rappresentato come un vettore colonna):
Con questo in mente, possiamo iniziare correttamente l'algoritmo PCA.
Centralizzare i dati
Centralizzare i nostri dati significa spostare i punti dati in modo tale da distribuirli attorno all'origine del nostro sistema di coordinate. Per fare ciò, calcoliamo la media per ciascuna caratteristica e la sottraiamo dai punti dati. Possiamo esprimere la media di ciascuna caratteristica come un vettore M:
Dove µ_i è la media presa per il io-esima caratteristica. Centralizzando i nostri dati otteniamo una nuova matrice B dato da:
Questa matrice B rappresenta il nostro set di dati centrato attorno all'origine. Si noti che, poiché sto definendo il vettore medio come una matrice di righe, devo utilizzare its trasporre calcolare B (dove ogni individuo è rappresentato da una matrice di colonne), ma questo è solo un dettaglio minore.
Calcola la matrice di covarianza
Possiamo calcolare la matrice di covarianza, Smoltiplicando la matrice B e la sua trasposizione B^T come mostrato di seguito:
L'1/(N-1) Il fattore in questione è semplicemente quello di rendere la definizione uguale alla definizione statistica. Si possono facilmente mostrare questi elementi S_ij della matrice sopra sono le covarianze della caratteristica io con la funzionalità Je il suo ingresso diagonale S_ii è la varianza di io-esima caratteristica.
Trovare gli autovalori e gli autovettori della matrice di covarianza
Elencherò tre fatti importanti dell'algebra lineare (che non dimostrerò qui) sulla matrice di covarianza S che abbiamo costruito finora:
- La matrice S è simmetrico: le voci specchiate rispetto alla diagonale sono uguali (es S_ij = S_ji);
- La matrice S è ortogonalmente diagonalizzabile: esiste un insieme di numeri (λ_1, λ_2, …, λ_m) chiamato autovalorie un insieme di vettori (v_1, v_2…, v_m) chiamato autovettoritale che, quando S è scritto utilizzando gli autovettori come base, ha una forma diagonale con elementi diagonali come autovalori;
- La matrice S ha solo autovalori reali e non negativi.
Nel formalismo PCA, gli autovettori della matrice di covarianza sono chiamati componenti principali e gli autovalori sono chiamati valori principali.
A prima vista, sembrano solo un insieme di operazioni matematiche su un set di dati. Ma ti darò un ultimo fatto di algebra lineare e per oggi abbiamo finito con la matematica:
4. La traccia di una matrice (cioè la somma dei suoi termini diagonali) è indipendente dalla base in cui la matrice è rappresentata.
Ciò significa che, se la somma dei termini diagonali nella matrice S è la varianza totale di quel set di dati, quindi la somma di autovalori di matrice S è anche la varianza totale del set di dati. Chiameremo questa varianza totale l.
Tenendo presente questo meccanismo, possiamo ordinare gli autovalori (λ_1, λ_2, …, λ_m) in ordine decrescente: λ_1 > λ_2 > … > λ_m in modo che λ_1/l > λ_2/l > … > λ_m/l. Abbiamo ordinato i nostri autovalori utilizzando la varianza totale del nostro set di dati come metrica di importanza. La prima componente principale, v_1, punta verso la direzione della varianza maggiore perché il suo autovalore, λ_1, rappresenta il contributo maggiore alla varianza totale.
Questo è il PCA in poche parole. Ora… che dire della meccanica quantistica?
Forse l’aspetto più importante della meccanica quantistica per la nostra discussione qui è uno dei suoi postulati:
Gli stati di un sistema quantistico sono rappresentati come vettori (solitamente chiamati vettori di stato) che vivono in uno spazio vettoriale, chiamato spazio di Hilbert.
Mentre scrivo questo, ho notato che trovo questo postulato molto naturale perché lo vedo tutti i giorni e mi sono abituato. Ma è un po' assurdo, quindi prenditi il tuo tempo per assorbirlo. Tieni a mente che stato è un termine generico che usiamo in fisica che significa “la configurazione di qualcosa in un certo momento”.
Questo postulato implica che quando rappresentiamo nostro sistema fisico come vettore, qui si applicano tutte le regole dell'algebra lineare e non dovrebbe sorprendere che emergano alcune connessioni tra PCA (che si basa anch'essa sull'algebra lineare) e la meccanica quantistica.
Poiché la fisica è la scienza interessata a come cambiano i sistemi fisici, dovremmo essere in grado di rappresentarli i cambiamenti nel formalismo della meccanica quantistica. A modifica un vettore, dobbiamo applicare qualche tipo di operazione su di esso utilizzando un'entità matematica chiamata (non a caso) operatore. Una classe di operatori di particolare interesse è la classe degli operatori lineari; infatti, sono così importanti che di solito omettiamo il termine “lineare” perché è implicito che quando parliamo di operatori, questi siano operatori lineari. Quindi, se vuoi stupire la gente al tavolo di un bar, sgancia questa bomba:
Nella meccanica quantistica, è tutta una questione di vettori (di stato) e operatori (lineari).
Misure in meccanica quantistica
Se nel contesto della meccanica quantistica i vettori rappresentano gli stati fisici, cosa rappresentano gli operatori? Bene, rappresentano il fisico misurazioni. Ad esempio, se voglio misurare la posizione di una particella quantistica, questa viene modellata nella meccanica quantistica applicando un operatore di posizione sul vettore di stato associato alla particella. Allo stesso modo, se voglio misurare l’energia di una particella quantistica, devo applicarle l’operatore energia. L'ultimo trucco per collegare la meccanica quantistica e la PCA è ricordare che un operatore lineare, quando si sceglie una base, può essere rappresentato come una matrice.
Una base molto comune utilizzata per rappresentare i nostri sistemi quantistici è la base costituita dagli autovettori dell'operatore energetico. In questa base, la matrice dell'operatore energetico è diagonale, e i suoi termini diagonali sono le energie del sistema per diversi stati energetici (autoigeni). La somma di questi valori energetici corrisponde alla traccia del vostro operatore energetico, e se vi fermate a pensarci, ovviamente questo non può cambiare con un cambio di base, come detto in precedenza in questo testo. Se cambiasse, implicherebbe che dovrebbe essere possibile cambiare l’energia di un sistema scrivendo i suoi componenti in modo diverso, il che è assurdo. Al tuo apparato di misura in laboratorio non importa se usi la base A o B per rappresentare il tuo sistema: se misuri l'energia, misuri l'energia e basta.
Detto questo, una buona interpretazione dei valori principali di una scomposizione PCA è che corrispondono all '”energia” del tuo sistema. Quando scrivi i tuoi valori principali (e le componenti principali) in ordine decrescente, stai dando priorità agli “stati” che trasportano le maggiori “energie” del tuo sistema.
Questa interpretazione può essere in qualche modo più approfondita rispetto al tentativo di interpretare una quantità statistica come la varianza. Credo che abbiamo una migliore intuizione dell'energia poiché è un concetto fisico fondamentale.
“Tutto questo è abbastanza ovvio.” Questa è stata una provocazione fatta dal mio più caro amico Rodrigo da Mottafacendo riferimento all'articolo che hai appena letto.
Quando scrivo post come questo, cerco di spiegare le cose avendo in mente il lettore con un contesto minimo. Questo esercizio mi ha portato alla conclusione che, con il giusto background, praticamente tutto può essere potenzialmente ovvio. Rodrigo e io siamo fisici e siamo anche scienziati dei dati, quindi questa relazione tra meccanica quantistica e PCA deve essere abbastanza ovvia a noi.
Scrivere post come questo mi dà più ragioni per credere che dovremmo esporci a tutti i tipi di conoscenza perché è lì che nascono connessioni interessanti. Lo stesso cervello umano che pensa e crea la comprensione della fisica è quello che crea la comprensione della biologia, della storia e del cinema. Se le possibilità del linguaggio e le connessioni del nostro cervello sono finite, significa che, in modo continuo o meno, alla fine ricicliamo i concetti da un campo all’altro, e questo crea strutture condivise sottostanti attraverso i domini della conoscenza.
Noi, come scienziati, dovremmo trarne vantaggio.
(1) Algebra lineare della PCA: https://www.math.union.edu/~jaureguj/PCA.pdf
(2) I postulati della meccanica quantistica: https://web.mit.edu/8.05/handouts/jaffe1.pdf
Fonte: towardsdatascience.com