Una visione intuitiva dell'informazione reciproca |  di Mark Chang |  Marzo 2024

 | Intelligenza-Artificiale

Possiamo scomporre la formula della Mutual Information nelle seguenti parti:

IL x, X E e e

X E sono le osservazioni/valori individuali che vediamo nei nostri dati. X E Y sono proprio l’insieme di questi valori individuali. Un buon esempio sarebbe il seguente:

Osservazione discreta/binaria dell'uso dell'ombrello e del tempo

E supponendo di avere 5 giorni di osservazioni di Bob in questa sequenza esatta:

Osservazione discreta/binaria dell'uso dell'ombrello e del tempo per 5 giorni

Probabilità individuale/marginale

Queste sono solo la semplice probabilità di osservare un particolare X O nei rispettivi insiemi di possibili X E Y valori.

Prendere x = 1 ad esempio: la probabilità è semplicemente 0.4 (Bob ha portato con sé un ombrello per 2 giorni su 5 della sua vacanza).

Probabilità congiunta

Questa è la probabilità di osservare un particolare X E dalla probabilità congiunta di (X,Y). La probabilità congiunta (X,Y) è semplicemente solo l'insieme di osservazioni accoppiate. Li accoppiamo in base al loro indice.

Nel nostro caso con Bob, accoppiamo le osservazioni in base al giorno in cui si sono verificate.

Potresti essere tentato di giungere a una conclusione dopo aver osservato le coppie:

Poiché nell’80% dei casi si verificano coppie di uguale valore, ciò significa chiaramente che le persone portano gli ombrelli PERCHÉ piove!

Beh, sono qui per fare l'avvocato del diavolo e dire che potrebbe essere solo una strana coincidenza:

Se la possibilità di pioggia è molto bassa a Singapore e, indipendentemente, anche la probabilità che Bob porti con sé un ombrello è altrettanto bassa (perché odia tenere con sé cose extra), vedete che le probabilità di avere (0,0) le osservazioni accoppiate saranno molto elevate naturalmente?

Allora cosa possiamo fare per dimostrare che queste osservazioni accoppiate non sono una coincidenza?

Probabilità congiunte e probabilità individuali

Possiamo prendere il rapporto tra entrambe le probabilità per darci un indizio sulla “entità della coincidenza”.

Al denominatore prendiamo il prodotto di entrambe le probabilità individuali di un particolare X e particolare verificarsi. Perché lo abbiamo fatto?

Sbirciando nell'umile lancio della moneta

Ricorda la prima lezione che hai seguito durante la lezione di statistica: calcolare la probabilità di ottenere 2 teste in 2 lanci di una moneta equilibrata.

  • 1° lancio ( p(x) ): C'è una probabilità del 50% di ottenere testa
  • 2° lancio ( p(y) ): C'è ancora una probabilità del 50% di ottenere testa, dato che il risultato è indipendente di quello che è successo al primo lancio
  • I 2 lanci sopra indicati costituiscono le tue probabilità individuali
  • quindi, il teorico la probabilità di ottenere entrambe le teste in 2 lanci indipendenti è 0,5 *0,5 = 0,25 ( p(x).p(y) )

E se esegui effettivamente forse 100 serie di quell'esperimento del doppio lancio della moneta, probabilmente vedrai che ottieni il (teste, teste) risultato il 25% delle volte. Le 100 serie di esperimenti sono in realtà tue (X,Y) insieme di probabilità congiunte!

Pertanto, quando si prende il rapporto tra probabilità congiunte e probabilità individuali combinate, si ottiene un valore di 1.

Questo è in realtà il vero aspettativa per eventi indipendenti: la probabilità congiunta che si verifichi una determinata coppia di valori è esattamente uguale al prodotto delle loro probabilità individuali! Proprio come quello che ti è stato insegnato in statistica fondamentale.

Ora immagina che il tuo esperimento su 100 set abbia dato dei risultati (teste, teste) Il 90% delle volte. Sicuramente non può essere una coincidenza…

Ti aspettavi il 25% poiché sai che si tratta di eventi indipendenti, tuttavia ciò che è stato osservato è un'estrema distorsione di questa aspettativa.

Per tradurre in numeri questa sensazione qualitativa, il rapporto tra le probabilità è ora enorme 3,6 (0,9/0,25)essenzialmente 3,6 volte più frequente di quanto ci aspettassimo.

In quanto tale, iniziamo a pensarlo forse lo erano i lanci delle monete non indipendente. Forse il risultato del primo lancio potrebbe effettivamente avere qualche effetto inspiegabile sul secondo lancio. Forse c'è un certo livello di associazione/dipendenza tra il 1° e il 2° lancio.

Quello è ciò che La Mutual Information cerca di raccontare noi!

Valore atteso delle osservazioni

Per essere onesti nei confronti di Bob, non dovremmo limitarci a considerare i momenti in cui le sue affermazioni sono errate, vale a dire calcolare il rapporto tra le probabilità di (0,0) E (1,1).

Dovremmo anche calcolare il rapporto di probabilità per quando le sue affermazioni sono corrette, ad es (0,1) E (1,0).

Successivamente, possiamo aggregare tutti e 4 gli scenari in un metodo del valore atteso, che significa semplicemente “fare la media”: aggregare tutti i rapporti di probabilità per ciascuna coppia osservata in (X,Y)poi dividilo per il numero di osservazioni.

Questo è lo scopo di questi due termini di sommatoria. Per le variabili continue come il mio esempio del mercato azionario, utilizzeremo invece gli integrali.

Logaritmo dei rapporti

Analogamente a come calcoliamo la probabilità di ottenere 2 teste consecutive per il lancio della moneta, ora stiamo calcolando anche la probabilità aggiuntiva di vedere le 5 coppie che abbiamo osservato.

Per il lancio della moneta, calcoliamo da moltiplicando le probabilità di ogni lancio. Per Bob è lo stesso: il le probabilità hanno un effetto moltiplicativo l'uno sull'altro per darci la sequenza che abbiamo osservato nel set congiunto.

Con i logaritmi, noi trasformare gli effetti moltiplicativi in ​​additivi quelli:

Convertendo il rapporto delle probabilità nelle loro varianti logaritmiche, ora possiamo semplicemente calcolare semplicemente il valore atteso come descritto sopra utilizzando somma dei loro logaritmi.

Sentiti libero di usare log-base 2, eo 10, non ha importanza ai fini del presente articolo.

Mettere tutto insieme

Formula per l'informazione reciproca per osservazioni discrete
Formula per l'informazione reciproca per osservazioni discrete

Dimostriamo ora che Bob ha torto calcolando l'informazione reciproca. Utilizzerò log-base e (logaritmo naturale) per i miei calcoli:

Quindi qual è il valore di 0,223 dicci?

Supponiamo innanzitutto che Bob abbia ragione e che l'uso degli ombrelli lo sia indipendente dalla presenza di pioggia:

  • Sappiamo che la probabilità congiunta sarà esattamente uguale al prodotto delle probabilità individuali.
  • Pertanto, per ogni X E permutazione, il rapporto delle probabilità = 1.
  • Prendendo il logaritmo, ciò equivale a 0.
  • Pertanto, il valore atteso di tutte le permutazioni (vale a dire Mutual Information) è quindi 0.

Ma poiché il punteggio di mutua informazione che abbiamo calcolato lo è diverso da zeropossiamo quindi dimostrare a Bob che ha torto!

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *