Prerequisito: comprensione di Valore atteso di variabili casuali discrete.
Immagina uno scenario di lancio di una moneta con i seguenti risultati e le probabilità corrispondenti.
| Outcome | Probability|
|-----------|------------|
| Heads (H) | 1 |
| Tails (T) | 0 |
Questi valori indicano che la moneta dà sempre testa (H), e se sappiamo che il risultato sarà sempre Hnon sperimentiamo alcuna “sorpresa” quando vediamo il risultato reale. E ‘sempre H.
Più in generale, diciamo P è la probabilità di esito H. Se usiamo X per denotare una variabile casuale che registra il risultato del lancio di una moneta, allora X assume valori in {H, T}. Allora Pr(X=H) = P e Pr(X=T)=1-P.
| X | Pr(X) |
|-----------|------------|
| H | p |
| T | 1 - p |
Come generalizziamo ora la “sorpresa”?
La prima cosa da notare è che la sorpresa ora è potenzialmente diversa da zero poiché il risultato non è predeterminato. Potrebbero esserci molti modi per quantificare la sorpresa, ma intuiamo alcune proprietà che deve esibire. Ad esempio, quando un risultato è improbabile, la sorpresa nel suo verificarsi dovrebbe essere elevata, mentre quando il risultato è abbastanza probabile, la sorpresa deve essere bassa. Nel caso estremo in cui P=1.0 e il risultato H è certo, la sorpresa ad esso associata deve essere pari a zero.
Per ragioni che esulano dallo scopo di questo articolo, utilizzeremo ceppo(1/p) per quantificare la sorpresa associata ad un esito di probabilità p. Ciò si traduce in una sorpresa pari a zero per risultati garantiti con p = 1,0 e risultati con valori piccoli di p si tradurranno in una grande sorpresa, proprio come vogliamo.
Data questa formulazione, nel corso di molti lanci di moneta, sperimentiamo una sorpresa S(H) = logaritmo(1/P) ogni volta che la moneta esce testa e una sorpresa S(T) = log(1/(1-P)) ogni volta che esce croce.
| X | Pr(X) | S(X) |
|------|--------|---------------|
| H | p | log(1/p) |
| T | 1 - p…
Fonte: towardsdatascience.com