Sarebbero passati diversi anni dalla sua nuova vita in Inghilterra prima che un De Moivre di mezza età dimostrasse un interesse reale e costante per il lavoro di Jacob Bernoulli sulla Legge dei Grandi Numeri. Per vedere a cosa ha portato il suo interesse, visitiamo il teorema di Bernoulli e l’esperimento mentale che ha portato Bernoulli alla sua scoperta.
In L’arte di progettareBernoulli aveva immaginato una grande urna contenente r biglietti neri e s biglietti bianchi. Sia r che s ti sono sconosciuti, così come la vera frazione p = r/(r+s) dei biglietti neri nell’urna. Supponiamo ora di estrarre n biglietti dall’urna in modo casuale con sostituzione e che il campione casuale li contenga X_bar_n biglietti neri. Qui, X_bar_n è la somma di n iid variabili casuali. Così, X_bar_n/n è il rapporto dei biglietti neri che osservi. In sostanzaX_bar_n/n è la tua stima del vero valore di p.
Il numero di biglietti neri X_bar_n trovato in un campione casuale di biglietti in bianco e nero ha la familiare distribuzione binomiale. Questo è:
X_bar_n ~ Binomiale(n, p)
Dove n è la dimensione del campione e p=r/(r+s) è la probabilità effettiva che un singolo biglietto sia un biglietto nero. Naturalmente p ti è sconosciuto poiché nell’esperimento di Bernoulli il numero di biglietti neri (r) e bianchi (s) ti è sconosciuto.
Da X_bar_n è distribuito binomialmente, il suo valore atteso E(X_bar_n) = np e la sua Var(X_bar_n) = np(1 — p). Ancora una volta, poiché p è sconosciuto, sia la media che la varianza di XAnche _bar_n sono sconosciuti.
Inoltre non ti è nota la differenza assoluta tra la tua stima di p e il valore reale di p. Questa stima è l’errore |X_bar_n/n — p|.
La grande scoperta di Bernoulli è stata quella di dimostrare che quando la dimensione del campione n diventa molto grande, le probabilità dell’errore |X_bar_n/n — p| essendo più piccolo di qualsiasi numero positivo arbitrariamente piccolo ϵ di tua scelta diventa incredibilmente grande. Come equazione, la sua scoperta può essere espressa come segue:
L’equazione di cui sopra è la Legge debole dei grandi numeri. Nell’equazione sopra:
P(|X_bar_n/n — p| <= ϵ) è la probabilità che l'errore di stima sia al massimo ϵ.
P(|X_bar_n/n — p| > ϵ) è la probabilità che l’errore di stima sia maggiore di ϵ.
‘c’ è un numero positivo molto grande.
Il WLLN può essere indicato in altre tre forme evidenziate nei riquadri blu sottostanti. Queste forme alternative risultano dall’esecuzione di alcuni semplici esercizi di ginnastica algebrica come segue:
Ora nota la probabilità nella terza casella colorata in blu:
P(μ — δ ≤ X_bar_n ≤ m + d) = (1 — a)
Oppure ricollegando μ =np:
P(np — δ ≤ X_bar_n ≤ np + d) = (1 — a)
Da X_bar_n ~ Binomiale(n,p), è semplice esprimere questa probabilità come differenza di due probabilità binomiali come segue:
Ma è a questo punto che le cose smettono di essere semplici. Per n grande, i fattoriali all’interno delle due somme diventano enormi e quasi impossibili da calcolare. Immagina di dover calcolare 20!, lascia stare 100! o 1000!. Ciò che serve è una buona tecnica di approssimazione per il fattoriale(n). In L’arte di indovinare Jacob Bernoulli fece alcuni deboli tentativi per approssimare queste probabilità, ma la qualità delle sue approssimazioni lasciava molto a desiderare.
La grande idea di Abraham De Moivre
Agli inizi del 1700, quando De Moivre iniziò a osservare il lavoro di Bernoulli, intuì immediatamente la necessità di una tecnica di approssimazione veloce e di alta qualità per i termini fattoriali nelle due sommatorie. Senza una tecnica di approssimazione, la grande impresa di Bernoulli era come un grande, bellissimo aquilone senza corda. Una legge di grande bellezza ma di scarsa utilità pratica.
De Moivre riformula il problema come un’approssimazione per la somma di termini successivi nello sviluppo di (a + b) elevato all’ennesima potenza. Questa espansione, nota come formula binomialeva come segue:
Le ragioni di De Moivre per riformulare le probabilità nella WLLN in termini di formula binomiale erano sorprendentemente semplici. Si sapeva che se la somma del campione X_bar_n ha una distribuzione binomiale, la probabilità che X_bar_n sia inferiore o uguale a un valore n può essere espressa come somma di (n+1) probabilità come segue:
Se confronti i coefficienti dei termini sulla destra dell’equazione di cui sopra con i coefficienti dei termini nell’espansione di (a+b) elevato a n, troverai che sono notevolmente simili. E così teorizzò De Moivre, se trovi un modo per appropriarti dei termini fattoriali nella destra di (a+b) elevato a n, hai aperto la strada per l’approssimazione di P(X_bar_n ≤ n), e quindi anche la probabilità che è al centro della Legge Debole dei Grandi Numeri, ovvero:
P(np — δ ≤ X_bar_n ≤ np + d) = (1 — a)
Per oltre 10 anni, De Moivre lavorò sul problema dell’approssimazione creando approssimazioni sempre più accurate dei termini fattoriali. Nel 1733 aveva in gran parte concluso il suo lavoro quando pubblicò quello che venne chiamato Il teorema di De Moivre (o, meno precisamente, il teorema di De Moivre-Laplace).
A questo punto potrei semplicemente enunciare il teorema di De Moivre, ma questo rovinerebbe metà del divertimento. Seguiamo invece il filo del pensiero di De Moivre. Lavoreremo attraverso i calcoli che portarono alla formulazione del suo grande teorema.
La nostra esigenza è una tecnica di approssimazione veloce e ad alta precisione per la probabilità che sta al cuore del teorema di Bernoulli, vale a dire:
P(|X_bar_n/n — p| ≤ ϵ)
O equivalentemente la sua versione trasformata:
P(np — δ ≤ X_bar_n ≤ np + d)
Oppure nella forma più generale, la seguente probabilità:
P(x_1 ≤ X ≤ x_2)
In questa forma finale, lo abbiamo assunto X è una variabile casuale discreta che ha distribuzione binomiale. Nello specifico, X ~ Binomiale(n,p).
La probabilità P(x_1 ≤ X ≤ x_2) può essere espresso come segue:
Siano ora p, q due numeri reali tali che:
0 ≤ p ≤ 1 e 0 ≤ q ≤ 1 e q = (1 — p).
Da X ~ Binomiale(n,p), E(X) = μ = np e Var(X) = σ² = npq.
Creiamo una nuova variabile casuale Z come segue:
Z è chiaramente la versione standardizzata di X. Nello specifico, Z è un variabile casuale normale standardizzata. Così,
Se X ~ Binomiale(n,p), quindi Z ~N(0, 1)
Tienilo a mente perché visiteremo questo fatto tra un minuto.
Con il quadro di cui sopra in atto, De Moivre lo ha dimostrato per valori molto grandi di nla probabilità:
P(x1 ≤ X ≤x2)
può essere approssimato valutando il seguente tipo specifico di integrale:
Il segno ≃ significa che LHS è asintoticamente uguale a RHS In altre parole, quando la dimensione del campione cresce fino a ∞, LHS = RHS
Hai notato qualcosa di familiare nell’integrale su RHS? Suo la formula per l’area sotto la curva di densità di probabilità di una variabile normale standard da z_1 a z_2.
E la formula all’interno dell’integrale è la Densità di probabilità del standard normale casuale Z:
Separiamo l’integrale sulla destra come differenza di due integrali come segue:
I due nuovi integrali sulla destra sono rispettivamente le densità cumulative P(Z ≤ z_2) e P(Z ≤ z_1).
IL Funzione di densità cumulativa P(Z ≤ z) di una variabile casuale normale standard è rappresentata utilizzando la notazione standard:
𝛟(z)
Pertanto, l’integrale a sinistra dell’equazione di cui sopra è uguale a:
𝛟(z_2) — 𝛟(z_1).
Mettendo tutto insieme, possiamo vedere che la probabilità:
P(x1 ≤ X ≤x2)
converge asintoticamente a 𝛟(z_2) — 𝛟(z_1):
Ora ricorda come abbiamo definito Z come standardizzato X :
E quindi abbiamo anche quanto segue:
Nel formulare il suo teorema, De Moivre definì i limiti x_1 e x_2 come segue:
Sostituendo questi valori di x_1 e x_2 nella precedente serie di equazioni, otteniamo:
E quindi De Moivre lo ha dimostrato in grande N:
Ricorda, ciò che De Moivre voleva veramente era approssimare la probabilità a sinistra del teorema di Bernoulli:
Cosa che è riuscito a fare effettuando le seguenti semplici sostituzioni:
Che produce la seguente uguaglianza asintotica:
In un unico colpo elegante, De Moivre mostrò come approssimare la probabilità nel teorema di Bernoulli per campioni di grandi dimensioni. E le grandi dimensioni del campione sono ciò su cui si basa il teorema di Bernoulli. C’è tuttavia qualche sottotesto nel risultato di De Moivre. L’integrale sulla destra non ha forma chiusa e De Moivre lo ha approssimato utilizzando una serie infinita.
Un’illustrazione del teorema di De Moivre
Supponiamo che nell’urna ci siano esattamente tre volte più biglietti neri che biglietti bianchi. Quindi la vera frazione dei biglietti neri, p, è 3/4. Supponiamo anche di estrarre un campione casuale con la sostituzione di 1000 biglietti. Poiché p=0,75, il valore atteso dei biglietti neri è np = 750. Supponiamo che il numero di biglietti neri osservati nel campione sia 789. Qual è la probabilità di estrarre un campione così casuale?
Esponiamo i fatti:
Desideriamo scoprire:
P(750 — 39 ≤ X_bar_n <= 750 + 39)
Utilizzeremo il Teorema di De Moivre per trovare questa probabilità. Come sappiamo, il teorema può essere enunciato come segue:
Sappiamo che n=1000, p=0,75, X_bar_n=789 e δ=39. Possiamo trovare k come segue:
Inserendo tutti i valori:
Nel 99,56% circa dei campioni casuali di dimensioni 1.000 biglietti ciascuno, il numero di biglietti neri sarà compreso tra 711 e 789.
Fonte: towardsdatascience.com