Abraham De Moivre, il suo famoso teorema e la nascita della curva normale |  di Sachin Date |  Febbraio 2024

 | Intelligenza-Artificiale

Sarebbero passati diversi anni dalla sua nuova vita in Inghilterra prima che un De Moivre di mezza età dimostrasse un interesse reale e costante per il lavoro di Jacob Bernoulli sulla Legge dei Grandi Numeri. Per vedere a cosa ha portato il suo interesse, visitiamo il teorema di Bernoulli e l’esperimento mentale che ha portato Bernoulli alla sua scoperta.

In L’arte di progettareBernoulli aveva immaginato una grande urna contenente r biglietti neri e s biglietti bianchi. Sia r che s ti sono sconosciuti, così come la vera frazione p = r/(r+s) dei biglietti neri nell’urna. Supponiamo ora di estrarre n biglietti dall’urna in modo casuale con sostituzione e che il campione casuale li contenga X_bar_n biglietti neri. Qui, X_bar_n è la somma di n iid variabili casuali. Così, X_bar_n/n è il rapporto dei biglietti neri che osservi. In sostanzaX_bar_n/n è la tua stima del vero valore di p.

Il numero di biglietti neri X_bar_n trovato in un campione casuale di biglietti in bianco e nero ha la familiare distribuzione binomiale. Questo è:

X_bar_n ~ Binomiale(n, p)

Dove n è la dimensione del campione e p=r/(r+s) è la probabilità effettiva che un singolo biglietto sia un biglietto nero. Naturalmente p ti è sconosciuto poiché nell’esperimento di Bernoulli il numero di biglietti neri (r) e bianchi (s) ti è sconosciuto.

Da X_bar_n è distribuito binomialmente, il suo valore atteso E(X_bar_n) = np e la sua Var(X_bar_n) = np(1 — p). Ancora una volta, poiché p è sconosciuto, sia la media che la varianza di XAnche _bar_n sono sconosciuti.

Inoltre non ti è nota la differenza assoluta tra la tua stima di p e il valore reale di p. Questa stima è l’errore |X_bar_n/n — p|.

La grande scoperta di Bernoulli è stata quella di dimostrare che quando la dimensione del campione n diventa molto grande, le probabilità dell’errore |X_bar_n/n — p| essendo più piccolo di qualsiasi numero positivo arbitrariamente piccolo ϵ di tua scelta diventa incredibilmente grande. Come equazione, la sua scoperta può essere espressa come segue:

Il teorema di Bernoulli
Il teorema di Bernoulli (Immagine dell’autore)

L’equazione di cui sopra è la Legge debole dei grandi numeri. Nell’equazione sopra:

P(|X_bar_n/n — p| <= ϵ) è la probabilità che l'errore di stima sia al massimo ϵ.
P(|X_bar_n/n — p| > ϵ) è la probabilità che l’errore di stima sia maggiore di ϵ.
‘c’ è un numero positivo molto grande.

Il WLLN può essere indicato in altre tre forme evidenziate nei riquadri blu sottostanti. Queste forme alternative risultano dall’esecuzione di alcuni semplici esercizi di ginnastica algebrica come segue:

Forme alternative del teorema di Bernoulli
Forme alternative della legge debole dei grandi numeri (immagine dell’autore)

Ora nota la probabilità nella terza casella colorata in blu:
P(μ — δ ≤ X_bar_n ≤ m + d) = (1 — a)

Oppure ricollegando μ =np:
P(np — δ ≤ X_bar_n ≤ np + d) = (1 — a)

Da X_bar_n ~ Binomiale(n,p), è semplice esprimere questa probabilità come differenza di due probabilità binomiali come segue:

P(np-δ ≤ X_bar_n ≤ np+δ) dove X_bar_n ~ Binomiale(n,p)
P(np-δ ≤ X_fienile ≤ np+δ) dove X_bar_n ~ Binomiale(n,p) (Immagine dell’autore)

Ma è a questo punto che le cose smettono di essere semplici. Per n grande, i fattoriali all’interno delle due somme diventano enormi e quasi impossibili da calcolare. Immagina di dover calcolare 20!, lascia stare 100! o 1000!. Ciò che serve è una buona tecnica di approssimazione per il fattoriale(n). In L’arte di indovinare Jacob Bernoulli fece alcuni deboli tentativi per approssimare queste probabilità, ma la qualità delle sue approssimazioni lasciava molto a desiderare.

La grande idea di Abraham De Moivre

Agli inizi del 1700, quando De Moivre iniziò a osservare il lavoro di Bernoulli, intuì immediatamente la necessità di una tecnica di approssimazione veloce e di alta qualità per i termini fattoriali nelle due sommatorie. Senza una tecnica di approssimazione, la grande impresa di Bernoulli era come un grande, bellissimo aquilone senza corda. Una legge di grande bellezza ma di scarsa utilità pratica.

De Moivre riformula il problema come un’approssimazione per la somma di termini successivi nello sviluppo di (a + b) elevato all’ennesima potenza. Questa espansione, nota come formula binomialeva come segue:

La formula per (a+b) elevata all'ennesima potenza
La formula per (a+b) elevata all’ennesima potenza (Immagine dell’Autore)

Le ragioni di De Moivre per riformulare le probabilità nella WLLN in termini di formula binomiale erano sorprendentemente semplici. Si sapeva che se la somma del campione X_bar_n ha una distribuzione binomiale, la probabilità che X_bar_n sia inferiore o uguale a un valore n può essere espressa come somma di (n+1) probabilità come segue:

La formula per P(X_bar_n ≤ n)
La formula per P(X_bar_n ≤ n) (Immagine dell’autore)

Se confronti i coefficienti dei termini sulla destra dell’equazione di cui sopra con i coefficienti dei termini nell’espansione di (a+b) elevato a n, troverai che sono notevolmente simili. E così teorizzò De Moivre, se trovi un modo per appropriarti dei termini fattoriali nella destra di (a+b) elevato a n, hai aperto la strada per l’approssimazione di P(X_bar_n ≤ n), e quindi anche la probabilità che è al centro della Legge Debole dei Grandi Numeri, ovvero:

P(np — δ ≤ X_bar_n ≤ np + d) = (1 — a)

Per oltre 10 anni, De Moivre lavorò sul problema dell’approssimazione creando approssimazioni sempre più accurate dei termini fattoriali. Nel 1733 aveva in gran parte concluso il suo lavoro quando pubblicò quello che venne chiamato Il teorema di De Moivre (o, meno precisamente, il teorema di De Moivre-Laplace).

A questo punto potrei semplicemente enunciare il teorema di De Moivre, ma questo rovinerebbe metà del divertimento. Seguiamo invece il filo del pensiero di De Moivre. Lavoreremo attraverso i calcoli che portarono alla formulazione del suo grande teorema.

La nostra esigenza è una tecnica di approssimazione veloce e ad alta precisione per la probabilità che sta al cuore del teorema di Bernoulli, vale a dire:

P(|X_bar_n/n — p| ≤ ϵ)

O equivalentemente la sua versione trasformata:
P(np — δ ≤ X_bar_n ≤ np + d)

Oppure nella forma più generale, la seguente probabilità:
P(x_1 ≤ X ≤ x_2)

In questa forma finale, lo abbiamo assunto X è una variabile casuale discreta che ha distribuzione binomiale. Nello specifico, X ~ Binomiale(n,p).

La probabilità P(x_1 ≤ X ≤ x_2) può essere espresso come segue:

Formula per la probabilità P(x_1 ≤ X ≤ x_2)
Formula per la probabilità P(x_1 ≤ X ≤ x_2) (Immagine dell’autore)

Siano ora p, q due numeri reali tali che:
0 ≤ p ≤ 1 e 0 ≤ q ≤ 1 e q = (1 — p).

Da X ~ Binomiale(n,p), E(X) = μ = np e Var(X) = σ² = npq.

Creiamo una nuova variabile casuale Z come segue:

Alcune definizioni di variabili (Immagine dell’autore)

Z è chiaramente la versione standardizzata di X. Nello specifico, Z è un variabile casuale normale standardizzata. Così,

Se X ~ Binomiale(n,p), quindi Z ~N(0, 1)

Tienilo a mente perché visiteremo questo fatto tra un minuto.

Con il quadro di cui sopra in atto, De Moivre lo ha dimostrato per valori molto grandi di nla probabilità:

P(x1 ≤ X ≤x2)

può essere approssimato valutando il seguente tipo specifico di integrale:

P(x1 <= X <= x2) asymptotically converges to the area under the curve exp(-z²/2) from z1 to z2.
P(x1 <= X <= x2) converge asintoticamente all'area sotto la curva exp(-z²/2) da z1 a z2. (Immagine dell'autore)

Il segno ≃ significa che LHS è asintoticamente uguale a RHS In altre parole, quando la dimensione del campione cresce fino a ∞, LHS = RHS

Hai notato qualcosa di familiare nell’integrale su RHS? Suo la formula per l’area sotto la curva di densità di probabilità di una variabile normale standard da z_1 a z_2.

Area sotto la PDF di N(0,1) da z1=-1 a z2=+1
Area sotto il PDF di N(0,1) da z_1=-1 a z_2=+1 (Immagine dell’autore)

E la formula all’interno dell’integrale è la Densità di probabilità del standard normale casuale Z:

PDF della variabile casuale normale standard Z
PDF della variabile casuale normale standard Z (Immagine dell’autore)

Separiamo l’integrale sulla destra come differenza di due integrali come segue:

P(z1 ≤ Z ≤ z2) = P(Z ≤ z2) — P(Z ≤ z1)
P(z1 ≤ Z ≤ z2) = P(Z ≤ z2) — P(Z ≤ z1) (Immagine dell’autore)

I due nuovi integrali sulla destra sono rispettivamente le densità cumulative P(Z ≤ z_2) e P(Z ≤ z_1).

IL Funzione di densità cumulativa P(Z ≤ z) di una variabile casuale normale standard è rappresentata utilizzando la notazione standard:

𝛟(z)

Pertanto, l’integrale a sinistra dell’equazione di cui sopra è uguale a:

𝛟(z_2) — 𝛟(z_1).

Mettendo tutto insieme, possiamo vedere che la probabilità:

P(x1 ≤ X ≤x2)

converge asintoticamente a 𝛟(z_2) — 𝛟(z_1):

Immagine dell’autore

Ora ricorda come abbiamo definito Z come standardizzato X :

L'X standardizzato
Lo standardizzato X (Immagine dell’autore)

E quindi abbiamo anche quanto segue:

(Immagine dell’autore)

Nel formulare il suo teorema, De Moivre definì i limiti x_1 e x_2 come segue:

(Immagine dell’autore)

Sostituendo questi valori di x_1 e x_2 nella precedente serie di equazioni, otteniamo:

(Immagine dell’autore)

E quindi De Moivre lo ha dimostrato in grande N:

Teorema di De Moivre (Immagine dell’autore)

Ricorda, ciò che De Moivre voleva veramente era approssimare la probabilità a sinistra del teorema di Bernoulli:

Il teorema di Bernoulli
Teorema di Bernoulli (Immagine dell’autore)

Cosa che è riuscito a fare effettuando le seguenti semplici sostituzioni:

Immagine dell’autore

Che produce la seguente uguaglianza asintotica:

Approssimazione di De Moivre per il teorema di Bernoulli
Approssimazione di De Moivre per il teorema di Bernoulli (Immagine dell’autore)

In un unico colpo elegante, De Moivre mostrò come approssimare la probabilità nel teorema di Bernoulli per campioni di grandi dimensioni. E le grandi dimensioni del campione sono ciò su cui si basa il teorema di Bernoulli. C’è tuttavia qualche sottotesto nel risultato di De Moivre. L’integrale sulla destra non ha forma chiusa e De Moivre lo ha approssimato utilizzando una serie infinita.

Un’illustrazione del teorema di De Moivre

Supponiamo che nell’urna ci siano esattamente tre volte più biglietti neri che biglietti bianchi. Quindi la vera frazione dei biglietti neri, p, è 3/4. Supponiamo anche di estrarre un campione casuale con la sostituzione di 1000 biglietti. Poiché p=0,75, il valore atteso dei biglietti neri è np = 750. Supponiamo che il numero di biglietti neri osservati nel campione sia 789. Qual è la probabilità di estrarre un campione così casuale?

Esponiamo i fatti:

(Immagine dell’autore)

Desideriamo scoprire:

P(750 — 39 ≤ X_bar_n <= 750 + 39)

Utilizzeremo il Teorema di De Moivre per trovare questa probabilità. Come sappiamo, il teorema può essere enunciato come segue:

Approssimazione di De Moivre per il teorema di Bernoulli
Approssimazione di De Moivre per il teorema di Bernoulli (Immagine dell’autore)

Sappiamo che n=1000, p=0,75, X_bar_n=789 e δ=39. Possiamo trovare k come segue:

(Immagine dell’autore)

Inserendo tutti i valori:

Applicazione del teorema di De Moivre (Immagine dell’autore)

Nel 99,56% circa dei campioni casuali di dimensioni 1.000 biglietti ciascuno, il numero di biglietti neri sarà compreso tra 711 e 789.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *