
La scelta tra l’approccio frequentista e quello bayesiano è stato il grande dibattito del secolo scorso, con un recente aumento dell’adozione bayesiana nelle scienze.
Qual è la differenza?
La differenza filosofica è in realtà piuttosto sottile, laddove alcuni propongono che il grande critico bayesiano, Fisher, fosse lui stesso, in qualche modo, bayesiano. Sebbene esistano innumerevoli articoli che approfondiscono le differenze formali, quali sono i vantaggi pratici? Cosa offre l’analisi bayesiana ai data scientist non esperti che la vasta pletora di metodi frequentisti altamente adottati non offre già? Questo articolo mira a fornire un'introduzione pratica alla motivazione, formulazione e applicazione dei metodi bayesiani. Immergiamoci.
Mentre i frequentisti si occupano di descrivere l’esatta distribuzione di qualsiasi dato, il punto di vista bayesiano è più ampio soggettivo. Soggettività e statistica?! Sì, in realtà è compatibile.
Cominciamo con qualcosa di semplice, come il lancio di una moneta. Supponiamo di lanciare una moneta 10 volte e di ottenere testa 7 volte. Qual è la probabilità che esca testa?
P(teste) = 7/10 (0,7)?
Ovviamente, qui siamo pieni di dimensioni ridotte del campione. In un POV bayesiano, tuttavia, possiamo codificare direttamente le nostre convinzioni, affermando che se la moneta è giusta, la probabilità che esca testa o croce deve essere uguale, ovvero 1/2. Mentre in questo esempio la scelta sembra piuttosto ovvia, il dibattito diventa più sfumato quando arriviamo a fenomeni più complessi e meno evidenti.
Ancoraquesto semplice esempio è un potente punto di partenza, evidenziando entrambi i più grandi beneficio E discordanza dell’analisi bayesiana:
Beneficio: Trattare con a mancanza di dati. Supponiamo di modellare la diffusione di un'infezione in un paese in cui la raccolta di dati è scarsa. Utilizzerai la piccola quantità di dati per ricavare tutte le tue informazioni? Oppure vorresti incorporare nel tuo modello modelli comunemente osservati in paesi simili, ad esempio credenze precedenti informate. Sebbene la scelta sia chiara, conduce direttamente al limite.
Discordanza: IL precedente la convinzione è difficile da formulare. Ad esempio, se la moneta non è effettivamente equa, sarebbe sbagliato supporre che P (testa) = 0,5 e non c'è quasi alcun modo per trovare il vero P (testa) senza un esperimento a lungo termine. In questo caso, supporre P (testa) = 0,5 sarebbe effettivamente dannoso per trovare la verità. Eppure ogni modello statistico (frequentista o bayesiano) deve fare delle ipotesi a un certo livello, e le “inferenze statistiche” nella mente umana sono in realtà molto simili all'inferenza bayesiana, cioè costruire precedente sistemi di credenze che influiscono sulle nostre decisioni in ogni nuova situazione. Inoltre, formulare convinzioni precedenti errate spesso non è una condanna a morte nemmeno dal punto di vista della modellizzazione, se possiamo imparare da dati sufficienti (maggiori informazioni su questo argomento negli articoli successivi).
Allora, come appare matematicamente tutto questo? La regola di Bayes getta le basi. Supponiamo di avere un parametro θ che definisce un modello che potrebbe descrivere i nostri dati (ad esempio, θ potrebbe rappresentare la media, la varianza, la pendenza rispetto alla covariata, ecc.). Lo afferma la regola di Bayes
P (θ = t|dati) ∝ P (dati|θ = t) * P (θ=t)
In parole più semplici,
- P (θ = t|dati) rappresenta la probabilità condizionata che θ sia uguale a t, dati i nostri dati (ovvero il posteriore).
- Al contrario, P (dati|θ) rappresenta la probabilità di osservare i nostri dati, se θ = t (noto anche come 'probabilità').
- Finalmente, P(θ=t) è semplicemente la probabilità che θ assuma il valore t (il famigerato 'precedente').
Allora, cos'è questa misteriosa t? Può assumere molti valori possibili, a seconda di cosa significa θ. In effetti, vuoi provare molti valori e controllare il file probabilità dei tuoi dati per ciascuno. Questo è un passaggio chiave e speri davvero di aver controllato i migliori valori possibili per θ, ovvero quelli che coprono il massimo probabilità area di visualizzazione dei dati (minimi globali, per coloro che se ne preoccupano).
E questo è il punto cruciale di tutto ciò che fa l'inferenza bayesiana!
- Formare una credenza preventiva per possibili valori di θ,
- Scalalo con il probabilità ad ogni valore θ, dati i dati osservati, e
- Restituisce il risultato calcolato, ovvero il posteriore, che ti dice la probabilità di ciascun valore θ testato.
Graficamente, questo assomiglia a:
Ciò evidenzia i prossimi grandi vantaggi delle statistiche bayesiane:
- Abbiamo un'idea dell'intera forma della distribuzione di θ (ad esempio, quanto è largo il picco, quanto sono pesanti le code, ecc.) che può consentire inferenze più robuste. Perché? Semplicemente perché possiamo non solo comprendere meglio ma anche quantificare il incertezza (rispetto a una stima puntuale tradizionale con deviazione standard).
- Poiché il processo è iterativo, possiamo aggiornare costantemente le nostre convinzioni (stime) man mano che più dati affluiscono nel nostro modello, rendendo molto più semplice la costruzione completa in linea Modelli.
Abbastanza facile! Ma non del tutto…
Questo processo comporta molti calcoli, in cui devi calcolare il probabilità per ogni possibile valore di θ. Ok, forse è facile se supponiamo che θ rientri in un intervallo piccolo come (0,1). Possiamo semplicemente usare la forza bruta griglia metodo, testando i valori a intervalli discreti (10, 0,1 intervalli o 100, 0,01 intervalli o più… hai un'idea) per mappare l'intero spazio con la risoluzione desiderata.
Ma cosa succede se lo spazio è enorme e Dio non voglia che siano coinvolti parametri aggiuntivi, come in qualsiasi scenario di modellazione della vita reale?
Ora dobbiamo testare non solo i possibili valori dei parametri ma anche tutte le loro possibili combinazioni, ovvero lo spazio delle soluzioni si espande esponenzialmente, rendendo computazionalmente impossibile una ricerca su griglia. Fortunatamente, i fisici hanno lavorato sul problema del campionamento efficiente e oggi esistono algoritmi avanzati (ad esempio Metropolis-Hastings MCMC, Variational Inference) che sono in grado di esplorare rapidamente spazi di parametri ad alta dimensione e trovare punti convessi. Non è nemmeno necessario codificare da soli questi complessi algoritmi, i linguaggi di calcolo probabilistico come PyMC o STAN rendono il processo altamente snello e intuitivo.
STAN
STAN è il mio preferito in quanto consente l'interfacciamento con linguaggi di data science più comuni come Python, R, Julia, MATLAB ecc., favorendone l'adozione. STAN si basa su tecniche di campionamento Hamiltoniane Monte Carlo all'avanguardia che garantiscono virtualmente una convergenza in tempi ragionevoli per modelli ben specificati. Nel mio prossimo articolo, tratterò come iniziare con STAN per modelli di regressione semplici e non semplici, con una procedura dettagliata completa sul codice Python. Tratterò anche l'intero flusso di lavoro della modellazione bayesiana, che coinvolge model specifica, raccordo, visualizzazione, confrontoE interpretazione.
Segui e rimani sintonizzato!
Fonte: towardsdatascience.com