Immagina di provare a misurare l’altezza media di tutti gli alberi in una vasta foresta. Non è pratico misurarli tutti, invece, si misura un piccolo campione e si utilizzano tali misurazioni per stimare la media dell’intera foresta. Il bootstrap, in statistica, funziona secondo un principio simile.
Ciò comporta il prelievo di un piccolo campione dai dati e, attraverso un metodo di campionamento ripetuto, la stima delle statistiche (come la media, la mediana o la deviazione standard) per il set di dati. Questa tecnica consente di fare inferenze sulle popolazioni da piccoli campioni con maggiore sicurezza.
In questo articolo tratteremo:
- Le basi del bootstrap: che cos’è esattamente?
- Come ottenere un esempio con bootstrap in BigQuery
- Un esperimento per comprendere come cambiano i risultati in base alle diverse dimensioni del campione e come ciò si collega a una statistica nota
- Una procedura memorizzata che puoi portare via e utilizzare tu stesso
Fondamentalmente, il bootstrap implica la selezione casuale di un numero di osservazioni da un set di dati, con sostituzione, per formare quello che è noto come un “campione di bootstrap”.
Semplifichiamo questo concetto utilizzando uno scenario in cui hai un cesto di 25 mele e sei curioso di conoscere il peso medio delle mele in un contesto più ampio, come un mercato.
La tecnica “Afferra e nota”.
Inizia tuffandoti nel cestino per prendere una mela a caso, pesala e poi, invece di metterla da parte, rimettila nel cestino. In questo modo, ogni volta che prendi una mela, ognuna, compresa quella che hai appena pesato, è un gioco leale da raccogliere nuovamente.
Ripetere
Ora, ripeti l’azione di afferrare, pesare e sostituire lo stesso numero di volte quante sono le mele nel tuo…
Fonte: towardsdatascience.com