Come controllare le false scoperte e i pregiudizi di selezione quando si misura l’impatto totale della propria organizzazione
Le organizzazioni basate sui dati spesso eseguono centinaia o migliaia di esperimenti in un dato momento, ma qual è l’impatto netto di tutti questi esperimenti? Un approccio ingenuo consiste nel sommare la differenza di medie tra tutti gli esperimenti che hanno prodotto un effetto terapeutico significativo e positivo e che sono stati implementati nella produzione. Questa stima, tuttavia, può essere estremamente distorta, anche supponendo che non vi siano correlazioni tra i singoli esperimenti. Eseguiremo una simulazione di 10.000 esperimenti e dimostreremo che questo approccio ingenuo sovrastima l’impatto reale prodotto da 45%!
Esaminiamo una formula teorica di correzione del bias, a causa di Lee e Shen (1). Questo approccio, tuttavia, soffre di due difetti: in primo luogo, sebbene sia teoricamente imparziale, mostriamo che il suo corrispondente stimatore plug-in soffre comunque di una distorsione significativa per ragioni simili a quelle del problema originale. In secondo luogo, non attribuisce l’impatto agli esperimenti a livello individuale.
In questo post esploriamo due fonti di pregiudizio:
- Bias da false scoperte — la stima è gonfiata a causa di falsi positivi;
- Bias di selezione — la stima è gonfiata a causa di un bias introdotto dal criterio decisionale: le sottostime dell’effetto del trattamento vengono censurate (falsi negativi), mentre le sovrastime vengono premiate.
Per affrontare la falsa scoperta, costruiremo una probabilità che un dato risultato sia effettivamente diverso da zero. Questa probabilità viene costruita confrontando il P-valore densità alla densità residua riferita dai veri nulli.
Per affrontare i bias di selezione, calcoleremo a distribuzione posteriore per ogni risultato sperimentale, utilizzando la distribuzione empirica, corretta per false scoperte, come il nostro precedente.
Questo processo produce una stima accurata dell’impatto sperimentale medio attraverso le nostre serie di esperimenti simulati, riducendo l’originale 45% errore utilizzando le sole misurazioni empiriche a 0,4% errore.
Fonte: towardsdatascience.com