I test A/B sono lo standard d’oro dell’inferenza causale perché ci consentono di fare affermazioni causali valide con presupposti minimi, grazie a randomizzazione. Infatti, assegnando in modo casuale a trattamento (un farmaco, una pubblicità, un prodotto, …), possiamo confrontare il risultato di interesse (una malattia, i ricavi dell’azienda, la soddisfazione del cliente, …) in tutto soggetti (pazienti, utenti, clienti, …) e attribuiscono la differenza media dei risultati all’effetto causale del trattamento.
L’implementazione di un test A/B solitamente non è istantanea, soprattutto in contesti online. Spesso gli utenti vengono trattati vivere o dentro lotti. In queste impostazioni, è possibile esaminare i dati prima che la raccolta dei dati sia completata, una o più volte. Questo fenomeno si chiama sbirciando. Sebbene guardare non sia di per sé problematico, l’utilizzo di procedure di test standard quando sbirciare può portare a conclusioni fuorvianti.
IL soluzione sbirciare significa adattare di conseguenza la procedura di test. L’approccio più famoso e tradizionale è il cosiddetto Test del rapporto di probabilità sequenziale (SPRT)che risale alla seconda guerra mondiale. Se vuoi saperne di più sul test e sulla sua affascinante storia, ho scritto un post sul blog a riguardo.
Il principale vantaggio del Sequential Probability Ratio Test (SPRT) è che garantisce la dimensione del campione più piccola possibile, dati un livello di confidenza e una potenza target. comunque, il problema principale con l’SPRT è che potrebbe continuare indefinitamente. Questo è un problema non irrilevante in un contesto applicato con scadenze e vincoli di budget. In questo articolo esploreremo un metodo alternativo che permette Qualunque quantità di visualizzazioni intermedie dei dati, a Qualunque punto di raccolta dei dati: Test sequenziali di gruppo.
Cominciamo con alcune simulazioni dati. Per mantenere il codice il più leggero possibile, astrarrò dall’impostazione sperimentale…
Fonte: towardsdatascience.com