Una guida sulla stima degli effetti a lungo termine nei test A/B |  di Kseniia Baidina |  Febbraio 2024

 | Intelligenza-Artificiale

Affrontare la complessità dell’identificazione e della misurazione degli effetti a lungo termine negli esperimenti online

fotografato da Isacco Smith SU Unsplash

Immagina di essere un analista in un negozio online. Tu e il tuo team mirate a capire in che modo l’offerta di consegna gratuita influirà sul numero di ordini sulla piattaforma, quindi decidete di eseguire un test A/B. Il gruppo di prova usufruisce della consegna gratuita, mentre il gruppo di controllo si attiene alla tariffa di consegna regolare. Nei primi giorni dell’esperimento, osserverai più persone completare gli ordini dopo aver aggiunto articoli ai propri carrelli. Ma l’impatto reale è a lungo termine: è più probabile che gli utenti del gruppo di prova ritornino per fare acquisti futuri sulla tua piattaforma perché sanno che offri la consegna gratuita.

In sostanza, qual è il punto chiave di questo esempio? L’impatto della consegna gratuita sugli ordini tende ad aumentare gradualmente. Testarlo solo per un breve periodo potrebbe significare che ti perdi l’intera storia, e questa è una sfida che intendiamo affrontare in questo articolo.

Nel complesso, potrebbero esserci molteplici ragioni per cui gli effetti a breve termine dell’esperimento differiscono da quelli a lungo termine (1):

Effetto del trattamento eterogeneo

  • L’impatto dell’esperimento può variare per gli utenti frequenti e occasionali del prodotto. Nel breve periodo, i consumatori abituali potrebbero influenzare in modo sproporzionato l’esito dell’esperimento, introducendo distorsioni nell’effetto medio del trattamento.

Apprendimento dell’utente

  • Effetto novità: immagina questo: introduci una nuova meccanica di gamification nel tuo prodotto. Inizialmente gli utenti sono curiosi, ma questo effetto tende a diminuire nel tempo.
  • Effetto Primacy: pensa a quando Facebook ha cambiato il suo algoritmo di classificazione da cronologico a raccomandato. Inizialmente, potrebbe verificarsi una diminuzione del tempo trascorso nel feed poiché gli utenti non riescono a trovare ciò che si aspettano, con conseguente frustrazione. Tuttavia, nel tempo, è probabile che il coinvolgimento si riprenda man mano che gli utenti si abituano al nuovo algoritmo e scoprono post interessanti. Gli utenti potrebbero inizialmente reagire negativamente ma alla fine adattarsi, portando a un maggiore coinvolgimento.

In questo articolo, il nostro focus sarà nel rispondere a due domande:

Come identificare e verificare se l’impatto a lungo termine dell’esperimento differisce da quello a breve termine?

Come stimare l’effetto a lungo termine quando non è possibile eseguire l’esperimento per un periodo sufficientemente lungo?

Visualizzazione

Il primo passo è osservare come la differenza tra il gruppo test e quello di controllo cambia nel tempo. Se noti uno schema come questo, dovrai immergerti nei dettagli per coglierne l’effetto a lungo termine.

IOillustrazione da Sadeghi et al. (2021) (2)

Potrebbe anche essere allettante tracciare l’effetto dell’esperimento basandosi non solo sul giorno dell’esperimento ma anche sul numero di giorni trascorsi dalla prima esposizione.

IOillustrazione da Sadeghi et al. (2021) (2)

Tuttavia, ci sono diverse insidie ​​​​se si considera il numero di giorni dalla prima esposizione:

  • Pregiudizi degli utenti coinvolti: Il lato destro del grafico potrebbe mostrare gli utenti più coinvolti. Il modello osservato potrebbe non essere dovuto all’apprendimento dell’utente ma a diversi effetti del trattamento. L’impatto sugli utenti altamente coinvolti potrebbe essere diverso dall’effetto sugli utenti occasionali.
  • Problema di campionamento selettivo: Potremmo decidere di concentrarci esclusivamente sugli utenti altamente coinvolti e osservare come il loro effetto si evolve nel tempo. Tuttavia, questo sottoinsieme potrebbe non rappresentare accuratamente l’intera base di utenti.
  • Diminuzione del numero degli utenti: Potrebbero esserci solo pochi utenti che hanno un numero consistente di giorni dalla prima esposizione (parte destra del grafico). Ciò allarga gli intervalli di confidenza, rendendo difficile trarre conclusioni affidabili.

Il metodo visivo per identificare gli effetti a lungo termine in un esperimento è abbastanza semplice ed è sempre un buon punto di partenza osservare la differenza degli effetti nel tempo. Tuttavia, questo approccio manca di rigore; potresti anche considerare di testare formalmente la presenza di effetti a lungo termine. Lo esploreremo nella parte successiva.

Assegnazione dell’esperimento ladder (2)

Il concetto alla base di questo approccio è il seguente: prima di iniziare l’esperimento, classifichiamo gli utenti in K coorti e introdurli in modo incrementale all’esperimento. Ad esempio, se dividiamo gli utenti in 4 coorti, k_1 è il gruppo di controllo, k_2 riceve il trattamento dalla settimana 1, k_3 dalla settimana 2 e k_4 dalla settimana 3.

IOillustrazione da Sadeghiet al. (2021)²

Il tasso di apprendimento dell’utente può essere stimato confrontando gli effetti del trattamento in vari periodi di tempo.

IOillustrazione da Sadeghi et al. (2021) (2)

Ad esempio, se miri a stimare l’apprendimento degli utenti nella settimana 4, confronterai i valori T4_5 E T4_2.

Le sfide con questo approccio sono abbastanza evidenti. In primo luogo, introduce ulteriori complessità operative nella progettazione dell’esperimento. In secondo luogo, è necessario un numero considerevole di utenti per dividerli efficacemente in diverse coorti e raggiungere livelli di significatività statistica ragionevoli. In terzo luogo, si dovrebbe prevedere in anticipo di avere diversi effetti a lungo termine e prepararsi a condurre un esperimento in questo contesto complicato.

Differenza nella differenza (2)

Questo approccio è una versione semplificata del precedente. Dividiamo l’esperimento in due (o più in generale in K) periodi di tempo e confrontare l’effetto del trattamento nel primo periodo con l’effetto del trattamento nel periodo successivo k-esimo periodo.

IOillustrazione da Sadeghi et al. (2021) (2)

In questo approccio, una questione fondamentale è come stimare la varianza della stima per trarre conclusioni sulla significatività statistica. Gli autori suggeriscono la seguente formula (per i dettagli si rimanda all’articolo):

IOillustrazione da Sadeghi et al. (2021) (2)

p2 — la varianza di ciascuna unità sperimentale all’interno di ciascuna finestra temporale

R — la correlazione della metrica per ciascuna unità sperimentale in due finestre temporali

Assegnazione del trattamento casuale VS costante³

Questa è un’altra estensione dell’assegnazione dell’esperimento ladder. In questo approccio, il bacino di utenti è diviso in tre gruppi: C – gruppo di controllo, E — il gruppo che riceve il trattamento durante l’esperimento, e E1 — il gruppo in cui gli utenti vengono assegnati al trattamento ogni giorno con probabilità P. Di conseguenza, ogni utente nel file E1 gruppo riceverà il trattamento solo pochi giorni, impedendo l’apprendimento dell’utente. Ora, come valutiamo l’apprendimento degli utenti? Presentiamoci E1_d – una frazione di utenti da E1 esposto al trattamento in giornata D. Il tasso di apprendimento dell’utente viene quindi determinato dalla differenza tra E E E1_d.

Utente “Unlearning” (3)

Questo approccio ci consente di valutare sia l’esistenza dell’apprendimento dell’utente sia la durata di questo apprendimento. Il concetto è piuttosto elegante: presuppone che gli utenti imparino alla stessa velocità con cui “disimparano”. L’idea è la seguente: spegnere l’esperimento e osservare come i gruppi di test e di controllo convergono nel tempo. Poiché entrambi i gruppi riceveranno lo stesso trattamento post-esperimento, eventuali cambiamenti nel loro comportamento si verificheranno a causa dei diversi trattamenti durante il periodo dell’esperimento.

Questo approccio ci aiuta a misurare il periodo necessario agli utenti per “dimenticare” l’esperimento e presupponiamo che questo periodo di dimenticanza sarà equivalente al tempo impiegato dagli utenti per apprendere durante l’implementazione della funzionalità.

Questo metodo presenta due svantaggi significativi: in primo luogo, richiede una notevole quantità di tempo per analizzare l’apprendimento degli utenti. Inizialmente, esegui un esperimento per un periodo prolungato per consentire agli utenti di “imparare”, quindi devi disattivare l’esperimento e attendere che “disimparano”. Questo processo può richiedere molto tempo. In secondo luogo, è necessario disattivare la funzionalità sperimentale, cosa che le aziende potrebbero essere riluttanti a fare.

Hai stabilito con successo l’esistenza dell’apprendimento degli utenti nel tuo esperimento ed è chiaro che i risultati a lungo termine probabilmente differiranno da ciò che osservi a breve termine. Ora, la domanda è come prevedere questi risultati a lungo termine senza eseguire l’esperimento per settimane o addirittura mesi.

Un approccio consiste nel tentare di prevedere i risultati a lungo termine di Y utilizzando dati a breve termine. Il metodo più semplice è utilizzare i ritardi di Ye si parla di modelli “auto-surrogati”. Supponiamo che tu voglia prevedere il risultato dell’esperimento dopo due mesi ma che al momento disponi solo di due settimane di dati. In questo scenario, puoi addestrare un modello di regressione lineare (o qualsiasi altro):

IOillustrazione da Zhang et al. (2023) (5)

M è il risultato medio giornaliero per l’utente io oltre due mesi

Sì, sì sono il valore della metrica per l’utente io al giorno T (T varia da 1 a 14 nel nostro caso)

In tal caso, l’effetto del trattamento a lungo termine è determinato dalla differenza nei valori previsti della metrica per i gruppi di test e di controllo utilizzando modelli surrogati.

IOillustrazione da Zhang et al. (2023) (5)

Dove N / a rappresenta il numero di utenti nel gruppo sperimentale e N_0 rappresenta il numero di utenti nel gruppo di controllo.

Sembra esserci un’incoerenza qui: miriamo a prevedere M (l’effetto a lungo termine dell’esperimento), ma per addestrare il modello ne abbiamo bisogno M. Quindi, come otteniamo il modello? Esistono due approcci:

  • Utilizzando i dati pre-esperimento: Possiamo addestrare un modello utilizzando due mesi di dati pre-esperimento per gli stessi utenti.
  • Esperimenti simili: Possiamo selezionare un esperimento “gold standard” dallo stesso dominio di prodotto eseguito per due mesi e utilizzarlo per addestrare il modello.

Nel loro articolo, Netflix ha convalidato questo approccio utilizzando 200 esperimenti e ha concluso che i modelli di indici surrogati sono coerenti con misurazioni a lungo termine nel 95% degli esperimenti (5).

Abbiamo imparato molto, quindi riassumiamolo. I risultati degli esperimenti a breve termine spesso differiscono da quelli a lungo termine a causa di fattori come gli effetti eterogenei del trattamento o l’apprendimento dell’utente. Esistono diversi approcci per rilevare questa differenza, il più semplice è:

  • Approccio visivo: Semplicemente osservando la differenza tra il test e il controllo nel tempo. Tuttavia, questo metodo manca di rigore.
  • Differenza nella differenza: Confronto della differenza tra test e controllo all’inizio e dopo un certo periodo di tempo dell’esperimento.

Se sospetti che l’utente possa apprendere durante il tuo esperimento, l’approccio ideale è estendere l’esperimento finché l’effetto del trattamento non si stabilizza. Tuttavia, ciò potrebbe non essere sempre fattibile a causa di limitazioni tecniche (ad esempio, cookie di breve durata) o aziendali. In questi casi, è possibile prevedere l’effetto a lungo termine utilizzando modelli auto-surrogati, prevedendo il risultato a lungo termine dell’esperimento su Y utilizzando ritardi di Y.

Grazie per aver dedicato del tempo a leggere questo articolo. Mi piacerebbe sentire i tuoi pensieri, quindi sentiti libero di condividere eventuali commenti o domande che potresti avere.

  1. (Articolo gratuito PMC)( PubMed )Larsen N, Stallrich J, Sengupta S, Deng A, Kohavi R, NT Stevens, 2010; Sfide statistiche negli esperimenti controllati online: una revisione della metodologia di test A/B (2023), https://arxiv.org/pdf/2212.11366.pdf
  2. S. Sadeghi, S. Gupta, S. Gramatovici, J. Lu, H. Ai, R. Zhang, Novità e primato: uno stimatore a lungo termine per esperimenti online (2021), https://arxiv.org/pdf/2102.12893.pdf
  3. H. Hohnhold, D. O’Brien, D. Tang, Concentrarsi sul lungo termine: è positivo per gli utenti e per l’azienda (2015), https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43887.pdf
  4. S. Athey, R. Chetty, GW Imbens, H. Kang, L’indice surrogato: combinare proxy a breve termine per stimare gli effetti del trattamento a lungo termine in modo più rapido e preciso (2019), https://www.nber.org/system/files/working_papers/w26463/w26463.pdf
  5. V. Zhang, M. Zhao, A. Le, M. Dimakopoulou, N. Kallus, Valutazione dell’indice surrogato come strumento decisionale utilizzando 200 test A/B su Netflix (2023), https://arxiv.org/pdf/2311.11922.pdf

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *