Come utilizzare l’inferenza causale quando il test A/B non è disponibile |  di Harry Lu |  Gennaio 2024

 | Intelligenza-Artificiale

Valutazione del prodotto di targeting degli annunci utilizzando l’inferenza causale: corrispondenza del punteggio di propensione!

fotografato da Quotidiano tecnologico SU Unsplash

Hai mai visto quelle pubblicità Nike esagerate mentre ti sintonizzavi su un podcast che riassume l’epica resa dei conti dell’NBA di ieri sera? Oppure che ne dici di imbatterti negli annunci stravaganti di New Balance durante la recensione delle scarpe da ginnastica su YouTube? Questa è la magia del targeting contestuale: il maestro del matchmaking che collega contenuti e annunci in base all’atmosfera del momento! Dì addio all’imbarazzo degli annunci e dai il benvenuto a esperienze pubblicitarie su misura che ti faranno ballare felicemente. Immagina questo: “Preferiresti divertirti con le pubblicità Nike in un podcast di basket o ravvivare le cose in un podcast di politica?”

Mentre i giganti della tecnologia aumentano i loro investimenti nella protezione della privacy degli utenti, il targeting comportamentale della vecchia scuola (quello che si basa su indirizzi IP e dispositivi degli utenti) potrebbe trovarsi in una situazione difficile. Con meno cookie e indirizzi IP misteriosi in agguato, è come il selvaggio west là fuori per il targeting tradizionale!

Ravviviamo il gioco di misurazione per i prodotti contestuali: di solito, è tutta una questione di inserzionisti. Stiamo parlando dei tipici parametri di successo: adozione da parte degli inserzionisti, fidelizzazione, referral e quelle dolcissime entrate pubblicitarie. Ma è qui che la trama si infittisce: la mia ipotesi è che fornire annunci più pertinenti trasformi l’esperienza pubblicitaria in una gita. Immagina questo: meno cambi di contesto durante gli annunci significano che gli utenti possono godere di contenuti contestuali simili senza perdere un colpo.

Tuttavia, non è facile eseguire un test A/B per vedere come gli utenti reagiscono ai prodotti con targeting contestuale. Perché? Quando gli inserzionisti acquistano il targeting contestuale nei loro annunci, non si tratta solo di targeting contestuale: utilizzeranno tutti gli altri targeting nella stessa campagna, pertanto non possiamo assegnare casualmente il targeting contestuale come trattamento. Pertanto, non è possibile randomizzare gli utenti in due gruppi.

Entra nel supereroe delle alternative: Inferenza causale! Quando il test A/B non è possibile perché non è possibile mescolare gli utenti come un mazzo di carte, ci rivolgiamo ai dati storici con inferenza causale!

In questo post del blog, esaminerò come valutare i prodotti di targeting degli annunci utilizzando l’inferenza causale. Quindi, allacciati le cinture se:

  1. Esplora un ambito in cui i test A/B non sono ancora pronti, a prescindere dal fatto che siano immorali, costosi o addirittura impossibili.
  2. Percorri le acque emozionanti del dominio pubblicitario/social, dove i riflettori sono puntati su come un annuncio entra in sintonia con un utente specifico e i suoi contenuti.

È importante progettare una ricerca sull’inferenza causale impostando ipotesi e metriche!

Ipotesi: Riteniamo che gli utenti siano più coinvolti quando ascoltano un annuncio pubblicato tramite il targeting contestuale e prevediamo di misurarlo tramite il tasso di completamento dell’annuncio (più alto è, meglio è) e il salto fuori fuoco (più basso è, meglio è)

Metrica: Abbiamo iniziato con il tasso di completamento degli annunci, una metrica standard comune nello spazio pubblicitario. Tuttavia questa metrica è rumorosa e alla fine scegliamo Off Focus Skip come nostra metrica.

La nostra unità sperimentale: 90 giorni di utenti che erano entrambi (utenti filtrati che hanno ricevuto sia l’annuncio di trattamento che l’annuncio di controllo). Vale la pena ricordare che abbiamo provato anche a livello di impressioni. Abbiamo fatto entrambe le cose.

Popolazione: Abbiamo raccolto 90 finestre di utenti/impressioni.

fotografato da Eddie Pipocas SU Unsplash

Utilizzeremo la corrispondenza del punteggio di propensione in questa ricerca poiché abbiamo due gruppi di campioni di cui abbiamo solo bisogno per sintetizzare un po’ di randomizzazione. Puoi leggere di più sul PSM in Quie il mio riassunto sul PSM è: diciamo ai nostri campioni di trovare coppie tra controllo e trattamenti, e poi misuriamo il delta medio tra ciascuna coppia per attribuire qualsiasi differenza che troviamo al trattamento. Cominciamo quindi a preparare gli ingredienti per il nostro modello PSM!

Sono molti gli aspetti che potrebbero influire sull’esperienza pubblicitaria degli utenti ed ecco le tre categorie:

  1. Attributo utente (ad es. Età/Sesso/LHR)
  2. Attributo dell’inserzionista (ad esempio, spesa pubblicitaria passata dell’azienda)
  3. Attributo dell’editore (ad esempio, entrate pubblicitarie passate dell’azienda/metadati dei contenuti)

Riteniamo che il controllo di quanto sopra isoli l’effetto del trattamento sugli annunci con targeting contestuale rispetto agli annunci con targeting non contestuale. Di seguito è riportato un frame di dati di esempio per aiutare a capire come potrebbero apparire i dati!

Immagine dell’autore: attributo utente, trattamento e coinvolgimento dell’utente (y)

Utilizzando la regressione logistica, ad esempio, quando lo stato del trattamento (esposizione) viene regredito sulle caratteristiche osservate (covariate), otterremo un valore predittivo su quanto è possibile se un utente è in trattamento. Questo numero è il modo in cui abbiniamo ciascuna coppia tra trattamento e controllo. Tieni presente che potresti anche utilizzare altri classificatori a tua scelta! Alla fine, ciò che devi fare è utilizzare il tuo classificatore per etichettare i tuoi utenti, in modo che possiamo abbinarli di conseguenza nei passaggi successivi.

Y = Trattamento (0, 1)
X = Attributi utente + Attributi inserzionista + Attributi editore

Immagine dell’autore: il dataframe ora ha un nuovo campo ps_score dal nostro modello di classificazione.

Se estraiamo le distribuzioni del punteggio PS per due gruppi, vedremo due distribuzioni sovrapposte come mostra il mio disegno qui sotto. La distribuzione del punteggio PS sarà probabilmente diversa nei due gruppi e questo è previsto! Ciò che vogliamo confrontare Apple-to-Apple è l’area “abbinata”.

Immagine dell’autore: distribuzioni del punteggio ps tra gruppi di trattamento e di controllo.

Quando assegniamo agli utenti il ​​loro punteggio di propensione, abbineremo le coppie tra i gruppi di trattamento e di controllo. Nell’esempio qui, iniziamo a vedere la formazione delle coppie. Anche la dimensione del nostro campione inizierà a cambiare poiché alcuni campioni potrebbero non trovare una corrispondenza. (PS. usa il psmpy pacchetto se ti trovi in ​​un ambiente Python.)

Immagine dell’autore: i dati fame hanno una nuova colonna che suggerisce l’abbinamento tra gruppi di trattamento e di controllo.

Una volta abbinati i due gruppi, gli attributi utente dei due gruppi inizieranno ad apparire simili rispetto a prima! Questo perché gli utenti che non possono essere abbinati vengono rimossi dai miei due gruppi.

Ora che li abbiamo abbinati in base al PS, possiamo iniziare il nostro lavoro di misurazione! Il calcolo principale è essenzialmente il seguente:

MEDIA(Gruppo di trattamento Y var) — MEDIA(Gruppo di controllo Y var) = Effetto del trattamento

Avremo dati sugli effetti del trattamento che potremmo testare sulla significatività statistica e sulla significatività pratica. Accoppiando le anatre e calcolando il delta medio di ciascuna coppia, misuriamo l’effetto del trattamento.

Quindi, se finora tutto è impostato correttamente, abbiamo misurato gli effetti del trattamento nei due gruppi. Ma è fondamentale sapere che l’inferenza causale corre maggiori rischi se si perdono variabili confondenti o qualsiasi altra potenziale causa di cui non ci siamo resi conto. Quindi, per convalidare ulteriormente la nostra ricerca, eseguiamo un test AA!

Un test AA è un test in cui invece di utilizzare il vero trattamento, assegniamo casualmente un trattamento “falso” ai nostri dati e conduciamo nuovamente l’inferenza causale. Poiché si tratta di un trattamento falso, non dovremmo rilevare alcun effetto del trattamento! L’esecuzione di un test AA fornisce una buona revisione del codice e garantisce inoltre che il nostro processo riduca al minimo i bias (quando l’effetto reale del trattamento è 0, rileviamo 0)

Una volta completato il nostro test AA senza rilevare alcun effetto del trattamento, siamo pronti a comunicare l’intuizione con l’ingegneria/gestione del prodotto! Per il mio progetto, ho finito per pubblicare il mio lavoro e condividere in un forum di approfondimento a livello aziendale il primo lavoro di inferenza causale per misurare il targeting degli annunci sui podcast di Spotify.

Questo post del blog spiega ogni passaggio dell’inferenza causale per valutare un prodotto di targeting degli annunci difficile da sperimentare a causa delle limitazioni nella randomizzazione. Da come determinare la relazione causale, assegnare il punteggio di corrispondenza della propensione degli utenti, abbinare gli utenti e calcolare l’effetto del trattamento, alla verifica della sanità mentale del risultato. Spero che questo articolo ti sia utile e fammi sapere se hai domande!

PS. Anche se per motivi di riservatezza non mi è consentito condividere il risultato del test specificamente per il prodotto di targeting contestuale di Spotify, potresti comunque utilizzare questo blog per sviluppare la tua inferenza causale!

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *