Prezzi dinamici con banditi contestuali: imparare facendo | di Massimiliano Costacurta | Ottobre 2023 | Intelligenza-Artificiale

Aggiungere contesto al tuo problema di prezzo dinamico può aumentare le opportunità così come le sfide

fotografato da Artem Beliaikin SU Unsplash

Nel mio articolo precedenteHo condotto un’analisi approfondita delle strategie più diffuse per affrontare il problema della dinamica dei prezzi utilizzando semplici Multi-armed Bandits. Se sei arrivato fin qui da quel pezzo, innanzitutto grazie. Non è affatto una lettura facile e apprezzo davvero il tuo entusiasmo per l’argomento. In secondo luogo, preparatevi, perché questo nuovo articolo promette di essere ancora più impegnativo. Tuttavia, se questa è la tua introduzione all’argomento, ti consiglio vivamente di iniziare con l’articolo precedente. Lì presenterò i concetti fondamentali, con i quali presumo che i lettori abbiano familiarità in questa discussione.

Comunque, un breve riepilogo: l’analisi precedente mirava a simulare uno scenario di pricing dinamico. L’obiettivo principale era valutare il più rapidamente possibile i vari livelli di prezzo per trovare quello che offriva la ricompensa cumulativa più alta. Abbiamo esplorato quattro algoritmi distinti: greedy, ε-greedy, Thompson Sampling e UCB1, descrivendo in dettaglio i punti di forza e di debolezza di ciascuno. Sebbene la metodologia impiegata in quell’articolo sia teoricamente valida, presenta semplificazioni eccessive che non reggono in situazioni più complesse del mondo reale. La più problematica di queste semplificazioni è l’ipotesi che il processo sottostante sia stazionario, il che significa che il prezzo ottimale rimane costante indipendentemente dall’ambiente esterno. Chiaramente non è così. Considera, ad esempio, le fluttuazioni della domanda durante le festività natalizie, gli improvvisi cambiamenti nei prezzi della concorrenza o i cambiamenti nei costi delle materie prime.

Per risolvere questo problema entrano in gioco i Banditi contestuali. I Banditi contestuali sono un’estensione del problema dei Banditi multi-armati in cui l’agente decisionale non solo riceve una ricompensa per ogni azione (o “braccio”) ma ha anche accesso alle informazioni relative al contesto o all’ambiente prima di scegliere un braccio. Il contesto può essere qualsiasi informazione che potrebbe influenzare il risultato, come i dati demografici dei clienti o le condizioni del mercato esterno.

Ecco come funzionano: prima di decidere quale braccio tirare (o, nel nostro caso, quale prezzo fissare), l’agente osserva la corrente…

Fonte: towardsdatascience.com