I consigli sono onnipresenti nella nostra vita digitale, dai giganti dell’e-commerce ai servizi di streaming. Tuttavia, dietro ogni grande sistema di raccomandazione si nasconde una sfida che può avere un impatto significativo sulla loro efficacia: il bias di campionamento.
In questo articolo presenterò come si verificano errori di campionamento durante i modelli di raccomandazione per la formazione e come possiamo risolvere questo problema nella pratica.
Immergiamoci!
In generale, possiamo formulare il problema della raccomandazione nel modo seguente: dato interroga x (che può contenere informazioni sull’utente, contesto, elementi su cui si è fatto clic in precedenza, ecc.)trovare l’insieme di elementi {y1,.., sì} che l’utente probabilmente sarà interessato.
Una delle sfide principali per i sistemi di raccomandazione su larga scala sono i requisiti di bassa latenza. Tuttavia, i pool di utenti e oggetti sono vasti e dinamici, quindi è impossibile assegnare un punteggio a ogni candidato e trovare avidamente quello migliore. Pertanto, per soddisfare il requisito di latenza, i sistemi di raccomandazione sono generalmente suddivisi in 2 fasi principali: recupero e classificazione.
Il recupero è un modo economico ed efficiente per acquisire rapidamente i principali candidati (alcune centinaia) dal vasto pool di candidati (milioni o miliardi). L’ottimizzazione del recupero riguarda principalmente 2 obiettivi:
- Durante la fase di training, vogliamo codificare utenti ed elementi in incorporamenti che catturino il comportamento e le preferenze dell’utente.
- Durante l’inferenza, vogliamo recuperare rapidamente gli elementi rilevanti tramite i vicini approssimati più vicini (ANN).
Per il primo obiettivo, uno degli approcci comuni sono le reti neurali a due torri. Il modello ha guadagnato popolarità affrontando i problemi di avvio a freddo incorporando funzionalità di contenuto degli articoli.
Nel dettaglio, le query e gli elementi sono codificati dalle corrispondenti torri DNN in modo che gli incorporamenti rilevanti (query, elemento) rimangano…
Fonte: towardsdatascience.com