Superare i limiti del modello a due torri | di Samuel Flender | Dicembre 2023 | Intelligenza-Artificiale

Indice contenuti

Dove si rompono i presupposti alla base dell’architettura del modello a due torri e come andare oltre

(Immagine creata dall’autore utilizzando l’intelligenza artificiale generativa)

Modelli a due torri sono tra le scelte di progettazione architettonica più comuni nei moderni sistemi di raccomandazione: l’idea chiave è quella di avere una torre che apprende la pertinenza e una seconda torre, poco profonda, che apprende i pregiudizi di osservazione come il pregiudizio di posizione.

In questo post, daremo uno sguardo più da vicino a due ipotesi alla base dei modelli a due torri, in particolare:

IL ipotesi di fattorizzazionecioè l’ipotesi che possiamo semplicemente moltiplicare le probabilità calcolate dalle due torri (o sommare i loro logit), e
IL presupposto di indipendenza posizionaleovvero l’ipotesi che l’unica variabile che determina position bias sia la posizione dell’oggetto stesso, e non il contesto in cui viene impresso.

Vedremo dove si interrompono entrambi questi presupposti e come andare oltre queste limitazioni con algoritmi più recenti come il modello MixEM, il modello Dot Product e XPA.

Cominciamo con un brevissimo promemoria.

Modelli a due torri: la storia finora

L’obiettivo di apprendimento primario per i modelli di classificazione nei sistemi di raccomandazione è la pertinenza: vogliamo che il modello preveda il miglior contenuto possibile dato il contesto. In questo caso, il contesto significa semplicemente tutto ciò che abbiamo imparato sull’utente, ad esempio dal suo precedente impegno o dalla cronologia delle ricerche, a seconda dell’applicazione.

Tuttavia, i modelli di ranking di solito mostrano alcuni bias di osservazione, ovvero la tendenza degli utenti a impegnarsi più o meno con un’impressione a seconda di come è stata loro presentata. Il bias di osservazione più importante è il bias di posizione: la tendenza degli utenti a interagire maggiormente con gli elementi mostrati per primi.

L’idea chiave nei modelli a due torri è quella di addestrare due “torri”, ovvero reti neurali, in parallelo, la torre principale per la rilevanza dell’apprendimento e…

Fonte: towardsdatascience.com