Come cambia la probabilità condizionata in funzione dei tre elementi di probabilità

Immagine dell’autore

Recentemente ho parlato delle cause del degrado delle prestazioni dei modelli, ovvero quando la loro qualità di previsione diminuisce rispetto al momento in cui abbiamo addestrato e distribuito i nostri modelli. In quest’altro postHo proposto un nuovo modo di pensare alle cause del degrado del modello. In questo quadro, la cosiddetta probabilità condizionata risulta essere la causa globale.

La probabilità condizionata è, per definizione, composta da tre probabilità che chiamo cause specifiche. L’apprendimento più importante di questa ristrutturazione dei concetti è questo spostamento della covariata E spostamento condizionale non sono due concetti separati o paralleli. Spostamento condizionale può accadere in funzione di spostamento della covariata.

Con questa ristrutturazione, credo che diventi più facile pensare alle cause e diventi più logico interpretare i cambiamenti che osserviamo nelle nostre applicazioni.

Questo è lo schema delle cause e delle prestazioni del modello per i modelli di machine learning:

Immagine dell’autore. Adattato da https://towardsdatascience.com/riordino-il-framework-of-dataset-shifts-cd9f922637b7

In questo schema vediamo il percorso chiaro che collega le cause alle prestazioni di previsione dei nostri modelli stimati. Un presupposto fondamentale che dobbiamo fare nell’apprendimento statistico è che i nostri modelli siano “buoni” stimatori dei modelli reali (confini decisionali reali, funzioni di regressione reali, ecc.). “Buono” può avere significati diversi, come stimatori imparziali, stimatori precisi, stimatori completi, stimatori sufficienti, ecc. Ma, per semplicità e per la discussione imminente, diciamo che sono buoni nel senso che hanno un piccolo errore di previsione. In altre parole, assumiamo che siano rappresentativi dei modelli reali.

Con questa ipotesi, siamo in grado di cercare nelle probabilità le cause del degrado del modello stimato P(X), P(Y), P(X|Y), E conseguentementeP(Y|X).

Quindi, ciò che faremo oggi è esemplificare e analizzare diversi scenari per vedere come P(Y|X) cambia in funzione delle 3 probabilità P(X|Y), P(X)E P(Y). Lo faremo utilizzando una popolazione di pochi punti in uno spazio 2D e calcolando le probabilità da questi punti campione come farebbe Laplace. Lo scopo è quello di digerire lo schema gerarchico delle cause del degrado del modello, mantenendolo P(Y|X) come causa globale e le altre tre come cause specifiche. In questo modo, possiamo capire, ad esempio, come un potenziale spostamento di covariata possa talvolta essere l’argomento dello spostamento condizionato piuttosto che essere uno spostamento separato a sé stante.

L’esempio

Il caso che tratteremo per la nostra lezione oggi è molto semplice. Abbiamo uno spazio di due covariate X1 E x2 e l’uscita Y è una variabile binaria. Ecco come appare il nostro spazio modello:

Immagine dell’autore

Vedi che lo spazio è organizzato in 4 quadranti e il confine decisionale in questo spazio è la croce. Ciò significa che il modello classifica i campioni in classe 1 se si trovano nel 1° e 3° quadrante, in classe 0 altrimenti. Ai fini di questo esercizio, esamineremo i diversi casi confrontandoli P(Y=1|X1>a). Questa sarà la nostra probabilità condizionata da mostrare. Se ti stai chiedendo perché non prenderlo anche tu x2è solo per la semplicità dell’esercizio. Non influisce sull’intuizione che vogliamo comprendere.

Se hai ancora una sensazione agrodolce, prendilo P(Y=1|X1>a) è equivalente a P(Y=1|X1>a, -infquindi in teoria, stiamo ancora prendendo x2 in considerazione.

Immagine dell’autore

Modello di riferimento

Quindi, per cominciare, calcoliamo la nostra probabilità di vetrina e otteniamo 1/2. Praticamente qui il nostro gruppo di campioni è abbastanza uniforme in tutto lo spazio e anche le probabilità a priori sono uniformi:

Immagine dell’autore

I turni stanno arrivando

  1. Un campione aggiuntivo viene visualizzato nel quadrante in basso a destra. Quindi la prima cosa che ci chiediamo è: stiamo parlando di uno spostamento della covariata?

Ebbene sì, perché c’è più campionamento X1>a di quanto c’era prima. Quindi, questo è solo a spostamento della covariata ma non un spostamento condizionale? Vediamo. Ecco il calcolo di tutte le stesse probabilità di prima con la serie di punti aggiornata (le probabilità che sono cambiate sono in arancione):

Immagine dell’autore

Cosa abbiamo visto qui? In effetti, non solo abbiamo ottenuto a spostamento della covariatama nel complesso, tutte le probabilità sono cambiate. IL precedente la probabilità è cambiata anche perché lo spostamento della covariata ha portato un nuovo punto della classe 1 rendendo l’incidenza di questa classe maggiore della classe 2. Inoltre, la probabilità inversa P(X1>a|Y=1) cambiato proprio a causa del turno precedente. Tutto ciò nel complesso ha portato a a spostamento condizionale quindi ora abbiamo P(Y=1|X1>a)=2/3 invece di 1/2.

Ecco una bolla di pensiero. Uno molto importante in realtà.

Con questo spostamento nella distribuzione campionaria, abbiamo ottenuto spostamenti di tutte le probabilità che giocano un ruolo nell’intero schema dei nostri modelli. Tuttavia, il limite decisionale esistente sulla base del campionamento iniziale è rimasto valido per questo cambiamento.

Cosa significa questo?

Anche se abbiamo ottenuto uno spostamento condizionato, il confine decisionale non è necessariamente peggiorato. Poiché il limite decisionale deriva dal valore atteso, se calcoliamo questo valore in base allo spostamento attuale, il limite potrebbe rimanere lo stesso ma con una probabilità condizionata diversa.

2. I campioni del primo quadrante non esistono più.

Così per X1>a le cose sono rimaste invariate. Vediamo cosa succede alla probabilità condizionata che stiamo mostrando e ai suoi elementi.

Immagine dell’autore

Intuitivamente, perché dentro X1>a le cose rimangono invariate, la probabilità condizionata è rimasta la stessa. Eppure, quando guardiamo P(X1>a) otteniamo 2/3 invece di 1/2 rispetto al campione di addestramento. Quindi qui abbiamo a spostamento della covariata senza uno spostamento condizionale.

Da un punto di vista matematico, come può cambiare la probabilità della covariata senza che cambi la probabilità condizionale? Questo è perché P(Y=1) E P(X1>a|Y=1) cambiato di conseguenza alla probabilità della covariata. Pertanto la compensazione compensa una probabilità condizionata invariata.

Con questi cambiamenti, proprio come prima, il limite decisionale è rimasto valido.

3. Inserimento di alcuni campioni in diversi quadranti mentre il confine decisionale rimaneva valido.

Abbiamo qui 2 combinazioni extra. In un caso, il precedente è rimasta la stessa mentre le altre due probabilità sono cambiate, senza tuttavia modificare la probabilità condizionata. Nel secondo caso, soltanto IL probabilità inversa era associato a uno spostamento condizionale. Controlla i turni qui sotto. Quest’ultimo è piuttosto importante, quindi non perdetelo!

Immagine dell’autore

Con questo, ora abbiamo una prospettiva abbastanza solida su come la probabilità condizionale può cambiare in funzione delle altre tre probabilità. Ma, cosa più importante, sappiamo anche che non tutti gli spostamenti condizionali invalidano il confine decisionale esistente. Allora qual è il problema?

Deriva del concetto

Nel post precedenteHo anche proposto un modo più specifico di definizione deriva del concetto (O cambiamento di concetto). La proposta è:

Ci riferiamo ad un cambiamento nel concetto quando il confine decisionale o la funzione di regressione diventano non validi quando le probabilità in gioco cambiano.

Quindi, il punto cruciale a questo proposito è che se il confine della decisione diventa non valido, sicuramente si verifica uno spostamento condizionale. Il contrario, come abbiamo discusso in il messaggio precedente e come abbiamo visto negli esempi precedenti, non è necessariamente vero.

Questo potrebbe non essere così fantastico da un punto di vista pratico perché significa che per sapere veramente se c’è una deriva del concetto, potremmo essere costretti a rivalutare il confine o la funzione. Ma almeno, per la nostra comprensione teorica, questo è altrettanto affascinante.

Ecco un esempio in cui abbiamo a deriva del concettonaturalmente con a spostamento condizionalema veramente senza una covariata o uno spostamento precedente.

Immagine dell’autore

Quanto è bella questa separazione dei componenti? L’unico elemento che è cambiato qui è stato il probabilità inversama, contrariamente allo spostamento precedente che abbiamo studiato sopra, questo cambiamento nella probabilità inversa era legato al cambiamento nel confine decisionale. Ora, un confine decisionale valido è solo la separazione secondo X1>a scartando il confine dettato da x2.

Cosa abbiamo imparato?

Abbiamo camminato molto lentamente attraverso la scomposizione delle cause del degrado del modello. Abbiamo studiato diversi spostamenti degli elementi di probabilità e il modo in cui si relazionano al degrado delle prestazioni di previsione dei nostri modelli di machine learning. Gli approfondimenti più importanti sono:

  • Uno spostamento condizionale è una causa globale di degrado delle previsioni nei modelli di machine learning
  • Le cause specifiche sono lo spostamento della covariata, lo spostamento precedente e lo spostamento della probabilità inversa
  • Possiamo avere molti casi diversi di spostamenti di probabilità mentre il confine decisionale rimane valido
  • Un cambiamento nel confine decisionale provoca uno spostamento condizionale, ma non è necessariamente vero il contrario!
  • Deriva del concetto può essere più specificamente associato al confine decisionale piuttosto che alla distribuzione di probabilità condizionale complessiva

Cosa ne consegue? Riorganizzare le nostre soluzioni pratiche alla luce di questa gerarchia di definizioni è il più grande invito che faccio. Potremmo trovare così tante risposte desiderate alle nostre domande attuali riguardo al modo in cui possiamo monitorare i nostri modelli.

Se stai attualmente lavorando sul monitoraggio delle prestazioni del modello utilizzando queste definizioni, non esitare a condividere le tue opinioni su questo framework.

Buon pensiero a tutti!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *