Come rilevare la deriva dei concetti senza etichette |  di Vítor Cerqueira |  Marzo 2024

 | Intelligenza-Artificiale

Rilevamento delle modifiche non supervisionato utilizzando finestre di riferimento, con un esempio Python

fotografato da Chris Czermak SU Unsplash

In un articolo precedenteabbiamo esplorato le basi della deriva dei concetti. La deriva del concetto si verifica quando la distribuzione di un set di dati cambia.

Questo post continua ad esplorare questo argomento. Qui imparerai come rilevare la deriva dei concetti nei problemi in cui non hai accesso alle etichette. Questo compito è impegnativo perché senza etichette non possiamo valutare le prestazioni dei modelli.

Immergiamoci.

I set di dati che si evolvono nel tempo sono suscettibili di deriva concettuale. I cambiamenti nelle distribuzioni possono compromettere i modelli e l’accuratezza delle loro previsioni. Pertanto, è importante rilevare e adattarsi a questi cambiamenti per mantenere aggiornati i modelli.

La maggior parte degli approcci al rilevamento delle modifiche si basa sul monitoraggio dell'errore del modello. L'idea è di far scattare un allarme quando questo errore aumenta in modo significativo. Quindi, entrano in gioco alcuni meccanismi di adattamento, come la riqualificazione del modello.

Nel articolo precedenteabbiamo sostenuto che in alcuni casi l’accesso alle etichette può essere difficile. Esempi compaiono in molti ambiti, come l’individuazione delle frodi o la valutazione del rischio di credito. In quest'ultimo caso, il tempo necessario affinché una persona diventi inadempiente (e fornisca un'etichetta sulla sua valutazione) può richiedere diversi anni.

In questi casi, è necessario rilevare i cambiamenti utilizzando approcci che non dipendono dalle prestazioni.

In generale, hai due opzioni per rilevare le modifiche senza etichette:

  • Tieni traccia delle previsioni del modello.
  • Tracciare i dati di input (variabili esplicative).

In entrambi i casi, il cambiamento viene rilevato quando la distribuzione cambia in modo significativo.

Come funziona esattamente?

Il rilevamento delle modifiche senza etichette viene eseguito confrontando due campioni di dati. Un campione rappresenta i dati più recenti, definiti anche finestra di rilevamento. L'altro contiene i dati della distribuzione originale (finestra di riferimento).

Pertanto, il processo di rilevamento è suddiviso in due parti:

  1. Costruzione dei due campioni

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *