Tecniche pratiche di campionamento e confronto, in Python | di Piero Paialunga | Dicembre 2023 | Intelligenza-Artificiale

Indice contenuti

Ecco un tutorial passo passo su come campionare il tuo set di dati in modo efficiente utilizzando Python

IO stavo montando l’albero di Natale con mia moglie. Siamo andati nel seminterrato, abbiamo preso l’albero, lo abbiamo portato di sopra e abbiamo iniziato a costruirlo dal basso verso l’alto. È sempre un momento magico🎄

Poi è arrivato il momento di mettere le palline sull’albero. E subito ho pensato: ci sono almeno tre modi per mettere le palline sull’albero.

Uniformemente: metti le palline in modo uniforme sull’albero, più o meno così

Immagine dell’autore, realizzata utilizzando Freepik

A caso: metti le palline a caso sull’albero, chiudendo gli occhi e mettendo la pallina dove preferisci (ho iniziato a fare così e mia moglie è impazzita)

Ipercubo latino: divide l’albero in N sezioni ed estrae in modo casuale in ciascuna di queste sezioni. È molto difficile disegnarlo senza eseguire alcun codice, ma un possibile ipercubo latino assomiglia a questo:

Ho provato a mostrarlo a mia moglie. Lei ha sorriso e ha detto “Non importa”, quindi sono andata al computer nella speranza che la tua reazione fosse qualcosa di più soddisfacente 😤

Scherzi a parte, quando si affrontano problemi di Machine Learning ci sono due diversi scenari:

Non hai alcun controllo sul set di dati. Hai un cliente, o un’azienda, che ti consegna un set di dati. Di questo dovrai occuparti finché non verrà programmata una necessaria (eventuale) riqualificazione.

Ad esempio, nella città di New York, vuoi prevedere il prezzo di una casa in base ad alcune caratteristiche specifiche. Ti danno semplicemente il set di dati e vogliono che tu costruisca il tuo modello in modo che quando arriva un nuovo cliente tu abbia un software AI in grado di prevedere il prezzo in base alle caratteristiche della casa di interesse.

2. Puoi costruire il tuo progetto di esperimento. Questo è quando hai un modello avanzato o un esperimento nel mondo reale che puoi sempre impostare per l’esecuzione.

Ad esempio, in un laboratorio, vuoi prevedere un segnale fisico data una configurazione sperimentale. Puoi sempre andare al laboratorio e generare nuovi dati.

Le considerazioni che si fanno nei due casi sono completamente diverse.

Nel primo caso ci si può aspettare un dataset sbilanciato nelle sue caratteristiche, magari con valori di input mancanti e una distribuzione distorta dei valori target. Tuttavia, affrontare queste cose è la gioia e la dannazione del lavoro di un data scientist. Esegui l’aumento dei dati, il filtraggio dei dati, inserisci i valori mancanti, esegui alcuni test ANOVA se puoi e così via. Nel secondo caso, hai il controllo completo su ciò che accade nel tuo set di dati, soprattutto dal punto di vista dell’input. Ciò significa che se hai un valore NaN puoi ripetere l’esperimento, se hai diversi valori NaN puoi indagare su quella strana area del tuo set di dati, se hai un valore sospetto elevato per alcune determinate funzionalità puoi semplicemente ripetere l’esperimento per fare certo non è un’allucinazione del tuo setup.

Poiché abbiamo questa quantità di controllo, vogliamo assicurarci di coprire in modo efficiente lo spazio dei parametri di input. Ad esempio, se hai 3 parametri e conosci i limiti

Immagine dell’autore

dove i va da 1 a 3 (o da 0 a 2 se ti piace così tanto Python 😁). In questo caso, x_i è la i-esima variabile e sarà sempre maggiore di x_i^L(limite inferiore), ma sarà sempre minore di x_i^U(limite superiore).

Abbiamo il nostro cubo tridimensionale.

Ora, ricorda che abbiamo il controllo completo del nostro set di dati. Come campioniamo? In altre parole, come determiniamo il XS ? Quali sono i punti che vogliamo selezionare in modo da eseguire il modello futuro (esperimento o simulazione) e ottenere i valori target?

Come puoi aspettarti, ci sono diversi metodi per farlo. Ogni metodo ha i suoi vantaggi e svantaggi. In questo studio ne discuteremo, mostreremo la teoria alla base e mostreremo il codice affinché tutti possano utilizzarlo e comprendere meglio il meraviglioso mondo del campionamento. 🙂

Cominciamo con il campionamento uniforme:

Il metodo di campionamento uniforme è probabilmente il più semplice e famoso.

Si tratta semplicemente di suddividere ciascun parametro (o dimensione) in passaggi. Supponiamo di avere 3 passaggi per dimensione, per 2 dimensioni. Ogni dimensione va da 0 a 1 (lo estenderemo tra un minuto). Questo sarebbe il campionamento:

(0,0)
(0,0,5)
(0,1)
(0,5,0)
(0,5,0,5)
(0,5,1)
(1,0)
(1,0,5)
(1,1)

Ciò significa che fissiamo una variabile alla volta e aumentiamo gradualmente. Abbastanza semplice. Codifichiamolo:

1.1 Codice di campionamento uniforme

Come facciamo questo? Evitiamo questo tipo di struttura:

per a nelle dimensioni 1
per b in dimensione 2
….
per l’ultima lettera dell’alfabeto nella dimensione numero di lettere dell’alfabeto: X.append((a,b,…,ultima lettera dell’alfabeto))

Non lo vogliamo perché non è molto efficiente ed è necessario definire una variabile per dimensione ed è fastidioso. Usiamo la magia insensato Invece.