Dati simulati, apprendimenti reali: parte 1 |  di Jarom Hulet |  Marzo 2024

 | Intelligenza-Artificiale

Testare approcci di machine learning con simulazione

16 minuti di lettura

18 ore fa

distribuzioni dei coefficienti stimati del modello su dati simulati – immagine per autore

La simulazione è uno strumento potente nella cassetta degli attrezzi della scienza dei dati. Questa è la prima parte di una serie in più parti che illustra i vari modi in cui la simulazione può essere utile nella scienza dei dati e nell'apprendimento automatico. In questo articolo tratteremo di come utilizzare la simulazione per testare gli approcci di machine learning.

Nello specifico esamineremo come la simulazione può essere utilizzata nei tre modi seguenti:

  1. Testare approcci di machine learning
  2. Confronto delle prestazioni di diversi modelli di machine learning
  3. Valutare il comportamento del modello in varie circostanze

Prima di approfondire questa specifica applicazione della simulazione dei dati, definiamo la simulazione.

COS'È LA SIMULAZIONE DEI DATI?

La definizione di simulazione dei dati è piuttosto semplice: è la creazione di dati fittizi che imitano le proprietà dei dati del mondo reale.

Quando vogliamo simulare i dati?

  • quando vogliamo avere la 'risposta' alle domande che non sono osservabili nel mondo reale – cioè con dati del mondo reale, possiamo solo dedurre la relazione tra X e y; ma con dati simulati noi creare la relazione tra X e y: con questa “risposta” possiamo testare i nostri approcci analitici e di machine learning per vedere se scoprono la relazione che abbiamo simulato
  • quando non disponiamo di dati reali o disponiamo di dati molto limitati
  • quando vogliamo simulare cose mai accadute prima

I dati simulati vengono spesso creati utilizzando un certo grado di casualità. Tipicamente trarremo la casualità dalle distribuzioni di probabilità basate sui dati osservati o sulla conoscenza del dominio. Ad esempio, se vogliamo simulare la produttività degli aranci, potremmo attingere in modo casuale da una distribuzione della produttività degli aranci. Potremmo creare la distribuzione di probabilità attraverso l'osservazione (se disponiamo di un set di dati sulla produttività di molti aranci) oppure potremmo attingere da una distribuzione statistica che rappresenta la produttività delle arance – ad esempio, la produttività degli aranci è normalmente distribuita con una media di 150 libbre e uno standard deviazione di 24 libbre (l'ho inventato totalmente, non controllarmi!).

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *