Processo di convalida dei dati per migliorare la scienza dei dati | Intelligenza-Artificiale

Quando i dati di training e inferenza provengono da fonti diverse

fotografato da Temi NordWood SU Unsplash (1).

introduzione
Abilitazione della raccolta dati
Impostazione di una linea di base
Rilevamento di valori anomali
Riepilogo
Riferimenti

Questo articolo è destinato ai data scientist che stanno iniziando o desiderano migliorare l’attuale processo di convalida dei dati e fornisce una panoramica generale con alcuni esempi. Innanzitutto, voglio definire qui la convalida dei dati poiché può avere significati diversi per altri ruoli lavorativi simili. Ai fini di questo articolo, diremo che la convalida dei dati è il processo per garantire che i dati di addestramento utilizzati per il modello corrispondano o siano in linea con i dati di inferenza. Per alcune aziende e alcuni casi d’uso, non dovrai preoccuparti di questo problema se i dati provengono dalla stessa fonte. Pertanto, questo processo deve avvenire ed è utile solo quando i dati provengono da fonti diverse. Alcuni dei motivi per cui i dati non provengono dalla stessa fonte sono se i dati di addestramento sono storici e personalizzati (es: caratteristiche derivate da dati esistenti) e/o i dati di inferenza provengono da tabelle attive in cui l’addestramento è costituito da dati snapshot. Tutto ciò da dire, ci sono molte ragioni per cui questa discrepanza è presente e sarà incredibilmente vantaggioso elaborare un processo su larga scala per garantire che i dati che stai alimentando il tuo modello durante l’inferenza siano quelli che tu, ovvero i dati del modello addestrato si aspetta.

fotografato da Dennis Kummer SU Unsplash (2).

Esistono molti modi per abilitare la raccolta dei dati. Ma ancora una volta, innanzitutto, vogliamo definire l’ dati che viene raccolto, che sarebbero i dati di inferenza. Ci aspettiamo di avere i nostri dati di allenamento (composto sia da suddivisioni del treno che da quelle del test) già situato da qualche parte, magari in S3, uno strumento di archiviazione di file, in una tabella temporanea in un database, anche in un file CSV e così via.