Generazione di dati descrittivi sintetici in PySpark |  di Matt Collins |  Gennaio 2024

 | Intelligenza-Artificiale

Utilizza vari tipi di origini dati per generare rapidamente dati di testo per set di dati artificiali.

Immagine generata con DALL-E 3

In un articolo precedenteabbiamo esplorato la creazione di relazioni molti-a-uno tra le colonne in un PySpark DataFrame sintetico. Questo DataFrame consisteva solo di informazioni sulla chiave esterna e non abbiamo prodotto alcuna informazione testuale che potesse essere utile in un DataSet demo.

Per chiunque desideri popolare un set di dati artificiale, è probabile che vorrai produrre dati descrittivi come informazioni sul prodotto, dettagli sulla posizione, dati demografici dei clienti, ecc.

In questo post, approfondiremo alcune fonti che possono essere utilizzate per creare dati di testo sintetici con poco sforzo e costo e utilizzeremo le tecniche per mettere insieme un DataFrame contenente i dettagli del cliente.

I set di dati sintetici sono un ottimo modo per dimostrare in modo anonimo il tuo prodotto dati, come un sito Web o una piattaforma di analisi. Consentire agli utenti e alle parti interessate di interagire con dati di esempio, esponendo analisi significative senza violare alcun problema di privacy con i dati sensibili.

Può anche essere ottimo per esplorare algoritmi di machine learning, consentendo ai data scientist di addestrare modelli nel caso di dati reali limitati.

Test delle prestazioni Le attività della pipeline di ingegneria dei dati rappresentano un altro ottimo caso d’uso per i dati sintetici, poiché offrono ai team la possibilità di aumentare la portata dei dati inviati attraverso un’infrastruttura e identificare i punti deboli nella progettazione, nonché eseguire il benchmarking dei tempi di esecuzione.

Nel mio caso, sto attualmente creando un set di dati di esempio per testare le prestazioni di alcune funzionalità di Power BI a volumi elevati, di cui scriverò a tempo debito.

Il set di dati conterrà dati di vendita, inclusi importi delle transazioni e altre caratteristiche descrittive come l’ubicazione del negozio, il nome del dipendente e l’indirizzo e-mail del cliente.

Iniziando in modo semplice, possiamo utilizzare alcune funzionalità integrate per generare dati di testo casuali. Importando il casuale E corda Moduli Python, possiamo usare la seguente semplice funzione per creare una stringa casuale della lunghezza desiderata.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *