Come utilizzare l'intelligenza artificiale generativa e Python per creare set di dati fittizi per designer |  di Mia Dwyer |  Aprile 2024

 | Intelligenza-Artificiale

Una semplice guida per applicazioni pratiche

Hai mai avuto bisogno di un set di dati che non esiste facilmente? Desideri generare facilmente dati che corrispondano esattamente ai tuoi requisiti per intervistare potenziali candidati in data science, test e sviluppo di software o modelli di formazione? O che ne dici di voler semplicemente i dati giusti da utilizzare per dimostrare competenze e tecniche per un articolo su Medium (che non violi le leggi sul copyright)?

Inserisci dati fittizi! 📊✨

Immagine creata da me, utilizzando DALL-E

Fino a poco tempo fa, la creazione di set di dati fittizi era un po' noiosa e ardua, i tecnici tra noi potevano generarli con codice Python scritto in modo esperto, ma codificare manualmente tutti i requisiti può richiedere molto tempo e presenta un'elevata barriera tecnica all'accesso.

Supponiamo di avere un caso d'uso in cui vogliamo testare un candidato che fa domanda per la scienza dei dati presso una fintech e ci sono modelli del mondo reale che vogliamo che siano in grado di identificare e discutere, ma per motivi di privacy non possiamo condividere i dati effettivi delle transazioni dei clienti esternamente.

La soluzione? Sfrutta la potenza dell'intelligenza artificiale generativa per creare abilmente codice Python complesso per produrre i nostri ✨Designer Dummy Datasets✨

Diamo un'occhiata a come possiamo richiedere a GPT4 di generare un set di dati per noi che soddisfi tutti i nostri requisiti esatti e alquanto noiosi:

Hi there! You are my expert python programmer and data scientist extraordinaire. 
I need to generate a "designer dummy dataset" that meets the following conditions and specifications,
can you please write the python code for me to generate it?

The dataset is transactions in 2019, 2020, and 2021
I want the dataset to contain the following columns: id, transaction_timestamp, user_id, amount, merchant, network, card_type.
The merchant_name should be either: Walmart, Netflix.com, Starbucks, Home Depot, 7/11, Dunkin Donuts, Trader Joe's, and Amazon.com
The user_id should be between 1 and 100 - the amount should be 9.99 for every Netflix.com purchase, less than $10 for Starbucks and Dunkin Donuts, between $25 and 500 for Walmart, Amazon.com, and Home Depot, less than $25 for 7/11, and between $10 and $250 for Trader Joe's
There…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *