Navigazione dei dati nei Datathon: approfondimenti e linee guida (NeurIPS’23) |  di Carlos Mougan |  Febbraio 2024

 | Intelligenza-Artificiale

Quando si tratta di datathon, non vanno bene solo i dati. I dati devono essere “appropriati”, “sufficienti” e sensibili alle preoccupazioni sulla privacy. Gli organizzatori e i partecipanti sono spesso alle prese con domande del tipo: cosa rende i dati adatti per un datathon? Quanti dati sono considerati sufficienti? Come trattiamo i dati sensibili? Ogni dimensione è fondamentale per garantire che i dati utilizzati nei datathon siano idonei, etici e favorevoli al raggiungimento degli obiettivi dell’evento. Approfondiamo questi aspetti uno per uno.

L’adeguatezza dei dati riguarda la loro rilevanza e utilità nell’affrontare le domande specifiche della sfida del datathon. Questa dimensione valuta se i dati forniti sono in linea con gli obiettivi del datathon, garantendo che i partecipanti dispongano del giusto tipo di dati con cui lavorare.

  • Insufficiente: I dati non hanno alcuna connessione apparente con gli obiettivi del datathon, rendendo impossibile per i partecipanti utilizzarli in modo efficace. Ad esempio, fornire dati meteorologici per una sfida incentrata sulle previsioni finanziarie è del tutto fuori luogo.
  • Sviluppando: Sebbene i dati siano in qualche modo legati alla sfida, mancano di elementi critici o variabili target necessarie per un’analisi completa o lo sviluppo di una soluzione.
  • Funzionale: I dati sono rilevanti e possono essere applicati direttamente alla sfida. Tuttavia, esistono opportunità per migliorarne il valore attraverso l’inclusione di variabili aggiuntive o metadati più dettagliati che potrebbero fornire informazioni più approfondite.
  • Ottimale: I dati forniti corrispondono perfettamente ai requisiti della sfida, incluso un ricco set di funzionalità, variabili target rilevanti e metadati completi. Questo livello rappresenta uno scenario ideale in cui i partecipanti hanno accesso a tutte le informazioni necessarie per l’analisi e lo sviluppo della soluzione.

La prontezza valuta la condizione dei dati riguardo alla loro preparazione per l’analisi immediata. Coinvolge fattori come la pulizia dei dati, la completezza, la struttura e l’accessibilità, che incidono in modo significativo sull’efficienza del datathon.

  • Insufficiente: I dati non vengono raccolti o organizzati così male che è necessario uno sforzo significativo per renderli utilizzabili. Questo scenario pone una grave limitazione su ciò che può essere ottenuto durante il periodo di tempo del datathon.
  • Sviluppando: I dati sono stati raccolti, ma potrebbero essere incompleti, formattati in modo incoerente o privi di documentazione, rendendo necessario un lavoro preliminare prima di poter iniziare un’analisi significativa.
  • Funzionale: Sebbene i dati richiedano un po’ di pulizia o preelaborazione, sono in gran parte in uno stato che ne consente l’analisi. Potrebbero essere necessari sforzi minori per consolidare le origini dati o formattare correttamente i dati.
  • Ottimale: I dati sono in uno stato pronto per l’analisi, essendo ben documentati, puliti e strutturati. I partecipanti possono concentrarsi sull’applicazione di tecniche di scienza dei dati piuttosto che su attività di preparazione dei dati.

L’affidabilità riguarda l’accuratezza e la distorsione dei dati. Mette in discussione la misura in cui i dati possono essere considerati una rappresentazione veritiera dei fenomeni o della popolazione che dovrebbero rappresentare.

  • Insufficiente: I dati sono fortemente distorti o contengono errori significativi che potrebbero portare a conclusioni fuorvianti. Tali dati potrebbero travisare determinati gruppi o fenomeni, distorcendo i risultati dell’analisi.
  • Sviluppando: L’affidabilità dei dati è incerta a causa di fonti sconosciute di distorsione o potenziali errori nella raccolta e registrazione dei dati. Questo status richiede cautela nell’interpretazione e può limitare la fiducia nei risultati.
  • Funzionale: Esistono pregiudizi o problemi noti, ma possono essere affrontati attraverso un’attenta analisi o riconosciuti come limiti dello studio. Questo livello di affidabilità richiede trasparenza sui limiti dei dati.
  • Ottimale: I dati sono considerati altamente affidabili, senza distorsioni o errori significativi noti. Rappresenta accuratamente i fenomeni target, consentendo un’analisi sicura e solida.

La sensibilità riguarda la privacy, la riservatezza e le considerazioni etiche dei dati. Valuta il livello di rischio associato all’utilizzo e alla condivisione dei dati, in particolare per quanto riguarda le informazioni personali o proprietarie.

  • Insufficiente (Livello 4): I dati sono altamente sensibili e comportano rischi legali, etici o personali significativi. Tali dati in genere non sono adatti per i datathon a causa dell’elevato potenziale di uso improprio o danno.
  • Sviluppo (Livello 3): Sebbene non siano così sensibili, i dati richiedono comunque misure rigorose per proteggere la privacy e la riservatezza, limitandone possibilmente l’usabilità in un ambiente liberamente collaborativo come un datathon.
  • Funzionale (Livello 2): La sensibilità dei dati è gestita attraverso l’anonimato o altre misure di salvaguardia, ma l’attenzione alla protezione dei dati rimane importante. I partecipanti devono tenere conto delle considerazioni sulla privacy durante la loro analisi.
  • Ottimale (Livello 0/1): I dati presentano rischi minimi di sensibilità, consentendo una condivisione e un’analisi più semplici. Questo livello è ideale per promuovere la collaborazione aperta senza compromettere la privacy o gli standard etici.

La sufficienza valuta se la quantità e il tipo di dati forniti sono adeguati per affrontare le domande della sfida in modo efficace. Considera il volume, la varietà e la granularità dei dati in relazione agli obiettivi del datathon.

  • Insufficiente: Il volume o la diversità dei dati è troppo limitato per consentire un’analisi significativa o per trarre conclusioni affidabili. Tale insufficienza può ostacolare gravemente il successo del datathon.
  • Sviluppando: Sebbene alcuni dati siano disponibili, la loro quantità o qualità potrebbero non essere sufficienti per esplorare completamente le domande della sfida o per costruire modelli robusti. I partecipanti potrebbero trovare difficile ottenere approfondimenti significativi.
  • Funzionale: I dati forniti sono adeguati per affrontare le domande della sfida in modo significativo. Pur non essendo esaustivo, consente ai partecipanti di trarre spunti utili e proporre soluzioni praticabili.
  • Ottimale: I dati sono abbondanti e vari, superando i requisiti di base per il datathon. Questo livello offre ai partecipanti un ricco terreno di gioco per esplorare soluzioni innovative e condurre analisi approfondite.

I gruppi di studio sui dati (DSG) sono un pluripremiato evento collaborativo di datathon organizzato dall’Alan Turing Institute, l’istituto nazionale del Regno Unito per la scienza dei dati e l’intelligenza artificiale. Gli ADSG consistono in datathon lavorati in modo collaborativo da un singolo team (piuttosto che da più team in competizione tra loro). Lo scopo dei DSG è offrire opportunità alle organizzazioni e ai partecipanti del mondo accademico e industriale di lavorare insieme per risolvere le sfide del mondo reale utilizzando la scienza dei dati e le metodologie ML. I DSG sono gestiti e preparati da un team interno specializzato di organizzatori di eventi e personale di supporto accademico interdisciplinare. Ulteriori informazioni (Qui)

Un datathon di successo è il risultato della preparazione, della flessibilità e dello sforzo collettivo di organizzatori, proprietari della sfida e partecipanti. Riportiamo le seguenti raccomandazioni.

Prima dell’evento: collaborare e allinearsi

Le basi per un datathon di successo vengono gettate ben prima dell’evento. Il coinvolgimento precoce con i proprietari della sfida (partner commerciali) è fondamentale. La loro esperienza nel settore e la comprensione dei dati possono influenzare in modo significativo la direzione e i risultati dell’evento. La loro comprensione del problema e le competenze del settore possono migliorare notevolmente i dati e la collaborazione tempestiva aiuta ad allineare gli obiettivi e le aspettative di entrambe le parti, aumentando la probabilità di un evento fruttuoso.

Con l’avvicinarsi del datathon, è utile effettuare controlli di integrità sulla disponibilità dei dati e prendere in considerazione la modifica delle domande di sfida in base al contributo di un investigatore esperto in grado di allineare i requisiti del settore e i requisiti della ricerca prendendo in considerazione il punto di vista dei partecipanti.

Durante il Datathon: Adapt and Engage

L’evento dal vivo è il luogo in cui la pianificazione incontra la realtà. Gli PI svolgono un ruolo cruciale nel guidare i partecipanti attraverso le sfide legate ai dati e nel garantire il raggiungimento degli obiettivi. Inoltre, il feedback dei partecipanti è una miniera d’oro. Il loro sguardo nuovo sui dati può scoprire nuove intuizioni o identificare aree di miglioramento, rendendo il datathon un ambiente dinamico in cui gli aggiustamenti non sono solo possibili ma incoraggiati.

Interessato a casi d’uso reali? Nel documento del procedimento, abbiamo mappato 10 casi d’uso nel nostro framework.

  1. Cefas: Centro per le Scienze dell’Ambiente, della Pesca e dell’Acquacoltura
  2. Centro di ricerca sulla produzione avanzata dell’Università di Sheffield: monitoraggio del processo di lavorazione intelligente basato su multisensore
  3. CityMaaS: rendere accessibili i viaggi per le persone nelle città attraverso la previsione e la personalizzazione
  4. WWF: Monitoraggio intelligente per le aree protette
  5. British Antarctic Survey: foche dallo spazio
  6. DWP: Dipartimento per il Lavoro e le Pensioni
  7. Dementia Research Institute e DEMON Network: predizione della relazione funzionale tra la sequenza del DNA e lo stato epigenetico
  8. Automatizzazione della valutazione della perfusione della microcircolazione sublinguale nella malattia critica
  9. Entale: sistemi di raccomandazione per la scoperta di podcast
  10. Odin Vision: esplorazione del processo decisionale supportato dall’intelligenza artificiale per la diagnosi in fase iniziale del cancro del colon-retto

I rapporti completi, insieme ai risultati di altri gruppi di studio sui dati, possono essere trovati all’indirizzo (Sezione Rapporti)

Classificazione della valutazione dei dati di conteggio dei report degli ultimi 10 report DSG

In questo documento, abbiamo analizzato i dati nel contesto dei datathon lungo cinque dimensioni chiave: adeguatezza, preparazione, affidabilità, sensibilità e sufficienza, ricavati dall’organizzazione di oltre 80 datathon dal 2016. In questo modo, speriamo di migliorare la gestione dei dati per organizzazioni prima degli eventi datathon.

La nostra analisi qualitativa proposta fornisce un certo grado di stato dei dati attraverso diverse prospettive; questi gradi possono essere adattati o estesi, in modo simile ai livelli di preparazione tecnologica forniti dalla NASA, che sono stati estesi nel tempo e in ulteriori lavori.

Citazione Bibtex:

@inproceedings{
mougan2023how,
title={How to Data in Datathons},
author={Carlos Mougan and Richard Plant and Clare Teng and Marya Bazzi and Alvaro Cabrejas-Egea and Ryan Sze-Yin Chan and David Salvador Jasin and martin stoffel and Kirstie Jane Whitaker and JULES MANSER},
booktitle={Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2023},
url={https://openreview.net/forum?id=bjvRVA2ihO}
}

Mougan, C., Plant, R., Teng, C., Bazzi, M., Cabrejas-Egea, A., Chan, RS-Y. , Jasin, DS, Stoffel, M., Whitaker, KJ, & Manser, J. (2023). Come inserire i dati nei datathon. In Trentasettesima conferenza sui set di dati e sui benchmark dei sistemi di elaborazione delle informazioni neurali.

Una mia foto (Carlos Mougan) all’Alan Turing Institute. (Tutte le immagini sono fornite dall’autore e utilizzate con autorizzazione)

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *