Di quanti dati abbiamo bisogno?  Bilanciare il machine learning con considerazioni sulla sicurezza |  di Stephanie Kirmer |  Dicembre 2023

 | Intelligenza-Artificiale

Per uno scienziato dei dati, non esistono troppi dati. Ma quando diamo uno sguardo più ampio al contesto organizzativo, dobbiamo bilanciare i nostri obiettivi con altre considerazioni.

fotografato da Università di Trnava SU Unsplash

L’acquisizione e la conservazione dei dati è al centro di un’enorme quantità della nostra energia mentale come data scientist. Se chiedi a un data scientist “Possiamo risolvere questo problema?” la prima domanda che la maggior parte di noi si farà è “Hai dati?” seguito da “Quanti dati hai?” Vogliamo raccogliere dati perché rappresentano il prerequisito per la maggior parte dei tipi di lavoro che vogliamo svolgere, al fine di produrre modelli preziosi e risultati vantaggiosi. Adoriamo scavare in quei dati, scoprire cosa c’è veramente lì dentro e cosa significano, scoprire come sono stati generati o raccolti e trarne conclusioni generalizzabili.

Tuttavia, uno sguardo attento alla privacy dei dati colloca le nostre abitudini e scelte in un contesto diverso. Gli istinti e i desideri dei data scientist spesso entrano in conflitto con le esigenze di privacy e sicurezza dei dati. Chiunque abbia lottato per ottenere l’accesso a un database o a un data warehouse per costruire un modello può capirlo. Può sembrare che ci siano barriere estremamente caute che vengono erette nel modo in cui svolgiamo il nostro lavoro. Dopotutto, la ragione per cui abbiamo i dati non è forse per imparare da essi e modellarli? Anche i migliori tra noi a volte demonizzano le parti della nostra organizzazione i cui obiettivi principali riguardano la privacy e la sicurezza e sono in conflitto con il nostro desiderio di sguazzare nel data Lake.

In realtà, i data scientist non sono sempre gli eroi e i team IT e di sicurezza non sono i cattivi. Stiamo entrambi lavorando su obiettivi importanti e possiamo entrambi avere una visione ristretta in questo perseguimento. È utile guardare alle prospettive di entrambi i ruoli per comprendere la tensione in atto e gli interessi concorrenti.

La prospettiva della scienza dei dati

Dal punto di vista della scienza dei dati, disporre di grandi volumi di dati è spesso necessario per raggiungere gli obiettivi del nostro lavoro. Per costruire un modello generalizzabile, è necessario disporre di moltissimi esempi dei tipi di dati a cui il modello dovrà rispondere in produzione. Centinaia di migliaia o milioni di casi non sono comunque una cifra esorbitante da cercare. Tuttavia, per far sì che tutto ciò funzioni davvero, i data scientist devono dedicare molto tempo ed energie all’interrogazione di tali dati. Avere moltissimi dati è fantastico, ma se non sai cosa rappresentano realmente e la loro provenienza, la battaglia per fare una scienza dei dati efficace sarà molto dura.

L’angolo della sicurezza

Se adottiamo la prospettiva della sicurezza, d’altro canto, dobbiamo ammettere che maggiore è la quantità di dati di cui disponiamo, in particolare se esistono più sistemi di archiviazione o processi che influenzano i dati, maggiore è il rischio di violazione dei dati. In sostanza, più dati abbiamo, maggiore è la possibilità che alcuni di essi vadano perduti o che qualcuno vi acceda in modo inappropriato. Inoltre, più persone hanno accesso ai dati significa maggiori opportunità di violazione o perdita di dati, perché gli esseri umani rappresentano il principale vettore di rischio nel settore tecnologico. Siamo l’anello debole della catena.

Che cosa significa tutto questo? Direi che ciò ci porta ad aver bisogno di una via di mezzo. Per prima cosa, più dati abbiamo in giro, minore è la probabilità di aver effettivamente svolto il lavoro per comprenderli in profondità, o che potremmo persino riuscirci con il tempo e gli strumenti a nostra disposizione. Se accumuliamo tutto indiscriminatamente, ci mettiamo effettivamente in una posizione in cui non riusciamo nemmeno a comprendere tutti i dati e siamo contemporaneamente al massimo rischio di violazione. Se non memorizziamo nulla, o non abbastanza, rendiamo impossibile l’accesso all’incredibile valore che la scienza dei dati ha da offrire.

Quindi, dobbiamo capire dove vive questa via di mezzo. Esistono le migliori pratiche nell’ingegneria dei dati e nella conservazione dei dati, ma dobbiamo anche prendere molte decisioni immediate. Avere dei principi su come pensiamo alla conservazione e all’utilizzo dei dati è importante per aiutarci a guidarci in queste situazioni.

Mentre mi occupo di questo argomento della gestione dei dati, dovrei menzionare che di recente ho iniziato un nuovo ruolo! Sono il primo ingegnere senior di machine learning presso DataGrail, un’azienda che fornisce una suite di servizi B2B che aiutano le aziende a proteggere e gestire i dati dei clienti. Ciò ha naturalmente messo in primo piano le questioni relative all’archiviazione dei dati e alla privacy e mi ha fatto pensare alle esperienze che ho avuto nel corso della mia carriera in aziende con diversi livelli di maturità e al modo in cui gestivano i dati.

È così facile per un’azienda diventare un accumulatore di dati. Inizi con una carenza di dati e voli alla cieca, raccogliendo dati su transazioni, attività commerciali, ecc. Man mano che procedi per aiutare a informare le decisioni e la strategia. Potresti non utilizzare ancora il machine learning, ma puoi vedere il potenziale futuro e vuoi preparare la scena. Sembra non solo ragionevole ma vitale raccogliere i tuoi dati e archiviarli! Quindi, imposti i sistemi di dati e inizi a riempire quelle tabelle o argomenti.

Ciò non è sostenibile, però, non per sempre. Dopo qualche anno puoi ritrovarti con enormi volumi di dati. Forse hai bisogno di passare a un provider di archiviazione cloud come Snowflake o AWS per tenere il passo e rendere tutti questi dati accessibili al ritmo di cui hai bisogno. Stai usando i dati, ovviamente! Forse hai avviato un programma di machine learning o anche solo analisi avanzate e BI, ma se fatto bene, questo può fare un’enorme differenza per l’efficacia della tua azienda. Ma anche così, inizierai a dover pensare al costo dell’infrastruttura, per non parlare probabilmente dell’assunzione di personale di ingegneria dei dati per aiutare a gestire la bestia.

Sfortunatamente, hai anche iniziato ad acquisire dati di cui non sei più in grado di gestire bene. La documentazione potrebbe non essere aggiornata, ammesso che sia mai esistita, e il personale che ha contribuito a costruire i sistemi originali anni fa potrebbe essere avvicendato. Cosa significa questa tabella? Qual è la provenienza di quella colonna? I dati che non sono interpretabili generano poco valore, se non nessuno, perché non puoi imparare in modo efficace da dati che non capisci.

A questo punto hai delle decisioni da prendere. Come pianificherete strategicamente il futuro dei vostri sistemi dati? Probabilmente è necessario occuparsi dell’architettura dei dati per cercare di evitare che i costi salgano alle stelle, ma per quanto riguarda la conservazione dei dati? Conservi tutti i dati per sempre? In caso contrario, cosa tagli e quando? Ricorda, tuttavia, che conservare un volume piuttosto elevato di dati è un requisito non negoziabile se la tua azienda disporrà di funzioni di machine learning e/o analisi efficaci a supporto del tuo processo decisionale e dei tuoi prodotti. “Buttare via tutto ed evitare queste sciocchezze” non è un’opzione.

Allo stesso tempo, è necessario pensare ai quadri normativi e legali applicabili alla disponibilità di tutti questi dati. Cosa farai se un cliente ti chiede di eliminare tutti i dati che hai su di lui, come consentito da alcune giurisdizioni? Molte organizzazioni non prendono la cosa sul serio finché non sono già in ritardo per la festa. Se hai intenzione di essere al top e non hai iniziato dal primo giorno, hai il difficile compito di adeguare la tua architettura dati per gestire i requisiti normativi a cui sono soggetti questi dati.

La crescita delle normative sulla sicurezza dei dati negli ultimi anni ha aumentato le sfide dello scenario che descrivo per le aziende. In un certo senso, è stata opera nostra: numerose violazioni dei dati, scarsa sicurezza e politiche di consenso opache da parte di aziende diverse negli ultimi anni hanno portato alla domanda pubblica di meglio e il governo ha colmato il divario. Sembra che la fiducia e la sicurezza del marchio non siano state di per sé una motivazione sufficiente per indurre molte aziende a rafforzare la nave per quanto riguarda la protezione dei dati. Se le leggi fossero necessarie per garantire che i nostri dati personali e i dati sensibili siano protetti coscienziosamente, allora io sarei assolutamente a favore.

Tuttavia, nel mio cappello da data scientist, devo riconoscere la tensione con cui ho iniziato in questo articolo. Voglio tutti i dati e voglio poterli scavare senza restrizioni, perché è così che svolgo il mio lavoro in modo efficace. Ma sono anche un cliente e un cittadino e voglio che i MIEI dati siano attentamente protetti. So che la promessa e la potenza dell’apprendimento automatico dipendono dalla disponibilità dei dati per l’uso, ma naturalmente sembra un po’ meno chiaro se consideri che sono i dati su di te e sulle tue abitudini ad alimentare il progresso. Trovo che questo ruolo sia un po’ più facile da incarnare rispetto alla “sicurezza” di per sé, perché non sono un professionista qualificato in materia di sicurezza dei dati, ma non è necessario che lo sia per avere un’idea precisa di quali sarebbero le mie preferenze come consumatore.

Il mio consiglio è di tenere a portata di mano i nostri cappelli da consumatore/sicurezza e quelli da data scientist. Dobbiamo mantenere un equilibrio tra l’accumulo di dati per l’apprendimento automatico e la limitazione della conservazione dei dati per la privacy e la sicurezza dei dati dei clienti. Non esiste una risposta definitiva alla domanda “quanto dovremmo conservare?”, quindi l’unica scelta è destreggiarsi tra entrambi gli interessi in ogni decisione che prendiamo sull’archiviazione dei dati.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *