Dati sintetici: il buono, il cattivo e l’indistinto |  di Tea Mustac |  Gennaio 2024

 | Intelligenza-Artificiale

Quindi, i dati sintetici sono amici o nemici? Non è nessuno dei due ed è entrambi. A dire il vero, qui abbiamo un classico esempio di spada a doppio taglio. I dati sintetici creano nuovi problemi risolvendone alcuni esistenti. E questo non vale solo per la privacy, ma vale anche per gli obiettivi di prestazione, dove ad esempio scalabilità E aumento dei dati può stare di fronte a amplificazione del bias O generalizzazione preoccupazioni. Questo non è un motivo per rinunciare o rigurgitare lo stesso vecchio tipo di articoli e analisi pro vs contro, che generalizzano eccessivamente o si concentrano solo su un minuscolo punto del quadro più ampio. Il che rende anche chiunque legga un particolare articolo cieco alla foresta dietro l’albero.

L’utilità e l’adeguatezza dell’uso dei dati sintetici nel processo di addestramento dei modelli ML dipenderanno sempre dalle circostanze particolari del caso. Dipenderà dal tipo di dati di cui abbiamo bisogno per addestrare il modello (personali, protetti da copyright, altamente sensibili), dalla quantità dei dati necessari, dalla disponibilità dei dati e dallo scopo previsto del modello (come imprecisione o amplificazione di bias avranno pesi diversi nei modelli di valutazione del merito creditizio o in quelli di ottimizzazione della catena di fornitura). Quindi forse possiamo iniziare rispondendo a questo tipo di domande per ogni dato contesto e poi procedere a considerare i vari compromessi esistenti in un contesto più appropriato.

Punti chiave:

· I dati sintetici non sono mai pseudonimi.

· I dati sintetici dovrebbero essere sempre anonimi.

· I dati sintetici non riguardano esclusivamente la privacy.

· Pur contribuendo sempre a preservare la privacy, i dati sintetici causano altri problemi di protezione dei dati.

· Privacy e protezione dei dati non sono la stessa cosa.

· Alcuni problemi relativi alla protezione dei dati sono anche problemi di prestazioni. Questo è positivo perché significa che stiamo tutti (almeno a volte) cercando di risolvere la stessa cosa.

· Tutti i compromessi associati ai dati sintetici sono molto specifici al contesto e dovrebbero essere discussi nel contesto pertinente.

Una banana su un tavolo e l'immagine di una banana su un laptop sullo stesso tavolo.  Ognuna delle due banane ha una cornice bianca attorno con la parola
Max Gruber / Immagini migliori dell’intelligenza artificiale / Questa non è una banana / CC-BY 4.0

(1) Esplorazione dei dati sintetici: vantaggi e casi d’uso, Intuit Mailchimp, https://mailchimp.com/resources/what-is-synthetic-data/

(2) John Anthony R, Quando si tratta di intelligenza artificiale: i dati sintetici hanno un piccolo sporco segreto, https://www.linkedin.com/pulse/when-comes-aisynthetic-data-has-dirty-little-secret-radosta/

(3) Michael Yurushkin, In che modo i dati sintetici possono risolvere il problema dei bias dell’intelligenza artificiale?, blog di brouton lab, https://broutonlab.com/blog/ai-bias-solved-with-synthetic-data- generation/

(4) Giuffrè, M., Shung, DL Sfruttare il potere dei dati sintetici nel settore sanitario: innovazione, applicazione e privacy. npj cifra. Med. 6, 186 (2023). https://doi.org/10.1038/s41746-023-00927-3

(5) GDPR

(6) AEDP, 10 INCORPORAZIONI LEGATE ALL’ANONIMIZZAZIONE, https://edps.europa.eu/system/files/2021-04/21-04-27_aepd-edps_anonymisation_en_5.pdf

(7) Considerando 26 GDPR

(8) AEDP, 10 INCORPORAZIONI LEGATE ALL’ANONIMIZZAZIONE, https://edps.europa.eu/system/files/2021-04/21-04-27_aepd-edps_anonymisation_en_5.pdf

(9) Robert Riemann, Dati sintetici, Garante europeo della protezione dei dati.

(10) Alex Hern, I dati “anonimi” non possono mai essere totalmente anonimi, afferma lo studio, The Guardian, 23 luglio 2019, https://www.theguardian.com/technology/2019/jul/23/anonymised-data-never-be-anonymous-enough-study-finds ; Emily M Weitzenboeck, Pierre Lison, Malgorzata Cyndecka, Malcolm Langford, Il GDPR e i dati non strutturati: è possibile l’anonimizzazione?, Legge internazionale sulla privacy dei dati, Volume 12, Numero 3, agosto 2022, Pagine 184–206, https://doi.org/10.1093/idpl/ipac008

(11) H. Deng, Esplorazione dei dati sintetici per l’intelligenza artificiale e i sistemi autonomi: un’introduzione,

Ginevra, Svizzera: UNIDIR, 2023, https://unidir.org/wp-content/uploads/2023/11/UNIDIR_Exploring_Synthetic_Data_for_Artificial_Intelligence_and_Autonomous_Systems_A_Primer.pdf .

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *