Privacy differenziale e apprendimento federato per i dati medici |  di Eric Boernert |  Aprile 2024

 | Intelligenza-Artificiale

Una valutazione pratica della privacy differenziale e dell’apprendimento federato nel contesto medico.

(Immagine generata da Bing AI, originale, piena proprietà)

La necessità di riservatezza dei dati sembra essere generalmente a suo agio al giorno d'oggi nell'era dei grandi modelli linguistici formati su tutto, dall'Internet pubblica, indipendentemente da proprietà intellettuale vera e propria quali i loro rispettivi i leader dell’azienda lo ammettono apertamente.

Ma esiste un universo parallelo molto più sensibile quando si tratta dei dati dei pazienti, delle nostre cartelle cliniche, che senza dubbio sono molto più sensibili e bisognose di protezione.

Anche le normative si stanno rafforzando in tutto il mondo, la tendenza è unanime verso norme più severe sulla protezione dei dati, compresa l’intelligenza artificiale.

Ci sono ovvie ragioni etiche che non dobbiamo spiegare, ma ragioni normative e legali a livello aziendale che richiedono alle aziende farmaceutiche, ai laboratori e agli ospedali di utilizzare tecnologie all'avanguardia per proteggere la privacy dei dati dei pazienti.

L'analisi e l'apprendimento federati sono ottime opzioni per poter analizzare i dati e addestrare modelli sui dati dei pazienti senza accedere ai dati grezzi.

Nel caso dell’analisi federata ciò significa, ad esempio, che possiamo ottenere la correlazione tra la glicemia e il BMI dei pazienti senza accedere a dati grezzi che potrebbero portare alla reidentificazione dei pazienti.

Nel caso dell'apprendimento automatico, usiamo l'esempio della diagnostica, in cui i modelli vengono addestrati sulle immagini dei pazienti per rilevare cambiamenti maligni nei loro tessuti e individuare, ad esempio, gli stadi iniziali del cancro. Questa è letteralmente un'applicazione salvavita dell'apprendimento automatico. I modelli vengono formati localmente a livello ospedaliero utilizzando immagini locali ed etichette assegnate da radiologi professionisti, quindi avviene l'aggregazione che combina tutti questi modelli locali in un unico modello più generalizzato. Il processo si ripete per decine o centinaia di round per migliorare le prestazioni del modello.

Fig. 1. Apprendimento federato in azione, condivisione di aggiornamenti del modello, non di dati.

La ricompensa per ogni singolo ospedale è che trarrà vantaggio da un modello meglio addestrato in grado di rilevare la malattia nei futuri pazienti con maggiore probabilità. È una situazione vantaggiosa per tutti, soprattutto per i pazienti.

Naturalmente esiste una varietà di topologie di rete federate e strategie di aggregazione dei modelli, ma per il bene di questo articolo abbiamo cercato di concentrarci sull'esempio tipico.

Si crede questo non vengono utilizzate grandi quantità di dati clinici a causa di un (giustificato) riluttanza dei proprietari dei dati a condividere i propri dati con i partner.

L’apprendimento federato è una strategia chiave per costruire quella fiducia supportata dalla tecnologia, non solo sui contratti e sulla fiducia nell’etica di particolari dipendenti e partner delle organizzazioni che formano consorzi.

Innanzitutto, i dati rimangono alla fonte, non lasciano mai l’ospedale e non vengono centralizzati in un unico luogo potenzialmente vulnerabile. L'approccio federato significa che non esistono copie esterne dei dati che potrebbero essere difficili da rimuovere una volta completata la ricerca.

La tecnologia blocca l’accesso ai dati grezzi a causa di molteplici tecniche che seguono il principio della difesa in profondità. Ciascuno di essi riduce al minimo il rischio di esposizione dei dati e di reidentificazione del paziente di decine o migliaia di volte. Tutto per rendere economicamente impraticabile la scoperta o la ricostruzione dei dati grezzi.

I dati vengono innanzitutto ridotti al minimo per esporre solo le proprietà necessarie agli agenti di machine learning in esecuzione localmente, i dati PII vengono eliminati e utilizziamo anche tecniche di anonimizzazione.

Quindi i nodi locali proteggono i dati locali dalla cosiddetta minaccia dei data scientist troppo curiosi consentendo solo l’esecuzione del codice e delle operazioni accettate dai proprietari dei dati locali sui loro dati. Ad esempio, il codice di addestramento del modello distribuito localmente presso l'ospedale come pacchetto è consentito o meno dai proprietari dei dati locali. I data scientist remoti non possono semplicemente inviare codice ai nodi remoti poiché ciò consentirebbe loro, ad esempio, di restituire dati di livello grezzo. Ciò richiede un nuovo modo di pensare decentralizzato per abbracciare mentalità e tecnologie diverse per la gestione dei permessi, un argomento interessante che tratteremo un’altra volta.

Supponendo che tutti questi livelli di protezione siano presenti, c'è ancora preoccupazione relativa alla sicurezza dei pesi dei modelli stessi.

C'è una crescente preoccupazione nella comunità dell'intelligenza artificiale riguardo ai modelli di apprendimento automatico come la super compressione dei dati, non così nera come considerata in precedenza, e che rivelano più informazioni sui dati sottostanti di quanto si pensasse in precedenza.

Ciò significa che con sufficienti competenze, tempo, impegno e hardware potente un avversario motivato può provare a ricostruire i dati originali, o almeno dimostrare con alta probabilità che un dato paziente faceva parte del gruppo utilizzato per addestrare il modello (Membership Inference Attacco (MIA)). Altro tipi di attacchi possibili quali l’estrazione, la ricostruzione e l’evasione.

A peggiorare le cose, i progressi dell’intelligenza artificiale generativa che tutti ammiriamo e di cui beneficiamo, offrono tecniche nuove e più efficaci per la ricostruzione delle immagini (per esempio, la scansione polmonare dei pazienti). Le stesse idee utilizzate da tutti noi per generare immagini su richiesta possono essere utilizzate dagli avversari per ricostruire le immagini originali dalle macchine per la scansione MRI/CT. Altre modalità di dati come dati tabellaritesto, audio e video possono ora essere ricostruiti utilizzando la gen AI.

Gli algoritmi di privacy differenziale (DP) promettono di scambiare parte dell'accuratezza del modello con una resilienza molto migliorata contro gli attacchi di inferenza. Questo è un altro compromesso tra privacy e utilità che vale la pena considerare.

Privacy differenziale significa in pratica aggiungere un tipo molto speciale di rumore e di ritaglio, che in cambio si tradurrà in a ottimo rapporto tra guadagno di privacy e perdita di precisione.

Può essere semplice quanto il rumore gaussiano meno efficace, ma oggigiorno abbracciamo lo sviluppo di algoritmi molto più sofisticati come la Sparse Vector Technique (SVT), la libreria Opacus come implementazione pratica della discesa del gradiente stocastico differenzialmente privata (DP-SGD), oltre al venerabile laplaciano librerie basate sul rumore (ad esempio PyDP).

Fig. 2. Privacy differenziale sul dispositivo che tutti usiamo continuamente.

E, a proposito, tutti noi traiamo beneficio da questa tecnica senza nemmeno renderci conto che esiste, e sta accadendo proprio ora. I nostri dati di telemetria da dispositivi mobili (Apple iOS, GoogleAndroid) e sistemi operativi desktop (Microsoft Windows) utilizza la privacy differenziale e algoritmi di apprendimento federato per addestrare i modelli senza inviare dati grezzi dai nostri dispositivi. Ed è in circolazione ormai da anni.

Ora, c'è una crescente adozione per altri casi d'uso, incluso il nostro caso di apprendimento federato preferito, con relativamente pochi partecipanti con grandi quantità di dati in consorzi appositamente costituiti di diverse organizzazioni e aziende.

La privacy differenziale non è specifica dell'apprendimento federato. Tuttavia, esistono diverse strategie di applicazione della DP negli scenari di apprendimento federato, nonché una diversa selezione di algoritmi. Algoritmi diversi che funzionano meglio per le configurazioni di apprendimento federato, diversi per la privacy dei dati locale (LDP) e l'elaborazione centralizzata dei dati.

Nel contesto dell’apprendimento federato prevediamo un calo nell’accuratezza del modello dopo l’applicazione della privacy differenziale, ma ci aspettiamo comunque (e in una certa misura si spera) che il modello funzioni meglio rispetto ai modelli locali senza aggregazione federata. Quindi il modello federato dovrebbe comunque mantenere il suo vantaggio nonostante l'aggiunta di rumore e ritaglio (DP).

Fig. 3. Cosa possiamo aspettarci sulla base dei documenti conosciuti e delle nostre esperienze.

La privacy differenziale può essere applicata già alla fonte dei dati (Local Differential Privacy (LDP)).

Fig. 4, diversi ambiti in cui la DP può essere applicata per migliorare la protezione dei dati

Esistono anche casi di apprendimento federato all’interno di una rete di partner che hanno tutti i diritti di accesso ai dati e sono meno preoccupati per i livelli di protezione dei dati, quindi potrebbe non esserci alcuna DP.

D'altra parte, quando il modello verrà condiviso con il mondo esterno o venduto commercialmente, potrebbe essere una buona idea applicare la DP anche per il modello globale.

Nel team Federated Open Science di Roche, NVIDIA Flare è il nostro strumento preferito per l'apprendimento federato in quanto è il framework federato open source più maturo sul mercato. Collaboriamo anche con il team NVIDIA su sviluppo futuro di NVIDIA Flare e siamo lieti di contribuire a migliorare una soluzione già eccezionale per l'apprendimento federato.

Abbiamo testato tre diversi algoritmi DP:

Abbiamo applicato la privacy differenziale per i modelli utilizzando diverse strategie:

  • Ogni round di apprendimento federato
  • Solo il primo turno (di allenamento federato)
  • Ogni ennesimo round (di allenamento federato)

per tre diversi casi (set di dati e algoritmi):

  • Set di dati FLamby Tiny IXI
  • Classificazione della densità del seno
  • Classificazione di Higgs

Quindi, abbiamo provato tre dimensioni: algoritmo, strategia e set di dati (caso).

I risultati sono conformi alle nostre aspettative di un degrado dell'accuratezza del modello maggiore con budget per la privacy inferiori (come previsto).

(Fonte del set di dati: https://owkin.github.io/FLamby/fed_ixi.html)

Fig. 5. Prestazioni dei modelli senza DP

Fig. 6. Prestazioni del modello con DP al primo turno

Fig. 7. SVT applicato ogni due cicli (con soglia decrescente)

Osserviamo un miglioramento significativo della precisione con SVT applicato al primo round rispetto al filtro SVT applicato a ogni round.

(Fonte del set di dati Classificazione della densità del seno utilizzando MONAI | Kaggle)

Fig. 8. Prestazioni dei modelli senza DP

Fig. 9. DP applicata al primo turno

Osserviamo una perdita di precisione mediocre dopo l'applicazione di un filtro di rumore gaussiano.

Questo set di dati era il più problematico e sensibile al DP (grave perdita di precisione, imprevedibilità).

(Fonte del set di dati HIGGS: repository di apprendimento automatico dell'UCI)

Fig. 10. Prestazioni dei modelli con valore percentile 95.

Fig. 11. Valore percentile 50.

Osserviamo una perdita di precisione lieve e accettabile relativa alla DP.

Una lezione importante appresa è che i risultati differenziali sulla privacy sono molto sensibili ai parametri di un dato algoritmo DP ed è difficile regolarlo per evitare il collasso totale dell'accuratezza del modello.

Inoltre, abbiamo provato una sorta di ansia, basata sull’impressione di non sapere realmente quanta protezione della privacy abbiamo guadagnato a quale prezzo. Abbiamo visto solo il lato “costi” (degrado della precisione).

Abbiamo dovuto fare affidamento in larga misura sulla letteratura conosciuta, che afferma e dimostra che anche piccole quantità di rumore DP aiutano a proteggere i dati.

Come ingegneri, ci piacerebbe vedere un qualche tipo di misura automatica che dimostri quanta privacy abbiamo guadagnato a fronte di quanta precisione persa, e forse anche una sorta di regolazione AutoDP. Sembra essere molto, molto lontano dallo stato attuale della tecnologia e della conoscenza.

Quindi abbiamo applicato i misuratori della privacy per vedere se c'è una differenza visibile tra i modelli senza DP rispetto ai modelli con DP e abbiamo osservato i cambiamenti nella curva, ma è davvero difficile quantificare quanto abbiamo guadagnato.

Alcuni algoritmi non funzionavano affatto, altri richiedevano molti tentativi per ottimizzarli adeguatamente per fornire risultati validi. Non esistevano indicazioni chiare su come ottimizzare i diversi parametri per particolari set di dati e modelli ML.

Quindi la nostra opinione attuale è che DP per FL sia difficile, ma totalmente fattibile. Richiede molte iterazioni e cicli di tentativi ed errori per ottenere risultati accettabili credendo nel contempo in miglioramenti della privacy di ordini di grandezza basati sulla fiducia negli algoritmi.

L'apprendimento federato è un'ottima opzione per migliorare i risultati dei pazienti e l'efficacia del trattamento grazie ai modelli ML migliorati, preservando al tempo stesso i dati dei pazienti.

Ma la protezione dei dati non è mai priva di prezzo e la privacy differenziale per l’apprendimento federato è un perfetto esempio di questo compromesso.

È bello vedere miglioramenti negli algoritmi di privacy differenziale per scenari di apprendimento federati per ridurre al minimo l'impatto sulla precisione massimizzando al tempo stesso la resilienza dei modelli contro gli attacchi di inferenza.

Come per tutti i compromessi, le decisioni devono essere prese bilanciando l'utilità dei modelli per le applicazioni pratiche con i rischi di fuga e ricostruzione dei dati.

Ed è qui che crescono le nostre aspettative sui misuratori della privacy di sapere con maggiore precisione cosa stiamo vendendo e cosa stiamo “comprando”, qual è il rapporto di cambio.

Il panorama è dinamico, con strumenti migliori disponibili sia per coloro che desiderano proteggere meglio i propri dati sia per coloro che sono motivati ​​a violare tali regole ed esporre dati sensibili.

Invitiamo inoltre altre menti federate a sviluppare e contribuire allo sforzo collettivo volto a promuovere la privacy dei dati dei pazienti per l'apprendimento federato.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *