Data Breach di ChatGPT: estrazione dei dati di addestramento | Intelligenza-Artificiale

Indice contenuti

In un’importante rivelazione, un recente documento di ricerca intitolato “Extracting Training Data from ChatGPT” ha rivelato una sorprendente vulnerabilità nel modello linguistico ampiamente utilizzato. Lo studio, condotto da un team di ricercatori, rivela che è possibile estrarre diversi megabyte di file ChatGPT dati di addestramento per soli duecento dollari, svelando una potenziale violazione dei dati di proporzioni senza precedenti.

La ricerca sottolinea che i modelli linguistici, come ChatGPT, progettati per la comprensione del linguaggio naturale, si sono formati sui dati ottenuti dall’Internet pubblica. Il documento rivela una metodologia di attacco che prevede l’interrogazione del modello, consentendo l’estrazione dei dati precisi su cui è stato sottoposto ad addestramento. Incredibilmente, i ricercatori stimano che con ulteriori investimenti finanziari, potrebbe essere possibile estrarre fino a un gigabyte del set di dati di addestramento di ChatGPT.

Questa violazione dei dati è significativa, poiché prende di mira un modello di produzione “allineato”, progettato per evitare di divulgare dati sostanziali sulla formazione. Tuttavia i ricercatori dimostrano che, attraverso un attacco sviluppato, è possibile costringere il modello a divulgare quantità significative dei suoi dati di addestramento.

Formazione sugli attacchi di estrazione dei dati e perché dovresti preoccuparti

Il gruppo di ricerca dietro questa rivelazione è stato coinvolto in progetti incentrati sull’”estrazione dei dati di addestramento” per diversi anni. L’estrazione dei dati di addestramento avviene quando un modello di machine learning, come ChatGPT, conserva aspetti casuali dei propri dati di addestramento, rendendoli suscettibili all’estrazione tramite un attacco. Questo articolo, per la prima volta, espone un attacco di estrazione dei dati di addestramento su un modello allineato in produzione: ChatGPT. Nell’immagine puoi vedere che l’e-mail e le informazioni di contatto sono condivise.

Le implicazioni di questa vulnerabilità sono di vasta portata, in particolare per chi dispone di dati sensibili o originali. Al di là delle preoccupazioni relative alle fughe di dati, il documento evidenzia il rischio che i modelli memorizzino e rigurgitino i dati di addestramento, un fattore critico per i prodotti che fanno affidamento sull’originalità.

Lo studio presenta prove del successo dell’estrazione dei dati di addestramento da ChatGPT, anche se il modello è accessibile solo tramite un’API di chat e probabilmente allineato per resistere all’estrazione dei dati. L’attacco ha identificato una vulnerabilità che aggira le garanzie sulla privacy, facendo deviare ChatGPT dal suo allineamento di precisione e ripristinando i dati di pre-addestramento.

Il team di ricerca sottolinea che l’allineamento di ChatGPT nasconde la memorizzazione, illustrando un aumento significativo della frequenza di emissione dei dati quando richiesto da un attacco specifico. Il modello, nonostante le apparenze, dimostra capacità di memorizzazione a un ritmo 150 volte superiore a quello suggerito dagli attacchi convenzionali.

Implicazioni per i modelli di test e di red-teaming

Il documento solleva preoccupazioni sull’uso diffuso di ChatGPT, con oltre un miliardo di ore di interazione. Tuttavia, l’elevata frequenza di emissione dei dati è rimasta inosservata. Le vulnerabilità latenti nei modelli linguistici, insieme alla sfida di distinguere tra modelli apparentemente sicuri e realmente sicuri, presentano sfide significative.

Le tecniche di test di memorizzazione esistenti si dimostrano insufficienti nel rivelare la capacità di memorizzazione di ChatGPT a causa della fase di allineamento che la nasconde. Ciò sottolinea la necessità di metodologie di test avanzate per garantire la sicurezza dei modelli linguistici.

Il nostro dire

La divulgazione della vulnerabilità di ChatGPT alle violazioni dei dati sottolinea l’evoluzione dell’analisi della sicurezza nei modelli di apprendimento automatico. Sono necessarie ulteriori ricerche per garantire la sicurezza di questi sistemi. Nell’era odierna guidata dalla tecnologia, la suscettibilità di ChatGPT alle violazioni dei dati è un forte promemoria delle sfide nella salvaguardia dei modelli linguistici avanzati.