Meta accusato di utilizzare dati piratati per lo sviluppo dell'intelligenza artificiale | Intelligenza-Artificiale

Indice contenuti

Querelanti nel caso di Kadrey et al. contro Meta hanno depositato una mozione sostenendo che l'azienda ha utilizzato consapevolmente opere protette da copyright nello sviluppo dei suoi modelli di intelligenza artificiale.

I querelanti, tra cui l'autore Richard Kadrey, hanno depositato la loro “Risposta a sostegno della mozione dei querelanti per il permesso di presentare il terzo reclamo consolidato modificato” presso il tribunale distrettuale degli Stati Uniti nel distretto settentrionale della California.

L'istanza accusa Meta di effettuare sistematicamente torrenting e di rimuovere informazioni sulla gestione del copyright (CMI) da set di dati piratati, compresi i lavori della famigerata libreria ombra LibGen.

Secondo i documenti recentemente presentati alla corte, le prove rivelano pratiche altamente incriminanti che coinvolgono gli alti dirigenti di Meta. I querelanti sostengono che il CEO di Meta, Mark Zuckerberg, abbia dato l'approvazione esplicita all'uso del set di dati LibGen, nonostante le preoccupazioni interne sollevate dai dirigenti dell'azienda legati all'intelligenza artificiale.

Una nota del dicembre 2024 proveniente da discussioni interne a Meta riconosceva LibGen come “un set di dati che sappiamo essere piratato”, con dibattiti sorti sulle implicazioni etiche e legali dell'utilizzo di tali materiali. I documenti hanno anche rivelato che i migliori ingegneri esitavano a scaricare i set di dati tramite torrent, citando preoccupazioni sull'utilizzo di laptop aziendali per attività potenzialmente illegali.

Inoltre, le comunicazioni interne suggeriscono che dopo aver acquisito il set di dati LibGen, Meta ha rimosso CMI dalle opere protette da copyright contenute all'interno, una pratica che i querelanti evidenziano come centrale nelle denunce di violazione del copyright.

Secondo la deposizione di Michael Clark, un rappresentante aziendale di Meta, la società ha implementato script progettati per rimuovere qualsiasi informazione che identifichi queste opere come protette da copyright, comprese parole chiave come “copyright”, “riconoscimenti” o righe comunemente utilizzate in tali testi. Clark ha attestato che questa pratica è stata eseguita intenzionalmente per preparare il set di dati per l'addestramento dei modelli di intelligenza artificiale dei lama di Meta.

“Non mi sembra giusto”

Le accuse contro Meta dipingono il ritratto di un'azienda che partecipa consapevolmente a un diffuso schema di pirateria facilitato attraverso il torrenting.

Secondo una serie di e-mail incluse come reperti, gli ingegneri di Meta hanno espresso preoccupazione per la modalità di torrenting di set di dati piratati dall'interno degli spazi aziendali. Un ingegnere ha osservato che “il torrenting da un laptop aziendale (di proprietà di Meta) non sembra corretto”, ma nonostante l'esitazione, ha avuto luogo il rapido download e distribuzione – o “semina” – dei dati piratati.

Il consulente legale dei querelanti ha affermato che ancora nel gennaio 2024 Meta aveva “già scaricato e distribuito dati tramite torrent da LibGen”. Inoltre, i registri mostrano che centinaia di documenti correlati furono inizialmente ottenuti da Meta mesi prima ma furono nascosti durante i primi processi di scoperta. I querelanti sostengono che questa divulgazione ritardata equivale a tentativi in malafede da parte di Meta di ostacolare l'accesso a prove vitali.

Durante una deposizione del 17 dicembre 2024, lo stesso Zuckerberg avrebbe ammesso che tali attività avrebbero sollevato “molti segnali d'allarme” e affermato che “sembra una cosa negativa”, sebbene abbia fornito risposte dirette limitate riguardo alle più ampie pratiche di formazione sull'intelligenza artificiale di Meta.

Questo caso è iniziato originariamente come un'azione per violazione della proprietà intellettuale da parte di autori ed editori che denunciavano violazioni relative all'uso dell'intelligenza artificiale dei loro materiali. Tuttavia, i querelanti stanno ora cercando di aggiungere due importanti accuse alla loro causa: una violazione del Digital Millennium Copyright Act (DMCA) e una violazione del California Comprehensive Data Access and Fraud Act (CDAFA).

Ai sensi del DMCA, i querelanti affermano che Meta ha consapevolmente rimosso le protezioni del copyright per nascondere usi non autorizzati di testi protetti da copyright nei suoi modelli Llama.

Come citato nella denuncia, Meta avrebbe rimosso il CMI “per ridurre la possibilità che i modelli memorizzino questi dati” e che questa rimozione degli indicatori di gestione dei diritti abbia reso più difficile scoprire la violazione per i detentori del copyright.

Le accuse del CDAFA riguardano i metodi di Meta per ottenere il set di dati LibGen, incluso il presunto utilizzo di torrent per acquisire set di dati protetti da copyright senza autorizzazione. La documentazione interna mostra che gli ingegneri di Meta hanno discusso apertamente delle preoccupazioni che il seeding e il torrenting potrebbero rivelarsi “legalmente non accettabili”.

Il meta caso potrebbe avere un impatto sulla legislazione emergente sullo sviluppo dell’intelligenza artificiale

Al centro di questa battaglia legale in espansione c’è la crescente preoccupazione per il intersezione del diritto d'autore e l'intelligenza artificiale.

I querelanti sostengono che la rimozione delle protezioni del copyright dai set di dati testuali nega il giusto compenso ai proprietari dei copyright e consente a Meta di costruire sistemi di intelligenza artificiale come Llama sulle rovine finanziarie degli sforzi creativi di autori ed editori.

La tempistica di queste accuse emerge nel contesto di un accresciuto controllo globale sulle tecnologie di “intelligenza artificiale generativa”. Aziende come OpenAI, Google e Meta sono state tutte criticate per l'uso di dati protetti da copyright per addestrare i loro modelli. I tribunali di tutte le giurisdizioni sono attualmente alle prese con l’impatto a lungo termine dell’IA sulla gestione dei diritti, con casi potenzialmente emblematici in fase di decisione sia negli Stati Uniti che nel Regno Unito.

In questo caso particolare, i tribunali statunitensi hanno mostrato una crescente disponibilità ad ascoltare le denunce sul potenziale danno dell’intelligenza artificiale a precedenti consolidati in materia di diritto d’autore. I ricorrenti, nella loro mozione, hanno fatto riferimento Intercept Media contro OpenAIuna recente decisione di New York in cui un reclamo DMCA simile è stato consentito di procedere.

Meta continua a negare tutte le accuse nel caso e deve ancora rispondere pubblicamente alle dichiarazioni di deposizione riportate da Zuckerberg.

Indipendentemente dal fatto che i querelanti riescano o meno a ottenere questi emendamenti, gli autori di tutto il mondo devono affrontare crescenti ansie su come i loro lavori creativi vengono gestiti nel contesto dell’intelligenza artificiale. Con la legge sul copyright che fatica a tenere il passo con i progressi tecnologici, questo caso sottolinea la necessità di una guida più chiara a livello internazionale per proteggere sia i creatori che gli innovatori.

Per Meta queste affermazioni rappresentano anche un rischio reputazionale. Poiché l’intelligenza artificiale diventa il fulcro centrale della sua strategia futura, è improbabile che le accuse di dipendenza da biblioteche piratate aiutino le sue ambizioni di mantenere la leadership nel settore.

Il caso in corso di Kadrey et al. contro Meta potrebbe avere conseguenze di vasta portata per lo sviluppo di modelli di intelligenza artificiale in futuro, creando potenzialmente precedenti legali negli Stati Uniti e oltre.

(Foto di Amy Syiek)

Vedi anche: Il Regno Unito vuole dimostrare che l’intelligenza artificiale può modernizzare i servizi pubblici in modo responsabile