Reddit fa causa antropico per raschiare i dati degli utenti per formare AI | Intelligenza-Artificiale

Reddit sta portando in tribunale antropico, accusando la società di intelligenza artificiale di estrarre i contenuti degli utenti dalla piattaforma senza permesso e di usarlo per addestrare i suoi modelli Claude AI. IL causaArchiviato in un tribunale statale della California, sostenute che Antropic ha fatto oltre 100.000 richieste non autorizzate ai server di Reddit, anche dopo aver dichiarato pubblicamente che si era fermato.

Il caso è costruito attorno all'affermazione di Reddit secondo cui Antropico ha ignorato sia le restrizioni tecniche che i suoi termini di servizio. Secondo il reclamo, antropico ha bypassato le protezioni come il file robots.txt del sito, che dovrebbe impedire la raschiatura automatizzata. Reddit accusa anche l'antropico di violazione della privacy degli utenti raccogliendo e utilizzando post personali, inclusi i contenuti eliminati, per scopi commerciali.

Reddit afferma che offre accesso strutturato ai suoi dati attraverso accordi di licenza con aziende come Openai e Google. Queste offerte includono condizioni sull'uso del contenuto, le salvaguardie alla privacy e la cancellazione dei dati. Secondo la piattaforma, Antropic ha rifiutato di perseguire un accordo formale e invece ha raschiato direttamente il sito, evitando le spese di licenza e saltando le protezioni degli utenti nel processo.

La causa mette in evidenza un documento di ricerca del 2021 co-autore dall'antropico CEO Dario Amodei, che indicava Reddit come una ricca fonte di dati di formazione per i modelli linguistici. Reddit includeva anche esempi in cui Claude sembrava riprodurre i post di Reddit quasi Word per Word, persino facendo eco ai post che erano stati eliminati dagli utenti. Ciò, dice la società, mostra che Antropic non è riuscito a mettere in atto Guardrails per rispettare la privacy degli utenti o i takedown dei contenuti.

Reddit sta cercando danni finanziari e un ordine del tribunale che impedirebbe all'antropico di utilizzare i contenuti Reddit nelle versioni future dei suoi modelli.

Antropico ha risposto, sostenendo che non è d'accordo con le affermazioni e i piani per difendersi. Tuttavia, questa non è la prima volta che la società viene sottoposta a pressioni giuridiche su come raccoglie i dati di formazione.

Nell'agosto 2024, un gruppo di autori ha presentato un causa legale accusando antropico di usare il loro lavoro protetto da copyright senza permesso. Hanno affermato che l'azienda ha allenato i suoi modelli su libri e altri materiali scritti senza il loro consenso e quindi ha richiesto un risarcimento per l'utilizzo del loro contenuto.

UN Caso simile Dall'ottobre 2023 ha coinvolto Universal Music Group e altri editori. Hanno citato in giudizio antropici su affermazioni che il suo chatbot di Claude stava riproducendo testi di canzoni protetti da copyright. Le compagnie musicali hanno sostenuto che questo uso ha violato i loro diritti di proprietà intellettuale e hanno chiesto alla Corte di bloccare l'ulteriore uso dei loro testi.

A differenza di quelle cause legali, il caso di Reddit non si concentra sul copyright. Invece, è incentrato sulla violazione del contratto e la concorrenza sleale. L'argomento di Reddit è che i dati prelevati dal suo sito non sono solo pubblici: sono governati da termini che antropici hanno consapevolmente ignorato. Tale distinzione potrebbe rendere il caso importante per altre piattaforme che ospitano i contenuti degli utenti ma che desiderano controllare il modo in cui viene utilizzato nei sistemi di intelligenza artificiale commerciale.

Reddit accusa anche l'antropico di fuorviare il pubblico. La causa indica le dichiarazioni pubbliche da antropiche che sostengono di rispettare le regole e i valori della privacy degli utenti, che secondo Reddit è stato contraddetto dalle azioni della società.

“Da parte sua, nonostante ciò che dice il suo materiale di marketing, antropico non si preoccupa delle regole o degli utenti di Reddit”, si legge nella causa. “Crede che abbia il diritto di prendere qualsiasi contenuto che desideri e usa quel contenuto, tuttavia lo desideri, con impunità.”

Dopo aver intentato la causa, le azioni di Reddit sono aumentate di quasi il 67%, un segno che gli investitori hanno sostenuto la mossa. Il risultato del caso potrebbe stabilire un precedente per il modo in cui le aziende trovano un equilibrio tra contenuti aperti su Internet e i diritti degli utenti e dei proprietari di contenuti.

Mentre più aziende di intelligenza artificiale si affidano a grandi volumi di dati online, le domande legali ed etiche sul raschiatura stanno diventando più difficili da ignorare. Il caso di Reddit si aggiunge al crescente elenco di cause legali che modellano il modo in cui si svolge questa prossima ondata di sviluppo di intelligenza artificiale.

(Foto di Brett Jordan)

Vedi anche: Etica nell'automazione: affrontare la distorsione e la conformità in AI

AI Expo Banner in cui i partecipanti impareranno a questioni come allucinazioni di modelli e altro ancora.

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber Security & Cloud Expo.

Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.

Fonte: www.artificialintelligence-news.com