Studio Claims Openai Trains Modelli AI su dati protetti da copyright | Intelligenza-Artificiale

Un nuovo studio dal Progetto di divulgazione AI ha sollevato domande sui dati che OpenII usa per formare i suoi modelli di linguaggio di grandi dimensioni (LLM). La ricerca indica che il modello GPT-4O di OpenAI dimostra un “forte riconoscimento” di dati di paywall e protetti da copyright da O'Reilly Media libri.

Il progetto di divulgazione dell'IA, guidato dal tecnologo Tim O'Reilly e dall'economista Ilan Strauss, mira a affrontare gli impatti sociali potenzialmente dannosi della commercializzazione dell'IA sostenendo un miglioramento della trasparenza aziendale e tecnologica. L'articolo di lavoro del progetto evidenzia la mancanza di divulgazione nell'IA, disegnando parallelismi con gli standard di divulgazione finanziaria e il loro ruolo nella promozione di robusti mercati dei titoli.

Lo studio ha utilizzato un set di dati assalito legalmente di 34 libri di O'Reilly Media protetti da copyright per indagare se gli LLM da OpenAI sono stati addestrati su dati protetti da copyright senza consenso. I ricercatori hanno applicato il metodo di attacco di inferenza dell'appartenenza De-COP per determinare se i modelli potessero distinguere tra testi O'Reilly autorizzati dall'uomo e versioni LLM parafrasate.

I risultati chiave del rapporto includono:

GPT-4O mostra il “forte riconoscimento” del contenuto del libro O'Reilly Paywalld, con un punteggio AUROC dell'82%. Al contrario, il precedente modello di Openai, GPT-3.5 Turbo, non mostra lo stesso livello di riconoscimento (punteggio AUROC appena sopra il 50%)

GPT-4O presenta un forte riconoscimento del contenuto di libri di O'Reilly non pubblica rispetto ai campioni accessibili al pubblico (rispettivamente 82% vs 64% di punteggi AUROC)

GPT-3.5 Turbo mostra un maggiore riconoscimento relativo dei campioni di libri O'Reilly accessibili al pubblico rispetto a quelli non pubblici (64% vs 54% di punteggi AUROC)

GPT-4O Mini, un modello più piccolo, non ha mostrato alcuna conoscenza del contenuto dei media O'Reilly pubblico o non pubblico quando è testato (AUROC circa il 50%)

I ricercatori suggeriscono che potrebbero essersi verificate violazioni dell'accesso Sussurro Database, come tutti i libri O'Reilly testati sono stati trovati lì. Riconoscono inoltre che gli LLM più recenti hanno una migliore capacità di distinguere tra linguaggio di generazione umana e generata dalla macchina, che non riduce la capacità del metodo di classificare i dati.

Lo studio evidenzia il potenziale di “pregiudizio temporale” nei risultati, a causa dei cambiamenti linguistici nel tempo. Per spiegare questo, i ricercatori hanno testato due modelli (GPT-4O e GPT-4O Mini) si sono formati sui dati dello stesso periodo.

Il rapporto rileva che sebbene l'evidenza sia specifica per Openai e O'Reilly Media Books, probabilmente riflette una questione sistemica sull'uso di dati protetti da copyright. Sostiene che l'utilizzo dei dati di formazione non compensazione potrebbe portare a un calo della qualità e della diversità dei contenuti di Internet, poiché i flussi di entrate per la creazione di contenuti professionali diminuiscono.

Il progetto di divulgazione dell'IA sottolinea la necessità di una più forte responsabilità nei processi di pre-allenamento del modello delle società AI. Suggeriscono che le disposizioni di responsabilità che incentivano una migliore trasparenza aziendale nella divulgazione della provenienza dei dati possano essere un passo importante per facilitare i mercati commerciali per la formazione di licenze e remunerazioni dei dati.

L'AT ACT di I Requisiti di divulgazione potrebbe aiutare a innescare un ciclo positivo di divulgazione-standard se correttamente specificato e applicato. Garantire che i titolari di PI sappiano quando il loro lavoro è stato utilizzato nella formazione del modello è visto come un passo cruciale verso la creazione di mercati di intelligenza artificiale per i dati del creatore di contenuti.

Nonostante le prove che le aziende di intelligenza artificiale potrebbero ottenere dati illegalmente per la formazione del modello, sta emergendo un mercato in cui gli sviluppatori di modelli di intelligenza artificiale Paga i contenuti tramite offerte di licenze. Aziende come Definito.ai Facilitare l'acquisto di dati di formazione, ottenere il consenso dai fornitori di dati e eliminare informazioni di identificazione personale.

Il rapporto si conclude affermando che utilizzando 34 libri di media O'Reilly Media, lo studio fornisce prove empiriche che Openi probabilmente ha addestrato GPT-4O su dati non pubblici e protetti da copyright.

(Immagine di Sergei Tokmakov)

Vedi anche: Antropico fornisce approfondimenti sulla “Biologia AI” di Claude

Banner AI e Big Data Expo, uno spettacolo in cui i partecipanti sentiranno di più su questioni come Openai presumibilmente utilizzando dati protetti da copyright per addestrare i suoi nuovi modelli.

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber Security & Cloud Expo.

Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.

Fonte: www.artificialintelligence-news.com