Baidu impedisce a Google e Bing di estrarre contenuti per la formazione dell'intelligenza artificiale

 | Intelligenza-Artificiale

Il fornitore cinese di servizi di ricerca su Internet Baidu ha ha aggiornato il suo servizio Baike simile a Wikipedia per impedire a Google e Microsoft Bing di estrarne il contenuto.

Questa modifica è stata osservata nell'ultimo aggiornamento del file robots.txt di Baidu Baike, che nega l'accesso ai crawler di Googlebot e Bingbot.

Secondo Wayback Machine, il cambiamento è avvenuto l'8 agosto. In precedenza, ai motori di ricerca Google e Bing era consentito indicizzare il repository centrale di Baidu Baike, che comprende quasi 30 milioni di voci, sebbene alcuni sottodomini di destinazione sul sito web fossero soggetti a restrizioni.

Questa azione di Baidu avviene in un momento di crescente domanda di grandi set di dati utilizzati per addestrare modelli e applicazioni di intelligenza artificiale. Segue mosse simili da parte di altre aziende per proteggere i propri contenuti online. A luglio, Reddit ha bloccato vari motori di ricerca, ad eccezione di Google, dall'indicizzazione dei suoi post e discussioni. Google, come Redditha un accordo finanziario con Reddit per l'accesso ai dati per addestrare i suoi servizi di intelligenza artificiale.

Secondo alcune fonti, lo scorso anno Microsoft ha preso in considerazione l'idea di limitare l'accesso ai dati di ricerca su Internet per i gestori di motori di ricerca concorrenti; ciò è stato particolarmente rilevante per coloro che utilizzavano i dati per chatbot e servizi di intelligenza artificiale generativa.

Nel frattempo, la Wikipedia cinese, con i suoi 1,43 milioni di voci, rimane disponibile per i crawler dei motori di ricerca. Un sondaggio condotto dal South China Morning Post ha scoperto che le voci di Baidu Baike appaiono ancora sia nelle ricerche Bing che Google. Forse i motori di ricerca continuano a utilizzare vecchi contenuti memorizzati nella cache.

Una mossa del genere sta emergendo sullo sfondo di un mondo in cui gli sviluppatori di IA generativa stanno sempre più collaborando con gli editori di contenuti nel tentativo di accedere ai contenuti di massima qualità per i loro progetti. Ad esempio, relativamente di recente, OpenAI ha firmato un accordo con la rivista Time per accedere all'intero archivio, risalente al primissimo giorno di pubblicazione della rivista, oltre un secolo fa. Una partnership simile è stata inchiostrato con il Financial Times ad aprile.

La decisione di Baidu di limitare l'accesso ai suoi contenuti Baidu Baike per i principali motori di ricerca evidenzia la crescente importanza dei dati nell'era dell'intelligenza artificiale. Poiché le aziende investono massicciamente nello sviluppo dell'intelligenza artificiale, il valore di grandi set di dati curati è aumentato in modo significativo. Ciò ha portato a un cambiamento nel modo in cui le piattaforme online gestiscono l'accesso ai loro contenuti, con molte che scelgono di limitare o monetizzare l'accesso ai loro dati.

Con la continua evoluzione del settore dell'intelligenza artificiale, è probabile che sempre più aziende rivaluteranno le proprie politiche di condivisione dei dati, il che potrebbe portare a ulteriori cambiamenti nel modo in cui le informazioni vengono indicizzate e accessibili su Internet.

(Foto di Kelli McClintock)

Vedi anche: Google migliora l'intelligenza artificiale mobile negli smartphone Pixel 9

Vuoi saperne di più sull'intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera AI e Big Data che si svolge ad Amsterdam, California e Londra. L'evento completo è co-localizzato con altri eventi leader tra cui Conferenza sull'automazione intelligente, BloccoX, Settimana della Trasformazione DigitaleE Fiera della sicurezza informatica e del cloud.

Esplora altri prossimi eventi e webinar sulla tecnologia aziendale forniti da TechForge Qui.

Etichette: io sono, moderazione dei contenuti, Google, Microsofta, motore di ricerca

Fonte: www.artificialintelligence-news.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *