La creazione di un'intelligenza artificiale etica inizia dal data team: ecco perché | di Barr Moses | Marzo 2024 | Intelligenza-Artificiale

GenAI è un pantano etico. Quale responsabilità hanno i data leader nel percorrerlo? In questo articolo, consideriamo la necessità di un’IA etica e perché l’etica dei dati è etica dell’IA.

Immagine gentilmente concessa da aniqpixel su Shutterstock.

Quando si parla di corsa tecnologica, muoversi rapidamente è sempre stato il segno distintivo del successo futuro.

Sfortunatamente, muoversi troppo velocemente significa anche rischiare di trascurare i pericoli che si nascondono dietro le quinte.

È una storia vecchia come il tempo. Un minuto prima stai sequenziando i geni delle zanzare preistoriche, il minuto dopo stai aprendo un parco a tema dinosauri e progettando il primo hyperloop fallito al mondo (ma certamente non l'ultimo).

Quando si parla di GenAI, la vita imita l’arte.

Non importa quanto vorremmo considerare l’intelligenza artificiale una quantità nota, la dura realtà è questa nemmeno i creatori di questa tecnologia sono del tutto sicuri di come funzioni.

Dopo molteplici intoppi di intelligenza artificiale di alto profilo da artisti del calibro di Sanità Unita, Googlee anche il Tribunali canadesiè tempo di considerare dove abbiamo sbagliato.

Ora, per essere chiari, credo che la GenAI (e l’intelligenza artificiale più in generale) lo farà infine essere fondamentale per ogni settore, dall'accelerazione dei flussi di lavoro di progettazione alla risposta alle domande più comuni. Tuttavia, per realizzare il potenziale valore dell’intelligenza artificiale, dovremo prima iniziare a pensare in modo critico Come sviluppiamo applicazioni IA e il ruolo che i team di dati svolgono in esse.

In questo post esamineremo tre preoccupazioni etiche nell'intelligenza artificiale, il modo in cui sono coinvolti i team di dati e cosa puoi fare oggi come leader dei dati per fornire un'IA più etica e affidabile per domani.

Mentre stavo chiacchierando con il mio collega Shane Murray, ex vicepresidente senior di Data & Insights del New York Times, ha condiviso una delle prime volte in cui si è trovato di fronte a un vero dilemma etico. Durante lo sviluppo di un modello ML per incentivi finanziari presso il New York Times, è stata sollevata la discussione sulle implicazioni etiche di un modello di machine learning in grado di determinare sconti.

A prima vista, un modello ML per i codici sconto sembrava una richiesta piuttosto innocua, tutto sommato. Ma per quanto potesse sembrare innocente automatizzare l’eliminazione di alcuni codici sconto, l’atto di rimuovere l’empatia umana da quel problema aziendale ha creato tutti i tipi di considerazioni etiche per il team.

La corsa all’automazione di attività semplici ma tradizionalmente umane sembra una decisione esclusivamente pragmatica: un semplice binario tra migliorare o non migliorare l’efficienza. Ma nel momento in cui rimuovi il giudizio umano da qualsiasi equazione, indipendentemente dal fatto che sia coinvolta o meno un’intelligenza artificiale, perdi anche la capacità di gestire direttamente l’impatto umano di quel processo.

Questo è un vero problema.

Quando si parla di sviluppo dell’intelligenza artificiale, ci sono tre considerazioni etiche principali:

1. Distorsione del modello

Questo arriva al cuore della nostra discussione al New York Times. Il modello stesso avrà conseguenze indesiderate che potrebbero avvantaggiare o svantaggiare una persona rispetto a un’altra?

La sfida qui è progettare la tua GenAI in modo tale che, a parità di tutte le altre considerazioni, fornisca costantemente risultati equi e imparziali per ogni interazione.

2. Utilizzo dell'IA

Probabilmente la più esistenziale – e interessante – delle considerazioni etiche sull’intelligenza artificiale è la comprensione come verrà utilizzata la tecnologia e quali potrebbero essere le implicazioni di tale caso d’uso per un’azienda o una società più in generale.

Questa intelligenza artificiale è stata progettata per uno scopo etico? Il suo utilizzo danneggerà direttamente o indirettamente qualsiasi persona o gruppo di persone? E, in definitiva, questo modello fornirà un bene netto nel lungo termine?

Come è stato definito in modo così toccante dal dottor Ian Malcolm nel primo atto di Jurassic Park, solo perché puoi costruire qualcosa non significa che dovresti.

3. Responsabilità dei dati

E infine, la preoccupazione più importante per i data team (e anche quella su cui trascorrerò la maggior parte del mio tempo in questo pezzo): in che modo i dati stessi incidono sulla capacità di un'intelligenza artificiale di essere costruiti e sfruttati in modo responsabile?

Questa considerazione riguarda la comprensione di quali dati stiamo utilizzando, in quali circostanze possono essere utilizzati in modo sicuro e quali rischi sono associati ad essi.

Ad esempio, sappiamo da dove provengono i dati e come sono stati acquisiti? Ci sono problemi di privacy con i dati che alimentano un determinato modello? Stiamo sfruttando dati personali che mettono le persone a rischio eccessivo di danni?

È sicuro basarsi su un LLM closed source quando non sai su quali dati è stato addestrato?

E, come evidenziato in la causa intentata dal New York Times contro OpenAI – abbiamo il diritto di utilizzare questi dati in primo luogo?

Questo è anche il luogo in cui qualità dei nostri dati entra in gioco. Possiamo fidarci dell’affidabilità dei dati che alimentano un dato modello? Quali sono le potenziali conseguenze dei problemi di qualità se viene consentito loro di raggiungere la produzione di intelligenza artificiale?

Quindi, ora che abbiamo esaminato alcune di queste preoccupazioni etiche da 30.000 piedi, consideriamo la responsabilità del data team in tutto questo.

Di tutte le considerazioni etiche sull'intelligenza artificiale legate ai data team, la più saliente è di gran lunga la questione responsabilità dei dati.

Allo stesso modo in cui il GDPR ha costretto i team aziendali e quelli che si occupano dei dati a lavorare insieme per ripensare il modo in cui i dati venivano raccolti e utilizzati, GenAI costringerà le aziende a ripensare quali flussi di lavoro possono (e non possono) essere automatizzati.

Sebbene noi, come team di dati, abbiamo assolutamente la responsabilità di cercare di intervenire nella costruzione di qualsiasi modello di intelligenza artificiale, non possiamo influenzare direttamente il risultato della sua progettazione. Tuttavia, escludendo i dati errati da quel modello, possiamo fare molto per mitigare i rischi posti da questi difetti di progettazione.

E se il modello stesso è al di fuori del nostro luogo di controllo, le questioni esistenziali di Potere E Dovrebbe sono su un pianeta completamente diverso. Ancora una volta, abbiamo l'obbligo di segnalare le insidie laddove le vediamo, ma alla fine, il razzo decollerà, indipendentemente dal fatto che saliamo a bordo o meno.
La cosa più importante che possiamo fare è assicurarci che il razzo decolli in sicurezza. (O rubare la fusoliera.)

Quindi, come in tutte le aree della vita dell'ingegnere dei dati, vogliamo dedicare il nostro tempo e i nostri sforzi è dove possiamo avere il maggiore impatto diretto per il maggior numero di persone. E questa opportunità risiede nei dati stessi.

Sembra quasi troppo ovvio dirlo, ma lo dirò comunque:

I team dati devono assumersi la responsabilità di come i dati vengono sfruttati nei modelli di intelligenza artificiale perché, francamente, sono l’unico team che può farlo. Naturalmente, ci sono team di conformità, team di sicurezza e persino team legali che saranno in difficoltà quando l’etica viene ignorata. Ma non importa quanta responsabilità possa essere condivisa, alla fine quei team non capiranno mai i dati allo stesso livello del team dati.

Immagina che il tuo team di ingegneri del software crei un'app utilizzando un LLM di terze parti di OpenAI o Anthropic, ma senza rendersi conto che stai monitorando e archiviando i dati sulla posizione, oltre ai dati di cui hanno effettivamente bisogno per la loro applicazione, sfruttare un intero database per alimentare il modello. Con le giuste carenze logiche, un malintenzionato potrebbe facilmente organizzare un tentativo per rintracciare qualsiasi individuo utilizzando i dati archiviati in quel set di dati. (Questa è esattamente la tensione tra LLM open source e closed source.)

Oppure diciamo che il team del software conosce i dati sulla posizione ma non si rende conto che i dati sulla posizione potrebbero effettivamente essere approssimativi. Potrebbero utilizzare tali dati sulla posizione per creare una tecnologia di mappatura AI che conduca involontariamente un sedicenne in un vicolo buio di notte invece che al Pizza Hut in fondo all'isolato. Naturalmente, questo tipo di errore non è intenzionale, ma sottolinea i rischi non intenzionali inerenti al modo in cui vengono sfruttati i dati.

Questi e altri esempi evidenziano il ruolo del data team come custode quando si tratta di intelligenza artificiale etica.

Nella maggior parte dei casi, i team di dati sono abituati a gestire dati approssimativi e proxy per far funzionare i loro modelli. Ma quando si tratta dei dati che alimentano un modello di intelligenza artificiale, in realtà è necessario un livello di convalida molto più elevato.

Per colmare efficacemente il divario a favore dei consumatori, i data team dovranno dare uno sguardo intenzionale sia alle loro pratiche sui dati sia al modo in cui tali pratiche si riferiscono alla loro organizzazione in generale.

Mentre consideriamo come mitigare i rischi dell’intelligenza artificiale, di seguito sono riportati i 3 passaggi che i team di dati devono intraprendere per spostare l’intelligenza artificiale verso un futuro più etico.

I team dati non sono struzzi: non possono nascondere la testa sotto la sabbia e sperare che il problema scompaia. Allo stesso modo in cui i team dati hanno combattuto per un posto al tavolo della leadership, i team dati devono difendere il loro posto al tavolo dell’intelligenza artificiale.

Come ogni esercitazione antincendio sulla qualità dei dati, non è sufficiente gettarsi nella mischia dopo che la terra è già bruciata. Quando abbiamo a che fare con il tipo di rischi esistenziali così inerenti alla GenAI, è più importante che mai essere proattivi su come affrontiamo la nostra responsabilità personale.

E se non ti lasciano sedere al tavolo, allora hai la responsabilità di educare dall’esterno. Fai tutto ciò che è in tuo potere per fornire eccellenti soluzioni di discovery, governance e qualità dei dati per fornire ai team al timone le informazioni necessarie per prendere decisioni responsabili sui dati. Insegna loro cosa usare, quando usarlo e i rischi derivanti dall'utilizzo di dati di terze parti che non possono essere convalidati dai protocolli interni del tuo team.

Questa non è solo una questione aziendale. Come possono testimoniare United Healthcare e la provincia della Columbia Britannica, in molti casi sono in gioco le vite – e i mezzi di sostentamento – di persone reali. Quindi, assicuriamoci di operare con quella prospettiva.

Parliamo spesso di retrieval augmented generation (RAG) come risorsa per creare valore da un'intelligenza artificiale. Ma è anche altrettanto una risorsa per salvaguardare il modo in cui l’intelligenza artificiale verrà costruita e utilizzata.

Immagina, ad esempio, che un modello acceda ai dati privati dei clienti per alimentare un'app di chat rivolta al consumatore. Il prompt dell'utente giusto potrebbe far uscire allo scoperto tutti i tipi di informazioni personali critiche affinché i malintenzionati possano coglierle. Pertanto, la capacità di convalidare e controllare la provenienza dei dati è fondamentale per salvaguardare l’integrità di quel prodotto di intelligenza artificiale.

I team di dati competenti mitigano gran parte di questo rischio sfruttando metodologie come RAG per curare attentamente dati conformi, più sicuri e più appropriati per il modello.

Adottare un approccio RAG allo sviluppo dell’intelligenza artificiale aiuta anche a ridurre al minimo il rischio associato all’acquisizione troppo dati, come indicato nel nostro esempio di dati sulla posizione.

Allora, come appare in pratica? Supponiamo che tu sia una società di media come Netflix che deve sfruttare i dati sui contenuti proprietari con un certo livello di dati sui clienti per creare un modello di consigli personalizzato. Una volta definiti quali sono i dati specifici (e limitati) per quel caso d'uso, sarai in grado di definire in modo più efficace:

Chi è responsabile del mantenimento e della convalida di tali dati,
In quali circostanze i dati possono essere utilizzati in sicurezza,
E chi è in definitiva il più adatto a costruire e mantenere quel prodotto di intelligenza artificiale nel tempo.

Strumenti come la derivazione dei dati possono anche essere utili in questo caso consentendo al tuo team di convalidare rapidamente le origini dei tuoi dati e dove vengono utilizzati (o utilizzati in modo improprio) nei prodotti AI del tuo team nel tempo.

Quando parliamo di prodotti dati, spesso diciamo “garbage in, garbage out”, ma nel caso di GenAI, questo adagio è un pelo corto. In realtà, quando la spazzatura entra in un modello di intelligenza artificiale, non è solo spazzatura che ne esce: è spazzatura oltre a conseguenze umane reali.

Ecco perché, per quanto tu abbia bisogno di un'architettura RAG per controllare i dati inseriti nei tuoi modelli, hai bisogno di robuste osservabilità dei dati che si collega a database vettoriali come Pigna per garantire che i dati siano effettivamente puliti, sicuri e affidabili.

Una delle lamentele più comuni che ho sentito dai clienti che hanno iniziato con l'intelligenza artificiale è che perseguire un'intelligenza artificiale pronta per la produzione è che se non si monitora attivamente l'inserimento di indici nella pipeline di dati vettoriali, è quasi impossibile per verificare l’attendibilità dei dati.

Nella maggior parte dei casi, l'unico modo in cui gli ingegneri dei dati e dell'intelligenza artificiale sapranno che qualcosa è andato storto con i dati è quando il modello fornisce una risposta tempestiva e errata: a quel punto è già troppo tardi.

La necessità di una maggiore affidabilità e fiducia dei dati è la stessa sfida che ha ispirato il nostro team a creare la categoria osservabilità dei dati nel 2019.

Oggi, mentre l’intelligenza artificiale promette di stravolgere molti dei processi e dei sistemi su cui facciamo affidamento quotidianamente, le sfide – e, soprattutto, le implicazioni etiche – della qualità dei dati stanno diventando ancora più terribili. .

Fonte: towardsdatascience.com