Chatbot presi nel fuoco incrociato (legale) | di Tea Mustac | Dicembre 2023 | Intelligenza-Artificiale

Indice contenuti

1. Scegliere un Chatbot

Per quanto semplice possa sembrare, non è una domanda banale. Le opzioni sono molteplici e includono la scelta di creare il proprio chatbot utilizzando codice open source.(1) Utilizzando una delle migliaia di API di chatbot offerte sul mercato, che ti consentono la configurazione pronta all’uso più semplice e veloce.(2) Perfezionamento del tuo chatbot basato su una di queste API.(3) Perfezionamento del tuo chatbot utilizzando vari strumenti di chatbot.(4) O semplicemente pagando qualcuno che faccia tutto per te optando per un Chatbot as a Service. (5)

La scelta di una qualsiasi di queste opzioni non è priva di effetti a catena. E questi effetti a catena includono ovviamente prestazioni e flessibilità nella configurazione del bot, ma anche le particolarità di conformarsi agli obblighi legali. Quindi, ad esempio, sviluppare il proprio bot da zero o fare affidamento esclusivamente su codice open source è sicuramente l’opzione più sicura dal punto di vista della protezione dei dati, poiché controlli tutti i dati di addestramento e i dati non fluiscono da nessun’altra parte. Tuttavia, questo non è privo di svantaggi e ci si dovrebbe buttare in questa padella solo se si hanno abbastanza risorse specializzate per mettere in funzione il tutto garantendo un certo livello di prestazioni. Al contrario, fare affidamento sulle API comporta sempre un certo livello di rischio di possibile fuga di dati. Per non parlare del fatto che fai affidamento sulle prestazioni di qualcun altro e sei almeno in prima linea responsabile anche dei suoi errori (avviso di co-titolarità GDPR). La situazione ovviamente diventa ancora più complessa quando, ad esempio, viene utilizzato un altro strumento per la messa a punto.

Probabilmente l’opzione più semplice risulta essere quella di lasciare il pasticcio a qualcun altro e acquistare semplicemente il prodotto o meglio il servizio. Tuttavia, oltre ad essere il modo più costoso di procedere (soprattutto se si desidera un bot altamente personalizzato), questa opzione ha anche le sue insidie e si dovrebbe quindi scegliere quale particolare bot assumere MOLTO attentamente tenendo in considerazione tutte le informazioni condivise pubblicamente sul sito. pratiche di elaborazione dei dati, dati di formazione utilizzati ecc. O ancora finire nel fuoco per non aver rispettato gli obblighi di due diligence.

2. Messa a punto di un Chatbot

Una volta scelto il tuo bot, e presupponendo che tu abbia scelto un’opzione che includa alcune regolazioni da parte tua, congratulazioni! Sei appena saltato dalla padella direttamente nel fuoco. Indipendentemente dal fatto che utilizzi uno degli strumenti per la messa a punto automatizzata o prendi codice open source, rimboccati le maniche e sporcati le mani, quali dati inserisci nel modello sono importanti tanto quanto la scelta del modello.

Conosciamo già tutti l’intera agenda “immondizia nell’immondizia”, ma c’è un’altra agenda forse più importante da considerare. E questo è il rischio non trascurabile di un’azione legale che comporta questioni giuridicamente problematiche. Abbiamo già familiarizzato con questo concetto attraverso le cause legali di artisti e giornali contro i maggiori fornitori di LLM. E lo scenario molto probabile è che una volta che la situazione legale si sarà chiarita, le cause legali potrebbero proliferare contro chiunque 1. utilizzi i loro prodotti o servizi e 2. faccia una cosa simile. La chiave è, ovviamente, tenere traccia degli sviluppi legali nel settore e non alimentare il proprio modello con dati (probabilmente) illegali. Possiamo anche aggiungere un bonus da asporto a questo, evitando di fornire sempre i dati personali del tuo modello. A parte il dibattito sul copyright per un secondo, l’utilizzo dei dati personali dove non è assolutamente necessario ti metterà sempre nei guai.

Un’ultima possibilità e un potenziale problema da considerare è che al giorno d’oggi non è nemmeno necessario mettere a punto il modello. Puoi perfezionarlo continuamente, per così dire, eseguendo ulteriori chiamate API o chiamate al sito Web in cui puoi recuperare i dati per le risposte del bot. In tal caso, assicurati di rispettare eventuali limitazioni all’uso dei dati imposte dal fornitore del sito web originale. Queste limitazioni possono presentarsi sotto forma di file robots.txt ma anche essere semplicemente indicate nei Termini e condizioni. Sì, anche la scansione e il collegamento hanno i loro limiti.

3. Le dichiarazioni di non responsabilità

Se c’è una cosa di cui gli esperti di diritto non ne hanno mai abbastanza sono le “disclaimer”. Quindi assicurati di implementarne un buon numero insieme al tuo chatbot. Due aspetti assolutamente non negoziabili sono che la persona che interagisce con un sistema di intelligenza artificiale deve essere resa consapevole del fatto prima ancora di poter interagire con esso, nonché del fatto che i risultati possono essere imprecisi e su cui non si dovrebbe fare affidamento. Questi due possono essere ben raggruppati sotto forma di pop-up, ma dovrebbero anche rimanere continuamente visibili da qualche parte sul sito web oppure all’utente potrebbe essere ricordata ripetutamente la loro esistenza. Qui è meglio essere eccessivamente trasparenti che dispiaciuti.

E lo stesso vale per l’informativa privacy, essendo l’intera informativa stessa una sorta di disclaimer. Sebbene il funzionamento di un modello linguistico di grandi dimensioni richieda una laurea in informatica per essere in qualche modo comprensibile, sei comunque tenuto a cercare di renderli comprensibili nell’ambito limitato dell’informativa sulla privacy. Immagina di spiegare cosa fa il modello a tuo figlio di sei anni o magari ai tuoi nonni e parti da lì. Immagini, video e grafica sono i benvenuti. D’altro canto, se utilizzi una qualsiasi delle API o degli strumenti automatizzati menzionati nel passaggio 1, sei ovviamente libero di collegare le informative sulla privacy del/dei relativo/i fornitore/i di servizi, ma ciò non significa comunque che sei fuori dai guai. In questo particolare contesto, sei tu ad offrire il servizio e ad essere il primo punto di contatto per domande e reclami. Pertanto, è tua responsabilità spiegare dove fluiscono i dati degli utenti, perché ciò è necessario e come possono interromperne il trattamento. E anche questo richiede una certa abilità e creatività, per essere fatto in modo trasparente e adeguato. Buona fortuna a spaccarti le meningi per quello!

4. Gli output

Adesso finalmente siamo arrivati alle uscite, quindi sicuramente ci stiamo avvicinando alla fine. Se stavi pensando questo, avevi ragione! Beh, almeno un po’. Questa è ancora una montagna a parte da scalare. E a parte il già citato disclaimer, secondo cui i risultati potrebbero essere errati, ci sono un paio di altre cose da considerare, perché ci sono molteplici ragioni per la possibile inesattezza. La prima sono ovviamente le famigerate allucinazioni degli LLM, a causa della loro intrinseca mancanza di comprensione dei dati che così gentilmente forniamo loro. E, oltre a pregare che alcune persone molto intelligenti capiscano come risolvere il problema, non c’è molto altro che possiamo fare per risolvere il problema se non implementare la nostra dichiarazione di non responsabilità.

Dall’altro lato della medaglia, però, abbiamo qualcosa di diverso, che si applicherà a tutti i chatbot che scansionano altri siti web per trovare e produrre informazioni. Quindi ora devi chiederti cosa succede se le informazioni scartate sono false o addirittura illegali. Per situazioni come queste forse è meglio affidarsi alla cosiddetta eccezione Hosting contenuta nell’articolo 14 dell’ormai vetusta direttiva sul commercio elettronico. Questa eccezione, che si applica ad esempio anche ai motori di ricerca, garantisce che gli host e gli intermediari non siano responsabili per i contenuti a cui forniscono semplicemente l’accesso. Ciò, tuttavia, vale solo se non era evidente che il contenuto fosse illegale. Quindi, per semplificarlo al massimo. Innanzitutto, esegui la scansione e il recupero solo di fonti di informazioni affidabili che hai controllato in anticipo (non provare a giocare a Google). In secondo luogo, assicurati di integrare i riferimenti in tutti gli output del tuo chatbot, in modo che le fonti originali di tutte le informazioni siano immediatamente visibili.

Un’ultima cosa che vale la pena considerare e dedicare qualche ora extra alla programmazione è l’integrazione di domande di follow-up per le situazioni in cui l’input iniziale dell’utente era molto ampio o poco chiaro. In questo modo, il tuo bot può richiedere nuovamente l’utente per così dire, in modo che l’utente offra una risposta migliore. Ciò a sua volta farà sì che il modello produca risultati migliori. Sia in termini di precisione che di prestazioni.

5. Qualità piuttosto che velocità

E per finire, giusto per ribadire questo, perché sembra che si riduca sempre a questo. Presta particolare attenzione alla qualità degli output del tuo bot, poiché questo è uno dei problemi più importanti e sicuramente più evidenti. È stata la controversia nel divieto temporaneo italiano di ChatGPT, in cui risultati imprecisi avevano lo scopo di dimostrare l’inesattezza dei dati di addestramento.(6) Le allucinazioni, in quanto deficit di output, erano e rimangono sempre una delle preoccupazioni principali, impedendo ancora oggi ai chatbot di entrare nel dominio dei motori di ricerca.(7) E non entreremo nemmeno nel dibattito sui pregiudizi algoritmici/spazzatura nella spazzatura.(8)

L’accuratezza e la qualità dei risultati, a parte le allucinazioni, che rimangono un enigma separato, possono essere notevolmente migliorate prestando particolare attenzione all’accuratezza e alla qualità dei dati di addestramento. Così come la rilevanza di quei dati. Inoltre, nel caso in cui stai recuperando attivamente i dati tramite chiamate API o in qualsiasi altro modo, i dati che stai recuperando dovrebbero anche essere ricontrollati per verificarne l’accuratezza, la rappresentatività e l’adeguatezza. Infine, dovresti disporre di meccanismi adeguati per identificare eventuali aggiornamenti necessari o eventuali modifiche che richiedono un aggiornamento dei tuoi set di dati e, ovviamente, alcuni meccanismi per rispondere adeguatamente a tali eventi identificati.

La qualità è una preoccupazione costante, non una casella da spuntare una tantum dalla lista di controllo. Tutto ciò ha un costo, soprattutto in termini di tempo, rendendo il processo di sviluppo più lento. Tuttavia, la qualità dovrebbe sempre venire prima della velocità, poiché non tutti possono permettersi di “muoversi velocemente e rompere le cose”.(9) Almeno no, se cercano di sviluppare un modello di business sostenibile e responsabile.

Fonte: towardsdatascience.com