LLM come ChatGPT, Claude 2, Gemini e Mistral affascinano il mondo con la loro articolatezza ed erudizione. Eppure questi grandi modelli linguistici rimangono scatole nere, che nascondono l’intricato meccanismo che alimenta le loro risposte. La loro abilità nel generare testi di qualità umana supera la nostra abilità nel comprendere come funzionano le loro menti meccaniche.
Ma poiché l’intelligenza artificiale viene lasciata libera in scenari in cui la fiducia e la trasparenza sono fondamentali, come le assunzioni e la valutazione del rischio, la spiegabilità ora passa in primo piano. La spiegabilità non è più un campanello d’allarme opzionale su sistemi complessi, ma è un prerequisito essenziale per far progredire in sicurezza l’intelligenza artificiale in settori ad alto impatto.
Per disfare questi modelli di scatola nera, il vibrante campo della PNL spiegabile offre un kit di strumenti in crescita: dalle visualizzazioni dell’attenzione che rivelano modelli a fuoco, all’indagine di parti casuali di input per quantificare l’influenza. Alcuni approcci come LIME creano modelli semplificati che imitano le decisioni chiave a livello locale. Altri metodi come SHAP adattano concetti della teoria dei giochi cooperativi per distribuire “crediti” e “colpa” tra diverse parti dell’input di un modello in base al suo output finale.
Indipendentemente dalla tecnica, tutti perseguono lo stesso obiettivo cruciale: chiarire come i modelli linguistici utilizzano l’abbondanza di testo che diamo loro in pasto per comporre passaggi coerenti o effettuare valutazioni consequenziali.
L’intelligenza artificiale prende già decisioni che influiscono sulla vita umana: giudicando selettivamente i candidati, moderando i contenuti che incitano all’odio, diagnosticando malattie.
Le spiegazioni non sono semplici accessori: si riveleranno determinanti nel supervisionare questi potenti modelli mentre proliferano nella società.
Mentre i grandi modelli linguistici continuano ad avanzare, il loro funzionamento interno rimane velato nell’oscurità. Tuttavia, un’intelligenza artificiale affidabile necessita di trasparenza nel ragionamento sulle decisioni di impatto.
Il vivace campo della PNL spiegabile offre due approcci principali per chiarire la logica del modello:
- Metodi basati sulle perturbazioni: Tecniche come LIME e SHAP sondano sistematicamente i modelli mascherando i componenti di input e quantificando l’importanza in base ai cambiamenti di output. Queste prospettive esterne trattano i modelli come scatole nere.
- Auto-spiegazioni: Un paradigma alternativo consente ai modelli di spiegare il proprio ragionamento tramite testi generati. Ad esempio, evidenziando le caratteristiche fondamentali dell’input che hanno informato un…
Fonte: towardsdatascience.com