Non hai potuto partecipare al KDD? Impara dal mio riassunto sull’argomento più caldo della conferenza: i LLM
Qualche settimana fa ho avuto l’opportunità di partecipare per la prima volta all’ACM SIGKDD (abbreviazione di KDD). KDD 2023 ha avuto luogo a Long Beach, California, ed è la conferenza accademica più antica e importante nel campo del data mining, pionieristica su argomenti legati alla scienza dei dati e ai big data.
L’evento è durato 5 giorni e ha visto la partecipazione di oltre 2.200 persone, con una forte presenza di partecipanti provenienti dall’industria. Sono rimasto colpito dalla diversità degli argomenti trattati, ma quelli più interessanti dal mio punto di vista sono stati i Large Language Models (LLM) e il Graph Learning. Ho trovato anche molti contenuti su RecSys, per i quali ho un’attenzione particolare.
In questo post riassumo i punti salienti sui LLM tratti da workshop, tutorial e presentazioni cartacee a cui ho partecipato e che mi sono piaciuti, con collegamenti a risorse online per ulteriori informazioni.
Avvertimento: lungo post pieno di collegamenti a risorse in arrivo!
Ed H. Chi, un illustre scienziato e direttore di Google, ha presentato un intervento molto atteso sul tema La rivoluzione del LLM. Ha riflettuto sulle rivoluzioni tecnologiche che abbiamo dovuto affrontare da Internet, attraverso i dispositivi mobili, l’ascesa del deep learning e ora i LLM, il che è di gran lunga strabiliante.
Ha parlato di ciò che rende l’intelligenza umana diversa dal ML: (1) imparare da alcuni esempi, (2) spiegare le loro previsioni/decisioni, (3) forti capacità di generalizzazione fuori distribuzione – e come LLM può finalmente iniziare a colmare questa lacuna .
Ha poi parlato delle tecniche che stanno rendendo LLM in grado di eseguire alcuni ragionamenti: (1) suggerimento basato sulla catena di pensiero, (2) autocoerenza, (3) suggerimento dal minimo al massimo e (4) istruzione fine- messa a punto. Maggiori informazioni su questo argomento nel discorso di Denny Zhou durante la giornata LLM (sezione successiva).
Infine, ha condiviso la sua visione su quali sono le prossime sfide per gli LLM: (1) responsabilità e sicurezza, (2) Fattualità, radicamento e attribuzione, (3) Umanità <-> Il contenuto dell’intelligenza artificiale collega un ecosistema e (4) personalizzazione e memoria utente.
KDD ha dedicato una giornata speciale a LLM, con 5 distinti ricercatori che hanno parlato più a lungo di come Microsoft, Google DeepMind, Meta, Zhipu AI e OpenAI hanno portato avanti la tecnologia LLM, le sfide e ciò che prevedono come evoluzione futura in quest’area . IL diapositive di presentazione sono disponibili e sono altamente raccomandati.
Dai documenti ai dialoghi: come i LLM stanno plasmando il futuro del lavoro (Jaime Teevan — Microsoft) (diapositive)
L’intervento ha riguardato diversi argomenti di ricerca e applicati su questioni di qualità LLM (ad esempio come gestire le lingue con risorse limitate), formazione efficiente sul cloud, Retrieval-Augmented Generation (RAG) come modo sostenibile per sfruttare basi di conoscenza private (KB), privacy differenziale per la messa a punto, buone pratiche sull’ingegneria tempestiva e analisi del registro delle chat.
Insegnare modelli linguistici alla ragione (Denny Zhou – Google DeepMind) (diapositive)
Si è concentrato sul Santo Graal del ML, il ragionamento, come un modo per imparare solo da pochi esempi. Sono state riassunte alcune tecniche fondamentali che rendono i LLM così potenti:
- Catena di pensiero (CoT) — invitare la tecnica a pensare passo dopo passo, fornendo alcuni esempi che delineano il processo di ragionamento.
- Suggerimenti dal minimo al massimo (pianificazione + ragionamento) — Scompone un problema complesso in un elenco di sottoproblemi, che vengono risolti in sequenza
- Decodifica di autoconsistenza (SC). — una tecnica in cui vengono generate risposte diverse da diversi percorsi di ragionamento campionati. Invece di accettare la risposta avida, la risposta finale è il voto della maggioranza di quelle diverse risposte. Questa tecnica sembra funzionare abbastanza bene per i LLM e mi ricorda il potere degli insiemi di modelli!
- Sintonizzazione delle istruzioni —Processo di messa a punto dei LLM pre-addestrati per seguire le istruzioni. Consente la richiesta zero-shot per nuove attività. Questo è essenziale per abilitare sistemi di risposta alle domande come Google Bard o Open.ai ChatGPT.
Lama 2: Fondazione aperta e modelli di chat ottimizzati (Vedanuj Goswami – Meta FAIR) (diapositive)
Ha presentato il viaggio di Meta nell’addestramento dei modelli di fondazione di Llama e la messa a punto con le istruzioni utilizzando i dati SFT (campioni raccolti di 27.000 di alta qualità). Il loro modello di ricompensa è stato addestrato su 1 milione di campioni raccolti. Descrive anche il loro perfezionamento iterativo con RLHF, valutazione (umano, sicurezza). Ha concluso la presentazione parlando delle sfide future per la formazione e l’implementazione dei LLM, che ho trascritto qui:
- Ottenere più dati, multilingue, multimodali
- Scalabilità fino a migliaia di GPU con MFU elevato (utilizzo dei modelli FLOP)
- Progettazione di Architetture Efficienti per training e inferenza, Co-Design Hardware-Software
- Apprendimento continuo e aggiornamento della conoscenza
- Migliorare la realtà e citare le fonti
- Ridurre le allucinazioni e ammettere l’incertezza
- Rimozione di contenuti dannosi, offensivi o parziali
- Adattarsi alla conoscenza del mondo oltre i dati di addestramento
Da GLM-130B a ChatGLM (Peng Zhang – Zhipu AI) (diapositive)
Ho conosciuto Zhipu AI, un’azienda che sta sfidando Open.ai per la lingua cinese. Hanno avuto una forte presenza al KDD in qualità di Diamond Sponsor e hanno tenuto un discorso programmatico alla celebrazione del banchetto. Zhipu ha presentato risultati che dimostrano che è il miglior LLM per cinesi in molte attività, addirittura migliore di GPT-4. Hanno descritto come hanno sviluppato ChatGLM e VisualGLRM sul loro modello base (GLM-130B). Hanno reso open source il file ChatGLM-6B su HuggingFace.
Il grande rinascimento del modello linguistico: paradigmi e sfide (Jason Wei — OpenAI) (diapositive)
Discorso molto fondato su leggi di scala per raggiungere lo stato attuale dei LLM e il abilità emergenti (compreso il ragionamento) che può essere osservato quando i LLM superano i parametri 100B. Anche parlato ragionamento tramite tecniche di suggerimento: Catena di pensiero e suggerimenti dal meno al più.
Penso che il Laboratorio LLM-AI è stata la più controversa alla conferenza. Non potevo letteralmente unirmi al pubblico la mattina, dato che una folla aveva completamente riempito la piccola stanza subito dopo il keynote mattutino di KDD. Fortunatamente ho potuto trovare un posto subito dopo la pausa caffè e ho potuto partecipare ad alcune sessioni.
La ricerca sulla PNL nell’era dei LLM (Shafiq Joty – Salesforce)
Ha descritto XGen LLM di SalesForce, una libreria JaxFormer interna, che segue LLaMA-7B ed è ottimizzata per le istruzioni con WizardLM, che può rispondere a domande basate su dati non strutturati e strutturati (ad esempio database Spark e SQL). Presentate anche alcune tecniche che utilizzano per preparare il ragionamento, per scomporre le domande Catena di pensieroe per selezionare la base di conoscenza più rilevante addestrando un modello per la generazione di query adattive con LoRA su frasi naturali, SPARQL e SQL. Questo processo genera una query per ogni passaggio del ragionamento, che viene eseguita sulla fonte di conoscenza.
Modello modulare del linguaggio di grandi dimensioni e allineamento basato sui principi con la supervisione umana minima (YiKang Shen — IBM)
Questo discorso ha introdotto i modelli fondamentali di IBM: (1) Arenaria — architettura codificatore-decodificatore adatta alla messa a punto di compiti specifici, (2) Granito — solo decodificatore, tipo GPT per attività generative, (3) Ossidiana — Una nuova architettura modulare che fornisce elevata efficienza di inferenza e livelli di prestazioni in una varietà di attività
Ha anche descritto alcune sfide che hanno dovuto affrontare con LLM:
- Efficienza – come addestrare e servire i modelli Llama 65B.
- Estendibilità — come aggiornare il LLM con il crescente corpus formativo, le diverse lingue, i dati privati dei clienti
- Flessibilità — essere in grado di utilizzare modelli LLM di complessità diversa su dispositivi diversi, con requisiti di latenza diversi
Presentano il loro ModuloFormerche affronta i problemi di cui sopra alimentati da una Sparse Mixture of Experts (SMoE). Può attivare solo un sottoinsieme dei suoi moduli per ciascun input ed è più immune all’oblio catastrofico rispetto ai LLM densi. Inoltre, la messa a punto di ModuleFormer può specializzare un sottoinsieme di moduli e i moduli non correlati alle attività possono essere eliminati per una distribuzione leggera.
Questi tutorial sono stati presentati contemporaneamente, quindi ho dovuto dividere il mio tempo per catturarne un po’ entrambi. Fortunatamente, le loro fantastiche diapositive sono state rese disponibili e sono molto dettagliate.
Verso assistenti intelligenti di prossima generazione che sfruttano le tecniche LLM – Meta (diapositive)
Tutorial molto completo sugli assistenti intelligenti che sono multimodali e possono sfruttare come contesto la posizione dell’utente, ciò che gli utenti possono sentire e vedere (ad esempio utilizzando Google Glasses, Meta Quest 2). Il tutorial descrive come sono collegati i diversi moduli: ASR, CV, NLU, Dialog State Tracker, NLG, TTS, KB, Personalizzazione/Raccomandazione e Tutela della privacy, tra gli altri.
Rappresentazioni linguistiche preaddestrate per la comprensione del testo: una prospettiva debolmente supervisionata – Università dell’Illinois a Urbana-Champaign (diapositive)
Sono stati trattati i progressi nei modelli linguistici di pre-formazione, confrontandoli con i tradizionali compiti NLU e descritto come i LLM possono essere utilizzati per estrarre entità e relazioni gerarchiche, scoperta di argomenti e comprensione di documenti. Una buona intuizione che ho ottenuto da questo tutorial è stata l’utilizzo di alcune tecniche NLU per valutare se una risposta generata risponde alla domanda.
Ecco un breve elenco di alcuni articoli di PNL/LLM che mi sono piaciuti.
Ponderazione dei termini delle query end-to-end (Google) (carta)
Questo ottimo articolo combina sistemi di recupero lessicale e semantico. Costruiscono la loro soluzione basandosi sui lessical retriever proponendo un modello BERT (TW-BERT) di ponderazione dei termini. TW-BERT impara a prevedere il peso dei singoli termini di input della query n-grammi (ad esempio, uni-grammi e bi-grammi). Questi pesi e termini dedotti possono essere utilizzati direttamente da un sistema di recupero per eseguire una ricerca tramite query. I pesi appresi possono essere facilmente utilizzati dai lessical retriever standard (ad esempio BM25) e da altre tecniche di recupero come l’espansione delle query.
UnifieR: un Unified Retriever per il recupero su larga scala (Microsoft) (carta)
Un’altra proposta interessante è quella di unificare il recupero basato su vettori densi e lessico in un unico modello con una capacità di doppia rappresentazione. Viene addestrato con una pipeline di autoapprendimento in due fasi e migliora i modelli lessicali e di recupero denso all’avanguardia.
Imparare a relazionarsi con i turni precedenti nella ricerca conversazionale (carta)
In genere nelle conversazioni a più turni le query storiche vengono utilizzate per espandere la query corrente. Tuttavia, non tutte le query precedenti sono correlate o utili per espandere la domanda successiva. Il documento propone un metodo per selezionare query storiche rilevanti che siano utili per la query corrente. Usano un meccanismo di pseudo-etichettatura per annotare le query storiche rilevanti e addestrare un modello di selezione insieme all’addestramento del retriever
GLM-Dialog: pre-formazione tollerante al rumore per la generazione di dialoghi basati sulla conoscenza (carta)
Descrive il modo in cui la KB privata rumorosa può essere utilizzata dalle finestre di dialogo basate su RAG. Propongono un nuovo metodo di valutazione per consentire agli esseri umani di conversare simultaneamente con più bot distribuiti e confrontare le loro prestazioni in modo implicito invece di valutare esplicitamente utilizzando metriche multidimensionali.
Modello di linguaggio cluster per il recupero e il posizionamento migliorati dell’e-commerce: sfruttare la somiglianza delle query e la messa a punto per risultati personalizzati (Home Depot) (carta)
Questo articolo descrive come Home Depot sta migliorando la ricerca semantica per l’e-commerce utilizzando un modello linguistico specifico per cluster invece della tipica architettura bi-encoder. Il loro metodo innanzitutto mappa la query dell’utente ai cluster utilizzando K-Means e utilizza il modello linguistico specifico del cluster selezionato per il recupero.
Questi erano i miei punti salienti sugli LLM di KDD 2023. Spero che tu possa trovare alcune informazioni utili e ispirazione da questo riepilogo e dalle risorse che ho compilato.
“Ci scusiamo per il lungo post). Se avessi avuto più tempo, ne avrei scritto uno più breve (uno)” 🙂
Fonte: towardsdatascience.com