Il potere del recupero della generazione aumentata: un confronto tra LLM Base e RAG con Llama2 | Intelligenza-Artificiale

Un’analisi approfondita della personalizzazione di LLM preaddestrati per casi d’uso personalizzati utilizzando un approccio RAG, con l’integrazione di LangChain e Hugging Face

Questo post è stato scritto in collaborazione con Rafael Guedes.

Dal rilascio di ChatGPT nel novembre del 2022, i Large Language Models (LLM) sono stati l’argomento caldo nella comunità dell’intelligenza artificiale per le loro capacità di comprendere e generare testo simile a quello umano, spingendo i confini di ciò che era precedentemente possibile nell’elaborazione del linguaggio naturale ( PNL).

Gli LLM hanno dimostrato di essere versatili affrontando diversi casi d’uso in vari settori poiché non sono limitati a un compito specifico. Possono essere adattati a diversi ambiti, rendendoli attraenti per le organizzazioni e la comunità di ricerca. Sono state esplorate diverse applicazioni utilizzando LLM come generazione di contenuti, chatbot, generazione di codice, scrittura creativa, assistenti virtuali e molto altro.

Un’altra caratteristica che rende i LLM così attraenti è il fatto che esistono opzioni open source. Aziende come Meta hanno reso disponibile il loro LLM pre-addestrato (Llama2 🦙) in repository come Hugging Face 🤗. Questi LLM pre-formati sono sufficienti per il caso d’uso specifico di ciascuna azienda? Certamente no.

Le organizzazioni potrebbero formare un LLM da zero con i propri dati. Ma la stragrande maggioranza di loro (quasi tutti) non disporrebbe né dei dati né della capacità di calcolo necessari per l’attività. Richiede set di dati con trilioni di token, migliaia di GPU e diversi mesi. Un’altra opzione consiste nell’utilizzare un LLM preaddestrato e adattarlo a un caso d’uso specifico. Ci sono due approcci principali da seguire: fine-tuning e RAG (generazione aumentata di recupero).

In questo articolo confronteremo le prestazioni di un Llama2 pre-addestrato isolato con un LLama2 pre-addestrato integrato in un sistema RAG per rispondere a domande sulle ultime novità riguardanti OpenAI. Inizieremo spiegando come funzionano i RAG e l’architettura dei loro sottomoduli (il retriever e il generatore). Concludiamo con un’implementazione passo passo di come possiamo costruire un sistema RAG per qualsiasi caso d’uso utilizzando LangChain 🦜️ e il viso che abbraccia.

Fonte: towardsdatascience.com