Spiegare ChatGPT a chiunque in  | Intelligenza-Artificiale

Distillare i componenti principali dei LLM generativi in ​​un quadro accessibile…

14 minuti di lettura

18 ore fa

(Fotografato da Fotografia posseduta SU Unsplash)

Negli ultimi anni abbiamo assistito a una rapida evoluzione dei modelli generativi di grandi linguaggi (LLM), culminata nella creazione di strumenti senza precedenti come ChatGPT. L’intelligenza artificiale generativa è ormai diventata un argomento popolare sia tra i ricercatori che tra il pubblico in generale. Ora più che mai, è importante che ricercatori e ingegneri (cioè quelli edificio la tecnologia) sviluppano la capacità di comunicare agli altri le sfumature delle loro creazioni. L’incapacità di comunicare gli aspetti tecnici dell’IA in modo comprensibile e accessibile potrebbe portare a un diffuso scetticismo pubblico (ad esempio, la ricerca sull’energia nucleare ha subito un calo percorso comparabile) o l’adozione di una legislazione eccessivamente restrittiva che ostacola i progressi nel nostro campo. All'interno di questa panoramica, faremo un piccolo passo verso la risoluzione di questi problemi proponendo e delineando un semplice quadro in tre parti per comprendere e spiegare i LLM generativi.

Risorse di presentazione. Questo post è stato ispirato da una presentazione che ho tenuto di recente per O'Reilly sulle basi dei LLM. L'obiettivo di questa presentazione era quello di fornire un “primer” che mettesse tutti al corrente del funzionamento dei LLM generativi. La presentazione è durata circa 20 minuti (da qui il titolo di questo articolo). Per coloro che sono interessati a utilizzare le risorse di questa presentazione, le diapositive sono Qui.

La qualità dei (grandi) modelli linguistici è drasticamente migliorata (creati dall'autore)

Lo scopo di questa panoramica è semplice. La qualità dei modelli linguistici generativi è migliorata drasticamente nell'ultimo anno (vedi sopra) e vogliamo capire quali cambiamenti e nuove tecniche hanno catalizzato questo aumento di qualità. Qui ci atterremo ai modelli linguistici basati sul trasformatore, sebbene il concetto di modello linguistico sia anteriore all'architettura del trasformatore: risalenti ad architetture ricorrenti basate su reti neurali (ad esempio, ULMFit (4)) o anche modelli linguistici n-gram.

Vista di livello superiore. Per spiegare i LLM generativi in ​​modo chiaro e semplice, dobbiamo prima identificare le idee chiave…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *