GPT — Spiegato in modo intuitivo ed esaustivo |  di Daniel Warfield |  Dicembre 2023

 | Intelligenza-Artificiale

Elaborazione del linguaggio naturale | Apprendimento automatico | Chatta GPT

Esplorazione dell’architettura dei trasformatori generativi pre-addestrati di OpenAI.

“Mixture Expert” dell’autore utilizzando MidJourney. Tutte le immagini sono dell’autore se non diversamente specificato.

In questo articolo esploreremo l’evoluzione dei modelli GPT di OpenAI. Tratteremo brevemente il trasformatore, descriveremo le variazioni del trasformatore che portano al primo modello GPT, quindi esamineremo GPT1, GPT2, GPT3 e GPT4 per costruire una comprensione concettuale completa dello stato dell’arte.

A chi è utile? Chiunque sia interessato all’elaborazione del linguaggio naturale (PNL) o ai progressi all’avanguardia dell’intelligenza artificiale.

Quanto è avanzato questo post? Questo non è un post complesso, è soprattutto concettuale. Detto questo, ci sono molti concetti, quindi potrebbe essere scoraggiante per i data scientist meno esperti.

Prerequisiti: Tratterò brevemente i trasformatori in questo articolo, ma puoi fare riferimento al mio articolo dedicato sull’argomento per ulteriori informazioni.

Prima di entrare nel GPT, voglio esaminare brevemente il trasformatore. Nel suo senso più elementare, il trasformatore è un modello in stile codificatore-decodificatore.

Un trasformatore che lavora in un’attività di traduzione. L’input (io sono un manager) è compresso in una rappresentazione astratta che codifica il significato dell’intero input. Il decodificatore funziona in modo ricorrente, alimentandosi su se stesso, per costruire l’output. Da il mio articolo sui trasformatori

Il codificatore converte un input in una rappresentazione astratta che il decodificatore utilizza per generare iterativamente l’output.

rappresentazione di alto livello di come l’uscita del codificatore si riferisce al decodificatore. il decodificatore fa riferimento all’input codificato per ogni ciclo ricorsivo dell’output. Da il mio articolo sui trasformatori

sia il codificatore che il decodificatore utilizzano una rappresentazione astratta del testo creata utilizzando l’attenzione personale a più teste.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *