Negli ultimi anni, il fermento attorno all’intelligenza artificiale è stato enorme e il principale fattore scatenante di tutto ciò è ovviamente l’avvento di grandi modelli linguistici basati su GPT. È interessante notare che questo approccio in sé non è nuovo. Le reti neurali LSTM (memoria a lungo termine) sono state create nel 1997 e nel 2017 è stato pubblicato un famoso articolo, “L’attenzione è tutto ciò di cui hai bisogno”; entrambi erano i capisaldi della moderna elaborazione del linguaggio naturale. Ma solo nel 2020 i risultati del GPT-3 saranno sufficientemente buoni, non solo per i documenti accademici ma anche per il mondo reale.
Al giorno d’oggi, tutti possono chattare con GPT in un browser web, ma probabilmente meno dell’1% delle persone sa effettivamente come funziona. Le risposte intelligenti e spiritose del modello possono costringere le persone a pensare che stanno parlando con un essere intelligentema è così? Bene, il modo migliore per capirlo è vedere come funziona. In questo articolo, prenderemo un modello GPT reale da OpenAI, lo eseguiremo localmente e vedremo passo dopo passo cosa sta succedendo dietro il cofano.
Questo articolo è destinato ai principianti e alle persone interessate alla programmazione e alla scienza dei dati. Illustrerò i miei passaggi con Python, ma non sarà richiesta una conoscenza approfondita di Python.
Entriamo nel vivo!
Caricamento del modello
Per il nostro test utilizzerò un modello GPT-2 “Large”, realizzato da OpenAI nel 2019. All’epoca questo modello era all’avanguardia, ma oggi non ha più alcun valore aziendale e il il modello può essere scaricato gratuitamente da HuggingFace. Ciò che per noi è ancora più importante è che il modello GPT-2 ha la stessa architettura di quelli più recenti (ma il numero di parametri è ovviamente diverso):
- Il modello “grande” GPT-2 ha parametri di 0,7B (GPT-3 ha 175B e GPT-4, secondo indiscrezioni sul web, ha parametri di 1,7T).
- GPT-2 ha uno stack di 36 livelli con 20 teste di attenzione (GPT-3 ne ha 96 e GPT-4, secondo le indiscrezioni, ha 120 livelli).
- GPT-2 ha una lunghezza del contesto di 1024 token (GPT-3 ne ha 2048 e GPT-4 ha una lunghezza del contesto di 128K).
Naturalmente, i modelli GPT-3 e -4 forniscono risultati migliori in tutti i benchmark rispetto al GPT-2. Ma innanzitutto non sono disponibili per il download (e…
Fonte: towardsdatascience.com