Microsoft ha annunciato la famiglia Phi-3 di modelli aperti di piccolo linguaggio (SLM), pubblicizzandoli come i più capaci ed economici tra le loro dimensioni disponibili. L'approccio innovativo alla formazione sviluppato dai ricercatori Microsoft ha consentito ai modelli Phi-3 di superare modelli più ampi sui benchmark di linguaggio, codifica e matematica.
“Ciò che inizieremo a vedere non è uno spostamento dal grande al piccolo, ma uno spostamento da una singola categoria di modelli a un portafoglio di modelli in cui i clienti hanno la possibilità di prendere una decisione su quale sia il modello migliore per le loro esigenze.” scenario”, ha affermato Sonali Yadav, Principal Product Manager for Generative AI di Microsoft.
Il primo modello Phi-3, Phi-3-mini con 3,8 miliardi di parametri, è ora disponibile al pubblico Catalogo dei modelli di intelligenza artificiale di Azure, Volto che abbraccia, Esseree come un NVIDIA NIM microservizio. Nonostante le sue dimensioni compatte, Phi-3-mini supera i modelli il doppio delle sue dimensioni. Presto seguiranno altri modelli Phi-3 come Phi-3-small (parametri 7B) e Phi-3-medium (parametri 14B).
“Alcuni clienti potrebbero aver bisogno solo di modelli piccoli, altri avranno bisogno di modelli più grandi e molti vorranno combinarli entrambi in vari modi”, ha affermato Luis Vargas, vicepresidente AI di Microsoft.
Il vantaggio principale degli SLM è la loro dimensione più piccola che consente l'implementazione sul dispositivo per esperienze di intelligenza artificiale a bassa latenza senza connettività di rete. I potenziali casi d’uso includono sensori intelligenti, fotocamere, attrezzature agricole e altro ancora. La privacy è un altro vantaggio derivante dalla conservazione dei dati sul dispositivo.
I modelli linguistici di grandi dimensioni (LLM) eccellono nel ragionamento complesso su vasti set di dati, punti di forza adatti ad applicazioni come la scoperta di farmaci grazie alla comprensione delle interazioni nella letteratura scientifica. Tuttavia, gli SLM offrono un'alternativa interessante per la risposta più semplice alle query, il riepilogo, la generazione di contenuti e simili.
“Invece di inseguire modelli sempre più grandi, Microsoft sta sviluppando strumenti con dati più attentamente curati e formazione specializzata”, ha commentato Victor Botev, CTO e co-fondatore di Iris.ai.
“Ciò consente prestazioni e capacità di ragionamento migliorate senza gli enormi costi computazionali dei modelli con trilioni di parametri. Mantenere questa promessa significherebbe abbattere un’enorme barriera all’adozione per le aziende alla ricerca di soluzioni di intelligenza artificiale”.
Tecnica di allenamento rivoluzionaria
Ciò che ha consentito il salto di qualità SLM di Microsoft è stato un innovativo approccio di filtraggio e generazione dei dati ispirato ai libri di favole della buonanotte.
“Invece di fare formazione solo sui dati web grezzi, perché non cercare dati di altissima qualità?” ha chiesto Sebastien Bubeck, vicepresidente di Microsoft responsabile della ricerca SLM.
La routine di lettura notturna di Ronen Eldan con sua figlia ha dato vita all'idea di generare un set di dati “TinyStories” di milioni di semplici narrazioni create inserendo un grande modello con combinazioni di parole che un bambino di 4 anni conoscerebbe. Sorprendentemente, un modello di parametri da 10 milioni addestrato su TinyStories potrebbe generare storie fluide con una grammatica perfetta.
Basandosi su quel successo iniziale, il team si è procurato dati web di alta qualità controllati per valore educativo per creare il set di dati “CodeTextbook”. Ciò è stato sintetizzato attraverso cicli di suggerimenti, generazione e filtraggio sia da parte degli esseri umani che da grandi modelli di intelligenza artificiale.
“Molta cura è posta nella produzione di questi dati sintetici”, ha detto Bubeck. “Non prendiamo tutto ciò che produciamo.”
I dati di formazione di alta qualità si sono rivelati trasformativi. “Poiché si legge materiale simile a un libro di testo… si rende molto più semplice il compito del modello linguistico di leggere e comprendere questo materiale”, ha spiegato Bubeck.
Mitigare i rischi per la sicurezza dell’IA
Nonostante l’attenta cura dei dati, Microsoft sottolinea l’applicazione di ulteriori pratiche di sicurezza alla versione Phi-3 rispecchiando i suoi processi standard per tutti i modelli di intelligenza artificiale generativa.
“Come per tutti i rilasci di modelli di intelligenza artificiale generativa, i team di prodotto e di intelligenza artificiale responsabile di Microsoft hanno utilizzato un approccio a più livelli per gestire e mitigare i rischi nello sviluppo di modelli Phi-3”, si legge in un post sul blog.
Ciò includeva ulteriori esempi di formazione per rafforzare i comportamenti attesi, valutazioni per identificare le vulnerabilità attraverso il red-teaming e l'offerta di strumenti di intelligenza artificiale di Azure per consentire ai clienti di creare applicazioni affidabili su Phi-3.
(Fotografato da Tadas Sar)
Guarda anche: Microsoft stringerà partnership nel campo dell'intelligenza artificiale con i leader tecnologici della Corea del Sud
Vuoi saperne di più sull'intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell'intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L'evento completo è collocato in contemporanea con altri eventi importanti, tra cui BlockX, Settimana della trasformazione digitaleE Fiera sulla sicurezza informatica e sul cloud.
Esplora altri prossimi eventi e webinar sulla tecnologia aziendale forniti da TechForge Qui.
Fonte: www.artificialintelligence-news.com