Tencent rilascia versatili modelli AI Hunyuan Open-Source

 | Intelligenza-Artificiale

Tencent ha ampliato la sua famiglia di modelli AI Hunyuan open source che sono abbastanza versatili per un ampio uso. Questa nuova famiglia di modelli è progettata per offrire potenti prestazioni negli ambienti computazionali, dai dispositivi di piccolo bordo a sistemi di produzione impegnativi e ad alta concorrenza.

Il rilascio include un set completo di modelli pre-addestrati e sintonizzati per le istruzioni disponibili sulla piattaforma sviluppatore Abbracciare la faccia. I modelli sono disponibili in diverse dimensioni, in particolare con scale di parametri di 0,5b, 1,8b, 4B e 7B, fornendo una notevole flessibilità per sviluppatori e aziende.

Tencent ha indicato che questi modelli sono stati sviluppati utilizzando strategie di addestramento simili al suo modello Hunyuan-A13B più potente, consentendo loro di ereditare le sue caratteristiche di prestazione. Questo approccio consente agli utenti di selezionare il modello ottimale per le loro esigenze, sia che si tratti di una variante più piccola per il bordo computing vincolato dalle risorse o un modello più ampio per i carichi di lavoro di produzione ad alto rendimento, il tutto garantendo forti capacità.

Una delle caratteristiche più notevoli della serie Hunyuan è il suo supporto nativo per una finestra di contesto di 256K ultra-lunghe. Ciò consente ai modelli di gestire e mantenere prestazioni stabili su attività a lungo termine, una capacità vitale per analisi complesse di documenti, conversazioni estese e generazione di contenuti approfonditi. I modelli supportano ciò che Tencent chiama “ragionamento ibrido”, che consente sia modalità di pensiero rapido che lento che gli utenti possono scegliere tra a seconda dei loro requisiti specifici.

La società ha anche posto una forte enfasi sulle capacità agenti. I modelli sono stati ottimizzati per le attività basate su agenti e hanno dimostrato risultati principali su parametri di riferimento consolidati come BFCL-V3, Bench τ e Bench C3, suggerendo un alto grado di competenza nella risoluzione complessa di problemi a più fasi. Ad esempio, sul banco C3, il modello Hunyuan-7B-Instruct raggiunge un punteggio di 68,5, mentre il modello di Hunyuan-4B-Instruct punteggia 64,3.

Le prestazioni della serie si concentrano sull'inferenza efficiente. I modelli Hunyuan di Tencent utilizzano l'attenzione di query raggruppate (GQA), una tecnica nota per migliorare la velocità di elaborazione e ridurre le spese generali computazionali. Questa efficienza è ulteriormente migliorata dal supporto di quantizzazione avanzata, un elemento chiave dell'architettura Hunyuan progettata per ridurre le barriere di distribuzione.

Tencent ha sviluppato il proprio set di strumenti di compressione, Angleslim, per creare una soluzione di compressione modello più user-friendly ed efficace. Utilizzando questo strumento, la società offre due tipi principali di quantizzazione per la serie Hunyuan.

Il primo è la quantizzazione statica FP8, che impiega un formato a punta mobile a 8 bit. Questo metodo utilizza una piccola quantità di dati di calibrazione per pre-determinare la scala di quantizzazione senza richiedere la riqualificazione completa, la conversione dei pesi del modello e i valori di attivazione nel formato FP8 per aumentare l'efficienza dell'inferenza.

Il secondo metodo è la quantizzazione INT4, che ottiene la quantizzazione W4A16 attraverso gli algoritmi GPTQ e AWQ:

  • IL Gptq Processi di avvicinamento Modello pesi strato per livello, utilizzando i dati di calibrazione per ridurre al minimo gli errori nei pesi quantificati. Questo processo evita di richiedere la riqualificazione del modello e migliora la velocità di inferenza.
  • IL Awq L'algoritmo funziona analizzando statisticamente l'ampiezza dei valori di attivazione da un piccolo insieme di dati di calibrazione. Quindi calcola un coefficiente di ridimensionamento per ciascun canale di peso, che espande la gamma numerica di pesi importanti per conservare più informazioni durante il processo di compressione.

Gli sviluppatori possono utilizzare lo strumento angolare da soli o scaricare direttamente i modelli pre-quantificati.

I parametri di riferimento delle prestazioni confermano le forti capacità dei modelli Tencent Hunyuan in una serie di compiti. Il modello Hunyuan-7B pre-addestrato, ad esempio, raggiunge un punteggio di 79,82 sul benchmark MMLU, 88,25 su GSM8K e 74,85 sul benchmark matematico, dimostrando solidi ragionamenti e capacità matematiche.

Le varianti sintonizzate sull'istruzione mostrano risultati impressionanti in aree specializzate. In matematica, il modello Hunyuan-7B-instruct segna 81.1 sul benchmark AIME 2024, mentre la versione 4B segna 78.3. Nella scienza, il modello 7B raggiunge 76,5 su Olympiadbench e nella codifica, segna 42 su LiveCodebench.

I benchmark di quantizzazione mostrano un degrado delle prestazioni minimo. Sul punto di riferimento, il modello Hunyuan-7B-Instruct segna 85,9 nel suo formato B16 B16, 86,0 con FP8 e 85,7 con INT4 GPTQ, indicando che i guadagni di efficienza non hanno un costo per l'accuratezza.

Per la distribuzione, Tencent raccomanda di utilizzare framework consolidati come Tensorrt-LLM, VLLM o SGLANG per servire i modelli Hunyuan e creare endpoint API compatibili con apertura, garantendo che possano essere integrati senza intoppi nei flussi di lavoro di sviluppo esistenti. Questa combinazione di prestazioni, efficienza e flessibilità di distribuzione posiziona la serie Hunyuan come un potente contendente continuo nell'intelligenza artificiale open source.

Vedi anche: Deep Cogito V2: Open-Source Ai che affina le sue capacità di ragionamento

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber Security & Cloud Expo.

Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.

Fonte: www.artificialintelligence-news.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *