Nuovo modello Qwen di Alibaba per sovraccaricare gli strumenti di trascrizione AI

 | Intelligenza-Artificiale

Gli strumenti di trascrizione del discorso AI stanno per diventare molto più competitivi con Alibaba Qwen Team che tira svelando il modello Qwen3-Asr-Flash.

Costruito sulla potente intelligenza Qwen3-omni e addestrato utilizzando un set di dati enorme con decine di milioni di ore di dati vocali, questo non è solo un altro modello di riconoscimento vocale dell’IA. Il team afferma che è progettato per offrire prestazioni altamente accurate, anche di fronte a difficili ambienti acustici o modelli linguistici complessi.

Quindi, come si accumula contro la competizione? I dati sulle prestazioni, dai test condotti nell’agosto 2025, suggeriscono che è piuttosto impressionante.

In un test pubblico per il cinese standard, Qwen3-ASR-Flash ha raggiunto un tasso di errore di appena il 3,97 per cento, lasciando concorrenti come Gemini-2.5-Pro ​​(8,98%) e GPT4O-Transscriture (15,72%) che seguono sulla sua scia e mostrando promesse per gli strumenti di trascrizione del parlato dell’intelligenza artificiale più competitivi.

Qwen3-Asr-Flash si è anche dimostrato abile nel gestire gli accenti cinesi, con un tasso di errore del 3,48 per cento. In inglese, ha segnato un 3,81 per cento competitivo, battendo nuovamente il 7,63 per cento di Gemini e l’8,45 percento di GPT4O.

Ma dove gira davvero la testa è in un’area notoriamente complicata: trascrivere musica.

Se incaricato di riconoscere i testi delle canzoni, Qwen3-ASR-Flash ha registrato un tasso di errore di appena il 4,51 per cento, che è molto meglio dei suoi rivali. Questa capacità di comprendere la musica è stata confermata nei test interni sui brani completi, in cui ha segnato un tasso di errore del 9,96 per cento; Un enorme miglioramento rispetto al 32,79 per cento da Gemini-2.5-Pro ​​e 58,59 per cento da GPT4O-Transcriture.

Test dei tassi di errore ASR dei QWEN3-ASR-Flash di Alibaba Qwen che confrontano altri popolari modelli di riconoscimento vocale dell'IA utilizzati per gli strumenti di trascrizione.

Oltre alla sua impressionante precisione, il modello porta alcune caratteristiche innovative sul tavolo per gli strumenti di trascrizione dell’IA di prossima generazione. Uno dei più grandi cambi di gioco è il suo pregiudizio contestuale flessibile.

Dimentica i giorni della formattazione di parole chiave scrupolose, questo sistema consente agli utenti di alimentare il testo di sfondo del modello praticamente in qualsiasi formato per ottenere risultati personalizzati. Puoi fornire un semplice elenco di parole chiave, interi documenti o persino un mix disordinato di entrambi.

Questo processo elimina ogni necessità di una complessa preelaborazione delle informazioni contestuali. Il modello è abbastanza intelligente da utilizzare il contesto per affinare la sua precisione; Tuttavia, le sue prestazioni generali non sono influenzate anche se il testo fornito è completamente irrilevante.

È chiaro che l’ambizione di Alibaba per questo modello AI è di diventare uno strumento di trascrizione vocale globale. Il servizio fornisce una trascrizione accurata da un singolo modello che copre 11 lingue, completo di numerosi dialetti e accenti.

Il supporto per il cinese è particolarmente profondo, che copre il mandarino oltre ai principali dialetti come cantonese, Sichuanese, Minnan (Hokkien) e Wu.

Per i parlanti inglesi, gestisce gli accenti britannici, americani e altri regionali. L’impressionante elenco di altre lingue sostenute comprende francese, tedesco, spagnolo, italiano, portoghese, russo, giapponese, coreano e arabo.

Per completare tutto, il modello può identificare con precisione quale delle 11 lingue viene parlato ed è abile nel rifiutare segmenti non vocali come silenzio o rumore di fondo, garantendo un’uscita più pulita rispetto agli strumenti di trascrizione del linguaggio AI passati.

Vedi anche: Siddhartha Choudhury, Booking.com: combattere le frodi online con AI

Banner per la serie di eventi AI e Big Data Expo.

Vuoi saperne di più sull’intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L’evento completo fa parte di Techex ed è collocato con altri eventi tecnologici leader, clicca Qui Per ulteriori informazioni.

AI News è alimentato da TechForge Media. Esplora altri prossimi eventi tecnologici aziendali e webinar Qui.

Fonte: www.artificialintelligence-news.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *