Immagine dell’autore utilizzando DALL-E 3.

Sussurro

Sussurro è un modello di sintesi vocale open source fornito da OpenAI. Sono disponibili cinque dimensioni di modello, sia in versione inglese che multilingue, tra cui scegliere, a seconda della complessità dell’applicazione e del compromesso desiderato tra precisione ed efficienza. Whisper è un framework di sintesi vocale end-to-end che utilizza un’architettura di trasformatore codificatore-decodificatore che opera sull’audio in ingresso suddiviso in blocchi di 30 secondi e convertito in uno spettrogramma log-Mel. La rete è addestrata su molteplici attività di elaborazione vocale, tra cui il riconoscimento vocale multilingue, la traduzione vocale, l’identificazione della lingua parlata e il rilevamento dell’attività vocale.

Diagramma dell’architettura Whisper dal documento di ricerca.

Per questo progetto, sono a disposizione dell’utente due pulsanti walkie-talkie: uno che invia le domande generali in lingua inglese al bot attraverso il modello “base” più leggero e veloce, e un secondo che implementa il modello multilingue “medio” più ampio che può distinguere tra dozzine di lingue e trascrivere accuratamente affermazioni pronunciate correttamente. Nel contesto dell’apprendimento delle lingue, ciò porta l’utente a concentrarsi molto intensamente sulla propria pronuncia, accelerando il processo di apprendimento. Di seguito è riportata una tabella dei modelli Whisper disponibili:

Grafico da https://github.com/openai/whisper

Essere

Esiste una varietà di interfacce di modelli linguistici open source altamente utili, tutte adatte a diversi casi d’uso con diversi livelli di complessità per la configurazione e l’utilizzo. Tra i più conosciuti ci sono il oobabooga text-gen webuicon probabilmente la massima flessibilità e controllo nascosto, chiamata.cppche originariamente si concentrava sulla distribuzione ottimizzata di modelli quantizzati su dispositivi più piccoli basati solo sulla CPU, ma da allora si è espanso per servire altri tipi di hardware e l’interfaccia semplificata scelta per questo progetto (costruita su llama.cpp): Essere.

Ollama si concentra sulla semplicità e sull’efficienza, funzionando in background ed è in grado di servire più modelli contemporaneamente su hardware di piccole dimensioni, spostando rapidamente i modelli dentro e fuori dalla memoria secondo necessità per soddisfare le loro richieste. Invece di concentrarsi su strumenti di livello inferiore come la messa a punto, Ollama eccelle installazione sempliceruntime efficiente, fantastico diffusione di modelli pronti all’usoE strumenti per importare pesi di modelli preaddestrati. L’attenzione all’efficienza e alla semplicità rende Ollama la scelta naturale per l’interfaccia LLM in un progetto come LingoNaut, poiché l’utente non ha bisogno di ricordarsi di chiudere la sessione per liberare risorse, poiché Ollama lo gestirà automaticamente in background quando l’app viene non in uso. Inoltre, l’accesso immediato ai modelli quantizzati e performanti nella libreria è perfetto per lo sviluppo senza problemi di applicazioni LLM come LingoNaut.

Sebbene Ollama non sia tecnicamente progettato per Windows, è facile per gli utenti Windows installarlo sul sottosistema Windows per Linux (WSL), quindi comunicare con il server dalle relative applicazioni Windows. Con WSL installato, apri un terminale Linux e inserisci Ollama a una riga comando di installazione. Una volta terminata l’installazione, esegui semplicemente “ollama serve” nel terminale Linux e potrai quindi comunicare con il tuo server Ollama da qualsiasi script Python sul tuo computer Windows.

Coqui.ai 🐸 TTS

TTS è una libreria di sintesi vocale completa disponibile per uso non commerciale, con licenze commerciali a pagamento disponibili. La libreria ha sperimentato una notevole popolarità, con 3k fork e 26,6k stelle su GitHub al momento della stesura di questo articolo, ed è chiaro il perché: la libreria funziona come l’Ollama dello spazio di sintesi vocale, fornendo un’interfaccia unificata per l’accesso una vasta gamma di modelli performanti che coprono una varietà di casi d’uso (ad esempio: fornire un modello multi-altoparlante e multilingue per questo progetto), funzionalità interessanti come la clonazione della voce e controlli sulla velocità e sul tono emotivo delle trascrizioni.

La libreria TTS fornisce un’ampia selezione di modelli di sintesi vocale, inclusi gli illustri modelli Fairseq del Massively Multilingual Speech della ricerca Facebook (MMS) progetto. Per LingoNaut, quello del team Coqui.ai XTTS Il modello si è rivelato la scelta corretta, poiché genera parlato di alta qualità in più lingue senza problemi. Sebbene il modello abbia un parametro di input “lingua”, ho scoperto che anche lasciando questo impostato su “en” per l’inglese e semplicemente passando testo in altre lingue si ottiene comunque una generazione multilingue fedele con pronunce per lo più corrette.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *