Un progetto AI del fine settimana: creare un assistente visivo per persone con problemi di vista |  di Dmitrii Eliuseev |  Febbraio 2024

 | Intelligenza-Artificiale

Esecuzione di un modello LLaVA multimodale, fotocamera e sintesi vocale

Immagine di Enoc Valenzuela, Unsplash

I moderni modelli multimodali di grandi dimensioni (LMM) possono elaborare non solo testo ma anche diversi tipi di dati. Infatti “un’immagine vale più di mille parole” e questa funzionalità può essere cruciale durante l’interazione con il mondo reale. In questo “progetto del fine settimana” utilizzerò un file free La lava (Large Language-and-Vision Assistant), una fotocamera e un sintetizzatore vocale; creeremo un assistente AI che possa aiutare le persone con problemi di vista. Come nelle parti precedenti, tutti i componenti verranno eseguiti completamente offline senza alcun costo per il cloud.

Senza ulteriori indugi, entriamo nel merito!

Componenti

In questo progetto utilizzerò diversi componenti:

  • UN La lava modello, che combina un ampio modello linguistico e un codificatore visivo con l’aiuto di una speciale matrice di proiezione. Ciò consente al modello di comprendere non solo il testo ma anche i suggerimenti delle immagini. Utilizzerò il ChiamaCpp libreria per eseguire il modello (nonostante il nome, può eseguire non solo modelli LLaMA ma anche LLaVA).
  • Illuminato Libreria Python che ci consente di realizzare un’interfaccia utente interattiva. Utilizzando la fotocamera, possiamo scattare l’immagine e porre al LMM diverse domande al riguardo (ad esempio, possiamo chiedere al modello di descrivere l’immagine).
  • UN TTS (sintesi vocale) convertirà la risposta dell’LMM in parlato, in modo che una persona con problemi di vista possa ascoltarla. Per la conversione del testo, utilizzerò un file MMS-TTS (Massively Multilingual Speech TTS) modello realizzato da Facebook.

Come promesso, tutti i componenti elencati sono gratuiti, non necessitano di API cloud e possono funzionare completamente offline. Dal punto di vista hardware, il modello può essere eseguito su qualsiasi laptop o tablet Windows o Linux (una GPU da 8 GB è consigliata ma non obbligatoria) e l’interfaccia utente può funzionare con qualsiasi browser, anche su uno smartphone.

Iniziamo.

La lava

La lava (Large Language-and-Vision Assistant) è un modello multimodale di grandi dimensioni open source che combina un codificatore di visione e un LLM per la comprensione visiva e linguistica. Come accennato prima, userò a ChiamaCpp per caricare il modello. Questo…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *