Un progetto AI del fine settimana: creare un assistente visivo per persone con problemi di vista | di Dmitrii Eliuseev | Febbraio 2024 | Intelligenza-Artificiale

Indice contenuti

Esecuzione di un modello LLaVA multimodale, fotocamera e sintesi vocale

I moderni modelli multimodali di grandi dimensioni (LMM) possono elaborare non solo testo ma anche diversi tipi di dati. Infatti “un’immagine vale più di mille parole” e questa funzionalità può essere cruciale durante l’interazione con il mondo reale. In questo “progetto del fine settimana” utilizzerò un file free La lava (Large Language-and-Vision Assistant), una fotocamera e un sintetizzatore vocale; creeremo un assistente AI che possa aiutare le persone con problemi di vista. Come nelle parti precedenti, tutti i componenti verranno eseguiti completamente offline senza alcun costo per il cloud.

Senza ulteriori indugi, entriamo nel merito!

Componenti

In questo progetto utilizzerò diversi componenti:

UN La lava modello, che combina un ampio modello linguistico e un codificatore visivo con l’aiuto di una speciale matrice di proiezione. Ciò consente al modello di comprendere non solo il testo ma anche i suggerimenti delle immagini. Utilizzerò il ChiamaCpp libreria per eseguire il modello (nonostante il nome, può eseguire non solo modelli LLaMA ma anche LLaVA).
Illuminato Libreria Python che ci consente di realizzare un’interfaccia utente interattiva. Utilizzando la fotocamera, possiamo scattare l’immagine e porre al LMM diverse domande al riguardo (ad esempio, possiamo chiedere al modello di descrivere l’immagine).
UN TTS (sintesi vocale) convertirà la risposta dell’LMM in parlato, in modo che una persona con problemi di vista possa ascoltarla. Per la conversione del testo, utilizzerò un file MMS-TTS (Massively Multilingual Speech TTS) modello realizzato da Facebook.

Come promesso, tutti i componenti elencati sono gratuiti, non necessitano di API cloud e possono funzionare completamente offline. Dal punto di vista hardware, il modello può essere eseguito su qualsiasi laptop o tablet Windows o Linux (una GPU da 8 GB è consigliata ma non obbligatoria) e l’interfaccia utente può funzionare con qualsiasi browser, anche su uno smartphone.

Iniziamo.

La lava

La lava (Large Language-and-Vision Assistant) è un modello multimodale di grandi dimensioni open source che combina un codificatore di visione e un LLM per la comprensione visiva e linguistica. Come accennato prima, userò a ChiamaCpp per caricare il modello. Questo…

Fonte: towardsdatascience.com