I moderni modelli multimodali di grandi dimensioni (LMM) possono elaborare non solo testo ma anche diversi tipi di dati. Infatti “un’immagine vale più di mille parole” e questa funzionalità può essere cruciale durante l’interazione con il mondo reale. In questo “progetto del fine settimana” utilizzerò un file free La lava (Large Language-and-Vision Assistant), una fotocamera e un sintetizzatore vocale; creeremo un assistente AI che possa aiutare le persone con problemi di vista. Come nelle parti precedenti, tutti i componenti verranno eseguiti completamente offline senza alcun costo per il cloud.
Senza ulteriori indugi, entriamo nel merito!
Componenti
In questo progetto utilizzerò diversi componenti:
- UN La lava modello, che combina un ampio modello linguistico e un codificatore visivo con l’aiuto di una speciale matrice di proiezione. Ciò consente al modello di comprendere non solo il testo ma anche i suggerimenti delle immagini. Utilizzerò il ChiamaCpp libreria per eseguire il modello (nonostante il nome, può eseguire non solo modelli LLaMA ma anche LLaVA).
- Illuminato Libreria Python che ci consente di realizzare un’interfaccia utente interattiva. Utilizzando la fotocamera, possiamo scattare l’immagine e porre al LMM diverse domande al riguardo (ad esempio, possiamo chiedere al modello di descrivere l’immagine).
- UN TTS (sintesi vocale) convertirà la risposta dell’LMM in parlato, in modo che una persona con problemi di vista possa ascoltarla. Per la conversione del testo, utilizzerò un file MMS-TTS (Massively Multilingual Speech TTS) modello realizzato da Facebook.
Come promesso, tutti i componenti elencati sono gratuiti, non necessitano di API cloud e possono funzionare completamente offline. Dal punto di vista hardware, il modello può essere eseguito su qualsiasi laptop o tablet Windows o Linux (una GPU da 8 GB è consigliata ma non obbligatoria) e l’interfaccia utente può funzionare con qualsiasi browser, anche su uno smartphone.
Iniziamo.
La lava
La lava (Large Language-and-Vision Assistant) è un modello multimodale di grandi dimensioni open source che combina un codificatore di visione e un LLM per la comprensione visiva e linguistica. Come accennato prima, userò a ChiamaCpp per caricare il modello. Questo…
Fonte: towardsdatascience.com