Migliorare la navigazione per ipovedenti: integrazione di GPT-4V(ision) e TTS per un’assistenza sensoriale avanzata
Questo post è stato scritto in collaborazione con Rafael Guedes.
Gli ultimi sviluppi di OpenAI hanno portato l’usabilità dell’intelligenza artificiale a un livello completamente diverso con il rilascio delle API GPT-4V(ision) e Text-to-Speech (TTS). Perché? Motiviamo la loro utilità con un caso d’uso. Camminare per strada è un compito semplice per la maggior parte di noi, ma per chi ha problemi di vista, ogni passo può essere una sfida. Gli ausili tradizionali come cani guida e bastoni sono stati utili, ma l’integrazione delle tecnologie di intelligenza artificiale apre un nuovo capitolo nel miglioramento dell’indipendenza e della mobilità della comunità dei non vedenti. Basterebbero semplici occhiali dotati di una discreta fotocamera per rivoluzionare il modo in cui i non vedenti vivono l’ambiente circostante. Spiegheremo come è possibile farlo utilizzando le ultime versioni di OpenAI.
Un altro caso d’uso interessante è cambiare la nostra esperienza nei musei e in altri luoghi simili. Immagina per un secondo che i sistemi di audioguida comunemente presenti nei musei siano sostituiti da una discreta telecamera appuntata sulla maglietta. Supponiamo che tu stia visitando un museo d’arte. Mentre cammini nel museo, questa tecnologia può fornirti informazioni su ciascun dipinto e può farlo in uno stile specifico da te scelto. Diciamo che sei un po’ stanco e hai bisogno di qualcosa di coinvolgente e leggero, potresti suggerirtelo “Dammi un contesto storico sul dipinto ma rendilo coinvolgente e divertente, puoi anche aggiungerci qualche battuta”.
E che dire della Realtà Aumentata (AR)? Questa nuova tecnologia può migliorarla o addirittura sostituirla? Al momento, l’AR è vista come uno strato digitale che possiamo sovrapporre alla nostra percezione visiva del mondo reale. Il problema è che questo può diventare rapidamente rumoroso. Queste nuove tecnologie potrebbero sostituire l’AR in alcuni casi d’uso. In altri casi, può rendere l’AR personalizzata per ognuno di noi in modo che possiamo vivere il mondo al nostro ritmo.
In questo post esploreremo come combinare GPT-4V(ision) e Text-to-Speech per rendere il mondo più inclusivo e navigabile per i non vedenti. Inizieremo spiegando come funziona GPT-4V(ision) e la sua architettura (useremo alcune controparti open source per avere l’intuizione poiché…
Fonte: towardsdatascience.com