Soundhound sta dando alla sua AI il potere della vista

 | Intelligenza-Artificiale

Soundhound AI, già un importante attore in assistenti vocali, ora sta dando alla sua tecnologia un paio di occhi.

Immagina di guidare oltre un punto di riferimento e, senza estrarre il telefono, chiedere alla tua auto: “Che cos'è quell'edificio laggiù?” e ottenere una risposta istantanea. Questo è ciò che Soundhound Ai sta costruendo.

Con il lancio di Vision AI, il nuovo sistema di Soundhound combina la vista con il suono per creare un modo molto più intelligente e naturale per interagire con la tecnologia. L'idea è di imitare come operiamo come umani; Non ascoltiamo solo qualcuno, vediamo anche i loro gesti e quello che stanno guardando.

Portando questa stessa comprensione contestuale all'IA, Soundhound spera di appianare l'esperienza goffa e spesso frustrante che abbiamo con molti dei dispositivi intelligenti di oggi. La società si rivolge a applicazioni del mondo reale in cui questo senso combinato potrebbe fare una grande differenza, sia nella tua prossima auto, al ristorante Drive-Thru o in una fabbrica.

Keyvan Mohajer, CEO di Soundhound AI, ha dichiarato: “A Soundhound, crediamo che il futuro dell'IA non sia solo multimodale: è profondamente integrato, reattivo e costruito per un impatto nel mondo reale.

“Con Vision AI, stiamo estendendo la nostra leadership nella voce e nell'intelligenza artificiale conversazionale per ridefinire il modo in cui gli umani interagiscono con prodotti e servizi offerti e utilizzati dalle aziende.”

Allora, come funziona? Vision Ai prende un feed dal vivo da una telecamera e lo fonde con la tecnologia vocale dell'azienda, che già eccelle nella comprensione del linguaggio naturale. Elaborando ciò che vede e ciò che sente esattamente nello stesso momento, il sistema può cogliere il vero intento dell'utente in un modo che un semplice assistente vocale non potrebbe mai.

Pensa a un meccanico che indossa occhiali intelligenti che possono semplicemente guardare una parte del motore e chiedere istruzioni, ricevendo una guida visiva e audio istantanea senza mai mettere giù i loro strumenti. In un negozio, un membro del personale potrebbe scansionare gli scaffali semplicemente guardandoli per ottenere un conteggio di inventario in tempo reale. Per il resto di noi, potrebbe significare un chiosco drive-thru che conferma visivamente il nostro ordine sullo schermo nel momento in cui lo diciamo.

Uno dei maggiori problemi tecnici nella creazione di tale sistema è garantire che gli elementi audio e visivi siano perfettamente sincronizzati. Qualsiasi ritardo distruggerebbe l'illusione di una conversazione naturale.

Pranav Singh, vicepresidente dell'ingegneria presso Soundhound AI, ha commentato: “Con la visione AI, stiamo fondendo il riconoscimento visivo e l'intelligenza conversazionale in un singolo flusso sincronizzato. Ogni frame, ogni espressione, ogni intento viene interpretato all'interno dello stesso ecosistema, che assumono esperienze di utenti più veloci e più naturali che si scatenano attraverso le superfici dei kiosk a decodi.

“Questa è innovazione per l'intersezione di intelligenza e esecuzione, che offre AI che vede ciò che vedi, sente ciò che dici e risponde al momento.”

Per le aziende che adottano questa tecnologia, la promessa è quella di fornire un servizio più veloce, meno errori e clienti più felici. Si tratta di rimuovere l'attrito e rendere la tecnologia meno simile a uno strumento che devi operare e più come un partner che ti aiuta a fare le cose.

Questa nuova capacità visiva non è l'unico soundhound di aggiornamento che è implementato. La società ha anche recentemente migliorato il “cervello” del suo sistema con un nuovo aggiornamento, Amelia 7.1. Questo miglioramento fa il suo Agenti di ai Più veloce, più accurato e offre alle aziende più controllo e trasparenza su come funzionano.

Combinando la vista e il suono, Soundhound mira a avvicinarci a un mondo in cui interagire con AI sembra facile e intuitivo come parlare con un'altra persona.

(Foto di Cristiano Lue)

Vedi anche: Alan Turing Institute: le discipline umanistiche sono fondamentali per il futuro dell'IA

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber Security & Cloud Expo.

Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.

Fonte: www.artificialintelligence-news.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *