Elaborazione del linguaggio naturale
Questo articolo esplora la relazione tra il dialogo di un film e il suo genere, sfruttando l’analisi dei dati basata sul dominio e la progettazione informata delle funzionalità.
Dal discorso frammentato nei thriller agli scambi carichi di imprecazioni nei film d’azione, possiamo indovinare il genere di un film semplicemente conoscendone le caratteristiche semantiche e sintattiche nel dialogo? Se sì, quali?
Indagheremo se i modelli di dialogo sfumati all’interno di una sceneggiatura – il suo lessico, la struttura e il ritmo – possono essere o meno potenti predittori del genere. L’obiettivo qui è duplice: sfruttare le caratteristiche sintattiche e semantiche dello script come caratteristiche predittive e sottolineare l’importanza dell’ingegneria delle funzionalità informate.
Una delle principali lacune in molti corsi di scienza dei dati è la mancanza di enfasi sulle competenze del settore e sulla generazione, ingegneria e selezione delle funzionalità. Molti corsi forniscono agli studenti anche set di dati preesistenti e, talvolta, questi set di dati sono già ripuliti. Inoltre, sul posto di lavoro, la fretta di produrre risultati spesso mette in ombra il processo di ipotesi e validazione delle caratteristiche predittive, lasciando poco spazio all’esplorazione e alla comprensione di ambiti specifici.
Nella mia esperienza descritta in “Utilizzo dell’apprendimento multi-task e dell’insieme per prevedere il funzionamento cognitivo dell’Alzheimer“, ho assistito all’impatto positivo della progettazione informata delle funzionalità. La ricerca sui predittori noti dell’Alzheimer mi ha permesso di mettere in discussione il compito iniziale e i dati, portando infine all’inclusione delle caratteristiche chiave durante la modellazione.
In questo articolo, approfondisco un progetto che esamina il dialogo cinematografico per illustrare il mio approccio alla ricerca e all’estrazione delle caratteristiche. L’attenzione sarà focalizzata sull’identificazione e l’analisi degli elementi testuali, semantici e sintattici all’interno del dialogo cinematografico, indagando come sono interrelati e valutando la loro capacità di prevedere con precisione l’andamento di un film.
Fonte: towardsdatascience.com