Scienza dei dati di successo rapido
IL Kit di strumenti per il linguaggio naturale (NLTK) viene fornito con una funzionalità divertente chiamata a grafico di dispersione che ti consente di pubblicare la posizione di una parola in un testo. Più specificamente, traccia le occorrenze di una parola rispetto al numero di parole dall'inizio del corpus.
Ecco un esempio di trama di dispersione per i personaggi principali del romanzo di Sherlock Holmes, Il Mastino dei Baskerville:
I segni di spunta blu verticali rappresentano le posizioni delle parole di destinazione nel testo. Ogni riga copre il corpus dall'inizio alla fine.
Se hai familiarità con Il Mastino dei Baskerville – e non lo rovinerò se non lo sei – allora apprezzerai la scarsa presenza di Holmes nel mezzo, il ritorno tardivo di Mortimer e la sovrapposizione di Barrymore, Selden e il segugio.
I grafici di dispersione possono avere applicazioni più pratiche. Ad esempio, immagina di essere un data scientist che lavora con i paralegali su un procedimento penale che coinvolge l'insider trading. Per scoprire se l'imputato ha contattato i membri del consiglio poco prima di effettuare le operazioni illegali, è possibile caricare le e-mail di citazione dell'imputato come una stringa continua e generare un grafico di dispersione per verificare la giustapposizione dei nomi.
Gli scienziati sociali analizzano i grafici di dispersione per studiare le tendenze linguistiche relative ad argomenti specifici. Monitorando la presenza di termini come “cambiamento climatico” o “controllo delle armi” negli articoli di notizie, possono ottenere informazioni sulle priorità importanti per la società in periodi di tempo specifici.
In questo Scienza dei dati di successo rapido project, scriveremo il codice Python che ha generato Il Mastino dei Baskerville grafico di dispersione mostrato in precedenza.
Utilizzeremo una copia del romanzo memorizzata qui Il succo. Originariamente proveniva da Progetto Gutenberguna grande fonte di letteratura di pubblico dominio. Come raccomandato per l'elaborazione del linguaggio naturale, l'ho privato di…
Fonte: towardsdatascience.com