
Ottenere approfondimenti statistici utilizzando Panda e l’API dati di YouTube
Nel prima parte della storia, ho raccolto dati statistici da circa 3000 canali YouTube e ho ottenuto alcuni spunti interessanti. In questa parte andrò un po’ più in profondità, dal livello “canale” generico al livello “video” individuale. Mostrerò come raccogliere dati sui video di YouTube e che tipo di informazioni possiamo ottenere.
Metodologia
Per raccogliere dati sui video di YouTube, dobbiamo eseguire diversi passaggi:
- Ottieni le credenziali per l’API dati di YouTube. È gratuito e il limite API di 10.000 richieste al giorno è sufficiente per il nostro compito.
- Trova diversi canali YouTube che vogliamo analizzare.
- Scrivi del codice Python per ottenere i video più recenti e le relative statistiche per un canale selezionato. L’analisi di YouTube è disponibile solo per i proprietari dei canali e possiamo solo ottenere dati al momento attuale. Ma possiamo eseguire il codice per un po’. Nel mio caso, ho raccolto dati per tre settimane utilizzando Apache Airflow e un Raspberry Pi.
- Eseguire l’analisi dei dati. Per questo utilizzerò Panda, Matplotlib e Seaborn.
L’ottenimento delle credenziali dell’API di YouTube e la configurazione di Apache AirFlow sono stati descritti nei miei articoli precedenti e consiglio ai lettori di mettere in pausa questo e leggere prima quella parte:
E ora cominciamo.
1. Ottenere i dati
Per ottenere informazioni sui video di YouTube, utilizzerò a Python-youtube biblioteca. Sorprendentemente, non esiste un metodo pronto all’uso per ottenere l’elenco dei video da un canale specifico e dobbiamo implementarlo da soli.
Per prima cosa dobbiamo chiamare il get_channel_info
che, come suggerisce il nome, ci restituirà le informazioni di base sul canale.
from pyyoutube import Apidef get_channel_info(api: Api, channel_id: str)…
Fonte: towardsdatascience.com