Raccolta dati con Apache Airflow su un Raspberry Pi |  di Dmitrii Eliuseev |  Ottobre 2023

 | Intelligenza-Artificiale

Un Raspberry Pi è tutto ciò di cui hai bisogno

Raspberry Pi Zero (modello 2021), fonte immagine Wikipedia

Spesso abbiamo bisogno di raccogliere alcuni dati entro un certo periodo di tempo. Possono essere dati del sensore IoT, dati statistici dei social network o qualcos’altro. Ad esempio, il API dati di YouTube ci consente di ottenere il numero di visualizzazioni e iscritti per qualsiasi canale al momento attuale, ma le analisi e i dati storici sono disponibili solo per il proprietario del canale. Pertanto, se desideriamo ottenere riepiloghi settimanali o mensili su questi canali, dobbiamo raccogliere noi stessi questi dati. Nel caso del sensore IoT, potrebbe non esserci alcuna API e dobbiamo anche raccogliere e salvare i dati per conto nostro. In questo articolo mostrerò come configurare Apache Airflow su un Raspberry Pi, che consente di eseguire attività per un lungo periodo di tempo senza coinvolgere alcun provider cloud.

Ovviamente, se lavori per una grande azienda, probabilmente non avrai bisogno di un Raspberry Pi. In tal caso, se hai bisogno di un’istanza cloud aggiuntiva, crea semplicemente un ticket Jira per il tuo dipartimento MLOps 😉 Ma per un progetto preferito o una startup a basso budget, può essere una soluzione interessante.

Vediamo come funziona.

Lampone Pi

Cos’è in realtà un Raspberry Pi? Per quei lettori che non sono mai stati interessati all’hardware negli ultimi 10 anni (il primo modello Raspberry Pi è stato introdotto nel 2012), posso spiegare brevemente che si tratta di un computer a scheda singola con Linux a tutti gli effetti. Di solito, un Raspberry Pi ha una CPU ARM da 1 GHz, 2-4 core e 1-8 MB di RAM. È piccolo, economico e silenzioso; non ha ventole né unità disco (il sistema operativo viene eseguito da una scheda Micro SD). Un Raspberry Pi necessita solo di un alimentatore USB standard; può essere connesso tramite Wi-Fi o Ethernet a una rete ed eseguire diverse attività in pochi mesi o addirittura anni.

Per il mio progetto di data science, volevo raccogliere le statistiche del canale YouTube entro 2 settimane. Per un’attività che richiede solo 30-60 secondi due volte al giorno, un’architettura serverless può essere una soluzione perfetta e possiamo utilizzare qualcosa di simile Funzione Google Cloud per quello. Ma ogni tutorial di Google iniziava con la frase “abilita la fatturazione per il tuo progetto”. C’è un primo credito gratuito e quote gratuite fornite da Google, ma non volevo avere un altro grattacapo nel monitorare quanti soldi ho…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *