Parallelizzare Python su Spark: opzioni per la concorrenza con Panda | di Matt Collins | Novembre 2023 | Intelligenza-Artificiale

Indice contenuti

Sfrutta i vantaggi di Spark quando lavori con Panda

fotografato da Florian Steciuk SU Unsplash

Nel mio ruolo precedente, ho dedicato del tempo a lavorare su un progetto interno per prevedere il futuro utilizzo dello spazio di archiviazione su disco per i nostri clienti di servizi gestiti su migliaia di dischi. Ogni disco è soggetto ai propri modelli di utilizzo e ciò significa che abbiamo bisogno di un modello di machine learning separato per ciascun disco che prenda dati storici per prevedere l’utilizzo futuro disco per disco. Sebbene eseguire questa previsione e scegliere l’algoritmo corretto per il lavoro sia di per sé una sfida, eseguirla su larga scala presenta i suoi problemi.

Per sfruttare infrastrutture più sofisticate, possiamo cercare di abbandonare le previsioni sequenziali e accelerare il funzionamento delle previsioni parallelizzando il carico di lavoro. Questo post del blog mira a confrontare le UDF di Pandas e il modulo “concurrent.futures”, due approcci di elaborazione simultanea, e a determinare i casi d’uso per ciascuno.

Pandas è un pacchetto gateway in Python per lavorare con set di dati nello spazio di analisi. Lavorando con DataFrames, siamo in grado di profilare i dati e valutarne la qualità, eseguire analisi esplorative dei dati, creare visualizzazioni descrittive dei dati e prevedere le tendenze future.

Sebbene si tratti certamente di un ottimo strumento, la natura a thread singolo di Python significa che può scalare scarsamente quando si lavora con set di dati più grandi o quando è necessario eseguire la stessa analisi su più sottoinsiemi di dati.

Nel mondo dei big data, ci aspettiamo un approccio un po’ più sofisticato, poiché ci concentriamo ulteriormente sulla scalabilità per mantenere ottime prestazioni. Spark, tra gli altri linguaggi, ci consente di sfruttare l’elaborazione distribuita per aiutarci a elaborare strutture di dati più grandi e complicate.

Prima di approfondire questo esempio specifico, possiamo generalizzare alcuni casi d’uso che riassumono la necessità di concorrenza nell’elaborazione dei dati:

Applicare trasformazioni uniformi a più file di dati
Prevedere valori futuri per diversi sottoinsiemi di dati
Ottimizza gli iperparametri per il modello di machine learning e seleziona la configurazione più efficiente

Quando aumentiamo la nostra esigenza di eseguire carichi di lavoro come quelli suggeriti sopra e nel nostro caso, l’approccio più semplice in Python e Panda è elaborare questi dati in sequenza. Per il nostro esempio, eseguiremo il flusso precedente per un disco alla volta.

Nel nostro esempio, disponiamo di dati per migliaia di dischi che mostrano lo spazio libero registrato nel tempo e vogliamo prevedere i futuri valori di spazio libero per ciascuno dei dischi.

Per dipingere il quadro un po’ più chiaramente, ho fornito un file CSV contenente 1.000 dischi ciascuno con un mese di dati storici per lo spazio libero misurato in GB. Si tratta di dimensioni sufficienti per consentirci di vedere l’impatto dei diversi approcci alla previsione su larga scala.