Dovremmo virtualizzare i nostri sistemi di data science e... oppure no? | di Will Keefe | Settembre 2023 | Intelligenza-Artificiale

Configurazione attuale dell’Homelab dell’autore

Può essere difficile individuare i pro e i contro della virtualizzazione dei processi di data science, ma alcuni trend in termini di potenza e prestazioni non possono essere ignorati

Poiché l’utilizzo dei “big data” è sempre più rilevante per la risoluzione dei problemi in ogni settore, i repository di dati su scala homelab e data-lake richiedono più potenza di calcolo parallelizzata per estrarre, trasformare, caricare e analizzare i dati come mai prima d’ora. Durante la creazione del mio homelab, la decisione di creare le mie configurazioni parallelizzate su macchine virtuali o in modo nativo su hardware mi ha lasciato perplesso e ho faticato a trovare confronti tra le prestazioni. In questo articolo esploreremo alcuni dei pro e dei contro di ciascuna configurazione, nonché prestazioni affiancate e benchmark di ciascuna metodologia sia virtuale che nativa.

Molti cluster di elaborazione parallelizzati includono più nodi o computer designati per elaborare attività distribuite su di essi in un cluster. La gestione di tali nodi può essere un grosso grattacapo, ecco perché L’ingegneria dei dati è così redditizia rispetto alle loro controparti analitiche. In genere, le aziende gestiranno intere flotte di cluster, il che renderebbe quasi impossibile prestare attenzione individuale ai singoli nodi, e invece configurazioni di “alta disponibilità” con strumenti come Proxmox, Kubernetes e Docker Swarm sono requisiti per l’impresa moderna. Probabilmente hai già interagito con questi cluster e non te ne sei reso conto nemmeno questa settimana: il sandwich al pollo che ho mangiato a pranzo da Chick-fil-A è notoriamente soddisfatto tramite un cluster Kubernetes di edge computing con il loro sistema di punti vendita.

I vantaggi derivanti dall’elaborazione in macchine virtualizzate sono numerosi, tra cui:

Interi sistemi operativi possono essere implementati rapidamente dai server aziendali al campo quasi istantaneamente
È possibile eseguire il backup delle immagini in tempo reale
Le distribuzioni possono essere containerizzate per limitare l’ambito e aumentare la sicurezza
In caso di guasti hardware, i sistemi possono essere migrati con tempi di inattività minimi

Questi non sono affatto concetti nuovi, ma con una crescente necessità di analisi dei dati a tutti i livelli delle organizzazioni, il…

Fonte: towardsdatascience.com