Configurazione di flussi di lavoro di addestramento automatizzato dei modelli con AWS S3 | di Khuyen Tran | Marzo 2024 | Intelligenza-Artificiale

L'approccio open source per l'automazione del flusso di lavoro

Considera di essere una piattaforma di e-commerce che mira a migliorare la personalizzazione dei consigli. I tuoi dati risiedono in S3.

Per perfezionare i consigli, prevedi di riqualificare i modelli di consigli utilizzando nuovi dati sulle interazioni dei clienti ogni volta che un nuovo file viene aggiunto a S3. Ma come affrontare esattamente questo compito?

Se non diversamente specificato, tutte le immagini sono dell'autore

Due soluzioni comuni a questo problema sono:

AWSLambda: Un servizio di elaborazione serverless di AWS, che consente l'esecuzione di codice in risposta a eventi senza gestire i server.
Orchestratori open source: Strumenti che automatizzano, pianificano e monitorano flussi di lavoro e attività, solitamente ospitati autonomamente.

L'utilizzo di un orchestratore open source offre vantaggi rispetto ad AWS Lambda:

Efficacia dei costi: L'esecuzione di attività lunghe su AWS Lambda può essere costosa. Gli orchestratori open source ti consentono di utilizzare la tua infrastruttura, con un potenziale risparmio sui costi.
Iterazione più veloce: Lo sviluppo e il test dei flussi di lavoro a livello locale accelera il processo, semplificando il debug e il perfezionamento.
Controllo dell'ambiente: Il controllo completo sull'ambiente di esecuzione ti consente di personalizzare gli strumenti di sviluppo e gli IDE in base alle tue preferenze.

Anche se potresti risolvere questo problema in Apache Airflow, richiederebbe un'infrastruttura complessa e una configurazione di distribuzione. Utilizzeremo quindi Kestra, che offre un'interfaccia utente intuitiva e può essere avviato con un singolo comando Docker.

Sentiti libero di giocare e creare un fork del codice sorgente di questo articolo qui:

Questo flusso di lavoro è costituito da due componenti principali: script Python e orchestrazione.

Fonte: towardsdatascience.com