Considera di essere una piattaforma di e-commerce che mira a migliorare la personalizzazione dei consigli. I tuoi dati risiedono in S3.
Per perfezionare i consigli, prevedi di riqualificare i modelli di consigli utilizzando nuovi dati sulle interazioni dei clienti ogni volta che un nuovo file viene aggiunto a S3. Ma come affrontare esattamente questo compito?
Due soluzioni comuni a questo problema sono:
- AWSLambda: Un servizio di elaborazione serverless di AWS, che consente l'esecuzione di codice in risposta a eventi senza gestire i server.
- Orchestratori open source: Strumenti che automatizzano, pianificano e monitorano flussi di lavoro e attività, solitamente ospitati autonomamente.
L'utilizzo di un orchestratore open source offre vantaggi rispetto ad AWS Lambda:
- Efficacia dei costi: L'esecuzione di attività lunghe su AWS Lambda può essere costosa. Gli orchestratori open source ti consentono di utilizzare la tua infrastruttura, con un potenziale risparmio sui costi.
- Iterazione più veloce: Lo sviluppo e il test dei flussi di lavoro a livello locale accelera il processo, semplificando il debug e il perfezionamento.
- Controllo dell'ambiente: Il controllo completo sull'ambiente di esecuzione ti consente di personalizzare gli strumenti di sviluppo e gli IDE in base alle tue preferenze.
Anche se potresti risolvere questo problema in Apache Airflow, richiederebbe un'infrastruttura complessa e una configurazione di distribuzione. Utilizzeremo quindi Kestra, che offre un'interfaccia utente intuitiva e può essere avviato con un singolo comando Docker.
Sentiti libero di giocare e creare un fork del codice sorgente di questo articolo qui:
Questo flusso di lavoro è costituito da due componenti principali: script Python e orchestrazione.
Fonte: towardsdatascience.com