
Nel mondo del machine learning, le pipeline di formazione automatizzate semplificano il percorso dai dati agli insight. Automatizzano varie parti del ciclo di vita del machine learning, come l’inserimento dei dati, la preelaborazione, l’addestramento dei modelli, la valutazione e l’implementazione. Amazon Web Services (“AWS”) fornisce vari strumenti per sviluppare una pipeline di formazione automatizzata. In questo articolo, illustreremo la configurazione di una pipeline di addestramento automatizzato di base utilizzando il classico set di dati Iris.
In questa sezione tratteremo alcuni requisiti di alto livello nonché una breve panoramica degli strumenti AWS che utilizzeremo.
Requisiti
Se scegli di proseguire costruendo la tua pipeline di formazione, avrai bisogno di quanto segue.
- Un account AWS attivo (puoi registrarti Qui) con accesso amministratore
- Conoscenza di base di AWS CLI (Esploreremo le alternative all’AWS CLI nei post futuri)
Tuttavia, la configurazione del tuo account AWS e la connessione ad AWS tramite la CLI va oltre lo scopo di questo post: sentiti libero di contattarci direttamente se hai bisogno di aiuto.
Kit di strumenti
La configurazione della pipeline di formazione automatizzata richiederà l’uso dei seguenti prodotti AWS.
- S3: servizio di archiviazione di oggetti scalabile progettato per archiviare e recuperare qualsiasi quantità di dati da qualsiasi punto del Web
- Lambda: servizio di elaborazione serverless che esegue automaticamente il codice in risposta a eventi, come le modifiche ai dati in un bucket Amazon S3
- Finestra mobile: Docker è una piattaforma che impacchetta, distribuisce e gestisce applicazioni all’interno di contenitori leggeri e portatili
- Sagemaker: servizio completamente gestito che offre a sviluppatori e data scientist la possibilità di creare, addestrare e distribuire modelli di machine learning in modo rapido e semplice
- Funzioni passo: servizio di flusso di lavoro serverless che ti consente di coordinare applicazioni distribuite e microservizi utilizzando flussi di lavoro visivi, consentendoti di creare, eseguire e visualizzare processi complessi su larga scala
Fonte: towardsdatascience.com