Se hai imparato a programmare, capisci che non si tratta solo di memorizzare la sintassi. Si tratta di imparare un nuovo modo di pensare.
Per prima cosa impari gli strumenti (sintassi, strutture dati, algoritmi, ecc.). Quindi ti viene dato un problema e devi risolverlo in un modo che utilizzi in modo efficiente quegli strumenti.
La scienza dei dati è la stessa. Lavorare in questo campo significa incontrare problemi quotidianamente e non intendo solo bug di codice.
Esempi di problemi che i data scientist devono risolvere:
Come posso rilevare valori anomali in questo set di dati?
Come posso prevedere il consumo energetico di domani?
Come posso classificare questa immagine come volto o oggetto?
I data scientist utilizzano una varietà di strumenti per affrontare questi problemi: apprendimento automatico, statistica, visualizzazione e altro ancora. Ma se vuoi trovare soluzioni ottimali, hai bisogno di un approccio che tenga presenti determinati principi.
Capire che i dati sono la cosa più importante.
Lo so, sembra davvero ovvio. Lasciatemi spiegare.
Uno degli errori più grandi commessi dalle persone che sono nuove alla scienza dei dati, così come dalle persone non tecniche che lavorano con i data scientist, è concentrarsi troppo sulle cose sbagliate, come:
- Scelta dei modelli più complessi
- Ottimizzazione degli iperparametri all’eccesso
- Cercando di risolvere ogni problema relativo ai dati con l’apprendimento automatico
Il campo della scienza dei dati e del machine learning si sviluppa rapidamente. C’è sempre una nuova libreria, una tecnologia più veloce o un modello migliore. Ma la scelta più complicata e all’avanguardia lo è non sempre la scelta migliore. Ci sono molte considerazioni da fare nella scelta di un modello, inclusa la richiesta se è addirittura necessario l’apprendimento automatico.
Lavoro nel settore energetico e gran parte del lavoro che svolgo è il rilevamento di valori anomali, sia che sia così per poterli rimuovere e addestrare un modello, sia per poterli contrassegnare per un’ulteriore ispezione umana.
Fonte: towardsdatascience.com