Introduzione alla regressione logistica in PySpark | di Gustavo Santos | Novembre 2023 | Intelligenza-Artificiale

Tutorial per eseguire il tuo primo modello di classificazione in Databricks

fotografato da Ibrahim Rifath SU Unsplash

Grandi dati. Set di dati di grandi dimensioni. Nuvola…

Quelle parole sono ovunque, seguendoci ovunque e nei pensieri di clienti, intervistatori, manager e direttori. Man mano che i dati diventano sempre più abbondanti, i set di dati aumentano di dimensioni in modo tale che, a volte, non è possibile eseguire un modello di machine learning in un ambiente locale – in una singola macchina, in altre parole.

Questa questione ci impone di adattarci e di trovare altre soluzioni, come la modellazione con Spark, che è una delle tecnologie più utilizzate per i Big Data. Spark accetta linguaggi come SQL, Python, Scala, R e dispone di metodi e attributi propri, inclusa la propria libreria di Machine Learning (MLlib). Quando lavori con Python in Spark, si chiama PySparkPer esempio.

Inoltre, esiste una piattaforma chiamata Databricks che avvolge Spark in uno strato molto ben creato che consente ai data scientist di lavorarci proprio come Anaconda.

Quando creiamo un modello ML in Databricks, accetta anche i modelli Scikit Learn, ma poiché siamo più interessati ai Big Data, tutto questo tutorial viene creato utilizzando MLlib di Sparkche è più adatto a set di dati di grandi dimensioni e anche in questo modo aggiungiamo un nuovo strumento al nostro set di competenze.

Andiamo.

Il set di dati per questo esercizio è già all’interno di Databricks. È uno dei set di dati dell’UCI, Adultiquesto è un estratto di un censimento ed etichettato con individui che guadagnano meno o più di $ 50.000 all’anno. I dati sono pubblicamente disponibili a questo indirizzo: https://archive.ics.uci.edu/dataset/2/adult

Il nostro tutorial consiste nel creare un classificatore binario che indichi se una persona guadagna meno o più di $ 50.000 di reddito in un anno.

In questa sezione, esaminiamo ogni passaggio del nostro modello.

Ecco i moduli che dobbiamo importare.

from pyspark.sql.functions import col
from pyspark.ml.feature import UnivariateFeatureSelector
from pyspark.ml.feature import RFormula
from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml import…

Fonte: towardsdatascience.com