Questo è il il quarto post nella mia serie di tutorial su scikit-learn. Se non li hai colti, ti consiglio vivamente i miei primi due post: sarà molto più semplice seguirli:
Tutorial di Sklearn
Questo 4° modulo introduce il concetto di modelli lineariusando l’infame regressione lineare E regressione logistica modelli come esempi funzionanti.
Oltre a questi modelli lineari di base, mostriamo come utilizzare l’ingegneria delle funzionalità gestire problemi non lineari utilizzando solo modelli lineari, così come il concetto di regolarizzazione per evitare un adattamento eccessivo.
Nel complesso, questi concetti ci consentono di creare modelli molto semplici ma potenti, in grado di gestire molti problemi di ML con iperparametri ottimizzati, senza overfitting, gestendo al contempo problemi non lineari.
Tutti i grafici e le immagini sono realizzati dall’autore.
I modelli lineari sono modelli che “si adattano” o “imparano” impostando coefficienti tali che alla fine si basino solo su una combinazione lineare delle caratteristiche di input. In altre parole, se i dati di input sono costituiti da N caratteristiche da f_1 a f_N, il modello ad un certo punto si basa sulla combinazione lineare:
I coefficienti che il modello apprende sono i coefficienti N+1 beta. Il coefficiente beta_0 rappresenta un offset, un valore costante nell’output qualunque siano i valori nell’input. L’idea alla base di tali modelli è che la “verità” può essere approssimata con una relazione lineare tra input e output.
Nel caso di problemi di regressione in cui vogliamo prevedere un valore numerico dagli input, uno dei modelli lineari più semplici e conosciuti è la regressione lineare. Molto probabilmente hai già eseguito centinaia di regressioni lineari (a mano, in Excel o Python).
Nel caso del problema di classificazione, dove vogliamo predire una categoria dagli input, il modello lineare più semplice e conosciuto è la regressione logistica (non fatevi ingannare…
Fonte: towardsdatascience.com