Una guida a 21 metodi e pacchetti importanti per le funzionalità di machine learning (con codice) |  di Theophano Mitsa |  Dicembre 2023

 | Intelligenza-Artificiale

Dai pacchetti di interpretabilità OmniXAI, Shapash e Dalex agli algoritmi di selezione delle funzionalità Boruta, Relief e Random Forest

Immagine creata dall’autore presso DALL-E

“Noi siamo le nostre scelte”. —Jean-Paul Sartre

Noi vivere nell’era dell’intelligenza artificiale, soprattutto a causa dell’incredibile progresso dei Large Language Models (LLM). Per quanto sia importante per un ingegnere di machine learning conoscere queste nuove tecnologie, altrettanto importante è la sua capacità di padroneggiare i concetti fondamentali di selezione, ottimizzazione e distribuzione del modello. Qualcos’altro è molto importante: l’input a quanto sopra, che consiste nel caratteristiche dei dati. I dati, come le persone, hanno caratteristiche chiamate caratteristiche. Nel caso delle persone, è necessario comprendere le loro caratteristiche uniche per tirar fuori il meglio da loro. Ebbene, lo stesso principio si applica ai dati. Nello specifico, questo articolo riguarda importanza delle caratteristicheche misura il contributo di una caratteristica alla capacità predittiva di un modello. Dobbiamo comprendere l’importanza delle funzionalità per molte ragioni essenziali:

  • Tempo: la presenza di troppe funzionalità rallenta il tempo del modello di training e anche la distribuzione del modello. Quest’ultimo è particolarmente importante nelle applicazioni edge (mobili, sensori, diagnostica medica).
  • Adattamento eccessivo. Se le nostre caratteristiche non vengono selezionate attentamente, potremmo rendere il nostro modello troppo adatto, ovvero apprendere anche il rumore.
  • Maledizione della dimensionalità. Molte funzionalità significano molte dimensioni e ciò rende l’analisi dei dati esponenzialmente più difficile. Per esempio, classificazione k-NN, un algoritmo ampiamente utilizzato, è fortemente influenzato dall’aumento delle dimensioni.
  • Adattabilità e trasferimento dell’apprendimento. Questo è il mio motivo preferito e in realtà il motivo per cui ho scritto questo articolo. In trasferire l’apprendimentoun modello addestrato in un compito può essere utilizzato in un secondo compito con qualche perfezionamento. Avere una buona comprensione delle funzionalità nella prima e nella seconda attività può ridurre notevolmente la messa a punto necessaria.

Ci concentreremo sui dati tabulari e discuteremo ventuno modi per valutare l’importanza delle caratteristiche. Ci si potrebbe chiedere: ‘Perché ventuno tecniche? Non ne basta uno?’ È importante…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *