Gli algoritmi di apprendimento d’insieme come XGBoost o Random Forests sono tra i modelli più performanti nelle competizioni Kaggle. Come funzionano?
Gli algoritmi di apprendimento fondamentali come la regressione logistica o la regressione lineare sono spesso troppo semplici per ottenere risultati adeguati per un problema di apprendimento automatico. Sebbene una possibile soluzione sia l’utilizzo delle reti neurali, queste richiedono una grande quantità di dati di addestramento, che raramente sono disponibili. Le tecniche di apprendimento d’insieme possono migliorare le prestazioni di modelli semplici anche con una quantità limitata di dati.
Immagina di chiedere a una persona di indovinare quante caramelle gommose ci sono all’interno di un grande barattolo. La risposta di una persona difficilmente sarà una stima precisa del numero corretto. Invece, se poniamo la stessa domanda a mille persone, la risposta media sarà probabilmente vicina al numero effettivo. Questo fenomeno è chiamato saggezza della folla (1). Quando si affrontano compiti di stima complessi, la folla può essere notevolmente più precisa di un individuo.
Gli algoritmi di apprendimento d’insieme sfruttano questo semplice principio aggregando le previsioni di un gruppo di modelli, come regressori o classificatori. Per un’aggregazione di classificatori, il modello ensemble potrebbe semplicemente scegliere la classe più comune tra le previsioni dei classificatori di basso livello. Invece, l’insieme può utilizzare la media o la mediana di tutte le previsioni per un’attività di regressione.
Aggregando un gran numero di studenti deboli, cioè classificatori o regressori che sono solo leggermente migliori delle ipotesi casuali, possiamo ottenere risultati impensabili. Considera un’attività di classificazione binaria. Aggregando 1000 classificatori indipendenti con una precisione individuale del 51% possiamo creare un insieme che raggiunge una precisione del 75% (2).
Questo è il motivo per cui gli algoritmi ensemble sono spesso le soluzioni vincenti in molte competizioni di machine learning!
Esistono diverse tecniche per costruire un algoritmo di apprendimento d’insieme. I principali sono l’insaccamento, il potenziamento e l’impilamento. Nel seguente…
Fonte: towardsdatascience.com