Da scoperta di nuovi farmaci A classificazione delle specie, livello di crediti A sicurezza informatica e inoltre, la foresta casuale è un algoritmo popolare e potente per modellare il nostro mondo complesso. La sua versatilità e capacità predittiva sembrerebbero richiedere una complessità all’avanguardia, ma se scaviamo in cosa sia in realtà una foresta casuale, vediamo una serie incredibilmente semplice di passaggi ripetitivi.
Trovo che il modo migliore per imparare qualcosa sia giocarci. Quindi, per avere un’idea di come funzionano le foreste casuali, costruiamone una a mano in Python, iniziando con un albero decisionale ed espandendoci alla foresta completa. Vedremo in prima persona quanto questo algoritmo sia flessibile e interpretabile sia per la classificazione che per la regressione. E anche se questo progetto può sembrare complicato, in realtà ci sono solo alcuni concetti fondamentali che dovremo imparare: 1) come partizionare in modo iterativo i dati e 2) come quantificare la qualità del partizionamento dei dati.
Inferenza dell’albero decisionale
Un albero decisionale è un algoritmo di apprendimento supervisionato che identifica un insieme ramificato di regole binarie che associano le caratteristiche alle etichette in un set di dati. A differenza di algoritmi come la regressione logistica in cui l’output è un’equazione, l’algoritmo dell’albero decisionale lo è non parametricoil che significa che non fa ipotesi forti sulla relazione tra funzionalità ed etichette. Ciò significa che gli alberi decisionali sono liberi di crescere nel modo migliore per partizionare i dati di addestramento, quindi la struttura risultante varierà tra i set di dati.
Uno dei principali vantaggi degli alberi decisionali è la loro spiegabilità: ogni passo compiuto dall’albero per decidere come prevedere una categoria (per la classificazione) o un valore continuo (per la regressione) può essere visto nei nodi dell’albero. Un modello che prevede se un acquirente acquisterà un prodotto che ha visualizzato online, ad esempio, potrebbe assomigliare a questo.
A partire da radiceogni nodo nell’albero pone una domanda binaria (ad esempio, “La durata della sessione è stata superiore a 5 minuti?”) e passa il vettore delle caratteristiche a uno dei due nodi figli a seconda del…
Fonte: towardsdatascience.com