
Rilevare la multicollinearità nei set di dati è un passo importante ma anche impegnativo. Dimostrerò come rilevare variabili con comportamento simile in set di dati misti e come esaminare più approfonditamente le relazioni con i grafici interattivi.
Comprendere la forza delle relazioni tra le variabili in un set di dati è importante perché le variabili con comportamento statisticamente simile possono influire sull’affidabilità dei modelli. Per rimuovere la cosiddetta multicollinearità possiamo utilizzare misure di correlazione per variabili continue. Tuttavia, quando disponiamo anche di variabili categoriali e quindi di set di dati misti, diventa ancora più difficile testare la multicollinearità. I test statistici, come il test ipergeometrico e il test U di Mann-Whitney, possono essere utilizzati per verificare le associazioni tra variabili in set di dati misti. Anche se questo è ottimo, richiede vari passaggi intermedi come la digitazione di variabili, la codifica one-hot e più correzioni di test, tra gli altri. L’intera pipeline è facilmente implementabile in un metodo denominato HNet. In questo blog dimostrerò come rilevare variabili con comportamento simile in modo che la multicollinearità possa essere facilmente rilevata.
I dati del mondo reale spesso contengono misurazioni con valori sia continui che discreti. Dobbiamo esaminare ciascuna variabile e usare il buon senso per determinare se le variabili possono essere correlate tra loro. Ma quando ci sono decine (o più) variabili, dove ciascuna variabile può avere più stati per categoria, diventa dispendioso in termini di tempo e soggetto a errori controllare manualmente tutte le variabili. Possiamo automatizzare questa attività eseguendo fasi di pre-elaborazione intensive, insieme a metodi di test statistici. Ecco che arriva HNet (1, 2) in gioco che utilizza test statistici per determinare le relazioni significative tra tutte le variabili in un set di dati. Ti consente di inserire i tuoi dati grezzi non strutturati nel modello e quindi di produrre una rete che fa luce sulle complesse relazioni tra le variabili. Andiamo alla sezione successiva dove spiegherò come rilevare variabili con comportamento simile utilizzando la statistica…
Fonte: towardsdatascience.com