Una guida passo passo per comprendere il concetto di dipendenza e come applicarlo per convalidare i grafici aciclici diretti utilizzando Python
L’inferenza causale è un ramo emergente della scienza dei dati che si occupa di determinare la relazione di causa-effetto tra eventi e risultati e ha il potenziale per aggiungere in modo significativo il valore che l’apprendimento automatico può generare per le organizzazioni.
Ad esempio, un tradizionale algoritmo di apprendimento automatico può prevedere quali clienti potrebbero andare in default, consentendo così un intervento proattivo con i clienti. Tuttavia, sebbene questo algoritmo sarà utile per ridurre le inadempienze dei prestiti, non avrà idea del motivo per cui si sono verificate e, sebbene sia utile un intervento proattivo, conoscere le ragioni delle inadempienze consentirebbe di affrontarne la causa sottostante. In questo mondo l’intervento proattivo potrebbe non essere più necessario perché i fattori che portano al default sono stati definitivamente curati.
Questa è la promessa dell’inferenza causale e il motivo per cui ha il potenziale per fornire un impatto e risultati significativi a quelle organizzazioni che riescono a sfruttare tale potenziale.
Esistono numerosi approcci diversi, ma l’approccio più comune in genere inizia arricchendo i dati con un “grafico aciclico diretto” che incapsula e visualizza le relazioni causali nei dati e quindi utilizza tecniche di inferenza causale per porre domande di tipo “what-if” .
Il problema
Un grafico aciclico diretto (DAG) che incapsula le relazioni causali nei dati viene generalmente costruito manualmente (o semi-manualmente) da data scientist ed esperti di dominio che lavorano insieme. Pertanto il DAG potrebbe sbagliarsi, il che invaliderebbe qualsiasi calcolo causale che porti a conclusioni errate e decisioni potenzialmente errate.
L’opportunità
Esistono diverse tecniche per la “convalida causale” (il processo di convalida del DAG rispetto ai dati) e, se queste tecniche funzionano, possono ridurre al minimo o eliminare gli errori nel DAG garantendo così che…
Fonte: towardsdatascience.com