Ogni volta che affrontiamo qualsiasi compito relativo all’analisi dei risultati binari, spesso pensiamo alla regressione logistica come al metodo da seguire. Ecco perché la maggior parte degli articoli sulla regressione con risultati binari si concentrano esclusivamente sulla regressione logistica. Tuttavia, la regressione logistica non è l’unica opzione disponibile. Esistono altri metodi, come il modello di probabilità lineare (LPM), la regressione Probit e la regressione Log-Log complementare (Cloglog). Sfortunatamente, su Internet mancano articoli su questi argomenti.
Il modello della probabilità lineare viene utilizzato raramente perché non è molto efficace nel catturare la relazione curvilinea tra un risultato binario e variabili indipendenti. Ne ho discusso in precedenza Regressione intasata in uno dei miei articoli precedenti. Anche se su Internet sono disponibili alcuni articoli sulla regressione Probit, questi tendono ad essere tecnici e difficili da comprendere per i lettori non tecnici. In questo articolo spiegheremo i principi di base della regressione Probit e le sue applicazioni e la confronteremo con la regressione logistica.
Ecco come appare tipicamente una relazione tra una variabile di risultato binaria e una variabile indipendente:
La curva che vedi è chiamata curva a forma di S o curva sigmoidea. Se osserviamo attentamente questo grafico, noteremo che assomiglia a una funzione di distribuzione cumulativa (CDF) di una variabile casuale. Pertanto, ha senso utilizzare la CDF per modellare la relazione tra una variabile di risultato binaria e variabili indipendenti. Le due CDF più comunemente utilizzate sono la distribuzione logistica e quella normale. La regressione logistica utilizza la CDF logistica, data con la seguente equazione:
Nella regressione Probit, utilizziamo la funzione di distribuzione cumulativa (CDF) della distribuzione normale. Ragionevolmente, possiamo semplicemente sostituire la CDF logistica con la CDF a distribuzione normale per ottenere l’equazione della regressione Probit:
Dove Φ() rappresenta la funzione di distribuzione cumulativa della distribuzione normale standard.
Possiamo memorizzare questa equazione, ma non chiarirà il nostro concetto relativo alla regressione Probit. Pertanto, adotteremo un approccio diverso per comprendere meglio come funziona la regressione Probit.
Supponiamo di avere dati sul peso e sullo stato depressivo di un campione di 1000 individui. Il nostro obiettivo è esaminare la relazione tra peso e depressione utilizzando la regressione Probit. (Scarica i dati da questo collegamento. )
Per fornire un’intuizione, immaginiamo che se un individuo (l’individuo “ith”) sperimenterà o meno la depressione dipende da una variabile latente non osservabile, indicata come Aio. Questa variabile latente è influenzata da una o più variabili indipendenti. Nel nostro scenario, il peso di un individuo determina il valore della variabile latente. La probabilità di sperimentare la depressione aumenta con l’aumento della variabile latente.
La domanda è: dal momento che Aio è una variabile latente non osservata, come stimiamo i parametri dell’equazione precedente? Ebbene, se assumiamo che sia distribuito normalmente con la stessa media e varianza, saremo in grado di ottenere alcune informazioni riguardanti la variabile latente e stimare i parametri del modello. Spiegherò le equazioni più dettagliatamente in seguito, ma prima eseguiamo alcuni calcoli pratici.
Tornando ai nostri dati: nei nostri dati, calcoliamo la probabilità di depressione per ciascuna età e la tabelliamo. Ad esempio, ci sono 7 persone con un peso di 40 kg e 1 di loro soffre di depressione, quindi la probabilità di depressione per un peso di 40 kg è 1/7 = 0,14286. Se lo facciamo per tutto il peso, otterremo questa tabella:
Ora, come otteniamo i valori della variabile latente? Sappiamo che la distribuzione normale dà la probabilità di Y per un dato valore di X. Tuttavia, la funzione di distribuzione cumulativa inversa (CDF) della distribuzione normale ci consente di ottenere il valore di X per un dato valore di probabilità. In questo caso abbiamo già i valori di probabilità, il che significa che possiamo determinare il valore corrispondente della variabile latente utilizzando la CDF inversa della distribuzione normale. (Nota: la funzione CDF normale inversa è disponibile in quasi tutti i software statistici, incluso Excel.)
Questa variabile latente non osservata Aio è noto come deviazione equivalente normale (ned) o semplicemente norme. Guardando da vicino, non si tratta altro che di punteggi Z associati alla variabile latente non osservata. Una volta ottenuto l’Ai stimato, stimare β1 e β2 è relativamente semplice. Possiamo eseguire una semplice regressione lineare tra Aio e la nostra variabile indipendente.
Il coefficiente di peso 0,0256 ci fornisce la variazione del punteggio z della variabile di risultato (depressione) associata a una variazione di peso di un’unità. Nello specifico, un aumento di peso di una unità è associato ad un aumento di circa 0,0256 unità di punteggio z nella probabilità di avere una depressione elevata. Possiamo calcolare la probabilità di depressione per qualsiasi età utilizzando la distribuzione normale standard. Ad esempio, per il peso 70,
UNio = -1,61279 + (0,02565)*70
UNio = 0,1828
La probabilità associata a un punteggio z pari a 0,1828 (P(x
È abbastanza ragionevole affermare che la spiegazione di cui sopra era una semplificazione eccessiva di un metodo moderatamente complesso. È anche importante notare che si tratta solo di un’illustrazione del principio di base alla base dell’uso della distribuzione normale cumulativa nella regressione Probit. Ora diamo un’occhiata alle equazioni matematiche.
Struttura matematica
Abbiamo discusso in precedenza che esiste una variabile latente, Aioche è determinato dalle variabili predittive. Sarà molto logico considerare che esiste un valore critico o soglia (Aio_c) della variabile latente tale che se Aio supera Aio_c, l’individuo soffrirà di depressione; altrimenti non soffrirà di depressione. Data l’ipotesi di normalità, la probabilità che Aio è minore o uguale ad Aio_c può essere calcolato dal CDF normale standardizzato:
Dove Zio è la variabile normale standard, cioè Z ∼ N(0, σ 2) e F è la CDF normale standard.
Le informazioni relative alla variabile latente e a β1 e β2 possono essere ottenute prendendo l’inverso dell’equazione precedente:
La CDF inversa della distribuzione normale standardizzata viene utilizzata quando vogliamo ottenere il valore di Z per un dato valore di probabilità.
Ora, il processo di stima di β1, β2 e Aio dipende dal fatto che abbiamo dati raggruppati o dati non raggruppati a livello individuale.
Quando abbiamo raggruppato i dati, è facile calcolare le probabilità. Nel nostro esempio sulla depressione, i dati iniziali non sono raggruppati, ovvero c’è un peso per ciascun individuo e il suo stato di depressione (1 e 0). Inizialmente, la dimensione totale del campione era di 1.000, ma abbiamo raggruppato i dati in base al peso, ottenendo 71 gruppi, e calcolato la probabilità di depressione in ciascun gruppo di peso.
Tuttavia, quando i dati vengono separati, viene utilizzato il metodo della stima della massima verosimiglianza (MLE) per stimare i parametri del modello. La figura seguente mostra la regressione Probit sui nostri dati non raggruppati (n = 1000):
Si può osservare che il coefficiente di peso è molto vicino a quello stimato con i dati raggruppati.
Ora che abbiamo compreso il concetto di regressione Probit e abbiamo familiarità (si spera) con la regressione logistica, sorge la domanda: quale modello è preferibile? Quale modello offre prestazioni migliori in condizioni diverse? Ebbene, entrambi i modelli sono abbastanza simili nella loro applicazione e producono risultati comparabili (in termini di probabilità previste). L’unica piccola distinzione risiede nella loro sensibilità ai valori estremi. Diamo uno sguardo più da vicino ad entrambi i modelli:
Dal grafico possiamo osservare che i modelli Probit e Logit sono abbastanza simili. Tuttavia Probit è meno sensibile ai valori estremi rispetto a Logit. Ciò significa che a valori estremi, la variazione della probabilità di risultato rispetto alla variazione unitaria della variabile predittrice è maggiore nel modello logit rispetto al modello Probit. Pertanto, se desideri che il tuo modello sia sensibile a valori estremi, potresti preferire l’utilizzo della regressione logistica. Tuttavia, questa scelta non influenzerà in modo significativo le stime, poiché entrambi i modelli producono risultati simili in termini di probabilità previste. È importante notare che i coefficienti ottenuti da entrambi i modelli rappresentano quantità diverse e non possono essere confrontati direttamente. La regressione Logit fornisce modifiche nelle probabilità logaritmiche del risultato con modifiche nella variabile predittrice, mentre la regressione Probit fornisce modifiche nel punteggio z del risultato. Tuttavia, se calcoliamo le probabilità previste del risultato utilizzando entrambi i modelli, i risultati saranno molto simili.
In pratica, la regressione logistica è preferita alla regressione Probit per la sua semplicità matematica e la facile interpretazione dei coefficienti.
Fonte: towardsdatascience.com