
Prima di introdurre la formula, è importante esaminare alcuni lavori preparatori necessari. Come abbiamo detto in precedenza, la correlazione può essere pensata come un modo per misurare la relazione tra due variabili. Supponiamo che stiamo misurando l'attuale correlazione tra X E Y. Se esiste una relazione lineare, può essere pensata come una relazione reciprocamente condivisa, intendendo la correlazione tra X E Y è sempre uguale alla correlazione tra Y E X. Con questo nuovo approccio, tuttavia, non misureremo più la relazione lineare tra X E Yma il nostro obiettivo è invece misurare quanto Y è una funzione di X. Comprendere questa sottile ma importante distinzione tra le tradizionali tecniche di correlazione renderà molto più semplice la comprensione delle formule, poiché in generale non è più necessariamente così ξ(X,Y) equivale ξ(Y,X).
Restando sulla stessa linea di pensiero, supponiamo di voler ancora misurare quanto Y è una funzione di X. Notare che ciascun punto dati è una coppia ordinata di entrambi X E Y. Innanzitutto dobbiamo ordinare i dati come (X₠₠₎,Y₠₠₎),…,(XUN,ₙ₎,YUN,ₙ₎) in un modo che risulti X₠₠₎ ≤ X₠₂₎≤ ⋯ ≤ XUN,ₙ₎. Detto chiaramente, dobbiamo ordinare i dati in base X. Saremo quindi in grado di creare le variabili RUN, , Râ‚‚, …,râ‚™ Dove su di essa equivale al rango di YUN,áμ¢â‚Ž. Una volta identificati questi ranghi, siamo pronti per il calcolo.
Esistono due formule utilizzate a seconda del tipo di dati con cui stai lavorando. Se i collegamenti tra i tuoi dati sono impossibili (o estremamente improbabili), lo abbiamo fatto
e se i pareggi sono consentiti, lo abbiamo fatto
Dove basso µ¢ è definito come il numero di J tale che YUN, ⱼ₎ ≥ YUN,áμ¢â‚Ž. Un'ultima nota importante per quando sono consentiti i pareggi. Oltre a utilizzare la seconda formula, per ottenere la migliore stima possibile è importante ordinare casualmente i legami osservati in modo che un valore venga scelto per essere classificato più alto/più basso rispetto a un altro in modo che (su di essa₊₠— su di essa) non è mai uguale a zero come prima. La variabile basso µ¢ è quindi solo il numero di osservazioni YUN,áμ¢â‚Ž è in realtà maggiore o uguale a.
Per non immergerci troppo nella teoria, vale anche la pena sottolineare brevemente che questa nuova correlazione è accompagnata da una bella teoria asintotica che rende molto semplice eseguire test di ipotesi senza fare alcuna ipotesi sulle distribuzioni sottostanti. Questo perché questo metodo dipende dal rango dei dati e non dai valori stessi, rendendolo una statistica non parametrica. Se è vero X E Y sono indipendenti e Y è continuo, quindi
Ciò significa che se si dispone di una dimensione del campione sufficientemente ampia, questa statistica di correlazione segue approssimativamente una distribuzione normale. Questo può essere utile se desideri testare il grado di indipendenza tra le due variabili che stai testando.
Fonte: towardsdatascience.com