Quali sono le domande di ricerca?
Perché diavolo ne abbiamo bisogno?
Stiamo facendo un’analisi “cattiva”, giusto?
Le domande di ricerca sono il fondamento dello studio di ricerca. Guidano il processo di ricerca concentrandosi su argomenti specifici che il ricercatore indagherà. I motivi per cui sono essenziali includono ma non sono limitati a: concentrazione e chiarezza; come guida per la metodologia; stabilire la pertinenza dello studio; aiutare a strutturare il report; aiutare il ricercatore a valutare i risultati e a interpretarli. Per apprendere come viene condotta un’analisi “cattiva”, abbiamo affrontato le seguenti domande:
(1) Le fonti dei dati sono valide (non inventate)?
(2) Come sono stati gestiti i valori mancanti?
(3) Come sei riuscito a unire set di dati diversi?
(4) Quali sono le variabili di risposta e predittive?
(5) La relazione tra la risposta e le variabili predittive è lineare?
(6) Esiste una correlazione tra la risposta e le variabili predittive?
(7) Possiamo dire che esiste una relazione causale tra le variabili?
(8) Quale spiegazione forniresti a un cliente interessato alla relazione tra queste due variabili?
(9) Hai trovato correlazioni spurie nei set di dati scelti?
(10) Che cosa hai imparato nel condurre questo progetto?
Come abbiamo condotto uno studio su
Correlazioni spurie?
Per indagare la presenza di correlazioni spurie tra le variabili, è stata condotta un’analisi completa. I set di dati abbracciavano diversi ambiti di fattori economici e ambientali che sono stati raccolti e confermati come provenienti da fonti pubbliche. I set di dati contenevano variabili senza apparente relazione causale ma mostravano una correlazione statistica. I set di dati scelti riguardavano i dati sulle scorte di Apple, il primario, e le alte temperature giornaliere a New York City, il secondario. I set di dati coprivano il periodo di tempo da gennaio 2017 a dicembre 2022.
Per analizzare i dati sono state utilizzate rigorose tecniche statistiche. È stato calcolato un coefficiente di correlazione di Pearson per quantificare la forza e la direzione delle relazioni lineari tra coppie di variabili. Per completare questa analisi, sono stati utilizzati grafici a dispersione delle alte temperature giornaliere di 5 anni a New York City, grafici a candela dell’andamento delle azioni Apple di 5 anni e un grafico a doppio asse delle alte temperature giornaliere rispetto al trend dei calzini per visualizzare l’andamento relazione tra le variabili e identificare modelli o tendenze. Le aree seguite da questa metodologia sono state:
Set di dati primario: Cronologia dei prezzi delle azioni Apple | Prezzi storici delle azioni della società AAPL | Pagina aziendale di contenuti finanziari
Set di dati secondario: Temperature massime giornaliere di New York City da gennaio 2017 a dicembre 2022: https://www.extremeweatherwatch.com/cities/new-york/year-{year}
I dati sono stati affermati come di provenienza pubblica e disponibili per la riproducibilità. L’acquisizione dei dati per un periodo di cinque anni ha fornito una visione significativa di modelli, tendenze e linearità. Le letture della temperatura hanno visto le tendenze stagionali. Per quanto riguarda la temperatura e le scorte, ci sono stati minimi e picchi nei dati. La temperatura della nota era in Fahrenheit, un ambiente meteorologico. Abbiamo utilizzato l’impostazione astronomica per manipolare ulteriormente i nostri dati e creare una maggiore falsità. Anche se i dati potevano essere scaricati come file CSV o XLS, per questo compito è stata utilizzata l’API Beautiful Soup Web Scraping di Python.
Successivamente, i dati sono stati controllati per verificare la presenza di valori mancanti e il numero di record contenuti in ciascuno di essi. I dati meteorologici contenevano la data, la temperatura massima giornaliera, la temperatura minima giornaliera e i dati sulle azioni Apple contenevano data, prezzo di apertura, prezzo di chiusura, volume, prezzo delle azioni, nome delle azioni. Per unire i set di dati, le colonne della data dovevano essere in formato data/ora. Un inner join ha abbinato i record e ha scartato i record non corrispondenti. Per le azioni Apple, la data e il prezzo di chiusura giornaliero rappresentavano le colonne di interesse. Per il meteo, la data e l’alta temperatura giornaliera hanno rappresentato le colonne di interesse.
Per fare il “cattivo” nel modo giusto, devi farlo
massaggia i dati finché non trovi il file
relazione che stai cercando…
Il nostro approccio precedente non ha prodotto i risultati attesi. Quindi, invece di utilizzare le temperature della stagione estiva del 2018 in cinque città degli Stati Uniti, abbiamo calcolato cinque anni di temperature massime giornaliere per la città di New York e la performance delle azioni Apple da gennaio 2017 a dicembre 2022. Nel condurre analisi esplorative, abbiamo riscontrato correlazioni deboli attraverso le stagioni e gli anni. Quindi, il nostro passo successivo è stato convertire la temperatura. Invece di meteorologico, abbiamo scelto astronomico. Questo ci ha fornito correlazioni “significative” tra le stagioni.
Con il nuovo approccio adottato, abbiamo notato che unire i set di dati era problematico. I campi della data erano diversi dove, per il tempo, la data era il mese e il giorno. Per le azioni, la data era nel formato anno-mese-giorno. Abbiamo risolto questo problema convertendo la colonna della data di ciascun set di dati in datetime. Inoltre, ciascuna colonna della data è stata ordinata in ordine cronologico o cronologico inverso. Il problema è stato risolto ordinando entrambe le colonne della data in ordine crescente.
La natura spuria delle correlazioni
qui viene mostrato spostandosi da
stagioni meteorologiche (primavera: marzo-maggio,
Estate: giugno-agosto, autunno: settembre-novembre, inverno:
dicembre-febbraio) basati sul meteo
modelli nell’emisfero settentrionale, a
stagioni astronomiche (primavera: aprile-giugno,
Estate: luglio-settembre, autunno: ottobre-dicembre, inverno:
Jan-Mar) che si basano sull’inclinazione della Terra.
Una volta completata l’esplorazione, un punto chiave nella nostra analisi della correlazione spuria è stato determinare se le variabili di interesse erano correlate. Abbiamo osservato che la primavera 2020 aveva una correlazione di 0,81. Abbiamo quindi determinato se esisteva una significatività statistica: sì, e con un valore p ≈ 0,000000000000001066818316115281, direi che abbiamo una significatività!
Se esiste una correlazione veramente spuria, potremmo volerlo
considerare se la correlazione equivale alla causalità: quello
è, provoca un cambiamento nella temperatura astronomica
Le azioni Apple oscillano? Abbiamo impiegato ulteriormente
test statistici per dimostrare o respingere l’ipotesi
che una variabile causa l’altra variabile.
Esistono numerosi strumenti statistici che verificano la causalità. Strumenti come analisi delle variabili strumentali (IV), analisi dei dati panel, modellazione di equazioni strutturali (SEM), modelli di autoregressione vettoriale, analisi di cointegrazione e causalità di Granger. L’analisi IV considera le variabili omesse nell’analisi di regressione; Panel Data studia modelli a effetti fissi e a effetti casuali; Il SEM analizza le relazioni strutturali; L’autoregressione vettoriale considera le interazioni dinamiche delle serie temporali multivariate; e l’analisi di cointegrazione determina se le variabili si muovono insieme in un trend stocastico. Volevamo uno strumento in grado di distinguere con precisione tra causalità autentica e associazione casuale. Per raggiungere questo obiettivo, la nostra scelta è stata Granger Causality.
Causalità Granger
Un test di Granger verifica se i valori passati possono predire quelli futuri. Nel nostro caso, abbiamo testato se le alte temperature giornaliere passate a New York City potessero predire i valori futuri dei prezzi delle azioni Apple.
Ho: Le alte temperature giornaliere a New York City non causano la fluttuazione del prezzo delle azioni Apple da parte di Granger.
Per condurre il test, abbiamo eseguito 100 ritardi per vedere se c’era un valore p eccezionale. Abbiamo riscontrato valori p vicini a 1,0 e questo ha suggerito che non potevamo rifiutare l’ipotesi nulla e abbiamo concluso che non c’erano prove di una relazione causale tra le variabili di interesse.
La causalità di Granger ha dimostrato il valore p
insignificante nel respingere il nulla
ipotesi. Ma è sufficiente?
Convalidiamo la nostra analisi.
Per aiutare a mitigare il rischio di interpretare erroneamente le spurie come effetti causali autentici, l’esecuzione di un’analisi di correlazione incrociata insieme a un test di causalità di Granger confermerà i risultati. Utilizzando questo approccio, se esiste una correlazione spuria, osserveremo il significato nella correlazione incrociata in alcuni ritardi senza una direzione causale coerente o senza che sia presente la causalità di Granger.
Analisi delle correlazioni incrociate
Questo metodo viene eseguito mediante i seguenti passaggi:
- Esaminare i modelli temporali delle correlazioni tra le variabili;
- •Se la variabile A Granger causa la variabile B, si verificherà una significativa correlazione incrociata tra la variabile A e la variabile B con ritardi positivi;
- Picchi significativi nella correlazione incrociata in corrispondenza di ritardi specifici deducono il ritardo temporale tra i cambiamenti nella variabile causale.
Interpretazione:
I valori ccf e lag mostrano un significato nella correlazione positiva a determinati ritardi. Ciò conferma che esiste una correlazione spuria. Tuttavia, come per la causalità di Granger, l’analisi della correlazione incrociata non può supportare l’affermazione che la causalità esista nella relazione tra le due variabili.
- Le correlazioni spurie sono una forma di p-hacking. La correlazione non implica causalità.
- Anche con tattiche di dati “cattivi”, i test statistici elimineranno la mancanza di significatività. Sebbene esistesse evidenza statistica di spurietà nelle variabili, i test di causalità non potevano supportare l’affermazione che la causalità esistesse nella relazione tra le variabili.
- Uno studio non può basarsi sulla sola premessa che le variabili che mostrano linearità possano essere correlate per mostrare causalità. Occorre invece considerare altri fattori che contribuiscono a ciascuna variabile.
- Un test non statistico per verificare se le alte temperature giornaliere a New York City causano fluttuazioni delle azioni Apple può essere quello di considerare semplicemente: se possedessi un certificato azionario Apple e lo mettessi nel congelatore, il valore del certificato sarebbe influenzato dal Freddo? Allo stesso modo, se mettessi il certificato all’aperto in una giornata soleggiata e calda, il sole influenzerebbe il valore del certificato?
Le correlazioni spurie non sono causalità.
Il P-hacking può avere un impatto sulla tua credibilità come a
scienziato dei dati. Sii l’adulto nella stanza e
rifiutarsi di partecipare a cattive statistiche.
Questo studio ha presentato un’analisi che coinvolgeva statistiche “cattive”. Ha dimostrato come uno scienziato dei dati possa reperire, estrarre e manipolare i dati in modo tale da mostrare statisticamente la correlazione. Alla fine, i test statistici hanno resistito alla sfida e hanno dimostrato che la correlazione non equivale alla causalità.
Condurre una correlazione spuria solleva questioni etiche sull’uso delle statistiche per derivare la causalità in due variabili non correlate. È un esempio di p-hacking, che sfrutta le statistiche per ottenere il risultato desiderato. Questo studio è stato condotto come ricerca accademica per mostrare l’assurdità dell’uso improprio delle statistiche.
Un’altra area di considerazione etica è la pratica del web scraping. Molti proprietari di siti Web mettono in guardia dal prelevare dati dai propri siti per utilizzarli in modi nefasti o non desiderati da loro. Per questo motivo, siti come Yahoo Finance rendono i dati azionari scaricabili in file CSV. Questo vale anche per la maggior parte dei siti meteorologici in cui è possibile richiedere set di dati temporali relativi alle letture della temperatura. Ancora una volta, questo studio è per la ricerca accademica e per dimostrare la propria capacità di estrarre dati in modo non convenzionale.
Quando ti trovi di fronte a un capo o un cliente che ti costringe a fare un p-hack e a offrire qualcosa di simile a una correlazione spuria come prova di causalità, spiega le implicazioni della loro richiesta e rifiuta rispettosamente il progetto. Qualunque sia la tua decisione, avrà un impatto duraturo sulla tua credibilità come data scientist.
Il dottor Banks è amministratore delegato di Io-Metaproduttore della tecnologia brevettata Spice Chip che fornisce analisi dei Big Data per vari settori. Il signor Boothroyd, III è un analista militare in pensione. Entrambi sono veterani che hanno prestato servizio con onore nell’esercito degli Stati Uniti ed entrambi amano discutere di correlazioni spurie. Sono gruppi del programma MADS dell’Università del Michigan, School of Information…Go Blue!
Fonte: towardsdatascience.com