In qualità di scienziato dei dati, faresti bene a comprendere alcune statistiche. Dopotutto, lo è uno degli elementi costitutivi del campo.
Questo è il primo articolo di una serie che tenterà di fornire una panoramica concisa e pratica dei diversi test statistici e delle situazioni in cui dovrebbero essere utilizzati. Le informazioni troveranno un equilibrio: non così lunghe e tecniche da essere inaccessibili, ma non così brevi da essere inutili.
In questo primo articolo parlerò di uno dei test statistici più conosciuti in circolazione: il t-test. Anche se non sai bene di cosa si tratta, è probabile che tu abbia già sentito il termine in giro. Alla fine di questo articolo, dovresti capire come funziona il test e quando dovresti usarlo.
Se generalmente non hai familiarità con la progettazione dei test statistici, ti consiglio vivamente di consultare l’articolo introduttivo a questa serie, Un’introduzione ai concetti fondamentali necessari per iniziare a eseguire test statistici.
Allora cominciamo.
Cos’è il test t?
Fondamentalmente, il test t viene utilizzato per confrontare i dati due diversi campioni di dati. Tiene conto di due fattori: la differenza tra le medie campionarie e la variabilità dei dati campionari. Logicamente, questo ha senso: il semplice confronto delle medie non è sufficiente per determinare che i campioni sono effettivamente diversi (le medie potrebbero benissimo differire con set di dati simili o essere simili con set di dati molto diversi).
Il test t calcola una statistica nota come punteggio tche tiene conto di entrambi i fattori sopra indicati. Può essere calcolato manualmente utilizzando una formula leggermente fastidiosa, ma praticamente qualsiasi software statistico lo calcolerà automaticamente. Se calcoli manualmente la statistica, puoi confrontarla con un valore t critico da tabelle preesistenti (essere maggiore del valore t corrisponde al valore p inferiore al livello desiderato per il tuo test, indicando una differenza statisticamente significativa tra campioni). Ancora una volta, il software statistico generalmente ti dirà semplicemente se il valore t calcolato è statisticamente o meno…
Fonte: towardsdatascience.com