Test chi quadrato
Con test chi quadrato "χ²", si intende uno dei test di verifica d'ipotesi usati in statistica che utilizzano la distribuzione chi quadrato per decidere se rifiutare o non rifiutare l'ipotesi nulla. A seconda degli assunti di partenza usati tali test vengono considerati parametrici o non parametrici.
Il test chi quadrato è ampiamente utilizzato per verificare che le frequenze dei valori osservati si adattino alle frequenze teoriche di una distribuzione di probabilità prefissata. Per esempio, è noto che il risultato di 100 lanci di una moneta segue la distribuzione uniforme ed è difficile ottenere un risultato che si discosti sensibilmente dall'ottenere 50 teste e 50 croci. Il test chi quadrato consente di stabilire, dopo aver fissato l'errore massimo tollerato, se le discrepanze tra le frequenze osservate e quelle teoriche sono imputabili completamente al caso o se invece è lecito supporre che la moneta sia truccata.
Definizione
modificaSupponiamo che in un particolare campione si sia osservato che un insieme di possibili eventi E1, E2, …, Ek si presenta con frequenze o1, o2, …, ok (dette frequenze osservate). Supponiamo poi che, secondo le regole della probabilità, ci si attenda un secondo insieme di possibili eventi con frequenze e1, e2, …, ek (dette frequenze teoriche o attese), ossia, riassumendo:
Evento | E1 | E2 | ... | Ek |
---|---|---|---|---|
Frequenze osservate | o1 | o2 | ... | ok |
Frequenze attese | e1 | e2 | ... | ek |
La variabile test si ottiene sommando, per ogni evento Ei il quadrato degli scarti tra le frequenze teoriche e quelle osservate, pesato sulle frequenze teoriche:
Così, se il numero totale di eventi è fissato, si distribuisce come una variabile con gradi di libertà. Altrimenti, se k è una variabile a sua volta aleatoria, ad esempio Poissoniana (come può essere in un esperimento di conteggio), si distribuisce come una variabile con gradi di libertà.
Se le frequenze osservate coincidono esattamente con quelle teoriche, allora , mentre se esse differiscono, . Più grande è il valore di , più grande è la discrepanza tra le frequenze osservate e quelle teoriche.
Un dado viene lanciato 2000 volte con il seguente risultato:
Esito | Occorrenza |
---|---|
1 | 388 volte |
2 | 322 volte |
3 | 314 volte |
4 | 316 volte |
5 | 344 volte |
6 | 316 volte |
Si può affermare che esso non sia equilibrato?
Effettivamente il risultato 1 è apparso un numero di volte sensibilmente superiore agli altri, la frequenza attesa è di 2000/6=333,333 per ciascun risultato (se il dado è equilibrato, segue una distribuzione uniforme, quindi la frequenza attesa è la stessa per tutti i risultati).
La nostra statistica è quindi uguale a
e possiede 5 gradi di libertà.
Se fissiamo l'errore tollerato al 5% (α = 0,05) e diamo uno sguardo alle tavole della distribuzione chi quadrato con 5 gradi di libertà (perché si hanno 6 classi di frequenza corrispondenti a 6 gradi di libertà a cui si sottrae 1 grado di libertà per via dell'utilizzo del numero totale di misure per calcolare i singoli ei ) dobbiamo rifiutare l'ipotesi nulla con valori della statistica test superiori a 11,07.
La nostra statistica test è uguale a 12,616 e pertanto dobbiamo respingere l'ipotesi nulla: ciò vuol dire che il dado non è equilibrato.
Il test chi quadrato funziona quando nessun valore si presenta con una frequenza inferiore a 5. Se ciò accade è meglio utilizzare altri test sulle frequenze, come il test esatto di Fisher.
Tra i test chi quadrato si possono elencare:
- il test chi quadrato di Pearson
- il test chi quadrato di Yates, ovvero la correzione di Yates per la continuità
- il test chi quadrato di Mantel-Haenszel
nonché diversi test che in determinate situazioni (solitamente quando si è in presenza di molti dati) fanno ricorso alla v.c. Chi Quadrato come distribuzione approssimativa
Esempio in R
modificaUtilizzando il linguaggio di programmazione R si vuole valutare se esiste un'associazione tra le variabili degree (livello di istruzione superiore) e sex (il sesso) negli Stati Uniti attraverso il test chi quadrato. Il dataset usato è stato ottenuto tramite Il "General Social Surveys", un questionario sottoposto a persone intervistate di 18 anni o più che parlavano in inglese all'interno degli Stati Uniti d'America.
In totale le interviste sono state 57 061, che rappresentano meno del 10% della popolazione statunitense. Tali interviste sono state fatte tra il 1972 e il 2014 e ciascuna di queste contiene 114 variabili, di cui alcune numeriche ed altre categoriali. L'analisi fatta è osservazionale e non sperimentale, quindi non si possono stabilire relazioni casuali tra le variabili.
Le condizioni necessarie perché si possa eseguire il test chi quadro sono che i campioni siano casuali, non correlati e provenienti da meno del 10% della popolazione, quindi l'indipendenza tra le osservazioni è ragionevole.
library(statsr)
g<- gss %>%
filter(!is.na(sex),!is.na(degree))
inference(y = sex, x = degree, data = g, statistic = "proportion", type = "ht",
alternative = "greater", method = "theoretical")
Response variable: categorical (2 levels) Explanatory variable: categorical (5 levels) Observed: y x Male Female Lt High School 5153 6669 High School 12340 16947 Junior College 1272 1798 Bachelor 3822 4180 Graduate 2091 1779
Expected: y x Male Female Lt High School 5204.962 6617.038 High School 12894.410 16392.590 Junior College 1351.652 1718.348 Bachelor 3523.101 4478.899 Graduate 1703.874 2166.126
H0: degree and sex are independent HA: degree and sex are dependent chi_sq = 254.3489, df = 4, p_value = 0
Dal momento che p_value = 0 < 0,05, rifiutiamo l'ipotesi nulla. Vi è una forte evidenza che negli Stati Uniti esiste una dipendenza tra il livello di istruzione superiore e il sesso.
Note
modifica- ^ Paolo Baldi, Calcolo delle probabilità e statistica, 2ª ed., McGraw-Hill, 1998, ISBN 9788838607370.
- ^ Murray R.Spiegel, STATISTICA - 2ª edizione, collana SCHAUM - ETAS LIBRI.
Voci correlate
modificaAltri progetti
modifica- Wikibooks contiene testi o manuali sul test chi quadrato
Collegamenti esterni
modifica- Franco Peracchi, Chi quadro, test, in Dizionario di Economia e Finanza, Istituto dell'Enciclopedia Italiana, 2012.
- (EN) Ken Stewart, chi-squared test, su Enciclopedia Britannica, Encyclopædia Britannica, Inc.
- (EN) Eric W. Weisstein, Chi-Squared Test, su MathWorld, Wolfram Research.
- (EN) Chi-squared test, su Encyclopaedia of Mathematics, Springer e European Mathematical Society.
- Tavole della distribuzione chi quadrato
Controllo di autorità | LCCN (EN) sh85023209 · J9U (EN, HE) 987007285526505171 |
---|