Test chi quadrato

Con test chi quadrato "χ²", si intende uno dei test di verifica d'ipotesi usati in statistica che utilizzano la distribuzione chi quadrato per decidere se rifiutare o non rifiutare l'ipotesi nulla. A seconda degli assunti di partenza usati tali test vengono considerati parametrici o non parametrici.

Il test chi quadrato è ampiamente utilizzato per verificare che le frequenze dei valori osservati si adattino alle frequenze teoriche di una distribuzione di probabilità prefissata. Per esempio, è noto che il risultato di 100 lanci di una moneta segue la distribuzione uniforme ed è difficile ottenere un risultato che si discosti sensibilmente dall'ottenere 50 teste e 50 croci. Il test chi quadrato consente di stabilire, dopo aver fissato l'errore massimo tollerato, se le discrepanze tra le frequenze osservate e quelle teoriche sono imputabili completamente al caso o se invece è lecito supporre che la moneta sia truccata.

Definizione

Supponiamo che in un particolare campione si sia osservato che un insieme di possibili eventi E₁, E₂, …, E_k si presenta con frequenze o₁, o₂, …, o_k (dette frequenze osservate). Supponiamo poi che, secondo le regole della probabilità, ci si attenda un secondo insieme di possibili eventi con frequenze e₁, e₂, …, e_k (dette frequenze teoriche o attese), ossia, riassumendo:

Evento	E₁	E₂	...	E_k
Frequenze osservate	o₁	o₂	...	o_k
Frequenze attese	e₁	e₂	...	e_k

La variabile test $\chi ^{2}$ si ottiene sommando, per ogni evento E_i il quadrato degli scarti tra le frequenze teoriche e quelle osservate, pesato sulle frequenze teoriche:

\chi ^{2}=\sum _{i=1}^{k}{(o_{i}-e_{i})^{2} \over e_{i}}

Così, se il numero totale di eventi $k$ è fissato, si distribuisce come una variabile $\chi ^{2}$ con $k-1$ gradi di libertà. Altrimenti, se k è una variabile a sua volta aleatoria, ad esempio Poissoniana (come può essere in un esperimento di conteggio), si distribuisce come una variabile $\chi ^{2}$ con $k$ gradi di libertà.

Se le frequenze osservate coincidono esattamente con quelle teoriche, allora $\chi ^{2}=0$ , mentre se esse differiscono, $\chi ^{2}>0$ . Più grande è il valore di $\chi ^{2}$ , più grande è la discrepanza tra le frequenze osservate e quelle teoriche.

Esempio^[1]^[2]

Un dado viene lanciato 2000 volte con il seguente risultato:


Esito	Occorrenza
1	388 volte
2	322 volte
3	314 volte
4	316 volte
5	344 volte
6	316 volte

Si può affermare che esso non sia equilibrato?

Effettivamente il risultato 1 è apparso un numero di volte sensibilmente superiore agli altri, la frequenza attesa è di 2000/6=333,333 per ciascun risultato (se il dado è equilibrato, segue una distribuzione uniforme, quindi la frequenza attesa è la stessa per tutti i risultati).

La nostra statistica è quindi uguale a

\chi ^{2}={(388-333,333)^{2} \over 333,333}+{(322-333,333)^{2} \over 333,333}+{(314-333,333)^{2} \over 333,333}+{(316-333,333)^{2} \over 333,333}+{(344-333,333)^{2} \over 333,333}+{(316-333,333)^{2} \over 333,333}=12,616

e possiede 5 gradi di libertà.

Se fissiamo l'errore tollerato al 5% (α = 0,05) e diamo uno sguardo alle tavole della distribuzione chi quadrato con 5 gradi di libertà (perché si hanno 6 classi di frequenza corrispondenti a 6 gradi di libertà a cui si sottrae 1 grado di libertà per via dell'utilizzo del numero totale di misure per calcolare i singoli e_i ) dobbiamo rifiutare l'ipotesi nulla con valori della statistica test superiori a 11,07.

La nostra statistica test è uguale a 12,616 e pertanto dobbiamo respingere l'ipotesi nulla: ciò vuol dire che il dado non è equilibrato.

Il test chi quadrato funziona quando nessun valore si presenta con una frequenza inferiore a 5. Se ciò accade è meglio utilizzare altri test sulle frequenze, come il test esatto di Fisher.

Tra i test chi quadrato si possono elencare:

il test chi quadrato di Pearson
il test chi quadrato di Yates, ovvero la correzione di Yates per la continuità
il test chi quadrato di Mantel-Haenszel

nonché diversi test che in determinate situazioni (solitamente quando si è in presenza di molti dati) fanno ricorso alla v.c. Chi Quadrato come distribuzione approssimativa

Indice di dispersione di Poisson

Esempio in R

Utilizzando il linguaggio di programmazione R si vuole valutare se esiste un'associazione tra le variabili degree (livello di istruzione superiore) e sex (il sesso) negli Stati Uniti attraverso il test chi quadrato. Il dataset usato è stato ottenuto tramite Il "General Social Surveys", un questionario sottoposto a persone intervistate di 18 anni o più che parlavano in inglese all'interno degli Stati Uniti d'America.

In totale le interviste sono state 57 061, che rappresentano meno del 10% della popolazione statunitense. Tali interviste sono state fatte tra il 1972 e il 2014 e ciascuna di queste contiene 114 variabili, di cui alcune numeriche ed altre categoriali. L'analisi fatta è osservazionale e non sperimentale, quindi non si possono stabilire relazioni casuali tra le variabili.

Le condizioni necessarie perché si possa eseguire il test chi quadro sono che i campioni siano casuali, non correlati e provenienti da meno del 10% della popolazione, quindi l'indipendenza tra le osservazioni è ragionevole.

library(statsr)

g<- gss %>%
  filter(!is.na(sex),!is.na(degree))

inference(y = sex, x = degree, data = g, statistic = "proportion", type = "ht", 
          alternative = "greater", method = "theoretical")

Response variable: categorical (2 levels) 
Explanatory variable: categorical (5 levels) 
Observed:
                y
x                 Male Female
  Lt High School  5153   6669
  High School    12340  16947
  Junior College  1272   1798
  Bachelor        3822   4180
  Graduate        2091   1779

Expected:
               y
x                     Male    Female
  Lt High School  5204.962  6617.038
  High School    12894.410 16392.590
  Junior College  1351.652  1718.348
  Bachelor        3523.101  4478.899
  Graduate        1703.874  2166.126

H0: degree and sex are independent
HA: degree and sex are dependent
chi_sq = 254.3489, df = 4, p_value = 0

Dal momento che p_value = 0 < 0,05, rifiutiamo l'ipotesi nulla. Vi è una forte evidenza che negli Stati Uniti esiste una dipendenza tra il livello di istruzione superiore e il sesso.

Note

^ Paolo Baldi, Calcolo delle probabilità e statistica, 2ª ed., McGraw-Hill, 1998, ISBN 9788838607370.
^ Murray R.Spiegel, STATISTICA - 2ª edizione, collana SCHAUM - ETAS LIBRI.

Voci correlate

Altri progetti

Wikibooks contiene testi o manuali sul test chi quadrato

Collegamenti esterni

Franco Peracchi, Chi quadro, test, in Dizionario di Economia e Finanza, Istituto dell'Enciclopedia Italiana, 2012.
(EN) Ken Stewart, chi-squared test, su Enciclopedia Britannica, Encyclopædia Britannica, Inc.
(EN) Eric W. Weisstein, Chi-Squared Test, su MathWorld, Wolfram Research.
(EN) Chi-squared test, su Encyclopaedia of Mathematics, Springer e European Mathematical Society.
Tavole della distribuzione chi quadrato

Controllo di autorità	LCCN (EN) sh85023209 · J9U (EN, HE) 987007285526505171

Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica

[1] Paolo Baldi, Calcolo delle probabilità e statistica, 2ª ed., McGraw-Hill, 1998, ISBN 9788838607370.

[2] Murray R.Spiegel, STATISTICA - 2ª edizione, collana SCHAUM - ETAS LIBRI.

[1]

[2]