Test chi quadrato

Test di verifica d'ipotesi

Con test chi quadrato "χ²", si intende uno dei test di verifica d'ipotesi usati in statistica che utilizzano la distribuzione chi quadrato per decidere se rifiutare o non rifiutare l'ipotesi nulla. A seconda degli assunti di partenza usati tali test vengono considerati parametrici o non parametrici.

Il test chi quadrato è ampiamente utilizzato per verificare che le frequenze dei valori osservati si adattino alle frequenze teoriche di una distribuzione di probabilità prefissata. Per esempio, è noto che il risultato di 100 lanci di una moneta segue la distribuzione uniforme ed è difficile ottenere un risultato che si discosti sensibilmente dall'ottenere 50 teste e 50 croci. Il test chi quadrato consente di stabilire, dopo aver fissato l'errore massimo tollerato, se le discrepanze tra le frequenze osservate e quelle teoriche sono imputabili completamente al caso o se invece è lecito supporre che la moneta sia truccata.

Definizione

modifica

Supponiamo che in un particolare campione si sia osservato che un insieme di possibili eventi E1, E2, …, Ek si presenta con frequenze o1, o2, …, ok (dette frequenze osservate). Supponiamo poi che, secondo le regole della probabilità, ci si attenda un secondo insieme di possibili eventi con frequenze e1, e2, …, ek (dette frequenze teoriche o attese), ossia, riassumendo:

Evento E1 E2 ... Ek
Frequenze osservate o1 o2 ... ok
Frequenze attese e1 e2 ... ek

La variabile test   si ottiene sommando, per ogni evento Ei il quadrato degli scarti tra le frequenze teoriche e quelle osservate, pesato sulle frequenze teoriche:

 

Così, se il numero totale di eventi   è fissato, si distribuisce come una variabile   con   gradi di libertà. Altrimenti, se k è una variabile a sua volta aleatoria, ad esempio Poissoniana (come può essere in un esperimento di conteggio), si distribuisce come una variabile   con   gradi di libertà.

Se le frequenze osservate coincidono esattamente con quelle teoriche, allora  , mentre se esse differiscono,  . Più grande è il valore di  , più grande è la discrepanza tra le frequenze osservate e quelle teoriche.

Un dado viene lanciato 2000 volte con il seguente risultato:

Esito Occorrenza
1 388 volte
2 322 volte
3 314 volte
4 316 volte
5 344 volte
6 316 volte

Si può affermare che esso non sia equilibrato?

Effettivamente il risultato 1 è apparso un numero di volte sensibilmente superiore agli altri, la frequenza attesa è di 2000/6=333,333 per ciascun risultato (se il dado è equilibrato, segue una distribuzione uniforme, quindi la frequenza attesa è la stessa per tutti i risultati).

La nostra statistica è quindi uguale a

 

e possiede 5 gradi di libertà.

Se fissiamo l'errore tollerato al 5% (α = 0,05) e diamo uno sguardo alle tavole della distribuzione chi quadrato con 5 gradi di libertà (perché si hanno 6 classi di frequenza corrispondenti a 6 gradi di libertà a cui si sottrae 1 grado di libertà per via dell'utilizzo del numero totale di misure per calcolare i singoli ei ) dobbiamo rifiutare l'ipotesi nulla con valori della statistica test superiori a 11,07.

La nostra statistica test è uguale a 12,616 e pertanto dobbiamo respingere l'ipotesi nulla: ciò vuol dire che il dado non è equilibrato.

Il test chi quadrato funziona quando nessun valore si presenta con una frequenza inferiore a 5. Se ciò accade è meglio utilizzare altri test sulle frequenze, come il test esatto di Fisher.

Tra i test chi quadrato si possono elencare:

nonché diversi test che in determinate situazioni (solitamente quando si è in presenza di molti dati) fanno ricorso alla v.c. Chi Quadrato come distribuzione approssimativa

Esempio in R

modifica

Utilizzando il linguaggio di programmazione R si vuole valutare se esiste un'associazione tra le variabili degree (livello di istruzione superiore) e sex (il sesso) negli Stati Uniti attraverso il test chi quadrato. Il dataset usato è stato ottenuto tramite Il "General Social Surveys", un questionario sottoposto a persone intervistate di 18 anni o più che parlavano in inglese all'interno degli Stati Uniti d'America.

In totale le interviste sono state 57 061, che rappresentano meno del 10% della popolazione statunitense. Tali interviste sono state fatte tra il 1972 e il 2014 e ciascuna di queste contiene 114 variabili, di cui alcune numeriche ed altre categoriali. L'analisi fatta è osservazionale e non sperimentale, quindi non si possono stabilire relazioni casuali tra le variabili.

Le condizioni necessarie perché si possa eseguire il test chi quadro sono che i campioni siano casuali, non correlati e provenienti da meno del 10% della popolazione, quindi l'indipendenza tra le osservazioni è ragionevole.

library(statsr)

g<- gss %>%
  filter(!is.na(sex),!is.na(degree))

inference(y = sex, x = degree, data = g, statistic = "proportion", type = "ht", 
          alternative = "greater", method = "theoretical")
Response variable: categorical (2 levels) 
Explanatory variable: categorical (5 levels) 
Observed:
                y
x                 Male Female
  Lt High School  5153   6669
  High School    12340  16947
  Junior College  1272   1798
  Bachelor        3822   4180
  Graduate        2091   1779
Expected:
               y
x                     Male    Female
  Lt High School  5204.962  6617.038
  High School    12894.410 16392.590
  Junior College  1351.652  1718.348
  Bachelor        3523.101  4478.899
  Graduate        1703.874  2166.126
H0: degree and sex are independent
HA: degree and sex are dependent
chi_sq = 254.3489, df = 4, p_value = 0

Dal momento che p_value = 0 < 0,05, rifiutiamo l'ipotesi nulla. Vi è una forte evidenza che negli Stati Uniti esiste una dipendenza tra il livello di istruzione superiore e il sesso.

  1. ^ Paolo Baldi, Calcolo delle probabilità e statistica, 2ª ed., McGraw-Hill, 1998, ISBN 9788838607370.
  2. ^ Murray R.Spiegel, STATISTICA - 2ª edizione, collana SCHAUM - ETAS LIBRI.

Voci correlate

modifica

Altri progetti

modifica

Collegamenti esterni

modifica
Controllo di autoritàLCCN (ENsh85023209 · J9U (ENHE987007285526505171
  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica