Test Q

test statistico non parametrico

Il test Q o test di Dixon (Q test in inglese) è un semplice test statistico non parametrico utilizzato per valutare se scartare o meno dati ritenuti outlier.

Per effettuare il test Q al fine di individuare i dati errati, si devono disporre i dati in ordine di valore crescente, e quindi per ognuno calcolare il coefficiente definito come:

dove è l'ampiezza dell'intervallo contenente tutti i valori osservati.

Sia Si confronta con dove è un valore di riferimento ottenuto a partire dall'ampiezza del campione e dal livello di confidenza (alcuni esempi sono riportati di seguito). Se allora si può scartare il valore, con affidabilità pari alla percentuale riportata.

Importante: con il test Q può essere eliminato al massimo un solo valore per insieme di dati se si vuole preservare l'integrità statistica dei dati.

Valori di Qtabella

modifica
Numero di dati: 3 4 5 6 7 8 9 10
Q90%: 0,941 0,765 0,642 0,560 0,507 0,468 0,437 0,412
Q95%: 0,970 0,829 0,710 0,625 0,568 0,526 0,493 0,466
Q99%: 0,994 0,926 0,821 0,740 0,680 0,634 0,598 0,568

Esempio di applicazione

modifica

Consideriamo i dati seguenti:

0,189; 0,169; 0,187; 0,183; 0,186; 0,182; 0,181; 0,184; 0,181; 0,177.

Dopo averli ordinati in ordine crescente, si calcoli per ognuno la differenza tra i valori successivi:

0,169 0,177 0,181 0,181 0,182 0,183 0,184 0,186 0,187 0,189
--- 0,008 0,004 0,000 0,001 0,001 0,001 0,002 0,001 0,002

Il valore che più si discosta dagli altri è 0,169. Allora:

 

Con 10 dati,   è minore sia di Q90% sia di Q95% (riportati in tabella). Possiamo quindi mantenere 0,169 sia se vogliamo il 90% di affidabilità, sia al 95%. Esiste dunque una probabilità superiore al 10%, che quel dato appartenga alla stessa popolazione degli altri nove valori.

Bibliografia

modifica
  • R. B. Dean and W. J. Dixon (1951) "Simplified Statistics for Small Numbers of Observations". Anal. Chem., 1951

Voci correlate

modifica
  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica