Test Q
Il test Q o test di Dixon (Q test in inglese) è un semplice test statistico non parametrico utilizzato per valutare se scartare o meno dati ritenuti outlier.
Per effettuare il test Q al fine di individuare i dati errati, si devono disporre i dati in ordine di valore crescente, e quindi per ognuno calcolare il coefficiente definito come:
dove è l'ampiezza dell'intervallo contenente tutti i valori osservati.
Sia Si confronta con dove è un valore di riferimento ottenuto a partire dall'ampiezza del campione e dal livello di confidenza (alcuni esempi sono riportati di seguito). Se allora si può scartare il valore, con affidabilità pari alla percentuale riportata.
Importante: con il test Q può essere eliminato al massimo un solo valore per insieme di dati se si vuole preservare l'integrità statistica dei dati.
Valori di Qtabella
modificaNumero di dati: | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
Q90%: | 0,941 | 0,765 | 0,642 | 0,560 | 0,507 | 0,468 | 0,437 | 0,412 |
Q95%: | 0,970 | 0,829 | 0,710 | 0,625 | 0,568 | 0,526 | 0,493 | 0,466 |
Q99%: | 0,994 | 0,926 | 0,821 | 0,740 | 0,680 | 0,634 | 0,598 | 0,568 |
Esempio di applicazione
modificaConsideriamo i dati seguenti:
- 0,189; 0,169; 0,187; 0,183; 0,186; 0,182; 0,181; 0,184; 0,181; 0,177.
Dopo averli ordinati in ordine crescente, si calcoli per ognuno la differenza tra i valori successivi:
0,169 | 0,177 | 0,181 | 0,181 | 0,182 | 0,183 | 0,184 | 0,186 | 0,187 | 0,189 |
--- | 0,008 | 0,004 | 0,000 | 0,001 | 0,001 | 0,001 | 0,002 | 0,001 | 0,002 |
Il valore che più si discosta dagli altri è 0,169. Allora:
Con 10 dati, è minore sia di Q90% sia di Q95% (riportati in tabella). Possiamo quindi mantenere 0,169 sia se vogliamo il 90% di affidabilità, sia al 95%. Esiste dunque una probabilità superiore al 10%, che quel dato appartenga alla stessa popolazione degli altri nove valori.
Bibliografia
modifica- R. B. Dean and W. J. Dixon (1951) "Simplified Statistics for Small Numbers of Observations". Anal. Chem., 1951
Voci correlate
modifica- Wilfrid Dixon, coautore del test