Variabile (statistica)
In statistica per variabile o carattere[1] si intende generalmente un insieme di caratteristiche rilevate su una o più unità statistiche appartenenti a una popolazione o a un campione di riferimento come esito di un'indagine. Si parla di variabili semplici quando l'oggetto è una sola caratteristica specifica e di variabili multiple (doppie, triple, ecc.) quando gli oggetti sono più caratteristiche di riferimento. Esempi di caratteri su un campione di persone sono: altezza, età, colore degli occhi, genere, segno zodiacale, credo religioso, ecc.
Si distinguono variabili latenti che si possono inferire indirettamente tramite un modello e variabili osservabili che possono essere osservate o misurate direttamente.[2]
Classificazione
modificaI dati che possono essere ricavati da un'indagine statistica possono essere di natura differente e in particolare si hanno:
- variabili qualitative (o mutabili statistiche): esprimono una qualità, cioè le modalità sono dei valori non numerici (ad esempio: il genere o il credo religioso).
- un carattere qualitativo è ordinale (o ordinato o ordinabile) se le modalità posseggono naturalmente un ordine, ovvero possono essere disposte lungo una scala[3] (ad esempio gli attributi "pessimo", "cattivo", "mediocre", "buono" e "ottimo" oppure i giorni della settimana[4]).
- un carattere qualitativo è nominale (o sconnesso) se le modalità non posseggono alcun ordine naturale (ad esempio: le malattie o il colore degli occhi).
- variabili quantitative (o semplicemente solo variabili): esprimono una quantità, ovvero le modalità sono dei valori numerici (ad esempio: l'altezza o il numero di figli).
- variabili quantitative discrete: assumono una quantità finita o numerabile di valori, ovvero i suoi possibili valori possono essere elencati, cioè possono essere indicati con una successione (ad esempio: il numero di figli, le pagine di un libro o i viaggi annuali).
- variabili quantitative continue: assumono una quantità non numerabile ma continua di valori, che cioè possono assumere tutti i valori intermedi di un intervallo (ad esempio: il peso o l'altezza).[5]
Questi due tipi di variabili possiedono chiaramente caratteristiche differenti e molte proprietà o peculiarità che valgono per le une (ossia per le quantitative) non valgono per le altre; in particolare, in termini di ricchezza di contenuto informativo — derivante dal tipo di relazioni che è possibile stabilire tra i valori che le variabili possono assumere — si può stabilire un ordine gerarchico in cui generalmente "Variabili qualitative < Variabili quantitative"
All'interno di queste due categorie generali si possono ulteriormente fare distinzioni più specifiche per contraddistinguere meglio il contenuto qualitativo–informativo dei caratteri considerati, così, fra le variabili qualitative (o mutabili statistiche) si hanno:
- variabili qualitative sconnesse
- variabili qualitative ordinate (o ordinabili o rettilinee)
All'interno della categoria dei caratteri quantitativi continui si può inoltre distinguere tra:
- variabili quantitative per scala di intervalli
- variabili quantitative per scala di rapporti.
Una variabile multipla, le cui singole variabili semplici siano tutte dello stesso tipo, viene detta variabile omogenea.
Tali distinzioni sono di notevole importanza per l'interpretazione dei dati forniti dall'indagine di un particolare fenomeno statistico e sono particolarmente utili nello stabilire i più opportuni indici di sintetizzazione degli stessi, poiché non tutti i dati si prestano a particolari operazioni di calcolo senza alterarne il significato logico e statistico.
Classificazione alternativa
modificaNel 1946 lo psicologo Stanley Smith Stevens ha proposto una diversa classificazione dei caratteri definendo diverse scale "ammissibili" per le loro modalità classificate in funzione delle proprietà che possiede l'insieme dei valori di un carattere. Stevens ha proposto quattro scale di misura:
- una scala nominale possiede una relazione di equivalenza, ovvero permette di determinare se due modalità sono uguali o diverse (ad esempio: il credo religioso);
- una scala ordinale possiede una relazione d'ordine totale, ovvero le modalità possono essere ordinate e si può stabilire se una è "maggiore", uguale o "minore" di un'altra (ad esempio: il grado militare);
- una scala intervallare permette di calcolare la differenza tra due valori, quindi anche di ordinarli (ad esempio: l'anno dopo Cristo);
- una scala proporzionale permette di calcolare la proporzione tra due valori, quindi anche la loro differenza[6] (ad esempio: l'altezza).
Ognuna di queste scale è un caso particolare della precedente; solitamente per un carattere si adotta la "migliore possibile" tra quelle applicabili.
Ad esempio la temperatura misurata in kelvin segue una scala proporzionale (il rapporto tra due temperature compare ad esempio nella formula per l'efficienza termodinamica di una macchina di Carnot). Se viene invece misurata in gradi Celsius o Fahrenheit allora segue una scala intervallare: la proporzionalità manca a causa della scelta "arbitraria" delle temperature 0 °C e 0 °F.
Per i caratteri qualitativi nominali e ordinali si adotta la scala omonima. Per i caratteri quantitativi non c'è invece corrispondenza tra le due classificazioni discreto/continuo e intervallare/proporzionale.
Classi
modificaLe modalità dei caratteri possono essere raggruppate in classi; nel caso di caratteri quantitativi le classi sono sovente intervalli di valori (questo è quanto avviene solitamente approssimando le misurazioni).
Ogni carattere quantitativo continuo può essere reso discreto tramite un'opportuna scelta degli intervalli. Ad esempio l'età espressa in anni ha classi della forma a cui corrispondono i numeri naturali . La scelta degli intervalli è arbitraria, ma deve ovviamente "coprire" tutti i casi possibili senza sovrapposizioni, cioè deve essere una partizione; per questo motivo vengono spesso scelti intervalli della forma o , in modo che i valori estremi siano compresi in uno e un solo intervallo.
Rappresentazioni grafiche
modificaLe rappresentazioni grafiche delle frequenze osservate possono essere scelte in funzione del tipo di carattere considerato.
Ad esempio su un istogramma possibile rappresentare valori in scala, o in intervalli, quindi può contenere più informazioni riguardo ad una variabile quantitativa rispetto ad un diagramma circolare.
Proprietà
modificaSul piano formale si può considerare una variabile statistica come una funzione che assegna ad ogni particolare modo di manifestarsi di una caratteristica del carattere in esame un determinato valore informativo. In generale il valore assunto da una variabile viene denominato modalità, tuttavia a volte tale termine viene preferito attribuirlo alle sole variabili qualitative e assegnare il solo termine valore ai caratteri quantitativi.
Siano un generico insieme dei possibili modi di manifestarsi di un carattere , e un generico insieme che attribuisce un determinato valore informativo ai elementi di [7], allora si avrà:
con o che indica la -esima modalità (o valore) assunta dal carattere , con ove è la cardinalità di , se è un insieme finito, o in generale il numero di manifestazioni prese in considerazione del carattere (ovvero il numero di modalità) per scelta se eventualmente fosse un insieme infinito.
Di seguito vengono riportate le singole proprietà relative ai diversi tipi di variabili statistiche:
Variabili qualitative sconnesse
modificaTale tipo di variabili contiene il più elementare genere di dati statistici, con i quali è solamente possibile stabilire una relazione d'equivalenza perché tale tipo di caratteri, da un punto di vista statistico, può solamente fornire tale tipo di contenuto informativo e non avrebbe nessun significato stabilire qualsivoglia altro tipo di relazione. Così, per tale tipo di caratteri, in sostanza è possibile stabilire solamente l'"uguaglianza" o meno tra le varie modalità rilevate. Esempi di tali tipi di variabili sono i caratteri: sesso, religione, colore dei capelli ecc. fra le cui diverse modalità possibili (maschio o femmina, islamico o ebreo o cristiano ecc., biondo o castano o rosso ecc.) non è cioè possibile stabilire una gerarchia ordinale (non ha nessun tipo di significato statistico dire che maschio < femmina o che biondo > castano eccetera, si può solamente stabilire maschio = maschio o femmina ≠ maschio); tali caratteri, dunque, sono quelli dal più povero contenuto informativo. L'unico indice di tendenza centrale dei dati che ha senso determinare con tale tipo di variabili è la moda.
Variabili qualitative ordinate
modificaIl contenuto informativo di queste variabili è già superiore a quello delle variabili qualitative sconnesse e, fra le variabili qualitative, contengono indubbiamente il contenuto informativo più ampio. Per tali caratteri è possibile stabilire sia una relazione di equivalenza che una relazione d'ordine . Tali caratteri sono quindi ordinabili in senso crescente e decrescente e ciò è particolarmente vantaggioso rispetto ai caratteri qualitativi sconnessi poiché con essi, oltre alla moda o norma, è possibile determinare (approssimativamente) anche indici di posizione come i quantili, in particolare la mediana, nonché, in una distribuzione di frequenza, le cosiddette frequenze cumulate, utili per trarre informazioni quali-quantitative in più dai dati. Esempi di tali variabili sono caratteri come: titolo di studio, grado professionale, stato di salute ecc., cioè tutti quei caratteri che si manifestano qualitativamente ma per i quali è possibile stabilire, oltre alla "uguaglianza" o "diversità", un ordine oggettivo fra le modalità che può assumere (diploma superiore < laurea triennale, diploma superiore ≠ laurea triennale).
Variabili quantitative continue
modificaQuesto genere di variabili statistiche afferisce a dati che vengono ricavati da processi di misurazione, per cui per esse assume importanza la scala di misura adottata: di intervalli o di rapporti. Si può comodamente affermare che per questo tipo di caratteri, sia una funzione:
Dato che ora le modalità possono assumere valori numerici nel campo dei reali, siano essi positivi o negativi. Naturalmente questo tipo di caratteri presenta un contenuto informativo maggiore delle variabili qualitative, poiché con esse è possibile estrapolare maggiori informazioni di sintesi che, grazie alla natura quantitativa dei caratteri, possono trarsi grazie almeno alle operazioni di somma algebrica, le quali possono sempre effettuarsi senza disturbare il significato statistico di ciò che si ottiene (il rapporto algebrico assume senso statistico solo per i caratteri quantitativi per scala di rapporto). Con tali caratteri è possibile determinare tutti i possibili indici di tendenza centrale, gli indici di variabilità e gli indici di forma e di asimmetria.
Si esaminano i due tipi di caratteri quantitativi in base alla scala di misurazione adottata:
Per scala di intervallo
modificaIn questo tipo di variabili, fissata un'unità di misura ed un'origine della scala di misura, un qualsiasi intervallo fra due valori della scala indica sempre la medesima quantità, ossia si ha conservazione degli intervalli; si parla in tal caso di relazione d'uguaglianza, oltre alle già citate in precedenza relazioni d'equivalenza e d'ordine. Il confronto fra due valori di uno stesso carattere rilevati con unità di misura diverse e con strumenti con stessa precisione, infatti, mantiene inalterata la loro differenza (tenendo conto delle differenze fra le diverse scale). Se le misure venissero rilevate sempre con le stesse condizioni fisico-ambientali, rimarrebbero inalterati pure i rapporti (valga per tutti il caso della temperatura: al variare delle condizioni di pressione atmosferica cambia l'intervallo fra il punto di congelamento dell'acqua e il punto di ebollizione e quindi le relative unità di misura basate su tale intervallo perdono in termini di significato assoluto), giacché però ciò non può verificarsi sempre, poiché in queste scale l'origine è convenzionale (e quindi possono assumere anche valori negativi: motivo per cui non può in linea generale calcolarsi la media geometrica per tale tipo di dati) e non coincide con lo zero fisico, vale a dire un valore al di sotto del quale non è possibile che si presentino i dati, in generale non vale la relazione di rapporto.
Per scala di rapporto
modificaAvendo tali variabili come origine della scala di misura lo zero fisico (o assoluto), per tali caratteri vale anche la cosiddetta relazione di rapporto, che statisticamente indica una condizione con la quale assume senso, da un punto di vista informativo, operare anche rapporti algebrici tra le modalità della variabile. Da ciò dunque si evince che tali caratteri sono quelli più ricchi dal punto di vista del contenuto informativo poiché è possibile effettuarne operazioni di sintesi e di calcolo sempre e comunque.
Variabili quantitative discrete
modificaTali variabili si riferiscono a dati che vengono ricavati da un processo di enumerazione e, in termini formali, il loro insieme di arrivo è un insieme numerico discreto appartenente alla famiglia dei naturali ( ). I dati che presenta questo tipo di variabile sono molto controversi, infatti, attraverso un'operazione di codifica è possibile associare un valore quantitativo discreto alle modalità di una variabile quantitativa, va da sé che dunque il significato informativo espresso dalle modalità da tale genere di carattere può non rappresentare in realtà alcun significato aritmetico, poiché gli "intervalli" fra i valori numerici ottenuti non esprimono nessuna differenza quantitativamente definibile con chiarezza o precisione, giacché non pervenuta tramite strumenti di misura, bensì tramite valutazioni e giudizi soggettivi (un caso emblematico sono i giudizi espressi in termini di voto, come ad esempio a scuola — in effetti, il carattere "voto" — a parte il dato quantitativo — è a tutti gli effetti una variabile qualitativa ordinata). Oppure, il conteggio numerico tramite il quale si è pervenuti ai dati rappresentanti le modalità del carattere è possibile che descriva invero una caratteristica vaga, non definibile chiaramente (ad esempio: "numero di auto vendute", "numero di incidenti stradali", "numero di vani di un appartamento" ecc.), che non consente di descrivere meglio le caratteristiche intrinseche del fenomeno in esame, per tale ragione il trattamento di questi dati tramite misure di sintesi va effettuato molto cautelativamente, poiché in molte istanze determinati indici statistici non hanno neppure un significato "materiale" (si pensi ad una eventuale media aritmetica degli incidenti stradali, il risultato che se ne trarrebbe sarebbe già un numero continuo e non più discreto ed avrebbe poco senso in termini tangibili), pertanto l'uso che si fa di tali indici su questo tipo di variabili è da considerarsi solo come "descrittivo" e non già come di "sintesi".
Riepilogando dunque vi è:
Tipologia dei dati | Contenuto informativo |
---|---|
Variabili qualitative sconnesse | Relazione d'equivalenza |
Variabili qualitative ordinate | Relazione d'equivalenza + Relazione d'ordine |
Variabili quantitative continue per scala di intervallo | Relazione d'equivalenza + Relazione d'ordine + Relazione d'uguaglianza |
Variabili quantitative continue per scala di rapporto | Relazione d'equivalenza + Relazione d'ordine + Relazione d'uguaglianza + Relazione di rapporto |
Note
modifica- ^ Glossario Istat Archiviato il 31 dicembre 2011 in Internet Archive.
- ^ Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. Template:Isbn
- ^ Ovvero in sequenza ordinata o successione.
- ^ Tra i sette giorni della settimana il "primo" è convenzionalmente lunedì in Italia e domenica nel Regno Unito.
- ^ In questa categoria ricadono anche caratteri i cui valori sono discreti ma possono essere determinati con una precisione molto alta e vengono "considerati" continui.
- ^ Rispetto a un fissato valore che viene scelto come unità di misura.
- ^ Si noti come la definizione formale sia assai affine a quella di variabile casuale (o aleatoria): infatti è possibile considerare una variabile statistica come la versione empirica di una variabile aleatoria relativa ad un fenomeno stocastico di cui se ne studia l'andamento sperimentale.
Bibliografia
modifica- Giuseppe Leti, Statistica descrittiva, Il mulino, 1983, ISBN 88-15-00278-2, OCLC 797487994.