Coefficiente di determinazione

In statistica, il coefficiente di determinazione, più comunemente R², è un indice che misura il legame tra la variabilità dei dati e la correttezza del modello statistico utilizzato. Intuitivamente, esso è legato alla frazione della varianza non spiegata dal modello.

Definizione

La definizione più generale è la seguente:

R^{2}=1-{\frac {RSS}{TSS}},

con $RSS$ devianza residua (Residual Sum of Squares):

RSS=\sum _{i=1}^{n}e_{i}^{2}=\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}

$TSS$ devianza totale (Total Sum of Squares):

TSS=\sum _{i=1}^{n}(y_{i}-{\overline {y}})^{2}

dove:

{\hat {y}}_{i}

sono i dati stimati dal modello,

y_{i}

sono i dati osservati,

{\overline {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i}

è la media dei dati osservati.

Adjusted R²

L'adjusted $R^{2}$ (o ${\bar {R^{2}}}$ ) (meglio conosciuto in Italiano come $R^{2}$ corretto o aggiustato) è una variante dell' $R^{2}$ semplice.

Mentre $R^{2}$ semplice è utilizzato per l'analisi di regressione lineare semplice come principale indice di bontà della curva di regressione, $R^{2}$ corretto viene utilizzato per l'analisi di regressione lineare multipla. Esso serve a misurare la frazione di devianza spiegata, cioè la proporzione di variabilità di $Y$ "spiegata" dalla variabile esplicativa $X$ . All'aumentare del numero di variabili esplicative (o predittori) $X$ , aumenta anche il valore di $R^{2}$ , per cui spesso è utilizzato al suo posto ${\bar {R^{2}}}$ , che serve a misurare la frazione di varianza spiegata.

Il coefficiente ${\bar {R}}^{2}$ può essere negativo e vale sempre la disuguaglianza ${\bar {R}}^{2}\leq R^{2}$ .

{\bar {R}}^{2}=1-{n-1 \over n-k-1}\cdot {\frac {RSS}{TSS}},

dove:

$n$ è il numero delle osservazioni;
$k$ è il numero dei regressori.

R² e Correlazione lineare

Se si ha a disposizione la correlazione tra due variabili discrete, $\rho _{X,Y}$ , (o indice di correlazione di Pearson) si può determinare il coefficiente di determinazione, elevando semplicemente al quadrato la correlazione. Viceversa, se si ha a disposizione $R^{2}$ , si può determinare la correlazione, facendo la radice quadrata.

{\displaystyle R^{2}=\rho _{X,Y}^{2}\Leftrightarrow \rho _{X,Y}={\sqrt {R^{2}}}}

dove:

$\displaystyle \rho _{X,Y}$ è la correlazione tra le variabili $X$ e $Y$ , ottenibile dividendo la covarianza tra le due variabili e il prodotto dei loro scarti quadratici medi $\displaystyle \rho _{X,Y}=\left({\frac {\sigma _{X,Y}}{\sigma _{X}\cdot \sigma _{Y}}}\right)$ .

La formula empirica di questo modello è il seguente:

R^{2}={\frac {ESS}{TSS}},

dove $ESS=\sum _{i=1}^{n}({\hat {y}}_{i}-{\overline {y}})^{2}$ è la devianza spiegata dal modello (Explained Sum of Squares). Questa definizione è possibile poiché, per regressioni lineari semplici, la devianza può essere scomposta come $ESS=TSS-RSS$ .

R² varia tra $-\infty$ e 1: quando è 0 il modello utilizzato offre una spiegazione dei dati non migliore del valore medio ( $RSS=TSS$ ); quando è 1 il modello spiega perfettamente i dati. Un modello peggiore della media ( $RSS>TSS$ ) ha coefficiente $R^{2}$ minore di 0.

Interpretazione

Se $R^{2}$ o ${\bar {R^{2}}}$ sono prossimi a 1, significa che i regressori predicono bene il valore della variabile dipendente in campione; mentre se è uguale a 0, significa che non lo fanno.^[1]

I coefficienti $R^{2}$ e ${\bar {R^{2}}}$ non dicono se:

una variabile sia statisticamente significativa;
i regressori sono causa effettiva dei movimenti della variabile dipendente;
c'è una distorsione da variabile omessa;
è stato scelto il gruppo dei regressori più appropriato.

Note

^ James Stock, Mark Watson, Introduzione all'econometria, Milano, Pearson Education, 2005, p. 174, ISBN 978-88-7192-267-6.

Bibliografia

James Stock, Mark Watson, Introduzione all'econometria, Milano, Pearson Education, 2005, p. 121, ISBN 978-88-7192-267-6. 9788871922676
Draper, N.R. and Smith, H. (1998). Applied Regression Analysis. Wiley-Interscience. ISBN 0-471-17082-8
Everitt, B.S. (2002). Cambridge Dictionary of Statistics (2nd Edition). CUP. ISBN 0-521-81099-X
Nagelkerke, Nico J.D. (1992) Maximum Likelihood Estimation of Functional Relationships, Pays-Bas, Lecture Notes in Statistics, Volume 69, 110p ISBN 0-387-97721-X
Luigi Fabbris, Statistica multivariata (analisi esplorativa dei dati). 1997, McGrawHill. ISBN 88-386-0765-6

Altri progetti

Wikimedia Commons contiene immagini o altri file su coefficiente di determinazione

Collegamenti esterni

(EN) Felicity Boyd Enders, coefficient of determination, su Enciclopedia Britannica, Encyclopædia Britannica, Inc.

Controllo di autorità	GND (DE) 4618882-4

Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica

[1] James Stock, Mark Watson, Introduzione all'econometria, Milano, Pearson Education, 2005, p. 174, ISBN 978-88-7192-267-6.

[1]

Coefficiente di determinazione

Definizione

Adjusted R2

R2 e Correlazione lineare

Interpretazione

Note

Bibliografia

Altri progetti

Collegamenti esterni

Adjusted R²

R² e Correlazione lineare