Metodo della massima verosimiglianza

Il metodo della massima verosimiglianza, in statistica, è un procedimento matematico per determinare uno stimatore. Caso particolare della più ampia classe di metodi di stima basata sugli stimatori d'estremo, il metodo consiste nel massimizzare la funzione di verosimiglianza, definita in base alla probabilità di osservare una data realizzazione campionaria, condizionatamente ai valori assunti dai parametri statistici oggetto di stima. Il metodo è stato sviluppato, originariamente, dal genetista e statistico sir Ronald Fisher, tra il 1912 e il 1922.

Descrizione

Filosofia del metodo

Data una distribuzione di probabilità $\ D$ , con funzione di massa (o densità, se continua) di probabilità $\ {\mathcal {L}}_{D}$ , caratterizzata da un parametro $\ \vartheta$ , dato un campione di dati osservati $\ \left\{x_{i}\right\}_{i=1}^{n}$ di dimensione $\ n$ si può calcolare la probabilità associata ai dati osservati:

\ P(\left\{x_{i}\right\}_{i=1}^{n}\ |\vartheta )={\mathcal {L}}_{D}(\vartheta |\left\{x_{i}\right\}_{i=1}^{n})

D'altra parte, può darsi che il parametro $\ \vartheta$ sia ignoto, sebbene sia noto che il campione è estratto dalla distribuzione $\ D$ . Un'idea per stimare $\ \vartheta$ è allora utilizzare i dati a nostra disposizione: $\ \left\{x_{i}\right\}_{i=1}^{n}$ per ottenere informazioni su $\ \vartheta$ .

Il metodo della massima verosimiglianza ricerca il valore più verosimile di $\ \vartheta$ , ossia ricerca, all'interno dello spazio $\ \Theta$ di tutti i possibili valori di $\ \vartheta$ , il valore del parametro che massimizza la probabilità di aver ottenuto il campione dato. Da un punto di vista matematico, ${\mathcal {L}}_{D}(\vartheta |\left\{x_{i}\right\}_{i=1}^{n})$ o equivalentemente $\ {\mathcal {L}}_{D}(\vartheta |x_{1},\ldots ,x_{n})$ è detta funzione di verosimiglianza, e lo stimatore di massima verosimiglianza è ottenuto come:

\ {\hat {\vartheta }}=\arg \max _{\vartheta \in \Theta }{\mathcal {L}}_{D}\left(\vartheta |x_{1},\ldots ,x_{n}\right)

Esempi

Al fine di illustrare il metodo della massima verosimiglianza, si consideri un campione $\ \{x_{i}\}_{i=1}^{n}$ di variabili casuali identicamente e indipendentemente distribuite, con distribuzione normale: $\ x_{i}\sim N(\mu ,\sigma ^{2})\ \forall i$ . La funzione di verosimiglianza associata è:

\ {\mathcal {L}}\left(\mu ,\sigma ^{2}|\{x_{i}\}_{i}\right)=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left\{-{\frac {1}{2}}\left({\frac {x_{i}-\mu }{\sigma }}\right)^{2}\right\}

La massimizzazione della funzione di verosimiglianza è equivalente a massimizzarne il logaritmo:

\ L\left(\mu ,\sigma ^{2}|\{x_{i}\}_{i}\right)=\ln {\mathcal {L}}\left(\mu ,\sigma ^{2}|\{x_{i}\}_{i}\right)=-{\frac {n}{2}}\ln(2\pi \sigma ^{2})-{\frac {1}{2}}\sum _{i=1}^{n}\left({\frac {x_{i}-\mu }{\sigma }}\right)^{2}

I parametri $\ \mu$ e $\ \sigma ^{2}$ sono determinati risolvendo il problema di massimo:

\ \{\mu ,\sigma ^{2}\}=\arg \max _{\mu ,\sigma ^{2}}L\left(\mu ,\sigma ^{2}|\{x_{i}\}_{i}\right)

Le condizioni del primo ordine per un massimo definiscono il seguente sistema di equazioni in $\ \mu$ e $\ \sigma ^{2}$ :

\ {\frac {\partial L}{\partial \mu }}={\frac {1}{{\hat {\sigma }}^{2}}}\sum _{i}(x_{i}-{\hat {\mu }})=0

\ {\frac {\partial L}{\partial \sigma ^{2}}}=-{\frac {n}{2}}{\frac {1}{{\hat {\sigma }}^{2}}}+{\frac {1}{2{\hat {\sigma }}^{4}}}\sum _{i}(x_{i}-{\hat {\mu }})^{2}=0

dove i segni di apice sopra i parametri denotano i loro stimatori. Dalla prima equazione discende immediatamente lo stimatore di massima verosimiglianza per la media:

\ {\hat {\mu }}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}

cioè la media campionaria. La varianza dello stimatore $\ {\hat {\mu }}$ è data dalla seguente espressione^[1]:

\ {\textrm {var}}({\hat {\mu }})={\textrm {var}}\left({\frac {1}{n}}\sum _{i=1}^{n}x_{i}\right)={\frac {1}{n^{2}}}\sum _{i=1}^{n}{\textrm {var}}(x_{i})={\frac {\sigma ^{2}}{n}}

Sostituendo $\ {\hat {\mu }}$ nella seconda equazione, si ha lo stimatore di massima verosimiglianza per la varianza:

\ {\hat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\hat {\mu }})^{2}

cioè la varianza campionaria.

L'esempio è particolarmente calzante, perché consente di illustrare alcune proprietà degli stimatori di massima verosimiglianza. È immediato verificare la correttezza (o unbiasedness) di $\ {\hat {\mu }}$ :

\ {\textrm {E}}[{\hat {\mu }}]={\textrm {E}}\left[{\frac {1}{n}}\sum _{i=1}^{n}x_{i}\right]={\frac {1}{n}}\sum _{i=1}^{n}{\textrm {E}}[x_{i}]=\mu

D'altra parte, $\ {\hat {\sigma }}^{2}$ non gode di tale proprietà. Ricordando che:

\ \sum _{i}(x_{i}-\mu )^{2}=\sum _{i}(x_{i}-{\hat {\mu }})^{2}+n({\hat {\mu }}-\mu )^{2}

segue che:

\ {\textrm {E}}[{\hat {\sigma }}^{2}]={\frac {1}{n}}{\textrm {E}}\left(\sum _{i=1}^{n}(x_{i}-{\hat {\mu }})^{2}\right)={\frac {1}{n}}{\textrm {E}}\left[\sum _{i}(x_{i}-\mu )^{2}-n({\hat {\mu }}-\mu )^{2}\right]={\frac {n-1}{n}}\sigma ^{2}

Dunque $\ {\hat {\sigma }}^{2}$ non è uno stimatore corretto; un tale stimatore sarebbe dato dalla statistica:

\ {\hat {s}}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\hat {\mu }})^{2}

Val la pena d'altra parte di osservare che lo stimatore di massima verosimiglianza è comunque uno stimatore asintoticamente corretto; infatti:

\ \lim _{n\rightarrow \infty }{\textrm {E}}[{\hat {\sigma }}^{2}]=\lim _{n\rightarrow \infty }{\frac {n-1}{n}}\sigma ^{2}=\sigma ^{2}

In particolare, qualunque stimatore di massima verosimiglianza è asintoticamente corretto e asintoticamente normalmente distribuito.

L'espressione per la varianza dello stimatore $\ {\hat {\sigma }}^{2}$ è al di là degli scopi di questo esempio.

È interessante osservare che gli stimatori derivati in questa sezione sono identici a quelli ottenibili, nelle stesse condizioni, impiegando il metodo dei momenti; a scanso di equivoci, si precisa che i due metodi di ricerca degli stimatori non conducono necessariamente a individuare gli stessi stimatori in condizioni più generali.

Applicazione alla Poissoniana

Al di là dei problemi evidenziati negli esempi sopra, altre difficoltà, di portata più generale, possono essere associate agli stimatori di massima verosimiglianza.

Il valore dello stimatore di massima verosimiglianza può non appartenere allo spazio dei parametri $\ \Theta$ . Si consideri il caso di un campione $\ \left\{X_{i}\right\}_{i=1}^{n}$ di v.c. identicamente e indipendentemente distribuite, con distribuzione di Poisson di parametro $\lambda >0$ . La funzione di verosimiglianza associata è:

\ {\mathcal {L}}\left(\lambda |\left\{X_{i}\right\}_{i=1}^{n}\right)={\frac {e^{-n\lambda }\lambda ^{\sum _{i}X_{i}}}{\prod _{i=1}^{n}X_{i}!}}

Così che la funzione di log-verosimiglianza risulta:

\ L\left(\lambda |\left\{X_{i}\right\}_{i=1}^{n}\right)=-n\lambda +\ln \lambda \sum _{i}X_{i}-\ln \left(\prod _{i=1}^{n}X_{i}!\right)

Lo stimatore di massima verosimiglianza sarebbe dunque $\ {\hat {\lambda }}={\frac {1}{n}}\sum _{i}X_{i}$ . Si supponga tuttavia che $\ {\bar {X}}={\frac {1}{n}}\sum _{i}X_{i}=0$ ; poiché $\ 0\notin \Theta =\mathbb {R} _{+}$ , la stima ottenuta con il metodo della massima verosimiglianza non è ammissibile.

A prima vista il problema potrebbe apparire un dettaglio matematico di scarso rilievo nella pratica; la sua portata nelle applicazioni è tuttavia più rilevante di quanto sembri. Restando nell'ambito dell'esempio testé esposto, si osservi che la variabile casuale poissoniana è spesso utilizzata come modello per il numero di arrivi a uno sportello, un ufficio, la fermata di un autobus, etc. (si tratta di un'applicazione della teoria delle code, che fa per la precisione riferimento al processo di Poisson); in tale contesto, $\lambda$ rappresenta il tasso atteso di arrivi per unità di tempo. È chiaro che ipotizzare $\lambda =0$ in qualche misura snatura il processo sotto esame: può darsi che, nell'intervallo di tempo corrispondente al campione utilizzato per la stima, nessun cliente sia arrivato allo sportello (nessun passeggero alla fermata dell'autobus, etc.); ciò non significa che ci si debba aspettare che nessun cliente (o passeggero, etc.) arrivi mai!

Lo stimatore di massima verosimiglianza, inoltre, non è necessariamente unico. Si consideri, ad esempio, il caso di un campione $\ \left\{X_{i}\right\}_{i=1}^{n}$ di variabili casuali identicamente e indipendentemente distribuite, aventi distribuzione uniforme sull'intervallo $\ [\vartheta -1/2,\vartheta +1/2]$ , con $\ \vartheta \in \mathbb {R}$ . La funzione di verosimiglianza associata è:

\ {\mathcal {L}}(\vartheta |\left\{X_{i}\right\}_{i=1}^{n})=\mathbf {1} _{\left\{X_{i}\in [\vartheta -{\frac {1}{2}},\vartheta +{\frac {1}{2}}],\ i=1,\ldots ,n\right\}}

dove $\ \mathbf {1}$ denota la funzione indicatrice. Si supponga che il campione sia ordinato in modo tale che:

\ X_{1}\leq X_{2}\leq \cdots \leq X_{n}

(tale ipotesi è lecita in quanto le $\ X_{i}$ sono indipendentemente distribuite). È facile mostrare che:

\ {\mathcal {L}}(\vartheta |\left\{X_{i}\right\}_{i=1}^{n})=\left\{{\begin{matrix}1&\iff &X_{n}-{\frac {1}{2}}\leq \vartheta \leq X_{1}+{\frac {1}{2}}\\0&&{\textrm {altrimenti}}\end{matrix}}\right.

Ne consegue che lo stimatore di massima verosimiglianza per $\ \vartheta$ è unico se e solo se $\ X_{n}-X_{1}=1$ ; diversamente, un numero infinito di valori dello stimatore $\ {\hat {\vartheta }}$ massimizza la funzione di verosimiglianza.

Proprietà degli stimatori di massima verosimiglianza

Invarianza funzionale

Se $\ {\hat {\vartheta }}$ è lo stimatore di massima verosimiglianza per il parametro $\ \vartheta$ , allora lo stimatore di massima verosimiglianza per $\ \alpha =g\left(\vartheta \right)$ è $\ {\hat {\alpha }}=g\left({\hat {\vartheta }}\right)$ , ciò vale per ogni $\ g$ , indipendentemente dal fatto che sia una funzione biiettiva.

Distorsione

Gli stimatori di massima verosimiglianza, come illustrato negli esempi, possono essere distorti (cioè non corretti o all'inglese biased), anche in maniera consistente. D'altra parte essi sono asintoticamente corretti.

Efficienza e comportamento asintotico

Gli stimatori di massima verosimiglianza non conseguono in generale il limite inferiore per la varianza stabilito dal risultato di Cramér-Rao, lo conseguono però asintoticamente, cioè la varianza si discosta dal limite inferiore di Cramér-Rao per una quantità infinitesima al crescere di n. In condizioni di regolarità (spazio campionario non dipendente dal parametro e $l(\theta )\in C^{3}$ ed esistono i valori attesi di tutte le derivate parziali della log-verosimiglianza fino al terzo ordine), gli stimatori di massima verosimiglianza sono inoltre asintoticamente normalmente distribuiti.

Note

^ Si tengano a mente le proprietà di linearità della varianza.

Bibliografia

D. C. Boes, F. A. Graybill, A. M. Mood (1988), Introduzione alla Statistica, McGraw-Hill Libri Italia, ISBN 88-386-0661-7 (testo sui fondamenti della statistica matematica, con diversi capitoli sui metodi di ricerca degli stimatori)
L. Pace, A.Salvan (2022), Introduzione alla statistica - II - Inferenza, verosimiglianza, modelli, CEDAM

Voci correlate

Altri progetti

Wikimedia Commons contiene immagini o altri file su metodo della massima verosimiglianza

Collegamenti esterni

Samantha Leorato, verosimiglianza massima, metodo della, in Dizionario di Economia e Finanza, Istituto dell'Enciclopedia Italiana, 2012.
(EN) Eric W. Weisstein, Maximum Likelihood, su MathWorld, Wolfram Research.
Metodo della massima verosimiglianza, in Dizionario di economia e finanza, Roma, Istituto dell'Enciclopedia Italiana, 2012.

Controllo di autorità	Thesaurus BNCF 57804

Portale Economia

Portale Statistica

[1] Si tengano a mente le proprietà di linearità della varianza.

[1]