B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 3 – Teoria della stima 175 CAP. 3 – STIMA Introduzione Nel capitolo precedente sono state esaminate le distribuzioni di alcune funzioni T(X 1 ,X 2 ,…,X n ) degli elementi campionari soffermando l’attenzione, in particolare, su media e varianza facendo specifico riferimento al campionamento da popolazioni normali. Come sottolineato, considerazioni analoghe possono essere svolte nei confronti di funzioni T diverse da quelle analizzate; la logica del procedimento da seguire resta sostanzialmente immutata anche se, ovviamente, lo svolgimento analitico dipenderà dalle specificità considerate. Rimane altresì immutata anche la natura della funzione T che, nella generalità dei casi, è quella di compattare l’informazione campionaria in modo da consentire un’estensione delle conclusioni cui si perviene attraverso l’elaborazione dei dati campionari all’intera popolazione dalla quale il campione stesso è stato estratto. Il nucleo centrale dell’inferenza statistica o statistica induttiva risiede, appunto, nella fissazione di “criteri di ottimalità” e nell’individuazione di regole che consentano il loro soddisfacimento affinché il processo di induzione (dal campione alla popolazione) sia il “migliore possibile”. I criteri di ottimalità dipendono, ovviamente, dai problemi di induzione che si vogliono risolvere e che, come già sottolineato nella premessa, possono essere distinti e raggruppati in problemi statistici di: 1. stima (puntuale e per intervallo) 2. verifica o test d’ipotesi. Nel primo caso, i dati campionari vengono utilizzati per ottenere una misura (stima) di un’entità incognita relativa alla popolazione (indici caratteristici e/o parametri caratteristici e/o forma analitica del modello rappresentativo del fenomeno che s’intende analizzare). Nel secondo caso, i dati campionari vengono utilizzati per procedere al rifiuto o all’accettazione di una particolare ipotesi (congettura) formulata in merito ad entità incognite relative alla popolazione di origine del campione. La stima e il test delle ipotesi possono riguardare sia la forma funzionale del modello rappresentativo della popolazione di interesse sia i parametri che lo caratterizzano sia, più semplicemente, gli indici caratteristici; in questo caso si parla, come già più volte sottolineato, di inferenza statistica non parametrica o inferenza libera da distribuzione (distribution free) in quanto non si presuppone nota la forma analitica del modello rappresentativo della popolazione. Se invece la stima o il test delle ipotesi riguardano i soli parametri caratteristici, in quanto si assume nota la forma analitica del modello, si
42
Embed
CAP. 3 STIMA - UniFI...Cap. 3 – Teoria della stima 175 CAP. 3 – STIMA Introduzione Nel capitolo precedente sono state esaminate le distribuzioni di alcune funzioni T(X 1,X 2,…,X
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Teoria della stima
175
CAP. 3 – STIMA
Introduzione
Nel capitolo precedente sono state esaminate le distribuzioni di alcune funzioni
T(X1,X2,…,Xn) degli elementi campionari soffermando l’attenzione, in particolare, su
media e varianza facendo specifico riferimento al campionamento da popolazioni
normali. Come sottolineato, considerazioni analoghe possono essere svolte nei confronti
di funzioni T diverse da quelle analizzate; la logica del procedimento da seguire
resta sostanzialmente immutata anche se, ovviamente, lo svolgimento analitico
dipenderà dalle specificità considerate. Rimane altresì immutata anche la natura della
funzione T che, nella generalità dei casi, è quella di compattare l’informazione
campionaria in modo da consentire un’estensione delle conclusioni cui si perviene
attraverso l’elaborazione dei dati campionari all’intera popolazione dalla quale il
campione stesso è stato estratto.
Il nucleo centrale dell’inferenza statistica o statistica induttiva risiede, appunto,
nella fissazione di “criteri di ottimalità” e nell’individuazione di regole che consentano
il loro soddisfacimento affinché il processo di induzione (dal campione alla
popolazione) sia il “migliore possibile”.
I criteri di ottimalità dipendono, ovviamente, dai problemi di induzione che si
vogliono risolvere e che, come già sottolineato nella premessa, possono essere distinti e
raggruppati in problemi statistici di:
1. stima (puntuale e per intervallo)
2. verifica o test d’ipotesi.
Nel primo caso, i dati campionari vengono utilizzati per ottenere una misura (stima)
di un’entità incognita relativa alla popolazione (indici caratteristici e/o parametri
caratteristici e/o forma analitica del modello rappresentativo del fenomeno che s’intende
analizzare).
Nel secondo caso, i dati campionari vengono utilizzati per procedere al rifiuto o
all’accettazione di una particolare ipotesi (congettura) formulata in merito ad entità
incognite relative alla popolazione di origine del campione.
La stima e il test delle ipotesi possono riguardare sia la forma funzionale del modello
rappresentativo della popolazione di interesse sia i parametri che lo caratterizzano sia,
più semplicemente, gli indici caratteristici; in questo caso si parla, come già più volte
sottolineato, di inferenza statistica non parametrica o inferenza libera da distribuzione
(distribution free) in quanto non si presuppone nota la forma analitica del modello
rappresentativo della popolazione. Se invece la stima o il test delle ipotesi riguardano i
soli parametri caratteristici, in quanto si assume nota la forma analitica del modello, si
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
176
parla di inferenza statistica parametrica.
In questo capitolo si tratterà, in modo quasi esclusivo, di stima parametrica
limitatamente alla così detta impostazione classica dell’inferenza statistica, cioè,
dell’inferenza statistica che tratta di procedure di induzione basate sulla sola evidenza
campionaria (informazione oggettiva) a differenza dell’impostazione bayesiana che
prevede, invece, l’utilizzo simultaneo di informazioni campionarie e di informazioni a
priori che, nella generalità dei casi, hanno natura soggettiva.
3.1 - Stima puntuale
Se X è una variabile casuale discreta o continua, con funzione di massa o di densità di
probabilità f(x;dove Θ rappresenta il parametro caratteristico non noto e Θ lo
spazio parametrico, la stima puntuale di si risolve nella ricerca di una funzione degli
elementi campionari 1 2, ,..., nx x x in modo tale da ottenere un valore
1 2ˆ , ,..., nT x x x che sia ‘il più vicino possibile’ al vero valore dell’entità incognita
per qualunque valore di Θ
Come già sottolineato più volte, attraverso l’introduzione della statistica T si
effettua una compattazione delle informazioni passando, usualmente, dagli n valori
numerici x1,x2,…,xn ad un solo valore numerico, ad es. 1
1 n
i
i
x xn
. Risulta evidente
che tale operazione comporta una notevolissima perdita di informazioni; aspetto questo
che non deve assolutamente preoccupare, anzi, in molte situazioni risulta vantaggioso,
soprattutto quando le informazioni che si perdono sono del tutto irrilevanti ai fini degli
obiettivi che s’intendono perseguire.
L’ultima considerazione suggerisce una prima possibilità di qualificazione della
generica affermazione deve essere “il più vicino possibile” a od anche, deve
essere “la migliore stima” di . Ad esempio, se si ha ragione di ritenere che una certa
variabile casuale X sia distribuita normalmente, ma non si conosce il valore numerico
dei due parametri che la caratterizzano, µ e 2, si può decidere di estrarre un campione
di n elementi dalla distribuzione stessa e cercare poi di individuare due funzioni che
applicate ai valori campionari diano una misura, la “migliore”, dei due parametri
incogniti. Analogo ragionamento può essere fatto nei confronti del parametro che
caratterizza la distribuzione di Poisson, del parametro p che caratterizza la distribuzione
bernoulliana, ecc.
Più in generale, data una variabile casuale, discreta o continua, X con funzione di
massa o di densità di probabilità f(x;), la stima puntuale del un parametro incognito
si ottiene applicando una specifica funzione T ai valori campionari; essa varierà
quindi al variare del campione, secondo la legge di distribuzione della popolazione cui il
campione si riferisce, ed è necessario fare riferimento a tale distribuzione per riuscire a
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
177
giudicare la “bontà” di una qualunque stima = T(x1, x2,...,xn). Infatti, non è possibile
affermare se un singolo valore numerico, cioè se una particolare stima è “buona” o
“cattiva” poiché è tanto più “buona” quanto più si approssima al vero valore del
parametro , ma, essendo tale valore incognito, il confronto non è possibile; risulta,
cioè, impossibile valutare la “bontà” di una singola stima.
Pertanto, è improprio parlare di stima “buona” o “cattiva”, si deve parlare invece di
stimatore “buono” o “cattivo”, intendendo, con ciò, fare riferimento al metodo di stima
impiegato le cui proprietà non sono valutabili facendo riferimento ad un singolo
campione ma all’intero universo di tutti i campioni possibili. Il confronto fra stimatori
dovrà, quindi, essere basato sul confronto tra le corrispondenti distribuzioni
campionarie; cosa questa ovviamente poco pratica, si preferisce allora effettuare il
confronto facendo riferimento a particolari indici caratteristici delle variabili casuali
stima (stimatori).
3.1.1 Proprietà degli stimatori
Se con X si indica una variabile casuale, discreta o continua, con funzione di massa o
di densità di probabilità f(x;) , caratterizzata dal parametro incognito , il problema
della ricerca dello stimatore ”migliore” del parametro stesso si sostanzia nella
individuazione della “migliore” funzione 1 2 , ,...., nT X X X T X da applicare agli
elementi campionari di cui si dispone:
Definizione 1 (Stimatore). Se con X si indica una variabile casuale, discreta o
continua, con funzione di massa o di densità di probabilità f(x;),
caratterizzata dal parametro incognito , e si indica con
1 2 , ,...., nX X X un campione casuale semplice riferito alla variabile
stessa, si dice stimatore qualunque statistica 1 2 , ,...., nT X X X T X ,
cioè qualunque variabile casuale, funzione degli elementi campionari, le
cui determinazioni vengono utilizzate per ottenere una stima del parametro
incognito .
Le proprietà “ottimali” che verranno considerate in queste note sono la:
sufficienza;
concentrazione;
prossimità;
efficienza;
consistenza.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
178
3.1.2 Sufficienza
Relativamente alle “proprietà ottimali” di uno stimatore si deve, innanzi tutto, tenere
presente che la funzione T opera una compattazione delle informazioni; risulta,
pertanto, più che ragionevole richiedere ad uno stimatore 1 2ˆ , ,....., nT X X X di
contenere il massimo delle informazioni che il campione fornisce in merito al valore del
parametro incognito Θ dove Θ rappresenta lo spazio di variabilità di (spazio
parametrico).
Nel caso in cui si riesce ad individuare uno stimatore che contiene tutte le
informazioni su possedute dal campione di dati a disposizione, si dice che è uno
stimatore sufficiente di . Appare subito evidente che nei casi in cui esistono più
stimatori sufficienti, si dovrà restringere la ricerca del miglior stimatore entro tale classe
poiché, al di fuori di essa, ogni altro stimatore avrebbe come conseguenza una mancata
utilizzazione di informazioni utili contenute nel campione. Ovviamente, è sufficiente lo
stimatore basato su una statistica sufficiente (cfr. paragrafo 2.2).
3.1.3 Concentrazione e prossimità
Oltre alla sufficienza, risulta conveniente che le singole stime non si discostino troppo
dal valore incognito da stimare, che presentino, cioè, il minimo di variabilità intorno a
tale valore, variabilità che può essere misurata sia attraverso specifici indici sintetici,
come si avrà modo di verificare nelle righe successive, sia considerando direttamente la
distribuzione di probabilità.
Definizione 2 (Concentrazione). Lo stimatore * *
1 2ˆ , ,..., nΘ T X X X che soddisfa la
relazione:
*ˆ ˆ P Θ P Θ per qualsiasi valore di
0 e Θ è detto più concentrato dello stimatore
1 2ˆ , ,....., nΘ T X X X .
Quella specificata è una proprietà relativa, si effettua, cioè, il confronto
tra due particolari stimatori ˆ *Θ e Θ . Se la disuguaglianza vale per
qualunque stimatore Θ alternativo a ˆ *Θ si dirà che ˆ *Θ è lo stimatore
più concentrato in assoluto.
Definizione 3 (Prossimità). Lo stimatore * *
1 2ˆ , ,..., nΘ T X X X che soddisfa la
relazione:
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
179
*ˆ ˆ 0,5P Θ Θ per qualsiasi valore di Θ
è detto più prossimo (secondo Pitman) dello stimatore
1 2ˆ , ,....., nΘ T X X X .
Quella specificata è una proprietà relativa, si effettua, cioè, il confronto tra due
particolari stimatori ˆ *Θ e Θ . Se la disuguaglianza vale per qualunque stimatore Θ
alternativo a ˆ *Θ si dirà che ˆ *Θ è lo stimatore che presenta una migliore
approssimazione in assoluto.
3.1.4 Efficienza
Le proprietà di concentrazione e di prossimità sono certamente auspicabili purtroppo,
però, sono rare le situazioni nelle quali esistono stimatori che godono di tali proprietà
oltre alle difficoltà analitiche connesse alla loro derivazione. Si dovrà, pertanto, fare
riferimento non all’intera distribuzione di probabilità ma a specifici indici sintetici di
variabilità, procedendo, cioè, al computo di scostamenti appropriati tra i valori
assumibili dallo stimatore e il vero valore del parametro incognito (qualunque esso
sia) per poi addivenire ad una loro adeguata sintesi. L’entità aleatoria che si sta trattando
è la variabile casuale stimatore 1 2ˆ , ,....., nΘ T X X X e la costante di riferimento è il
parametro incognito . Gli scostamenti tra tutti i valori che la variabile casuale stima
Θ assume, nell’universo dei campioni, e il valore incognito , possono essere espressi
dalla differenza in valore assoluto ˆ| |Θ od anche al quadrato 2
Θ o qualunque
altra misura di scostamento ritenuta adeguata al caso in esame.
Definizione 4 (Efficienza nell’ESM). Lo stimatore * *
1 2ˆ , ,..., nΘ T X X X che
soddisfa la relazione: *ˆ ˆ| | | |E Θ E Θ per qualunque
Θ e per qualunque stimatore 1 2ˆ , ,..., nΘ T X X X alternativo allo
stimatore ˆ *Θ , dove, al solito, E sta ad indicare il valore atteso
(valore medio) dell’entità all’interno della parentesi, è detto il più
efficiente nell’errore semplice medio.
ESM(Θ ) = ˆ| |E Θ .
Definizione 5 (Efficienza nell’EQM). Lo stimatore * *
1 2ˆ , ,..., nΘ T X X X , che
soddisfa la relazione: * 2 2ˆ ˆ( ) ( )E Θ E Θ per qualunque
Θ e per qualunque stimatore 1 2ˆ , ,..., nΘ T X X X , alternativo allo
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
180
stimatore * , è detto il più efficiente nell’errore quadratico medio
EQM 2
ˆΘ E .
Quello sopra introdotto è un concetto assoluto di efficienza che risulta
operativamente poco utile in quanto sono molto infrequenti le situazioni di ricerca in cui
si riesce ad individuare per via analitica lo stimatore più efficiente (nell’errore semplice
medio o nell’errore quadratico medio), sempre nell’ipotesi di esistenza di tale stimatore.
Analogamente a quanto detto a proposito delle proprietà di concentrazione e di
prossimità, oltre a considerare la proprietà di efficienza in senso assoluto si può
introdurre il concetto di efficienza in senso relativo confrontando due diversi stimatori
1Θ e 2Θ di uno stesso parametro incognito .
Lo stimatore 1Θ si dice più efficiente dello stimatore
2Θ :
nell’errore semplice medio se ESM(1Θ ) < ESM(
2Θ ) , per qualunque Θ ;
nell’errore quadratico medio se EQM(1Θ ) < EQM(
2Θ ), per qualunque Θ .
L’efficienza relativa dello stimatore 1Θ rispetto allo stimatore
2Θ è definita dai
rapporti:
1
2
ˆ
ˆESM
ESM Θe
ESM Θ
1
2
ˆ
ˆEQM
EQM Θe
EQM Θ
Comunque, il problema più rilevante nella ricerca dello stimatore più efficiente non
risiede tanto nelle difficoltà analitiche di computo quanto nell’inesistenza di un tale
stimatore ottimale; infatti, non sono affatto rare le situazioni nelle quali non esiste uno
stimatore che minimizza l’ESM o l’EQM per qualunque valore di Θ . In tali
situazioni si dovrà abbandonare l’obiettivo della ricerca dell’ottimo assoluto, non
esistendo un tale ottimo, per procedere, eventualmente, alla ricerca di un sub-ottimo.
Si può, ad esempio, procedere alla ricerca di uno stimatore puntuale capace di
minimizzare l’ESM o l’EQM in una classe ristretta di stimatori (minimo vincolato)
essendo ragionevole ipotizzare l’esistenza di un ottimo in una classe ristretta; il vincolo
usualmente imposto è quello della correttezza o non distorsione dello stimatore.
Definizione 6 (Correttezza o non distorsione). Uno stimatore 1 2
ˆ ( , ,..., )n n nΘ T X X X
(di ) si dice corretto o non distorto se
E(Θ ) = .
per qualunque Θ .
Si consideri ora la relazione
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
181
22 22
22 2
ˆ
ˆˆ ˆ ˆ ˆ ˆ ˆ ˆ( ) ( ) ( ) ( ) - 0
ˆ ˆ ( ) -
EQM Θ E Θ E Θ E Θ E Θ E Θ E Θ E
Var Θ E Θ d
dove ˆd E Θ viene detta distorsione. Se 1 2
ˆ ( , ,..., )n n nΘ T X X X è uno
stimatore non distorto di si ha d 2 = 0 e quindi:
22
ˆˆ ˆ ˆ ˆ( ) ( )EQM Θ E Θ E Θ E Θ Var
cioè, se uno stimatore è corretto il suo errore quadratico medio e la sua varianza
coincidono. Pertanto, nella classe ristretta degli stimatori corretti si può affermare che lo
stimatore più efficiente nell’EQM è lo stimatore di minima varianza. Quest’ultima
conclusione provoca spesso confusione inducendo a concludere che lo stimatore più
efficiente è lo stimatore di minima varianza; si tratta, ovviamente, di una conclusione
errata perché l’affermazione vale solo nell’ambito degli stimatori corretti.
Il vincolo di correttezza in molti testi non viene introdotto con una tale connotazione,
cioè come restrizione della classe degli stimatori, ma come proprietà dello stimatore
stesso. Nella logica espositiva qui seguita, dove la “bontà” di uno stimatore è misurata
facendo riferimento alla sua variabilità campionaria, una tale interpretazione della
correttezza non può essere accolta; in altre parole la correttezza rappresenta un vincolo e
non una proprietà. Ovviamente, a parità di tutte le altre condizioni, uno stimatore
corretto è preferibile ad uno stimatore distorto.
È stato più volte sottolineata la possibilità di non esistenza dello stimatore più
efficiente, sia nell’EQM che nell’ESM, possibilità questa molto meno frequente invece
nella classe ristretta degli stimatori corretti; infatti, come si avrà modo di chiarire nelle
righe che seguono, per alcuni modelli è possibile dimostrare che, in una classe ristretta,
esiste lo stimatore più efficiente nell’EQM. In tale ottica un ruolo fondamentale è svolto
dalla disuguaglianza di Cramèr-Rao; si tratta di una disuguaglianza che individua il
valore minimo assumibile dalla varianza di uno stimatore corretto.
Teorema 3 (Limite di Cramèr-Rao); Sia X una v.c. con funzione di massa o di densità
f(x; ), dove Θ è un parametro incognito, e 1 2ˆ , ,..., nX X X è uno
stimatore corretto di , se sono soddisfatte le condizioni di regolarità:
log ; esiste per qualunque e per qualunqued
f x x d
Θ ;
1 1
; ; n n
i i i i
i i
d df x dx f x dx
d d
;
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
182
1 2
1
1 2
1
, , ;
, , ; ;
n
n i i
i
n
n i i
i
dt x x x f x dx
d
dt x x x f x dx
d
2
0 log ; per qualunque .d
E f x d
Θ
vale la relazione di disuguaglianza
2 2
1
1 1ˆ
loglogn
i
i
Var dd
nE f X;E f X ;θ dd
Dimostrazione
1 2
1
1 2
1 1
1 2
1
1 2
1 , , ;
, , ; ;
, , ;
, ,
n
n i i
i
n n
n i i i i
i i
n
n i i
i
n
d dt x x x f x dx
d d
d dt x x x f x dx f x dx
d d
dt x x x f x dx
d
t x x x
1 1
1 2
1
2
1 2
1
log ; ;
, , log ;
per la disuguaglianza Cauchy - Schwarz
, , log
n n
i i i
i i
n
n i
i
n
n i
i
d f x f x dx
d
dE t x x x f x
d
dE t x x x f x ;θ
dθ
E
22
1 2
1
2
1 2 2
1
, , log ;
da cui
1ˆ , ,
log
n
n i
i
nn
i
i
dt x x x E f x
d
E t x x x Vard
E f x ;θdθ
ma
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
183
2 2
11
2
1 ( ) 1 1
i
log ; log ;
log ; log ; log ;
per l'indipendenza delle v.c. X
n n
i i
ii
n n n
i j i
i j i i
d dE f x E f x
d d
d d dE f x f x E f x
d d d
2
1 ( ) 1
2
; ; log ;
log ;
n n
i j
i j i
d d dE f x E f x n E f x
d d d
dn E f x
d
La quantità
22
1
;log log
xfd
dEn;θXf
d
dEI
n
i
i
usualmente detta informazione di Fisher, si indica con I() e fornisce una misura
dell’informazione contenuta nel campione. Da sottolineare che l’informazione I() è la
varianza della variabile casuale che si ottiene derivando il logaritmo della funzione di
verosimiglianza; tale derivata è detta funzione score ed è espressa da:
' '
1 2
1 2
, ,..., ; ; log
, ,..., ; ;
n
n
L f x x x fdS L
d L f x x x f
'x
x
infatti
2
Var S θ E S θ I θ
poiché
1 2
1 2 1 2
1 2
1 2 1 2 ; 1 0
n
n n
n
n n
f x ,x ,...,x ;θE S θ f x ,x ,...,x ;θ dx dx dx
f x ,x ,...,x ;θ
d d df x ,x ,...,x ;θ dx dx dx f d
dθ dθ dθ
'
xx x
L’informazione di Fisher può essere quindi espressa dall’uguaglianza:
2 SEI
infatti
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
184
2
2
2
0 ; log , ,
log , , log , ,
da cui
d d d d dE S θ f d f f d
dθ dθ dθ d d
d d df f d f f d
d d d
dE S E S
d
dE S E S I
d
x x
x x
x x x x x
x x x x x x
Si noti che per definire la funzione score S() e l’informazione di Fisher I() si è
fatto riferimento all’universo dei campioni, cioè, nella funzione di verosimiglianza al
singolo punto campionario x1,x2,…,xn si è di nuovo sostituita la variabile casuale ad n
dimensioni X' = (X1,X2,…,Xn).
La conclusione cui si perviene è che la varianza di uno stimatore corretto non può
scendere sotto il reciproco dell’informazione di Fisher, quindi, se Var ( ) = 1/I() lo
stimatore è il “migliore”, cioè, il più efficiente nell’ambito degli stimatori corretti. Se
risulta, invece, Var ( ) > 1/I(), non è possibile pervenire ad alcuna conclusione nel
senso che potrebbe esistere o non esistere un altro stimatore corretto più efficiente.
Comunque, si dimostra che il limite minimo della disuguaglianza viene raggiunto, se
sono soddisfatte alcune condizioni di regolarità, se e solo se il modello probabilistico
(v.c. rappresentativa della popolazione di riferimento) dal quale il campione è stato
estratto appartiene alla famiglia esponenziale caratterizzata da un solo parametro.
L’inserimento del vincolo di correttezza riduce, in pratica, lo spazio in cui ricercare
l’ottimo la cui esistenza è garantita per le v.c. che appartengono alla famiglia
esponenziale. Lo stimatore che minimizza l’errore quadratico medio nell’ambito
ristretto delle stime corrette, rappresenta, pertanto, la strategia dominante nella classe
ristretta degli stimatori corretti.
In molte situazioni operative non esiste un’alternativa dominante, neppure nella
classe ristretta degli stimatori corretti, ed anche quando una tale possibilità sussiste a
livello teorico può risultare molto difficile o addirittura impossibile procedere alla sua
derivazione analitica. Una possibile via da seguire per la ricerca dell’ottimo è
rappresentata dall’inserimento di ulteriori vincoli: il più semplice ed immediato, che
risolve anche le difficoltà di ordine analitico, è il vincolo di linearità.
Sulle conseguenze dell’introduzione del vincolo di linearità si avrà modo di
soffermare l’attenzione nelle pagine successive
3.1.5 Proprietà asintotiche
Al crescere della dimensione del campione cresce anche l’ammontare del patrimonio
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
185
informativo a disposizione, è quindi ragionevole presumere che al crescere della
dimensione campionaria debba anche crescere la “bontà” dello stimatore.
Per ciò che concerne il comportamento di un qualunque stimatore puntuale al
crescere della dimensione del campione si riportano le due definizioni seguenti che
introducono un’ulteriore augurabile proprietà degli stimatori: la consistenza.
Definizione 7 (Consistenza in senso debole). Uno stimatore 1 2
ˆ ( , ,..., )n n nT X X X
(di ), dove n indica la dimensione campionaria, si dice consistente in
senso debole se
ˆ| | 1nn
Lim P
per qualunque Θ e per qualunque positivo piccolo a piacere.
Definizione 8 (Consistenza in senso forte). Uno stimatore 1 2
ˆ ( , ,..., )n n nT X X X (di
) si dice consistente in senso forte se
ˆlim 0
ˆlim 0
nn
nn
EQM
o anche
ESM
per qualunque Θ .
Ovviamente, la consistenza forte implica la consistenza debole; infatti, per la
disuguaglianza di Cebicev si ha
2
2
2
2
2
ˆ
ˆ | | 1
ˆma 0, quindi
ˆ
ˆ| | 1 1
n
n
nn
n
nn n
E
P
Lim E
E
Lim P Lim
3.2 - Metodi di stima puntuale
Una volta elencate le proprietà che si ritiene debbano essere soddisfatte da uno stimatore
puntuale, si dovranno valutare i metodi di stima proposti in letteratura verificando se, ed
in quali condizioni operative, producono stimatori che soddisfano tali proprietà.
In queste note verranno considerati, anche se in alcuni casi molto sommariamente, i
metodi di stima:
della minimizzazione dell'errore quadratico medio;
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
186
della massima verosimiglianza;
dei momenti;
del minimo chi-quadro (2);
della minima distanza.
3.2.1 Minimizzazione dell’errore quadratico medio
Un metodo di stima particolarmente rilevante e direttamente collegato alle proprietà
delle stime sopra elencate è quello basato sulla minimizzazione dell'errore quadratico
medio; si tratta, quindi, di un metodo che ha come obiettivo l’individuazione dello
stimatore più efficiente in assoluto.
Un inconveniente di questo metodo è rappresentato dal fatto che, come già
sottolineato più volte, per molte distribuzioni non esiste uno stimatore capace di
minimizzare l'errore quadratico medio rispetto a tutti i possibili valori di Θ , succede
cioè che per alcuni valori di l'errore quadratico medio risulta minimizzato dallo
stimatore 1 , mentre per altri valori di , al minimo si perviene attraverso una diverso
stimatore 2 . In tali situazioni, essendo una quantità incognita, il problema non
ammette soluzione, o meglio, è il metodo della minimizzazione dell'errore quadratico
medio che non fornisce la soluzione. Comunque, nelle situazioni in cui si riesce ad
individuare lo stimatore più efficiente in senso assoluto si parla di strategia dominante
ed uno degli acronimi di più largo impiego per caratterizzare tale stimatore è B(E) (Best
Estimator).
Poiché, come già sottolineato, le stime che minimizzano l'errore quadratico medio
non sempre esistono, si preferisce sovente restringere la classe delle funzioni di stima a
quelle che rispettano certe condizioni; ad es. si può, come già sottolineato, restringere la
classe alle sole stime non distorte e ricercare tra queste la stima che minimizza l'errore
quadratico medio. In questo caso, il metodo della minimizzazione dell'errore quadratico
medio si riduce al metodo della minimizzazione della varianza; ma, in tali condizioni si
deve tenere presente che l’ottimo cui si può, eventualmente, pervenire è un ottimo
vincolato (un ottimo relativo e non un ottimo assoluto).
Si consideri ora la Fig. 3.1 dove sono stati riportati i grafici relativi alle distribuzioni
campionarie di tre diversi stimatori di , due di questi, 1 e
2 , danno luogo a delle
stime di corrette, mentre il terzo, 3 , dà luogo ad una stima distorta di .
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
187
Fig. 3.1 - Grafico relativo alla distribuzione di tre diversi stimatori
Dei tre stimatori considerati 1 ,
2 e 3 il secondo
2 è senz'altro da scartare,
infatti tale stimatore pur essendo corretto presenta una variabilità nettamente superiore a
quella dell'altro stimatore corretto 1 . La scelta tra le funzioni che danno luogo agli
stimatori 1 e
3 , presenta invece qualche difficoltà; infatti, in questo caso si tratta di
confrontare due stimatori, dei quali, quello che possiede la “proprietà” della correttezza
1 mostra una maggiore variabilità rispetto a . Risulta ragionevole, nella situazione
prospettata, scegliere lo stimatore 3 ; infatti, come si può evincere dalla figura,
valendo la disuguaglianza 3 1ˆ ˆEQM EQM la probabilità di ottenere valori
prossimi a risulta più elevata per lo stimatore 3 rispetto allo stimatore
1 .
L’inserimento del vincolo di correttezza riduce, in pratica, lo spazio in cui ricercare
l’ottimo; se si riuscisse ad individuare tale ottimo, lo stimatore che minimizza l’errore
quadratico medio nell’ambito ristretto delle stime corrette, si sarebbe individuata la
strategia dominante nella classe ristretta degli stimatori corretti. Un tale stimatore viene
usualmente indicato con l’acronimo BU(E) (Best Unbiased Estimator). Nel situazione
prospettata nella Fig. 3.1 il miglior stimatore nella classe ristretta è 1 .
In molte situazioni operative non esiste un’alternativa dominante, cioè un minimo per
qualunque valore di Θ , neppure nella classe ristretta degli stimatori corretti, ed
anche quando una tale possibilità sussiste a livello teorico può risultare molto difficile o
addirittura impossibile procedere alla sua derivazione analitica, come già sottolineato, in
tali situazioni si può procedere all’inserimento di un ulteriore vincolo, il vincolo di
linearità
i
n
i
in XX,...,X,XT
1
021 .
f ( )3
f ( )1
f ( )2
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
188
Nella classe ristretta degli stimatori lineari e corretti si riesce ad individuare gli
stimatori ottimali (cioè gli stimatori più efficienti) in molte situazioni rilevanti di
ricerca, tra queste, la più significativa è quella che riguarda i modelli statistici lineari, in
particolare il così detto modello classico di regressione lineare. In tale contesto, come
si avrà modo di chiarire successivamente, il metodo di stima statistica puntuale che ne
risulta viene, usualmente, detto metodo di stima dei minimi quadrati. Per indicare lo
stimatore che minimizza l’EQM nell’ambito degli stimatori lineari e corretti si utilizza
usualmente l’acronimo BLU(E) (Best Linear Unbiased Estimator)
Il metodo di stima puntuale basato sulla minimizzazione dell’errore quadratico medio
può essere interpretato facilmente in termini decisionali. In un contesto decisionale
l’errore quadratico medio assume la veste di funzione di perdita e l’impossibilità di
individuazione dello stimatore più efficiente si risolve nella constatazione della non
esistenza di un’alternativa decisionale (azione) che risulti dominante rispetto a tutte le
altre: la migliore azione per qualunque stato di natura che, nella specifica circostanza, è
rappresentato dal valore assunto dal parametro incognito .
3.2.2 Massima verosimiglianza
Un secondo metodo di stima puntuale particolarmente rilevante è il metodo della
massima verosimiglianza.
Si ricorda che: data una variabile casuale, discreta o continua X, con funzione di
massa, o di densità di probabilità f(x;) e un campione casuale semplice di n
osservazioni su X , si è definita di verosimiglianza la funzione
1 2
1
( ) ( / ) ( ; , ,..., ) ( ; )n
n i
i
L L f x x x f x
x
Come già sottolineato, la funzione di verosimiglianza coincide, in termini formali,
con la funzione di massa o di densità di probabilità del campione: si tratta, infatti, di una
stessa espressione interpretata come funzione:
degli elementi campionari x1, x2,...,xn che variano nell'universo dei
campioni (funzione di densità o di massa di probabilità);
del parametro per un campione prefissato (funzione di verosimiglianza).
Nella prima interpretazione (a priori), si fa riferimento all’universo dei campioni e le
variabili che interessano sono, appunto, le variabili casuali campionarie X1,X2,…,Xn.
Nella seconda interpretazione (a posteriori), le variabili campionarie hanno assunto
particolari determinazioni x1,x2,…,xn e sono, pertanto, quantità costanti note; risulta,
allora, ragionevole interpretare l’espressione come funzione del parametro (o dei
parametri) che, pur essendo una costante, assume la veste di variabile essendo
incognito il suo (loro) valore.
Il metodo di stima della massima verosimiglianza consiste nello scegliere il valore
~
che massimizza la funzione L(). Se L() è una funzione differenziabile, condizione
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
189
necessaria affinché essa abbia un massimo è che dL()/d = 0 . Nella generalità dei
casi non occorre procedere ad ulteriori elaborazioni (computo delle derivate di ordine
superiore) essendo il punto di stazionarietà individuato un punto di massimo.
La derivazione della funzione di verosimiglianza L() comporta il computo del
prodotto
n
i 1
f(xi; ), operazione non immediata, per tale motivo, in genere si preferisce
massimizzare non la verosimiglianza L() ma il suo logaritmo naturale
l () = log L() =
n
i 1
log f (xi; )
detto log-verosimiglianza. Essendo il logaritmo naturale una funzione monotona, il
valore ~
che massimizza la log-verosimiglianza l() è identico a quello che massimizza
la verosimiglianza L().
Si ricorda che la derivata prima della log-verosimiglianza è stata definita come
funzione score; di conseguenza, se la log-verosimiglianza è differenziabile allora
condizione necessaria affinché la funzione abbia un massimo è che il suo score sia
nullo:
S() =
ld
d = 0.
Il valore ~
che massimizza la verosimiglianza o la log-verosimiglianza è detto stima
di massima verosimiglianza del parametro incognito . Se nella soluzione si
sostituiscono alle determinazioni (x1, ..., xn) le corrispondenti variabili casuali (X1, ...,
Xn) si ottengono gli stimatori di massima verosimiglianza.
Ovviamente se la distribuzione della variabile casuale X è caratterizzata da più
parametri 1, ..., k, per trovare il massimo occorrerà uguagliare a 0 ciascuna delle
derivate parziali rispetto ad ogni singolo parametro (lo score è quindi un vettore a k
componenti, una per ogni parametro incognito) e poi ricavare la stima dei parametri
risolvendo il sistema delle equazioni definito dalle derivate parziali uguagliate a zero.
Anche in questo caso, come per quello di un solo parametro, nella generalità dei casi al
punto di stazionarietà corrisponde il massimo della funzione.
Si riporta nelle righe seguenti la derivazione delle stime di massima verosimiglianza,
elencandone proprietà e legge di distribuzione, per campioni relativi ad alcune v.c. tra
quelle esaminate nel Cap. 1; si tratta sempre di distribuzioni che appartengono alla
famiglia esponenziale per le quali è, quindi sempre possibile individuare stimatori
sufficienti e, a ragione della disuguaglianza di Cramèr-Rao, ottimali nell’ambito degli
stimatori corretti.
V.C. di Bernoulli
La log-verosimiglianza della v.c. di Bernoulli è data da
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
190
l(p) =
n
i 1
log f(xi ; p) =
n
i 1
log ( ii xxqp1 ) = log p
n
i 1
xi + log (1-p) (n –
n
i 1
xi).
derivando l(p) rispetto a p per ottenere lo score ed uguagliando a 0 si ha
S(p) = p
1
n
i 1
xi – q
1 (n –
n
i 1
xi) = 0.
risolvendo l’equazione rispetto a p si ricava la stima di massima verosimiglianza di p
p~ = n
1
n
i 1
xi = x .
Lo stimatore di massima verosimiglianza di p è quindi la media campionaria
P = X = n
1
n
i 1
Xi,
Poiché ciascuna Xi è una v.c. di Bernoulli ne consegue che
n
i 1
Xi è la somma degli
1, nel campione (somma dei successi nelle n prove), e X =n
1
n
i 1
Xi è la proporzione
dei successi. L’immediata conclusione cui si perviene, ricordando quanto esposto nel
Cap.1, è che lo stimatore
n
i
iX1
ha distribuzione binomiale con parametri n e p, mentre
la media campionaria X è una binomiale relativa; questa distribuzione per n
sufficientemente grande può essere approssimata con la distribuzione Normale avente la
stessa media (p) e la stessa varianza (p q/n).
La statistica
n
i 1
Xi , e qualsiasi altra trasformazione biunivoca della stessa, è una
statistica sufficiente per p, quindi P = X è uno stimatore sufficiente, essendo funzione
di tale statistica sufficiente, e corretto di p, inoltre, il suo EQM coincide con la varianza
e raggiunge il limite di Cramér-Rao; infatti:
1 1
2 22 21 1
1
1 1
n n
i i
i i
n n
i i
i i
d d 1I p E S p E X n X
dp dp p 1- p
n 1 pnp nq np nE X n X
p p pq pq1 p 1 p
da cui
1 p q
I p n
che è pari alla varianza di X ; pertanto, lo stimatore di massima verosimiglianza P X
è in assoluto lo stimatore migliore di p nella classe degli stimatori corretti.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
191
Infine, P X è consistente in senso forte, dato che:
0n nn n n
p qLim EQM X Lim Var X Lim
n
Poiché la consistenza forte implica quella debole, X è anche consistente in senso
debole.
V.C. di Poisson
La log-verosimiglianza della v.c. di Poisson è data da
l() =
n
i 1
log f(xi; ) =
n
i 1
log ix
i
e
x !
= log
n
i 1
xi – n –
n
i 1
log xi!
derivando rispetto a per ottenere lo score ed uguagliando a 0 si ha
S() =
1
n
i 1
xi – n = 0 ~
= n
1
n
i 1
xi = x .
La distribuzione campionaria della v.c.
n
i
iX1
, per la proprietà additiva della v.c. di
Poisson, è ancora una v.c. di Poisson con parametro n che coincide con la media e la
varianza della v.c. stessa; mentre la distribuzione campionaria di = X1 è una v.c. di
Poisson relativa di media e varianza /n. Tale distribuzione per n sufficientemente
grande può essere approssimata con la distribuzione normale avente la stessa media ()
e la stessa varianza (/n) della Poisson relativa.
La statistica
n
i 1
Xi (e qualsiasi altra trasformazione biunivoca della stessa) è una
statistica sufficiente per , quindi = X è uno stimatore sufficiente, essendo funzione
di tale statistica sufficiente, e corretto di , quindi, il suo EQM coincide con la varianza
e raggiunge il limite di Cramér-Rao; infatti:
nXE
nXd
dES
d
dEI
n
i
i
n
i
i
1
2
1
/
1
da cui
1 Si segnala che l’utilizzo della simbologia che prevede le maiuscole per indicare le variabili casuali e le minuscole
per indicare le determinazioni assunte dalle stesse non viene sempre rispettato quando manca il corrispondente
simbolo maiuscolo per specifici caratteri minuscoli, ad esempio si utilizza lo stesso simbolo per indicare sia la
stima che lo stimatore di , per indicare sia la stima che lo stimatore di , 2 per indicare sia la stima che lo
stimatore di 2 .
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
192
npI
1
che è uguale alla varianza di X ; pertanto, lo stimatore di massima verosimiglianza
X è in assoluto lo stimatore migliore di nella classe degli stimatori corretti.
Inoltre, X è consistente in senso forte, dato che:
0n nn n nLim EQM X Lim Var X Lim
n
.
Poiché la consistenza forte implica quella debole, X è anche consistente in senso
debole per .
V.C. Normale
La log-verosimiglianza della v.c. Normale è data da:
n
i
i
xn
i
n
i
i
xnn
exfli
1
2
2
2
2
1
12
1
22
2
1 log
22log
2
2
1log,; log,
2
2
Poiché la log-verosimiglianza dipende da 2 parametri è possibile distinguere quattro
diverse situazioni di stima:
di ;
di notocon 2 ;
di incognitocon 2 ;
simultanea di 2 e .
Stima di
Per quanto concerne la stima di non è stata specificata l’eventuale conoscenza del
parametro 2 in quanto non influente; infatti, se si considera la funzione score, che si
ottiene come più volte specificato derivando ed eguagliando a 0 la log-verosimiglianza
rispetto al parametro d’interesse si ha:
S() = –22
1
n
i 1
2(xi – )(–1) = 2
1
(
n
i 1
xi – n) = 0 ~ = n
1
n
i 1
xi = x .
pertanto lo stimatore di massima verosimiglianza di è la media campionaria
= X = n
1
n
i 1
Xi.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
193
Come si è già avuto modo di verificare X , si distribuisce normalmente con
media e varianza 2/n. X , è uno stimatore sufficiente, perché basato sulla statistica
sufficiente
n
i
iX1
, corretto ed il più efficiente nella classe degli stimatori corretti di
infatti se si considera il limite della disuguaglianza di .Cramér-Rao
I() = –E
d
dS = –E(
2
1
(– n)) = n/2
,
si ha
1/I() = 2/n
che è uguale alla varianza di X .
Inoltre X è consistente in senso forte per ; poiché la consistenza forte implica
quella debole, X è anche consistente in senso debole per .
Stima di 2 con nota
La funzione score è data da
S(2) = –
22
n+
42
1
n
i 1
(xi – )2 = 0 2~ =
n
1
n
i 1
(xi – )2 = 2
**s .
Questo significa che lo stimatore di massima verosimiglianza di 2 è
2~ = 2**S =
n
1
n
i 1
(Xi – )2,
detta varianza campionaria con nota.
Come già visto nel Cap. 2 la distribuzione campionaria di
n
i
iXnSn
1
2
2
2
**
2
2~
è di tipo Chi-quadrato con n gradi di libertà 2
n la cui media e varianza sono
rispettivamente pari ad n e a 2n, cioè
E
2
2**
nS= n Var
2
2**
nS = 2n,
da cui deriva:
2~E =E( 2**S ) = 2
Var(2~ ) =Var( 2
**S ) = 24/n.
Pertanto la varianza campionaria 2~ = 2**S è uno stimatore corretto e sufficiente
di 2 perché basato sulla statistica sufficiente
n
i
iX1
2 ed il più efficiente
nell’ambito degli stimatori corretti come si verifica facilmente attraverso il computo
del limite fissato dalla disuguaglianza Cramér-Rao.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
194
I(2) = –E
2
2
d
dS = –E(
42
n–
62
1
n
i 1
(xi – )2) = –
42
n+
4
n =
42
n
da cui
1/I(2) = 24
/n
che è uguale alla varianza di 2~ .
Inoltre, 2~ = 2**S è consistente in senso forte per 2
, dato che
4
2 2 20n n
n n nLim EQM LimVar Lim
n
.
Poiché la consistenza forte implica quella debole, 2~ = 2**S è anche consistente in
senso debole per 2.
Stima congiunta di e2
Nel caso in cui si voglia stimare la varianza, ma non è noto il valore assunto da , non
si può procedere come indicato al punto precedente poiché nell’espressione 2~ = 2**S =
n
1
n
i 1
(Xi – )2 è presente che non è noto e che non interessa ai fini della stima di 2
.
Il parametro incognito , che non è di interesse ai fini della stima di 2, viene detto
parametro di disturbo; disturbo che può essere facilmente eliminato procedendo ad una
sua stima che pur non interessando direttamente è strumentale all’obiettivo che si vuol
perseguire che è, appunto, quello della stima di 2 . Piuttosto che trattare questo
problema, facilmente risolvibile se si considera quanto detto ai due punti precedenti, si
procede alla risoluzione del problema della stima congiunta di entrambi i parametri e
2 .
Se entrambi i parametri e 2 sono incogniti, le funzioni score eguagliate a zero per i
due parametri sono quelle considerate in precedenza:
s() = 2
1
(
n
i 1
xi – n) = 0,
s(2) = –
22
n+
42
1
n
i 1
(xi – )2 = 0.
risolvendo il sistema rispetto ai due parametri incogniti si ottengono le stime:
~ = x =n
1
n
i 1
xi 2~ =
n
1
n
i 1
(xi – x )2 = 2
*s .
Gli stimatori di massima verosimiglianza di è di 2 sono quindi
~ = X =n
1
n
i 1
Xi 2~ = 2
*S = n
1
n
i 1
(Xi – X )2,
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
195
cioè, la media campionaria e la varianza campionaria.
Le statistiche
n
i 1
Xi e
n
i 1
2iX (e qualsiasi altra trasformazione biunivoca di tale
coppia) sono congiuntamente sufficienti per e 2 (per verificare tale risultato basta
svolgere il quadrato nel termine
n
i 1
(xi – )2 e operare le relative somme). Di
conseguenza ~ = X e 2~ = 2*S sono stimatori congiuntamente sufficienti, essendo
funzione di statistiche congiuntamente sufficienti.
Per quanto detto nel Cap. 2, risulta che: a) le due v.c. X e 2*S sono fra loro
indipendenti; b) X è una stima corretta di mentre 2*S è una stima distorta di 2 ;
inoltre, la v.c.
2
2*
nS =
n
i 1
2
XX i
ha distribuzione del tipo chi-quadro con n-1 gradi di libertà 2
1n .
Per le proprietà della v.c. Chi-quadrato
E2
*
2
n S
= n – 1 Var 2
*
2
n S
= 2(n – 1)
da cui
E( 2*S ) =
21n
n
Var ( 2
*S ) = 2 4
2
1n
n
.
Essendo 2*S uno stimatore distorto di 2 , il teorema di Cramér-Rao non si applica
perché viene a cadere una delle ipotesi fondamentali dello stesso. Comunque, poiché
EQM( 2*S ) =
4 (2n – 1)/n2 tende a 0 per n → ∞, 2
*S è uno stimatore consistente in
senso forte. Dato poi che la consistenza forte implica quella debole, 2*S è anche
consistente in senso debole per 2. Inoltre, per quanto esposto nel capitolo precedente, è
invece stimatore corretto di 2 la varianza campionaria corretta
S2 =
1
1
n
n
i 1
(Xi – X ).
Poiché la v.c.
2
2
1 n S
=
2
2
*
Sn =
n
i 1
2
XX i
ha distribuzione di tipo chi-quadro con n-1 gradi di libertà con media e varianza
E
2
2 1
Sn= n – 1 Var
2
2 1
Sn = 2 (n – 1),
ne risulta
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
196
E(S2) = 2
Var (S2) = 24
/(n – 1).
Lo stimatore (non di massima verosimiglianza) S2 è, quindi, uno stimatore corretto e
sufficiente di 2 ma non raggiunge il limite di Cramér-Rao sopra individuato 1/I(2
) =
24/n che è inferiore alla varianza dello stimatore S
2 che è pari a 24
/(n-1). La
differenza rispetto al limite di Cramér-Rao è, comunque, esigua e diminuisce
rapidamente al crescere di n. Infine, risulta facile verificare che S2 è uno stimatore
consistente in senso forte, e, quindi, anche in senso debole, di 2.
V.C. Gamma
La log-verosimiglianza della v.c. Gamma con parametri e è data da
l(, ) =
n
i 1
log f(xi; , ) =
n
i 1
log
11ix
ix e
che, dopo alcune semplificazioni, diviene
1 1
1, log log 1 log
n n
i i
i i
l n n x x
Per ricavare le stime di massima verosimiglianza di e occorre derivare rispetto ad
entrambe le variabili, ottenendo le due componenti del vettore score, ed uguagliarle a 0.
s() = – n log – n
' +
n
i 1
log xi = 0,
s() = –
n+
2
1
n
i 1
xi = 0.
Dalla seconda relazione si ricava in funzione di , tuttavia, sostituendo tale
risultato nella prima equazione, la funzione gamma ivi coinvolta non consente la
derivazione analitica di , il che significa che non si possono derivare analiticamente le
stime di massima verosimiglianza ~ e ~
anche se, osservando la formula della log-
verosimiglianza si conclude che le statistiche
n
i 1
log xi e
n
i 1
xi (e qualsiasi altra
trasformazione biunivoca di tale coppia) sono congiuntamente sufficienti per e . Di
conseguenza, anche se non si riesce a ricavare l’espressione analitica di ~ e ~
, tali
stimatori esistono e sono stimatori congiuntamente sufficienti.
Questa situazione, apparentemente anomala, si incontra in realtà nella generalità dei
casi; infatti, solo pochi modelli statistici, fra i quali quelli visti in precedenza,
consentono di esplicitare analiticamente la formula degli stimatori, di ricavarne l’esatta
distribuzione campionaria e di derivare il valore degli indici caratteristici quali media,
varianza e EQM.
Quando non è possibile derivare l’espressione analitica degli stimatori di massima
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
197
verosimiglianza si procede, usualmente, alla massimizzazione della verosimiglianza
tramite algoritmi iterativi, implementati su calcolatore, che trovano valore in
corrispondenza del massimo per approssimazioni successive iniziando da un punto di
partenza (starting point).
3.2.3 Proprietà degli stimatori di massima verosimiglianza
Da quanto visto ai punti precedenti, gli stimatori di massima verosimiglianza cui si è
pervenuti godono di buone proprietà. Ci si deve ora domandare se in tutte le situazioni
(per tutti i modelli) è possibile pervenire agli stessi risultati, la risposta non è
affermativa: le proprietà degli stimatori di massima verosimiglianza, per campioni di
dimensione finita, vanno valutate caso per caso, anche se, generalmente, tali stimatori
godono di buone proprietà che vengono di seguito richiamate.
Invarianza - Si dimostra che se è lo stimatore di massima
verosimiglianza di allora g( ) è lo stimatore di massima
verosimiglianza di g(). In altri termini per stimare tramite massima
verosimiglianza una qualche trasformazione di un parametro già stimato
basta prendere la stima precedente e trasformare questa allo stesso modo.
Ad esempio: nel modello normale la stima di massima verosimiglianza di
è la radice quadrata di 2~ ; oppure nel modello di Poisson la stima di
massima verosimiglianza di 1/ è 1/~
.
Sufficienza - Se esistono delle statistiche sufficienti allora gli stimatori di
massima verosimiglianza sono funzione di questi e pertanto sono stimatori
sufficienti. Questa proprietà è una conseguenza del criterio di
fattorizzazione; infatti se esistono stimatori sufficienti allora la log-
verosimiglianza è la somma di due componenti, una dipende solo dal
parametro e dalle statistiche sufficienti, l’altra solo dal campione
Efficienza “per campioni finiti” - Si dimostra che se esiste uno stimatore
corretto la cui varianza è pari al limite di Cramér-Rao, allora il metodo
della massima verosimiglianza individua “automaticamente” tale
stimatore.
Efficienza asintotica - Si dimostra che sotto condizioni molto generali di
regolarità, lo stimatore di massima verosimiglianza è asintoticamente
(cioè per n → ∞) efficiente, cioè:
- è asintoticamente corretto n
lim E( n ) = ;
- la sua varianza tende al limite di Cramér-Rao che a sua volta tende a 0
nlim Var ( n ) = dove I ; indica l’informazione di Fisher;
- poiché di norma tende a 0 per n → ∞ ne deriva come conseguenza
la consistenza in senso forte e quindi anche in senso debole.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
198
Normalità asintotica - Si dimostra che
lim 0,1nn
n I N
pertanto, per n sufficientemente elevato n ha distribuzione
approssimativamente normale con media il vero valore di e varianza
pari al limite inferiore di Cramér-Rao, in simboli
n ≈ N[, 1/I()].
Per caratterizzare le ultime due proprietà asintotiche è stato introdotto l’acronimo
BAN(E) (Best Asymptotically Normal Estimator) o anche CAN(E) (Consistent
Asymptotically Normal Estimator).
3.2.4 Altri metodi di stima
Oltre al metodo di stima della minimizzazione dell’EQM e della massima
verosimiglianza, molti altri metodi di stima sono stati proposti in letteratura: il metodo
dei momenti, il metodo della minima distanza, il metodo del minimo 2 ecc. In seguito
si parlerà diffusamente del solo metodo dei minimi quadrati (minimizzazione
dell’EQM nella classe ristretta degli stimatori lineari e corretti), nei punti seguenti si
procederà, invece, ad una sintetica illustrazione degli altri metodi richiamati.
Metodo dei momenti
Se con ][ rr XE si indica il momento r-esimo di una v.c. X, la cui funzione di densità
o di massa di probabilità ;f x e 1 2, ,...., k , nella generalità dei casi
][ rr XE è funzione nota dei k parametri 1,...,r r k
. Dato che il
corrispondente momento campionario risulta essere rr X
nM
1, si impongono le k
relazioni di uguaglianza (momenti empirici = momenti teorici)
krrM ,...,1 con r = 1,…, k
ne risulta, quindi, un sistema di k equazioni in k incognite che risolto (quando
possibile) fornisce la stima dei momenti k ˆ,...,ˆ
1 dei k parametri incogniti
1 2, ,...., k '.
Esempio 3.1
Sia nXX ,...,1 un campione casuale da una distribuzione con media μ e varianza σ2. Siano
2
21 ,, . Stimando i parametri con il metodo dei momenti le equazioni cui si perviene
sono:
222
22
2
11
,
,
M
M
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
199
e la soluzione è:
2
2
1
ˆ
1ˆ
n
i
i
x
x xn
Esempio 3.2
Sia nXX ,...,1 un campione casuale da una distribuzione di Poisson con parametro λ. Poiché un
solo parametro caratterizza la distribuzione, allora il metodo dei momenti suggerisce
banalmente la seguente soluzione:
ˆ x
Il metodo dei momenti, seppur ragionevole, non è in generale un buon metodo per la
derivazione degli stimatori; infatti, nei casi in cui applicando il metodo dei momenti si
ottengono stimatori con buone proprietà, allo stesso risultato si può usualmente pervenire
attraverso l’impiego di un diverso metodo di stima. Al riguardo, si deve comunque segnalare
che, in talune situazioni, è l’unico metodo applicabile.
Metodo del minimo chi-quadro
Sia nXX ,...,1 un campione casuale estratto da una densità ( ; )f x , e sia
kSS ,...,1 una
partizione del campo di variazione di X. La probabilità )(jp che un’osservazione
appartenga all’intervallo jS della partizione è data da ( ) ( ; )
jj
Sp f x dx . Si indichino
con Nj il numero di Xi che cadono nell’intervallo jS (ovviamente con
1
k
j
j
n N
), e si
costruisca la sommatoria
k
j j
jj
pn
pnn
1
2
2
)(
)]([
dove nj è il valore osservato di Nj. Il numeratore dei termini della sommatoria altro non
è che il quadrato dello scarto tra il numero osservato e quello atteso di determinazioni
che cadono nell’intervallo Sj. La stima del minimo chi-quadro di θ è il valore che
minimizza 2 . È, cioè, quel valore di che, mediamente, rende il numero atteso di
osservazioni nell’intervallo jS “più vicino possibile ” al numero realmente osservato.
Il metodo risente, ovviamente, dell’arbitrarietà della partizione ,...,1 kS S adottata.
Esempio 3.3
Sia nXX ,...,1 un campione casuale da una distribuzione di Bernoulli di parametro p.
Poiché il campo di variazione di X consiste unicamente nei due valori 0 e 1 allora,
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
200
)1(
1] [] [
)1(
)]1([
][
)1(
)]1([][
2
1
2
1
2
1
2
1
2
01
0
2
2
ppn
pnn
np
pnn
pn
pnnn
np
npn
pn
pnn
ppn
ppnn
j j
jj
Dato che 02 , in questo caso si può individuare il minimo in modo diretto osservando che
02 se nnp 1ˆ . Si osservi che in questo esempio la partizione
kSS ,...,1 poteva essere scelta
in un unico modo, e che lo stimatore trovato è lo stesso di quello che si sarebbe ottenuto col
metodo dei momenti o con quello della massima verosimiglianza.
Poiché può risultare difficile individuare il punto di minimo di 2 , si preferisce talvolta
sostituire il denominatore jn p p direttamente con il valore osservato jn , ottenendo il
cosiddetto chi-quadro modificato. La stima del minimo chi-quadro modificato è allora
quel che minimizza il 2 modificato.
Metodo della minima distanza
Sia 1 2, ,..., nX X X un campione casuale estratto dalla distribuzione ( ; )F x , e sia d(F,G)
una funzione che misura la distanza che intercorre tra due funzioni di ripartizione
(distribuzione) F e G (ad esempio, ( , ) sup ( ) ( )x
d F G F x G x misura la massima distanza
verticale tra F e G).
La stima di minima distanza di θ è quel valore tra tutti i possibili in che minimizza
))(),(( xFxFd n dove )(xFn
è la funzione di ripartizione campionaria o empirica. Lo
stimatore di minima distanza è intuitivamente attraente ma è spesso di difficile