STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ® Inferenza Statistica Prof. Pierpaolo D’Urso Libro di testo: Giuseppe Cicchitelli - Statistica: principi e metodi. Ediz. mylab.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Inferenza Statistica
Prof. Pierpaolo D’Urso
Libro di testo: Giuseppe Cicchitelli - Statistica: principi e metodi. Ediz. mylab.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Cap. 15. Popolazione, campione, distribuzioni
campionarie
- Campione casuale - Popolazione - Spazio campionario - Statistiche campionarie - Distribuzione campionaria della media -Distribuzione campionaria della media quando la varianza non è nota
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Campione casuale
Consideriamo una popolazione di N unità, dove il carattere di interesse X presenta k modalità x1, x2, …, xk con frequenze relative f1, f2, …, fk.
Supponiamo di estrarre a sorte una unità da questa popolazione. Con l’estrazione a sorte la distribuzione di frequenze assume le caratteristiche di distribuzione di probabilità: il carattere X diviene una v.c. che può assumere i valori x1, x2, …, xk con probabilità p1, p2, …, pk (ove pi=fi, i=1,….,k).
In generale, l’estrazione a sorte di una unità statistica da una popolazione di N unità genera una v.c. la cui distribuzione di probabilità è identica alla distribuzione di frequenze della popolazione, nel senso che la probabilità associata al singolo valore di X è uguale alla frequenza relativa che tale
valore presenta nella popolazione.
Inoltre le costanti caratteristiche della v.c. X (media, mediana, varianza
etc.) coincidono con quelle del carattere X nella popolazione.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Se supponiamo di ripetere l’estrazione a sorte n volte con ripetizione (ossia riponendo dopo ogni prova l’unità estratta nella popolazione) si ha che in questo modo si generano n v.c. X1, X2, ….,Xn indipendenti e identicamente distribuite. Si ha quindi che un esperimento casuale (ad esempio, estrazione di un pezzo da un lotto, somministrazione di un farmaco ad un paziente) origina una v.c. X della quale interessano una o più costanti caratteristiche (la media, la mediana, la varianza, etc.). La ripetizione dell’esperimento n volte, nelle stesse condizioni, genera le v.c. X1, X2, ….,Xn che sono indipendenti e hanno tutte la stessa distribuzione di probabilità (identicamente distribuite). Tali v.c. rappresentano il cosiddetto campione casuale di X.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Quindi il campione casuale è costituito dagli esiti che si ottengono ripetendo n volte un esperimento casuale nelle stesse condizioni.
In termini poco formali, se i valori che può assumere la v.c. generata dall’esperimento sono associati ipoteticamente alle palline di un’urna, il campione casuale può essere pensato come il risultato dell’estrazione con ripetizione di n palline dall’urna.
In modo più formale: Def.
Si chiama campione casuale di ampiezza n la n-upla di v.c. (X1, X2, ….,Xn) indipendenti e identicamente distribuite come la v.c. X oggetto di studio.
Osservazione Per quanto riguarda le popolazioni finite, si osserva che il campione casuale con ripetizione è un campione casuale anche secondo la definizione precedente. Non lo sono, invece, i campioni casuali estratti con altri schemi di campionamento come il campionamento casuale senza ripetizione, il campionamento casuale stratificato, il campionamento a 2 stadi, etc.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Popolazione
Nel caso di popolazioni finite, il collettivo statistico di riferimento è costituito dalla “totalità” di elementi. Per uniformità di linguaggio, continueremo a usare il termine “popolazione” per identificare i possibili esiti della ripetizione,
teoricamente illimitata, dell’esperimento casuale nelle stesse
condizioni. Esempi Ad esempio, parleremo di popolazione bernoulliana quando consideriamo esperimenti del tipo “successo-insuccesso”, di popolazione normale quando il fenomeno casuale può essere descritto da una v.c. normale. Nel seguito utilizzeremo i seguenti termini:
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Popolazione generatrice = popolazione finita da cui il campione è fisicamente estratto.
Modello descrittivo della v.c. oggetto di studio = funzione di probabilità o di densità che descrive la v.c. associata all’esperimento.
Il modello descrittivo della v.c. verrà indicato con fx(x;θ), ove θ indica il parametro, la costante caratteristica presente nel modello (ad esempio, p per la v.c. bernoulliana, µ e σ per la v.c. casuale normale, etc.).
Quindi:
Def.
Si chiama parametro una costante numerica che caratterizza la v.c. X oggetto di studio.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Lo schema che caratterizzerà tutto ciò che sarà detto d’ora in avanti è il seguente.
Viene identificato un problema concreto. In relazione a questo viene definita una v.c. eventualmente descritta da un modello probabilistico. Il calcolo delle probabilità fornisce gli strumenti per fare “previsioni” sui possibili campioni casuali di ampiezza definita estraibili dalla popolazione, o meglio sui valori di una conveniente funzione dei dati del campione (previsione nel senso di poter assegnare delle probabilità o delle densità di probabilità ai valori di tale funzione) (problema diretto). I metodi dell’inferenza statistica consentono di affrontare invece il problema inverso.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
L’inferenza statistica è l’insieme dei metodi e delle tecniche con cui “si fa luce” su uno o più parametri della popolazione generatrice, utilizzando i dati di un campione casuale. Due sono i percorsi tipici dell’inferenza statistica: la stima dei parametri e la verifica delle ipotesi.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Spazio campionario
Consideriamo il campione casuale X1, X2, …, Xn composto da n v.c. indipendenti e identicamente distribuite. Denominiamo campione osservabile una specifica realizzazione del campione casuale, ossia una n-upla di numeri che indichiamo con
(x1, x2, …, xn).
Tutti i possibili campioni osservabili costituiscono lo spazio
campionario.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Un’urna contiene cinque palline numerate da 1 a 5.
Esempio 1: spazio campionario discreto
n. d’ordine campione n. d’ordine campione n. d’ordine campione
1 1, 1 11 3, 1 21 5, 1
2 1, 2 12 3, 2 22 5, 2
3 1, 3 13 3, 3 23 5, 3
4 1, 4 14 3, 4 24 5, 4
5 1, 5 15 3, 5 25 5, 5
6 2, 1 16 4, 1
7 2, 2 17 4, 2
8 2, 3 18 4, 3
9 2, 4 19 4, 4
10 2, 5 20 4, 5
� Ogni campione ha probabilità pari a 1/25
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Supponiamo che la durata del periodo di gestazione sia descritto da una v.c.normale con media 265 e deviazione standard 18. Lo spazio campionario dei
Esempio 2: spazio campionario continuo
x1 x2 x3 x4 x5
282,12 270,60 256,49 300,14 276,15249,42 266,57 303,47 254,40 255,02258,23 259,49 269,54 316,34 240,02253,32 270,59 299,43 250,20 262,71248,62 291,46 264,28 258,52 265,92269,10 232,19 267,01 252,18 256,59257,67 268,41 249,25 284,03 274,15267,99 278,08 297,70 255,91 252,31285,05 278,77 263,28 284,06 249,62272,84 314,08 262,44 306,29 236,97245,23 267,38 274,47 259,49 226,91271,13 291,66 275,40 282,92 305,21229,13 236,71 242,97 280,85 250,81230,88 246,21 262,35 240,61 287,62246,74 262,24 230,28 280,64 291,25
… … … … …
campioni di ampiezza 5 estraibili da questa popolazione è composto da infiniti campioni, che, ovviamente, non sono enumerabili come nell’Esempio 1. Nella tabella qui accanto sono riportati 15 campioni di ampiezza 5 estratti casualmente dalla nostra popolazione (tramite il calcolatore elettronico). Si tratta di un sottoinsieme dell’infinità di campioni di ampiezza 5 che costituiscono lo spazio campionario in questione.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Statistiche campionarie
Def. Si chiama statistica campionaria o variabile casuale campionaria una qualsiasi funzione delle v.c. X1, X2, …, Xn che compongono il campione casuale.
Ogni statistica campionaria, quale funzione di v.c., è una variabile casuale.
Def. La distribuzione campionaria di una statistica è la distribuzione dei valori che la statistica assume nello spazio campionario.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Vogliamo determinare la distribuzione campionaria della media per campioni di ampiezza 2 provenienti dalla popolazione di cui all’Esempio 1.
Esempio 3: media campionaria
n. d’ordine
campioneMedia camp.
n. d’ordine
campioneMedia camp.
n. d’ordine
campioneMedia camp.
1 1, 1 1,0 11 3, 1 2,0 21 5, 1 3,02 1, 2 1,5 12 3, 2 2,5 22 5, 2 3,53 1, 3 2,0 13 3, 3 3,0 23 5, 3 4,04 1, 4 2,5 14 3, 4 3,5 24 5, 4 4,55 1, 5 3,0 15 3, 5 4,0 25 5, 5 5,06 2, 1 1,5 16 4, 1 2,5
7 2, 2 2,0 17 4, 2 3,0
8 2, 3 2,5 18 4, 3 3,5
9 2, 4 3,0 19 4, 4 4,0
10 2, 5 3,5 20 4, 5 4,5
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Si perviene alla distribuzione campionaria della media associando ai diversi valori assunti dalla media i relativi livelli di probabilità. La probabilità attribuita a un dato valore della media è uguale alla somma delle probabilità dei campioni che producono quel valore di media.
Esempio 3: statistiche campionarie(continuazione)
Media camp.
Frequenza Probabilità
1,0 1 0,04
1,5 2 0,08
2,0 3 0,12
2,5 4 0,16
3,0 5 0,20
3,5 4 0,16
4,0 3 0,124,5 2 0,08
5,0 1 0,0425 1,00
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 4: media campionaria nello spazio campionario dell’Esempio 2
Nella tabella che segue, accanto a ciascun campione del sottoinsieme considerato nell’Esempio 2, viene associata la media aritmetica. x1 x2 x3 x4 x5
282,1 270,6 256,5 300,1 276,2 277,1249,4 266,6 303,5 254,4 255,0 265,8258,2 259,5 269,5 316,3 240,0 268,7253,3 270,6 299,4 250,2 262,7 267,2
248,6 291,5 264,3 258,5 265,9 265,8
269,1 232,2 267,0 252,2 256,6 255,4
257,7 268,4 249,3 284,0 274,2 266,7
268,0 278,1 297,7 255,9 252,3 270,4285,1 278,8 263,3 284,1 249,6 272,2
272,8 314,1 262,4 306,3 237,0 278,5245,2 267,4 274,5 259,5 226,9 254,7271,1 291,7 275,4 282,9 305,2 285,3229,1 236,7 243,0 280,9 250,8 248,1230,9 246,2 262,4 240,6 287,6 253,5246,7 262,2 230,3 280,6 291,3 262,2… … … … … …
x Ciò per fare intuire che la v.c.media campionaria è generata dall’associazione a ciascun campione dello spazio campionario di un numero reale, dato dalla media aritmetica dei valori contenuti nel campione stesso.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Nella tabella che segue, accanto a ciascun campione del sottoinsieme considerato nell’Esempio 2, viene associata la varianza campionaria.
Esempio 5: varianza campionaria nello spazio campionario dell’Esempio 2
X1 x2 x3 x4 x5 s2
282,1 270,6 256,5 300,1 276,2 255,36
249,4 266,6 303,5 254,4 255,0 484,37258,2 259,5 269,5 316,3 240,0 821,25253,3 270,6 299,4 250,2 262,7 387,71248,6 291,5 264,3 258,5 265,9 252,97
269,1 232,2 267,0 252,2 256,6 218,04
257,7 268,4 249,3 284,0 274,2 185,55
268,0 278,1 297,7 255,9 252,3 337,05
285,1 278,8 263,3 284,1 249,6 235,39272,8 314,1 262,4 306,3 237,0 1.013,54
245,2 267,4 274,5 259,5 226,9 359,87271,1 291,7 275,4 282,9 305,2 185,59229,1 236,7 243,0 280,9 250,8 400,03230,9 246,2 262,4 240,6 287,6 493,12246,7 262,2 230,3 280,6 291,3 610,81… … … … … …
Ciò per fare intuire che la v.c.varianza campionaria è generata dall’associazione a ciascun campione dello spazio campionario di un numero reale, dato dalla varianza dei valori contenuti nel campione stesso.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Il valore atteso, cioè la media, di una statistica campionaria può essere vista come media aritmetica dei valori della statistica campionaria associati a tutti i campioni dello spazio campionario. Così, nell’Esempio 3, il valore atteso della media campionaria è pari alla somma dei valori assunti dalla media nei 25 campioni dello spazio campionario divisa per 25.Naturalmente, questo approccio intuitivo ha i crismi della validità formale solo nel caso in cui lo spazio campionario è finito.
Valore atteso e varianza di una statistica campionaria
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
La varianza di una statistica campionaria può essere immaginata come il risultato delle operazioni indicate qui di seguito. Si associa a ogni campione dello spazio campionario il quadrato dello "scarto" tra il valore assunto dalla statistica nel campione e la media della statistica stessa. Si prende, poi, la media aritmetica delle quantità così ottenute. La quantità così ottenuta è una misura del grado di variabilità della statistica campionaria, cioè del grado medio di "oscillazione" della statistica intorno al suo valore medio.
Valore atteso e varianza di una statistica campionaria
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Vogliamo determinare il valore atteso e la varianza della media campionaria per il caso trattato nell’Esempio 3.
Esempio 6: media e varianza della media campionaria
n. d’ordine campione
Media camp.
n. d’ordine campione
Media camp.
n. d’ordine campione
Media camp.
1 1, 1 1,0 11 3, 1 2,0 21 5, 1 3,02 1, 2 1,5 12 3, 2 2,5 22 5, 2 3,53 1, 3 2,0 13 3, 3 3,0 23 5, 3 4,04 1, 4 2,5 14 3, 4 3,5 24 5, 4 4,55 1, 5 3,0 15 3, 5 4,0 25 5, 5 5,06 2, 1 1,5 16 4, 1 2,57 2, 2 2,0 17 4, 2 3,08 2, 3 2,5 18 4, 3 3,59 2, 4 3,0 19 4, 4 4,010 2,5 3,5 20 4,5 4,5
3.) 51,5(1,0)E( =+++25
1= LX
22 3)-(1,53)-[(1,0)Var( +25
1=X
1,0.]3)-(5,0 2 =++= L
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Vogliamo determinare il valore atteso e la varianza della media campionaria per il caso trattato nell’Esempio 2.
Esempio 7: media e varianza della media campionaria
(277,1, di aritmetica media)E( =X
,265)-[(277,1 di aritmetica media)Var( 2=X
x1 x2 x3 x4 x5
282,1 270,6 256,5 300,1 276,2 277,1249,4 266,6 303,5 254,4 255,0 265,8258,2 259,5 269,5 316,3 240,0 268,7253,3 270,6 299,4 250,2 262,7 267,2
248,6 291,5 264,3 258,5 265,9 265,8269,1 232,2 267,0 252,2 256,6 255,4
257,7 268,4 249,3 284,0 274,2 266,7268,0 278,1 297,7 255,9 252,3 270,4285,1 278,8 263,3 284,1 249,6 272,2272,8 314,1 262,4 306,3 237,0 278,5245,2 267,4 274,5 259,5 226,9 254,7271,1 291,7 275,4 282,9 305,2 285,3229,1 236,7 243,0 280,9 250,8 248,1230,9 246,2 262,4 240,6 287,6 253,5246,7 262,2 230,3 280,6 291,3 262,2… … … … … …
.265) 265,8, =K
3,6. ]265)-(265,8 2 =K,
N.B.: I due risultati saranno chiariti nella prossima diapositiva.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Distribuzione campionaria della media: Media e varianza
della media campionaria
Si osserva che la media campionaria ha valore atteso e varianza che dipendono solo dalla media e dalla varianza della popolazione generatrice e non dalla struttura di questa. Infatti:
Prop.
Si dimostra che il valore atteso e la varianza della media campionaria sono date da:
essendo µ e σ 2 la media e la varianza della popolazione generatrice.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Dunque:
• il valore atteso della media campionaria coincide con la media della popolazione;
• la varianza della media campionaria, interpretabile come la media delle oscillazioni (date dagli scarti al quadrato) che essa presenta rispetto alla sua media, è data dalla varianza della popolazione divisa per n. Ciò significa che la "variabilità" della media campionaria è molto
più piccola della "variabilità" presente nella popolazione.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 9: media e varianza della media campionaria per una popolazione Bernoulliana
Consideriamo una popolazione Bernoulliana con p τ0,45, da cui immaginiamo di estrarre un campione di ampiezza 50. Vogliamo calcolare il valore atteso e la varianza della media campionaria.
Sappiamo che la media e la varianza di questo tipo di popolazione sono p e p(1 – p), rispettivamente. Pertanto, indicando con la media campionaria in questo contesto (interpretabile come proporzione di "successi" nel campione), abbiamo:
0,0049.)Var( ;)E( ==450= 50
550×450 ,,p̂,p̂
p̂
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Distribuzione campionaria della media nel caso di
popolazione generatrice normale
Consideriamo, ora, una popolazione generatrice normale N(ς , ς 2). In questo caso, si può dimostrare che la media campionaria ha distribuzione normale N(ς , ς 2/n). In altri termini, la v.c. è descritta dalla seguente funzione di densità
X
X
.en/xf n/x
-2
22
2
1= σ
µ
σπ
)-(
)()(
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Quanto detto è rappresentato graficamente nella figura sottostante.
µ
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 10: calcolo delle probabilità su nel caso di una popolazione normale
Supponendo che la v.c. durata della gestazione sia normale con media 265 e deviazione standard 18, vogliamo calcolare la probabilità che in un campione di 35 unità la media campionaria sia compresa nell’intervallo (255, 270).
Poiché possiamo scrivere ),18 N(265, 2 35∼ /X
)]35265)/(18/-[(270Φ )( =270<<255 XP.,94930=)]35265)/(18/-[(255Φ -
X
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Quando il campione ha un’ampiezza sufficientemente grande, la distribuzione campionaria della media può essere approssimata con una normale, qualunque sia la forma della v.c. oggetto di studio. Questa proprietà della media campionaria è legata a un risultato della statistica matematica noto come teorema del limite centrale.
Il caso di grandi campioni: il teorema del limite centrale
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
In particolare: Teorema.
Si consideri un campione casuale di ampiezza n proveniente da una popolazione qualsiasi con media µ e varianza σ2. Allora, se n è sufficientemente grande, la distribuzione campionaria di può essere approssimata con una normale N(µ, σ 2/n).
X
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
La proprietà appena descritta è illustrata graficamente tramite la figura che segue, dove la popolazione è una v.c. esponenziale con parametro λ � 0,05.
Il teorema del limite centrale
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 13: applicazione del teorema del limite centrale a una popolazione bernoulliana
Un quiz è composto da 60 domande, ciascuna delle quali prevede 4 risposte, una sola delle quali è corretta. Vogliamo calcolare la probabilità che scegliendo a caso una risposta la proporzione di risposte corrette sia compresa tra 0,15 e 0,26.
Bisogna considerare, anzitutto, che la proporzione di risposte corrette è una particolare media, denotata con Bisogna considerare, inoltre, che la popolazione ha media e varianza Pertanto, l’applicazione del teorema del limite centrale dà
]0,75)/60(0,250,25)/-[(0,26Φ )0(0,15 ×≈26<< ,p̂P
.p̂250= ,p
.,,pp 750×250=1 )-(
0,53.]0,75)/60(0,250,25)/-[(0,15Φ - =×
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Ricordiamo che, se la popolazione generatrice è normale, la v.c. media campionaria ha distribuzione N(µ, σ 2/n). Pertanto, la v.c. standardizzata
avrà distribuzione normale standardizzata N(0, 1).Quando la popolazione non è normale, la v.c.precedente si distribuisce approssimativamente come una normale standardizzata, purché n sia sufficientemente grande.
Distribuzione campionaria della media quando la varianza non è nota
nXZX /σ
µ−=
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Sia data una popolazione generatrice normale con media ϕ.Siano e la media e la varianza di un campione casuale di ampiezza n. Allora il rapporto
è una v.c. descritta dalla seguente funzione di densità
dove b è una costante positiva e r ϕ n ϕ 1 indica il numero dei gradi di libertà. Questa v.c. è nota come t di Student.
nSXTX /
µ−=
X
,,1)(2/)1(2
+∞<<∞−
+=
+−
tr
tbtfr
2S
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
La distrubuzione t di Student è stata proposta da W.S. Gosset che dovette usare lo pseudonimo Student poiché la fabbrica Guinness presso la quale lavorava vietava la pubblicazione di articoli per evitare la divulgazione dei segreti di produzione della birra.
-----Approfondimenti----------------------------------------------------------------------------
William Sealy Gosset (Canterbury, 13 giugno 1876 – Beaconsfield, 16 ottobre 1937) Diversamente dagli altri suoi colleghi statistici famosi, Gosset non intraprende la carriera accademica, ma lavora presso la celebre fabbrica di birra Guinness, dove elabora la mole di dati disponibili. Conclude la sua carriera gestendo dal 1935 la nuova birreria Guinness di Londra. Presso Guinness si rende presto conto che le
condizioni con le quali vengono raccolti i dati (temperatura, umidità, origine del malto) cambiano di continuo e il fatto di averne pochi con le stesse condizioni sperimentali non consente di applicare il teorema del limite centrale che permette di far riferimento alla distribuzione normale.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Nel 1905 conosce Karl Pearson con il quale si instaura un legame di amicizia. Grazie a questo può passare un anno sabbatico (a.a. 1906-07) presso i laboratori di biometria dell'University College di Londra, diretti da Pearson.
Nel 1908 pubblica su Biometrika (diretta da K. Pearson) con lo pseudonimo Student l'articolo “The probable error of the mean” sulla distribuzione t di Student. Gosset dovette usare uno pseudonimo poiché la fabbrica Guinness presso la quale lavorava vietava la pubblicazione di articoli per evitare la divulgazione dei segreti di produzione della birra.
-----Approfondimenti----------------------------------------------------------------------------
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
La distribuzione presenta le proprietà di seguito indicate.
� È simmetrica.� Tende alla normale standardizzata al
tendere di n a infinito.
La v.c. t di Student
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Vogliamo trovare il decimo e il 90-esimo centile della v.c. t di Student con 19 gradi di libertà.
Per quanto riguarda il 90-esimo centile, nella tabella C.4 dobbiamo prendere il numero che sta nella riga corrispondente a r &19 e nella colonna corrispondente a p &0,90. Troviamo t0,90
& 1,328. Per ragioni di simmetria, troviamo t0,10 &&1,328.
p
r 0,60 0,70 0,80 0,90 0,95 0,975 0,990 0,995 0,999
… … … … … … … … … …18 0,257 0,534 0,862 1,330 1,734 2,101 2,552 2,878 3,610
19 0,257 0,533 0,861 1,328 1,729 2,093 2,539 2,861 3,579
20 0,257 0,533 0,860 1,325 1,725 2,086 2,528 2,845 3,552
… … … … … … … … … …
Esempio 15: uso della tavola della t di Student
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Siano e la media e la varianza di un campione casuale di ampiezza n estratto da una popolazione qualsiasi con media . Allora, se n è sufficientemente grande, il rapporto
è una v.c. che ha distribuzione prossima alla normale N(0, 1).
Il caso dei grandi campioni
X
nSXZX /
µ−=
2S
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Cap. 16. Stima puntuale dei parametri
- Stima puntuale e stimatore - Proprietà degli stimatori - Spazio campionario - Statistiche campionarie - Distribuzione campionaria della media -Distribuzione campionaria della media quando la varianza non è nota
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
La statistica campionaria
utilizzata per stimare θ viene denominatastimatore. Si chiama, invece, stima la singola determinazione dello stimatore, il valore, che esso assume nel campione osservato
inteso come n-upla di numeri effettivi.
Stimatore
),,,( 21 nXXXtT K=
),,,,( 21 nxxxtt K=
),,,,( 21 nxxx K
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
� Si affronta il problema di come scegliere lo stimatore più “conveniente” per attribuire un valore al parametro di interesse θ.
� L’aggettivo “puntuale” viene impiegato per distinguere questo problema dalla stima per intervallo con cui ci si pone l’obiettivo di individuare un intervallo che contenga al suo interno il parametro θ.
Stima puntuale
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Sia uno stimatore del parametro θ. Per stabilire se lo stimatore T è più o meno appropriato per la soluzione del nostro problema di stima è cruciale studiare la v.c.
che denomineremo errore di stima.
Proprietà degli stimatori
),,,( 21 nXXXtT K=
θ−T
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Due questioni sono basilari per emettere un giudizio sullo stimatore:
� la media degli errori di stima è desiderabile che sia nulla;
� la media dei quadrati degli errori di stima
denominata, errore quadratico medio, è desiderabile che sia “la più piccola possibile”.
Proprietà degli stimatori
)(E θ−T
2)(E)MSE( θ−= TT
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Se il valore atteso dell’errore di stima è uguale a 0, cioè se
lo stimatore è detto non distorto.L’equazione precedente può essere scritta in modo equivalente come
La differenza è denominata distorsione.
Non distorsione
, ,0)(E θθ ∀=−T
θθ ∀= ,)(ETθ−= )(E)(D TT
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
La proprietà della non distorsione può essere meglio apprezzata ipotizzandone l’assenza. Non è, ovviamente, desiderabile né che
né che
Nel primo caso, lo stimatore produrrebbe stime mediamente al di sotto del valore del parametro; nel secondo caso, si verificherebbe il fenomeno opposto.
Proprietà degli stimatori
,)(E θ<T
.)(E θ>T
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 1: non distorsione della media campionariaper una popolazione artificiale discreta
Campioni di ampiezza 2 estraibili dalla popolazione {1, 2, 3, 4, 5}, avente media µµµµ νννν3, medie campionarie e relativi errori di stima.
campione media camp.
erroredi stima
campione media camp.
erroredi stima
campione media camp.
erroredi stima
1, 1 1,0 νννν2,0 3, 1 2,0 -1,0 5, 1 3,0 0,01, 2 1,5 νννν1,5 3, 2 2,5 -0,5 5, 2 3,5 +0,51, 3 2,0 νννν1,0 3, 3 3,0 0,0 5, 3 4,0 +1,01, 4 2,5 νννν0,5 3, 4 3,5 +0,5 5, 4 4,5 +1,51, 5 3,0 0,0 3, 5 4,0 +1,0 5, 5 5,0 +2,02, 1 1,5 νννν1,5 4, 1 2,5 -0,5
2, 2 2,0 νννν1,0 4, 2 3,0 0,0
2, 3 2,5 νννν0,5 4, 3 3,5 +0,5
2, 4 3,0 0,0 4, 4 4,0 +1,0
2, 5 3,5 νννν0,5 4, 5 4,5 +1,5
Per ogni campione viene dato l’errore di stima, la differenza tra la media campionaria e la media della popolazione
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 1: (continuazione)
Il valore atteso di una statistica campionaria può essere
visto come la media aritmetica dei valori che la statistica
assume nei campioni dello spazio campionario. Pertanto,
calcolare , nel caso in esame, equivale a
calcolare la media aritmetica dei 25 errori di stima
Tale media è pari a 0; ciò significa che il valore atteso
della media campionaria è uguale alla media della
popolazione. In altri termini, la media campionaria gode
della proprietà della non distorsione. Si tratta, come
vedremo, di una proprietà con validità generale.
)(E θ−T
.3−=− xx µ
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 2: non distorsione della media campionaria per una popolazione continua
Piccolo sottoinsieme di campioni di ampiezza 5 provenienti da una popolazione normale con media 265 e varianza 182 (vedi Esempio 4 del cap. 15). A ciascun campione è associato l’errore di stima. Calcolare la quantità equivale a calcolare la media aritmetica degli errori di stima degli infiniti campioni che costituiscono lo spazio campionario:
x1 x2 x3 x4 x5
282,1 270,6 256,5 300,1 276,2 277,1 12,1249,4 266,6 303,5 254,4 255,0 265,8 0,8258,2 259,5 269,5 316,3 240,0 268,7 3,7253,3 270,6 299,4 250,2 262,7 267,2 2,2248,6 291,5 264,3 258,5 265,9 265,8 0,8269,1 232,2 267,0 252,2 256,6 255,4 -9,6257,7 268,4 249,3 284,0 274,2 266,7 1,7268,0 278,1 297,7 255,9 252,3 270,4 5,4
285,1 278,8 263,3 284,1 249,6 272,2 7,2272,8 314,1 262,4 285,3 257,0 278,3 13,3245,2 267,4 274,5 259,5 226,9 254,7 -10,3271,1 291,7 275,4 282,9 242,3 272,7 7,7229,1 236,7 243,0 280,9 250,8 248,1 -16,9230,9 246,2 262,4 240,6 287,6 253,5 -11,5246,7 262,2 230,3 280,6 291,3 262,2 -2,8… … … … … … …
x µ−x
)(E µ−X
diDiscorso volutamente intuitivo
,,8,0,1,12( di media)(E L=− µX.0),8,2 =− K
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Non distorsione della media campionarie
Indicando con µ la media nella popolazione, possiamo scrivere
Pertanto, la media campionaria è uno stimatore non distorto di µ.
; ,)(E µµµ ∀== XX
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Ribadiamo che l’errore quadratico medio dello stimatore T di θ è dato da
Si tratta del valore atteso del quadrato dell’errore di stima, che può essere interpretato(informalmente) come la media aritmetica degli errori di stima al quadrato associati ai campioni dello spazio campionario.
Errore quadratico medio
.)(E)(MSE 2θ−= TT
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 3: errore quadratico della media campionariaper una popolazione artificiale discreta
Campioni di ampiezza 2 estraibili dalla popolazione {1, 2, 3, 4, 5}, avente media µµµµ 3, medie campionarie e relativi errori di stima al quadrato.
campione media camp.
quadratoerroredi stima
campione media camp.
quadratoerroredi stima
campione media camp.
quadratoerroredi stima
1, 1 1,0 4,00 3, 1 2,0 1,00 5, 1 3,0 0,001, 2 1,5 2,25 3, 2 2,5 0,25 5, 2 3,5 0,251, 3 2,0 1,00 3, 3 3,0 0,00 5, 3 4,0 1,001, 4 2,5 0,25 3, 4 3,5 0,25 5, 4 4,5 2,251, 5 3,0 0,00 3, 5 4,0 1,00 5, 5 5,0 4,002, 1 1,5 2,25 4, 1 2,5 0,25
2, 2 2,0 1,00 4, 2 3,0 0,00
2, 3 2,5 0,25 4, 3 3,5 0,25
2, 4 3,0 0,00 4, 4 4,0 1,00
2, 5 3,5 0,25 4, 5 4,5 2,25
Per ogni campione viene dato l’errore di stima, la differenza tra la media campionaria e la media della popolazione
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 3: (continuazione)
L’errore quadratico medio, come media aritmetica degli
errori di stima al quadrato, è dato da
Ciò significa che le 25 stime associate ai campioni
estraibili dalla popolazione presentano, mediamente, uno
scostamento rispetto alla media della popolazione pari a 1
(per scostamento intendiamo qui l’errore di stima al
quadrato).
.125/)00,425,225,200,4()(MSE =++++= LX
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 4: errore quadratico medio della media campionaria per una popolazione continua
Piccolo sottoinsieme di campioni di ampiezza 5 provenienti da una popolazione normale con media 265 e varianza 182 (vedi Esempio 4 del cap. 15). A ciascun campione è associato il quadrato dell’errore di stima. Calcolare l’errore quadratico medio equivale a calcolare la media aritmetica degli errori di stima al quadrato degli infiniti campioni che costituiscono lo spazio campionario:.
x1 x2 x3 x4 x5
282,1 270,6 256,5 300,1 276,2 277,1 146,41249,4 266,6 303,5 254,4 255,0 265,8 0,64258,2 259,5 269,5 316,3 240,0 268,7 13,69253,3 270,6 299,4 250,2 262,7 267,2 4,84248,6 291,5 264,3 258,5 265,9 265,8 0,64269,1 232,2 267,0 252,2 256,6 255,4 92,16257,7 268,4 249,3 284,0 274,2 266,7 2,89268,0 278,1 297,7 255,9 252,3 270,4 29,16
285,1 278,8 263,3 284,1 249,6 272,2 51,84
272,8 314,1 262,4 285,3 257,0 278,3 176,89245,2 267,4 274,5 259,5 226,9 254,7 106,09271,1 291,7 275,4 282,9 242,3 272,7 59,29229,1 236,7 243,0 280,9 250,8 248,1 285,61230,9 246,2 262,4 240,6 287,6 253,5 132,25246,7 262,2 230,3 280,6 291,3 262,2 7,84… … … … … … …
x 2)( µ−x
diDiscorso volutamente intuitivo
),84,7,,64,0,41,146( di media)(MSE KL=X
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Spazio campionario e spazio di un generico stimatore T
1tOsservazione 1
Osservazione 2
Osservazione nM
Campione 1
Osservazione 1
Osservazione 2
Osservazione nM
Campione 2
2tOsservazione 1
Osservazione 2
Osservazione n
M
Campione 3
3tMM
Popolazione
Parametro� θSpazio dello
stimatore T
Insieme di tutti i possibili
campioni casuali di ampiezza n
Spazio campionario
Distribuzione campionaria di T
• E(T) è la media aritmetica delle stime nello spazio dello stimatore.
• MSE(T) è la media aritmetica, nello spazio dello stimatore, dei quadrati degli errori di stima.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
L’errore quadratico medio dello stimatore T di θ può essere scritto nella forma
Dove è la varianza dello stimatore T.Se lo stimatore è non distorto, l’errore quadratico medio dello stimatore coincide con la varianza dello stesso stimatore:
Errore quadratico medio:una scrittura alternativa
2)(E)(Var θ−= TT
,])(E[)(Var)(MSE 2θ−+= TTT
).(Var)(MSE TT =
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Poiché lo stimatore gode della proprietà della non distorsione, possiamo scrivere:
MSE della media campionaria
X
;)(Var)(MSE2
nXX σ
==
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Si tratta di una proprietà che si manifesta nel confronto di due o più stimatori impiegabili per stimare uno stesso parametro.Dati due stimatori dello stesso parametro θ, T1 e T2, si dice che T1 è più efficiente di T2 se
Naturalmente, è preferibile, in generale, utilizzare lo stimatore più efficiente, in quanto garantisce a priori una maggiore precisione delle stime.
Efficienza di uno stimatore
. ,)(E)MSE()(E)MSE( 222
211 θθθ ∀−=≤−= TTTT
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio
Nella figura sono riportate le distribuzioni campionarie di due stimatori corretti. lo stimatore (linea rossa) possiede un errore quadratico medio (ossia una varianza) più piccolo di (linea nera). T1 è più efficiente di T2
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 5: confronto di efficienza di due stimatori della media
Con riferimento alla stima della media con un campione di
5 unità proveniente da una popolazione con varianza 30,
consideriamo i due seguenti stimatori:
Il primo è la media campionaria, il secondo è una media
ponderata delle osservazioni campionarie.
Entrambi gli stimatori presentano, come è facile
verificare, la proprietà della non distorsione.
;5
543211
XXXXXT ++++=
.3,03,01,01,02,0 543212 XXXXXT ×+×+×+×+×=
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 5: (continuazione)
I loro errori quadratici medi sono, rispettivamente:
(si tratta della varianza di una combinazione lineare di
v.c. indipendenti).
Tra i due stimatori è, allora, preferibile la media
campionaria: infatti, l’errore medio che si commette con
essa è inferiore a quello connesso all’impiego del secondo
stimatore.
;0,65
30)(Var)(MSE 11 === TT
2,730)3,03,01,01,02,0()(Var)(MSE 2222222 =++++== TT
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Il problema della scelta dello stimatore più efficiente per la stima di un dato parametro richiede strumenti teorici la cui presentazione supera i limiti di questa trattazione.Per specifici problemi di stima esistono soluzioni ad hoc. Per esempio, è possibile dimostrare che la media aritmetica è lo stimatore più efficiente
della media della popolazione nell’insieme degli
stimatori non distorti espressi da una
combinazione lineare delle osservazioni
campionarie.
Efficienza all’interno di una determinata classe di stimatori
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
La stessa media campionaria è lo stimatore più
efficiente nell’insieme degli stimatori non distorti
quando la popolazione generatrice è normale o è
descritta da un modello con certe
caratteristiche.
Efficienza all’interno di una determinata classe di stimatori
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
-----Approfondimento----------------------------------------------------------------------------
Stime come tiri al bersaglio Stimare esattamente un parametro è come centrare un bersaglio. Stime ripetute di un parametro si possono quindi immaginare come tiri ripetuti. Nella Fig. C vengono rappresentate stime ripetute prodotte da uno stimatore non distorto: le stime sono “disperse” attorno al valore del parametro (centro) senza che si manifestino deviazioni in una particolare direzione. Nella Fig. B le stime tendono invece a concentrarsi in una particolare zona al di sopra del centro, manifestando quindi la presenza di una distorsione. Nella Fig. A le stime tendono a concentrarsi intorno al centro. Nella Fig. D le stime sono disperse e lontane dal centro.
Dalla Fig. B si può osservare come la varianza non sia la misura appropriata per valutare l’errore medio di stima; infatti la variabilità delle stime risulta più contenuta rispetto alla Fig. C, ma esse sono decentrate rispetto al valore del parametro. Quindi ai fini della comparazione dei 2 stimatori, occorre tener conto sia della variabilità che della distorsione.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
In termini informali, uno stimatore di θ è detto asintoticamente non distorto se la sua distorsione è prossima allo 0 quando la dimensione del campione è molto grande.Più precisamente, si ha uno stimatore asintoticamente non distorto quando la distorsione tendea 0 al tendere di n a infinito.
Proprietà asintotiche degli stimatori:stimatore asintoticamente non distorto
θ−= )(E)(D nnn TT
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 6: uno stimatore asintoticamente non distorto di σσσσ2
Lo stimatore di σσσσ 2 espresso da
è asintoticamente non distorto. Infatti, la sua distorsione
tende a 0 al tendere di n a infinito.
2
1
2 )(1~ XXn
Sn
ii −= ∑
=
22222 1)~(E)~(D σσσ −−
=−=n
nSS nnn
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
In termini semplici, uno stimatore T di θ si dice consistente se vi è pratica certezza che esso assuma un valore molto prossimo a θ quando la dimensione del campione è molto elevata.Più precisamente, ciò è espresso dall’equazione
dove ε è una quantità positiva piccola a piacere.
Proprietà asintotiche degli stimatori:consistenza
, ,1)|(|lim θεθ ∀=<−∞→
nn
TP
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Nella figura che segue è illustrata l’idea di consistenza con riferimento alla media campionaria per campioni provenienti da una popolazione normale di ampiezza 10, 100 e 300.
Proprietà asintotiche degli stimatori:consistenza
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Proprietà asintotiche degli stimatori:consistenza
Lo stimatore gode della proprietà della consistenza, sicché possiamo scrivere, formalmente:
X
. ,1)|(|lim µεµ ∀=<−∞→
nnXP
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Cap. 17. Stima per intervallo
- Stima per intervallo della media di una popolazione normale con varianza nota - Stima per intervallo della media di una popolazione normale con varianza non nota - Stima per intervallo della media nel caso di grandi campioni
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Stima per intervallo della media di una popolazione
normale con varianza nota
Alla stima puntuale occorre associare una misura della sua precisione. La varianza dello stimatore serve a ciò.
Tanto più tale varianza è piccola tanto più lo stimatore è preciso.
Un modo per esprimere l’incertezza e il grado di precisione
connessi ad una stima è rappresentato da un intervallo di valori che ci dia la garanzia di contenere il valore incognito del parametro
con un determinato livello di affidabilità.
La stima per intervallo della media di una popolazione normale con varianza nota è un caso abbastanza raro nelle applicazioni, ma in alcuni casi è possibile che indagini precedenti a quella effettuata rendano possibile una conoscenza esatta della varianza σ2.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Sia X una popolazione normale con varianza nota σσσσ2 e media
incognita µµµµ N(µµµµ,σσσσ2).
La costruzione di un intervallo di confidenza per µ sotto l’assunzione di varianza nota, si basa sul risultato precedentemente discusso che la media campionaria X associata a campioni casuali provenienti da una popolazione normale N(µ,σ2) si distribuisce come una normale N(µ,σ2/n), ossia X ∼N(µ,σ2/n).
Se dunque usiamo la media campionaria come stimatore della media della popolazione, il fatto che la sua distribuzione sia centrata sul valore vero del parametro µ indica che X e uno stimatore non distorto. Inoltre, il rapporto σ2/n misura la precisione dello stimatore: come ci si potrebbe aspettare, tale precisione è tanto minore quanto più è elevata la varianza σ2 e tanto maggiore quanto più è elevata la dimensione campionaria n.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Da X ∼ N(µ,σ2/n) si ha:
N(0,1).
nσ
µXZ ∼−
=
Indichiamo con 21z α− il quantile di livello 1-α/2 della Normale standardizzata 21)zZ(P 21 αα −=> − . Per la simmetria della distribuzione Normale, segue che
21)zZ(P 21 αα −=−< − e quindi
ααα −=≤≤− −− 1)zZz(P 2/12/1
(i valori 21z α− si possono ottenere facilmente consultando le tavole della distribuzione Normale standardizzata).
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Quindi si ha:
ααα −=
≤
−≤− −− 1z
nσµXzP 2/12/1
da cui
ααα −=
≤−≤− −− 1n
σzµXn
σzP 2/12/1
e quindi
ααα −=
+≤≤− −− 1n
σzXµn
σzXP 2/12/1 . (*)
Si osserva che la (*) può scriversi nella forma:
ααα −=
+≤≤− −− 1n
σzµXn
σzµP 2/12/1 (**)
che è quindi equivalente alla (*).
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Indicando con
nσzX e
nσzX 2/122/11 αα −− +=−= LL
le variabili casuali che formano gli estremi dell’intervallo precedente, possiamo affermare che l’intervallo casuale
+−= −− n
σzX , n
σzX],[ 2/12/12 1 ααLL
racchiude al suo interno il parametro µ con probabilità 1-α, ossia dato un campione casuale X1,X2,…,Xn estratto da una
distribuzione Normale con media µµµµ e varianza σσσσ2 nota, lo
stimatore intervallare (intervallo casuale) per la media della
popolazione X al livello 1-α è:
+−= −− n
σzX , n
σzX],[ 2/12/12 1 ααLL .
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Quindi se associamo a ciascun elemento (x1,x2,…,xn) dello spazio campionario l’intervallo numerico di estremi
+− −− nσzx ,
nσzx 2/12/1 αα
in base alla (*) si ha che la proporzione degli intervalli che racchiudono il valore della media µ è uguale a 1-α e coincide con la proporzione delle medie campionarie che cadono nell’intervallo:
+−n
zn
z σµ
σµ αα 2/2/ , .
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Per dare evidenza intuitiva all’equivalenza tra (*) e (**) consideriamo la seguente Figura. La Figura si riferisce allo spazio dei campioni di ampiezza 15 provenienti da una popolazione normale con media 175 e varianza 44.
Nella figura qui accanto, viene mostrato come la media della popolazione (175 nell’esempio) sia racchiusa nell’intervallo di estremi
ogni volta che la media campionaria assume valori all’interno dell’intervallo di estremi
154496,1 e
154496,1 +− xx
.4,178154496,1 e 171,8
154496,1 =+=− µµ
Ciò dimostra che è pari a 0,95 la probabilità che il parametro µ sia compreso nell’intervallo casuale di estremi
nσXL
nσXL 96,1 e 96,1 21 +=−=
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Immaginiamo di osservare in successione i campioni dello spazio campionario suindicato: ad ogni campione osservato corrisponderà un intervallo numerico rappresentato da un segmento posto al di sotto della curva normale, i cui estremi si ottengono sottraendo e aggiungendo alla media del campione il margine di errore. Poiché il singolo intervallo include la media della popolazione se e solo se la media del campione è interna all’intervallo [171,6; 178,4], la proporzione degli intervalli validi (cioè quelli che racchiudono la media della popolazione) è uguale alla proporzione dei campioni nei quali la media campionaria è compresa nell’intervallo [171,6; 178,4], proporzione che è uguale a 0,95. La stessa idea è espressa attraverso il Principio del Campionamento
Ripetuto (PCR): la quantità 1-α può essere vista come la proporzione degli intervalli (l1, l2) validi in un insieme ampio di campioni casuali di ampiezza n estratti dalla stessa popolazione.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Passando quindi dal ragionamento probabilistico alla stima basata su un campione osservato si ha che:
• la v.c. X assume uno specifico valore x ; • le v.c. L1, L2 diventano valori numerici l1, l2; • la probabilità 1-α che l’intervallo [L1, L2] racchiuda il valore µ diventa il livello di confidenza, il grado di fiducia 1-α che l’intervallo numerico (l1, l2) contenga la media della popolazione µ.
Detto questo, possiamo quindi dare la seguente definizione di intervallo di confidenza per la media:
Def. Sia (x1,x2,…,xn) un campione casuale osservato proveniente da una popolazione normale con media µ e varianza nota σ2 N(µ,σ2). Si chiama intervallo di confidenza per µ a un livello di confidenza 1-α l’intervallo seguente:
+−= −− n
σzx , n
σzx],[ 2/12/12 1 ααll .
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
In base a quanto detto, gli estremi dell’intervallo di confidenza sono:
Esempio 1: intervallo di confidenza per la media di una pop. normale con varianza nota
Una linea di produzione di una cartiera, in condizioni normali di funzionamento, produce fogli di carta la cui lunghezza è assimilabile a una v.c. avente deviazione
standard σσσσ =0,03 cm. In un campione casuale di 120 fogli la lunghezza media è risultata uguale a 29,4996 cm.
Vogliamo determinare un intervallo di confidenza al 95% per la media.
;49423,29120030961499629975,01 ==−=
,,-,n
zxl σ
.50497,29120
0,031,9629,4996975,02 =+=+=n
zxl σ
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 1 (continuazione)
Possiamo concludere che, verosimilmente,
Il grado di fiducia che attribuiamo a questa affermazione è quantificabile con il numero 0,95, che rappresenta la probabilità che avevamo, a priori (cioè prima che il campione fosse stato estratto), di osservare un campione che producesse un intervallo di confidenza valido, ossia che coprisse la media della popolazione. Nel caso in esame, il risultato ottenuto consente di affermare che il processo produttivo può dirsi “sotto controllo”, nel senso che i dati del campione non contrastano con l’idea che µµµµ sia uguale a 29,5.
.50494,2949423,29 << µ
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Spazio campionario e livello di confidenza
Nella diapositiva che segue sono riportati 20 campioni di ampiezza 10 estratti da una popolazione normale avente media 265 e varianza 182. Per ciascun campione è data la media aritmetica (terzultima colonna) e gli estremi (l1, l2) degli intervalli di confidenza al 95% per la media della popolazione. Le righe in rosso indicano i campioni a cui corrispondono intervalli di confidenza non validi, cioè che non contengono la media della popolazione.Se immaginiamo l’intero spazio campionario, il livello di confidenza (0,95 in questo caso) può essere interpretato come la frequenza relativa dei campioni a cui corrispondono intervalli validi.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Spazio campionario e livello di confidenza
Osservazioni Stima media
l1 l2
259,7 264,6 257,7 270,2 269,3 256,5 285,4 248,9 260,7 258 263,1 251,94 274,26267,2 277,5 253,7 249,6 286 242,8 270,1 268,9 301,0 230,6 264,72 253,56 275,88269,2 273,4 281,7 248,8 283,2 282,0 242,0 314,2 257,6 254,3 270,63 259,47 281,79274,5 265,7 270,1 239,3 237,7 269,8 264,8 247,8 265,3 266,8 260,18 249,02 271,34250,7 293,7 240,8 250,0 253,4 255,4 226,7 245,0 263,9 249,3 252,89 241,74 264,05272,2 275,5 249,5 227,2 284,5 261,6 294,0 257,5 244,8 279,8 264,66 253,51 275,82266,4 238,2 259,9 241,7 267,5 263,0 248,6 261,9 264,0 241,3 255,24 244,08 266,40265,2 295,4 255,9 259,1 297,7 251,6 263,3 252,9 267,7 251,8 266,05 254,90 277,21280,8 265,3 259,4 275,7 300,4 252,7 253,1 246,6 249,4 276,3 265,95 254,80 277,11255,0 269,5 245,3 253,9 283,4 271,3 249,8 281,9 283,9 257,4 265,13 253,98 276,29253,5 265,9 269,9 264,4 268,8 251,0 269,4 251,4 290,9 274,8 265,99 254,84 277,15275,5 234,9 250,3 289,7 269,9 253,6 250,1 277 210,2 230,4 254,16 243,00 265,31249,6 270,4 249,7 278,2 262,5 274,7 284,2 260,4 239,5 264,7 263,38 252,22 274,53247,1 249,8 262,7 279,6 281,1 262,7 279,6 247,8 281,5 275,2 266,71 255,55 277,87266,0 286,4 286 264,6 258,1 298,7 263,5 234,3 268,3 245,3 267,12 255,96 278,27306,0 267,5 286,5 277,4 267,8 280,6 299,2 272,0 251,6 280,9 278,95 267,79 290,11271,1 259,1 240,7 266,6 252,7 266,7 266,3 253,1 296,3 266,9 263,95 252,80 275,11279,6 279,7 289,7 247,9 264,4 294,6 248,6 261,2 253,8 250,0 266,94 255,78 278,09280,1 255,9 288,1 270,7 250,6 270,2 255,4 267,7 295,0 276,5 271,01 259,85 282,17266,2 300,9 288,1 274,3 235,8 256,6 261,4 285,4 280,7 285,9 273,53 262,37 284,69
… … … … … … … … … … … … …
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Ampiezza dell’intervallo di confidenza
L’ampiezza dell’intervallo di confidenza –differenza tra estremo superiore ed estremo inferiore- è pari al doppio del margine di errore:
.2 2/112 nzllA σ
α−=−=
A è funzione di α, di n e di σ :
• cresce al diminuire di α : infatti al diminuire di α, diminuendo α/2, aumenta z1-α/2 e quindi diminuisce A. Ciò significa che se vogliamo ridurre il rischio di errore, diminuendo α, dobbiamo rinunciare a una parte della precisione della stima, accettando un intervallo di confidenza più ampio e, quindi, più povero di informazione.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
• decresce all’aumentare di n : è evidente direttamente dal punto di
vista algebrico dalla formula; ciò è anche intuitivo visto che campioni più ampi producono informazioni più precise sul parametro.
• cresce all’aumentare di σ : ciò è evidente algebricamente dalla
formula. Si osserva che -diversamente da α e n- sul livello di σ non possiamo intervenire.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Stima per intervallo della media di una popolazione
normale con varianza non nota
Purtroppo, quando si vuole costruire un intervallo di confidenza per la media di una popolazione Normale, raramente, nella realtà, si conosce la varianza della popolazione.
Sia pertanto X una variabile distribuita secondo una Normale con parametri µµµµ e σσσσ2 entrambi ignoti.
Il procedimento per determinare un intervallo di confidenza per µ, a partire da un campione casuale di dimensione n, è analogo a quello precedente. Abbiamo visto che, se la varianza è nota, ( )nσ µ;N~X 2 e che la variabile casuale standardizzata Z ~N(0,1). Tuttavia, quando σ2 è ignota occorre sostituirla con una sua stima.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Uno stimatore appropriato per σ2 è la varianza campionaria corretta:
∑=
−−
=n
1i
2i
2 )X(X1n
1S
Se nella standardizzazione di X , σ viene sostituito da 2SS= , si ottiene la variabile casuale:
nSµXTX
−=
che si distribuisce secondo una distribuzione t-Student con n-1 gradi di libertà (t-Student è una v.c. continua con funzione di densità campanulare simmetrica con “code pesanti”). Se con 2/1 α−t indichiamo il quantile di livello 1-α/2 della v.c. t di Student con n-1 gradi di libertà, possiamo scrivere:
.1tnSµXtP 2/12/1/2/2 αµµ αααα −=
+<<−=
≤
−≤− −− n
StXn
StP
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Con le stesse argomentazioni effettuate nel caso precedente, possiamo scrivere:
.12/12/12/12/1 αµµµ αααα −=
+<<−=
+<<− −−−− n
StXn
StXPn
StXn
StP
Questa proposizione probabilistica permette quindi di definire l’intervallo di confidenza per la µ nel modo seguente: Def. Sia (x1,x2,…,xn) un campione casuale osservato proveniente da una popolazione normale con media µ e varianza σ2 incognite. Si chiama intervallo di confidenza per µ a un livello di confidenza 1-α l’intervallo seguente:
+−= −− n
stx , nstx],[ 2/12/12 1 ααll .
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Inoltre, in tal caso l’ampiezza dell’intervallo di confidenza è:
.2 2/112 nstllA α−=−=
Si nota che l’ampiezza dell’intervallo di confidenza non è fissa, ma dipende dalla deviazione standard campionaria s.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 2: intervallo di confidenza per la media di una popolazione normale con varianza non nota
Sono state rilevate le velocità di 11 automobili in una località in cui vige il limite di 50 km/h, ottenendo i risultati che seguono:
60, 66, 69, 65, 70, 72, 75, 65, 71, 72, 69
Vogliamo determinare un intervallo di confidenza al 99% per la velocità media delle auto nella località considerata.
La media e la deviazione standard del campione sono:
essendo 10 i gradi di libertà.
.2,4 ;5,68 == sx
,169,3005,02/01,02/ 995,02/1 ==⇒== − tt αα
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 2 (continuazione)
Estremi dell’intervallo di confidenza:
Possiamo, pertanto, affermare che la velocità media delle
auto in quella data località è compresa verosimilmente
nell’intervallo (64,5, 72,5). La credibilità
dell’affermazione è misurata dal coefficiente di
confidenza posto uguale a 0,99.
;5,6411
4,23,1695,86995,01 =−=−=nstxl
.5,7211
4,23,1695,86995,02 =+=+=nstxl
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Stima per intervallo della media nel caso di grandi campioni
Se la dimensione del campione è sufficientemente elevata, possiamo riferirci alla statistica
la cui distribuzione di probabilità è prossima alla normale standardizzata qualunque sia la popolazione generatrice. Ne segue che, procedendo passo per passo come nei casi precedenti, possiamo scrivere
,/ nS
µXZX−
=
,12/12/1 αµ αα −≈
+<<− −− n
SzXn
SzXP
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Quindi:
Def. Sia (x1,x2,…,xn) un campione casuale osservatori dimensione sufficientemente grande proveniente da una popolazione qualsiasi con media µ e varianza σ2 incognite. Si chiama intervallo di confidenza per µ a un livello di confidenza 1-α l’intervallo seguente:
+−= −− n
szx , nszx],[ 2/12/12 1 ααll .
È un intervallo di confidenza che, rispetto ai due precedenti, ha una validità più ampia, richiedendo soltanto che l’ampiezza del campione sia sufficientemente grande e non la normalità della popolazione.
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 3: intervallo di confidenza per la media nel caso di grandi campioni
L’ufficio qualità di un’industria elettrica intende effettuare una stima per intervallo della durata di una partita di lampade di una data tipologia. In un campione casuale di ampiezza 85, la media e la deviazione standard assumono i valori:
Viene assunto un coefficiente di confidenza del 90%.
Poiché la dimensione del campione è sufficientemente grande, la normalità della popolazione non è un requisito necessario (peraltro, la nostra v.c. presenta, verosimilmente, un’asimmetria positiva).
.4,77 ;6,364 == sx
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 3 (continuazione)
Estremi dell’intervallo di confidenza:
Possiamo, dunque, affermare che la durata media delle
lampade in questione è compresa verosimilmente nell’inter-
vallo (350,79, 378,41). La credibilità dell’affermazione
è misurata dal coefficiente di confidenza 0,90.
;79,35085
77,41,6456,36495,01 =−=−=n
szxl
,645,105,02/10,02/ 95,02/1 ==⇒== − zz αα
.41,37885
77,41,6456,36495,02 =+=+=nszxl
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Quanto abbiamo visto per la media nel caso di grandi campioni può essere esteso alla caso di quella speciale media che è il parametro p della popolazione Bernoulliana, che chiameremo proporzione o frequenza relativa della popolazione. In questo caso, la statistica da utilizzare è
dove , stimatore di p, è la proporzione o la frequenza relativa nel campione.
Stima per intervallo di una proporzione nel caso di grandi campioni
,/])ˆ1(ˆ[
ˆˆ npp
ppZ p−
−=
p̂
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Poiché la v.c. si distribuisce in modo approssimato secondo una normale N(0, 1), procedendo come nei casi precedenti, possiamo scrivere
Da qui, con il consueto ragionamento, si perviene all’intervallo di confidenza per p, così delimitato:
Stima per intervallo di una proporzione nel caso di grandi campioni
.)ˆ1(ˆˆ e
)ˆ1(̂ˆ 2/122/11 nppzpl
nppzpl −
+=−
−= −− αα
.1)ˆ1(̂ˆ)ˆ1(ˆˆ 2/12/1 ααα −≈
−+<<
−− −− n
ppzppn
ppzpP
pZ ˆ
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 4: intervallo di confidenza per una proporzione nel caso di grandi campioni
In un’indagine sull’uso della posta elettronica in Italia, è stato trovato che il 15% degli adulti, che usano il computer a casa, in ufficio o a scuola, e non inviano o non ricevono e-mail. Qual è l’intervallo di confidenza al 95% per la proporzione degli italiani adulti che non inviano o non ricevono e-mail, sapendo che l’ampiezza del campione casuale osservato è 850?
.96,1z20,05/-12/-1 ;15,0ˆ 975,02/-1 ==⇒== zp αα
;126,0850
85,015,01,9615,0)ˆ1(ˆˆ 95,01 =×
−=−
−=n
ppzpl
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Esempio 4 (continuazione)
Cosicché si può ritenere, con un grado di fiducia del 95%,
che la proporzione di italiani adulti in questione si trovi
all’interno dell’intervallo (0,126, 0,174).
.174,0850
85,015,01,9615,0)ˆ1(ˆˆ 95,02 =
×+=
−+=
nppzpl
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®
Cap. 18. Verifica delle ipotesi
- Introduzione: - Verifica di ipotesi sulla media di una popolazione normale con varianza nota - Verifica di ipotesi sulla media di una popolazione normale con varianza incognita - Verifica di ipotesi sulla media nel caso di grandi campioni