Statistica Inferenziale - Mozzanica Dispense SBIO/2016-2017 M… · Statistica Inferenziale L'inferenza statistica (o statistica inferenziale) è il procedimento per cui si inducono

Post on 03-Aug-2020

26 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

Transcript

1

Statistica Inferenziale

L'inferenza statistica (o statistica inferenziale) è il procedimento per cui si inducono le

caratteristiche di una popolazione dall‘osservazione di una parte di essa (detta «campione"),

selezionata solitamente mediante un esperimento casuale (aleatorio).

Nel caso finito dimensionale, ad esempio, da una popolazione di N individui, se ne estrae allora un

sottoinsieme (campione) di n individui (n<N) da analizzare (campionamento).

Def. Si definisce Spazio dei Campioni l’insieme di tutti i possibili campioni di dimensione data (n)

che possono essere estratti da una popolazione.

Nel caso descritto sopra la spazio campionario sarebbe costituito da tutte le possibili estrazioni con

ripetizione di n elementi dagli N elementi della popolazione. Lo spazio dei campioni avrebbe

cardinalità perciò Nn.

La statistica inferenziale ha il compito di fare inferenza sul campione cioè dall’analisi del

campione deve dare dei criteri per «stimare» le caratteristiche che descrivono l’intera popolazione

determinandone evidentemente la «bontà» e cioè, diciamo, il grado di coerenza.

In questo passaggio, poiché il campionamento è stato effettuato con criteri casuali, le “stime” che si

ottengono sul campione, rispetto alla popolazione di partenza, sono per loro stessa natura affette

da un errore, che si chiama errore di Campionamento.

Ad esempio, se io calcolo la media delle altezze di un campione di persone, per le quali so che la

popolazione di partenza ha media 175 cm, non otterrò mai esattamente una media pari a 175 cm.

Piuttosto, ripetendo infinite volte la stima su “infiniti” campioni, otterrò certamente una

DISTRIBUZIONE DI MEDIE, che sarà dispersa attorno al vero valore della media, cioè 175 cm.

2

Stime e Stimatori 1/

Ricordiamo:

n

x

x

n

i

i 1

1

1

2

2

n

xx

s

n

i

i

Varianza campionaria corretta

Nella statistica inferenziale si distinguono i valori caratteristici che descrivono la distribuzione della

popolazione (i parametri): ad esempio media e varianza. Le formule che permettono di ottenere le

stime sono dette stimatori. La realizzazione concreta (determinazione empirica) attraverso un

campione dello stimatore è chiamata stima dello stesso.

ePopolazion Parametro

Media

2 Varianza

Stimatori

xMedia acampionari

2 acampionari arianza sV

Esempio:

3

Stime e Stimatori 2/

Tutti i possibili campioni, virtualmente, sono estraibili, e sono pertanto possibili diverse stime del

parametro, in numero corrispondente a quello dei possibili campioni. Si possono costruire pertanto

le distribuzioni delle medie campionarie che, in termini probabilistici, costituiscono anch’esse delle

variabile aleatorie, descrivibili da modelli discreti o continui.

Prima di raccogliere i dati, i valori di X nel campione sono numeri aleatori: X1, . . . , Xn indipendenti

e identicamente distribuiti (i.i.d.) con:

)(i

XE 2)( i

XVar ni ,...,1

dopo avere raccolto i dati, i valori di X nel campione sono quantità note: le modalità osservate

x1, . . . , xn (distribuzione univariata)

In generale, non si dispone di un criterio per determinare quale stimatore per una data quantità sia

il migliore.

Nell'ambito della statistica classica, ad ogni modo, è stata proposta una serie di proprietà

considerate desiderabili per uno stimatore.

In primo luogo, un buono stimatore dovrebbe fornire stime che si avvicinano al valore del parametro

da stimare, ossia l'errore che commettiamo assumendo che il valore del parametro sia eguale alla

stima deve essere piccolo. Non conoscendo il valore del parametro non siamo in grado di

quantificare l'errore commesso per una particolare stima, possiamo però quantificare lo

scostamento medio tra la variabile casuale stimatore e il parametro. La bontà di uno stimatore è

infatti valutata sulla base di proprietà quali la correttezza, la correttezza asintotica, la consistenza e

l'efficienza che sono legate a tale scostamento medio.

4

Stime e Stimatori 2/

Inoltre la stima del parametro può essere espressa mediante un unico valore (stima puntuale)

desunto dal campione considerato oppure da un intervallo di valori (stima intervallare) entro cui,

con un dato livello di fiducia, si ritiene cada il valore vero del parametro della popolazione.

5

Stime e Stimatori 3/

6

Stime Puntuali: Proprietà Stimatori 1/

a) Correttezza:

Distorsione (inglese “Bias”)

7

Stime Puntuali: Proprietà Stimatori 2/

Es.

n

i

i

^

Xn

Xμ1

1

nn

XEn

XEμEn

i

i

^ 11)(

1

Es.

nn

nXVar

nn

XVarXVar

n

i

i

n

i

i2

2

2

12

11

)(

Stimatore di μ

Stimatore corretto

Varianza

Poiché le Xi sono

indipendenti

8

Stime Puntuali: Proprietà Stimatori 3/

Es. Stimatore di σ2

Sia:

2222 )()( iii

XEXVarXE

22

22

)()(

n

XEXVarXE

n

n

nnnXEXEXEERE ii

^ 122

222

2222

2222

2222 )( XEXEXXEXVarR ii

^

Stimatore distorto di σ2

(sottostima la varianza)

Si consideri allora: 2

1

^22

1

1

1

n

i

i

^^

Xn

Rn

nS

2222 1

11

n

n

n

nRE

n

nSE

^^Stimatore NON distorto di σ2

detta varianza campionaria

corretta

9

Stime Puntuali: Proprietà Stimatori 4/

b) Efficienza relativa:

10

Stime Puntuali: Proprietà Stimatori 5/

11

Stime Puntuali: Proprietà Stimatori 6/

12

Stime Puntuali: Proprietà Stimatori 7/

c) Consistenza:

13

Stime per Intervalli 1/

14

Stime per Intervalli: μ con σ nota 2/

STIMA INTERVALLARE di μ con σ nota

15

Stime per Intervalli 3/

16

Stime per Intervalli 4/

21

zzC

17

Stime per Intervalli 5/

NOTA

Nella costruzione degli intervalli di confidenza per la media sono presenti le seguenti variabili :

• n numerosità campionaria;

• 2E ampiezza dell’intervallo di confidenza;

• 1-α livello di confidenza;

• σ deviazione standard

Sono spesso da esaminare le seguenti relazioni :

• fissando sia il valore del livello di confidenza 1-α che di σ la dimensione dell’intervallo diminuisce

all’aumentare di n;

• quando il valore del livello di confidenza 1-α è fissato ,all’aumentare di σ si deve aumentare il

valore della numerosità campionaria n per avere una ampiezza fissata dell’intervallo.

• se il valore di σ è fissato e il livello di confidenza 1-α aumenta, si deve aumentare il valore di n per

avere una ampiezza desiderata.

quindi il valore dipende sia dal livello che dal numero di elementi del campione.

Più precisamente AUMENTA all’aumentare del livello e DIMINUISCE all’aumentare del numero di

elementi del campione.

In generale l’ampiezza dell’intervallo di confidenza vale

18

Stime per Intervalli 6/

19

Stime per Intervalli – Stima di µ con σ nota 6a/

)1,0(N

n

XZ

n

x

x

n

i

i 1

Stimatore valore atteso (media)

),(n

NX

),( NX i

Ponendo: errored' livellovaluep

1confidenza di livello

1)(2

12

1axaP

21

21

21

21

axaaxa

21

21

axax

1)(2

12

1axaxP

20

Stime per Intervalli – Stima di µ con σ nota 6b/

Portiamo ora la stima dell’intervallo in z in modo da poter utilizzare la N(0,1):

21

21

11 )( axaxPaxaP

21

21

axax

21

21

axa

21

21

axa

nzx

naz

na

21

21

nza

2

12

1

211

21

Fz

1

21

21 n

zxn

zxP

naz

2

12

1

21

Stime per Intervalli – Stima di µ con σ nota 6b/

Valori Tabulati:

α 1-α 1-α/2 z_1-α/2 Arr.

15,00% 85,00% 92,50% 1,4395315 1,44

10,00% 90,00% 95,00% 1,6448536 1,64

5,00% 95,00% 97,50% 1,9599640 1,96

1,00% 99,00% 99,50% 2,5758293 2,58

0,50% 99,50% 99,75% 2,8070338 2,81

0,10% 99,90% 99,95% 3,2905267 3,29

0,01% 99,990% 99,995% 3,8905919 3,89

211

21

Fz

Funzione Excel: INV.NORM.S()

22

Stime per Intervalli 7/

23

Stime per Intervalli 8/

24

Stime per Intervalli 9/

Esempio

25

Stime per Intervalli – Stima di µ con σ NON nota 9a/

1-nlibertà di gradi

Studentt

n

s

XZ

n

x

x

n

i

i 1Stimatore valore atteso (media):

nNX

, ),( NX i

Stimatore Varianza:

1

1

2

2

n

xx

s

n

i

i

Di conseguenza seguendo il precedente ragionamento (nel caso di σ nota):

26

Stime per Intervalli – Stima di µ con σ NON nota 9b/

n

sta

n

1,

21

21

21

21

11 )( axaxPaxaP

11,

211,

21 n

stx

n

stxP

nn

211

1

1,2

1

n

n

Tt

27

Stime per Intervalli μ con σ non nota 9/

Stima Intervallare di µ NON conoscendo σ

28

Stime per Intervalli 11/

)1,0(N

n

XZ

STIMA di μ per campioni Normali

σ nota

1:2

12

1

zzPzzC

nzx

nzx

21

21

;

σ non nota 1

n

T

n

S

XZ

1:1,

211,

21 nn

ttPttC

n

stx

n

stx

nn 1,2

11,2

1

;

OSSERVAZIONE IMPORTANTE: le formule appena viste per gli intervalli di confidenza per

la media con varianza incognita, vengono usate anche per campioni non normali, purché la

numerosità del campione sia sufficientemente elevata (n > 30). Esse forniscono un

intervallo di livello di confidenza approssimativamente uguale ad 1−α. Questo è basato sul

fatto che, per campioni anche non normali ma sufficientemente numerosi, la distribuzione

della statistica T (generica) si discosta “poco” da quella di una t-di-Student.

n

stX

n

1,

21

n

stX

n

1,

21

29

Stime per Intervalli 12/

In alcuni casi può essere sufficiente fornire un intervallo di confidenza che abbia solo un limite

superiore o un limite inferiore. A questo scopo osserviamo che, posto ancora (μ con σ nota ):

si ha

Pertanto l’intervallo è detto intervallo di confidenza unilatero

destro per μ di livello di confidenza 1 − α.

In modo del tutto analogo, si mostra che è detto intervallo di confidenza

unilatero sinistro per μ di

livello di confidenza 1 − α.

30

Stime per Intervalli: stima di σ 13/

STIMA di σ per campioni normali

2

12

2)1(

n

Sn

In modo del tutto analogo si determinano gli intervalli di confidenza unilateri.

31

Stime per Intervalli: stima di σ 14/

In una città è di grande rilevanza avere informazioni sulla distribuzione del consumo di energia

elettrica per unità abitativa. Nel caso di unità abitative di metratura confrontabile, la varianza indica

la variabilità nei livelli di efficienza energetica, un dato di interesse tanto per l’impresa erogatrice

quanto per l’amministrazione locale.

In un campione di 101 unità abitative “omogenee” si è osservata una varianza campionaria

s2 = 1.21 migliaia di kWh2

In questo caso può essere ragionevole essere interessati solo ad un “limite superiore” per la

varianza, e quindi considerare l’ intervallo unilatero

Esempio

Usando i dati e le tavole, scelto α = 0.05

Possiamo perciò affermare, con una confidenza

del 95%, che la varianza della distribuzione è

inferiore a 1.5527.

32

Test di Ipotesi 1/

Nell’ambito dell’inferenza statistica capita spesso di trovare problemi di verifica delle ipotesi.

Un’ipotesi statistica è una congettura sulla forma della distribuzione di probabilità di una variabile

casuale ovvero sul valore del parametro incognito. Nel primo caso si parla di ipotesi funzionale,

mentre nel secondo si parla di ipotesi parametrica.

Analizziamo ora le ipotesi parametriche nel caso di un campione.

L’ipotesi che si vuole sottoporre a verifica, denotata con H0, è detta ipotesi nulla o di base, mentre

l’ipotesi alternativa è indicata con H1 ( e solitamente è la negazione di H0).

Le ipotesi vengono solitamente formulate in base ad informazioni che si possiedono del fenomeno

in esame. Esse possono essere semplici o composte, a seconda che si riferiscano ad un unico

valore del parametro o ad un insieme di valori.

Per effettuare la verifica delle ipotesi si utilizza il test statistico T, cioè una regola mediante la quale

si decide in termini probabilistici, sulla base delle informazioni campionarie, se respingere o meno

l’ipotesi H0.

Ponendo l’ipotesi nulla:

il test si dice unilaterale se risulta:

00 : H

01 : H 01 : Hoppure

Unilaterale sinistro Unilaterale destro

33

Test di Ipotesi 2/

Per la statistica parametrica, si potrebbero effettuare delle affermazioni riferendosi ai parametri

incogniti della distribuzione, media e varianza.

Esempi di ipotesi statistiche potrebbero essere allora, ad esempio :

«La media della distribuzione è uguale a 2» (ipotesi nulla H0)

E l’ipotesi alternativa bilaterale: «La media della distribuzione non è uguale a 2»(ipotesi alternativa

H1)

Lo scopo di una verifica di ipotesi è quello di determinare una regola che consenta,

sulla base un campione di dati x1, x2, . . . , xn, di propendere per l’ipotesi nulla o quella alternativa.

Un test di verifica di ipotesi consiste nel determinare una regione C di valori del campione x1, x2, . . .

, xn, detta regione critica, tale che se (x1, x2, . . . , xn) appartiene a C si rifiuta H0, e quindi si accetta

H1.

Se (x1, x2, . . . , xn) non appartiene alla regione critica C non si rifiuta H0 (in generale si dice che H0

non si rifiuta, piuttosto che dire che si accetta).

Mentre è bilaterale quando si ha: 01 : H

Sono allora possibili due tipi di errori :

Def. Errore di prima specie: rifiutare H0 quando H0 è vera.

Def. Errore di seconda specie: non rifiutare H0 quando H0 è falsa

34

Test di Ipotesi 3/

Una regione critica “ideale” dovrebbe rendere “piccole” tanto la probabilità di commettere un errore

di prima specie, quanto la probabilità di commettere un errore di seconda specie.

Questo spesso non è possibile: restringendo la regione critica la probabilità di commettere un errore

di prima specie diminuisce, ma può aumentare quella di commettere un errore di seconda specie. Il

contrario accade allargando la regione critica.

La scelta usuale nella teoria della verifica di ipotesi è di tenere “sotto controllo” la probabilità di

errore di prima specie, a scapito, eventualmente, della probabilità di errore di seconda specie.

Def. Probabilità di commettere un Errore di prima specie:

) vera rifiutare(Prob 00 HH

Def. Probabilità di commettere un Errore di seconda specie:

) vera rifiutarenon (Prob 10 HH

Ecco allora le possibile opzioni:

35

Test di Ipotesi 4/

Def. Livello di significatività del Test

E’ costituito dalla probabilità α.

La probabilità α deve essere un valore fissato a priori. In genere si fa riferimento a valori «molto

piccoli» pari al 5% (0,05), all’1% (0,01) e all’1‰ (0,001). Ad esempio un livello di significatività del

5% significa che sul campione estratto la probabilità di «rifiutare» H0 quando H0 è vera (quando il

campione è fluttuante) è di 5 casi su cento. Abbassando il valore di α si abbassa la probabilità di

commettere un errore di prima specie.

Def. Potenza del Test

E’ costituito dalla probabilità 1-β.

Come abbiamo visto corrisponde alla probabilità di rifiutare H0 quando H1 è vera, in pratica di

rifiutare correttamente l’ipotesi nulla.

Nella figura seguente viene indicata con «S» la statistica test, per esempio la media campionaria.

La statistica S ha una determinata distribuzione campionaria sia che sia vera l’ipotesi nulla H0, sia

che sia vera l’ipotesi alternativa H1 (in questo caso per semplificare il grafico abbiamo posto come

ipotesi alternativa H1 che <X>= μ1 ≠ μ0). Le due distribuzione sono rappresentate dalle curve nera e

rossa rispettivamente. Stabilita la probabilità α, la curva nera viene divisa in due regioni. La regione

di accettazione di area 1- α, centrale, e la regione critica (o di rifiuto) di area complessiva pari

ad α, costituita dalle due code ciascuna di area α/2. (l’esempio è riferito ad un test bilaterale). Le

due code sono individuate dai valori critici della statica test s1 ed s2. Nel nostro caso se S=<X> è il

valor medio, l’ipotesi nulla <X>=μ0 è rifiutata se il valor medio del campione x_medio risulta

appartenere alla regione critica cioè se x_medio risulta essere minore di s1 o maggiore di s2.In caso

contrario (x_medio compreso tra s1 ed s2) l’ipotesi nulla è «non rifiutata».

36

Test di Ipotesi 5/

0 1

Regione di

accettazione

1

2/ 2/

0H 1H

Regione «critica» (di rifiuto)

1s 2s

37

Test di Ipotesi 6/

La probabilità β di «non rifiutare» H0 con H1 vera è rappresentata dall’area sottesa dalla curva rossa

e delimitata dal valore critico s2. Aumentare la potenza del test significa diminuire il più possibile

questa area ( e quindi β). Tuttavia questo (come si evince dalla figura) andrebbe ad aumentare il

valore di α ( e quindi l’area delle due code).

Se sostituissimo all’ipotesi H1 bilaterale delle ipotesi alternative unilaterali avremmo i seguenti

grafici per le ipotesi unilatera sinistra (µ< μ0 ) ed unilatera destra (µ> μ0 ) rispettivamente:

Dove il valore critico sc è determinato rispettivamente dalle relazioni:

)S(Prob 0veraHsc )S(Prob 0veraHsc

38

Test di Ipotesi 7/

Riassumendo, ecco le fasi da seguire per il test di ipotesi:

1) Determinare l’ipotesi nulla e l’ipotesi alternativa

2) Stabilire la statistica test (ad es. valor medio, varianza)

3) Determinare la distribuzione campionaria della statistica test (ad es. distribuzione

normale, t-di Student)

4) Fissare il livello di significatività (α), determinare le zone di accettazione di rifiuto.

5) Estrazione di un campione casuale

6) Determinazione del valore della statistica test e si confronta con il valore critico della

distribuzione campionaria

7) Si decidere di respingere H0 se il valore della statistica test cade nella zona di rifiuto

in questo caso si dice che il test è significativo al livello α, altrimenti si decide di

«non rifiutare» l’ipotesi nulla H0

Note:

• Il test ideale è quello in cui si rifiuta H0 quando H0 è falsa

• Se il valore della statistica test cade nella zona di rifiuto possiamo soltanto

concludere che i dati sperimentali non sono in contraddizione significativa con

l’ipotesi H0 : questo non significa affatto che essi siano in contraddizione con H1, ma

soltanto che essi non escludono in modo significativo che H0 sia vera, da cui da

dizione di «non rifiuto» per l’ipotesi nulla.

39

Test di Ipotesi 8/

Note:

• Questa asimmetria ha una rilevante implicazione: uno sperimentatore che desideri

“dimostrare” con dati sperimentali una certa ipotesi sulla distribuzione di una variabile,

adotterà l’ipotesi da dimostrare come ipotesi alternativa

40

Esempi : (z-)test bilaterale su una media di un campione normale con varianza nota 1/

Esempio

Si consideri un campione di numerosità n=25 estratto da una popolazione di legge

N(μ,100). Si vuole effettuare un test bilaterale sulla media a livello di significatività α=5%

rispetto ad un valore dato di μ0=20 . Il valore della media del campione vale:

5,2025 xRisoluzione

In questo caso le ipotesi sono : La statistica test è:

25

100,

25

25

1 N

X

XS i

i

Se l’ipotesi H0 è vera si ha che:

4 4,20

2

nNS

1,02

200 NX

n

SZ

Dalle tavole della distribuzione N(0,1) si ottiene che i due valori critici sono pari a -1,96 e

+1,96 :

96,1%5,97975,0

21

zzz

21

21

zzzz

21

21

zzz

Regione di rifiuto

Regione di accettazione

20 :

20 :

1

0

H

H

41

Esempi : (z-)test bilaterale su una media di un campione normale con varianza nota 2/

I valori critici vanno ora riportati

nell’ambito della variabile di test:

2

202

21

0 xz

n

xz

92,23296.1202

102

n

zx

2

201

21

xz

08,16296.1202

101

n

zx

Regione di rifiuto 21

xXxX

Regione di accettazione 21

xXx

Siccome per il nostro campione : 5,2025 x Ricade nella regione di accettazione:

L’ipotesi nulla H0 è «non rifiutata»

42

Esempi : (z-)test bilaterale su una media di un campione normale con varianza nota 3/

)1,0(N

43

Esempi : (z-)test bilaterale su una media di un campione normale con varianza nota 4/

In generale:

01

00

:

:

H

HIpotesi Statistica Test:

21 ,Nn

X

XS

n

i

i

Se H0 è vera : 1,00 N

n

XZ

Si individua :

2

z Allora :

Regione di rifiuto

Regione di accettazione

21

21

zzzz

21

21

zzz

Valori critici per la statistica di test: n

zx

21

01

nzx

2

102

Regione di rifiuto

Regione di accettazione

21xXxX

21xXx

Dal valore del valor medio del campione di

determina la zona di appartenenza ed il

rifiuto o non rifiuto dell’ipotesi nulla H0

44

Esempi : (z-)test unilaterale sinistro su una media di un campione normale con varianza nota 1/

Esempio

Si consideri un campione di numerosità n=25 estratto da una popolazione di legge

N(μ,100). Si vuole effettuare un test unilaterale sinistro sulla media a livello di

significatività α=5% rispetto ad un valore dato di μ0=20 . Il valore della media del

campione vale:

Risoluzione

In questo caso le ipotesi sono : La statistica test è:

25

100,

25

25

1 N

X

XS i

i

20 :

20 :

1

0

H

H

5,2025 x

Se l’ipotesi H0 è vera si ha che: 4,20NS 1,02

200 NX

n

SZ

45

Esempi : (z-)test unilaterale sinistro su una media di un campione normale con varianza nota 2/

65,1%505,0 zzz

zZ

zZ

Regione di rifiuto

Regione di accettazione

7,16265,120 n

zxxz c

cxX

cxX

Regione di rifiuto

Regione di accettazione

Siccome per il nostro campione :

5,2025 x

Ricade nella regione di

accettazione:

L’ipotesi nulla H0 è «non

rifiutata»

46

Esempi : (z-)test unilaterale sinistro su una media di un campione normale con varianza nota 3/

In generale:

01

00

:

:

H

HIpotesi Statistica Test:

21 ,Nn

X

XS

n

i

i

Se H0 è vera : 1,00 N

n

XZ

Se H0 è vera : Si individua :

zAllora :

Regione di rifiuto

Regione di accettazione

zz

zz

Valore critico per la statistica di test: n

zxc

0

Regione di rifiuto

Regione di accettazione

cxX

cxX

Dal valore del valor medio del campione di

determina la zona di appartenenza ed il

rifiuto o non rifiuto dell’ipotesi nulla H0

47

Esempi : (z-)test unilaterale destro su una media di un campione normale con varianza nota 1/

Esempio

Si consideri un campione di numerosità n=25 estratto da una popolazione di legge

N(μ,100). Si vuole effettuare un test unilaterale destro sulla media a livello di

significatività α=5% rispetto ad un valore dato di μ0=20 . Il valore della media del

campione vale:

Risoluzione

In questo caso le ipotesi sono : La statistica test è:

25

100,

25

25

1 N

X

XS i

i

20 :

20 :

1

0

H

H

5,2025 x

Se l’ipotesi H0 è vera si ha che: 4,20NS 1,02

200 NX

n

SZ

48

Esempi : (z-)test unilaterale destro su una media di un campione normale con varianza nota 2/

65,1%9595,01 zzz

1zZ

1zZ

Regione di rifiuto

Regione di accettazione

3,23265,12011 n

zxxz c

cxX

cxX

Regione di rifiuto

Regione di accettazione

Siccome per il nostro campione :

5,2025 x

Ricade nella regione di

accettazione:

L’ipotesi nulla H0 è «non

rifiutata»

49

Esempi : (z-)test unilaterale destro su una media di un campione normale con varianza nota 3/

49

In generale:

01

00

:

:

H

HIpotesi Statistica Test: 21 ,N

n

N

X

XS

n

i

i

Se H0 è vera : Se H0 è vera : 1,00 N

n

XZ

Si individua :

zAllora :

Regione di rifiuto

Regione di accettazione

1zZ

1zZ

Valore critico per la statistica di test: n

zxc

10

Regione di rifiuto

Regione di accettazione

cxX

cxX

Dal valore del valor medio del campione di

determina la zona di appartenenza ed il

rifiuto o non rifiuto dell’ipotesi nulla H0

50

Esempi : (t-)test su una media di un campione normale con varianza NON nota 1/

Se la varianza non é nota, al contrario degli esempi precedenti, si deve cambiare la

statistica di test, evidentemente. Basterà allora usare una statistica test identica alla

precedente salvo il fatto di mettere al posto di σ (che ora non è nota) la deviazione

standard campionaria corretta (ricordiamo che in entrambi i casi diamo per scontata la

distribuzione normale dei dati rilevati) : otteniamo allora la seguente statistica di test per

la variabile T che andrà a sostituire la Z precedente:

10

nT

n

S

XT

la variabile T si distribuisce secondo una distribuzione t-di Student a N-1 gradi di

libertà, con N, ovviamente, dimensione del campione.

Le regole di inferenza degli esempi precedenti rimarranno invariate salvo che ai valori z

andranno sostituiti i valori della variabile t-di Student e andranno letti nella tabella

relativa. Per cui:

1,2

12

1

ntz

1, ntz

1

1

2

2

n

XX

S

n

i

icon

1,11 ntz

51

Esempi : (t-)test su una media di un campione normale con varianza NON nota 2/

Esempio

49,224%,9924,1 tt Dalle Tabelle: Valore critico

79,35/79

210270

/

ns

xtcampione

Poiché tcampione cade nella regione critica si decide di Rifiutare l’ipotesi nulla H0

24,149,279,3 ttcampione

52

Esempi : (t-)test su una media di un campione normale con varianza NON nota 3/

Esempio

49,224%,9924,1 tt Dalle Tabelle: Valore critico

79,35/79

210270

/

ns

xtcampione

Poiché tcampione cade nella regione critica si decide di Rifiutare l’ipotesi nulla H0

24,149,279,3 ttcampione

53

Variabilità Intervalli1/

Varianza Nota (lunghezze uguali, ma posizione e punto medio variabili)

campione#

Varianza NON Nota (lunghezze non uguali, posizione e punto medio variabili)

campione#

54

Note per Grandi Campioni 1/

Ricordiamo il teorema del Limite Centrale:

Teo. (del Limite Centrale)

Siano Xi i=1,..,n n variabili aleatorie indipendenti, identicamente distribuite (i.i.d.)

(medesima funzione di densità, di qualsiasi tipo) tali che:

i XE i )( i X i )(

Sia:

n

nX

Y

n

i

i

n

1 Allora: )1,0(lim NYYnn

Questo risultato afferma sostanzialmente che la somma di n variabili aleatorie i.i.d.

segue approssimativamente una distribuzione normale. In molti casi questa

approssimazione è sufficientemente buona anche per n molto piccolo, come n<10,

mentre in altri casi di richiede n molto grande ( n>100, per alcuni basta n>30).

Le precedenti considerazioni che riguardano le regole di inferenza per campioni estratti

da popolazioni di cui si assume la distribuzione normale, potranno quindi ,in generale,

essere ritenute valide per grandi campioni (n>100) per popolazioni di dati comunque

distribuiti, ed in alcuni specifici casi anche per piccoli campioni (purché venga validata

opportunamente l’ipotesi di normalità, vedi test di normalità).

55

Note per Grandi Campioni 2/

In Particolare:

Test per H0 : µ=µ0 con varianza nota

Test in pop. normale con varianza nota

2,NX 1,00 N

n

XZ

Test in pop. non normale con varianza nota e grandi campioni

),?( 2X 100n 1,00 N

n

XZ

Come

conseguenza del

T.L.C.

56

Note per Grandi Campioni 3/

In Particolare:

Test per H0 : µ=µ0 con varianza NON nota

Test in pop. normale con varianza NON nota

?,NX 1

0

nT

n

S

XT

Test per per H0 : µ=µ0 di pop. non normale con varianza NON nota e grandi campioni

100n?),?(X )1,0(10 NT

n

S

XZ n

Come

conseguenza del

T.L.C.

57

Note per Piccoli Campioni

Nel caso di piccoli campioni con distribuzione normale (n<30) e varianza incognita , si

assumerà come distribuzione della statistica di test quella della t-di Student.

10

nT

n

S

XT

58

Riassunto: Test Media, Varianza Nota, Hp di normalità

Ipotesi Statistica Test Criteri per il Rifiuto

01

00

:

:

H

H

01

00

:

:

H

H

01

00

:

:

H

Hzz

1zz

21

zz

1,00 N

n

XZ

59

Riassunto: Test Media, Varianza NON Nota, Hp di normalità

Ipotesi Statistica Test Criteri per il Rifiuto

01

00

:

:

H

H

01

00

:

:

H

H

01

00

:

:

H

Htt

1tt

1,2

1

ntt

10

nT

n

S

XT

)1,0(1 NTn

n

Grandi Campioni

60

Il P-value 1/

Def. Il p-value è più piccolo il livello di significatività (probabilità) che condurrebbe al

rifiuto dell’ipotesi nulla H0.

Il p-value può essere valutato quindi come la probabilità che la statistica test assuma

valori più estremi di quelli osservati. Un basso p-value significa che è molto bassa la

probabilità di ottenere dati più estremi di quelli osservati e quindi alta la probabilità di

rifiuto dell’ipotesi nulla H0 e di accettazione dell’ipotesi alternativa H1.

61

Il P-value 2/

Il p-value consente di avere più informazione rispetto alla decisione di rifiuto dell’ipotesi

nulla rispetto alla semplice decisione di rifiuto. La decisione dell’esempio “(t-)test su una

media di un campione normale con varianza NON nota” di rifiuto dell’ipotesi nulla

potrebbe risultare inadeguata poiché non da alcuna idea, a chi deve prendere le

decisioni, se il valore calcolato del test statistico rientra appena nella regione di rifiuto, o

se invece è molto all’interno di essa. Inoltre questo modo di riportare i risultati impone

livelli di significatività predefiniti (nel nostro caso α=1%, in generale α=5%) che

potrebbero non essere condivisi da tutti gli interessati al test.

La difficoltà nel calcolo del p-value consiste “nell’inversione” della statistica di test

dovendo risalire dal valore ottenuto dal campionamento alla corrispondente probabilità. I

fogli di calcolo hanno funzioni che permettono questi conti, con minore precisione ci si

può accontentare della lettura delle tabelle.

Nell’esempio citato: 79,3campionet )79,3(Prob campionettvaluep

Dalla tabella della t-di Studenti con 24 df possiamo desumere p-value <0,0005=0,05%

Un calcolo più preciso (foglio di calcolo) condurrebbe al seguente valore:

%04471,00004471,0 valuep

62

Il P-value 3/

Sulla base del p-value si decide la significatività del test. In generale:

p-value

%10%5 valuep

%5%1 valuep

%1%1,0 valuep

%1,0valuep

Debole evidenza sperimentale contro H0, a favore di H1

Decisione

Test Abbastanza Significativo contro H0, a favore di H1

Test Significativo contro H0, a favore di H1

Test Molto Significativo contro H0, a favore di H1

63

Il P-value 4/

Esempio:

Si consideri il precedente esempio: “(z-)test bilaterale su una media di un campione

normale con varianza nota”. Abbiamo:

5,2025 x 25,02

205,200

campionez

n

XZ

Dalla tabella della normale standardizzata

possiamo desumere :

p-value 2*(1-0,598706) ~0,8026=80,26%

Il foglio di calcolo conduce ad analoghi

risultati:

%26,808026,0 valuep

Tale p-value conduce ad una debolissima evidenza sperimentale contro H0 e quindi a

favore di H1, da qui una decisione plausibile e condivisibile di “non rifiuto” dell’ipotesi

nulla H0.

Nota: la zcampione vale meno di 1σ.

64

Confronto tra due medie, varianze uguali e note1/

211

210

:

:

H

H

Occupiamoci ora, supponendo di avere a disposizione due campioni di dati provenienti

da due diverse distribuzioni con numerosità n1 ed n2 rispettivamente , con identiche

varianze, su cui facciamo le seguenti ipotesi:

22

2

2

1

Distribuzione Normali e Indipendenti con varianza uguale e nota:

21

21

11

nn

YYZ

Si dimostra che ; )1,0(NZ

2

2

2

1

Test Statistico:

65

Confronto tra due medie, varianze uguali ma non note 1/

211

210

:

:

H

H

Distribuzione Normali e Indipendenti con varianza uguale ma NON nota:

21

21

11

nnS

YYT

p

Si dimostra che ; 221 nnTT

2

2

2

1

Test Statistico:

Con (Sp)2 stima della varianza comune: 2

)1()1(

21

2

22

2

112

nn

SnSnS p

Con (S1)2 ed (S2)

2 stima delle due singole varianze campionarie.

66

Esempio :Confronto tra due medie, varianze uguali ma non note 1/

j y_1j y_2j

1 16,85 17,50

2 16,40 17,63

3 17,21 18,25

4 16,35 18,00

5 16,52 17,86

6 17,04 17,75

7 16,96 18,22

8 17,15 17,90

9 16,59 17,96

10 16,57 18,15

Consideriamo le seguenti campioni di dati riguardanti una proprietà meccanica (resistenza) di un

certo materiale (calcestruzzo) ottenuto con procedure diverse per i due campioni :

211

210

:

:

H

HVogliamo effettuare un test come indicato nel

titolo, potendo considerare le varianze uguali ma

non note:

Calcoliamo dalla tabella precedente i dati

necessari per il test statistico:

76,161 y 92,172 y

100,02

1 s 061,02

2 s

316,01 s 247,02 s

101 n 102 n

67

Esempio :Confronto tra due medie, varianze uguali ma non note 2/

081.0

18

061,09100,09

2

)1()1(

21

2

22

2

112

nn

SnSnsp

284,0ps

Stimiamo la varianza comune:

Calcoliamo il test statistico: 13,9

10

1

10

1284,0

92,1776,16

11

21

210

nns

yyt

p

Ipotizzando, come al solito , un livello di significatività α=5%, ed essendo il test bilaterale:

101,218,

218,

21

tt essendo 101,213.918,

2

0 tt

t0 appartiene alla regione di rifiuto e quindi l’ipotesi nulla H0 va rifiutata.

Intervallo di confidenza (95%): 101,2101,218,

21

018,

2

ttt

10

1

10

1

10

1

10

1

18,2

12121

18,2

21

pp styystyy 89,043,1 21

68

Esempio :Confronto tra due medie, varianze uguali ma non note: Intervallo di confidenza 3/

Intervallo di confidenza (95%): 101,2101,2

18,2

10

18,2

ttt

10

1

10

1

10

1

10

1

18,2

12121

18,2

21

pp styystyy

89,043,1 21

Per calcolare l’intervallo di confidenza al 95% si deve considerare la variabile statistica:

21

2121

11

)(

nnS

YYT

p

Che è distribuita secondo una t-di Student con n1+n2-2 gradi di libertà

69

Confronto tra due medie, varianze NON uguali ma note

211

210

:

:

H

H

Distribuzione Normali e Indipendenti con varianza NON nota:

2

2

2

1

2

1

21

nn

YYZ

Si dimostra che ; )1,0(NZ

2

2

2

1

Test Statistico:

70

Confronto tra due medie, varianze NON uguali ma NON note

211

210

:

:

H

H

Distribuzione Normali e Indipendenti con varianza NON nota:

2

2

2

1

2

1

21

n

S

n

S

YYT

Si dimostra che ;

2

2

2

1

Test Statistico:

Con (S1)2 ed (S2)

2 stima delle due singole varianze campionarie.

221 nnTT

Tutte le regole di inferenza restano invariate

71

Medesime regole di Inferenza 1/2

Tutte le regole di inferenza restano invariate: Per variabili distribuite

normalmente:

Ipotesi Statistica Test Criteri per il Rifiuto

211

210

:

:

H

H

zz

1zz

21

zz

1,0NZ

211

210

:

:

H

H

211

210

:

:

H

H

72

Medesime regole di Inferenza 2/2

Tutte le regole di inferenza restano invariate: Per variabili distribuite

secondo la t-di Student:

Ipotesi Statistica Test Criteri per il Rifiuto

tt

1tt

1,2

1

ntt

221 nnTT

211

210

:

:

H

H

211

210

:

:

H

H

211

210

:

:

H

H

73

Esempi Confronto tra due medie

74

Test sulla varianza 1/

In molti esperimenti siamo interessati a possibili differenze nella risposta media di due

trattamenti, talvolta invece il confronto tra le variabilità dei dati assume maggiore

importanza. Esaminiamo ora brevemente le verifiche di ipotesi e gli intervalli di

confidenza per le varianze di distribuzioni normali.

2

0

2

1

2

0

2

0

:

:

H

H

Statistica Test: 2

0

2

2

0

2

0

)1(

SnSS con:

2)( i

i YYSS

Si dimostra: 2

1

2

0 n

La distribuzione chi-2 non è simmetrica per cui i criteri per la determinazione

dell’intervallo di confidenza sono così modificati :

75

Test sulla varianza 2/

La distribuzione chi-2 non è simmetrica per cui i criteri per la determinazione

dell’intervallo di confidenza sono così modificati :

222

1,2

11,2

nn

Regione di accettazione

2222

1,2

11,2

nn

Regione di rifiuto

Volendo estendere alle ipotesi unilaterali si procederà come segue:

76

Riassunto: Test Varianza

Ipotesi Statistica Test Criteri per il Rifiuto

2

12

0

22

0

)1(

n

Sn

2

0

2

1

2

0

2

0

:

:

H

H

2

0

2

1

2

0

2

0

:

:

H

H

2

0

2

1

2

0

2

0

:

:

H

H

2222

1,2

11,2

nn

22

1,2

n

22

1,2

1

n

77

Esempi Test sulla Varianza

78

Confronto Varianze 1/

Supponendo sempre di avere a disposizione due campioni di dati provenienti da due

diverse distribuzioni con numerosità n1 ed n2 rispettivamente , occupiamoci del seguente

test riguardante sole le varianze:

2

2

2

11

2

2

2

10

:

:

H

H

Statistica Test: 2

2

2

10

S

SF

1,10 12 nnFFSi dimostra: Snedecor-Fisher di . 1,1 12distrFcon nn

Con (S1)2 ed (S2)

2 stima delle due

singole varianze campionarie.

Fissato il livello α di significatività abbiamo:

1,1,

1,1,1

12

12

1

nn

nnF

F

79

Confronto Varianze:Riassunto 2/

Ipotesi Statistica Test Criteri per il Rifiuto

1,12

2

2

10 12 nnF

S

SF

1,1,2

10

1,1,2

01212

nnnn

FFFF

2

2

2

11

2

2

2

10

:

:

H

H

2

2

2

11

2

2

2

10

:

:

H

H

2

2

2

11

2

2

2

10

:

:

H

H

1,1,2

012

nn

FF

1,1,2

10

12

nnFF

80

Esempi Confronto delle Varianze

81

Proprietà Distribuzioni 1/

Discreta onedistribuzi Y 1)(0 jyp )()( jj ypyYP 1)( j

jyp

Continua onedistribuzi Y0)( yf

b

aj dyyfbYaP )()( 1)(

dyyf

Media

j

jj ypy

dyyfy

YE

)(

)(

)(Discreta Y

Continua Y

Varianza

j

jj ypYEy

dyyfYEy

YV

)()(

)()(

)(2

2

2

Continua Y

Discreta Y

82

Proprietà Distribuzioni 1/

Discreta onedistribuzi Y 1)(0 jyp )()( jj ypyYP 1)( j

jyp

Continua onedistribuzi Y0)( yf

b

aj dyyfbYaP )()( 1)(

dyyf

Media

j

jj ypy

dyyfy

YE

)(

)(

)(Discreta Y

Continua Y

Varianza

j

jj ypYEy

dyyfYEy

YV

)()(

)()(

)(2

2

2

Continua Y

Discreta Y

83

Proprietà E(Y) e V(Y) 1/

ccE )(

)(YE

cYcEcYE )()(

0)( cV2)( YV

222 )()( cYVccYV

Con due variabili casuali Y1 e Y2 tali che: 11)( YE 22 )( YE

2

11)( YV 2

22 )( YV

212121 )()()( YEYEYYE

),(2)()()( 212121 YYCovYVYVYYV

Se Y1 e Y2 sono indipendenti: 0),( 21 YYCov

),(2)()()( 212121 YYCovYVYVYYV

84

Proprietà E(Y) e V(Y) 2/

2

2

2

12121 )()()( YVYVYYV

Se Y1 e Y2 sono indipendenti:

212121 )()()( YEYEYYE

85

Riassunto: Test Media, Varianza Nota, Hp di normalità

Ipotesi Statistica Test Criteri per il Rifiuto

01

00

:

:

H

H

01

00

:

:

H

H

01

00

:

:

H

Hzz

1zz

21

zz

1,0NZ

86

Riassunto: Test Media, Varianza NON Nota, Hp di normalità

Ipotesi Statistica Test Criteri per il Rifiuto

01

00

:

:

H

H

01

00

:

:

H

H

01

00

:

:

H

Htt

1tt

1,2

1

ntt

1 nTT

)1,0(1 NTn

n

Grandi Campioni

top related