Statistica parametrica e non parametrica - old · 28/05/2012 1 Statistica parametrica e non parametrica Per un campione univariato 2 Gli intervalli di confidenza MEDIA VERA MEDIA

28/05/2012

1

Statistica parametrica

e non parametrica

Per un campione univariato

2

Gli intervalli di confidenza

MEDIA VERA

MEDIA CAMPIONARIA

28/05/2012

2

3


4Una introduzione alla

Biostatistica


28/05/2012

3


Nel 95% dei casi, l’intervallo di confidenza conterrà la media della

popolazione.

Come si calcolano gli estremi?

Partner Hours

Dunn 22

Hardy 26

Kiers 30

Malory 26

Tillman 22

Uno studio di avvocati

ha 5 associati.

All’incontro settima-

nale che svolgono,

ciascuno riporta il

numero di ore di lavoro

fatturato. Nell’ultima

settimana si è avuto:

Se 2 associati vengono

selezionati a caso, quanti

possibili campioni si

possono ottenere?

ESEMPIO

28/05/2012

4

10 differenti campioni

Partners Totale Media

1,2 48 24

1,3 52 26

1,4 48 24

1,5 44 22

2,3 56 28

2,4 52 26

2,5 48 24

3,4 56 28

3,5 52 26

4,5 48 24

E’ possibile definire una variabile aleatoria media campionaria, a

partire dal campione casuale.

Media

campionaria

Frequenza Frequenza

relative = prob

22 1 1/10

24 4 4/10

26 3 3/10

28 2 2/10

La distribuzione di probabilità di questa variabile “media campionaria”

risulta essere:

22(1) 24(4) 26(3) 28(2)25.2

10X

µ+ + +

= =

Media delle medie campionarie

28/05/2012

5

Questo risultato

empirico può essere

mostrato per via

teorica

Media della popolazione

2.255

2226302622=

++++=µ

Quindi la media

della media

campionaria è

proprio uguale alla

media della

popolazione.

La media della popolazione

risulta essere:Partner Hours

Dunn 22

Hardy 26

Kiers 30

Malory 26

Tillman 22

Effettuiamo il calcolo della varianza della media campionaria

Media campionaria

Frequenza Frequenza relative = prob

22 1 1/10

24 4 4/10

26 3 3/10

28 2 2/10

( ) ( ) ( ) ( )2 2 2 22 1 1 1 1

22 25.2 24 25.2 4 26 25.2 3 28 25.2 2 3.3610 10 10 10

Xs = − + − × + − × + − × =

28/05/2012

6

Mentre per la varianza della popolazione, si ha

( ) ( ) ( )2 2 22 2 2 1

22 25.2 26 25.2 30 25.2 6.085 5 5

Xs = − + − + − =

Partner Hours

Dunn 22

Hardy 26

Kiers 30

Malory 26

Tillman 22

22Osserviamo che risulta = , con X

s n=2n

σ

Anche questo risultato si

può mostrare per via

teorica…

La deviazione standard della media campionaria prende il nome di

errore standard o precisione

2

Abbiamo visto che [ ] [ ]E X e Var Xn

σµ= =

2

Se la popolazione da cui proviene il campione casuale ha legge

gaussiana ,X Nn

σµ

⇒ ≈

2

Se la popolazione da cui proviene il campione casuale non ha legge

gaussiana ,X N per n>30n

σµ

⇒ ≈

28/05/2012

7

GLI INTERVALLI DI CONFIDENZA

X ⇒/

X

n

µ

σ

−⇒ ( )0,1Z N≈ ⇒

( )/2 /2 1P z Z zα α α− ≤ ≤ = −

/2 /2 1/

XP z z

nα α

µα

σ

−− ≤ ≤ = −

/2 /2 1P X z X zn n

α α

σ σµ α

− ≤ ≤ + = −

ESERCIZIO: I dati seguenti rappresentano le misure del

diametro di 40 specie di ammoniti (file esempio4.txt).

1) Generare un rapporto di statistica descrittiva e

commentarlo.

2) Formulare una ipotesi sulla distribuzione della

popolazione.

3) Costruire un intervallo di confidenza per la media

della popolazione.

28/05/2012

8

0.05 (3.34 3.53) 0.95Per Pα µ= ⇒ < < =

media 3,44

st.dev. 0,308

quantile 1,959964

inf 3,344552

sup 3,535448

taglia 40

media 3,44

st.dev. 0,308

quantile 1,644854

inf 3,359897

sup 3,520197

taglia 40

0.10 (3.35 3.52) 0.90Per Pα µ= ⇒ < < =

Quali conclusioni si traggono?

Nell’esempio precedente abbiamo usato la varianza

campionaria!! E’ legittimo?

NO

Per usare l’informazione che la media campionaria ha legge

gaussiana, c’è bisogno di conoscere la varianza della popo-

lazione

Quando non si ha a disposizione questa informazione, e si

usa la varianza campionaria, la distribuzione di probabilità

della media campionaria non è più gaussiana.

VARIABILE ALEATORIA T-STUDENT

28/05/2012

9

(0,1)/

XN

n

µ

σ

−⇒ 1

/n

XT

S n

µ−

−⇒

[ ] 0E X se n>1, altrimenti è indefinita=

NB: fondamentale è l’ipotesi che la popolazione sia gaussiana.

[ ] 0E X se n>1, altrimenti è indefinita=

[ ]2

nVar X se n>2 (altrimenti indefinita)

n=

−

Al crescere di n converge

a una gaussiana standard.

28/05/2012

10

/ 2, 1ntα −/ 2, 1n

tα −−

/ 2, 1 / 2, 1 1n n

S SP X t X t

n nα αµ α− −

− ≤ ≤ + = −

INTERVALLI DI CONFIDENZA

PER LA MEDIA,

VARIANZA INCOGNITA

ESERCIZIO: Nell’esempio pre-

cedente calcolare l’intervallo

di confidenza per la media con

la varianza incognita.

In Statview c’è una procedura per il calcolo dell’IC

quando la varianza è incognita

28/05/2012

11

Un caso a parte…

1 2, , ,n

Popolazione di Bernoulli X X X…

( )2

1 2 1 2, , , ,n n

X X X i.i.d. X X X N µ σ⇒ + + +… ⋯ ∼

/2 /2 1P X z X zn n

α α

σ σµ α

− ≤ ≤ + = −

INTERPRETAZIONE

%successi (1 )p p−

28/05/2012

12

ESEMPIO:

Su 1000 rocce esaminate, 480 hanno tracce di un certo materiale.

Determinare l’intervallo di confidenza per la percentuale di rocce

che contengono quel materiale.

p 0,48

quan.inf. 1,959964

quan.sup. -1,95996

semi 0,015799

(0.465,0.495)

50% non è incluso!

INTERVALLO DI CONFIDENZA PER LA VARIANZA

Serve per verificare se la varianza di una certa popolazione ha un

valore prestabilito.

2

2

( 1)n S

σ

− 2

1nχ −≈

DISTRIBUZIONE CHI-QUADRATO

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5PDF distribuzione chi-quadrato

df=2

df=4

df=8

df=16

PUNTO DI PARTENZA

28/05/2012

13

[ ] , [ ] 2E X df Var X df= = ×

{ }1

2 2 2

1 2

n

i i

n

Se X sono variabili aleatorie gaussiane i.i.d., allora

W=X X X è una variabile aleatoria chi-quadrato con

n gradi di libertà

=

+ + +⋯

Teor :

2

2

( 1)n S

σ

−( )

2

21

1 n

i

i

X Xσ =

= −∑( )

2

21

ni

i

X X

σ=

−≈∑

La definizione dei quantili è più articolata, essendo la distri-

buzione asimmetrica

2

/ 2αχ2

1 / 2αχ −

( )2 2 2

1 / 2 / 2 1P α αχ χ χ α− < < = −

28/05/2012

14

( )2 2 2

1 / 2 / 2 1P α αχ χ χ α− < < = −

22 2

1 / 2 / 22( 1) 1

SP nα αχ χ α

σ−

< − < = −

2 2

1 / 2 / 2

2 2 2

11

( 1) ( 1)P

n S n S

α αχ χα

σ−

< < = −

− − 2 2

2

2 2

/ 2 1 / 2

( 1) ( 1)1

n S n SP

α α

σ αχ χ −

− −< < = −

ESERCIZIO: Nell’esempio precedente calcolare l’intervallo

di confidenza per la varianza.

28/05/2012

15

Proviamo ad usare Excel.

var 0,095

df 39

quantile 23,65432

quantile 58,12006

inf 0,063747

sup 0,156631

TEST DI IPOTESI

Supponiamo di voler verificare che un assegnato campione casuale

ha media 50.

Supponiamo che calcolata la media campionaria, questa risulti es-

sere 50.7.

In base a questa affermazione possiamo affermare che “la media della

popolazione è 50”?

REGIONE DI

ACCETTAZIONE

REGIONE

CRITICA

REGIONE

CRITICA

??

28/05/2012

16

X

REGIONE

CRITICA

REGIONE DI

ACCETTAZIONEREGIONE

CRITICA

Qual

è la

scelta

più

naturale

per gli

estremi

della

regione

di

accettazione?

Si rigetta l’ipotesi nulla se …

x

28/05/2012

17

Non si rigetta l’ipotesi nulla se …

x

0 / 2 0 / 2 1P z X zn n

α α

σ σµ µ α

− ≤ ≤ + = −

0 50µ =

28/05/2012

18

Nel formulare un test di ipotesi

0 0

1 0

:

:

H

H

µ µ

µ µ

=

≠

IPOTESI NULLA

IPOTESI ALTERNATIVA

TAVOLA DEGLI ERRORI

0 0

0

0

H vera H falsa

si rigetta H errore I tipo decisione corretta

non si rigetta H decisione corretta errore II tipo

Errore

di I tipo?

0 / 2 0 /2 1P z X zn n

α α

σ σµ µ α

− ≤ ≤ + = −

0µ

28/05/2012

19

Errore

di II tipo?

Supponiamo che

l’ipotesi alternativa

sia che la media è

pari a 51.

Per calcolare la probabilità di commettere l’errore di II tipo,

c’è bisogno di conoscere l’ipotesi alternativa…

Si fissa allora la probabilità di commettere l’errore di I tipo e si

determina la regione di accettazione.

ESEMPIO: Dieci campioni di roccia sono stati analizzati per il contenuto

in materia organica.

(a) Determinare l’intervallo di confidenza al 95% .

(b) Effettuare un test per verificare se è ragionevole ipotizzare un con-

tenuto medio della roccia pari al 18.0%.

28/05/2012

20

1) Effettuare un norm-plot per supporre che la popolazione sia ragio-

nevolmente gaussiana.

-2

-1,5

-1

-0,5

0

0,5

1

1,5

2

0 5 10 15 20 25 30 35

dati

dati

2) Non essendo nota la varianza, l’intervallo di confidenza va calcolato

usando la variabile aleatoria T-student. Usiamo la function di Statview.

6.53 6.5320.5 2.2621 20.5 2.2621 0.95

10 10P µ

− × ≤ ≤ + × =

3) Per il test

1818 X

6.53 6.5320.5 2.2621 20.5 2.2621 0.95

10 10P µ

− × ≤ ≤ + × =

28/05/2012

21

0

1

: 18

: 18

H

H

µ

µ

=

≠

/ 2, 1 / 2, 118 ,18n n

REGIONE DI ACCETTAZIONE

S St t

n nα α− −− +

?x ∈SI

NO0H si rigetta

0H non si rigetta

LEGAME TRA INTERVALLO DI CONFIDENZA E REGIONE DI

ACCETTAZIONE

/ 2, 1 / 2, 118 ,18n n

REGIONE DI ACCETTAZIONE

S St t

n nα α− −− +

?x ∈

/ 2, 1 / 2, 1,n n

INTERVALLO DI CONFIDENZA

S SX t X t

n nα α− −− +?µ ∈

28/05/2012

22

(13.32,22.67)REGIONE DI ACCETTAZIONE=

20.5∈0H non si rigetta

Per leggere l’esito del test con STATVIEW, è necessario introdurre il

concetto di p-value.

'E l'area a destra

del valore della

statistica x

0

0.025 Se p

H non si rigetta

>

⇒

0

0.025Se p

H si rigetta

<

⇒

x

Il p-value è l’area

a destra della statistica

test

28/05/2012

23

18

/

x

S n

−

0

0.025Essendo p

H non si rigetta

>

⇒

DECISIONE DEBOLE: non siamo in grado di valutare la proba-

bilità di commettere l’errore di II tipo.

DECISIONE FORTE: quando si rigetta l’ipotesi nulla, sappiamo

di commettere un errore di I tipo con probabilità 5%.

Si può calcolare l’errore di II tipo, al variare dell’ipotesi alternativa.

( )P X Regione di accettazione ∈

28/05/2012

24

14 15 16 17 18 19 20 21 220.97

0.975

0.98

0.985

0.99

0.995

1

1.005Power curve

Si definisce CURVA POTENZA associata al test, il complementare ad

uno della probabilità di commettere un errore di II tipo = probabilità

di rigettare l’ipotesi nulla quando è falsa.

TEST DI IPOTESI SULLA VARIANZA

Serve per verificare se la varianza di una certa popolazione ha un

valore prestabilito.

0 0

1 0

:

:

H

H

σ σ

σ σ

=

≠

Statistica Test

2

2

( 1)n S

σ

− 2

1nχ −≈

DISTRIBUZIONE CHI-QUADRATO

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5PDF distribuzione chi-quadrato

df=2

df=4

df=8

df=16

28/05/2012

25

Attenzione : il valore della statistica test è molto alto! Bisogna scegliere opportunamente

l’ipotesi alternativa

IPOTESI nulla

36

IPOTESI NULLA

40

IPOTESI nulla

46

TEST PER LA BONTA’ DI ADATTAMENTO

2.8 3 3.2 3.4 3.6 3.8 4 4.20

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

F(x

)

Empirical CDF

Il seguente grafico

riporta la funzione di

ripartizione empirica

del campione

AMMONITI

e la funzione di ripartizione

teorica di una popolazione

gaussiana con media, la

media campionaria e con

varianza, la varianza

campionaria.

Possiamo ritenere le due curve sufficientemente “vicine”,

in modo da ritenere valido il modello stocastico gaussiano

per la popolazione da cui il campione casuale è estratto?

28/05/2012

26

TEST DI KOLMOGOROV-SMIRNOV

ˆmax ( ) ( )i ii

D F x F x⇒ = −STATISTICA TEST

Per l’esecuzione del test in EXCEL è necessario effettuare i seguenti passi:

a) Ordinare i dati in ordine crescente

b) Costruire la funzione di ripartizione empirica

28/05/2012

27

c) Costruire la funzione di ripartizione teorica

d) Calcolare la differenza in valore assoluto tra le due funzioni:

e) Calcolare il massimo della differenza in valore assoluto tra le due funzioni:

28/05/2012

28

f) Confrontare il valore così ottenuto con il quantile associato alla distribuzione

della variabile aleatoria D.,ndα

Le tavole dei quantili sono disponibili all’indirizzo

http://www.unibas.it/utenti/dinardo/tavola.html

f) Come si legge la tavola: sulla riga corrispondente alla taglia n=40, si sceglie il valore di

riferimento nella colonna relativa a 1 - α

….

,072005da confrontare 0

Quindi possiamo

ritenere valido

il modello stoca-

stico gaussiano

per la popolazio-

ne da cui il cam-

pione casuale è

estratto…

28/05/2012

29

IN STATVIEW

STATISTICA NON PARAMETRICA

• Nel caso di campioni appartenenti a distribuzioni non norma-

li è possibile applicare una serie di test equivalenti a quelli de-

scritti nel capitolo precedente, detti test non parametrici.

• I test non parametrici non hanno la stessa efficacia dei test

parametrici.

• Quando applicati a campioni gaussiani, risultano più potenti.

• L’ampiezza del campione casuale può essere anche molto

piccola.

• Particolarmente utili nel caso i dati del campione siano sot-

to forma di ranghi (=posto che il dato occupa nel campione

casuale ordinato).

28/05/2012

30

TEST SUI SEGNI tra i tests non parametrici più diffusi

0 0

1 0

:

:

H M M

H M M

=

≠

E’ un test effettuato sulla mediana della popolazione anzicché sulla

media (che è un Indice di posizione meno robusto).

IDEA:

(1) (2) ( ) ( ), , , , ,M n

x x x x… …

50% 50%

Se indichiamo con

0R num. dati del campione casuale M= ≤

0 5 10 15 20 25 30 35 40 45 500

0.02

0.04

0.06

0.08

0.1

0.12p=1/2 ( ,0.5)R B n∼

Num. di dati che cadono

a sinistra di deve es-

sere all’incirca la metà

della taglia del campione.

0M

Se il numero di dati che

cadono a sinistra di è

troppo elevato (o troppo

basso) , la pdf corrisponden-

te assumerà valori bassi.

0M

Se questi valori sono troppo bassi….

si rigetta l’ipotesi nulla

28/05/2012

31

ESEMPIO:

IL PRIMO RISULTATO E’:

correzione

IL CAMPIONE CASUALE HA

MEDIANA PARI A 10.

28/05/2012

32

ESERCIZIO: I seguenti dati si riferiscono ad intensita’ di terremoti registrati in un dato sito.

Effettuare una anlisi dei dati completa (terremotI)

Statistica parametrica e non parametrica - old · 28/05/2012 1 Statistica parametrica e non parametrica Per un campione univariato 2 Gli intervalli di confidenza MEDIA VERA MEDIA

Documents