2. Statistica induttiva - Università di Romadesantis/NOTE/Statistica induttiva.pdf · 27 2. Statistica induttiva Abbiamo visto come per mezzo della statistica descrittiva sia possibile

27

2. Statistica induttiva Abbiamo visto come per mezzo della statistica descrittiva sia possibile ottenere una descrizione sintetica di dati sperimentali riguardanti un determinato processo; questa è finalizzata alla rappresentazione dell’informazione utile agli scopi fissati per la definizione di opportune strategie di intervento. Tuttavia, riprendendo l’esempio trattato, abbiamo visto come i parametri descrittivi venivano dedotti dalla distribuzione campionaria o empirica, ovvero il loro valore era legato strettamente ai valori dei dati ottenuti nel particolare esperimento eseguito; ripetendo l’esperimento, cioè prelevando un altro campione di 100N supporti di ferro, determinando sul nuovo campione di dati la distribuzione campionaria i , non necessariamente rispetto agli stessi

sottoinsiemi iE , ricalcolando i parametri statistici 2, , ,d c , otterremmo dei valori diversi da

quelli relativi al primo insieme di dati! Questa variabilità dipende in primo luogo dalla numerosità del campione analizzato e poi dalla sua significatività, ovvero da quanto debba ritenersi rappresentativo di tutta la produzione. E’ facile comprendere come un campione molto numeroso consenta di definire un istogramma più preciso della distribuzione effettiva e quindi un calcolo più attendibile delle varie medie; tuttavia se la nostra fabbrica di supporti in ferro si servisse da due diversi fornitori di materie prime, ed il nostro campione di dati, ancorché numeroso, avesse riguardato le unità prodotte con materie prime prese solo da uno dei due fornitori, avremmo ottenuto una parziale descrizione delle caratteristiche del processo di produzione, non considerando le caratteristiche dei prodotti ottenuti con lo stesso processo ma con materie prime di altra provenienza. La statistica induttiva si propone di fornire procedure sistematiche per la verifica della significatività di un campione di dati in termini sia di scelta della numerosità che di rappresentatività dell’intera popolazione! Possiamo grosso modo distinguere i seguenti argomenti

Stima puntuale: consiste nel determinare dai dati il valore di un parametro e nel valutare l’attendibilità della stima

Stima di intervallo: si vuole determinare un intervallo di valori entro il quale possa cadere con buona probabilità il valore di un parametro incognito

Criteri di verifica delle ipotesi: scelta sistematica tra possibili valori di un parametro quello più verosimile sulla base dell’evidenza sperimentale

Analisi della varianza: per verificare ipotesi complesse Programmazione degli esperimenti: tecniche di campionamento e di scelta della

numerosità del campione. Stima puntuale del valore medio e della varianza

Consideriamo un insieme di N unità e sia X una v.a. che rappresenta i valori di una determinata qualità degli elementi dell’insieme (il carico di rottura dei supporti in ferro, il coefficiente del transistor, il rendimento annuo di un prodotto finanziario, la percentuale di

sostanze inquinanti in un campione di acqua, ecc.), che quindi assume i valori , 1, , ,ix i N su

. Come è noto il valor medio e la varianza di X sono definiti nel seguente modo

28

22

1 1

1 1,

N N

i ii i

x xN N

ma, non potendo analizzare tutto l’insieme , risultano di valore incognito. Estraiamo ora dall’insieme un campione casuale di n N elementi e valutiamo la media

campionaria su questo sottoinsieme di dati

1

1ˆ

n

n jj

xn

Ci chiediamo, quanto il valore n̂ sia vicino o meno al valore medio di popolazione ; in altre

parole possiamo dire che n̂ è una buona stima di ? Quali caratteristiche di n̂ dovremmo

osservare per validare o meno questa affermazione? Come al solito dovremo considerare le cose da un punto di vista statistico. Infatti la

grandezza n̂ è di natura aleatoria in quanto scegliendo a caso da un qualunque altro campione

di dimensione n , otterremmo un valore n̂ differente dal precedente, e così via per ogni scelta del

campione. La stima sarà buona se la distribuzione dei valori di n̂ si localizza sul valore vero e

se i valori sono tutti addensati intorno a . In altre parole stiamo richiedendo che

22ˆˆ ˆ,nn nE E piccola

cioè che la media ˆnE della stima di valor medio coincida con il valore vero , e che la

varianza della stima sia piccola. Calcoliamo quindi queste grandezze

1 1

1 1 1ˆ

n n

n j jj j

E E x E x nn n n

dove nel penultimo passaggio si è considerato che il generico valore jx deriva da una popolazione

con valore medio . Il primo requisito è rispettato; in questi casi si dice che la stima non è distorta, vale a dire che mediamente non si commettono errori nel determinare il valore della grandezza incognita . Se questo non fosse stato il caso, i.e. ˆnE , avrebbe significato che il nostro

metodo di stima sarebbe stato affetto da un errore sistematico (uno strumento starato). Il calcolo della varianza è un po’ più elaborato perché dipende da come è estratto il campione; se gli elementi del campione sono scelti in maniera indipendente uno dall’altro si ha

2

22ˆ

1

1ˆ

n

n

n jj

E E xn

29

2 22ˆ 2 2

1 1 1 1

22 2

2 21 1 1

1 1 1( )

1 1

n

n n n n

j j i jj j i j

n n n

j i jj i j

j i

E x E x E x xn n n

E x E x x nnn n

dove, per l’indipendenza degli elementi, si ha che la covarianza

0i j i ji jE x x E x E x

Se invece gli elementi del campione non sono indipendenti si ha

2 22ˆ 2 2

1 1 1 1

22

2 21 1 1

1 1 1( )

1 2

2

n

n n n n

j j i jj j i j

n n n

j i jj i j

j i

E x E x E x xn n n

nE x E x x

nn n

Ora se scegliessimo n N avremmo ˆn con varianza nulla, per cui

2 2 2

2

2 10

2 1

N N

N N N N N

da cui

2 2 22ˆ

1 11

1 1n

n n

n n N N n

In entrambi i casi si vede come aumentando n si ottenga una diminuzione di 2ˆn e quindi un

aumento della precisione della stima! Tuttavia, se dal problema ci fosse richiesto di determinare il minimo valore di n per

assicurare che la precisione della stima non scenda sotto un minimo assegnato, per cui la varianza

30

della stima 2ˆn non deve superare un limite assegnato, ci troveremmo nella necessità di dover

stimare anche la varianza 2 della popolazione. Analogamente a quanto è stato fatto per il valor medio, potremmo pensare di stimare la varianza campionaria con la seguente espressione

22

1

1ˆ

n

n j nj

s xn

ma in questo caso si può vedere subito che tale stima sarebbe distorta, cioè presenterebbe un errore sistematico; infatti, nel caso in cui gli elementi del campione siano scelti in modo indipendente, si ottiene

2 2 22

1 1 1

2 2

1 1 1

22 2 2 2 2 2 2

ˆ

1 1 1ˆ ˆ ˆ[ ] ( ) ( )

1ˆ ˆ2

1 2 1 12

n

n n n

n j n j n j nj j j

n n n

j n j nj j j

E s E x E x E xn n n

E x xn

nn n n n n

n n n n n

mentre nel caso che gli elementi non siano scelti in modo indipendente, omettendo i calcoli, si ottiene

2 2 21[ ]

1nn N

E sn N

Ma la situazione non è così drammatica, infatti basta modificare l’espressione della stima in

modo opportuno per togliere l’errore sistematico. Nel caso di campione indipendente si scelga come stima campionaria della varianza la seguente espressione

22 2 2 2,1 ,1

1

1ˆ ˆ ˆ,

1 1

n

n n j n nj

ns x E

n n

mentre nel secondo caso si scelga

22 2 2 2,2 ,2

1

1 1 1ˆ ˆ ˆ,

1 1

n

n n j n nj

n N Ns x E

n N N n

31

In entrambi i casi siamo in grado di ottenere quindi una stima centrata della varianza.

Analizziamo ora la varianza della stima. Per il caso di campione indipendente si ha (omettiamo la dimostrazione)

2,1

4422 2 2

,1 ,1 4ˆ

3ˆ ˆ[ ]

1nn n

E X nE E

n n

Ora sappiamo che un valore di riferimento per il rapporto 4 4[( ) ] /E X è 3 ( tale valore occorre se la distribuzione della v.a. X è gaussiana); per tale valore si ha

2,1

42ˆ

2

1n n

per cui il coefficiente di variazione della nostra distribuzione campionaria vale

22 2 2

,1 ,1

2 2,1

2ˆ ˆ[ ]21

ˆ 1[ ]

n n

n

E En

nE

Per una distribuzione che si vuole piuttosto addensata intorno al valor medio si può

richiedere che il coefficiente di variazione non superi il 20%; per cui

2

0.2 511

nn

Se poi la Curtosi è compresa tra 0 e 2, come nei casi di asimmetria, si ricava 100n . Se

invece la Curtosi è compresa tra 2 e 20, come nei casi di distribuzione con probabilità non trascurabile di presentare valori eccezionali (code grasse), si ottiene 500n .

Se la Curtosi è inferiore a 0 occorre sempre che 50n . Le stesse conclusioni si ottengono nel caso di non indipendenza del campione.

Riassumendo possiamo dire che, nel caso di campione indipendente, la stima centrata 2ˆˆ

n della varianza 2

ˆn di ˆn è data da

22ˆ

2 2,12 2

ˆ

ˆ 1ˆ

1 1

n

n

n nn

n

n ss

n n n n

mentre nel caso di campione con elementi non indipendenti si ha

32

22ˆ

2 2,22 2

ˆ

1

ˆ 1 1ˆ 1

1 1 1 1

n

n

n nn

N n

n N

N n n N N n s ns

n N n n N N n N

Vediamo un semplice esempio. Si è ricevuto un lotto di 1000N barrette di ferro qualitativamente omogenee, ovvero ottenute con un ciclo di produzione in cui tutti i fattori caratteristici sono stati mantenuti costanti (fornitore delle materie prime, stesse macchine operatrici utilizzate, stessa squadra di operai). Da un campione di 50n unità si è ricavato che le barrette

hanno un diametro medio di ˆ 3.5n mm con una varianza campionaria 2 20.09ns mm . Si stima

quindi il valore medio dei diametri su tutto il lotto con il valore ˆ 3.5n mm , che sappiamo

essere una stima non affetta da errore sistematico. Per valutare la variabilità della stima supponiamo di avere preso un campione con gli elementi scelti tutti indipendentemente uno dall’altro

(chiariremo poi questo concetto), allora la stima centrata della varianza 2ˆn è data da

2

2ˆˆ 0.00183

1n

ns

n

mentre nel caso che gli elementi del campione non siano scelti tutti indipendentemente uno dall’altro si ha

2

2ˆˆ 1 0.00174

1n

ns n

n N

Nell’ipotesi che la distribuzione dei valori del diametro delle barrette possa ritenersi

gaussiana nel lotto, dato che 50n , la stima di ˆn è da ritenersi accurata, nel senso che il

coefficiente di variazione della stima della sua varianza 2ˆˆn

è non superiore al 20%.

Se volessimo rendere la stima ˆn più accurata dovremmo aumentare la numerosità del

campione; infatti, volendo ridurre la varianza 2ˆˆn

a 0.0004 otterremmo

0.09 0.09

0.0004 1 2261 0.0004

nn

nel caso di campionamento indipendente e

0.09 1000(0.09 0.0004)

0.0004 1 1841 1000 0.0004*1000 0.09

nn

n

33

nell’altro caso. Il prelievo del campione fatto in modo che tutti gli elementi siano scelti in modo indipendente uno dall’altro significa in sostanza che il fatto di selezionare un elemento dalla popolazione per metterlo nel campione, non deve alterare la composizione statistica della popolazione. Questo può essere ottenuto sostanzialmente in due modi: se la dimensione della popolazione non è molto grande rispetto a quella del campione da prelevare si effettua un campionamento con reinserzione; nel caso contrario se N n si può ritenere che il prelievo del campione alteri la composizione statistica della popolazione in modo trascurabile. Naturalmente la reinserzione può essere praticata se l’analisi del campione non modifica in alcun modo i suoi elementi: nell’esempio della misura del diametro delle barrette questo si verifica, ma nell’esempio della misura del carico di rottura, l’elemento analizzato verrebbe distrutto e quindi diventerebbe non reinseribile! In questo caso il campionamento sarebbe necessariamente senza reinserzione, e la indipendenza del campione dipenderebbe solo, come detto, dal confronto tra la numerosità della popolazione e quella del campione stesso! Riassumiamo con una tabella sinottica i risultati della stima puntuale di valore medio e varianza di una popolazione ottenuta da un campione dei suoi elementi

Valori di popolazione

Stime campionarie

Campione indipendente Campione non indipendente

Valor medio

1

1ˆ

n

n jj

xn

1

1ˆ

n

n jj

xn

Varianza 2 22 2,1

1

1ˆ ˆ

1 1

n

n n j nj

ns x

n n

22 2

,21

1 1 1ˆ ˆ

1 1

n

n n j nj

n N Ns x

n N N n

Varianza 2

ˆn

della stima ˆn

2 2,12 2

ˆ

ˆ 1ˆ

1 1n

n nn

n ss

n n n n

2 2,22

ˆ

ˆˆ 1

1 1n

n nN n s n

n N n N

22

1

1 n

n j nj

s x mn ;

2,1

44

24ˆ

3

1n

E X n

n n

(varianza di 2,1ˆn , valore di popolazione)

34

Stima di intervallo e controllo statistico della qualità Quindi abbiamo visto come la media aritmetica ˆn costituisca una buona stima del valore

medio di una v.a. X con varianza 2 , di cui si sono considerati n determinazioni 1

ni i

x

indipendenti; si è supposto quindi che il campione di dati sperimentali sia stato prelevato da una popolazione molto grande, ovvero sia stato prelevato con reinserzione da una popolazione finita. In tale caso si ha

ˆ[ ]nE , 2 2,1ˆ ˆ[( ) ] /n nE n .

Come si vede, la stima di valor medio è una stima accurata in quanto ha distorsione nulla, e la sua precisione aumenta all'aumentare della dimensione n del campione casuale analizzato, in quanto la varianza della stima è inversamente proporzionale a n . In definitiva, il parametro incognito viene valutato mediante una sua stima puntuale ˆn che ha

una variabilità misurata da 2,1ˆ /n n . Questo significa che se si analizzassero più campioni di

dimensione n , si otterrebbero tanti valori differenti della stima puntuale ˆn , ma che si localizzano

intorno al valore incognito , potendo peraltro presentare errori ˆn positivi e negativi che

hanno mediamente un range dell'ordine di ,1ˆ /n n .

Da quanto detto la stima puntuale del valor medio per essere apprezzabile deve essere accompagnata anche dal valore della sua dispersione, cioè dalla misura della sua variabilità. Ci si chiede quindi se non sia possibile rappresentare la stima con un unico elemento che faccia comparire in modo esplicito la variabilità della stima. In altre parole appare di più facile interpretazione poter fornire un intervallo ,nI di possibili valori tale che si possa ritenere con una

certa confidenza che il valore incognito appartenga a tale intervallo

, 1 %nP I

In questo caso non si fornirebbe un unico valore ˆn per , attendibile a meno di un errore medio

pari a ,1ˆ /n n , ma un intervallo ,nI di valori attendibili per con una confidenza dell' 1 % .

Vediamo come fare. Consideriamo la v.a. standardizzata

,1

ˆ

ˆ /n

n

n n

che ha quindi valor medio nullo e varianza pari a 1. Se si conoscesse la distribuzione di tale variabile aleatoria, potremmo risolvere il seguente problema: assegnato il valore % trovare il valore per cui risulti

1 %nP

35

Ora, dal teorema del limite centrale sappiamo che per n la variabile standardizzata n tende

in distribuzione ad una gaussiana standard (0,1)N . Questo implica che, se n è abbastanza grande ,

la probabilità dell'evento n possa essere calcolata usando la distribuzione limite

2 /2

2

t

ne

P dt

A questo punto, scelto % , il valore di tale che 1 %nP è dato dal percentile

della gaussiana, ottenibile dall'opportuna tabella dei percentili. Infatti si ricordi che il valore

che risolve il problema precedente, risolve anche il seguente

%P P

che fa riferimento all'evento complementare, ed è esattamente l'evento che viene considerato sulle tabelle dei percentili. A questo punto sappiamo che con una confidenza del 1 % il valore n ottenuto dai dati

sperimentali sarà compreso nel seguente intervallo

n

cioè

,1

ˆ

ˆ /n

n n

da cui con semplici passaggi si ottiene

,1 ,1ˆ ˆˆ ˆn n

n nn n

e quindi, ricordando che 2 2,1ˆ

1n nn

sn

, si ha

ˆ ˆ1 1

n nn n

s s

n n

L’ultima relazione stabilisce un intervallo di confidenza ,nI cui apparterrà il valore

incognito della media della popolazione con probabilità 1 % . Come si vede dalla sua

espressione, fissato % , l’ampiezza ,nI di tale intervallo dipende sostanzialmente dalla

numerosità del campione

, ˆ ˆ 21 1 1

n n nn n n

s s sI

n n n

per cui, all'aumentare della dimensione del campione analizzato, a parità di confidenza,

36

l'intervallo ,nI diventa più stretto, dando luogo ad una valutazione più precisa dei valori attendibili

del parametro incognito . Ovviamente nel caso che il campione fosse stato non casuale, con ragionamenti del tutto analoghi, avremmo ottenuto ,nI pari a

ˆ ˆ1 11 1

n nn n

s sn n

N Nn n

di lunghezza pari a

, 2 11

nn

s nI

Nn

Nell'espressione dell'intervallo di confidenza si è potuto utilizzare il percentile della gaussiana

standard nell'ipotesi che n fosse abbastanza grande da ritenere soddisfatto il teorema del limite centrale, ed utilizzare quindi la distribuzione limite per calcolare la probabilità degli eventi della variabile n . Se la distribuzione dei dati fosse gaussiana, allora basterebbe 50n . Se invece fosse

dissimmetrica, con una curtosi al più uguale a 2, allora dovrebbe essere 100n . Se infine si avesse un'alta probabilità di avere valori estremi (cioè molto lontani dalla media) , con curtosi quindi maggiore di 2, allora dovrebbe essere 500n .

Nel caso in cui i dati a disposizione non soddisfacessero nessuna delle condizioni

precedenti, ad esempio 30n sempre per un campione casuale, allora si può avere la distribuzione della v.a. standardizzata n solo nel caso in cui si possa validare un'ipotesi di gaussianità dei dati.

In tal caso infatti la variabile standardizzata

ˆ

/ 1nn

n

ns n

ha distribuzione t-student con 1n gradi di libertà, per cui il valore per cui, fissato % , si ha

1 %nP oppure %P

è dato dal percentile t della distribuzione t-student con 1n gradi di libertà (ottenibile

dall'opportuna tabella dei percentili) , ottenendo per l’intervallo di confidenza

ˆ ˆ1 1

n nn n

s st t

n n

Vediamo un esempio. Un’officina meccanica deve stimare il carico medio di rottura di un

cospicuo lotto di pezzi. Si seleziona un campione di 100 unità e si determina 21115 /nm Kg cm e

37

22,16 /ns Kg cm . Dalla tabella della N(0,1) si ricava che con 0.05 sia ha 1.96 , per cui

il carico di rottura medio si trova nell’intervallo

22.16 2.161115 1.96 ,1115 1.96 1114.57,1115.42 /

100 1 100 1kg cm

con una confidenza di 0.95. Se aumentassimo il campione analizzato a 300 unità si otterrebbe un intervallo di confidenza dello 0.95 pari a

22.16 2.161115 1.96 ,1115 1.96 1114.8,1115.2 /

300 1 300 1kg cm

quindi più ristretto rispetto al precedente, costituendo quindi un intervallo di valori più preciso per il carico di rottura medio . La stessa officina vuole determinare il valore medio dello spessore di un lotto di lamine; tale

grandezza risulta avere distribuzione gaussiana con media e varianza 2 incognite. Si preleva

un campione di 14 barrette e si determina 52.52n mm e 3.37ns mm . Siccome 30n ,

stavolta dobbiamo usare la distribuzione t-student per determinare l’intervallo di confidenza per lo spessore medio . Dalla tabella per 0.05 si ottiene 2.160t per 13 gradi di libertà, per cui si

ha

3.37 3.3752.52 2.16 , 52.52 2.16 50.5011,54.5389

14 1 14 1

con confidenza pari a 0.95.

38

Controllo di qualità. L’intervallo di confidenza viene utilizzato nel controllo statistico della qualità di un processo di produzione. In condizioni nominali le unità prodotte presentino, per quanto concerne un certo

attributo, una distribuzione gaussiana con un valor medio ed una varianza 2 , noti perché determinati in modo preliminare (cioè determinati con un esperimento dedicato, con un campione di dati differente da quelli attualmente in esame) usando i metodi descritti precedetemente. Per controllare che il processo mantenga la qualità nel tempo, vengono prelevati ad intervalli regolari dei campioni di dimensione n e su questi si calcola la media campionaria ˆn ; dato che la

distribuzione si suppone gaussiana, n può essere scelto anche piccolo, ad esempio 5 o 10, e la variabile normalizzata

ˆ

/n

nn

è certamente N(0,1); quindi fissando 0.05 otteniamo 1.96 per cui

ˆ 0.95nPn

Ciò significa che l’evento

ˆ

ˆ

n

n

n n

n n

occorre con probabilità del 95%. La qualità del processo di produzione è quindi da ritenersi idonea

se ˆn si mantiene nell’intervallo / , /n n

tempo

ˆn

/ n

/ n

39

Qualora ˆn dovesse uscire dai limiti prefissati si dovrebbe intervenire subito per individuare le

cause che hanno determinato questo scostamento significativo della qualità della produzione dallo standard (utensile logorato, inquinamento dei reagenti, ecc.). Test di confronto. In molti casi pratici si deve poter confrontare la stima di campionaria di una statistica ( media, varianza, frequenza relativa) con valori considerati come noti, evidentemente acquisiti da indagini precedenti. Esaminiamo ad esempio il seguente caso. Una compagnia di televisione via cavo asserisce che il 60% degli abitanti della zona di esercizio possiede la televisione via cavo, mentre una compagnia di televisione satellitare crede che il precedente valore sia troppo grande, dopo aver effettuato un rilevamento per cui 81 abitazioni avevano la televisione via cavo e 69 ne erano sprovviste. La compagnia di televisione via cavo afferma che tale differenza è solo dovuta al caso. A quale delle due compagnie dareste ragione, con una confidenza del 95%? La compagnia di televisione via cavo sostiene che in media la proporzione p delle persone nella popolazione di riferimento che hanno la tv via cavo è pari a 0.6, potendo la proporzione effettiva variare entro certi limiti. Il valore di questa proporzione, risultante dall'esame del campione di abitazioni effettuato dalla compagnia di tv satellitare, è di 81/(81+69)=0.54. C'è quindi uno scostamento significativo del valore stimato della proporzione ˆ 0.54p dal valore di riferimento

ipotizzato 0.6p . La compagnia di tv via cavo sostiene che tale scostamento rientra nella

variabilità naturale insita nella stima campionaria di p ; per cui l'ipotesi nulla è che il valore di riferimento della proporzione di abitazioni con tv via cavo sia del 60%

0

1

: 0.6

: 0.6

p

p

H

H

Confronto tra proporzioni Per validare o meno questa ipotesi, basta appunto misurare la variabilità della stima della

proporzione 2p e costruire un set critico con significatività del 5%

2p pp

con il percentile del 10% in modo che la singola coda misuri 5%. La regola di rifiuto dell'ipotesi nulla è unilaterale perché ˆ pp e la compagnia di tv satellitare ritiene che appunto che 0.6p

sia troppo grande. La misura delle proporzioni segue la distribuzione binomiale: in una popolazione in cui un dato evento occorre con probabilità 0p , la probabilità con cui si avranno k risultati favorevoli

all'evento su un campione di N unità (caso delle prove ripetute di Bernoulli) è pari a

0 0 0 0!

( ) (1 ) (1 )( )! !

k N k k N kN NP X k p p p p

k N k k

La variabile aleatoria X data dal "n° di successi su N prove indipendenti" viene detta binomiale ed ha valor medio e varianza pari a

40

20 0 0, (1 )X XN p N p p

Tale distribuzione è simmetrica per qualunque N se 0 0.5p , mentre tende ad essere simmetrica

per qualunque 0p quanto più N è grande. Dalla distribuzione di X si ottiene subito la distribuzione

della proporzione Xp N del numero di successi su N prove ripetute: essa è ancora una

binomiale, ma con media e varianza pari a

2

2 0 00 2

(1 ),X X

p pp p

pN NN

Si dimostra inoltre che se 0 0(1 ) 10Np p si ha

0

0 0

: 0,1(1 )

p

p

p p pN

p p

N

cioè, la variabile aleatoria standardizzata ha distribuzione limite pari alla gaussiana standard. Questo risultato al solito è fondamentale per dedurre i percentili per gli intervalli di confidenza che riguardano la variabile aleatoria p . Nel caso in esame infatti abbiamo

0 00 0 0

(1 )0.6, 0.04, (1 ) 36 10p p

p pp Np p

N

e il set critico cercato è pari a

2ˆ 0.6 1.645 0.04 0.5342p pp

per cui, dato che ˆ 0.54p , dobbiamo concludere che la compagnia di tv via cavo aveva ragione, con un rischio del 5% di prendere la decisione sbagliata. Nel prossimo caso le proporzioni da confrontare sono estratte da due campioni differenti. La malattia di Lyme o Borreliosi è una infezione batterica che colpisce le articolazioni, il sistema nervoso, gli organi interni e la pelle dei gatti. Il contagio avviene per via delle zecche. Vogliamo valutare l'efficacia di un nuovo antibiotico X nella terapia contro la Borrelliosi, confrontandola con quella dell' amoxicillina. A questo scopo, analizziamo i test clinici su una popolazione di gatti affetti da Borrelliosi in cura presso alcuni ambulatori veterinari in un trimestre. I dati raccolti sono riportati in tabella

guariti non guariti totale % guariti

X 56 14 70 80

amoxicillina 52 23 75 69.33

totale 108 37 145 74.48

41

In particolare, si noti che su un totale di 145 gatti, 70 sono stati sottoposti a trattamento con il nuovo antibiotico X e di questi l'80% sono guariti ( 56 su 70). Per i restanti 75 gatti, trattati con amoxicillina, si è avuta una percentuale di guarigione pari al 69.33% (52 su 75). Sembrerebbe che il nuovo farmaco sia più efficace. Tuttavia, bisogna assicurarsi che la differenza tra le percentuali dei guariti nei due gruppi sia significativa e non dovuta al caso.

Nel gruppo di gatti trattati con X si ha quindi una proporzione 1ˆ 0.8p di soggetti guariti su un

campione di 1 70n unità, prelevato da una popolazione in cui la proporzione dei guariti è un

valore 1p . Per quanto visto precedentemente sia ha che 1 1ˆ[ ]E p p e 1

2 1 1ˆ

1

(1 )p

p p

n

.

Analogamente per il gruppo di 2 75n unità trattato con amoxicillina si osserva una proporzione di

soggetti guariti 2ˆ 0.7p , con 2 2ˆ[ ]E p p e 2

2 2 2ˆ

2

(1 )p

p p

n

. Ora come statistica del test possiamo

scegliere la differenza delle proporzioni 1 2ˆ ˆp p p , che avrà valor medio pari a 1 2E p p p ,

e varianza 1 2

2 2 2ˆp p p dato che i due gruppi di dati sono indipendenti. Dobbiamo quindi testare

le seguenti ipotesi

0 1 2

1

: 0

: 0

H E p p p

H E p

L'ipotesi nulla 0H si riferisce al caso in cui i due trattamenti sono equivalenti e la differenza tra le

proporzioni osservate è del tutto casuale. La statistica del test, se è vera 0H è

1 2 1 2

2 2 2 2ˆ ˆ ˆ ˆ

0 01 2

1 1(1 )p p p p

p E p p p

p pn n

dove 0p è la proporzione totale di guariti sull'unione dei due gruppi

056 52

0.744870 75

p

Se 1 2 0 01 10n n p p , la statistica del test ha distribuzione gaussiana standard, per cui il set

critico del test è

0 01 2

1 1(1 )

p

p pn n

con percentile dell' % di (0,1)N . Nel nostro caso, volendo effettuare un test con significatività

del 5%, otterremmo

42

0.80 0.69331.3802 1.96

1 10.7448(1 0.7448)

70 75

per cui dovremmo accettare l'ipotesi 0H e ritenere che il nuovo farmaco X abbia avuto un effetto

non significativamente differente da quello ottenuto con l' amoxicillina. In effetti, volendo testare se sia conveniente usare il nuovo farmaco, avremmo fatto meglio ad eseguire un test unilaterale, impostando l'ipotesi alternativa sul fatto che ci si aspetta che il nuovo farmaco abbia una

percentuale di guariti superiore rispetto all'amoxicillina, i.e. 1 : 0pH E .

Consideriamo ora un altro caso di studio. Per valutare l’efficacia antirughe, elasticizzante, “ridensificante” e riparatrice per la barriera cutanea di un trattamento cosmetico è stato eseguito uno studio1 clinico su 10 soggetti sani di sesso femminile. Vengono riportati in tabella i dati relativi all'elasticità cutanea prima del trattamento (tempo 0T ) e dopo quindici giorni di trattamento (tempo 15T ). Il trattamento cosmetico è stato

efficace? Confronto tra medie, misure appaiate Per rispondere al quesito si può ragionare così. Per ogni soggetto si misura la stessa grandezza, l'elasticità cutanea, in due tempi differenti. Per cui in effetti è come se si misurasse la variazione di elasticità cutanea per ogni soggetto; di conseguenza alla tabella precedente potremmo sostituire quella ottenuta dalle differenze dei dati per ogni soggetto 0.0345 -0.0054 0.0244 0.0402 0.0625 0.0400 -0.0196 -0.0281 0.0006 0.0695 con media ˆ 0.0219d e deviazione standard ˆ 0.0336d .

Ora se il trattamento non ha avuto effetto, vuol dire che mediamente le differenze dei valori dell'elasticità cutanea è zero; mentre si avranno effetti significativi se la media delle differenze è significativamente differente da zero. Per cui, se la nostra ipotesi nulla corrisponde all'assenza di effetto significativo del farmaco, possiamo scrivere

0

1

ˆ: 0

ˆ: 0

d

d

H E

H E

1 http://www.biotivia.cc/attachments/down/Celle%20-%20CLINICAL%20TEST.pdf

43

in quanto per l'ipotesi alternativa dobbiamo considerare che l'effetto del cosmetico deve produrre un aumento dell'elasticità cutanea. Possiamo quindi disporre un test unilaterale di ipotesi semplice con un livello di significatività del 5% ; il set critico avrà quindi la seguente forma

ˆ2 2ˆ

ˆ ˆ ˆ ˆd

dd d dE E

n

Facciamo ora l'ipotesi di gaussianità dei dati (da verificare eventualmente con un opportuno test); in questo modo potremo scegliere il percentile 2 come il percentile del 10% di una t-Student a 9

gradi di libertà ottenendo il seguente set critico

0.0336ˆ 0 1.833 0.0195

10d

Dato che ˆ 0.0219d è maggiore di 0.0195, dobbiamo rifiutare l'ipotesi nulla e ritenere, con una

confidenza del 95%, che il cosmetico abbia avuto effetto. Nel caso esaminato, la variabilità dei dati era legata alla presenza di soggetti differenti in uno stesso gruppo. In altre situazioni i dati variano anche per il fatto che i dati si riferiscono a gruppi differenti di soggetti. Il caso che segue chiarisce questo aspetto. Per semplicità di notazioni, le medie calcolate su due gruppi di 1n e 2n dati, saranno indicate con 1̂ e 2̂ anziché 1 2ˆ ˆ,n n .

Un’azienda produce disinfettante industriale concentrato, in confezioni per le quali dichiara che è possibile ottenere mediamente 150 litri di disinfettante con una varianza pari a 36 litri2. La produzione avviene in due stabilimenti separati. Un primo rivenditore analizza un campione casuale di 225 confezioni, prelevato dal primo stabilimento, e ottiene una media 1̂ di 148 litri di

disinfettante; un secondo rivenditore analizza un campione casuale di144 confezioni, prelevato dall'altro stabilimento, e ottiene una quantità media 2̂ di disinfettante pari a 151 litri. La differenza

tra queste rilevazioni è significativa oppure è da ritenersi dovuta alla naturale variabilità del prodotto? Confronto tra medie, misure non appaiate, varianza nota Come sappiamo, la stima di valor medio è centrata, per cui risulta che 1ˆ[ ]E con varianza

1

22ˆ

360.16

225n e 2ˆ[ ]E con varianza

2

22ˆ

360.25

144n . Ora possiamo scegliere

come statistica del test la differenza tra i valori medi rilevati sui due campioni indipendenti

2 1ˆ ˆ ˆd , per la quale possiamo testare le ipotesi

0

1

ˆ: 0

ˆ: 0

d

d

H E

H E

44

L'ipotesi nulla corrisponde al caso in cui la differenza osservata sia da attribuire al caso, mentre l'ipotesi alternativa corrisponde al fatto che i due stabilimenti hanno una differenza sistematica nella produzione del disinfettante. Se è vera 0H abbiamo che ˆ[ ] 0dE mentre, indipendentemente da

0 1,H H risulta 1 2

2 2 2ˆ ˆ 0.16 0.25 0.41

d . La scelta dell'ipotesi alternativa determina un

set critico bilaterale

1 2

2 2

ˆ ˆ ˆ[ ]

d

d d dE

Se possiamo validare un'ipotesi di gaussianità dei dati, possiamo scegliere =1.96 corrispondente

al percentile del 5% di una gaussiana standard. In questo caso si otterrebbe

1 2

2 2

ˆ 151 148 34.685 1.96

0.41 0.41d

Si dovrebbe quindi accettare l'ipotesi alternativa e ritenere che ci siano cause sistematiche nel processo di produzione dei due stabilimenti che determina una differenza significativa nella qualità del prodotto fornito.

Il più delle volte la varianza dei dati, differentemente dal caso appena esaminato, è incognita. Questo accade ad esempio nel problema che segue 2.

E' stato condotto uno studio clinico per la valutazione dell’efficacia della Tulatromicina nella prevenzione delle forme respiratorie del bovino da carne (BRD), nelle normali condizioni d’allevamento italiane. La patologia esordisce con sintomi generali (abbattimento e riduzione dell’appetito) che, nell’arco di poche ore, si accompagnano a febbre, dispnea, tosse, scolo nasale (catarrale e/o muco purulento, vedi figura) e nei casi più gravi e senza un adeguato intervento, evolvono in pochi giorni verso una polmonite grave che può condurre a morte l’animale.

In tabella vengono riportati i dati relativi all'esperimento: un gruppo di 1 89n bovini è stato trattato con Tulatromicina ed

un secondo gruppo 2 81n con Tilmicosina. Dopo 60 giorni

si è osservato un peso medio per il primo gruppo di

1ˆ 537.39 Kg con una deviazione standard 1,1ˆ 42.96n

Kg, mentre per il secondo gruppo si è ottenuto un peso medio 2ˆ 529.49 Kg con una deviazione standard

2 ,1ˆ 41.47n Kg.

2 Tratto da: M. Muraro et al. Large Animal Review 2008; 14: 267-272 267.

45

Confronto tra medie, misure non appaiate, varianza incognita Siamo in presenza ancora di un caso in cui i dati appartengono a due gruppi differenti di soggetti per cui essi non possono considerarsi appaiati. Si devono confrontare quindi due medie per capire se la loro differenza sia significativa o dovuta al caso. La varianza dei dati è incognita, ma le varianze del peso dei bovini sono state stimate dai dati dei due campioni di 89 e 81 unità. Nell'ipotesi (da

verificare con un test ovviamente!) che la varianza dei dati sia costante, e che la differenza tra 1

2,1ˆn

e 2

2,1ˆn sia del tutto casuale, la varianza di 2 1ˆ ˆ ˆd è data dalla seguente espressione

1 1

1 2

1 2

2 22 21 22 2 2

1, 1 2, 21 2 1 2 1 21 1

1 1 1 1ˆ ˆ, ,

2d

n nn n

n i n ii i

n s n ss x s x

n n n n n n

che viene detta pooled variance. In questo caso, nell'ipotesi di gaussianità dei dati, la statistica del test di confronto tra medie

0

1

ˆ: 0

ˆ: 0

d

d

H E

H E

è data da

1 2

2 21 2

1 2 1 2

ˆ

1 12

d

n nn s n s

n n n n

e segue una distribuzione t-Student a 1 2 2n n gradi di libertà. Per cui il set critico unilaterale di

significatività % sarà dato da

1 2

1 2

2,22 21 2

1 2 1 2

ˆ

1 12

dn n

n n

tn s n s

n n n n

Nel caso di studio si ottiene

168,0.107.9

1.2174 1.6456.4891

t

per cui si accetta l'ipotesi nulla e si conclude che il trattamento con Tulatromicina non ha avuto un effetto significativamente differente dal trattamento con Tilmicosina. Nel caso in cui si debba rifiutare l'ipotesi che la varianza dell'insieme dei dati del primo e del secondo gruppo sia costante, allora si può usare la seguente statistica

46

2,11

,22,1

1 2

ˆ

ˆˆ

dgdl

nn

t

n n

che seguirà approssimativamente una distribuzione t-Student, nell'ipotesi di gaussianità dei dati, con gradi di libertà ottenuti dal termine di correzione di Welch- Satterwhaite

1 2

2 2,1 ,11 2

1 2

22 2,1 ,1

1 2

2 2ˆ ˆ

1 2

ˆ ˆ

1 1

n n

n n

n n

n ngdl

n n

ovviamente si prende come numero di gradi di libertà il valore intero della precedente espressione. Confronto tra varianze I test di confronto tra proporzioni e tra medie appena visti, possono applicarsi anche al caso in cui si debbano confrontare le varianze. Si consideri a esempio un insieme di dati per cui si ipotizzi una distribuzione gaussiana con media

e varianza 2 . Si estragga un campione casuale di n unità è si verifichi l'ipotesi

2 2

0 ,1

2 21 ,1

:

:

n

n

H

H

Se l'ipotesi nulla è vera si può dimostrare facilmente che la grandezza

22 2,11

2 2 2

ˆ( )( 1)

n

i nni n

xn ns

ha distribuzione 21n con 1n gradi di libertà. Il set critico per il test posto sarà quindi

2,1 2

1,2

( 1) nn

n

dove 21,n è il percentile dell' % . Nel caso in cui l'ipotesi alternativa fosse stata 2 2

1 ,1: nH ,

allora il set critico con significatività dell' % sarebbe stato

2,1 2

1,12

( 1) nn

n

47

mentre se l'ipotesi alternativa fosse stata 2 21 ,1: nH , allora avremmo avuto il seguente set critico

di livello %

2 2,1 ,12 2

1,1 /2 1, /22 2

( 1) ( 1)n nn n

n n

Concludiamo questo paragrafo considerando il caso di differenze tra varianze. Vogliamo

confrontare le varianze di due campioni di dati con distribuzione gaussiana con parametri 21 1( , )

e 22 2( , ) rispettivamente. Si vuole verificare l'ipotesi 2 2

0 1 2:H contro l'ipotesi alternativa 2 2

1 1 2:H . A questo punto dal primo campione di 1n dati stimiamo 1

ˆn e 1

2,1n , e analogamente

dal secondo gruppo di 2n dati stimiamo 2

ˆn e 2

2,1n (entrambi i gruppi si intendono essere due

campioni casuali di dati). Ora, per quanto visto prima, la variabile 1

11

22

1 ,112 21 1

ˆ( )( 1)

n

i nni

xn

è distribuita come una 1

21n , mentre la variabile

2

22

22

2 ,112 22 2

ˆ( )( 1)

n

j nnj

xn

è distribuita come una 2

21n . Per cui, se l'ipotesi nulla è vera, la variabile

1

1 2

2

2,1

, 2,1

n

n

F

ha una distribuzione Fisher con 1 1 2 21, 1n n gradi di libertà. Per cui il set critico di livello

% per cui si rifiuta l'ipotesi nulla è

1 2 1 2, , ,F F

Se l'ipotesi alternativa fosse stata 2 21 1 2:H , avremmo scelto come statistica del test il reciproco

della precedente 2 1 1 2, ,' 1/F F ed il set critico sarebbe stato

2 1 2 1, , ,'F F

Infine, se l'ipotesi alternativa fosse stata 2 21 1 2:H avremmo ottenuto il seguente set critico

48

2 1 2 1 1 2 1 2, , , /2 , , , /2'F F F F

Confronto tra varianze di più gruppi In molti casi pratici l’insieme di dati in esame è costituito da più di due gruppi per i quali è necessario sapere se hanno tutti la stessa varianza, ovvero almeno due gruppi hanno varianza l’uno differente dall’altro. Nel primo caso si dice che l’insieme di dati è omoschedastico, nell’altro caso che è eteroschedastico. Per decidere se un insieme di dati sia omoschedastico si ricorre al solito a dei test satistici. Come dati di partenza si consideri un insieme di N dati costituito da k gruppi costituiti da knnn ,,, 21 unità rispettivamente con medie k ,,, 21 e con varianze

222

21 ,,, k .

Test di Bartlett. Nel caso in cui l’insieme di dati segua una distribuzione gaussiana si può usare questo test che prevede le seguenti ipotesi composte

),(:

:22

1

222

210

jicoppiaunaalmenoperH

H

ji

k

La statistica del test è data dalla seguente variabile

2 2,1

1

1

ˆ ˆ( ) ln ( 1) ln

1 1 11

3( 1) 1

i

k

p i ni

k

ii

N k n

T

k n N k

dove le 2,1ˆ

in sono le stime corrette delle varianze dei singoli gruppi, mentre

2 2,1

1

1ˆ ˆ1

i

k

p i ni

nN k

è la sample pooled variance, che abbiamo già incontrato nel caso di due soli gruppi. Le due espressioni differiscono perché nel caso del confronto tra medie, la pooled variance si riferisce appunto alla varianza della stima di valor medio. La variabile T segue approssimativamente una

distribuzione 21k , per cui il set critico di livello % è dato da

2

1k ,T

Se questo si verifica, l’ipotesi nulla viene rifiutata e l’insieme di dati si ritiene eteroschedastico. Test di Levene. Questo test è indicato nel caso in cui l’insieme di dati non segua una distribuzione gaussiana. Sia jix , il j-esimo dato dell' i-esimo gruppo, e si definiscano le seguenti grandezze

49

, ,1

, ,1

,1

1ˆ ˆ,

1, '

1,

i

i

n

i j i j i i iji j

n

i i j i ji j

k

i i i ji

z x xn

z z media delle z nell i esimo gruppon

z n z media di tutte le zN

La statistica del test è data dalla seguente variabile

2

1

2,

1 1

1 j

k

i ii

nk

i j ii j

n z zN k

Wk

z z

che ha distribuzione di Fisher kNkF ,1 . Il set critico di livello % è il seguente

,,1 kNkFW

per cui se la grandezza W è più grande del percentile dell’ % della Fisher kNkF ,1 , l’ipotesi nulla

va rifiutata, e si deve ritenere l’insieme di dati eteroschedastico. ANOVA (Analysis of Variance) : confronto tra medie di più gruppi In molte situazioni, l’insieme o popolazione di unità da analizzare può presentare delle sottostrutture per cui il modello statistico rappresentato dalle medie di insieme (valore medio, varianza, …) può risultare in una descrizione troppo grossolana della variabilità insita nella popolazione: infatti parte di questa variabilità non è da attribuirsi al caso, all’evento aleatorio, ma alla presenza di una variabilità strutturata, determinata appunto da queste sottostrutture: in ognuna di queste gli elementi hanno un comportamento statisticamente omogeneo, ovvero presentano una variabilità interamente dovuta a cause aleatorie e bene descritta da medie di insieme, caratteristiche tuttavia del sottogruppo considerato; queste medie peraltro possono cambiare molto tra i vari sottogruppi per motivi non di natura aleatoria ma dovuti a meccanismi di natura sistematica! Si pensi ad esempio ad una produzione che venga effettuata da reparti con esperienza ed affiatamento differenti; alla vendita di articoli editoriali di varia natura: giornali, settimanali, audiovisivi; all’effetto di materie prime acquistate da fornitori differenti, come stoffe, filati , reagenti chimici, e chi più ne ha più ne metta! Consideriamo il caso di un portafoglio costituito da 4k prodotti finanziari di cui interessa il numero di scambi giornalieri in borsa su un numero di 10 rilevazioni per ognuno di essi

50

Prodotti Finanziari N° in migliaia di Scambi giornalieri

1 2 3 4

61 100 66 86 80 74 52 35 98 85 73 52 64 77 69 70 78 84 80 79 73 95 73 43 57 96 62 60 95 62 50 65 78 80 71 58 86 87 84 82

Media 77 84 68 63

Il numero di rilevazioni per ciascuna classe non deve necessariamente coincidere, e le singole determinazioni possono considerarsi come estrazioni casuali indipendenti di una v.a. X . In generale quindi avremo in , 1, ,i k , rilevazioni sperimentali; indichiamo con ijx la j-esima

rilevazione per la classe i-esima ( 1, , ; 1, , ii k j n ).

Come si vede le medie interclasse î sono diverse tra loro e diverse dalla media di

popolazione

1 1 1 1

1 1ˆ, ,

i in nk k

ij i i iji j i ji

x n n xn n

Vogliamo stabilire se questa variabilità è da attribuirsi al caso oppure è qualcosa di sistematico. Nell'ipotesi che la popolazione di dati possa ritenersi omoschedastica con distribuzione gaussiana, rappresentiamo il generico dato ijx nel seguente modo

ij i ijx a y

dove ia modella l’effetto della classe i-esima e ijy è una fluttuazione statistica che modelliamo

come una gaussiana con media nulla e varianza 2 costante per tutte le classi; risulta che ijx è

modellata come una gaussiana con media i ia e varianza 2 .

A questo punto si vuole testare l’ipotesi composta

0 : 0iH a per ogni i

cioè che la differenza interclasse è da attribuirsi al caso, contro l’ipotesi alternativa

1 : 0iH a per almeno un i

51

che tale differenza sia dovuta ad un fattore sistematico. Consideriamo la varianza campionaria totale

2 2 2

1 1 1 1 1

1 1 1ˆ ˆ ˆ ˆ

i in nk k k

ij ij i i ii j i j i

WT V

x x nn n n

che con semplici passaggi può decomporsi nelle due varianze parziali V e W : la prima rappresenta la variabilità intraclasse, cioè la variabilità dei dati all’interno di ciascun gruppo di in termini che è

la stessa indipendentemente dal fatto che l’ipotesi 0H sia vera o falsa; la seconda fornisce la

variabilità interclasse e, se l’ipotesi 0H è vera, risulta essere una fluttuazione casuale, altrimenti

porta in conto la variabilità dovuta alle differenze tra le medie dei vari sottogruppi.

Ora se l’ipotesi 0H è vera, la variabile 2/T risulta essere distribuita come una 2 con

1n gradi di libertà. In base al teorema di Cochran si può quindi dimostrare che 2/V è distribuita

come una 2 con n k gradi di libertà, mentre 2/W ha distribuzione 2 con 1k gradi di libertà; inoltre V e W sono tra loro indipendenti. Quindi il rapporto

/( 1)

/( )

W kF

V n k

ha distribuzione di Fisher con 1 21,k n k gradi di libertà. Se W è troppo grande

dovremmo rifiutare 0H ; fissando un livello di significatività del test pari ad , ovvero fissando la

probabilità di commettere l’errore di tipo I rifiutando 0H quando è vera, dalle tavole della

distribuzione 1 2,F si ricava il percentile F per cui se

F F

si rifiuta 0H prendendo la decisione giusta nell’ (1 )% dei casi. Il terst appena anlizzato prende

comunemente il nome di F-test. L’analisi svolta viene normalmente riportata su una tabella che viene detta appunto tabella dell’analisi della varianza

variazione gradi di libertà somme dei quadrati

devianze statistiche

Tra gruppi k-1 W W/(k-1) /( 1)

/( )

W k

V n k

;

lnz F

Nei gruppi n-k V V/(n-k)

Totale n-1 T

che nel nostro caso diventa

52

variazione gradi di libertà Somme dei quadrati

devianze statistiche

Tra gruppi 3 2620 873.33 F = 4.84; z = 0.79

Nei gruppi 36 6496 183.22 Totale 39 9116 Se si sceglie 0.05 dalle tavole si ricava 2.90F ; per cui dato che 4.84>2.90 dobbiamo

rifiutare l’ipotesi che la differenza tra le medie degli scambi giornalieri dei 4 prodotti finanziari sia dovuta al caso. Lo stesso tipo di analisi può essere condotta se la misura della grandezza di interesse x è influenzata da più di un attributo. In riferimento al caso già trattato supponiamo di considerare il

numero di scambi giornalieri di k titoli in h mercati; per cui ora ( )ijx denota la -esima rilevazione

del numero di scambi giornalieri del titolo i -esimo nel mercato j -esimo. Ora, il generico dato può essere rappresentato nel seguente modo

( ) ( ) ij i j ij ijx a b y

Senza perdita di generalità, per semplificare le notazioni, si assume che ciascuna classe sia composta dallo stesso numero di elementi, per cui 1 m per ogni ,i j . La costante ij modella

l'effetto combinato dei due attributi, e la variabile ( )ijy modella al solito la variabilità statistica del

dato e si assume con distribuzione 2(0, )N . Siano ora

( ) ( ) ( ),.,. ., ,.

1 1 1 1 1

1 1 1ˆ ˆ ˆ, ,

h m h m m

i j ijij ij ijj i

x x xh m k m m

la media dei dati per il valore i-esimo del primo attributo, la media dei dati per il valore j-esimo del secondo attributo, la media dei dati all'interno di ciascun gruppo individuato dalla generica coppia di valori i, j del primo e del secondo attributo. La variabilità totale T dei dati può essere questa volta decomposta nel seguente modo

2 2 22( ) ( ),.,. ., ,.

1 1 1 1 1 1 1 1

2,.,. ., ,. 1 2

1 1

ˆ ˆ ˆ ˆ ˆ ˆ

ˆ ˆ ˆ ˆ

k h m k h m k h

ij i jij iji j i j i j

k h

ij i j Ii j

x x h m k m

m V W W W

Il primo termine a secondo membro V rappresenta la variabilità statistica dei dati all'interno di ciascun gruppo ed è indipendente dalla presenza degli effetti degli attributi; esso costituisce il

53

termine di errore. Il secondo termine 1W ed il terzo 2W rappresentano la variabilità dovuta

all'effetto del primo attributo ed all'effetto del secondo attributo, rispettivamente. Il termine

IW viene detto interazione e quantifica l'effetto legato alla sinergia degli attributi. L'ipotesi nulla

0H richiede che tutte le costanti , ,i j ija b siano nulle. Se questo è vero, con l'ipotesi di gaussianità

dei dati, si ha al solito che 2/T è distribuita come una 2 con 1k h m gradi di libertà. Si può

quindi applicare il teorema di Cochran ed affermare che 2 2 2 21 2, , , IV W W W sono

variabili aleatorie indipendenti con distribuzione 2 con gradi di libertà 1k h m , 1k , 1h

e 1 1k h rispettivamente. A questo punto si possono testare varie ipotesi: se si vuole valutare

l'importanza del primo attributo si considera la variabile

11

/ 1

/ 1

W kF

V kh m

che risulta avere distribuzione di Fisher con 1 , 1k kh m gradi di libertà. Fissando al solito il

livello % di significatività del test è possibile rilevare sulle tabelle opportune il relativo percentile

1,F ; se il valore 1F ottenuto dai dati dell'esperimento supera 1,F si deve ritenere che l'effetto del

primo attributo introduce una variabilità sistematica nei dati, non attribuibile a cause aleatorie, e quindi ha senso stratificare i dati in base ai valori del primo attributo. Lo stesso ragionamento vale per il secondo attributo; si consideri la variabile

22

/ 1

/ 1

W hF

V kh m

che ha distribuzione di Fisher con 1 , 1h kh m gradi di libertà. Si scelga il livello % di

significatività del test e si determini il percentile 2,F dalle tabelle. I valori del secondo attributo

inducono una stratificazione significativa dei dati se 2 2,F F .

Infine il grado di interazione fra gli attributi può essere valutato considerando la variabile

/ 1 1

/ 1I

IW k h

FV k h m

che ha distribuzione di Fisher con 1 1 , 1k h kh m gradi di libertà. Scelto il livello % di

significatività del test e determinato il percentile ,IF dalle tabelle, se risulta ,I IF F dovremo

ritenere che l'effetto combinato dei due attributi è significativo ai fini di una stratificazione della popolazione. La popolazione risulta essere omogenea se in tutti e tre i test precedenti le statistiche

1 2,F F e IF ottenute dai dati non superano i rispettivi percentili.

Nel caso particolare in cui 1m , per cui è disponibile una sola rilevazione ijx della variabile x per

ogni coppia di valori ( , )i j dei due attributi, non è possibile modellare il grado di interazione tra gli attributi. Per cui si avrà la seguente rappresentazione del dato generico

54

ij i j ijx a b y

dove, nelle stesse ipotesi del caso con interazione, ia è una costante che tiene conto dell’effetto

dell’attributo “titolo”, jb è una costante che tiene conto dell’effetto dell’attributo “mercato”, e

20ijy N , . In questa situazione le grandezze

1 1 1 1

1 1 1h k k h

i ,. ij ., j ij ijj i i j

ˆ ˆ ˆx , x , xh k hk

denotano la media degli scambi giornalieri del titolo i -esimo sull’insieme dei mercati, la media degli scambi giornalieri dell’insieme di titoli nel mercato j -esimo e la media degli scambi giornalieri di titoli sull’insieme dei mercati, rispettivamente. La variabilità totale dei dati risulterà quindi ripartita nel seguente modo

2 2 22

1 1 1 1 1 1 1 1

2 22

1 1 1 1

1 2

,. ., ,. .,

,. ., ,. .,

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ

ˆ ˆ ˆ ˆ ˆ ˆ

k h k h k h k h

ij i j ij i ji j i j i j i j

k h k h

i j ij i ji j i j

x x

h k x

W W V

Il primo termine a secondo membro è la variabilità tra i vari titoli, il secondo è la variabilità tra i mercati, ed il terzo termine è detto comunemente termine di errore. Con ragionamenti analoghi al caso precedente, a norma del teorema di Cochran, possiamo affermare che i tre termini a secondo

membro sono indipendenti; inoltre 21W è distribuita come una 2 con 1k gradi di libertà,

22W è distribuita come una 2 con 1h gradi di libertà e V è distribuita come una 2 con

1 1h k gradi di libertà.

A questo punto possiamo testare varie ipotesi; per esempio se vogliamo testare se l’effetto della variabilità dovuta ai titoli è significativo basta considerare la variabile

1

1

1

1 1

/

/

W kF

V h k

che sarà distribuita come una Fisher 1 1 1, k h kF . Se invece vogliamo testare per la significatività

dell’effetto legato ai mercati possiamo considerare la variabile

2

2

1

1 1

/

/

W hF

V h k

55

4 4.5 5 5.5 6

0.02

0.05

0.10

0.25

0.50

0.75

0.90

0.95

0.98

Data

Pro

ba

bili

ty

Normal Probability Plot

che sarà distribuita come una Fisher 1 1 1, h h kF .

Esaminiamo il seguente caso. Tre tipi di fondo per vernici (primer) sono applicatio su alluminio in due modi: immersione (dipping, D), a spruzzo (spraying, S). L'esperimento consiste nel determinare la forza di adesione della vernice (adhf) dipendentemente dal fondo e dal metodo utilizzati. In base ai valori della tabella valutiamo se la forza di adesione risente singolarmente del primer e del metodo di applicazione, o risente del loro effetto combinato. I dati dell'esperimento sono riportati nella tabella accanto: si ha un totale di 18 misure: per ogni primer si hanno tre ripetute per il metodo dipping e tre ripetute per lo spraying. La forza di aderenza della vernice dipende da due attributi : il "metodo di deposizione del primer", attributo con

2k valori "D" e "S"; il "tipo di primer " con 3h valori "tipo 1", "tipo 2" e "tipo 3". Gli attributi determinano un totale di

* 6k h gruppi, ciascuno con 3m ripetute

( ) , 1, 2 1, 2,3 1, 2,3ijx i j

Verifichiamo l'applicabilità del test ANOVA a 2 vie descritto. Il valor medio campionario dei dati è pari a 4.9889, mentre la deviazione standard stimata, nell'ipotesi che il campione sia casuale, è pari a 0.2070. I dati sono valori positivi, ci chiediamo quanto sia verosimile testare un'ipotesi di gaussianità: notiamo in effetti che la media dei dati dista dallo 0 per più di 4, per la distribuzione gaussiana può essere un buon modello di distribuzione dei dati, in quanto prevede che l'insieme dei valori negativi ha una probabilità di occorrere inferiore a 0.006. Analizziamo il Q-Q plot. Dalla figura accanto si nota un certo allineamento tra i quantili: il test di Lilliefors (Matlab) suggerisce che il rifiuto dell'ipotesi nulla che la distribuzione dei dati sia gaussiana ha un rischio (p_value) pari a 0.4233>>0.05, per cui l'ipotesi nulla va accettata, ed i dati sono ritenersi estratti da una distribuzione gaussiana. Verifichiamo ora l'omoschedasticità dei dati (ipotesi nulla): il test di Bartlett garantisce che non ci sia differenza significativa tra le varianze dei gruppi, con un p_value pari a 0.9214. Siamo quindi nelle condizioni di applicazione del test ANOVA di Pearson. Ripartiamo quindi la variabilità totale dei dati nel modo visto

2 3 3 2 3 3 2 32 2 22( ) ( ),.,. ., ,.

1 1 1 1 1 1 1 1

2 3 2,.,. ., ,. 1 2

1 1

ˆ ˆ ˆ ˆ ˆ ˆ9 6

ˆ ˆ ˆ ˆ3

ij i jij iji j i j i j

ij i j Ii j

T x x

V W W W

adhf primer method 1 4.0 1 D 2 4.5 1 D 3 4.3 1 D 4 5.6 2 D 5 4.9 2 D 6 5.4 2 D 7 3.8 3 D 8 3.7 3 D 9 4.0 3 D 10 5.4 1 S 11 4.9 1 S 12 5.6 1 S 13 5.8 2 S 14 6.1 2 S 15 6.3 2 S 16 5.5 3 S 17 5.0 3 S 18 5.0 3 S

56

3 3 3 3

( ) ( )1,.,. 2,.,.1 2

1 1 1 1

2 3 2 3 2 3( ) ( ) ( )

.,1,. .,2,. .,3,.1 2 31 1 1 1 1 1

1 1ˆ ˆ4.4667, 5.5111

9 9

1 1 1ˆ ˆ ˆ4.7833, 5.6833 4.5

6 6 6

j jj j

i i ii i i

x x methods

x x x primers

3 3 3

( ) ( ) ( )11 12 1311 12 13

1 1 1

3 3 3( ) ( ) ( )

21 22 2321 22 231 1 1

2 3 3( )

1 1 1

1 1 1ˆ ˆ ˆ4.2667, 5.3, 3.8333,

3 3 3

1 1 1ˆ ˆ ˆ5.3, 6.0667 5.1667

3 3 3

14.9889

18 iji j

x x x

x x x

x

Si ottiene

10.7178, 0.9867, 1 4.9089, 2 4.5811, 0.2411T V W W WI I dati sono gaussiani e omoschedastici, per cui sotto l'ipotesi nulla

0 1 2 1 2 11 12 21 22: 0, 0, 0H a a b b

la variabile 2T

ha distribuzione 217 ; il teroema di Cochran assicura quindi che le variabili

, 1, 2,V W W WI sono 2 tra loro indipendenti, con gradi di libertà rispettivamente pari a 12, 1, 2, 2 . A questo punto calcoliamo le statistiche del test per la significatività dell'attributo "metodo di deposizione"

11 59.7027

/12

WF

V

dell'attributo "tipo di primer"

2 / 22 27.8581

/12

WF

V

e dell'interazione fra i due attributi

/ 21.4662

/12

WIFI

V

Fissando il livello di significatività del test pari a % 0.05 , dalle tabelle della Fisher otteniamo il percentile per la 1,12F pari a 4.75, per cui si può ritenere che il metodo di deposizione del fondo

costituisca un attributo che influenza significativamente la forza di aderenza della vernice; dai

57

valori medi calcolati per methods si vede subito che il secondo metodo (spraying) determina una forza media (sui tre tipi di primer) di aderenza pari a 5.5111 contro 4.4667 del primo metodo (dipping). Invece il percentile per la 2,12F pari a 3.88, per cui anche l'attributo "tipo di primer"

influenza significativamente la forza di aderenza: dai valori medi calcolati per primers si nota come il secondo tipo di fondo garantisca una forza di aderenza media (sui due metodi di deposizione) pari a 5.6833, significativamente più alta rispetto agli altri due tipi di fondo, che hanno prestazioni simili di 4.7833 (tipo 1) e 4.5 (tipo 3). Questa considerazione comunque andrebbe confortata con una ulteriore analisi ponendo i dati relativi al tipo1 e tipo 3 in un unico gruppo e verificare la differenza significativa con il gruppo di dati relativi al tipo 2. Per quanto riguarda l'interazione, dato che il percentile è lo stesso che per F2, si vede come si debba escludere una sinergia tra metodo di deposizione del fondo e tipo di fondo. Per quanto riguarda la significatività dei due attributi singolarmente, avremmo potuto anche utilizzare due ANOVA ad una via. Ad esempio, per l'attributo "metodo di deposizione", avremmo raggruppato i dati in due classi: la prima per il valore "dipping" dell'attributo, aggregando i 9 dati in tabella contrassegnati con "D", relativi ai tre tipi di primer; la seconda classe relativa al valore "sparying" dell'attributo, aggregando i 9 dati in tabella contrassegnati con "S". In questo caso si sarebbe ottenuta la seguente ripartizione della variabilità dei dati

2 3 3 2 3 3 22 2 2( ) ( )

1 1 1 1 1 1 1

ˆ ˆ ˆ ˆ9i iij iji j i j i

T x x V W

dove è lo stesso di prima in quanto è la media globale dei dati, mentre

3 3 3 3( ) ( )

1 1,.,. 2 2,.,.1 21 1 1 1

1 14.4667 , 5.5111

9 9j jj j

x x

Si ottiene

10.7178, 5.8089, 4.9089T V W Si noti come il termine W è lo stesso del termine 1W dell'ANOVA a due vie con interazione, mentre il termine d'errore V raccolga la somma dei termini , 2,V W WI (salvo approssimazioni numeriche) della precedente analisi. Nelle stesse ipotesi statistiche abbiamo che la variabile

13.521/16

WF

V

ha distribuzione Fisher 1,16F il cui percentile del 5% è compreso tra 4.54 e 4.35. Per cui si deve

rifiutare l'ipotesi nulla e ritenere il metodo di deposizione un fattore significativo per la forza di aderenza della vernice. Inoltre, avendo solo due gruppi, risulta immediatamente che il secondo metodo, lo spraying, ha le prestazioni migliori, garantendo una forza di adesione media (su tutti i primer) di 5.5111 contro 4.4667 del metodo dipping. Tale risultato conferma quanto ottenuto nell'ANOVA a due vie. Sulla scorta di questa osservazione eseguiamo ora un ANOVA ad una via per l'attributo "tipo di primer". Si ottengono tre classi, ognuna di 6 dati ottenuti considerando per ogni primer le 3 ripetute contrassegnate con "D" e le 3 contrassegnate con "S". Si ottiene

58

2 3 3 2 3 3 32 2 2( ) ( )

1 1 1 1 1 1 1

ˆ ˆ ˆ ˆ6i iij iji j i j i

T x x V W

con

2 3 2 3 2 3( ) ( ) ( )

1 .,1,. 2 .,2,. 3 .,3,.1 2 31 1 1 1 1 1

1 1 14.7833 , 5.6833 , 4.5

6 6 6i i ii i i

x x x

Si ottengono quindi i seguenti valori

10.7178, 6.1367, 4.5811T V W Possiamo anche qui notare che 2W W , mentre V raccoglie i termini , 1,V W WI dell'ANOVA a due vie. Osserviamo che il termine di differenza tra gruppi questa volta è più piccolo che nel caso precedente per l'attributo "metodo di deposizione ", mentre la V è più grande. Infatti risulta

2/ 2

5.5989

15

WF

V

che comunque è maggiore del percentile del 5% di una Fisher 2,15 3.68F . Per cui anche l'effetto

dell'attributo " tipo di primer" è da ritenersi significativo. Tuttavia, rispetto al caso precedente, ora ci sono tre gruppi e non è chiaro come scegliere il primer migliore, in quanto il rifiuto dell'ipotesi nulla dice solo che c'è almeno un gruppo significativamente differente dagli altri. Per cui bisogna condurre un'analisi ulteriore, come si era peraltro già precisato in occasione dell'analisi ANOVA a 2 vie. Analizziamo ora il caso di studio togliendo la variabilità dei dati dovuta alle tre ripetute per ogni gruppo: questo si ottiene sostituendo alle 3 ripetute la loro media , 1, 2 1, 2,3ij i j .

Otteniamo quindi uno schema di analisi ANOVA a 2 vie senza interazione

2 3 2 3 2 32 2 22

1 1 1 1 1 1

1 2

3 2ij i ,. ., j ij i ,. ., ji j i j i j

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆT

W W V

dove

3 3

1 1 2 21 1

2 2 2

1 1 2 2 3 31 1 1

1 14 4667 5 5111

3 3

1 1 14 7833 5 6833 4 5

2 2 2

,. j ,. jj j

., i ., i ., ii i i

ˆ ˆ ˆ ˆ. , .

ˆ ˆ ˆ ˆ. , . , .

Quindi si ottiene

1 23.2427, 0.0804, 1.6363, 1.5270T V W W

59

Notiamo subito che la variabilità totale è diminuita rispetto ai casi precedenti in quanto questa è

dovuta solo alle "medie delle misure in ciascun gruppo" ij e non dalle misure ( )ijx , come nei casi

precedenti. Nelle stesse ipotesi statistiche dei casi precedenti abbiamo che le variabili

1 21 2

/ 240.7189, 19

/ 2 / 2

W WF F

V V

hanno distribuzione di Fisher 1,2F con percentile del 5% pari 18.51, e 2,2F con percentile del

5% pari 19. Per cui, mentre per il primo l'attributo "metodo di deposizione" otteniamo dei risultati in accordo con quelli delle analisi precedenti, in quanto l'ipotesi nulla deve essere rifiutata, per il secondo attributo "tipo di primer" la situazione è un pò critica: si ottiene un valore di 2F proprio pari

al percentile 2,2,0.05 19F (in effetti sarebbe 2 19.000000000000142F ). A questo punto siamo

proprio sulla frontiera del set critico, potremmo senz'altro decidere comunque di rifiutare l'ipotesi nulla; sarebbe comunque più ragionevole ad esempio richiedere l'acquisizione di dati ulteriori. Ma, indipendentemente dalla decisione che prenderemo, notiamo come l'aver mediato le misure riducendo la variabilità totale dei dati abbia portato ad una situazione di indecisione. Avremmo anche potuto avere un risultato per cui, nel caso del secondo attributo, avremmo dovuto accettare l'ipotesi nulla, ottenendo un'indicazione in netto contrasto con quella delle analisi precedenti. Questo semplice caso di studio su dati reali ha mostrato che è meglio usare un modello per i dati in cui i due (o più) attributi vengono considerati contemporaneamente, conviene quindi sempre rappresentare al meglio tutte le cause di variabilità dei dati.

60

Concludiamo la sezione dell'ANOVA riassumendo e discutendo le ipotesi che devono essere soddisfatte dall'insieme dei dati affinché l'F-test dia risultati attendibili

1. ciascun gruppo dell'insieme deve essere un campione di dati casuale, e i dati relativi a gruppi differenti devono essere indipendenti

2. i gruppi devono avere grosso modo lo stesso numero di dati 3. la scala di variazione dei dati deve essere comparabile tra i diversi gruppi 4. la distribuzione dei dati deve essere gaussiana 5. la varianza deve essere costante

Diciamo subito che l'F-test è robusto rispetto a violazioni delle condizione 4) e 5) se ogni gruppo ha un numero di dati sufficientemente grande e più o meno uguale tra loro. In caso di numero di dati basso, le differenze tra le varianze può risultare determinante. K-W ANOVA. L'algoritmo di Kruskal-Wallis è un test ANOVA non parametrico che si può applicare tutte le volte che la distribuzione dei dati differisca significativamente dalla gaussiana, pur rimanendo la stessa per tutta la popolazione, per cui deve sempre valere l'omoschedasticità. Per meglio illustrare l'algoritmo consideriamo un esempio. Un'azienda vinicola chiede a degli intenditori di testare tre dei loro vini, indichiamoli per semplicità A, B e C, con un punteggio da uno a dieci. Ecco quanto ottenuto dopo i vari assaggi (tabella di sinistra)

Per prima cosa si devono ordinare i dati in ordine crescente. Nella tabella quindi ad ogni dato viene sostituito il suo numero d'ordine nella lista (rank). Se due o più dati dovessero avere lo stesso valore e quindi occupare lo stesso rank, questo viene ripartito in parti uguali in modo da non privilegiare nessun gruppo (adjusted ranks). Nel caso in esame si ottiene la tabella di destra. Ora l'ipotesi nulla consiste nel testare che i valori medi dei ranghi dei tre gruppi siano uguali, contro l'ipotesi

alternativa che almeno due di essi differiscano. Siano al solito 1 2 3, ,n n n il numero di dati per

ciascun gruppo, e si indichino con 1 2 3, ,r r r i valori medi dei ranghi nei tre gruppi, mentre sia

r la media dei ranghi per tutto l'insieme di dati. La statistica del test è data dalla seguente variabile

32

1

ˆ ˆ

11

12

i ri ri

n

HN N

dove al solito N è il numero totali di dati. Questa risulta essere distribuita approssimativamente

come una 2 23 1 2 (chi-quadro a 2 gradi di libertà ). Il percentile del 5% di tale distribuzione è

pari a 5.991. Per cui il set critico del test di livello 5% è data da

61

5.991H

Nel caso in esame si ottiene 9.5591H , per cui si deve rifiutare l'ipotesi nulla e ritenere che i gruppi abbiano ranghi con medie significativamente differenti; si noti in particolare come i ranghi corrispondenti al vino A siano più elevati rispetto agli altri due vini, per cui possiamo senz'altro concludere che il vino A abbia riscosso maggior successo tra gli intenditori. Il test K-W da buoni risultati se le la distribuzione dei dati ha la stessa forma per tutti i gruppi e le varianze sono sostanzialmente uguali, già con 5 dati per ogni gruppo. Generalmente si assegna come regola che la varianza più grande sia non più del doppio della varianza più piccola. Se tuttavia i dati avessero la stessa distribuzione ma soffrissero di una forte eteroschedasticità, il test K-W non è affidabile. In caso che la distribuzione sia gaussiana si può ricorrere al seguente test. Welch ANOVA. Con il solito significato dei simboli, facciamo riferimento ad un insieme di dati con k gruppi; la distribuzione sia gaussiana ma le varianze dei gruppi differiscano significativamente. In queste condizioni il valor medio di popolazione si calcoli con la seguente media pesata

12

1

ˆ

ˆ , ,i

k

i i ki i

i iin

wn

w w ww s

dove al solito le 2ins sono le varianze campionarie di ciascun gruppo. La statistica del test è data

dalla seguente variabile

2

1

2

21

ˆ ˆ( )

1

2( 2) 11 1

11

k

i ii

ki

ii

w

kWwk

n wk

che risulta essere distribuita come una chi-quadro con un numero di gradi di libertà dato da

2

2

1

1

13 1

1

ki

ii

k

w

n w

Come al solito si prende il valore intero più vicino.

62

Piano degli esperimenti Come abbiamo visto, l’analisi della varianza permette di testare ipotesi composte nella stima del valor medio di una popolazione. Nel caso quindi che l’ipotesi 0H debba essere rifiutata significa

sostanzialmente che l’insieme di dati non è omogeneo statisticamente; quindi se nella stima del valor medio di insieme il campione di n dati non venga opportunamente stratificato tra le varie classi dell’insieme, ne risulterebbe una stima affetta da grande variabilità, e quindi poco affidabile. Questo può essere facilmente compreso se consideriamo il caso in cui gran parte dei dati del campione cadano in una sola delle classi; questo darebbe luogo ad una stima del valor medio d’insieme fortemente polarizzata dalle caratteristiche statistiche della classe suddetta. Nasce quindi l’esigenza di pianificare l’esperimento in modo da raccogliere i dati distribuendo opportunamente la numerosità del campione tra le varie classi o strati; questa tecnica prende il nome di stratificazione (o clusterizzazione). La situazione generale è quindi quella di un insieme di N elementi suddivisi in k strati ognuno con iN unità. Sia i il valor medio di un certo

attributo degli elementi considerati nella classe i-esima, e sia /i iw N N il peso della classe i-esi-

ma nell’insieme, che supponiamo noto perché, ad esempio, ottenuto da una precedente indagine sperimentale condotta ad hoc. Come è facile verificare per il valore medio di insieme si ha

1

k

i ii

w

Ora consideriamo in elementi per ogni strato e stimiamo i con la media campionaria ˆ

in . Come

sappiamo questa è una stima centrata în iE e, nel caso realistico di estrazione in blocco

senza reinserzione, con varianza

2

2ˆ 1ni

i i i

i i

N n

N n

mentre nel caso sia possibile l’estrazione di un campione indipendente si otterrebbe

22ˆni

i

in

dove 2i è la varianza intraclasse dell’attributo considerato, ed è inferiore alla varianza 2 di

popolazione se, ovviamente, la stratificazione è stata eseguita opportunamente! La stima ˆn della

media di popolazione è quindi data da

1

ˆ î

k

n i ni

w

che è centrata come è facile verificare; inoltre ritenendo che il campione preso da uno strato sia indipendente da quelli presi dagli altri, la varianza di ˆn è data da

63

22

12 2 2ˆ ˆ

1 22

1

. .

. .1

n ni

ki

iiik

ii k

i i ii

i ii

w camp indpn

w

N nw camp non indp

N n

dove 2i può essere a sua volta stimata nei modi indicati.

Come si vede la varianza della stima dipende dagli in , per cui una corretta scelta di essi può

rendere la stima ˆn più accurata possibile una volta fissato, per motivi di costi o altri motivi di

ordine pratico, la numerosità totale n del campione. Esaminiamo due possibili strategie!

1) Attribuzione proporzionale

In questo caso si sceglie i in w n (ovviamente approssimato ad un intero); per la varianza

della stima otteniamo

2

12ˆ

2

1

1. .

1. .

1

n

k

i ii

ki i

i iii

w camp indpn

N nw camp non indp

n N

ed è facile dimostrare che risulta essere minore rispetto a quella ottenibile estraendo un campione casuale di dimensione n dall’intera popolazione. 2) Attribuzione ottimale

In questo caso si cercano i valori ottimi *in che rendano minima la varianza 2

ˆn della stima,

con il vincolo in n . Mediante la tecnica dei moltiplicatori di Lagrange si ottiene

64

1*

1

. .

1. .

1

i ik

j jj

i

ii i

ik

jj j

jj

Nn camp indp

N

n

NN

Nn camp non indp

NN

N

In effetti, nella misura in cui 1/ i iN N 1, si può usare la stessa attribuzione ottima

e la varianza della stima all’ottimo vale

2

12ˆ

2 2 2

1 1

1. .

1. .

1 1

n

k

i ii

k ki i i

i ii ii i

w camp indpn

N ww camp non indp

n N N

Esempio Si vuole stimare il consumo medio giornaliero di pane in un’azienda di 10.000N dipendenti. Se si ricorresse ad un campione casuale di 1000n dipendenti, supponendo una varianza di

popolazione 2 9 , la stima campionaria ˆn della media avrebbe varianza

2

2ˆ

90.009

1000n n

Tendendo conto delle varie tipologie di dipendenti, si può pensare alla seguente stratificazione

i strato iN iw i

1 manovali 6.500 0.650 1 2 operai specializzati 2.500 0.250 1.5 3 impiegati 920 0.092 2 4 dirigenti 80 0.008 2.5

totale 10.000 1.00

65

Nell’ipotesi che il campionamento interclasse sia indipendente, nel caso di attribuzione proporzionale si ottiene

2 2 2 2

2ˆ

(0.65)1 (0.25)1.5 (0.092)2 (0.008)2.5 1.6305n n n

Volendo mantenere la stessa accuratezza della stima ottenuta con il campione casuale si pone

1.6305

0.009n

da cui si ricava 190n anziché 1000 come prima, ottenendo quindi un forte risparmio in termini di numero di rilevamenti da effettuare. L’attribuzione proporzionale sarebbe la seguente

i ni

1 124 2 47 3 17 4 2

totale 190 Fissando definitivamente 190n e scegliendo l’attribuzione ottima

i *in

1 98 2 57 3 29 4 6

totale 190

otterremmo la seguente varianza della stima

22ˆ

1(0.65)1 (0.25)1.5 (0.092)2 (0.008)2.5 0.00794

190n

che è sensibilmente inferiore a quella ottenuta con l’attribuzione proporzionale.

Svolgiamo ora la nostra indagine circa il consumo medio giornaliero di pane sulla base di un campione di 190 unità come indicato dalla nostra analisi preliminare. I dati sono 10.000N , i

valori di iN e iw della tabella precedente, ed i valori ottimi *in appena determinati. Prelevando

quindi il campione secondo la modalità prestabilita e calcolando medie e varianze campionarie si è ottenuto

66

i în

,1

*

*ˆ

1i ii

n ni

ns

n

1 4.3 1.2 2 3.5 1.6 3 2.0 2.1 4 1.5 2.3

Per il consumo medio giornaliero di pane per l’azienda considerata si ottiene

4

1

ˆ ˆ 0.65 4.3 0.25 3.5 0.092 2 0.008 1.5 3.866in i n

iw

La stima della varianza, con le stime delle varianze intraclasse, risulta

22ˆ

1ˆ 0.65 1.2 0.25 1.6 0.092 2.1 0.008 2.3 0.0102

190n

che da luogo ad una deviazione standard di 0.1010 ed un coefficiente di variazione

ˆˆ 0.1010

0.026 2.6%ˆ 3.866

n

n

denotando una stima molto precisa della media!

2. Statistica induttiva - Università di Romadesantis/NOTE/Statistica induttiva.pdf · 27 2. Statistica induttiva Abbiamo visto come per mezzo della statistica descrittiva sia possibile

Documents