27 2. Statistica induttiva Abbiamo visto come per mezzo della statistica descrittiva sia possibile ottenere una descrizione sintetica di dati sperimentali riguardanti un determinato processo; questa è finalizzata alla rappresentazione dell’informazione utile agli scopi fissati per la definizione di opportune strategie di intervento. Tuttavia, riprendendo l’esempio trattato, abbiamo visto come i parametri descrittivi venivano dedotti dalla distribuzione campionaria o empirica, ovvero il loro valore era legato strettamente ai valori dei dati ottenuti nel particolare esperimento eseguito; ripetendo l’esperimento, cioè prelevando un altro campione di 100 N supporti di ferro, determinando sul nuovo campione di dati la distribuzione campionaria i , non necessariamente rispetto agli stessi sottoinsiemi i E , ricalcolando i parametri statistici 2 , , , dc , otterremmo dei valori diversi da quelli relativi al primo insieme di dati! Questa variabilità dipende in primo luogo dalla numerosità del campione analizzato e poi dalla sua significatività, ovvero da quanto debba ritenersi rappresentativo di tutta la produzione. E’ facile comprendere come un campione molto numeroso consenta di definire un istogramma più preciso della distribuzione effettiva e quindi un calcolo più attendibile delle varie medie; tuttavia se la nostra fabbrica di supporti in ferro si servisse da due diversi fornitori di materie prime, ed il nostro campione di dati, ancorché numeroso, avesse riguardato le unità prodotte con materie prime prese solo da uno dei due fornitori, avremmo ottenuto una parziale descrizione delle caratteristiche del processo di produzione, non considerando le caratteristiche dei prodotti ottenuti con lo stesso processo ma con materie prime di altra provenienza. La statistica induttiva si propone di fornire procedure sistematiche per la verifica della significatività di un campione di dati in termini sia di scelta della numerosità che di rappresentatività dell’intera popolazione! Possiamo grosso modo distinguere i seguenti argomenti Stima puntuale: consiste nel determinare dai dati il valore di un parametro e nel valutare l’attendibilità della stima Stima di intervallo: si vuole determinare un intervallo di valori entro il quale possa cadere con buona probabilità il valore di un parametro incognito Criteri di verifica delle ipotesi: scelta sistematica tra possibili valori di un parametro quello più verosimile sulla base dell’evidenza sperimentale Analisi della varianza: per verificare ipotesi complesse Programmazione degli esperimenti: tecniche di campionamento e di scelta della numerosità del campione. Stima puntuale del valore medio e della varianza Consideriamo un insieme di N unità e sia X una v.a. che rappresenta i valori di una determinata qualità degli elementi dell’insieme (il carico di rottura dei supporti in ferro, il coefficiente del transistor, il rendimento annuo di un prodotto finanziario, la percentuale di sostanze inquinanti in un campione di acqua, ecc.), che quindi assume i valori , 1, , , i x i N su . Come è noto il valor medio e la varianza di X sono definiti nel seguente modo
40
Embed
2. Statistica induttiva - Università di Romadesantis/NOTE/Statistica induttiva.pdf · 27 2. Statistica induttiva Abbiamo visto come per mezzo della statistica descrittiva sia possibile
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
27
2. Statistica induttiva Abbiamo visto come per mezzo della statistica descrittiva sia possibile ottenere una descrizione sintetica di dati sperimentali riguardanti un determinato processo; questa è finalizzata alla rappresentazione dell’informazione utile agli scopi fissati per la definizione di opportune strategie di intervento. Tuttavia, riprendendo l’esempio trattato, abbiamo visto come i parametri descrittivi venivano dedotti dalla distribuzione campionaria o empirica, ovvero il loro valore era legato strettamente ai valori dei dati ottenuti nel particolare esperimento eseguito; ripetendo l’esperimento, cioè prelevando un altro campione di 100N supporti di ferro, determinando sul nuovo campione di dati la distribuzione campionaria i , non necessariamente rispetto agli stessi
sottoinsiemi iE , ricalcolando i parametri statistici 2, , ,d c , otterremmo dei valori diversi da
quelli relativi al primo insieme di dati! Questa variabilità dipende in primo luogo dalla numerosità del campione analizzato e poi dalla sua significatività, ovvero da quanto debba ritenersi rappresentativo di tutta la produzione. E’ facile comprendere come un campione molto numeroso consenta di definire un istogramma più preciso della distribuzione effettiva e quindi un calcolo più attendibile delle varie medie; tuttavia se la nostra fabbrica di supporti in ferro si servisse da due diversi fornitori di materie prime, ed il nostro campione di dati, ancorché numeroso, avesse riguardato le unità prodotte con materie prime prese solo da uno dei due fornitori, avremmo ottenuto una parziale descrizione delle caratteristiche del processo di produzione, non considerando le caratteristiche dei prodotti ottenuti con lo stesso processo ma con materie prime di altra provenienza. La statistica induttiva si propone di fornire procedure sistematiche per la verifica della significatività di un campione di dati in termini sia di scelta della numerosità che di rappresentatività dell’intera popolazione! Possiamo grosso modo distinguere i seguenti argomenti
Stima puntuale: consiste nel determinare dai dati il valore di un parametro e nel valutare l’attendibilità della stima
Stima di intervallo: si vuole determinare un intervallo di valori entro il quale possa cadere con buona probabilità il valore di un parametro incognito
Criteri di verifica delle ipotesi: scelta sistematica tra possibili valori di un parametro quello più verosimile sulla base dell’evidenza sperimentale
Analisi della varianza: per verificare ipotesi complesse Programmazione degli esperimenti: tecniche di campionamento e di scelta della
numerosità del campione. Stima puntuale del valore medio e della varianza
Consideriamo un insieme di N unità e sia X una v.a. che rappresenta i valori di una determinata qualità degli elementi dell’insieme (il carico di rottura dei supporti in ferro, il coefficiente del transistor, il rendimento annuo di un prodotto finanziario, la percentuale di
sostanze inquinanti in un campione di acqua, ecc.), che quindi assume i valori , 1, , ,ix i N su
. Come è noto il valor medio e la varianza di X sono definiti nel seguente modo
28
22
1 1
1 1,
N N
i ii i
x xN N
ma, non potendo analizzare tutto l’insieme , risultano di valore incognito. Estraiamo ora dall’insieme un campione casuale di n N elementi e valutiamo la media
campionaria su questo sottoinsieme di dati
1
1ˆ
n
n jj
xn
Ci chiediamo, quanto il valore n̂ sia vicino o meno al valore medio di popolazione ; in altre
parole possiamo dire che n̂ è una buona stima di ? Quali caratteristiche di n̂ dovremmo
osservare per validare o meno questa affermazione? Come al solito dovremo considerare le cose da un punto di vista statistico. Infatti la
grandezza n̂ è di natura aleatoria in quanto scegliendo a caso da un qualunque altro campione
di dimensione n , otterremmo un valore n̂ differente dal precedente, e così via per ogni scelta del
campione. La stima sarà buona se la distribuzione dei valori di n̂ si localizza sul valore vero e
se i valori sono tutti addensati intorno a . In altre parole stiamo richiedendo che
22ˆˆ ˆ,nn nE E piccola
cioè che la media ˆnE della stima di valor medio coincida con il valore vero , e che la
varianza della stima sia piccola. Calcoliamo quindi queste grandezze
1 1
1 1 1ˆ
n n
n j jj j
E E x E x nn n n
dove nel penultimo passaggio si è considerato che il generico valore jx deriva da una popolazione
con valore medio . Il primo requisito è rispettato; in questi casi si dice che la stima non è distorta, vale a dire che mediamente non si commettono errori nel determinare il valore della grandezza incognita . Se questo non fosse stato il caso, i.e. ˆnE , avrebbe significato che il nostro
metodo di stima sarebbe stato affetto da un errore sistematico (uno strumento starato). Il calcolo della varianza è un po’ più elaborato perché dipende da come è estratto il campione; se gli elementi del campione sono scelti in maniera indipendente uno dall’altro si ha
2
22ˆ
1
1ˆ
n
n
n jj
E E xn
29
2 22ˆ 2 2
1 1 1 1
22 2
2 21 1 1
1 1 1( )
1 1
n
n n n n
j j i jj j i j
n n n
j i jj i j
j i
E x E x E x xn n n
E x E x x nnn n
dove, per l’indipendenza degli elementi, si ha che la covarianza
0i j i ji jE x x E x E x
Se invece gli elementi del campione non sono indipendenti si ha
2 22ˆ 2 2
1 1 1 1
22
2 21 1 1
1 1 1( )
1 2
2
n
n n n n
j j i jj j i j
n n n
j i jj i j
j i
E x E x E x xn n n
nE x E x x
nn n
Ora se scegliessimo n N avremmo ˆn con varianza nulla, per cui
2 2 2
2
2 10
2 1
N N
N N N N N
da cui
2 2 22ˆ
1 11
1 1n
n n
n n N N n
In entrambi i casi si vede come aumentando n si ottenga una diminuzione di 2ˆn e quindi un
aumento della precisione della stima! Tuttavia, se dal problema ci fosse richiesto di determinare il minimo valore di n per
assicurare che la precisione della stima non scenda sotto un minimo assegnato, per cui la varianza
30
della stima 2ˆn non deve superare un limite assegnato, ci troveremmo nella necessità di dover
stimare anche la varianza 2 della popolazione. Analogamente a quanto è stato fatto per il valor medio, potremmo pensare di stimare la varianza campionaria con la seguente espressione
22
1
1ˆ
n
n j nj
s xn
ma in questo caso si può vedere subito che tale stima sarebbe distorta, cioè presenterebbe un errore sistematico; infatti, nel caso in cui gli elementi del campione siano scelti in modo indipendente, si ottiene
2 2 22
1 1 1
2 2
1 1 1
22 2 2 2 2 2 2
ˆ
1 1 1ˆ ˆ ˆ[ ] ( ) ( )
1ˆ ˆ2
1 2 1 12
n
n n n
n j n j n j nj j j
n n n
j n j nj j j
E s E x E x E xn n n
E x xn
nn n n n n
n n n n n
mentre nel caso che gli elementi non siano scelti in modo indipendente, omettendo i calcoli, si ottiene
2 2 21[ ]
1nn N
E sn N
Ma la situazione non è così drammatica, infatti basta modificare l’espressione della stima in
modo opportuno per togliere l’errore sistematico. Nel caso di campione indipendente si scelga come stima campionaria della varianza la seguente espressione
22 2 2 2,1 ,1
1
1ˆ ˆ ˆ,
1 1
n
n n j n nj
ns x E
n n
mentre nel secondo caso si scelga
22 2 2 2,2 ,2
1
1 1 1ˆ ˆ ˆ,
1 1
n
n n j n nj
n N Ns x E
n N N n
31
In entrambi i casi siamo in grado di ottenere quindi una stima centrata della varianza.
Analizziamo ora la varianza della stima. Per il caso di campione indipendente si ha (omettiamo la dimostrazione)
2,1
4422 2 2
,1 ,1 4ˆ
3ˆ ˆ[ ]
1nn n
E X nE E
n n
Ora sappiamo che un valore di riferimento per il rapporto 4 4[( ) ] /E X è 3 ( tale valore occorre se la distribuzione della v.a. X è gaussiana); per tale valore si ha
2,1
42ˆ
2
1n n
per cui il coefficiente di variazione della nostra distribuzione campionaria vale
22 2 2
,1 ,1
2 2,1
2ˆ ˆ[ ]21
ˆ 1[ ]
n n
n
E En
nE
Per una distribuzione che si vuole piuttosto addensata intorno al valor medio si può
richiedere che il coefficiente di variazione non superi il 20%; per cui
2
0.2 511
nn
Se poi la Curtosi è compresa tra 0 e 2, come nei casi di asimmetria, si ricava 100n . Se
invece la Curtosi è compresa tra 2 e 20, come nei casi di distribuzione con probabilità non trascurabile di presentare valori eccezionali (code grasse), si ottiene 500n .
Se la Curtosi è inferiore a 0 occorre sempre che 50n . Le stesse conclusioni si ottengono nel caso di non indipendenza del campione.
Riassumendo possiamo dire che, nel caso di campione indipendente, la stima centrata 2ˆˆ
n della varianza 2
ˆn di ˆn è data da
22ˆ
2 2,12 2
ˆ
ˆ 1ˆ
1 1
n
n
n nn
n
n ss
n n n n
mentre nel caso di campione con elementi non indipendenti si ha
32
22ˆ
2 2,22 2
ˆ
1
ˆ 1 1ˆ 1
1 1 1 1
n
n
n nn
N n
n N
N n n N N n s ns
n N n n N N n N
Vediamo un semplice esempio. Si è ricevuto un lotto di 1000N barrette di ferro qualitativamente omogenee, ovvero ottenute con un ciclo di produzione in cui tutti i fattori caratteristici sono stati mantenuti costanti (fornitore delle materie prime, stesse macchine operatrici utilizzate, stessa squadra di operai). Da un campione di 50n unità si è ricavato che le barrette
hanno un diametro medio di ˆ 3.5n mm con una varianza campionaria 2 20.09ns mm . Si stima
quindi il valore medio dei diametri su tutto il lotto con il valore ˆ 3.5n mm , che sappiamo
essere una stima non affetta da errore sistematico. Per valutare la variabilità della stima supponiamo di avere preso un campione con gli elementi scelti tutti indipendentemente uno dall’altro
(chiariremo poi questo concetto), allora la stima centrata della varianza 2ˆn è data da
2
2ˆˆ 0.00183
1n
ns
n
mentre nel caso che gli elementi del campione non siano scelti tutti indipendentemente uno dall’altro si ha
2
2ˆˆ 1 0.00174
1n
ns n
n N
Nell’ipotesi che la distribuzione dei valori del diametro delle barrette possa ritenersi
gaussiana nel lotto, dato che 50n , la stima di ˆn è da ritenersi accurata, nel senso che il
coefficiente di variazione della stima della sua varianza 2ˆˆn
è non superiore al 20%.
Se volessimo rendere la stima ˆn più accurata dovremmo aumentare la numerosità del
campione; infatti, volendo ridurre la varianza 2ˆˆn
a 0.0004 otterremmo
0.09 0.09
0.0004 1 2261 0.0004
nn
nel caso di campionamento indipendente e
0.09 1000(0.09 0.0004)
0.0004 1 1841 1000 0.0004*1000 0.09
nn
n
33
nell’altro caso. Il prelievo del campione fatto in modo che tutti gli elementi siano scelti in modo indipendente uno dall’altro significa in sostanza che il fatto di selezionare un elemento dalla popolazione per metterlo nel campione, non deve alterare la composizione statistica della popolazione. Questo può essere ottenuto sostanzialmente in due modi: se la dimensione della popolazione non è molto grande rispetto a quella del campione da prelevare si effettua un campionamento con reinserzione; nel caso contrario se N n si può ritenere che il prelievo del campione alteri la composizione statistica della popolazione in modo trascurabile. Naturalmente la reinserzione può essere praticata se l’analisi del campione non modifica in alcun modo i suoi elementi: nell’esempio della misura del diametro delle barrette questo si verifica, ma nell’esempio della misura del carico di rottura, l’elemento analizzato verrebbe distrutto e quindi diventerebbe non reinseribile! In questo caso il campionamento sarebbe necessariamente senza reinserzione, e la indipendenza del campione dipenderebbe solo, come detto, dal confronto tra la numerosità della popolazione e quella del campione stesso! Riassumiamo con una tabella sinottica i risultati della stima puntuale di valore medio e varianza di una popolazione ottenuta da un campione dei suoi elementi
Valori di popolazione
Stime campionarie
Campione indipendente Campione non indipendente
Valor medio
1
1ˆ
n
n jj
xn
1
1ˆ
n
n jj
xn
Varianza 2 22 2,1
1
1ˆ ˆ
1 1
n
n n j nj
ns x
n n
22 2
,21
1 1 1ˆ ˆ
1 1
n
n n j nj
n N Ns x
n N N n
Varianza 2
ˆn
della stima ˆn
2 2,12 2
ˆ
ˆ 1ˆ
1 1n
n nn
n ss
n n n n
2 2,22
ˆ
ˆˆ 1
1 1n
n nN n s n
n N n N
22
1
1 n
n j nj
s x mn ;
2,1
44
24ˆ
3
1n
E X n
n n
(varianza di 2,1ˆn , valore di popolazione)
34
Stima di intervallo e controllo statistico della qualità Quindi abbiamo visto come la media aritmetica ˆn costituisca una buona stima del valore
medio di una v.a. X con varianza 2 , di cui si sono considerati n determinazioni 1
ni i
x
indipendenti; si è supposto quindi che il campione di dati sperimentali sia stato prelevato da una popolazione molto grande, ovvero sia stato prelevato con reinserzione da una popolazione finita. In tale caso si ha
ˆ[ ]nE , 2 2,1ˆ ˆ[( ) ] /n nE n .
Come si vede, la stima di valor medio è una stima accurata in quanto ha distorsione nulla, e la sua precisione aumenta all'aumentare della dimensione n del campione casuale analizzato, in quanto la varianza della stima è inversamente proporzionale a n . In definitiva, il parametro incognito viene valutato mediante una sua stima puntuale ˆn che ha
una variabilità misurata da 2,1ˆ /n n . Questo significa che se si analizzassero più campioni di
dimensione n , si otterrebbero tanti valori differenti della stima puntuale ˆn , ma che si localizzano
intorno al valore incognito , potendo peraltro presentare errori ˆn positivi e negativi che
hanno mediamente un range dell'ordine di ,1ˆ /n n .
Da quanto detto la stima puntuale del valor medio per essere apprezzabile deve essere accompagnata anche dal valore della sua dispersione, cioè dalla misura della sua variabilità. Ci si chiede quindi se non sia possibile rappresentare la stima con un unico elemento che faccia comparire in modo esplicito la variabilità della stima. In altre parole appare di più facile interpretazione poter fornire un intervallo ,nI di possibili valori tale che si possa ritenere con una
certa confidenza che il valore incognito appartenga a tale intervallo
, 1 %nP I
In questo caso non si fornirebbe un unico valore ˆn per , attendibile a meno di un errore medio
pari a ,1ˆ /n n , ma un intervallo ,nI di valori attendibili per con una confidenza dell' 1 % .
Vediamo come fare. Consideriamo la v.a. standardizzata
,1
ˆ
ˆ /n
n
n n
che ha quindi valor medio nullo e varianza pari a 1. Se si conoscesse la distribuzione di tale variabile aleatoria, potremmo risolvere il seguente problema: assegnato il valore % trovare il valore per cui risulti
1 %nP
35
Ora, dal teorema del limite centrale sappiamo che per n la variabile standardizzata n tende
in distribuzione ad una gaussiana standard (0,1)N . Questo implica che, se n è abbastanza grande ,
la probabilità dell'evento n possa essere calcolata usando la distribuzione limite
2 /2
2
t
ne
P dt
A questo punto, scelto % , il valore di tale che 1 %nP è dato dal percentile
della gaussiana, ottenibile dall'opportuna tabella dei percentili. Infatti si ricordi che il valore
che risolve il problema precedente, risolve anche il seguente
%P P
che fa riferimento all'evento complementare, ed è esattamente l'evento che viene considerato sulle tabelle dei percentili. A questo punto sappiamo che con una confidenza del 1 % il valore n ottenuto dai dati
sperimentali sarà compreso nel seguente intervallo
n
cioè
,1
ˆ
ˆ /n
n n
da cui con semplici passaggi si ottiene
,1 ,1ˆ ˆˆ ˆn n
n nn n
e quindi, ricordando che 2 2,1ˆ
1n nn
sn
, si ha
ˆ ˆ1 1
n nn n
s s
n n
L’ultima relazione stabilisce un intervallo di confidenza ,nI cui apparterrà il valore
incognito della media della popolazione con probabilità 1 % . Come si vede dalla sua
espressione, fissato % , l’ampiezza ,nI di tale intervallo dipende sostanzialmente dalla
numerosità del campione
, ˆ ˆ 21 1 1
n n nn n n
s s sI
n n n
per cui, all'aumentare della dimensione del campione analizzato, a parità di confidenza,
36
l'intervallo ,nI diventa più stretto, dando luogo ad una valutazione più precisa dei valori attendibili
del parametro incognito . Ovviamente nel caso che il campione fosse stato non casuale, con ragionamenti del tutto analoghi, avremmo ottenuto ,nI pari a
ˆ ˆ1 11 1
n nn n
s sn n
N Nn n
di lunghezza pari a
, 2 11
nn
s nI
Nn
Nell'espressione dell'intervallo di confidenza si è potuto utilizzare il percentile della gaussiana
standard nell'ipotesi che n fosse abbastanza grande da ritenere soddisfatto il teorema del limite centrale, ed utilizzare quindi la distribuzione limite per calcolare la probabilità degli eventi della variabile n . Se la distribuzione dei dati fosse gaussiana, allora basterebbe 50n . Se invece fosse
dissimmetrica, con una curtosi al più uguale a 2, allora dovrebbe essere 100n . Se infine si avesse un'alta probabilità di avere valori estremi (cioè molto lontani dalla media) , con curtosi quindi maggiore di 2, allora dovrebbe essere 500n .
Nel caso in cui i dati a disposizione non soddisfacessero nessuna delle condizioni
precedenti, ad esempio 30n sempre per un campione casuale, allora si può avere la distribuzione della v.a. standardizzata n solo nel caso in cui si possa validare un'ipotesi di gaussianità dei dati.
In tal caso infatti la variabile standardizzata
ˆ
/ 1nn
n
ns n
ha distribuzione t-student con 1n gradi di libertà, per cui il valore per cui, fissato % , si ha
1 %nP oppure %P
è dato dal percentile t della distribuzione t-student con 1n gradi di libertà (ottenibile
dall'opportuna tabella dei percentili) , ottenendo per l’intervallo di confidenza
ˆ ˆ1 1
n nn n
s st t
n n
Vediamo un esempio. Un’officina meccanica deve stimare il carico medio di rottura di un
cospicuo lotto di pezzi. Si seleziona un campione di 100 unità e si determina 21115 /nm Kg cm e
37
22,16 /ns Kg cm . Dalla tabella della N(0,1) si ricava che con 0.05 sia ha 1.96 , per cui
il carico di rottura medio si trova nell’intervallo
22.16 2.161115 1.96 ,1115 1.96 1114.57,1115.42 /
100 1 100 1kg cm
con una confidenza di 0.95. Se aumentassimo il campione analizzato a 300 unità si otterrebbe un intervallo di confidenza dello 0.95 pari a
22.16 2.161115 1.96 ,1115 1.96 1114.8,1115.2 /
300 1 300 1kg cm
quindi più ristretto rispetto al precedente, costituendo quindi un intervallo di valori più preciso per il carico di rottura medio . La stessa officina vuole determinare il valore medio dello spessore di un lotto di lamine; tale
grandezza risulta avere distribuzione gaussiana con media e varianza 2 incognite. Si preleva
un campione di 14 barrette e si determina 52.52n mm e 3.37ns mm . Siccome 30n ,
stavolta dobbiamo usare la distribuzione t-student per determinare l’intervallo di confidenza per lo spessore medio . Dalla tabella per 0.05 si ottiene 2.160t per 13 gradi di libertà, per cui si
ha
3.37 3.3752.52 2.16 , 52.52 2.16 50.5011,54.5389
14 1 14 1
con confidenza pari a 0.95.
38
Controllo di qualità. L’intervallo di confidenza viene utilizzato nel controllo statistico della qualità di un processo di produzione. In condizioni nominali le unità prodotte presentino, per quanto concerne un certo
attributo, una distribuzione gaussiana con un valor medio ed una varianza 2 , noti perché determinati in modo preliminare (cioè determinati con un esperimento dedicato, con un campione di dati differente da quelli attualmente in esame) usando i metodi descritti precedetemente. Per controllare che il processo mantenga la qualità nel tempo, vengono prelevati ad intervalli regolari dei campioni di dimensione n e su questi si calcola la media campionaria ˆn ; dato che la
distribuzione si suppone gaussiana, n può essere scelto anche piccolo, ad esempio 5 o 10, e la variabile normalizzata
ˆ
/n
nn
è certamente N(0,1); quindi fissando 0.05 otteniamo 1.96 per cui
ˆ 0.95nPn
Ciò significa che l’evento
ˆ
ˆ
n
n
n n
n n
occorre con probabilità del 95%. La qualità del processo di produzione è quindi da ritenersi idonea
se ˆn si mantiene nell’intervallo / , /n n
tempo
ˆn
/ n
/ n
39
Qualora ˆn dovesse uscire dai limiti prefissati si dovrebbe intervenire subito per individuare le
cause che hanno determinato questo scostamento significativo della qualità della produzione dallo standard (utensile logorato, inquinamento dei reagenti, ecc.). Test di confronto. In molti casi pratici si deve poter confrontare la stima di campionaria di una statistica ( media, varianza, frequenza relativa) con valori considerati come noti, evidentemente acquisiti da indagini precedenti. Esaminiamo ad esempio il seguente caso. Una compagnia di televisione via cavo asserisce che il 60% degli abitanti della zona di esercizio possiede la televisione via cavo, mentre una compagnia di televisione satellitare crede che il precedente valore sia troppo grande, dopo aver effettuato un rilevamento per cui 81 abitazioni avevano la televisione via cavo e 69 ne erano sprovviste. La compagnia di televisione via cavo afferma che tale differenza è solo dovuta al caso. A quale delle due compagnie dareste ragione, con una confidenza del 95%? La compagnia di televisione via cavo sostiene che in media la proporzione p delle persone nella popolazione di riferimento che hanno la tv via cavo è pari a 0.6, potendo la proporzione effettiva variare entro certi limiti. Il valore di questa proporzione, risultante dall'esame del campione di abitazioni effettuato dalla compagnia di tv satellitare, è di 81/(81+69)=0.54. C'è quindi uno scostamento significativo del valore stimato della proporzione ˆ 0.54p dal valore di riferimento
ipotizzato 0.6p . La compagnia di tv via cavo sostiene che tale scostamento rientra nella
variabilità naturale insita nella stima campionaria di p ; per cui l'ipotesi nulla è che il valore di riferimento della proporzione di abitazioni con tv via cavo sia del 60%
0
1
: 0.6
: 0.6
p
p
H
H
Confronto tra proporzioni Per validare o meno questa ipotesi, basta appunto misurare la variabilità della stima della
proporzione 2p e costruire un set critico con significatività del 5%
2p pp
con il percentile del 10% in modo che la singola coda misuri 5%. La regola di rifiuto dell'ipotesi nulla è unilaterale perché ˆ pp e la compagnia di tv satellitare ritiene che appunto che 0.6p
sia troppo grande. La misura delle proporzioni segue la distribuzione binomiale: in una popolazione in cui un dato evento occorre con probabilità 0p , la probabilità con cui si avranno k risultati favorevoli
all'evento su un campione di N unità (caso delle prove ripetute di Bernoulli) è pari a
0 0 0 0!
( ) (1 ) (1 )( )! !
k N k k N kN NP X k p p p p
k N k k
La variabile aleatoria X data dal "n° di successi su N prove indipendenti" viene detta binomiale ed ha valor medio e varianza pari a
40
20 0 0, (1 )X XN p N p p
Tale distribuzione è simmetrica per qualunque N se 0 0.5p , mentre tende ad essere simmetrica
per qualunque 0p quanto più N è grande. Dalla distribuzione di X si ottiene subito la distribuzione
della proporzione Xp N del numero di successi su N prove ripetute: essa è ancora una
binomiale, ma con media e varianza pari a
2
2 0 00 2
(1 ),X X
p pp p
pN NN
Si dimostra inoltre che se 0 0(1 ) 10Np p si ha
0
0 0
: 0,1(1 )
p
p
p p pN
p p
N
cioè, la variabile aleatoria standardizzata ha distribuzione limite pari alla gaussiana standard. Questo risultato al solito è fondamentale per dedurre i percentili per gli intervalli di confidenza che riguardano la variabile aleatoria p . Nel caso in esame infatti abbiamo
0 00 0 0
(1 )0.6, 0.04, (1 ) 36 10p p
p pp Np p
N
e il set critico cercato è pari a
2ˆ 0.6 1.645 0.04 0.5342p pp
per cui, dato che ˆ 0.54p , dobbiamo concludere che la compagnia di tv via cavo aveva ragione, con un rischio del 5% di prendere la decisione sbagliata. Nel prossimo caso le proporzioni da confrontare sono estratte da due campioni differenti. La malattia di Lyme o Borreliosi è una infezione batterica che colpisce le articolazioni, il sistema nervoso, gli organi interni e la pelle dei gatti. Il contagio avviene per via delle zecche. Vogliamo valutare l'efficacia di un nuovo antibiotico X nella terapia contro la Borrelliosi, confrontandola con quella dell' amoxicillina. A questo scopo, analizziamo i test clinici su una popolazione di gatti affetti da Borrelliosi in cura presso alcuni ambulatori veterinari in un trimestre. I dati raccolti sono riportati in tabella
guariti non guariti totale % guariti
X 56 14 70 80
amoxicillina 52 23 75 69.33
totale 108 37 145 74.48
41
In particolare, si noti che su un totale di 145 gatti, 70 sono stati sottoposti a trattamento con il nuovo antibiotico X e di questi l'80% sono guariti ( 56 su 70). Per i restanti 75 gatti, trattati con amoxicillina, si è avuta una percentuale di guarigione pari al 69.33% (52 su 75). Sembrerebbe che il nuovo farmaco sia più efficace. Tuttavia, bisogna assicurarsi che la differenza tra le percentuali dei guariti nei due gruppi sia significativa e non dovuta al caso.
Nel gruppo di gatti trattati con X si ha quindi una proporzione 1ˆ 0.8p di soggetti guariti su un
campione di 1 70n unità, prelevato da una popolazione in cui la proporzione dei guariti è un
valore 1p . Per quanto visto precedentemente sia ha che 1 1ˆ[ ]E p p e 1
2 1 1ˆ
1
(1 )p
p p
n
.
Analogamente per il gruppo di 2 75n unità trattato con amoxicillina si osserva una proporzione di
soggetti guariti 2ˆ 0.7p , con 2 2ˆ[ ]E p p e 2
2 2 2ˆ
2
(1 )p
p p
n
. Ora come statistica del test possiamo
scegliere la differenza delle proporzioni 1 2ˆ ˆp p p , che avrà valor medio pari a 1 2E p p p ,
e varianza 1 2
2 2 2ˆp p p dato che i due gruppi di dati sono indipendenti. Dobbiamo quindi testare
le seguenti ipotesi
0 1 2
1
: 0
: 0
H E p p p
H E p
L'ipotesi nulla 0H si riferisce al caso in cui i due trattamenti sono equivalenti e la differenza tra le
proporzioni osservate è del tutto casuale. La statistica del test, se è vera 0H è
1 2 1 2
2 2 2 2ˆ ˆ ˆ ˆ
0 01 2
1 1(1 )p p p p
p E p p p
p pn n
dove 0p è la proporzione totale di guariti sull'unione dei due gruppi
056 52
0.744870 75
p
Se 1 2 0 01 10n n p p , la statistica del test ha distribuzione gaussiana standard, per cui il set
critico del test è
0 01 2
1 1(1 )
p
p pn n
con percentile dell' % di (0,1)N . Nel nostro caso, volendo effettuare un test con significatività
del 5%, otterremmo
42
0.80 0.69331.3802 1.96
1 10.7448(1 0.7448)
70 75
per cui dovremmo accettare l'ipotesi 0H e ritenere che il nuovo farmaco X abbia avuto un effetto
non significativamente differente da quello ottenuto con l' amoxicillina. In effetti, volendo testare se sia conveniente usare il nuovo farmaco, avremmo fatto meglio ad eseguire un test unilaterale, impostando l'ipotesi alternativa sul fatto che ci si aspetta che il nuovo farmaco abbia una
percentuale di guariti superiore rispetto all'amoxicillina, i.e. 1 : 0pH E .
Consideriamo ora un altro caso di studio. Per valutare l’efficacia antirughe, elasticizzante, “ridensificante” e riparatrice per la barriera cutanea di un trattamento cosmetico è stato eseguito uno studio1 clinico su 10 soggetti sani di sesso femminile. Vengono riportati in tabella i dati relativi all'elasticità cutanea prima del trattamento (tempo 0T ) e dopo quindici giorni di trattamento (tempo 15T ). Il trattamento cosmetico è stato
efficace? Confronto tra medie, misure appaiate Per rispondere al quesito si può ragionare così. Per ogni soggetto si misura la stessa grandezza, l'elasticità cutanea, in due tempi differenti. Per cui in effetti è come se si misurasse la variazione di elasticità cutanea per ogni soggetto; di conseguenza alla tabella precedente potremmo sostituire quella ottenuta dalle differenze dei dati per ogni soggetto 0.0345 -0.0054 0.0244 0.0402 0.0625 0.0400 -0.0196 -0.0281 0.0006 0.0695 con media ˆ 0.0219d e deviazione standard ˆ 0.0336d .
Ora se il trattamento non ha avuto effetto, vuol dire che mediamente le differenze dei valori dell'elasticità cutanea è zero; mentre si avranno effetti significativi se la media delle differenze è significativamente differente da zero. Per cui, se la nostra ipotesi nulla corrisponde all'assenza di effetto significativo del farmaco, possiamo scrivere
in quanto per l'ipotesi alternativa dobbiamo considerare che l'effetto del cosmetico deve produrre un aumento dell'elasticità cutanea. Possiamo quindi disporre un test unilaterale di ipotesi semplice con un livello di significatività del 5% ; il set critico avrà quindi la seguente forma
ˆ2 2ˆ
ˆ ˆ ˆ ˆd
dd d dE E
n
Facciamo ora l'ipotesi di gaussianità dei dati (da verificare eventualmente con un opportuno test); in questo modo potremo scegliere il percentile 2 come il percentile del 10% di una t-Student a 9
gradi di libertà ottenendo il seguente set critico
0.0336ˆ 0 1.833 0.0195
10d
Dato che ˆ 0.0219d è maggiore di 0.0195, dobbiamo rifiutare l'ipotesi nulla e ritenere, con una
confidenza del 95%, che il cosmetico abbia avuto effetto. Nel caso esaminato, la variabilità dei dati era legata alla presenza di soggetti differenti in uno stesso gruppo. In altre situazioni i dati variano anche per il fatto che i dati si riferiscono a gruppi differenti di soggetti. Il caso che segue chiarisce questo aspetto. Per semplicità di notazioni, le medie calcolate su due gruppi di 1n e 2n dati, saranno indicate con 1̂ e 2̂ anziché 1 2ˆ ˆ,n n .
Un’azienda produce disinfettante industriale concentrato, in confezioni per le quali dichiara che è possibile ottenere mediamente 150 litri di disinfettante con una varianza pari a 36 litri2. La produzione avviene in due stabilimenti separati. Un primo rivenditore analizza un campione casuale di 225 confezioni, prelevato dal primo stabilimento, e ottiene una media 1̂ di 148 litri di
disinfettante; un secondo rivenditore analizza un campione casuale di144 confezioni, prelevato dall'altro stabilimento, e ottiene una quantità media 2̂ di disinfettante pari a 151 litri. La differenza
tra queste rilevazioni è significativa oppure è da ritenersi dovuta alla naturale variabilità del prodotto? Confronto tra medie, misure non appaiate, varianza nota Come sappiamo, la stima di valor medio è centrata, per cui risulta che 1ˆ[ ]E con varianza
1
22ˆ
360.16
225n e 2ˆ[ ]E con varianza
2
22ˆ
360.25
144n . Ora possiamo scegliere
come statistica del test la differenza tra i valori medi rilevati sui due campioni indipendenti
2 1ˆ ˆ ˆd , per la quale possiamo testare le ipotesi
0
1
ˆ: 0
ˆ: 0
d
d
H E
H E
44
L'ipotesi nulla corrisponde al caso in cui la differenza osservata sia da attribuire al caso, mentre l'ipotesi alternativa corrisponde al fatto che i due stabilimenti hanno una differenza sistematica nella produzione del disinfettante. Se è vera 0H abbiamo che ˆ[ ] 0dE mentre, indipendentemente da
0 1,H H risulta 1 2
2 2 2ˆ ˆ 0.16 0.25 0.41
d . La scelta dell'ipotesi alternativa determina un
set critico bilaterale
1 2
2 2
ˆ ˆ ˆ[ ]
d
d d dE
Se possiamo validare un'ipotesi di gaussianità dei dati, possiamo scegliere =1.96 corrispondente
al percentile del 5% di una gaussiana standard. In questo caso si otterrebbe
1 2
2 2
ˆ 151 148 34.685 1.96
0.41 0.41d
Si dovrebbe quindi accettare l'ipotesi alternativa e ritenere che ci siano cause sistematiche nel processo di produzione dei due stabilimenti che determina una differenza significativa nella qualità del prodotto fornito.
Il più delle volte la varianza dei dati, differentemente dal caso appena esaminato, è incognita. Questo accade ad esempio nel problema che segue 2.
E' stato condotto uno studio clinico per la valutazione dell’efficacia della Tulatromicina nella prevenzione delle forme respiratorie del bovino da carne (BRD), nelle normali condizioni d’allevamento italiane. La patologia esordisce con sintomi generali (abbattimento e riduzione dell’appetito) che, nell’arco di poche ore, si accompagnano a febbre, dispnea, tosse, scolo nasale (catarrale e/o muco purulento, vedi figura) e nei casi più gravi e senza un adeguato intervento, evolvono in pochi giorni verso una polmonite grave che può condurre a morte l’animale.
In tabella vengono riportati i dati relativi all'esperimento: un gruppo di 1 89n bovini è stato trattato con Tulatromicina ed
un secondo gruppo 2 81n con Tilmicosina. Dopo 60 giorni
si è osservato un peso medio per il primo gruppo di
1ˆ 537.39 Kg con una deviazione standard 1,1ˆ 42.96n
Kg, mentre per il secondo gruppo si è ottenuto un peso medio 2ˆ 529.49 Kg con una deviazione standard
2 ,1ˆ 41.47n Kg.
2 Tratto da: M. Muraro et al. Large Animal Review 2008; 14: 267-272 267.
45
Confronto tra medie, misure non appaiate, varianza incognita Siamo in presenza ancora di un caso in cui i dati appartengono a due gruppi differenti di soggetti per cui essi non possono considerarsi appaiati. Si devono confrontare quindi due medie per capire se la loro differenza sia significativa o dovuta al caso. La varianza dei dati è incognita, ma le varianze del peso dei bovini sono state stimate dai dati dei due campioni di 89 e 81 unità. Nell'ipotesi (da
verificare con un test ovviamente!) che la varianza dei dati sia costante, e che la differenza tra 1
2,1ˆn
e 2
2,1ˆn sia del tutto casuale, la varianza di 2 1ˆ ˆ ˆd è data dalla seguente espressione
1 1
1 2
1 2
2 22 21 22 2 2
1, 1 2, 21 2 1 2 1 21 1
1 1 1 1ˆ ˆ, ,
2d
n nn n
n i n ii i
n s n ss x s x
n n n n n n
che viene detta pooled variance. In questo caso, nell'ipotesi di gaussianità dei dati, la statistica del test di confronto tra medie
0
1
ˆ: 0
ˆ: 0
d
d
H E
H E
è data da
1 2
2 21 2
1 2 1 2
ˆ
1 12
d
n nn s n s
n n n n
e segue una distribuzione t-Student a 1 2 2n n gradi di libertà. Per cui il set critico unilaterale di
significatività % sarà dato da
1 2
1 2
2,22 21 2
1 2 1 2
ˆ
1 12
dn n
n n
tn s n s
n n n n
Nel caso di studio si ottiene
168,0.107.9
1.2174 1.6456.4891
t
per cui si accetta l'ipotesi nulla e si conclude che il trattamento con Tulatromicina non ha avuto un effetto significativamente differente dal trattamento con Tilmicosina. Nel caso in cui si debba rifiutare l'ipotesi che la varianza dell'insieme dei dati del primo e del secondo gruppo sia costante, allora si può usare la seguente statistica
46
2,11
,22,1
1 2
ˆ
ˆˆ
dgdl
nn
t
n n
che seguirà approssimativamente una distribuzione t-Student, nell'ipotesi di gaussianità dei dati, con gradi di libertà ottenuti dal termine di correzione di Welch- Satterwhaite
1 2
2 2,1 ,11 2
1 2
22 2,1 ,1
1 2
2 2ˆ ˆ
1 2
ˆ ˆ
1 1
n n
n n
n n
n ngdl
n n
ovviamente si prende come numero di gradi di libertà il valore intero della precedente espressione. Confronto tra varianze I test di confronto tra proporzioni e tra medie appena visti, possono applicarsi anche al caso in cui si debbano confrontare le varianze. Si consideri a esempio un insieme di dati per cui si ipotizzi una distribuzione gaussiana con media
e varianza 2 . Si estragga un campione casuale di n unità è si verifichi l'ipotesi
2 2
0 ,1
2 21 ,1
:
:
n
n
H
H
Se l'ipotesi nulla è vera si può dimostrare facilmente che la grandezza
22 2,11
2 2 2
ˆ( )( 1)
n
i nni n
xn ns
ha distribuzione 21n con 1n gradi di libertà. Il set critico per il test posto sarà quindi
2,1 2
1,2
( 1) nn
n
dove 21,n è il percentile dell' % . Nel caso in cui l'ipotesi alternativa fosse stata 2 2
1 ,1: nH ,
allora il set critico con significatività dell' % sarebbe stato
2,1 2
1,12
( 1) nn
n
47
mentre se l'ipotesi alternativa fosse stata 2 21 ,1: nH , allora avremmo avuto il seguente set critico
di livello %
2 2,1 ,12 2
1,1 /2 1, /22 2
( 1) ( 1)n nn n
n n
Concludiamo questo paragrafo considerando il caso di differenze tra varianze. Vogliamo
confrontare le varianze di due campioni di dati con distribuzione gaussiana con parametri 21 1( , )
e 22 2( , ) rispettivamente. Si vuole verificare l'ipotesi 2 2
0 1 2:H contro l'ipotesi alternativa 2 2
1 1 2:H . A questo punto dal primo campione di 1n dati stimiamo 1
ˆn e 1
2,1n , e analogamente
dal secondo gruppo di 2n dati stimiamo 2
ˆn e 2
2,1n (entrambi i gruppi si intendono essere due
campioni casuali di dati). Ora, per quanto visto prima, la variabile 1
11
22
1 ,112 21 1
ˆ( )( 1)
n
i nni
xn
è distribuita come una 1
21n , mentre la variabile
2
22
22
2 ,112 22 2
ˆ( )( 1)
n
j nnj
xn
è distribuita come una 2
21n . Per cui, se l'ipotesi nulla è vera, la variabile
1
1 2
2
2,1
, 2,1
n
n
F
ha una distribuzione Fisher con 1 1 2 21, 1n n gradi di libertà. Per cui il set critico di livello
% per cui si rifiuta l'ipotesi nulla è
1 2 1 2, , ,F F
Se l'ipotesi alternativa fosse stata 2 21 1 2:H , avremmo scelto come statistica del test il reciproco
della precedente 2 1 1 2, ,' 1/F F ed il set critico sarebbe stato
2 1 2 1, , ,'F F
Infine, se l'ipotesi alternativa fosse stata 2 21 1 2:H avremmo ottenuto il seguente set critico
48
2 1 2 1 1 2 1 2, , , /2 , , , /2'F F F F
Confronto tra varianze di più gruppi In molti casi pratici l’insieme di dati in esame è costituito da più di due gruppi per i quali è necessario sapere se hanno tutti la stessa varianza, ovvero almeno due gruppi hanno varianza l’uno differente dall’altro. Nel primo caso si dice che l’insieme di dati è omoschedastico, nell’altro caso che è eteroschedastico. Per decidere se un insieme di dati sia omoschedastico si ricorre al solito a dei test satistici. Come dati di partenza si consideri un insieme di N dati costituito da k gruppi costituiti da knnn ,,, 21 unità rispettivamente con medie k ,,, 21 e con varianze
222
21 ,,, k .
Test di Bartlett. Nel caso in cui l’insieme di dati segua una distribuzione gaussiana si può usare questo test che prevede le seguenti ipotesi composte
),(:
:22
1
222
210
jicoppiaunaalmenoperH
H
ji
k
La statistica del test è data dalla seguente variabile
2 2,1
1
1
ˆ ˆ( ) ln ( 1) ln
1 1 11
3( 1) 1
i
k
p i ni
k
ii
N k n
T
k n N k
dove le 2,1ˆ
in sono le stime corrette delle varianze dei singoli gruppi, mentre
2 2,1
1
1ˆ ˆ1
i
k
p i ni
nN k
è la sample pooled variance, che abbiamo già incontrato nel caso di due soli gruppi. Le due espressioni differiscono perché nel caso del confronto tra medie, la pooled variance si riferisce appunto alla varianza della stima di valor medio. La variabile T segue approssimativamente una
distribuzione 21k , per cui il set critico di livello % è dato da
2
1k ,T
Se questo si verifica, l’ipotesi nulla viene rifiutata e l’insieme di dati si ritiene eteroschedastico. Test di Levene. Questo test è indicato nel caso in cui l’insieme di dati non segua una distribuzione gaussiana. Sia jix , il j-esimo dato dell' i-esimo gruppo, e si definiscano le seguenti grandezze
49
, ,1
, ,1
,1
1ˆ ˆ,
1, '
1,
i
i
n
i j i j i i iji j
n
i i j i ji j
k
i i i ji
z x xn
z z media delle z nell i esimo gruppon
z n z media di tutte le zN
La statistica del test è data dalla seguente variabile
2
1
2,
1 1
1 j
k
i ii
nk
i j ii j
n z zN k
Wk
z z
che ha distribuzione di Fisher kNkF ,1 . Il set critico di livello % è il seguente
,,1 kNkFW
per cui se la grandezza W è più grande del percentile dell’ % della Fisher kNkF ,1 , l’ipotesi nulla
va rifiutata, e si deve ritenere l’insieme di dati eteroschedastico. ANOVA (Analysis of Variance) : confronto tra medie di più gruppi In molte situazioni, l’insieme o popolazione di unità da analizzare può presentare delle sottostrutture per cui il modello statistico rappresentato dalle medie di insieme (valore medio, varianza, …) può risultare in una descrizione troppo grossolana della variabilità insita nella popolazione: infatti parte di questa variabilità non è da attribuirsi al caso, all’evento aleatorio, ma alla presenza di una variabilità strutturata, determinata appunto da queste sottostrutture: in ognuna di queste gli elementi hanno un comportamento statisticamente omogeneo, ovvero presentano una variabilità interamente dovuta a cause aleatorie e bene descritta da medie di insieme, caratteristiche tuttavia del sottogruppo considerato; queste medie peraltro possono cambiare molto tra i vari sottogruppi per motivi non di natura aleatoria ma dovuti a meccanismi di natura sistematica! Si pensi ad esempio ad una produzione che venga effettuata da reparti con esperienza ed affiatamento differenti; alla vendita di articoli editoriali di varia natura: giornali, settimanali, audiovisivi; all’effetto di materie prime acquistate da fornitori differenti, come stoffe, filati , reagenti chimici, e chi più ne ha più ne metta! Consideriamo il caso di un portafoglio costituito da 4k prodotti finanziari di cui interessa il numero di scambi giornalieri in borsa su un numero di 10 rilevazioni per ognuno di essi
50
Prodotti Finanziari N° in migliaia di Scambi giornalieri
Il numero di rilevazioni per ciascuna classe non deve necessariamente coincidere, e le singole determinazioni possono considerarsi come estrazioni casuali indipendenti di una v.a. X . In generale quindi avremo in , 1, ,i k , rilevazioni sperimentali; indichiamo con ijx la j-esima
rilevazione per la classe i-esima ( 1, , ; 1, , ii k j n ).
Come si vede le medie interclasse ˆi sono diverse tra loro e diverse dalla media di
popolazione
1 1 1 1
1 1ˆ, ,
i in nk k
ij i i iji j i ji
x n n xn n
Vogliamo stabilire se questa variabilità è da attribuirsi al caso oppure è qualcosa di sistematico. Nell'ipotesi che la popolazione di dati possa ritenersi omoschedastica con distribuzione gaussiana, rappresentiamo il generico dato ijx nel seguente modo
ij i ijx a y
dove ia modella l’effetto della classe i-esima e ijy è una fluttuazione statistica che modelliamo
come una gaussiana con media nulla e varianza 2 costante per tutte le classi; risulta che ijx è
modellata come una gaussiana con media i ia e varianza 2 .
A questo punto si vuole testare l’ipotesi composta
0 : 0iH a per ogni i
cioè che la differenza interclasse è da attribuirsi al caso, contro l’ipotesi alternativa
1 : 0iH a per almeno un i
51
che tale differenza sia dovuta ad un fattore sistematico. Consideriamo la varianza campionaria totale
2 2 2
1 1 1 1 1
1 1 1ˆ ˆ ˆ ˆ
i in nk k k
ij ij i i ii j i j i
WT V
x x nn n n
che con semplici passaggi può decomporsi nelle due varianze parziali V e W : la prima rappresenta la variabilità intraclasse, cioè la variabilità dei dati all’interno di ciascun gruppo di in termini che è
la stessa indipendentemente dal fatto che l’ipotesi 0H sia vera o falsa; la seconda fornisce la
variabilità interclasse e, se l’ipotesi 0H è vera, risulta essere una fluttuazione casuale, altrimenti
porta in conto la variabilità dovuta alle differenze tra le medie dei vari sottogruppi.
Ora se l’ipotesi 0H è vera, la variabile 2/T risulta essere distribuita come una 2 con
1n gradi di libertà. In base al teorema di Cochran si può quindi dimostrare che 2/V è distribuita
come una 2 con n k gradi di libertà, mentre 2/W ha distribuzione 2 con 1k gradi di libertà; inoltre V e W sono tra loro indipendenti. Quindi il rapporto
/( 1)
/( )
W kF
V n k
ha distribuzione di Fisher con 1 21,k n k gradi di libertà. Se W è troppo grande
dovremmo rifiutare 0H ; fissando un livello di significatività del test pari ad , ovvero fissando la
probabilità di commettere l’errore di tipo I rifiutando 0H quando è vera, dalle tavole della
distribuzione 1 2,F si ricava il percentile F per cui se
F F
si rifiuta 0H prendendo la decisione giusta nell’ (1 )% dei casi. Il terst appena anlizzato prende
comunemente il nome di F-test. L’analisi svolta viene normalmente riportata su una tabella che viene detta appunto tabella dell’analisi della varianza
variazione gradi di libertà somme dei quadrati
devianze statistiche
Tra gruppi k-1 W W/(k-1) /( 1)
/( )
W k
V n k
;
lnz F
Nei gruppi n-k V V/(n-k)
Totale n-1 T
che nel nostro caso diventa
52
variazione gradi di libertà Somme dei quadrati
devianze statistiche
Tra gruppi 3 2620 873.33 F = 4.84; z = 0.79
Nei gruppi 36 6496 183.22 Totale 39 9116 Se si sceglie 0.05 dalle tavole si ricava 2.90F ; per cui dato che 4.84>2.90 dobbiamo
rifiutare l’ipotesi che la differenza tra le medie degli scambi giornalieri dei 4 prodotti finanziari sia dovuta al caso. Lo stesso tipo di analisi può essere condotta se la misura della grandezza di interesse x è influenzata da più di un attributo. In riferimento al caso già trattato supponiamo di considerare il
numero di scambi giornalieri di k titoli in h mercati; per cui ora ( )ijx denota la -esima rilevazione
del numero di scambi giornalieri del titolo i -esimo nel mercato j -esimo. Ora, il generico dato può essere rappresentato nel seguente modo
( ) ( ) ij i j ij ijx a b y
Senza perdita di generalità, per semplificare le notazioni, si assume che ciascuna classe sia composta dallo stesso numero di elementi, per cui 1 m per ogni ,i j . La costante ij modella
l'effetto combinato dei due attributi, e la variabile ( )ijy modella al solito la variabilità statistica del
dato e si assume con distribuzione 2(0, )N . Siano ora
( ) ( ) ( ),.,. ., ,.
1 1 1 1 1
1 1 1ˆ ˆ ˆ, ,
h m h m m
i j ijij ij ijj i
x x xh m k m m
la media dei dati per il valore i-esimo del primo attributo, la media dei dati per il valore j-esimo del secondo attributo, la media dei dati all'interno di ciascun gruppo individuato dalla generica coppia di valori i, j del primo e del secondo attributo. La variabilità totale T dei dati può essere questa volta decomposta nel seguente modo
2 2 22( ) ( ),.,. ., ,.
1 1 1 1 1 1 1 1
2,.,. ., ,. 1 2
1 1
ˆ ˆ ˆ ˆ ˆ ˆ
ˆ ˆ ˆ ˆ
k h m k h m k h
ij i jij iji j i j i j
k h
ij i j Ii j
x x h m k m
m V W W W
Il primo termine a secondo membro V rappresenta la variabilità statistica dei dati all'interno di ciascun gruppo ed è indipendente dalla presenza degli effetti degli attributi; esso costituisce il
53
termine di errore. Il secondo termine 1W ed il terzo 2W rappresentano la variabilità dovuta
all'effetto del primo attributo ed all'effetto del secondo attributo, rispettivamente. Il termine
IW viene detto interazione e quantifica l'effetto legato alla sinergia degli attributi. L'ipotesi nulla
0H richiede che tutte le costanti , ,i j ija b siano nulle. Se questo è vero, con l'ipotesi di gaussianità
dei dati, si ha al solito che 2/T è distribuita come una 2 con 1k h m gradi di libertà. Si può
quindi applicare il teorema di Cochran ed affermare che 2 2 2 21 2, , , IV W W W sono
variabili aleatorie indipendenti con distribuzione 2 con gradi di libertà 1k h m , 1k , 1h
e 1 1k h rispettivamente. A questo punto si possono testare varie ipotesi: se si vuole valutare
l'importanza del primo attributo si considera la variabile
11
/ 1
/ 1
W kF
V kh m
che risulta avere distribuzione di Fisher con 1 , 1k kh m gradi di libertà. Fissando al solito il
livello % di significatività del test è possibile rilevare sulle tabelle opportune il relativo percentile
1,F ; se il valore 1F ottenuto dai dati dell'esperimento supera 1,F si deve ritenere che l'effetto del
primo attributo introduce una variabilità sistematica nei dati, non attribuibile a cause aleatorie, e quindi ha senso stratificare i dati in base ai valori del primo attributo. Lo stesso ragionamento vale per il secondo attributo; si consideri la variabile
22
/ 1
/ 1
W hF
V kh m
che ha distribuzione di Fisher con 1 , 1h kh m gradi di libertà. Si scelga il livello % di
significatività del test e si determini il percentile 2,F dalle tabelle. I valori del secondo attributo
inducono una stratificazione significativa dei dati se 2 2,F F .
Infine il grado di interazione fra gli attributi può essere valutato considerando la variabile
/ 1 1
/ 1I
IW k h
FV k h m
che ha distribuzione di Fisher con 1 1 , 1k h kh m gradi di libertà. Scelto il livello % di
significatività del test e determinato il percentile ,IF dalle tabelle, se risulta ,I IF F dovremo
ritenere che l'effetto combinato dei due attributi è significativo ai fini di una stratificazione della popolazione. La popolazione risulta essere omogenea se in tutti e tre i test precedenti le statistiche
1 2,F F e IF ottenute dai dati non superano i rispettivi percentili.
Nel caso particolare in cui 1m , per cui è disponibile una sola rilevazione ijx della variabile x per
ogni coppia di valori ( , )i j dei due attributi, non è possibile modellare il grado di interazione tra gli attributi. Per cui si avrà la seguente rappresentazione del dato generico
54
ij i j ijx a b y
dove, nelle stesse ipotesi del caso con interazione, ia è una costante che tiene conto dell’effetto
dell’attributo “titolo”, jb è una costante che tiene conto dell’effetto dell’attributo “mercato”, e
20ijy N , . In questa situazione le grandezze
1 1 1 1
1 1 1h k k h
i ,. ij ., j ij ijj i i j
ˆ ˆ ˆx , x , xh k hk
denotano la media degli scambi giornalieri del titolo i -esimo sull’insieme dei mercati, la media degli scambi giornalieri dell’insieme di titoli nel mercato j -esimo e la media degli scambi giornalieri di titoli sull’insieme dei mercati, rispettivamente. La variabilità totale dei dati risulterà quindi ripartita nel seguente modo
2 2 22
1 1 1 1 1 1 1 1
2 22
1 1 1 1
1 2
,. ., ,. .,
,. ., ,. .,
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ
ˆ ˆ ˆ ˆ ˆ ˆ
k h k h k h k h
ij i j ij i ji j i j i j i j
k h k h
i j ij i ji j i j
x x
h k x
W W V
Il primo termine a secondo membro è la variabilità tra i vari titoli, il secondo è la variabilità tra i mercati, ed il terzo termine è detto comunemente termine di errore. Con ragionamenti analoghi al caso precedente, a norma del teorema di Cochran, possiamo affermare che i tre termini a secondo
membro sono indipendenti; inoltre 21W è distribuita come una 2 con 1k gradi di libertà,
22W è distribuita come una 2 con 1h gradi di libertà e V è distribuita come una 2 con
1 1h k gradi di libertà.
A questo punto possiamo testare varie ipotesi; per esempio se vogliamo testare se l’effetto della variabilità dovuta ai titoli è significativo basta considerare la variabile
1
1
1
1 1
/
/
W kF
V h k
che sarà distribuita come una Fisher 1 1 1, k h kF . Se invece vogliamo testare per la significatività
dell’effetto legato ai mercati possiamo considerare la variabile
2
2
1
1 1
/
/
W hF
V h k
55
4 4.5 5 5.5 6
0.02
0.05
0.10
0.25
0.50
0.75
0.90
0.95
0.98
Data
Pro
ba
bili
ty
Normal Probability Plot
che sarà distribuita come una Fisher 1 1 1, h h kF .
Esaminiamo il seguente caso. Tre tipi di fondo per vernici (primer) sono applicatio su alluminio in due modi: immersione (dipping, D), a spruzzo (spraying, S). L'esperimento consiste nel determinare la forza di adesione della vernice (adhf) dipendentemente dal fondo e dal metodo utilizzati. In base ai valori della tabella valutiamo se la forza di adesione risente singolarmente del primer e del metodo di applicazione, o risente del loro effetto combinato. I dati dell'esperimento sono riportati nella tabella accanto: si ha un totale di 18 misure: per ogni primer si hanno tre ripetute per il metodo dipping e tre ripetute per lo spraying. La forza di aderenza della vernice dipende da due attributi : il "metodo di deposizione del primer", attributo con
2k valori "D" e "S"; il "tipo di primer " con 3h valori "tipo 1", "tipo 2" e "tipo 3". Gli attributi determinano un totale di
* 6k h gruppi, ciascuno con 3m ripetute
( ) , 1, 2 1, 2,3 1, 2,3ijx i j
Verifichiamo l'applicabilità del test ANOVA a 2 vie descritto. Il valor medio campionario dei dati è pari a 4.9889, mentre la deviazione standard stimata, nell'ipotesi che il campione sia casuale, è pari a 0.2070. I dati sono valori positivi, ci chiediamo quanto sia verosimile testare un'ipotesi di gaussianità: notiamo in effetti che la media dei dati dista dallo 0 per più di 4, per la distribuzione gaussiana può essere un buon modello di distribuzione dei dati, in quanto prevede che l'insieme dei valori negativi ha una probabilità di occorrere inferiore a 0.006. Analizziamo il Q-Q plot. Dalla figura accanto si nota un certo allineamento tra i quantili: il test di Lilliefors (Matlab) suggerisce che il rifiuto dell'ipotesi nulla che la distribuzione dei dati sia gaussiana ha un rischio (p_value) pari a 0.4233>>0.05, per cui l'ipotesi nulla va accettata, ed i dati sono ritenersi estratti da una distribuzione gaussiana. Verifichiamo ora l'omoschedasticità dei dati (ipotesi nulla): il test di Bartlett garantisce che non ci sia differenza significativa tra le varianze dei gruppi, con un p_value pari a 0.9214. Siamo quindi nelle condizioni di applicazione del test ANOVA di Pearson. Ripartiamo quindi la variabilità totale dei dati nel modo visto
2 3 3 2 3 3 2 32 2 22( ) ( ),.,. ., ,.
1 1 1 1 1 1 1 1
2 3 2,.,. ., ,. 1 2
1 1
ˆ ˆ ˆ ˆ ˆ ˆ9 6
ˆ ˆ ˆ ˆ3
ij i jij iji j i j i j
ij i j Ii j
T x x
V W W W
adhf primer method 1 4.0 1 D 2 4.5 1 D 3 4.3 1 D 4 5.6 2 D 5 4.9 2 D 6 5.4 2 D 7 3.8 3 D 8 3.7 3 D 9 4.0 3 D 10 5.4 1 S 11 4.9 1 S 12 5.6 1 S 13 5.8 2 S 14 6.1 2 S 15 6.3 2 S 16 5.5 3 S 17 5.0 3 S 18 5.0 3 S
56
3 3 3 3
( ) ( )1,.,. 2,.,.1 2
1 1 1 1
2 3 2 3 2 3( ) ( ) ( )
.,1,. .,2,. .,3,.1 2 31 1 1 1 1 1
1 1ˆ ˆ4.4667, 5.5111
9 9
1 1 1ˆ ˆ ˆ4.7833, 5.6833 4.5
6 6 6
j jj j
i i ii i i
x x methods
x x x primers
3 3 3
( ) ( ) ( )11 12 1311 12 13
1 1 1
3 3 3( ) ( ) ( )
21 22 2321 22 231 1 1
2 3 3( )
1 1 1
1 1 1ˆ ˆ ˆ4.2667, 5.3, 3.8333,
3 3 3
1 1 1ˆ ˆ ˆ5.3, 6.0667 5.1667
3 3 3
14.9889
18 iji j
x x x
x x x
x
Si ottiene
10.7178, 0.9867, 1 4.9089, 2 4.5811, 0.2411T V W W WI I dati sono gaussiani e omoschedastici, per cui sotto l'ipotesi nulla
0 1 2 1 2 11 12 21 22: 0, 0, 0H a a b b
la variabile 2T
ha distribuzione 217 ; il teroema di Cochran assicura quindi che le variabili
, 1, 2,V W W WI sono 2 tra loro indipendenti, con gradi di libertà rispettivamente pari a 12, 1, 2, 2 . A questo punto calcoliamo le statistiche del test per la significatività dell'attributo "metodo di deposizione"
11 59.7027
/12
WF
V
dell'attributo "tipo di primer"
2 / 22 27.8581
/12
WF
V
e dell'interazione fra i due attributi
/ 21.4662
/12
WIFI
V
Fissando il livello di significatività del test pari a % 0.05 , dalle tabelle della Fisher otteniamo il percentile per la 1,12F pari a 4.75, per cui si può ritenere che il metodo di deposizione del fondo
costituisca un attributo che influenza significativamente la forza di aderenza della vernice; dai
57
valori medi calcolati per methods si vede subito che il secondo metodo (spraying) determina una forza media (sui tre tipi di primer) di aderenza pari a 5.5111 contro 4.4667 del primo metodo (dipping). Invece il percentile per la 2,12F pari a 3.88, per cui anche l'attributo "tipo di primer"
influenza significativamente la forza di aderenza: dai valori medi calcolati per primers si nota come il secondo tipo di fondo garantisca una forza di aderenza media (sui due metodi di deposizione) pari a 5.6833, significativamente più alta rispetto agli altri due tipi di fondo, che hanno prestazioni simili di 4.7833 (tipo 1) e 4.5 (tipo 3). Questa considerazione comunque andrebbe confortata con una ulteriore analisi ponendo i dati relativi al tipo1 e tipo 3 in un unico gruppo e verificare la differenza significativa con il gruppo di dati relativi al tipo 2. Per quanto riguarda l'interazione, dato che il percentile è lo stesso che per F2, si vede come si debba escludere una sinergia tra metodo di deposizione del fondo e tipo di fondo. Per quanto riguarda la significatività dei due attributi singolarmente, avremmo potuto anche utilizzare due ANOVA ad una via. Ad esempio, per l'attributo "metodo di deposizione", avremmo raggruppato i dati in due classi: la prima per il valore "dipping" dell'attributo, aggregando i 9 dati in tabella contrassegnati con "D", relativi ai tre tipi di primer; la seconda classe relativa al valore "sparying" dell'attributo, aggregando i 9 dati in tabella contrassegnati con "S". In questo caso si sarebbe ottenuta la seguente ripartizione della variabilità dei dati
2 3 3 2 3 3 22 2 2( ) ( )
1 1 1 1 1 1 1
ˆ ˆ ˆ ˆ9i iij iji j i j i
T x x V W
dove è lo stesso di prima in quanto è la media globale dei dati, mentre
3 3 3 3( ) ( )
1 1,.,. 2 2,.,.1 21 1 1 1
1 14.4667 , 5.5111
9 9j jj j
x x
Si ottiene
10.7178, 5.8089, 4.9089T V W Si noti come il termine W è lo stesso del termine 1W dell'ANOVA a due vie con interazione, mentre il termine d'errore V raccolga la somma dei termini , 2,V W WI (salvo approssimazioni numeriche) della precedente analisi. Nelle stesse ipotesi statistiche abbiamo che la variabile
13.521/16
WF
V
ha distribuzione Fisher 1,16F il cui percentile del 5% è compreso tra 4.54 e 4.35. Per cui si deve
rifiutare l'ipotesi nulla e ritenere il metodo di deposizione un fattore significativo per la forza di aderenza della vernice. Inoltre, avendo solo due gruppi, risulta immediatamente che il secondo metodo, lo spraying, ha le prestazioni migliori, garantendo una forza di adesione media (su tutti i primer) di 5.5111 contro 4.4667 del metodo dipping. Tale risultato conferma quanto ottenuto nell'ANOVA a due vie. Sulla scorta di questa osservazione eseguiamo ora un ANOVA ad una via per l'attributo "tipo di primer". Si ottengono tre classi, ognuna di 6 dati ottenuti considerando per ogni primer le 3 ripetute contrassegnate con "D" e le 3 contrassegnate con "S". Si ottiene
58
2 3 3 2 3 3 32 2 2( ) ( )
1 1 1 1 1 1 1
ˆ ˆ ˆ ˆ6i iij iji j i j i
T x x V W
con
2 3 2 3 2 3( ) ( ) ( )
1 .,1,. 2 .,2,. 3 .,3,.1 2 31 1 1 1 1 1
1 1 14.7833 , 5.6833 , 4.5
6 6 6i i ii i i
x x x
Si ottengono quindi i seguenti valori
10.7178, 6.1367, 4.5811T V W Possiamo anche qui notare che 2W W , mentre V raccoglie i termini , 1,V W WI dell'ANOVA a due vie. Osserviamo che il termine di differenza tra gruppi questa volta è più piccolo che nel caso precedente per l'attributo "metodo di deposizione ", mentre la V è più grande. Infatti risulta
2/ 2
5.5989
15
WF
V
che comunque è maggiore del percentile del 5% di una Fisher 2,15 3.68F . Per cui anche l'effetto
dell'attributo " tipo di primer" è da ritenersi significativo. Tuttavia, rispetto al caso precedente, ora ci sono tre gruppi e non è chiaro come scegliere il primer migliore, in quanto il rifiuto dell'ipotesi nulla dice solo che c'è almeno un gruppo significativamente differente dagli altri. Per cui bisogna condurre un'analisi ulteriore, come si era peraltro già precisato in occasione dell'analisi ANOVA a 2 vie. Analizziamo ora il caso di studio togliendo la variabilità dei dati dovuta alle tre ripetute per ogni gruppo: questo si ottiene sostituendo alle 3 ripetute la loro media , 1, 2 1, 2,3ij i j .
Otteniamo quindi uno schema di analisi ANOVA a 2 vie senza interazione
2 3 2 3 2 32 2 22
1 1 1 1 1 1
1 2
3 2ij i ,. ., j ij i ,. ., ji j i j i j
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆT
W W V
dove
3 3
1 1 2 21 1
2 2 2
1 1 2 2 3 31 1 1
1 14 4667 5 5111
3 3
1 1 14 7833 5 6833 4 5
2 2 2
,. j ,. jj j
., i ., i ., ii i i
ˆ ˆ ˆ ˆ. , .
ˆ ˆ ˆ ˆ. , . , .
Quindi si ottiene
1 23.2427, 0.0804, 1.6363, 1.5270T V W W
59
Notiamo subito che la variabilità totale è diminuita rispetto ai casi precedenti in quanto questa è
dovuta solo alle "medie delle misure in ciascun gruppo" ij e non dalle misure ( )ijx , come nei casi
precedenti. Nelle stesse ipotesi statistiche dei casi precedenti abbiamo che le variabili
1 21 2
/ 240.7189, 19
/ 2 / 2
W WF F
V V
hanno distribuzione di Fisher 1,2F con percentile del 5% pari 18.51, e 2,2F con percentile del
5% pari 19. Per cui, mentre per il primo l'attributo "metodo di deposizione" otteniamo dei risultati in accordo con quelli delle analisi precedenti, in quanto l'ipotesi nulla deve essere rifiutata, per il secondo attributo "tipo di primer" la situazione è un pò critica: si ottiene un valore di 2F proprio pari
al percentile 2,2,0.05 19F (in effetti sarebbe 2 19.000000000000142F ). A questo punto siamo
proprio sulla frontiera del set critico, potremmo senz'altro decidere comunque di rifiutare l'ipotesi nulla; sarebbe comunque più ragionevole ad esempio richiedere l'acquisizione di dati ulteriori. Ma, indipendentemente dalla decisione che prenderemo, notiamo come l'aver mediato le misure riducendo la variabilità totale dei dati abbia portato ad una situazione di indecisione. Avremmo anche potuto avere un risultato per cui, nel caso del secondo attributo, avremmo dovuto accettare l'ipotesi nulla, ottenendo un'indicazione in netto contrasto con quella delle analisi precedenti. Questo semplice caso di studio su dati reali ha mostrato che è meglio usare un modello per i dati in cui i due (o più) attributi vengono considerati contemporaneamente, conviene quindi sempre rappresentare al meglio tutte le cause di variabilità dei dati.
60
Concludiamo la sezione dell'ANOVA riassumendo e discutendo le ipotesi che devono essere soddisfatte dall'insieme dei dati affinché l'F-test dia risultati attendibili
1. ciascun gruppo dell'insieme deve essere un campione di dati casuale, e i dati relativi a gruppi differenti devono essere indipendenti
2. i gruppi devono avere grosso modo lo stesso numero di dati 3. la scala di variazione dei dati deve essere comparabile tra i diversi gruppi 4. la distribuzione dei dati deve essere gaussiana 5. la varianza deve essere costante
Diciamo subito che l'F-test è robusto rispetto a violazioni delle condizione 4) e 5) se ogni gruppo ha un numero di dati sufficientemente grande e più o meno uguale tra loro. In caso di numero di dati basso, le differenze tra le varianze può risultare determinante. K-W ANOVA. L'algoritmo di Kruskal-Wallis è un test ANOVA non parametrico che si può applicare tutte le volte che la distribuzione dei dati differisca significativamente dalla gaussiana, pur rimanendo la stessa per tutta la popolazione, per cui deve sempre valere l'omoschedasticità. Per meglio illustrare l'algoritmo consideriamo un esempio. Un'azienda vinicola chiede a degli intenditori di testare tre dei loro vini, indichiamoli per semplicità A, B e C, con un punteggio da uno a dieci. Ecco quanto ottenuto dopo i vari assaggi (tabella di sinistra)
Per prima cosa si devono ordinare i dati in ordine crescente. Nella tabella quindi ad ogni dato viene sostituito il suo numero d'ordine nella lista (rank). Se due o più dati dovessero avere lo stesso valore e quindi occupare lo stesso rank, questo viene ripartito in parti uguali in modo da non privilegiare nessun gruppo (adjusted ranks). Nel caso in esame si ottiene la tabella di destra. Ora l'ipotesi nulla consiste nel testare che i valori medi dei ranghi dei tre gruppi siano uguali, contro l'ipotesi
alternativa che almeno due di essi differiscano. Siano al solito 1 2 3, ,n n n il numero di dati per
ciascun gruppo, e si indichino con 1 2 3, ,r r r i valori medi dei ranghi nei tre gruppi, mentre sia
r la media dei ranghi per tutto l'insieme di dati. La statistica del test è data dalla seguente variabile
32
1
ˆ ˆ
11
12
i ri ri
n
HN N
dove al solito N è il numero totali di dati. Questa risulta essere distribuita approssimativamente
come una 2 23 1 2 (chi-quadro a 2 gradi di libertà ). Il percentile del 5% di tale distribuzione è
pari a 5.991. Per cui il set critico del test di livello 5% è data da
61
5.991H
Nel caso in esame si ottiene 9.5591H , per cui si deve rifiutare l'ipotesi nulla e ritenere che i gruppi abbiano ranghi con medie significativamente differenti; si noti in particolare come i ranghi corrispondenti al vino A siano più elevati rispetto agli altri due vini, per cui possiamo senz'altro concludere che il vino A abbia riscosso maggior successo tra gli intenditori. Il test K-W da buoni risultati se le la distribuzione dei dati ha la stessa forma per tutti i gruppi e le varianze sono sostanzialmente uguali, già con 5 dati per ogni gruppo. Generalmente si assegna come regola che la varianza più grande sia non più del doppio della varianza più piccola. Se tuttavia i dati avessero la stessa distribuzione ma soffrissero di una forte eteroschedasticità, il test K-W non è affidabile. In caso che la distribuzione sia gaussiana si può ricorrere al seguente test. Welch ANOVA. Con il solito significato dei simboli, facciamo riferimento ad un insieme di dati con k gruppi; la distribuzione sia gaussiana ma le varianze dei gruppi differiscano significativamente. In queste condizioni il valor medio di popolazione si calcoli con la seguente media pesata
12
1
ˆ
ˆ , ,i
k
i i ki i
i iin
wn
w w ww s
dove al solito le 2ins sono le varianze campionarie di ciascun gruppo. La statistica del test è data
dalla seguente variabile
2
1
2
21
ˆ ˆ( )
1
2( 2) 11 1
11
k
i ii
ki
ii
w
kWwk
n wk
che risulta essere distribuita come una chi-quadro con un numero di gradi di libertà dato da
2
2
1
1
13 1
1
ki
ii
k
w
n w
Come al solito si prende il valore intero più vicino.
62
Piano degli esperimenti Come abbiamo visto, l’analisi della varianza permette di testare ipotesi composte nella stima del valor medio di una popolazione. Nel caso quindi che l’ipotesi 0H debba essere rifiutata significa
sostanzialmente che l’insieme di dati non è omogeneo statisticamente; quindi se nella stima del valor medio di insieme il campione di n dati non venga opportunamente stratificato tra le varie classi dell’insieme, ne risulterebbe una stima affetta da grande variabilità, e quindi poco affidabile. Questo può essere facilmente compreso se consideriamo il caso in cui gran parte dei dati del campione cadano in una sola delle classi; questo darebbe luogo ad una stima del valor medio d’insieme fortemente polarizzata dalle caratteristiche statistiche della classe suddetta. Nasce quindi l’esigenza di pianificare l’esperimento in modo da raccogliere i dati distribuendo opportunamente la numerosità del campione tra le varie classi o strati; questa tecnica prende il nome di stratificazione (o clusterizzazione). La situazione generale è quindi quella di un insieme di N elementi suddivisi in k strati ognuno con iN unità. Sia i il valor medio di un certo
attributo degli elementi considerati nella classe i-esima, e sia /i iw N N il peso della classe i-esi-
ma nell’insieme, che supponiamo noto perché, ad esempio, ottenuto da una precedente indagine sperimentale condotta ad hoc. Come è facile verificare per il valore medio di insieme si ha
1
k
i ii
w
Ora consideriamo in elementi per ogni strato e stimiamo i con la media campionaria ˆ
in . Come
sappiamo questa è una stima centrata ˆin iE e, nel caso realistico di estrazione in blocco
senza reinserzione, con varianza
2
2ˆ 1ni
i i i
i i
N n
N n
mentre nel caso sia possibile l’estrazione di un campione indipendente si otterrebbe
22ˆni
i
in
dove 2i è la varianza intraclasse dell’attributo considerato, ed è inferiore alla varianza 2 di
popolazione se, ovviamente, la stratificazione è stata eseguita opportunamente! La stima ˆn della
media di popolazione è quindi data da
1
ˆ ˆi
k
n i ni
w
che è centrata come è facile verificare; inoltre ritenendo che il campione preso da uno strato sia indipendente da quelli presi dagli altri, la varianza di ˆn è data da
63
22
12 2 2ˆ ˆ
1 22
1
. .
. .1
n ni
ki
iiik
ii k
i i ii
i ii
w camp indpn
w
N nw camp non indp
N n
dove 2i può essere a sua volta stimata nei modi indicati.
Come si vede la varianza della stima dipende dagli in , per cui una corretta scelta di essi può
rendere la stima ˆn più accurata possibile una volta fissato, per motivi di costi o altri motivi di
ordine pratico, la numerosità totale n del campione. Esaminiamo due possibili strategie!
1) Attribuzione proporzionale
In questo caso si sceglie i in w n (ovviamente approssimato ad un intero); per la varianza
della stima otteniamo
2
12ˆ
2
1
1. .
1. .
1
n
k
i ii
ki i
i iii
w camp indpn
N nw camp non indp
n N
ed è facile dimostrare che risulta essere minore rispetto a quella ottenibile estraendo un campione casuale di dimensione n dall’intera popolazione. 2) Attribuzione ottimale
In questo caso si cercano i valori ottimi *in che rendano minima la varianza 2
ˆn della stima,
con il vincolo in n . Mediante la tecnica dei moltiplicatori di Lagrange si ottiene
64
1*
1
. .
1. .
1
i ik
j jj
i
ii i
ik
jj j
jj
Nn camp indp
N
n
NN
Nn camp non indp
NN
N
In effetti, nella misura in cui 1/ i iN N 1, si può usare la stessa attribuzione ottima
e la varianza della stima all’ottimo vale
2
12ˆ
2 2 2
1 1
1. .
1. .
1 1
n
k
i ii
k ki i i
i ii ii i
w camp indpn
N ww camp non indp
n N N
Esempio Si vuole stimare il consumo medio giornaliero di pane in un’azienda di 10.000N dipendenti. Se si ricorresse ad un campione casuale di 1000n dipendenti, supponendo una varianza di
popolazione 2 9 , la stima campionaria ˆn della media avrebbe varianza
2
2ˆ
90.009
1000n n
Tendendo conto delle varie tipologie di dipendenti, si può pensare alla seguente stratificazione
Nell’ipotesi che il campionamento interclasse sia indipendente, nel caso di attribuzione proporzionale si ottiene
2 2 2 2
2ˆ
(0.65)1 (0.25)1.5 (0.092)2 (0.008)2.5 1.6305n n n
Volendo mantenere la stessa accuratezza della stima ottenuta con il campione casuale si pone
1.6305
0.009n
da cui si ricava 190n anziché 1000 come prima, ottenendo quindi un forte risparmio in termini di numero di rilevamenti da effettuare. L’attribuzione proporzionale sarebbe la seguente
i ni
1 124 2 47 3 17 4 2
totale 190 Fissando definitivamente 190n e scegliendo l’attribuzione ottima
i *in
1 98 2 57 3 29 4 6
totale 190
otterremmo la seguente varianza della stima
22ˆ
1(0.65)1 (0.25)1.5 (0.092)2 (0.008)2.5 0.00794
190n
che è sensibilmente inferiore a quella ottenuta con l’attribuzione proporzionale.
Svolgiamo ora la nostra indagine circa il consumo medio giornaliero di pane sulla base di un campione di 190 unità come indicato dalla nostra analisi preliminare. I dati sono 10.000N , i
valori di iN e iw della tabella precedente, ed i valori ottimi *in appena determinati. Prelevando
quindi il campione secondo la modalità prestabilita e calcolando medie e varianze campionarie si è ottenuto
66
i ˆin
,1
*
*ˆ
1i ii
n ni
ns
n
1 4.3 1.2 2 3.5 1.6 3 2.0 2.1 4 1.5 2.3
Per il consumo medio giornaliero di pane per l’azienda considerata si ottiene
4
1
ˆ ˆ 0.65 4.3 0.25 3.5 0.092 2 0.008 1.5 3.866in i n
iw
La stima della varianza, con le stime delle varianze intraclasse, risulta
22ˆ
1ˆ 0.65 1.2 0.25 1.6 0.092 2.1 0.008 2.3 0.0102
190n
che da luogo ad una deviazione standard di 0.1010 ed un coefficiente di variazione