Analisi della varianza ed applicazioni · ANALISI DELLE VARIANZA ED APPLICAZIONI ... possibile la misurazione reciproca degli scostamenti (varianze) su cui si basa il calcolo della

ANALISI DELLE VARIAN ZA ED APPLICAZIONI

L’analisi della varianza è un insieme di

modelli di analisi introdotti dal grande

statistico inglese Ronald Fisher in cui

la variazione totale presente in un insieme di

dati viene scomposta ed analizzata in diverse

componenti.

Ognuna di queste quote di variazione specifica

viene valutata sia in rapporto reciproco sia in

rapporto allo specifico contributo alla

variabilità totale.

|------------------------------------------------------------|

variazione totale |--------------------------|-------------------|--------------|

variazione totale scomposta

Tra gruppi Entro gruppi Residua

Applicazioni

L’ANOVA trova maggiore applicazione in

presenza di dati sperimentali ovvero per valutare

in maniera comparativa gli effetti di un

esperimento condotto secondo un progetto

chiamato piano sperimentale, experimental design.

L’ANOVA risolve l’ipotesi di ricerca per cui: la modifica introdotta dallo sperimentatore delle condizioni di una variabile (variabile trattamento)

? determina o meno ?

la modifica dei valori di una altra variabile oggetto dello studio (variabile risposta) .

ovvero

“ valori diversi della variabile trattamento hanno un effetto significativo non casuale sulla variazione della variabile risposta ?”

Il controllo delle condizioni del piano

sperimentale e la corretta applicazione del test

portano ai risultati valutativi dell’esperimento.

variabile risposta: oggetto dello studio, entità

misurata nei singoli casi che ci si aspetta vari in

funzione della variabile trattamento;

variabile trattamento: soggetto dello studio,

entità usata in dosi o qualità o fattori diversi che

agisce o meno sulla variabile risposta;

unità sperimentale: singola entità- individuo-

animale – oggetto misurato, in cui viene effettuato

il trattamento e valutata la risposta-

Esempi

• Variabile risposta: colesterolemia • Variabile trattamento: trattamento con tipo

A,B, C…di statine • Unità sperimentale: individui singoli trattati • Variabile risposta: aumento ponderale

giornaliero in animali zootecnici allevati • Variabile trattamento: tipi diversi A, B, C, D…

di dieta specifica • Unità sperimentale: singoli animali allevati • Variabile risposta: numero batteri di

Streptococcus per unità di omogeneizzato polmonare

• Variabile trattamento: tipo di antibiotico A (es. amoxicillina) , B, C, D… + controllo

• Unità sperimentale: individui singoli trattati

Anche condizioni non gestite o direttamente determinate dallo sperimentatore sono oggetto di studio della analisi della varianza, avendo riconosciuto le componenti dell’analisi e verificato le assunzioni di applicabilità (vedi più avanti),

Esempi • Variabile risposta: misura della funzionalità

polmonare (volumi residui) • Variabile trattamento: essere fumatore, ex

fumatore, mai fumatore • Unità sperimentale: individui singoli trattati

• Variabile risposta: qualità del sonno secondo il

PSQI (Pittsburgh Sleep Quality Index) • Variabile trattamento: essere depressi, non

depressi, reduci di esperienza traumatica • Unità sperimentale: individui singoli trattati

• Variabile risposta: peso alla nascita del neonato

• Variabile trattamento: condizione socio-economica A, B, C… della madre

• Unità sperimentale: singoli neonati pesati

l’analisi della varianza trova applicazione anche nella valutazione di studi osservazionali ed ecologici, anche applicati alle Scienze Naturali, dove lo sperimentatore non ha introdotto personalmente variazioni nella variabile trattamento ma ha riconosciuto e valutato condizioni naturali “ sperimentali” diverse che si sono verificate nel tempo ed in natura, esempi:

• Variabile risposta: concentrazione di alga

tropicale infestante Caulerpa per m2 • Variabile trattamento: diversa esposizione alle

correnti marine • Unità sperimentale: unità di area di siti costieri

diversamente esposti alle correnti

ecologia • Variabile risposta: lunghezza del becco di una

specie di fringuello • Variabile trattamento: ecotipi della specie

presenti in aree diverse (es. isole –vallate..) • Unità sperimentale: singoli individui di

fringuello misurati Zoologia-Genetica

• Variabile risposta: età al menarca delle

giovani femmine alla pubertà • Variabile trattamento: coorti storiche di nascita

(1900-1910; 1940-1950; 1990-2000; …) • Unità sperimentale: singole giovani femmine

alla pubertà per coorte storica di nascita

antropologia-demografia

Più specificatamente l’analisi della varianza è

usata per la stima dei parametri e la verifica

delle ipotesi sulle medie della popolazione

anche se si chiama analisi della varianza

vengono valutate le medie degli effetti dei

trattamenti, attraverso la scomposizione in

varianza

L’ANOVA è inoltre considerata un modello di

studio lineare Y= a+ bX in quanto può essere

schematizzata da:

x = µ + τ + e

ovvero i valori della variabile risposta x sono

definiti dai valori di una media generale µ (fissa)

più i valori di un trattamento τ (variabili)

considerando anche una componente residua-errore

e dovuta al caso.

MODELLI ANOVA del CORSO 1) analisi della varianza ad una via (anova

one way) che permette la valutazione di una

variabile trattamento sulla variabile risposta.

2) analisi della varianza con piano a blocchi

randomizzato permette di controllare-valutare

una seconda componente che può avere

influenza e fare variare la variabile risposta.

3) analisi della varianza a più vie con

repliche delle misure (chiamata anche

esperimento fattoriale) che permette di

valutare contemporaneamente più variabili di

trattamento sulla variabile risposta e la loro

rispettiva specifica interazione .

ANALISI DELLA VARIANZA AD UNA VIA Il modello tipico di applicazione dell’analisi della

varianza ad una via è quello di un piano

sperimentale determinato degli effetti di una sola

variabile trattamento sulla variabile risposta

quando si vuole valutare l’ipotesi che tre o più

campioni - trattamenti – gruppi o livelli della

variabile trattamento danno luogo allo stesso

risultato o a risultati diversi.

Il test e analogo al test ipotesi di confronto tra 2

medie (media campione 1-media campione 2), ma

in questo caso i campioni- livelli della variabile

trattamento da confrontare sono più di 2

(media campione 1-2-3-4….).

Non è opportuno procedere con un test ipotesi di confronto medie a 2 a due per più di 2 trattamenti in quanto la probabilità di rifiutare l’ipotesi nulla quando è vera (alfa - errore di prima specie) aumenta con l’aumentare del numero dei gruppi.

------------------------------------------------------------

Es. effetto della dieta A, B, C, D ( 1 variabile

trattamento espressa in 4 campioni – livelli -

trattamenti) sulla variazione di peso in unità

ponderali, Kg.(variabile risposta oggetto di studio)

--------------------------------------------------------------

Variazione ponderale di 8 individui per 4 diete

id dieta A dieta B dieta C dieta D 1 3 -6 0 6 2 6 -2 1 12 3 4 0 -1 9 4 -2 2 2 7 5 2 -1 1 5

6 3 -2 0 8 7 4 1 2 9 8 5 0 0 7

Alle unità sperimentali (soggetti in valutazione) vengono assegnati i trattamenti diversi assolutamente a caso, ovvero seguendo piano completamente randomizzato. Riferendoci all’esempio intendiamo che le diete non vengano assegnate seguendo un criterio di scelta ( es. ai maschi A, alle femmine B, ai giovani C, agli anziani D ecc) ma ogni dieta possa potenzialmente essere somministrata ad ogni possibile categoria.

Il modello * della ANOVA Rappresentiamo i dati per l’analisi della varianza ad una via in una tavola con k colonne e n righe corrispondenti a n valori della variabile risposta X suddivisi nei k trattamenti

Trattamento 1 2 3 …… k X11 X12 X13 …… X1k X21 X22 X23 …… X2k X31 X32 X33 …… X3k … … … ….. … n Xn1 Xn2 Xn3 Xnk N

Totale T.1 T.2 T.3 T.. T.k

T.. Media X .1 X .2 X .3 X .. X .k X .1

ove xij è il simbolo della i-esima osservazione del j-esimo trattamento, i = 1,2,3…n j= 1,2,3…k;

N = il numero totale di osservazioni

Usiamo questa tabella di dati per esprimere un modello

* Il modello è una rappresentazione simbolica di un valore tipico di un insieme di dati e vengono usati simboli e riferimenti per specificare le componenti e le relazioni.

• sia µj il simbolo della media di ogni

trattamento –colonna • sia µ il simbolo della media generale

di tutti i dati

• sia τ (tau) il simbolo dell’effetto trattamento tale per cui

τj = µj – µ (il valore dell’effetto trattamento

è = alla media del trattamento – la media generale)

• sia e il simbolo della differenza tra il singolo valore xij e la media µj del trattamento (ovvero quanto il valore della singola unità

sperimentale si discosta dalla media del trattamento) questo valore è definito errore, residuo, è ciò

che rimane (in più o in meno) alla variabile risposta dopo il trattamento per effetto del caso

allora:

xij = µj + eij ma anche come eij = xij - µj

il valore della singola unità sperimentale xij è = alla media del suo trattamento µj + il residuo eij

e quindi più in dettaglio

xij = µ + τj + eij

il valore della singola unità sperimentale xij è dato dalla somma:

della media generale µ +

l’effetto trattamento τj +

il residuo individuale eij .

Questa è l’equazione che evidenzia il modello del nostro studio per cui : una qualunque osservazione del nostro insieme di

dati è scomponibile in una quota dovuta alla media

generale, all’ effetto trattamento, all’ errore

residuo. La definizione di queste grandezze rende

possibile la misurazione reciproca degli

scostamenti (varianze) su cui si basa il calcolo

della statistica RV rapporto di varianze.

Es. Variazione ponderale di 8 individui per 4 diete

id dieta A dieta B dieta C dieta D

1 3 -6 0 6 2 6 -2 1 12 3 4 0 -1 9 4 -2 2 2 7 5 2 -1 1 5 6 3 -2 0 8 7 4 1 2 9 8 5 0 0 7 N=32

Tot 25 -8 5 63 85 Media 3.125 -1.000 0.625 7.875 2.656 Il valore ad esempio dell’individuo 3 della dieta A ( X 3A) è dato da:

xij = µ + τj + eij

X 3A= media generale + effetto trattamentoA+ componente residua

µ τj = µj – µ eij = xij - µj

X 3A = 2.656 + ( 3.125 – 2.656) + (4-3.125) X 3A = 2.656 + 0.469 +0.875 = 4

La scomposizione degli effetti in media generale, effetto trattamento, componente residua rende possibile la il calcolo della statistica RV rapporto di varianze.

Il processo inferenziale che riguarda esclusivamente il numero k di trattamenti del nostro studio prende il nome di modello ad effetti fissi.

Assunzioni

Le assunzioni del modello ad effetti fissi, che devono essere rispettate o almeno considerate nella applicazioni della ANOVA sono le seguenti:

• I dati provengono da k campioni casuali indipendenti, non vi sono sovrapposizioni;

• Le popolazioni di dati da cui i campioni sono

estratti è distribuita normalmente; • Le popolazioni dei trattamenti hanno

medesima varianza, varianza omogenea.

( ricorda ” INE” : indipendent, normal, equal variance)

Inoltre come conseguenze del modello:

• Gli effetti dei trattamenti danno somma algebrica = 0 attorno alla media generale

• Gli errori e hanno media = 0, varianza = a quella dei dati X xij e distribuzione normale

Ipotesi Le ipotesi nulla H0 e quella alternativa HA sono così formalizzate: H0: µ1= µ2= µ3=….. µk i k trattamenti danno la stessa risposta HA : non tutte le µk sono uguali, almeno un trattamento da una risposta media diversa

Test Il test statistico è rappresentato da un rapporto di varianze R.V. calcolate dai dati campionari:

varianza tra gruppi - MSA _______________________________ diviso

varianza entro i gruppi -MSW

la statistica test rapporto di varianze MSA/MSW segue una distribuzione F quando H0 è vera e le assunzioni sono rispettate. La regola di decisione per accettare o rifiutare le ipotesi sfrutta un valore di F critico definito da:

• livello di significatività alfa (α solitamente = 0.05, 1- α = 0.95)

• gradi di libertà gdl del numeratore (media quadratica tra i gruppi –MSA)

• gradi di libertà gdl del denominatore (media quadratica entro i gruppi -MSW).

Ad esempio: per alfa 0.05, 3 gdl al numeratore e 21 gdl al denominatore F critico = 3.07; --- per alfa 0.05, 2 gdl al numeratore e 15 gdl al denominatore F critico = 3.68 (vedi tavola distribuzione)

Valori di F maggiori di F critico portano a rifiutare H0 (e rispettivamente accettare HA) mentre valori di F inferiori di F critico ne determinano l’accettazione (e rispettivamente il rifiuto di HA).

Calcolo del test

I passaggi per determinare il RV della statistica test

si basano sul calcolo della somma degli

scostamenti al quadrato delle osservazioni dalla

loro media, o somma dei quadrati SS,

SST = somma totale dei quadrati, SSW = somma dei quadrati entro i gruppi SSA= somma dei quadrati tra i gruppi

Da cui si ricavano le varianze MS… ( somma quadratica media)

MSW ( varianza entro i gruppi ) = SSW/(N-k) MSA ( varianza tra i gruppi ) = SSA/( k-1)

Che permettono di esprimere il rapporto di

varianze R.V. MSA/MSV che rappresenta la

Statistica Test.

Calcolo di SST = somma totale dei quadrati

∑ =

k

J 1 ∑ =

nj

i 1 ( xij- x.. )2 Ovvero la sommatoria al quadrato degli scarti di

tutti i singoli valori dalla media generale, che per

semplificazione si può calcolare come segue

∑ =

k

J 1 ∑ =

nj

i 1 xij2 – (T2../N)

Ovvero la sommatoria di tutti i singoli valori xij

(osservazione della riga i e colonna j) al quadrato

meno la somma totale generale delle osservazioni

al quadrato diviso il numero totale delle

osservazioni



1 3 -6 0 6 2 6 -2 1 12 3 4 0 -1 9 4 -2 2 2 7 5 2 -1 1 5 6 3 -2 0 8 7 4 1 2 9 8 5 0 0 7 N=32

Tot 25 -8 5 63 85 Media 3.125 -1.000 0.625 7.875 2.656

SST = ∑ =

k

J 1 ∑ =

nj

i 1 xij2 – (T2../N)

calcolo xij2

id dieta A dieta B

dieta C

dieta D

1 9 36 0 36

2 36 4 1 144

3 16 0 1 81

4 4 4 4 49

5 4 1 1 25

6 9 4 0 64

7 16 1 4 81

8 25 0 0 49

T2../N = (85)2/32

T2../N =225.781

Somma xij2= 709

SST= 709 – 225.781= 483.218

Calcolo di SSA= somma dei quadrati tra i gruppi

∑ =

k

J 1 nJ ( x .j - x ..)2

Ovvero la sommatoria al quadrato degli scarti di

tutti i valori delle medie dei gruppi-trattamenti-

colonne dalla media generale moltiplicati per il

numero casi del gruppo, che per semplificazione si

può calcolare come segue

∑ =

k

J 1 (T.j2/nj) – (T2../N)

Ovvero la sommatoria dei totali di trattamento

(colonna) diviso per i rispettivi numeri di

osservazioni (nj) meno la somma totale generale

delle osservazioni al quadrato diviso il numero

totale delle osservazioni

SSA divisa per i rispettivi gradi di libertà gdl (k-1)

determina la media quadratica MSA;

k = anumero di gruppi-trattamenti-colonne.

MSA( varianza tra i gruppi ) = SSA/( k-1)



1 3 -6 0 6 2 6 -2 1 12 3 4 0 -1 9 4 -2 2 2 7 5 2 -1 1 5 6 3 -2 0 8 7 4 1 2 9 8 5 0 0 7 N=32

Tot 25 -8 5 63 85 Media 3.125 -1.000 0.625 7.875 2.656

SSA= ∑ =

k

J 1 (T.j2/nj) – (T2../N)

SSA= (252/8 +-82/8 +52/8 +632/8) -852/32 SSA= 78.125 + 8 + 3.125 + 496.125 – 225.781= SSA= 359.594 da cui MSA = SSA / gdl (k-1)

k= numero trattamenti-diete-gruppi-colonne= 4, k-1= 3

MSA = 359.594/3 = 119.865

Calcolo di

SSW = somma dei quadrati entro i gruppi-

∑ =

k

J 1 ∑ =

nj

i 1 ( xij- x .j )2

Ovvero la sommatoria al quadrato degli scarti di

tutti i singoli valori dalla media del proprio

gruppo-trattamento-dieta- colonna.

Per semplificazione si ottiene per differenza da

SST e SSA.

SSW= SST- SSA

SSW divisa per i rispettivi gradi di libertà gdl (N –k) determina la media quadratica MSW N= numero totale osservazioni k= numero gruppi-trattamenti-colonne

MSW ( varianza entro i gruppi ) = SSW/(N-k)

--------------------------------------------------------------



1 3 -6 0 6 2 6 -2 1 12 3 4 0 -1 9 4 -2 2 2 7 5 2 -1 1 5 6 3 -2 0 8 7 4 1 2 9 8 5 0 0 7 N=32

Tot 25 -8 5 63 85 Media 3.125 -1.000 0.625 7.875 2.656 SST= 483.218 SSA= 359.594 SSW= SST- SSA = 483.218 -359.594 = 123.624 Da cui MSW ( varianza entro i gruppi ) = SSW/(N-k) N= 32, k= 4

MSW = 123.624 / ( 32-4) = 4.415

Avendo calcolato le varianza tra gruppi MSA e la varianza entro gruppi MSW si procede al calcolo del Rapporto di varianze R.V. Statistica Test

MSA / MSW che nell’esempio delle 4 diete A B C D x 8 individui è rappresentato da

MSA = 119.865 MSW = 4.415

Rapporto Varianze

R.V. = 119.865 / 4.415 = 27.148 Il valore calcolato viene confrontato con il valore di F critico per: alfa= 0.05, n= gdl del numeratore= gdl (k-1)= 4-1=3

m = gdl del denominatore = (N-k)= 32-4=28

F critico = 2.946

F calcolato > F critico

quindi il test è significativo ovvero accetto HA

per cui non tutte le diete sono uguali, almeno una

dieta da una risposta media diversa.

Tavola riassuntiva per l’analisi della varianza

Fonte di variazione

Somma dei quadrati

Gradi di libertà

gdl

Media quadratica Rapporto di varianze

R.V.

Tra i gruppi-

trattamenti

SSA

k-1

MSA=SSA/(k-1)

R.V. =

MSA/MSW

Entro i gruppi-

trattamenti

SSW

N-k

MSW=SSW/(n-k)

Totale SST

N-1

In Excel vedi esempi della struttura dei dati nei files, ed usare il comando: Analisi dati� Analisi della varianza ad un fattore Nell’esempio specifico delle 4 diete per 8 individui: ANALISI VARIANZA Origine della variazione SQ gdl MQ F Valore di significatività F crit

Tra gruppi 359.593 3 119.864 27.148 1.95E-08 2.946 In gruppi 123.625 28 4.415

Totale 483.218 31

Somma quadrati Gradi di libertà Varianze – scarto quadratico medio Statistica test F critico

ANALISI VARIANZA CON PIANO DEGLI

ESPERIMENTI A BLOCCHI COMPLETAMENTE RANDOMIZZATO

(ANALISI A DUE VIE SENZA RIPETIZIONI ) Con il piano degli esperimenti a blocchi

completamente randomizzato è possibile utilizzare

un piano sperimentale che permette di controllare

a priori una fonte di variabilità che può agire

sulla variabile risposta e confondere i risultati della

variabile trattamento.

Il piano degli esperimenti a blocchi completamente

randomizzato è un piano in cui le unità

sperimentali alle quali i trattamenti sono applicati

sono suddivise in gruppi omogenei chiamati

blocchi.

I trattamenti vengono poi assegnati a caso alle

unità sperimentali all’interno di ogni blocco, ogni

trattamento è presente in ogni blocco ed ogni

blocco contiene tutti i trattamenti, il numero delle

unità sperimentali in un blocco è predisposto in

modo da essere uguale al numero dei trattamenti in

studio (o ad un suo multiplo).

Concretamente questo si semplifica in una tabella

con k trattamenti-colonne (una colonna per

trattamento) e n blocchi (una riga per ogni blocco

nel modello senza repliche).

Tratt. 1 Tratt. 2 Tratt. 3 Tratt.k

Blocco 1 Osservazione

B 1 T1 ……. ……. …….

Blocco 2 ……. ……. ……. …….

Blocco 3 ……. ……. ……. …….

Blocco n ……. ……. ……. Osservazione

B n T k

L’obiettivo del piano degli esperimenti a blocchi

completamente randomizzato è quello di isolare e

controllare la quota di variazione attribuibile

alla componente blocchi garantendo che nelle

medie dei trattamenti non è presente alcun effetto

dovuto ai blocchi.

I blocchi devono essere omogenei e se sono ben

formati la variazione residua del modello (errore

quadratico medio) viene ridotto, e quindi il R.V.

aumenta ed è più facile rifiutare l’ipotesi nulla H0.

Qualche esempio di blocchi:

• Negli esperimenti su animali le sottospecie e le razze possono rispondere in maniera diversa allo stesso trattamento immettendo una quota di variabilità aggiuntiva alla variazione totale; è possibile formare dei blocchi di appartenenza alla stessa razza e su questi valutare i trattamenti.

• La componente familiare potrebbe influire sulla var risposta per lo stesso trattamento e quindi i blocchi potrebbero essere formati dai cuccioli della stessa figliata, in tal caso un animale per cucciolata riceverebbe un trattamento diverso;

• In analisi osservazionali le aree geografiche

diverse (con diverse componenti ambientali o di fattori di rischio capaci influenzare la var trattamento) possono essere considerate come blocchi diversi in cui effettuare e valutate gli stessi trattamenti;

• L’età diversa delle unità sperimentali può

essere un fattore capace di influenzare i risultati di una variabile trattamento per soggetti umani come per animali, la classe d’età può rappresentare un blocco di unità sperimentali in cui effettuare e valutate gli stessi trattamenti;

• Anche laboratori differenti possono

rappresentare blocchi diversi in cui effettuare gli stessi esperimenti, in modo tale che ogni in laboratorio (blocco) si effettuino tutte le sperimentazioni-analisi (trattamenti) e si possa isolare la componente dovuta al laboratorio (blocco ) e quella del trattamento;

Una verifica di ipotesi rivolta agli effetti dei

blocchi non viene generalmente fatta sotto

l’assunzione del modello ad effetti fissi perché

l’interesse primario è quello di valutare l’effetto del

trattamento

I blocchi sono introdotti solo per eliminare una

fonte di variabilità estranea e di confondimento.

I blocchi inoltre sono programmati ed ottenuti in

modo non casuale.

Rispetto alla analisi della varianza ad una via la

rappresentazione dei dati in tabella tiene conto

anche numero dei blocchi (righe), del totale e

delle medie dei blocchi

Analisi della varianza a blocchi randomizzati

Trattamenti

Blocchi 1 2 3 …… k

Totale Media blocchi

1 X11 X12 X13 …… X1k T1. X 1.

2

X21 X22 X23

……

X2k T2. X 2.

3

X31 X32 X33

……

X3k T3. X 3.

…… …… …… …… …… …… …… ……

n

Xn1

Xn2

Xn3

….

Xnk

Tn.

X n.

Totale T.1 T.2 T.3 … T.k

T..

Media

trattamenti

X .1

X .2

X .3

….

X .k

_

X ..

Si configura come una analisi della varianza a due

vie senza repliche perché una osservazione viene

classificata secondo due criteri, il blocco ed il

trattamento.

Il modello è rappresentato da

xij = µ +βi+ τj + eij

xij è il simbolo della i-esima osservazione del j-esimo trattamento, ove i = 1,2,3…n e j= 1,2,3…k; N = il numero totale di osservazioni µ il simbolo della media generale τ j (tau) il simbolo dell’effetto trattamento (colonna) βi il simbolo dell’effetto blocco (riga) eij la componente residua che rimane eliminata quella dovuto ai blocchi ed ai trattamenti

Assunzioni Per le assunzioni valgono quelle dell’analisi della varianza ad un fattore (vedi prima) a cui si aggiunge la condizione per cui gli effetti dei trattamenti e dei blocchi devono essere solo additivi ovvero senza interazioni, ovvero una particolare combinazione blocco-trattamento (es. trattamento 1 -blocco 1 o trattamento 3-blocco 2) non produce una distorsione con un effetto maggiore o minore della somma dei singoli effetti di trattamento e blocco.

Ipotesi H0: τ1= τ2= τ3=…. τk=0 gli effetti del trattamento sono uguali e nulli HA : non tutti le τ j sono uguali, almeno un trattamento da una risposta media diversa

Calcolo del test

Il calcolo della statistica viene effettuato in questa sede solo mediante l’ausilio del calcolatore e pacchetti statistici excel, R o Stata, non vengono effettuati calcoli manuali. I passaggi per determinare il RV della statistica test

si basano, come per l’analisi della varianza ad una

via sul calcolo della somma degli scostamenti al

quadrato delle osservazioni dalla loro media, o

somma dei quadrati SS.

Viene qui introdotta una nuova fonte di variabilità

controllata, quella dei blocchi, tale per cui

SST= SSBl + SSTr + SSE

SST= SSBl + SSTr + SSE

Ovvero la somma totale degli scarti dalla media

può essere scomposta in tre componenti, una

dovuta ai blocchi (SSBl) una dovuta ai trattamenti

(SSTr) ed una dovuta alla variazione residua-

errore (SSE). Queste entità vengono espresse

come varianze o media quadratica degli scarti.

MSTr varianza dovuta a i trattamenti

MSBl varianza dovuta ai blocchi

MSE varianza residua errore

rispetto ai rispetto ai gradi di libertà loro specifici.

Il test

è dato dal rapporto di varianze R.V. tra la varianza

trattamenti e la varianza residua

ovvero MSTr / MSE .

E’ inoltre possibile considerare l’effetto dei blocchi sul modello totale come MSBl / MSE

------------------------------------------------------------------------------------------------------- questo modello di analisi della varianza quindi sottrae la quota di variazione dovuta ai blocchi e permette di valutare l’azione dei trattamenti con maggiore specificità e sensibilità -------------------------------------------------------------------------------------------------------

Tavola riassuntiva per l’ANOVA a blocchi

Fonte di variazione

Somma dei quadrati

Gradi di libertà

gdl

Media quadratica

Rapporto di varianze R.V.

Trattamenti -colonne-

SSTr

k-1

MSTr =

SSTr/(k-1)

R.V. =

MSTr/MSE

Blocchi -righe-

SSBl

n-1

MSBl= SSBl/(n-k)

Residuo -errore-

SSE

(n-1)*(k-1)

MSE=

SSE/(n-1)*( k-1)

Totale

SST

kn-1

la statistica test R.V. segue una distribuzione F quando H0 è vera e le assunzioni sono rispettate. La regola di decisione per accettare o rifiutare le ipotesi sfrutta un valore di F critico definito da:


• gradi di libertà gdl del numeratore (media quadratica trattamenti- MSTr = k-1)

• gradi di libertà gdl del denominatore (media quadratica residua - MSE = (n-1)*(n-k))

Ad esempio per alfa 0.05, 3 gdl al numeratore e 21 gdl al denominatore F critico = 3.07; per alfa 0.05, 2 gdl al numeratore e 15 gdl al denominatore F critico = 3.68 (vedi tavola distribuzione) Valori di F maggiori di F critico portano a rifiutare H0 (e rispettivamente accettare HA) Valori di F inferiori di F critico ne determinano l’accettazione (e rispettivamente il rifiuto di HA). In excel vedi esempi della struttura dei dati nei files, ed usare il comando: Analisi dati� Analisi della varianza a due fattori senza replica, includere o meno le etichette di riga e colona e specificare nella dialog box

Esempio esercizio anova2-4.xls

var risposta = tempo in minuti di coagulazione del sangue var trattamento = quattro farmaci diversi (colonne) blocchi = singoli individui che hanno fornito il campione di sangue (righe) unità sperimentale = singole misurazioni per ogni individuo e trattamento (celle)

Soggetto Farmaco

W X Y Z A 1.5 1.8 1.7 1.9 B 1.4 1.4 1.3 1.5 C 1.8 1.6 1.5 1.9 D 1.3 1.2 1.2 1.4 E 2 2.1 2.2 2.3 F 1.1 1 1 1.2 G 1.5 1.6 1.5 1.7 H 1.5 1.5 1.5 1.7 I 1.2 1 1.3 1.5 J 1.5 1.6 1.6 1.9

Analisi della Varianza ad una via senza blocchi

Origine della variazione SQ gdl MQ F Valore di significatività F crit Tra gruppi 0.363 3 0.121 1.220 0.316 2.866 In gruppi 3.568 36 0.099

Totale 3.931 39

F calcolato < di F critico non rifiuto Ho, risultato non significativo.

Analisi della Varianza ad una via con blocchi randomizzati

Origine della variazione SQ gdl MQ F Valore di significatività F crit Blocchi- righe 3.341 9 0.371 44.154 7.55E-14 2.250

Trattamenti -Colonne 0.363 3 0.121 14.392 8.57E-06 2.960 Residuo-Errore 0.227 27 0.008

Totale 3.931 39

F calcolato > di F critico rifiuto Ho, risultato significativo. Controllando la quota di variabilità dovuta a

soggetti diversi il test risulta significativo, ovvero i

farmaci determinano tempi medi diversi di

coagulazione del sangue.

L’ ESPERIMENTO FATTORIALE : ANALISI DELLA VARIANZA A DUE VIE CON REPLICHE

Nella pratica della sperimentazione capita

frequentemente di essere interessati allo studio

dell’effetto simultaneo di due o più variabili

(variabili trattamento - fattori) su una variabile

oggetto del nostro studio (variabile risposta).

Un esperimento che coinvolge appunto gli effetti di

due o più variabili-fattori simultaneamente prende

il nome di esperimento fattoriale che permette non

solo lo studio dei livelli dei fattori-variabili presi in

maniera individuale, ma anche l’ interazione dei

fattori presi simultaneamente e nelle diverse

combinazioni.

Nella pratica sperimentale, come nelle analisi

osservazionali, la presenza di interazioni tra fattori

può condizionare i dati in una molteplicità di modi

a seconda della natura della interazione.

Ad esempio nello studio sugli effetti di un farmaco

(var risposta)

il dosaggio del farmaco

(primo fattore - var trattamento) e

l’età dei pazienti

(secondo fattore - var trattamento)

possono non solo agire individualmente ma anche

nelle diverse combinazioni simultaneamente

( es. dosaggio basso-età giovane, dosaggio medio

età-anziana, dosaggio elevato età giovane ecc….) .

L’esperimento fattoriale permette quindi di

valutare l’interazione tra i fattori, di risparmiare

tempo ed energia, e di avere un maggior spazio

applicativo nei confronti delle situazioni reali.

I dati possono essere rappresentati in forma

tabellare con i livelli del fattore A in colonne e

quelli del fattore B in righe con n osservazioni

(repliche ) per ogni combinazione di livelli.

Esempio esercizio anova2-2RR.xls

punteggi sulla maturità emotiva di 27 giovani

maschi classificati secondo l’età ed uso di

marijuana con repliche :

Fattore A ( uso di marijuana )

FATTORE B (Età) Mai Occasionalmente Giornalmente

25 18 17 15-19 28 23 24

22 19 19 28 16 18

20-24 32 24 22 30 20 20 25 14 10

25-29 35 16 8 30 15 12

Per ognuno dei livelli dei fattori A e B (variabili

trattamento) si viene a determinare una

combinazione AB con n unità sperimentali-

repliche

Nell’esempio sopra riportato tre livelli del fattore

A, tre livelli del fattore B, 9 combinazioni diverse

AB ognuna con n= 3 unità sperimentali –repliche)

che rappresentano un trattamento AB diverso.

In questo tipo di sperimento con valutazione delle

interazioni sono necessarie almeno due

osservazioni-repliche per ogni cella

combinazione dei fattori, mentre in quello

completamente randomizzato a blocchi è

sufficiente una osservazione per ogni cella.

In questo tipo di sperimento con valutazione delle interazioni sono necessarie almeno due osservazioni-repliche per ogni cella combinazione dei fattori, mentre in quello completamente randomizzato a blocchi è sufficiente una osservazione per ogni cella. Il modello è rappresentato da

xijk = µ +αi+ βj + αβij + eijk Dove xijk è la generica osservazione,

µ il simbolo della media generale,

αi l’effetto del fattore A,

β βj l’effetto del fattore B,

αβij rappresenta l’effetto della interazione tra A e

B, ei jk rappresenta l’errore sperimentale residuo

Assunzioni: le osservazioni in ognuna delle ab celle costituisce

un campione casuale indipendente, tutte le ab

popolazioni sono distribuite normalmente ed hanno

la medesima varianza. ( INE)

Le ipotesi: Il modello consente di valutare le seguenti ipotesi: H0 α : α1 = α 2= … α i = 0 gli effetti del trattamento A colonna sono uguali e nulli; HA α: non tutti gli α i = 0 ------------------------------------------------- H0 β : β1= β 2…. βj = 0 gli effetti del trattamento B riga sono uguali e nulli; HA β: non tutti gli βj = 0 --------------------------------------------------- H0 α β : α1 β1= α1 β 2… = α β ij = 0 gli effetti della interazione AB sono uguali e nulli; HA α β: non tutti gli α β ij = 0 Test Il test per ognuna delle ipotesi è il R.V. ove al

numeratore viene posto lo scarto quadratico medio

del trattamento A, di quello B, o della interazione

AB, ed al denominatore lo scarto quadratico medio

dell’errore residuo.

La statistica test R.V. segue una distribuzione F quando H0 è vera e le assunzioni sono rispettate. Calcolo della statistica test

Analogamente a quanto fatto per precedenti piani

sperimentali dell’analisi della varianza si può

dimostrare che la somma totale dei quadrati degli

scarti della media si può scomporre nelle sue

componenti:

SST= SSA+SSB+SSAB + SSE

Ovvero la somma totale dei quadrati è uguale alla

somma di quella del trattamento A del trattamento

B della interazione AB e di quella dell’errore

residuo.

Il calcolo delle singole componenti si attua mediante formule semplificate (vedi Daniel) che non vengono qui trattate i quanto questo piano viene da noi esplorato solo mediante pacchetti statistici di analisi Excel, R, STATA.

------------------------------------------------------------------------------------------------------- Tavola riassuntiva per l’analisi della varianza a blocchi

Fonte di

variazione Somma dei quadrati

Gradi di libertà

gdl

Media quadratica

Rapporto di varianze R.V.

Trattamento A

-colonne-

SSA

a-1

MSA = SSA/(a-1)

R.V. = MSA/MSE

Trattamento B -righe-

SSB

b-1

MSB=SSB/(b-1)

R.V. = MSB/MSE

Interazione AB

SSAB

(a-1)*(b-1)

MSAB=

SSAB/ (a-1)*(b-1)

R.V. = MSAB/MSE

Residuo -errore-

SSE

ab*(n-1)

MSE=

SSE/ ab(n-1)

Totale

SST

abn-1

Decisione statistica La regola di decisione per accettare o rifiutare le ipotesi sfrutta un valore di F critico definito da:


• gradi di libertà gdl del numeratore • gradi di libertà gdl del denominatore

Valori di F maggiori di F critico portano a rifiutare H0 (e rispettivamente accettare HA) mentre valori di F inferiori di F critico ne determinano l’accettazione (e rispettivamente il rifiuto di HA).

Nel caso in cui l’ipotesi H0 di nessuna

interazione AB viene rifiutata possiamo

concludere che i due fattori A e B interagiscono.

In questo caso l’interesse nei confronti dei fattori

A e B singoli viene subordinata agli effetti delle

interazioni.

Il numero delle osservazioni in ogni cella può non

essere uguale e ciò comporta un diverso numero

dei gradi di libertà per i rispettivi trattamenti e d

interazioni.

Vedi esercizio anova2-2RR.xls

Comando Excel �strumenti analisi dati� analisi varianza: a due fattori con replica includere o meno le etichette di riga e colona e specificare nella dialog box

Origine della variazione SQ gdl MQ F Valore di significatività F crit

Età 116.666 2 58.333 6.325 0.008 3.554

Uso di marijuana 716.666 2 358.33338.855 2.94E-07 3.554Interazione età-uso 183.333 4 45.833 4.969 0.007 2.927

residua 166 18 9.222

Totale 1182.667 26

Il risultato del test indica valori significativi

(F calcolato > F critico)

per il fattore età,

quello dell’uso di marijuana

ed anche per la interazione dei due fattori.

Rifiuto le ipotesi H0

L’uso l’uso di marijuana agisce sulla maturità

emotiva in maniera sinergica con l’età.

L’interesse nei confronti dei fattori età dell’uso di

marijuana viene subordinata agli effetti della

interazione reciproca.

Analisi della varianza ed applicazioni · ANALISI DELLE VARIANZA ED APPLICAZIONI ... possibile la misurazione reciproca degli scostamenti (varianze) su cui si basa il calcolo della

Documents