ANALISI DELLE VARIANZA ED APPLICAZIONI L’analisi della varianza è un insieme di modelli di analisi introdotti dal grande statistico inglese Ronald Fisher in cui la variazione totale presente in un insieme di dati viene scomposta ed analizzata in diverse componenti. Ognuna di queste quote di variazione specifica viene valutata sia in rapporto reciproco sia in rapporto allo specifico contributo alla variabilità totale. |------------------------------------------------------------| variazione totale |--------------------------|-------------------|--------------| variazione totale scomposta Tra gruppi Entro gruppi Residua
50
Embed
Analisi della varianza ed applicazioni · ANALISI DELLE VARIANZA ED APPLICAZIONI ... possibile la misurazione reciproca degli scostamenti (varianze) su cui si basa il calcolo della
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
giornaliero in animali zootecnici allevati • Variabile trattamento: tipi diversi A, B, C, D…
di dieta specifica • Unità sperimentale: singoli animali allevati • Variabile risposta: numero batteri di
Streptococcus per unità di omogeneizzato polmonare
• Variabile trattamento: tipo di antibiotico A (es. amoxicillina) , B, C, D… + controllo
• Unità sperimentale: individui singoli trattati
Anche condizioni non gestite o direttamente determinate dallo sperimentatore sono oggetto di studio della analisi della varianza, avendo riconosciuto le componenti dell’analisi e verificato le assunzioni di applicabilità (vedi più avanti),
Esempi • Variabile risposta: misura della funzionalità
polmonare (volumi residui) • Variabile trattamento: essere fumatore, ex
fumatore, mai fumatore • Unità sperimentale: individui singoli trattati
• Variabile risposta: qualità del sonno secondo il
PSQI (Pittsburgh Sleep Quality Index) • Variabile trattamento: essere depressi, non
• Variabile risposta: peso alla nascita del neonato
• Variabile trattamento: condizione socio-economica A, B, C… della madre
• Unità sperimentale: singoli neonati pesati
l’analisi della varianza trova applicazione anche nella valutazione di studi osservazionali ed ecologici, anche applicati alle Scienze Naturali, dove lo sperimentatore non ha introdotto personalmente variazioni nella variabile trattamento ma ha riconosciuto e valutato condizioni naturali “ sperimentali” diverse che si sono verificate nel tempo ed in natura, esempi:
• Variabile risposta: concentrazione di alga
tropicale infestante Caulerpa per m2 • Variabile trattamento: diversa esposizione alle
correnti marine • Unità sperimentale: unità di area di siti costieri
diversamente esposti alle correnti
ecologia • Variabile risposta: lunghezza del becco di una
specie di fringuello • Variabile trattamento: ecotipi della specie
presenti in aree diverse (es. isole –vallate..) • Unità sperimentale: singoli individui di
fringuello misurati Zoologia-Genetica
• Variabile risposta: età al menarca delle
giovani femmine alla pubertà • Variabile trattamento: coorti storiche di nascita
definiti dai valori di una media generale µ (fissa)
più i valori di un trattamento τ (variabili)
considerando anche una componente residua-errore
e dovuta al caso.
MODELLI ANOVA del CORSO 1) analisi della varianza ad una via (anova
one way) che permette la valutazione di una
variabile trattamento sulla variabile risposta.
2) analisi della varianza con piano a blocchi
randomizzato permette di controllare-valutare
una seconda componente che può avere
influenza e fare variare la variabile risposta.
3) analisi della varianza a più vie con
repliche delle misure (chiamata anche
esperimento fattoriale) che permette di
valutare contemporaneamente più variabili di
trattamento sulla variabile risposta e la loro
rispettiva specifica interazione .
ANALISI DELLA VARIANZA AD UNA VIA Il modello tipico di applicazione dell’analisi della
varianza ad una via è quello di un piano
sperimentale determinato degli effetti di una sola
variabile trattamento sulla variabile risposta
quando si vuole valutare l’ipotesi che tre o più
campioni - trattamenti – gruppi o livelli della
variabile trattamento danno luogo allo stesso
risultato o a risultati diversi.
Il test e analogo al test ipotesi di confronto tra 2
medie (media campione 1-media campione 2), ma
in questo caso i campioni- livelli della variabile
trattamento da confrontare sono più di 2
(media campione 1-2-3-4….).
Non è opportuno procedere con un test ipotesi di confronto medie a 2 a due per più di 2 trattamenti in quanto la probabilità di rifiutare l’ipotesi nulla quando è vera (alfa - errore di prima specie) aumenta con l’aumentare del numero dei gruppi.
id dieta A dieta B dieta C dieta D 1 3 -6 0 6 2 6 -2 1 12 3 4 0 -1 9 4 -2 2 2 7 5 2 -1 1 5
6 3 -2 0 8 7 4 1 2 9 8 5 0 0 7
Alle unità sperimentali (soggetti in valutazione) vengono assegnati i trattamenti diversi assolutamente a caso, ovvero seguendo piano completamente randomizzato. Riferendoci all’esempio intendiamo che le diete non vengano assegnate seguendo un criterio di scelta ( es. ai maschi A, alle femmine B, ai giovani C, agli anziani D ecc) ma ogni dieta possa potenzialmente essere somministrata ad ogni possibile categoria.
Il modello * della ANOVA Rappresentiamo i dati per l’analisi della varianza ad una via in una tavola con k colonne e n righe corrispondenti a n valori della variabile risposta X suddivisi nei k trattamenti
ove xij è il simbolo della i-esima osservazione del j-esimo trattamento, i = 1,2,3…n j= 1,2,3…k;
N = il numero totale di osservazioni
Usiamo questa tabella di dati per esprimere un modello
* Il modello è una rappresentazione simbolica di un valore tipico di un insieme di dati e vengono usati simboli e riferimenti per specificare le componenti e le relazioni.
• sia µj il simbolo della media di ogni
trattamento –colonna • sia µ il simbolo della media generale
di tutti i dati
• sia τ (tau) il simbolo dell’effetto trattamento tale per cui
τj = µj – µ (il valore dell’effetto trattamento
è = alla media del trattamento – la media generale)
• sia e il simbolo della differenza tra il singolo valore xij e la media µj del trattamento (ovvero quanto il valore della singola unità
sperimentale si discosta dalla media del trattamento) questo valore è definito errore, residuo, è ciò
che rimane (in più o in meno) alla variabile risposta dopo il trattamento per effetto del caso
allora:
xij = µj + eij ma anche come eij = xij - µj
il valore della singola unità sperimentale xij è = alla media del suo trattamento µj + il residuo eij
e quindi più in dettaglio
xij = µ + τj + eij
il valore della singola unità sperimentale xij è dato dalla somma:
della media generale µ +
l’effetto trattamento τj +
il residuo individuale eij .
Questa è l’equazione che evidenzia il modello del nostro studio per cui : una qualunque osservazione del nostro insieme di
dati è scomponibile in una quota dovuta alla media
generale, all’ effetto trattamento, all’ errore
residuo. La definizione di queste grandezze rende
possibile la misurazione reciproca degli
scostamenti (varianze) su cui si basa il calcolo
della statistica RV rapporto di varianze.
Es. Variazione ponderale di 8 individui per 4 diete
Tot 25 -8 5 63 85 Media 3.125 -1.000 0.625 7.875 2.656 Il valore ad esempio dell’individuo 3 della dieta A ( X 3A) è dato da:
xij = µ + τj + eij
X 3A= media generale + effetto trattamentoA+ componente residua
µ τj = µj – µ eij = xij - µj
X 3A = 2.656 + ( 3.125 – 2.656) + (4-3.125) X 3A = 2.656 + 0.469 +0.875 = 4
La scomposizione degli effetti in media generale, effetto trattamento, componente residua rende possibile la il calcolo della statistica RV rapporto di varianze.
Il processo inferenziale che riguarda esclusivamente il numero k di trattamenti del nostro studio prende il nome di modello ad effetti fissi.
Assunzioni
Le assunzioni del modello ad effetti fissi, che devono essere rispettate o almeno considerate nella applicazioni della ANOVA sono le seguenti:
• I dati provengono da k campioni casuali indipendenti, non vi sono sovrapposizioni;
• Le popolazioni di dati da cui i campioni sono
estratti è distribuita normalmente; • Le popolazioni dei trattamenti hanno
• Gli effetti dei trattamenti danno somma algebrica = 0 attorno alla media generale
• Gli errori e hanno media = 0, varianza = a quella dei dati X xij e distribuzione normale
Ipotesi Le ipotesi nulla H0 e quella alternativa HA sono così formalizzate: H0: µ1= µ2= µ3=….. µk i k trattamenti danno la stessa risposta HA : non tutte le µk sono uguali, almeno un trattamento da una risposta media diversa
Test Il test statistico è rappresentato da un rapporto di varianze R.V. calcolate dai dati campionari:
varianza tra gruppi - MSA _______________________________ diviso
varianza entro i gruppi -MSW
la statistica test rapporto di varianze MSA/MSW segue una distribuzione F quando H0 è vera e le assunzioni sono rispettate. La regola di decisione per accettare o rifiutare le ipotesi sfrutta un valore di F critico definito da:
• livello di significatività alfa (α solitamente = 0.05, 1- α = 0.95)
• gradi di libertà gdl del numeratore (media quadratica tra i gruppi –MSA)
• gradi di libertà gdl del denominatore (media quadratica entro i gruppi -MSW).
Ad esempio: per alfa 0.05, 3 gdl al numeratore e 21 gdl al denominatore F critico = 3.07; --- per alfa 0.05, 2 gdl al numeratore e 15 gdl al denominatore F critico = 3.68 (vedi tavola distribuzione)
Valori di F maggiori di F critico portano a rifiutare H0 (e rispettivamente accettare HA) mentre valori di F inferiori di F critico ne determinano l’accettazione (e rispettivamente il rifiuto di HA).
Calcolo del test
I passaggi per determinare il RV della statistica test
si basano sul calcolo della somma degli
scostamenti al quadrato delle osservazioni dalla
loro media, o somma dei quadrati SS,
SST = somma totale dei quadrati, SSW = somma dei quadrati entro i gruppi SSA= somma dei quadrati tra i gruppi
Da cui si ricavano le varianze MS… ( somma quadratica media)
MSW ( varianza entro i gruppi ) = SSW/(N-k) MSA ( varianza tra i gruppi ) = SSA/( k-1)
Che permettono di esprimere il rapporto di
varianze R.V. MSA/MSV che rappresenta la
Statistica Test.
Calcolo di SST = somma totale dei quadrati
∑ =
k
J 1 ∑ =
nj
i 1 ( xij- x.. )2 Ovvero la sommatoria al quadrato degli scarti di
tutti i singoli valori dalla media generale, che per
semplificazione si può calcolare come segue
∑ =
k
J 1 ∑ =
nj
i 1 xij2 – (T2../N)
Ovvero la sommatoria di tutti i singoli valori xij
(osservazione della riga i e colonna j) al quadrato
meno la somma totale generale delle osservazioni
al quadrato diviso il numero totale delle
osservazioni
Es. Variazione ponderale di 8 individui per 4 diete
k= numero trattamenti-diete-gruppi-colonne= 4, k-1= 3
MSA = 359.594/3 = 119.865
Calcolo di
SSW = somma dei quadrati entro i gruppi-
∑ =
k
J 1 ∑ =
nj
i 1 ( xij- x .j )2
Ovvero la sommatoria al quadrato degli scarti di
tutti i singoli valori dalla media del proprio
gruppo-trattamento-dieta- colonna.
Per semplificazione si ottiene per differenza da
SST e SSA.
SSW= SST- SSA
SSW divisa per i rispettivi gradi di libertà gdl (N –k) determina la media quadratica MSW N= numero totale osservazioni k= numero gruppi-trattamenti-colonne
Tot 25 -8 5 63 85 Media 3.125 -1.000 0.625 7.875 2.656 SST= 483.218 SSA= 359.594 SSW= SST- SSA = 483.218 -359.594 = 123.624 Da cui MSW ( varianza entro i gruppi ) = SSW/(N-k) N= 32, k= 4
MSW = 123.624 / ( 32-4) = 4.415
Avendo calcolato le varianza tra gruppi MSA e la varianza entro gruppi MSW si procede al calcolo del Rapporto di varianze R.V. Statistica Test
MSA / MSW che nell’esempio delle 4 diete A B C D x 8 individui è rappresentato da
MSA = 119.865 MSW = 4.415
Rapporto Varianze
R.V. = 119.865 / 4.415 = 27.148 Il valore calcolato viene confrontato con il valore di F critico per: alfa= 0.05, n= gdl del numeratore= gdl (k-1)= 4-1=3
m = gdl del denominatore = (N-k)= 32-4=28
F critico = 2.946
F calcolato > F critico
quindi il test è significativo ovvero accetto HA
per cui non tutte le diete sono uguali, almeno una
dieta da una risposta media diversa.
Tavola riassuntiva per l’analisi della varianza
Fonte di variazione
Somma dei quadrati
Gradi di libertà
gdl
Media quadratica Rapporto di varianze
R.V.
Tra i gruppi-
trattamenti
SSA
k-1
MSA=SSA/(k-1)
R.V. =
MSA/MSW
Entro i gruppi-
trattamenti
SSW
N-k
MSW=SSW/(n-k)
Totale SST
N-1
In Excel vedi esempi della struttura dei dati nei files, ed usare il comando: Analisi dati� Analisi della varianza ad un fattore Nell’esempio specifico delle 4 diete per 8 individui: ANALISI VARIANZA Origine della variazione SQ gdl MQ F Valore di significatività F crit
Tra gruppi 359.593 3 119.864 27.148 1.95E-08 2.946 In gruppi 123.625 28 4.415
Totale 483.218 31
Somma quadrati Gradi di libertà Varianze – scarto quadratico medio Statistica test F critico
ANALISI VARIANZA CON PIANO DEGLI
ESPERIMENTI A BLOCCHI COMPLETAMENTE RANDOMIZZATO
(ANALISI A DUE VIE SENZA RIPETIZIONI ) Con il piano degli esperimenti a blocchi
completamente randomizzato è possibile utilizzare
un piano sperimentale che permette di controllare
a priori una fonte di variabilità che può agire
sulla variabile risposta e confondere i risultati della
variabile trattamento.
Il piano degli esperimenti a blocchi completamente
randomizzato è un piano in cui le unità
sperimentali alle quali i trattamenti sono applicati
sono suddivise in gruppi omogenei chiamati
blocchi.
I trattamenti vengono poi assegnati a caso alle
unità sperimentali all’interno di ogni blocco, ogni
trattamento è presente in ogni blocco ed ogni
blocco contiene tutti i trattamenti, il numero delle
unità sperimentali in un blocco è predisposto in
modo da essere uguale al numero dei trattamenti in
studio (o ad un suo multiplo).
Concretamente questo si semplifica in una tabella
con k trattamenti-colonne (una colonna per
trattamento) e n blocchi (una riga per ogni blocco
nel modello senza repliche).
Tratt. 1 Tratt. 2 Tratt. 3 Tratt.k
Blocco 1 Osservazione
B 1 T1 ……. ……. …….
Blocco 2 ……. ……. ……. …….
Blocco 3 ……. ……. ……. …….
Blocco n ……. ……. ……. Osservazione
B n T k
L’obiettivo del piano degli esperimenti a blocchi
completamente randomizzato è quello di isolare e
controllare la quota di variazione attribuibile
alla componente blocchi garantendo che nelle
medie dei trattamenti non è presente alcun effetto
dovuto ai blocchi.
I blocchi devono essere omogenei e se sono ben
formati la variazione residua del modello (errore
quadratico medio) viene ridotto, e quindi il R.V.
aumenta ed è più facile rifiutare l’ipotesi nulla H0.
Qualche esempio di blocchi:
• Negli esperimenti su animali le sottospecie e le razze possono rispondere in maniera diversa allo stesso trattamento immettendo una quota di variabilità aggiuntiva alla variazione totale; è possibile formare dei blocchi di appartenenza alla stessa razza e su questi valutare i trattamenti.
• La componente familiare potrebbe influire sulla var risposta per lo stesso trattamento e quindi i blocchi potrebbero essere formati dai cuccioli della stessa figliata, in tal caso un animale per cucciolata riceverebbe un trattamento diverso;
• In analisi osservazionali le aree geografiche
diverse (con diverse componenti ambientali o di fattori di rischio capaci influenzare la var trattamento) possono essere considerate come blocchi diversi in cui effettuare e valutate gli stessi trattamenti;
• L’età diversa delle unità sperimentali può
essere un fattore capace di influenzare i risultati di una variabile trattamento per soggetti umani come per animali, la classe d’età può rappresentare un blocco di unità sperimentali in cui effettuare e valutate gli stessi trattamenti;
• Anche laboratori differenti possono
rappresentare blocchi diversi in cui effettuare gli stessi esperimenti, in modo tale che ogni in laboratorio (blocco) si effettuino tutte le sperimentazioni-analisi (trattamenti) e si possa isolare la componente dovuta al laboratorio (blocco ) e quella del trattamento;
Una verifica di ipotesi rivolta agli effetti dei
blocchi non viene generalmente fatta sotto
l’assunzione del modello ad effetti fissi perché
l’interesse primario è quello di valutare l’effetto del
trattamento
I blocchi sono introdotti solo per eliminare una
fonte di variabilità estranea e di confondimento.
I blocchi inoltre sono programmati ed ottenuti in
modo non casuale.
Rispetto alla analisi della varianza ad una via la
rappresentazione dei dati in tabella tiene conto
anche numero dei blocchi (righe), del totale e
delle medie dei blocchi
Analisi della varianza a blocchi randomizzati
Trattamenti
Blocchi 1 2 3 …… k
Totale Media blocchi
1 X11 X12 X13 …… X1k T1. X 1.
2
X21 X22 X23
……
X2k T2. X 2.
3
X31 X32 X33
……
X3k T3. X 3.
…… …… …… …… …… …… …… ……
n
Xn1
Xn2
Xn3
….
Xnk
Tn.
X n.
Totale T.1 T.2 T.3 … T.k
T..
Media
trattamenti
X .1
X .2
X .3
….
X .k
_
X ..
Si configura come una analisi della varianza a due
vie senza repliche perché una osservazione viene
classificata secondo due criteri, il blocco ed il
trattamento.
Il modello è rappresentato da
xij = µ +βi+ τj + eij
xij è il simbolo della i-esima osservazione del j-esimo trattamento, ove i = 1,2,3…n e j= 1,2,3…k; N = il numero totale di osservazioni µ il simbolo della media generale τ j (tau) il simbolo dell’effetto trattamento (colonna) βi il simbolo dell’effetto blocco (riga) eij la componente residua che rimane eliminata quella dovuto ai blocchi ed ai trattamenti
Assunzioni Per le assunzioni valgono quelle dell’analisi della varianza ad un fattore (vedi prima) a cui si aggiunge la condizione per cui gli effetti dei trattamenti e dei blocchi devono essere solo additivi ovvero senza interazioni, ovvero una particolare combinazione blocco-trattamento (es. trattamento 1 -blocco 1 o trattamento 3-blocco 2) non produce una distorsione con un effetto maggiore o minore della somma dei singoli effetti di trattamento e blocco.
Ipotesi H0: τ1= τ2= τ3=…. τk=0 gli effetti del trattamento sono uguali e nulli HA : non tutti le τ j sono uguali, almeno un trattamento da una risposta media diversa
Calcolo del test
Il calcolo della statistica viene effettuato in questa sede solo mediante l’ausilio del calcolatore e pacchetti statistici excel, R o Stata, non vengono effettuati calcoli manuali. I passaggi per determinare il RV della statistica test
si basano, come per l’analisi della varianza ad una
via sul calcolo della somma degli scostamenti al
quadrato delle osservazioni dalla loro media, o
somma dei quadrati SS.
Viene qui introdotta una nuova fonte di variabilità
controllata, quella dei blocchi, tale per cui
SST= SSBl + SSTr + SSE
SST= SSBl + SSTr + SSE
Ovvero la somma totale degli scarti dalla media
può essere scomposta in tre componenti, una
dovuta ai blocchi (SSBl) una dovuta ai trattamenti
(SSTr) ed una dovuta alla variazione residua-
errore (SSE). Queste entità vengono espresse
come varianze o media quadratica degli scarti.
MSTr varianza dovuta a i trattamenti
MSBl varianza dovuta ai blocchi
MSE varianza residua errore
rispetto ai rispetto ai gradi di libertà loro specifici.
Il test
è dato dal rapporto di varianze R.V. tra la varianza
trattamenti e la varianza residua
ovvero MSTr / MSE .
E’ inoltre possibile considerare l’effetto dei blocchi sul modello totale come MSBl / MSE
------------------------------------------------------------------------------------------------------- questo modello di analisi della varianza quindi sottrae la quota di variazione dovuta ai blocchi e permette di valutare l’azione dei trattamenti con maggiore specificità e sensibilità -------------------------------------------------------------------------------------------------------
Tavola riassuntiva per l’ANOVA a blocchi
Fonte di variazione
Somma dei quadrati
Gradi di libertà
gdl
Media quadratica
Rapporto di varianze R.V.
Trattamenti -colonne-
SSTr
k-1
MSTr =
SSTr/(k-1)
R.V. =
MSTr/MSE
Blocchi -righe-
SSBl
n-1
MSBl= SSBl/(n-k)
Residuo -errore-
SSE
(n-1)*(k-1)
MSE=
SSE/(n-1)*( k-1)
Totale
SST
kn-1
la statistica test R.V. segue una distribuzione F quando H0 è vera e le assunzioni sono rispettate. La regola di decisione per accettare o rifiutare le ipotesi sfrutta un valore di F critico definito da:
• livello di significatività alfa (α solitamente = 0.05, 1- α = 0.95)
• gradi di libertà gdl del numeratore (media quadratica trattamenti- MSTr = k-1)
• gradi di libertà gdl del denominatore (media quadratica residua - MSE = (n-1)*(n-k))
Ad esempio per alfa 0.05, 3 gdl al numeratore e 21 gdl al denominatore F critico = 3.07; per alfa 0.05, 2 gdl al numeratore e 15 gdl al denominatore F critico = 3.68 (vedi tavola distribuzione) Valori di F maggiori di F critico portano a rifiutare H0 (e rispettivamente accettare HA) Valori di F inferiori di F critico ne determinano l’accettazione (e rispettivamente il rifiuto di HA). In excel vedi esempi della struttura dei dati nei files, ed usare il comando: Analisi dati� Analisi della varianza a due fattori senza replica, includere o meno le etichette di riga e colona e specificare nella dialog box
Esempio esercizio anova2-4.xls
var risposta = tempo in minuti di coagulazione del sangue var trattamento = quattro farmaci diversi (colonne) blocchi = singoli individui che hanno fornito il campione di sangue (righe) unità sperimentale = singole misurazioni per ogni individuo e trattamento (celle)
Soggetto Farmaco
W X Y Z A 1.5 1.8 1.7 1.9 B 1.4 1.4 1.3 1.5 C 1.8 1.6 1.5 1.9 D 1.3 1.2 1.2 1.4 E 2 2.1 2.2 2.3 F 1.1 1 1 1.2 G 1.5 1.6 1.5 1.7 H 1.5 1.5 1.5 1.7 I 1.2 1 1.3 1.5 J 1.5 1.6 1.6 1.9
Analisi della Varianza ad una via senza blocchi
Origine della variazione SQ gdl MQ F Valore di significatività F crit Tra gruppi 0.363 3 0.121 1.220 0.316 2.866 In gruppi 3.568 36 0.099
Totale 3.931 39
F calcolato < di F critico non rifiuto Ho, risultato non significativo.
Analisi della Varianza ad una via con blocchi randomizzati
Origine della variazione SQ gdl MQ F Valore di significatività F crit Blocchi- righe 3.341 9 0.371 44.154 7.55E-14 2.250
F calcolato > di F critico rifiuto Ho, risultato significativo. Controllando la quota di variabilità dovuta a
soggetti diversi il test risulta significativo, ovvero i
farmaci determinano tempi medi diversi di
coagulazione del sangue.
L’ ESPERIMENTO FATTORIALE : ANALISI DELLA VARIANZA A DUE VIE CON REPLICHE
Nella pratica della sperimentazione capita
frequentemente di essere interessati allo studio
dell’effetto simultaneo di due o più variabili
(variabili trattamento - fattori) su una variabile
oggetto del nostro studio (variabile risposta).
Un esperimento che coinvolge appunto gli effetti di
due o più variabili-fattori simultaneamente prende
il nome di esperimento fattoriale che permette non
solo lo studio dei livelli dei fattori-variabili presi in
maniera individuale, ma anche l’ interazione dei
fattori presi simultaneamente e nelle diverse
combinazioni.
Nella pratica sperimentale, come nelle analisi
osservazionali, la presenza di interazioni tra fattori
può condizionare i dati in una molteplicità di modi
a seconda della natura della interazione.
Ad esempio nello studio sugli effetti di un farmaco
(var risposta)
il dosaggio del farmaco
(primo fattore - var trattamento) e
l’età dei pazienti
(secondo fattore - var trattamento)
possono non solo agire individualmente ma anche
nelle diverse combinazioni simultaneamente
( es. dosaggio basso-età giovane, dosaggio medio
età-anziana, dosaggio elevato età giovane ecc….) .
L’esperimento fattoriale permette quindi di
valutare l’interazione tra i fattori, di risparmiare
tempo ed energia, e di avere un maggior spazio
applicativo nei confronti delle situazioni reali.
I dati possono essere rappresentati in forma
tabellare con i livelli del fattore A in colonne e
quelli del fattore B in righe con n osservazioni
(repliche ) per ogni combinazione di livelli.
Esempio esercizio anova2-2RR.xls
punteggi sulla maturità emotiva di 27 giovani
maschi classificati secondo l’età ed uso di
marijuana con repliche :
Fattore A ( uso di marijuana )
FATTORE B (Età) Mai Occasionalmente Giornalmente
25 18 17 15-19 28 23 24
22 19 19 28 16 18
20-24 32 24 22 30 20 20 25 14 10
25-29 35 16 8 30 15 12
Per ognuno dei livelli dei fattori A e B (variabili
trattamento) si viene a determinare una
combinazione AB con n unità sperimentali-
repliche
Nell’esempio sopra riportato tre livelli del fattore
A, tre livelli del fattore B, 9 combinazioni diverse
AB ognuna con n= 3 unità sperimentali –repliche)
che rappresentano un trattamento AB diverso.
In questo tipo di sperimento con valutazione delle
interazioni sono necessarie almeno due
osservazioni-repliche per ogni cella
combinazione dei fattori, mentre in quello
completamente randomizzato a blocchi è
sufficiente una osservazione per ogni cella.
In questo tipo di sperimento con valutazione delle interazioni sono necessarie almeno due osservazioni-repliche per ogni cella combinazione dei fattori, mentre in quello completamente randomizzato a blocchi è sufficiente una osservazione per ogni cella. Il modello è rappresentato da
xijk = µ +αi+ βj + αβij + eijk Dove xijk è la generica osservazione,
µ il simbolo della media generale,
αi l’effetto del fattore A,
β βj l’effetto del fattore B,
αβij rappresenta l’effetto della interazione tra A e
B, ei jk rappresenta l’errore sperimentale residuo
Assunzioni: le osservazioni in ognuna delle ab celle costituisce
un campione casuale indipendente, tutte le ab
popolazioni sono distribuite normalmente ed hanno
la medesima varianza. ( INE)
Le ipotesi: Il modello consente di valutare le seguenti ipotesi: H0 α : α1 = α 2= … α i = 0 gli effetti del trattamento A colonna sono uguali e nulli; HA α: non tutti gli α i = 0 ------------------------------------------------- H0 β : β1= β 2…. βj = 0 gli effetti del trattamento B riga sono uguali e nulli; HA β: non tutti gli βj = 0 --------------------------------------------------- H0 α β : α1 β1= α1 β 2… = α β ij = 0 gli effetti della interazione AB sono uguali e nulli; HA α β: non tutti gli α β ij = 0 Test Il test per ognuna delle ipotesi è il R.V. ove al
numeratore viene posto lo scarto quadratico medio
del trattamento A, di quello B, o della interazione
AB, ed al denominatore lo scarto quadratico medio
dell’errore residuo.
La statistica test R.V. segue una distribuzione F quando H0 è vera e le assunzioni sono rispettate. Calcolo della statistica test
Analogamente a quanto fatto per precedenti piani
sperimentali dell’analisi della varianza si può
dimostrare che la somma totale dei quadrati degli
scarti della media si può scomporre nelle sue
componenti:
SST= SSA+SSB+SSAB + SSE
Ovvero la somma totale dei quadrati è uguale alla
somma di quella del trattamento A del trattamento
B della interazione AB e di quella dell’errore
residuo.
Il calcolo delle singole componenti si attua mediante formule semplificate (vedi Daniel) che non vengono qui trattate i quanto questo piano viene da noi esplorato solo mediante pacchetti statistici di analisi Excel, R, STATA.
------------------------------------------------------------------------------------------------------- Tavola riassuntiva per l’analisi della varianza a blocchi
Fonte di
variazione Somma dei quadrati
Gradi di libertà
gdl
Media quadratica
Rapporto di varianze R.V.
Trattamento A
-colonne-
SSA
a-1
MSA = SSA/(a-1)
R.V. = MSA/MSE
Trattamento B -righe-
SSB
b-1
MSB=SSB/(b-1)
R.V. = MSB/MSE
Interazione AB
SSAB
(a-1)*(b-1)
MSAB=
SSAB/ (a-1)*(b-1)
R.V. = MSAB/MSE
Residuo -errore-
SSE
ab*(n-1)
MSE=
SSE/ ab(n-1)
Totale
SST
abn-1
Decisione statistica La regola di decisione per accettare o rifiutare le ipotesi sfrutta un valore di F critico definito da:
• livello di significatività alfa (α solitamente = 0.05, 1- α = 0.95)
• gradi di libertà gdl del numeratore • gradi di libertà gdl del denominatore
Valori di F maggiori di F critico portano a rifiutare H0 (e rispettivamente accettare HA) mentre valori di F inferiori di F critico ne determinano l’accettazione (e rispettivamente il rifiuto di HA).
Nel caso in cui l’ipotesi H0 di nessuna
interazione AB viene rifiutata possiamo
concludere che i due fattori A e B interagiscono.
In questo caso l’interesse nei confronti dei fattori
A e B singoli viene subordinata agli effetti delle
interazioni.
Il numero delle osservazioni in ogni cella può non
essere uguale e ciò comporta un diverso numero
dei gradi di libertà per i rispettivi trattamenti e d
interazioni.
Vedi esercizio anova2-2RR.xls
Comando Excel �strumenti analisi dati� analisi varianza: a due fattori con replica includere o meno le etichette di riga e colona e specificare nella dialog box
Origine della variazione SQ gdl MQ F Valore di significatività F crit
Età 116.666 2 58.333 6.325 0.008 3.554
Uso di marijuana 716.666 2 358.33338.855 2.94E-07 3.554Interazione età-uso 183.333 4 45.833 4.969 0.007 2.927
residua 166 18 9.222
Totale 1182.667 26
Il risultato del test indica valori significativi
(F calcolato > F critico)
per il fattore età,
quello dell’uso di marijuana
ed anche per la interazione dei due fattori.
Rifiuto le ipotesi H0
L’uso l’uso di marijuana agisce sulla maturità
emotiva in maniera sinergica con l’età.
L’interesse nei confronti dei fattori età dell’uso di