Ein frohes und erfolgreiches Jahr 2008!
Ein frohes und
erfolgreiches Jahr
2008!
Westfälische Wilhelms-Universität MünsterInstitut für SoziologieWS 2007/2008Methodenseminar: Einführung in multivariate AnalyseverfahrenDozent: Dr. Thomas BlankReferentinnen: Nadja Jenzelewski, Aleksandra Hauptstoek07.01.2008
Varianzanalyse
Problemstellung (allgemein)
• wichtigstes Analyseverfahren zur Auswertung von Experimenten
• Aufgabe der Varianzanalyse: Untersuchung der Wirkung einer (oder mehrerer) unabhängiger Variablen (x) auf eine (oder mehrere) abhängige Variable (y)
• Formulierung von Kausalbeziehungen (Ursache-Wirkungs- Beziehungen), wobei die unabhängige(n) Variable(n) lediglich nominal skaliert, die abhängige Variable metrisch skaliert sein muss
Zahl der Zahl der Bezeichnung des
abhängigen Variablen unabhängigen Variablen Verfahrens
1 1 Einfaktorielle
Varianzanalyse
1 2 Zweifaktorielle
Varianzanalyse
1 3 Dreifaktorielle
Varianzanalyse
usw.
Mindestens 2 Eine oder mehrere Mehrdimensionale Varianzanalyse
Typen der Varianzanalyse
Einfaktorielle Varianzanalyse Problemformulierung
• Hat das Bildungsniveau Einfluss auf die Fremdenfeindlichkeit?
Einstellung zur Fremdenfeindlichkeit
niedrige Bildung
mittlere Bildung
hohe Bildung
4,7 3,9 4,0 4,6 4,5
6,8 6,5 6,3 5,9 6,7
5,9 5,0 5,1 4,8 5,3
beobachtete Werte der Einstellung zur Fremdenfeindlichkeit in Abhängigkeit vom Bildungsniveau
Mittelwerte der Einstellung zur Fremdenfeindlichkeit je Bildungsniveau
Mittelwert pro Bildungsniveau
niedrige Bildung
mittlere Bildung
hohe Bildung
_ y1 = 4,34
_y2 = 6,44
_ y3 = 5,22
Gesamtmittelwert
_ _ y = 5,33
• Varianzhomogenität: Annahme, dass Einflüsse „von außen“ (d.h. außerhalb der experimentellen Anordnung), bis auf zufällige Abweichungen bei allen Ausprägungen der zu untersuchenden unabhängigen Variablen gleich sind
Einfaktorielle Varianzanalyse Analyse der Abweichungsquadrate
erklärte und nicht erklärte Abweichungen bei „niedrige Bildung“ und „mittlere Bildung“
• Berechnung der Gesamabweichung (SS)
- Zerlegung der Gesamtabweichung in zwei Komponenten (sog. Streuungszerlegung):
Gesamtabweichung = erklärte Abweichung + nicht erklärte Abweichung
- Übertragung der Zerlegung der Gesamtabweichung je Beobachtung auf die Summe der Gesamtabweichungen aller Beobachtungen (SS = „sum of squares“):
Gesamtabweichung = erklärte Abweichung + nicht erklärte
Abweichung
Summe der quadrierten = Summe der quadrierten + Summe der
Gesamtabweichungen Abweichungen quadrierten
zwischen Abweichungen
den Faktorstufen innerhalb
der Faktor-
stufen
SSt(otal) = SSb(etween) + SSw(ithin)
SStG K _∑ ∑ (ygk – y)2
g=1 k=1
SSbG _ _∑ K(yg – y)2
g=1
SSwG K _∑ ∑ (ygk – yg)2
g=1 k=1
niedrige Bildung
_ (4,7 - 5,33)2= 0,40 _+(3,9 – 5,33)2= 2,05 _+(4,0 – 5,33)2= 1,78 _+(4,6 – 5,33)2= 0,54 _+(4,5 – 5,33)2= 0,69
_ (4,34 – 5,33)2= 0,99 _+(4,34 – 5,33)2= 0,99 _+(4,34 – 5,33)2= 0,99 _+(4,34 – 5,33)2= 0,99 _+(4,34 – 5,33)2= 0,99
(4,7 – 4,3)2= 0,13
(3,9 – 4,3)2= 0,19
(4,0 – 4,3)2= 0,12
(4,6 – 4,3)2= 0,07
(4,5 – 4,3)2 = 0,03
mittlere Bildung _+(6,8 – 5,33)2= 2,15 _+(6,5 – 5,33)2= 1,36 _+(6,3 – 5,33)2= 0,93 _+(5,9 – 5,33)2= 0,32 _+(6,7 – 5,33)2= 1,87
_+(6,44 – 5,33)2= 1,22 _+(6,44 – 5,33)2= 1,22 _+(6,44 – 5,33)2= 1,22 _+(6,44 – 5,33)2= 1,22 _+(6,44 – 5,33)2= 1,22
(6,8 – 6,44)2= 0,13
(6,5 – 6,44)2= 0,004
(6,3 – 6,44)2= 0,02
(5,9 – 6,44)2= 0,29
(6,7 – 6,44)2= 0,07
hohe Bildung _+(5,9 – 5,33)2= 0,32 _+(5,0 – 5,33)2= 0,11 _+(5,1 – 5,33)2= 0,05 _+(4,8 – 5,33)2= 0,28 _+(5,3 – 5,33)2= 0,001
_+(5,22 – 5,33)2= 0,01 _+(5,22 – 5,33)2= 0,01 _+(5,22 – 5,33)2= 0,01 _+(5,22 – 5,33)2= 0,01 _+(5,22 – 5,33)2= 0,01
(5,9 – 5,22)2= 0,46
(5,0 – 5,22)2= 0,05
(5,1 – 5,22)2= 0,01
(4,8 – 5,22)2= 0,17
(5,3 – 5,22)2= 0,006
Ermittlung der Abweichungsquadrate
SSt = 12,87 SSb = 11,12 SSw = 1,75
• Berechnung der Varianz (MS)
- allgemein ist die (empirische) Varianz definiert als mittlere quadratische Abweichung ( „mean sum of squares“):
SS Varianz = Zahl der Beobachtungen -1
- Größe im Nenner ist die Zahl der Freiheitsgrade df (degrees of freedom).
dft(otal) = G ∙ K – 1
dfw(ithin) = G(K – 1)
dfb(etween) = G – 1
Varianzquelle SS
(Gesamt-)
Abweichung
df
Freiheitsgrade
MS
Mittlere
quadratische
(Gesamt-)
Abweichung
zwischen den
Faktorstufen
G _ _
∑ K(yg – y)2 = 11,12g=1
G – 1 = 2 SSb
= 5,56
G - 1
innerhalb der
Faktorstufen
G K _
∑ ∑ (ygk – yg)2= 1,75g=1 k=1
G(K -1) = 12 SSw
= 0,15
G(K – 1)
Gesamt G K _
∑ ∑ (ygk – y)2= 12,87g=1 k=1
G ∙ K – 1 = 14 SSt
= 0,92
G ∙ K - 1
Zusammenstellung der Ergebnisse der einfaktoriellen Varianzanalyse
Einfaktorielle Varianzanalyse Prüfung der statistischen Unabhängigkeit
• Ermittlung des empirischen F-Wertes:
MSb 5,56 Femp = = = 38,09 MSw 0,15
• Formal lautet die Fragestellung des F-Tests:
H0: α1 = α2 = α3 = 0
H1: mindestens ein α-Wert ≠ 0
• Ermittlung des theoretischen F-Wertes:
dfb (Spalten der Tabelle) Ftab = dfw (Zeilen der Tabelle)
• Ist der empirische Wert größer als der theoretische, kann die Nullhypothese verworfen werden, d. h. es kann ein Einfluss des Faktors gefolgert werden.
• Aufgabe der Varianzanalyse ist es lediglich die Tatsache, dass ein Zusammenhang zwischen der unabhängigen und der abhängigen Variablen besteht, zu testen
• keine Aussage über die Stärke des Zusammenhanges möglich
Zweifaktorielle Varianzanalyse
Zweifaktorielle Varianzanalyse: Problemstellung
Verknüpfung mehrer unabhängigen Variablen
FremdenfeindlichkeitAbh. Variable
BildungsniveauUnabh. Variable
GeschlechtUnabh. Variable
Faktorielles Design
Die Untersuchungsordnung heißt Faktorielles Design.
Ein vollständiges faktorielles Design liegt vor, wenn zu allen Kombinationen aus mindestens zwei Faktoren mit mindestens zwei Ausprägungen mindestens eine Beobachtung gemacht werden. Die Zahl der Beobachtungen pro Kombination muss gleich sein.
Faktorielles Design: Beispiel
drei Bildungsniveaus (niedrig, mittel, hoch) zwei Geschlechtern
(m/w)
3 x 2 experimentelle Kombinationen der Faktorenstufen(3x2-faktorielles Design)
Erweiterung der Fragestellung im faktoriellen Design
Hat das Bildungsniveau Einfluss auf die Fremdenfeindlichkeit?
Hat das Geschlecht Einfluss auf die Fremdenfeindlichkeit?
Besteht eine Wechselwirkung zwischen dem Geschlecht und dem Bildungsniveau?
Wirkung der einzelnen Faktoren.Interaktion zwischen den Faktoren.
BildungsniveauGeschlecht
männlich weiblich
niedrig
4,73,94,04,64,5
4,03,93,53,63,7
mittel
6,86,56,35,96,7
5,95,75,45,65,3
hoch
5,95,05,14,85,3
5,34,74,85,05,1
Graphische Analyse von Interaktionen
6,5
6,0
5,5
5,0
4,5
4,0
3,5
3,0
niedriges
mittleres
hohes
Bildungsniveau
Fremdenfeindlichkeit
männlich
weiblich
Zweifaktorielle Varianzanalyse: Analyse
SSt = SSA + SSAxB + SSwGesamtstreuung SSt
Streuung zwischen den Gruppen
SSb
Streuung innerhalb der Gruppen
SSW
Streuung durch Faktor A
SSA
Streuung durch Faktor B
SSB
Streuung durch Wechselwirkung
von A und BSSAxB
Varianzquelle SS df MS
Haupteffekte Bildungsniveau GeschlechtInteraktion Bildungsniveau/GeschlechtReststreuung Total
19,442002,40833
0,484662,3824,7150
21
22429
9,721002,40833
0242330,099160,85224
Zweifaktorielle Varianzanalyse: Ergebnisse
Aufteilung der Gesamtstreuung im faktoriellen Design mit zwei Faktoren
Zweifaktorielle Varianzanalyse: Prüfung der statistischen
Unabhängigkeit
H0: wenn FA und FB haben keinen Einfluss auf die abh. Variable.oder
H1: wenn zumindest eine Faktorenstufe einen anderen Einfluss besitzt als die anderen.
H0: α1=α2=α3=0H1: mindestens ein α-Wert ≠ 0
Anwendungsempfehlungen Formulierung einer Hypothese über den
Wirkungszusammenhang der unabh. Variablen und abh. Variablen.
Bei unabh. Variable jedes Skalenniveau möglich, abh. Variable nur metrisch.
Klarer, allgemeinverständlicher Unterschied zwischen Faktoren.
Wirkung der Faktoren ist additiv.
Unterschied zwischen den einzelnen Beobachtungen.
Vielen Dank für eure Aufmerksamkeit!!!