Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz Stunde 11.01.07
Forschungsstatistik IProf. Dr. G. Meinhardt
WS 2006/2007
Fachbereich Sozialwissenschaften, Psychologisches Institut
Johannes Gutenberg Universität Mainz
Stunde 11.01.07
Themen der Stunde
• Merkmalszusammenhänge: Überblick und Gegenstand
• Zurückführen der Werte einer Variable auf eine andere: Regression
• Lineare Regression: Y = a X + b
Merkmalszusammenhänge
• Univariate Statistik: Beschreibung von einzelnen statistischen Größen
• Bivariate Statistik: Beziehung zwischen 2 statistischen Variablen
• Merkmalszusammenhang: Es besteht ein Zusammenhang zwischen 2 Variablen X und Y, wenn die Werte von X mit den Werten von Y „einhergehen“, bzw. in gewissem Grad „korrespondieren“.
Beispiele
• Gibt es einen Zusammenhang von Drogenkonsum und mentaler Leistungsfähigkeit?
• Kann man aus der Abinote die Note des Examens vorhersagen?
• Haben Raucher häufiger Lungenkrebs als Nichtraucher?
• Hängt der Therapieerfolg ab von einer positiven Einstellung zur Psychotherapie?
[Beispiel: Schuh-und Körpergröße, Test-Retest]
Beispiel: Zusammenhang bei metrischen Daten
34
36
38
40
42
44
46
48
50
52
140 150 160 170 180 190 200
Körpergröße
Sch
uhgr
öße
Zusammenhänge von X und Y : Vorhersagbarkeit von Y aus X
70
80
90
100
110
120
130
70 80 90 100 110 120 130
Test (IQ)R
etes
t (I
Q)
Beispiel: Zusammenhang bei Nominaldaten (Häufigkeiten)
Kein Zusammenhang der beiden Variablen Lungenkrebs (LK)und Rauchen (R) !
R+ R-
LK+ 125 125 250
LK- 125 125 250
250 250 500
Beispiel: Zusammenhang bei Nominaldaten (Häufigkeiten)
Maximaler Zusammenhang der beiden Variablen Lungenkrebs (LK) und Rauchen (R) !
R+ R-
LK+ 250 0 250
LK- 0 250 250
250 250 500
Themengebiet Regression & Korrelation
• Lineare Regression & Korrelation• Ausgleichspolynome n-ter Ordnung • Nichtlineare Regression:
a) auf lineare Regression zurückführbare Modelleb) echte nichtlineare Modelle
• Mehr als 2 Variablen: Multiple Regression & Korrelation
Merkmalszusammenhänge
2.5 5 7.5 10 12.5 15 17.5X
5
10
15
20
25
30Y
8 10 12 14 16X
10
20
30
40
50
60Y
8 10 12 14 16X
10
20
30
40
50
60Y
Kein Zusammenhang positiver Zusammenhang negativer Zusammenhang
Für mindestens intervallskalierte Variablen erkennt man eine mögliche Beziehung im Scatterplot
Näherungskurven
Näherungskurven können linear oder nichtlinear sein. Je mehrParameter sie haben, desto schmiegsamer sind die Kurven
Zur Modellwahl
• Regressionsmodelle können exploratorisch oder prüfend gewählt werden
• Die Entscheidung über die Güte der Modellpassung wird anhand von Kennziffern der Vorhersageleistung getroffen
• Je mehr Parameter ein Modell hat, desto eher kann es komplizierteren Verläufen der Daten folgen und verschiedene Trends abbilden
• Vorhersageleistungen sind daher relativ zur Anzahl der freien Parameter zu bewerten
Lineare Näherungskurve
• Lineare Näherung ist oft die zunächst einfachste• Gibt recht gut einen „Trend“ der Beziehung an: mehr geht oft nicht• Unterscheidung zwischen „empirischer“ und „theoretischer“ Näherungskurve
Lineare Näherungskurve: Modellansatz
Die lineare Näherungskurve („Regressionsgerade“) wird so bestimmt, daß die Summe der quadrierten Abweichungen der Y Werte von derGeraden minimal werden („Kleinstquadratkriterium“)
0 1ˆi iy a a x Modell:
ˆ ˆi i ie y y Fehler:
ˆi i iy y e Datenerklärung:
Kriterium für die Parameterbestimmung
22
1 1
ˆ minN N
i i ii i
e y y
[Tafelrechnung: Bestimmung der Normalgleichungen für die Parameter a0 und a1]
Die Normalgleichungen
Die Normalgleichungsregel führt für Polynome k-ter Ordnung stets auf dasselbe Gleichungssystem wie die Behandlung des Minimierungsproblems
20 1 2 2ˆ k
i i k ky a a x a x a x Modell:
Regel: Multipliziere jede Seite der Gleichung nacheinander mit 1, x, x2,...,xk
und summiere über die N- Fälle
Für k = 1 (lineare Regression) ergibt das:
0 11 1
20 1
1 1 1
(1)
(2)
N N
i ii i
N N N
i i i ii i i
y a N a x
x y a x a x
Die Koeffizienten a0 und a1
Die Steigungskonstante a1 ergibt sich als Quotient der sog. Kovarianzund der Varianz der Variable x.
1 1 1
1 22
1 1
1
1
N N N
i i i ii i i
N N
i ii i
x y y xNa
x xN
Auflösen des Normalgleichungssystems nach a1 ergibt:
1
,Cov x ya
Var x
[Tafelbehandlung]
Die Koeffizienten a0 und a1
Der Schnittpunkt a0 läßt sich direkt aus der Steigungskonstanten und denbeiden Mittelwerten errechnen
0 11 1
1
1 1N N
i ii ia y a x
N Ny a x
Auflösen des Normalgleichungssystems nach a0:
Varianzzerlegung
Für die lineare Regression gilt die additive Varianzzerlegung
Die Kriteriumsvarianz ist die Summe aus Vorhersagevarianz und Fehlervarianz
Determinationskoeffizient
Wegen der Varianzzerlegung
Der Determinationskoeffizient gibt den Anteil der erklärten Varianz an der gesamten Kriteriumsvarianz an.
gilt
Man definiert
als Determinationskoeffizient
Determinationskoeffizient
Der Anteil der erklärten Varianz ist der Anteil der quadrierten Kovarianzan dem Produkt der beiden Varianzen.
Ferner gilt (s. Steigungsdreieck)
ˆi i iy y a x x Und daher
21ˆVar y a Var x
Woraus man
für den Determinationskoeffizienten erhält
22 ,
1Var e Cov x y
rVar y Var x Var y
Standardschätzfehler
Der Standardschätzfehler beschreibt die Streuung um die Regressionsgerade. Er ist definiert als Anteil an der Streuung des Kriteriums, der zulasten der „Unzuverlässigkeit“ geht.
gilt
21Var e r Var y
Wegen
2 1Var e
rVar y
und daher
21e ys s r
Regression X aus Y
Ansatz
Koeffizienten
Die Regressionsgerade „X aus Y“ (grau) minimiert den Vorhersagefehler in X- Richtung. Man erhält die Koeffizienten der Geraden durch Vertauschen von X und Y und Lösen den Normalgleichungen. Beide Geraden schneiden sich im Punkt ,X Y
[Tafel]
Abweichungswerte
Ansatz
Geraden
Bei Abweichungswerten fällt die additive Konstante weg. Beide Geraden schneiden sich im Nullpunkt , 0,0u v
[Tafel]
i
i
u x x
v y y
1
1
ˆ
ˆ 'i i
i i
v a x
u a y
z - Werte
Die Covarianz von z- standardisierten Variablen ist der sog. Pearson – Produkt – Moment Korrelationskoeffizient
Die Covarianz von z- Werten ist:
1
1
1
1,
1
1
i i
i i
N
x y x x y yi
N
x yi
Ni i
i x y
xy
Cov z z z z z zN
z zN
x x y y
N s s
r
[Tafel]
Geraden:
y
x
y z x
x z y
z z
z z
z - Werte
Die Geradensteigung bei z- standardisierten Variablen ist der Pearson – Produkt – Moment Korrelationskoeffizient. Beide Regressionsgeraden fallen zusammen, es gibt nur noch eine.
Die Geradensteigung bei z- Werten ist:
1
1
1
1, ,
1 1
1
1
i i
y y
i i
N
x x y yx y x y i
z zx x
N
x yi
Ni i
i x y
xy
z z z zCov z z Cov z z NVar z Var z
z zN
x x y y
N s s
r
-3 -2 -1 1 2 3
zX
-3
-2
-1
1
2
3z Y
Der Produkt-Moment-Korrelationskoeffizient
1
2 2
1 1
1,
1 1
N
i ii
xy N Nx y
i ii i
x x y yCov x yN
rs s
x x y yN N
Der Produkt-Moment Korrelationskoeffizient gibt Stärke und Richtung des linearen Zusammenhanges zweier Variablen an.
1 1xyr für seinen Wertebereich.Es gilt:
Er ist invariant gegenüber linearen Transformationen