Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.

Forschungsstatistik IProf. Dr. G. Meinhardt

WS 2006/2007

Fachbereich Sozialwissenschaften, Psychologisches Institut

Johannes Gutenberg Universität Mainz

Stunde 11.01.07

Themen der Stunde

• Merkmalszusammenhänge: Überblick und Gegenstand

• Zurückführen der Werte einer Variable auf eine andere: Regression

• Lineare Regression: Y = a X + b

Merkmalszusammenhänge

• Univariate Statistik: Beschreibung von einzelnen statistischen Größen

• Bivariate Statistik: Beziehung zwischen 2 statistischen Variablen

• Merkmalszusammenhang: Es besteht ein Zusammenhang zwischen 2 Variablen X und Y, wenn die Werte von X mit den Werten von Y „einhergehen“, bzw. in gewissem Grad „korrespondieren“.

Beispiele

• Gibt es einen Zusammenhang von Drogenkonsum und mentaler Leistungsfähigkeit?

• Kann man aus der Abinote die Note des Examens vorhersagen?

• Haben Raucher häufiger Lungenkrebs als Nichtraucher?

• Hängt der Therapieerfolg ab von einer positiven Einstellung zur Psychotherapie?

[Beispiel: Schuh-und Körpergröße, Test-Retest]

Beispiel: Zusammenhang bei metrischen Daten

34

36

38

40

42

44

46

48

50

52

140 150 160 170 180 190 200

Körpergröße

Sch

uhgr

öße

Zusammenhänge von X und Y : Vorhersagbarkeit von Y aus X

70

80

90

100

110

120

130

70 80 90 100 110 120 130

Test (IQ)R

etes

t (I

Q)

Beispiel: Zusammenhang bei Nominaldaten (Häufigkeiten)

Kein Zusammenhang der beiden Variablen Lungenkrebs (LK)und Rauchen (R) !

R+ R-

LK+ 125 125 250

LK- 125 125 250

250 250 500

Beispiel: Zusammenhang bei Nominaldaten (Häufigkeiten)

Maximaler Zusammenhang der beiden Variablen Lungenkrebs (LK) und Rauchen (R) !

R+ R-

LK+ 250 0 250

LK- 0 250 250

250 250 500

Themengebiet Regression & Korrelation

• Lineare Regression & Korrelation• Ausgleichspolynome n-ter Ordnung • Nichtlineare Regression:

a) auf lineare Regression zurückführbare Modelleb) echte nichtlineare Modelle

• Mehr als 2 Variablen: Multiple Regression & Korrelation

Merkmalszusammenhänge

2.5 5 7.5 10 12.5 15 17.5X

5

10

15

20

25

30Y

8 10 12 14 16X

10

20

30

40

50

60Y

8 10 12 14 16X

10

20

30

40

50

60Y

Kein Zusammenhang positiver Zusammenhang negativer Zusammenhang

Für mindestens intervallskalierte Variablen erkennt man eine mögliche Beziehung im Scatterplot

Näherungskurven

Näherungskurven können linear oder nichtlinear sein. Je mehrParameter sie haben, desto schmiegsamer sind die Kurven

Zur Modellwahl

• Regressionsmodelle können exploratorisch oder prüfend gewählt werden

• Die Entscheidung über die Güte der Modellpassung wird anhand von Kennziffern der Vorhersageleistung getroffen

• Je mehr Parameter ein Modell hat, desto eher kann es komplizierteren Verläufen der Daten folgen und verschiedene Trends abbilden

• Vorhersageleistungen sind daher relativ zur Anzahl der freien Parameter zu bewerten

Lineare Näherungskurve

• Lineare Näherung ist oft die zunächst einfachste• Gibt recht gut einen „Trend“ der Beziehung an: mehr geht oft nicht• Unterscheidung zwischen „empirischer“ und „theoretischer“ Näherungskurve

Lineare Näherungskurve: Modellansatz

Die lineare Näherungskurve („Regressionsgerade“) wird so bestimmt, daß die Summe der quadrierten Abweichungen der Y Werte von derGeraden minimal werden („Kleinstquadratkriterium“)

0 1î iy a a x Modell:

ˆ î i ie y y Fehler:

î i iy y e Datenerklärung:

Kriterium für die Parameterbestimmung

22

1 1

ˆ minN N

i i ii i

e y y

[Tafelrechnung: Bestimmung der Normalgleichungen für die Parameter a0 und a1]

Die Normalgleichungen

Die Normalgleichungsregel führt für Polynome k-ter Ordnung stets auf dasselbe Gleichungssystem wie die Behandlung des Minimierungsproblems

20 1 2 2ˆ k

i i k ky a a x a x a x Modell:

Regel: Multipliziere jede Seite der Gleichung nacheinander mit 1, x, x2,...,xk

und summiere über die N- Fälle

Für k = 1 (lineare Regression) ergibt das:

0 11 1

20 1

1 1 1

(1)

(2)

N N

i ii i

N N N

i i i ii i i

y a N a x

x y a x a x

Die Koeffizienten a0 und a1

Die Steigungskonstante a1 ergibt sich als Quotient der sog. Kovarianzund der Varianz der Variable x.

1 1 1

1 22

1 1

1

1

N N N

i i i ii i i

N N

i ii i

x y y xNa

x xN

Auflösen des Normalgleichungssystems nach a1 ergibt:

1

,Cov x ya

Var x

[Tafelbehandlung]

Die Koeffizienten a0 und a1

Der Schnittpunkt a0 läßt sich direkt aus der Steigungskonstanten und denbeiden Mittelwerten errechnen

0 11 1

1

1 1N N

i ii ia y a x

N Ny a x

Auflösen des Normalgleichungssystems nach a0:

Varianzzerlegung

Für die lineare Regression gilt die additive Varianzzerlegung

Die Kriteriumsvarianz ist die Summe aus Vorhersagevarianz und Fehlervarianz

Determinationskoeffizient

Wegen der Varianzzerlegung

Der Determinationskoeffizient gibt den Anteil der erklärten Varianz an der gesamten Kriteriumsvarianz an.

gilt

Man definiert

als Determinationskoeffizient

Determinationskoeffizient

Der Anteil der erklärten Varianz ist der Anteil der quadrierten Kovarianzan dem Produkt der beiden Varianzen.

Ferner gilt (s. Steigungsdreieck)

î i iy y a x x Und daher

21ˆVar y a Var x

Woraus man

für den Determinationskoeffizienten erhält

22 ,

1Var e Cov x y

rVar y Var x Var y

Standardschätzfehler

Der Standardschätzfehler beschreibt die Streuung um die Regressionsgerade. Er ist definiert als Anteil an der Streuung des Kriteriums, der zulasten der „Unzuverlässigkeit“ geht.

gilt

21Var e r Var y

Wegen

2 1Var e

rVar y

und daher

21e ys s r

Regression X aus Y

Ansatz

Koeffizienten

Die Regressionsgerade „X aus Y“ (grau) minimiert den Vorhersagefehler in X- Richtung. Man erhält die Koeffizienten der Geraden durch Vertauschen von X und Y und Lösen den Normalgleichungen. Beide Geraden schneiden sich im Punkt ,X Y

[Tafel]

Abweichungswerte

Ansatz

Geraden

Bei Abweichungswerten fällt die additive Konstante weg. Beide Geraden schneiden sich im Nullpunkt , 0,0u v

[Tafel]

i

i

u x x

v y y

1

1

ˆ

ˆ 'i i

i i

v a x

u a y

z - Werte

Die Covarianz von z- standardisierten Variablen ist der sog. Pearson – Produkt – Moment Korrelationskoeffizient

Die Covarianz von z- Werten ist:

1

1

1

1,

1

1

i i

i i

N

x y x x y yi

N

x yi

Ni i

i x y

xy

Cov z z z z z zN

z zN

x x y y

N s s

r

[Tafel]

Geraden:

y

x

y z x

x z y

z z

z z

z - Werte

Die Geradensteigung bei z- standardisierten Variablen ist der Pearson – Produkt – Moment Korrelationskoeffizient. Beide Regressionsgeraden fallen zusammen, es gibt nur noch eine.

Die Geradensteigung bei z- Werten ist:

1

1

1

1, ,

1 1

1

1

i i

y y

i i

N

x x y yx y x y i

z zx x

N

x yi

Ni i

i x y

xy

z z z zCov z z Cov z z NVar z Var z

z zN

x x y y

N s s

r

-3 -2 -1 1 2 3

zX

-3

-2

-1

1

2

3z Y

Der Produkt-Moment-Korrelationskoeffizient

1

2 2

1 1

1,

1 1

N

i ii

xy N Nx y

i ii i

x x y yCov x yN

rs s

x x y yN N

Der Produkt-Moment Korrelationskoeffizient gibt Stärke und Richtung des linearen Zusammenhanges zweier Variablen an.

1 1xyr für seinen Wertebereich.Es gilt:

Er ist invariant gegenüber linearen Transformationen

Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.

Documents