This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Multivariate Statistik
Inhalt:
1. Grundlagen
2. Multivariate Verteilungen
3. Regressionsanalyse
4. Varianzanalyse
5. Allgemeine Verfahren zum Testen von Hypothesen
6. Hauptkomponentenanalyse
7. Faktoranalyse
8. Konfirmatorische Faktoranalyse
9. Kontingenztafeln und Korrespondenzanalyse
10. Diskriminanzanalyse
Literatur:
Härdle, W. und Simar, L. (2003). Applied Multivariate StatisticalAnalysis. Springer Verlag
Jobson, J.D. (1991). Applied Multivariate Data Analysis. SpringerVerlag (zwei Bände)
Multivariate Statistik@LS-Kneip 0–1
Einführung
Multivariate Datenanalyse
• Daten in der Form einer Datenmatrix
• Statistische Verfahren zur
– Explorativen Datenanalyse (”DataMining”)
– Modellierung und statistische Inferenz (konfirmatorischeDatenanalyse)
Ziele:
• Beschreibung, Zusammenfassung und Darstellung der in ei-nem Datensatz enthaltenen Informationen
• Entdeckung von (verborgenen) Strukturen in den Daten
• Identifikation von untypischen Beobachtungen (Ausreißern)
• Aufbau eines statistischen Modells, das die entdeckten Struk-turen erklären kann
• Überprüfung eines Modells durch Kontrolle von zufallsbe-dingten Ungenauigkeiten
• Überprüfung von Hypothesen
• Prognose, Klassifizierung
• Varianzanalyse: Verfahren zur statistischen Inferenz
Multivariate Statistik@LS-Kneip 0–2
Beispiel: Eine Firma betreibt ihre Produkte in verschiedenenLändern. Von Interesse für die Firmenleitung hinsichtlich gewis-ser Marketing Strategien ist zu erfahren, ob sich bestimmte Pro-dukte vergleichbaren Typs in manchen Ländern besser umsetzenlassen als in anderen.
Daten für zufällig herausgegriffene Monate:
Produkt I Produkt II
A 42 45 42 41 38 39 37 41
Land B 36 36 35 35 39 40 36 36
C 33 32 32 33 36 34 36 33
Multivariate Statistik@LS-Kneip 0–3
Beispiel 0.1 (Car Data)Im „car data“–Datensatz (Chambers et al.; 1983) wurden 13 ver-schiedene Variablen von 74 unterschiedlichen Autotypen erhoben.Die Abkürzungen im Datensatz sind wie folgt:
X1: P Price
X2: M Mileage (in miles per gallone)
X3: R78 Repair record 1978 (rated on a 5-point scale;5 best, 1 worst)
X4: R77 Repair record 1977 (scale as before)
X5: H Headroom (in inches)
X6: R Rear seat clearance (distance from front seatback to rear seat, in inches)
X7: Tr Trunk space (in cubic feet)
X8: W Weight (in pound)
X9: L Length (in inches)
X10: T Turning diameter (clearance required to makea U-turn, in feet)
X11: D Displacement (in cubic inches)
X12: G Gear ratio for high gear
X13: C Company headquarter (1 for U.S., 2 for Ja-pan, 3 for Europe)
Beispiel 0.2 (U.S. Companies Data)Im „U.S. Companies Data“– Datensatz wurden 6 verschiedeneVariablen für 79 amerikanische Unternehmen aus den Top 500Unternehmen erhoben. Die verwendeten Abkürzungen sind diefolgenden:
Beispiel 0.3 (French Food Data)Der Datensatz beschreibt die durchschnittlichen Ausgaben für Nah-rungsmittel von verschiedenen Familientypen in Frankreich(MA=Handwerker , EM=Angestellte, CA=Manager) mit unter-schiedlich vielen Kindern (2,3,4 oder 5 Kinder). Die Daten stam-men von Lebart, Morineau and Fénelon (1982).
⇒ Konfidenzintervall zum Niveau 1 − α für µ bei bekanntenσ
µ ∈ [X ± z1−α/2σ√n]
z1−α/2 - 1−α/2-Quantil der Standardnormalverteilung; z0.975 =
1.96
√n(X − µ)
S∼ Tn−1
Tn−1 - Studentsche t-Verteilung mit n− 1 Freiheitsgraden
⇒ Konfidenzintervall für µ bei unbekannter Varianz
µ ∈ [X ± t1−α/2;n−1S√n]
Multivariate Statistik@LS-Kneip 1–7
(n− 1)S2
σ2∼ χ2
n−1
χ2n−1 - χ2 Verteilung mit n− 1 Freiheitsgraden
Zentraler Grenzwertsatz
Seien X1, . . . , Xn unabhängig und identisch verteilte Zufallsva-riablen mit E(Xi) = µ und V ar(Xi) = σ2 > 0.
• Die Folge von Zufallsvariablen
Zn =
∑ni=1Xi − nµ√
nσ2=
√n
(X − µ
σ
)konvergiert mit steigendem n gegen die standardisierte Nor-malverteilung N(0, 1)
• Für genügend großes n sind die Beziehungen X ∼ N(µ, σ2
n ),√n(X−µ)
S ∼ Tn−1, (n− 1)S2
σ2 ∼ χ2n−1 approximativ erfüllt.
Multivariate Statistik@LS-Kneip 1–8
1.4 Konstruktion von Schätzstatistiken
Es stellt sich die Frage, wie man bei einem gegebenen Schätzpro-blem vorgehen kann, um eine geeignete Schätzfunktion für einenunbekannten Parameter (z.B. Mittelwert, Varianz, Quantile) zufinden, der hier allgemein mit θ bezeichnet werden soll.
In der Statistik wurden hierzu eine ganze Reihe verschiedenerVerfahren entwickelt. In diesem Abschnitt werden dei Verfahrendiskutiert: Die Momentenmethode, die Kleinste-QuadrateMethode und der Maximum-Likelihood Ansatz.
Der Schwerpunkt liegt auf dem sehr allgemeinen Maximum-Likelihood-Prinzip, das auch in komplexen Schätzsituationenanwendbar ist. Theoretische Resultate zeigen zudem, dass dieMaximum-Likelihood-Methode i.Allg. sehr wirksame Schätzer lie-fert.
Wir setzen jeweils voraus, dass X1, . . . , Xn unabhängig und iden-tisch verteilt sind (unabhängige Wiederholungen von X).
Multivariate Statistik@LS-Kneip 1–9
1.4.1 Die Momentenmethode
In seiner einfachsten Form ist der Ansatz der Momentenmethode,ein interessierendes Moment vonX (wie E(X), E(X2)) durch dasentsprechenden Moment der beobachteten Daten zu schätzen.Erwartungswerte werden durch arithmetische Mittel ersetzt.
Beispiele:
Schätzung von µ = E(X) durch X = 1n
∑ni=1Xi
Schätzung von µ = E(X3) durch X = 1n
∑ni=1X
3i
1.4.2 Die Kleinste-Quadrate Methode
Der Ansatz der Kleinste-Quadrate Methode besteht darin, dieaufsummierten quadratischen Abweichungen zwischen Beobach-tungswert und geschätztem Wert zu minimieren. Dieses Prinzipfindet insbesondere Anwendung in der Regressionsanalyse.
Beispiel: Zur Bestimmung der zentralen Tendenz wird µ so ge-schätzt, dass
n∑i=1
(Xi − µ)2 minimal
Daraus resultiert nach einfacher Ableitung als Schätzer das arith-metische Mittel X
Multivariate Statistik@LS-Kneip 1–10
1.4.3 Maximum Likelihood-Schätzung
Beispiel: Eine Firma besitze einen relativ großen Lagerbestandan Glühbirnen. Um sich einen Eindruck von dem Anteil defek-ter Glühbirnen zu verschaffen, wird eine Zufallsstichprobe von 5Birnen gezogen. 3 davon sind defekt.
Idee der Maximum Likelihood-Schätzung: Man betrachtetalle möglichen Werte 0 ≤ p ≤ 1 und wählt dann denjenigenaus, der die beobachteten Daten am besten erklärt.
Multivariate Statistik@LS-Kneip 1–11
Die Wahrscheinlichkeit, genau die beobachtete Stichprobe x1, . . . , x5zu ziehen, hängt von p ab:
P [X1 = x1, X2 = x2, X3 = x3, X4 = x4, X5 = x5|p]
= P [X1 = x1] · P [X2 = x2] · P [X3 = x3]
· P [X4 = x4] · P [X5 = x5]
= p · (1− p) · p · p · (1− p)
= p3(1− p)2
⇒ Für alle p ∈ [0, 1]: Falls p der wahre Wert ist, so gilt
L(p) = P [X1 = x1, . . . , X5 = x5|p] = p3(1− p)2
L(p) wird als Likelihoodfunktion bezeichnet.
Für alle 0 ≤ p ≤ 1 gibt L(p) also die Wahrscheinlichkeit an,dass die beobachteten Werte x1, . . . , x5 auftreten, falls der be-trachtete Wert p gleich dem wahren Wert ist. Der Ansatz derMaximum Likelihood-Schätzung besteht nun darin, denjenigenWert auszuwählen für den diese Wahrscheinlichkeit maximal ist.
• p = 0 ⇒ L(p) = 0 ⇒ beobachtete Werte unmöglich!
• p = 0, 1 ⇒ L(p) = 0, 13 · 0, 92 = 0, 00081
• p = 0, 2 ⇒ L(p) = 0, 23 · 0, 82 = 0, 00512
Multivariate Statistik@LS-Kneip 1–12
0.0 0.2 0.4 0.6 0.8 1.0
p
0.00
0.01
0.02
0.03
0.04
L(p)
L(p) wird am Punkt p = 0.6 maximal ⇒ p = 0.6 ist die Maxi-mum Likelihood-Schätzung des unbekannten wahren Wertesvon p.
p = 0.6 ist im Beispiel derjenige Wert von p ∈ [0, 1], für den dieWahrscheinlichkeit, dass gerade die beobachteten Werte x1, . . . , x5auftreten, maximal ist.
Multivariate Statistik@LS-Kneip 1–13
Das Maximum Likelihood-PrinzipDas obige Beispiel liefert eine Illustration des Maximum Likelihood-Prinzip zur Konstruktion einer Schätzfunktion. Allgemein lässtsich dieses Prinzip folgendermaßen darstellen:
Statistisches Modell:
• Man betrachtet eine einfache ZufallsstichprobeX1, . . . , Xn (unabhängige Wiederholungen von X). Die Ver-teilung von X hängt von einem Parameter θ ab, dessen wah-rer Wert unbekannt ist.
• beobachtete (realisierte) Werte: x1, . . . , xn
Problem: Schätze θ
�� ��1. Schritt: Berechnen der Likelihoodfunktion L(θ)
Die Likelihoodfunktion ergibt sich in Abhängigkeit von allen prin-zipiell möglichen Werten von θ. Sie quantifiziert (bei diskretenZufallsvariablen) die Wahrscheinlichkeit, dass gerade die beob-achteten Werte x1, . . . , xn auftreten, falls der wahre Wert desParameters mit dem betrachteten Wert θ übereinstimmt.
Multivariate Statistik@LS-Kneip 1–14
• Diskrete Verteilung mit Wahrscheinlichkeitsfunktion f(x) ≡f(x|θ)
Statististischer Test: Verfahren zur Entscheidung zwischenH0 und H1 auf der Grundlage der beobachteten Daten
Fehler 1. Art: H0 wird abgelehnt, obwohl H0 richtig ist
Fehler 2. Art: H0 wird angenommen, obwohl H0 falsch ist
Test zum Niveau α (z.B. α = 5%)
P ( Fehler 1. Art ) ≤ α
Multivariate Statistik@LS-Kneip 1–22
Teststatistik des t-Tests:
T =
√n(X − µ0)
S
Test zum Niveau α
• Einseitiger Test: Ablehnung von H0, falls
Tbeobachtet ≥ tn−1;1−α
• Zweiseitiger Test: Ablehnung von H0, falls
|Tbeobachtet| ≥ tn−1;1−α/2
Der p-Wert (Überschreitungswahrscheinlichkeit):
• Einseitiger Test:
p-Wert = P (Tn−1 ≥ Tbeobachtet)
• Zweiseitiger Test:
p-Wert = P (|Tn−1| ≥ |Tbeobachtet|)
Multivariate Statistik@LS-Kneip 1–23
Allgemein: p-Wert = Wahrscheinlichkeit, unter H0 den beob-achteten Prüfgrößenwert oder einen in Richtung der Alternativeextremeren Wert zu erhalten.
Interpretation:
• ”Glaubwürdigkeit” von H0: H0 ist wenig glaubwürdig, fallsder p-Wert sehr klein ist
• Der in einer konkreten Anwendung berechnete p-Wert hängtvon dem beobachteten Datensatz ab. Er liefert Informa-tionen über die Resultate der zugehörigen Signifikanztestszu den verschiedenen Niveaus α :
α > p-Wert ⇒ Ablehnung von H0
α < p-Wert ⇒ Beibehaltung von H0
In der Praxis:
• Test ”signifikant”, falls p-Wert < 0.05 (d.h. ein Test zumNiveau 5% führt zur Ablehnung von H0)
Fortsetzung Beispiel 0.1 (Car Data)Die Daten in der Graphik stammen aus der zweiten Spalte im„Car data“–Datensatz und beschreiben den Benzinverbrauch (mi-les per gallon) für amerikanische, japanische und europäischeAutomobilproduzenten.
U.S. Autos japanische Autos Europ. Autos
1520
2530
3540
Boxplot für Benzinverbrauch
Ben
zinv
erbr
auch
(in
mile
s pe
r G
allo
n)
Plym. Champ
VW Rabbit Diesel
Multivariate Statistik@LS-Kneip 1–27
1.6.2 Histogramm
f(x)^
{
h{
h
{h
{
h
{h
X 0
����
������������������������������������
������������
����
����
����
�������� X
• Ausgehend von einem Punkt x0 zeichne über alle Intervalleder Form [x0 + jh, x0 + (j + 1)h) Rechtecke mit
– Breite: h
– Höhe :
Anzahl Datenpunkte in [x0 + jh, x0 + (j + 1)h)
nh
=1
h·
n∑i=1
I (xi ∈ [x0 + jh, x0 + (j + 1)h))
n
=1
h· relative Häufigkeit fj
– Fläche :
n∑i=1
I (xi ∈ [x0 + jh, x0 + (j + 1)h))
n
• x0, h frei wählbare Parameter,h - „Binbreite“ (binwidth)
Multivariate Statistik@LS-Kneip 1–28
1.6.3 Empirische Verteilungsfunktion
Die empirische Verteilungsfunktion beantwortet die Frage, wel-cher Anteil der Daten kleiner oder gleich einem interessiertemx-Wert ist. Um diese Frage zu beantworten, bildet man die biszur Schranke x aufsummierten relativen Häufigkeiten. Die em-pirische Verteilungsfunktion eines diskreten Merkmals lässt sichfolgendermaßen beschreiben:
F (x) =H(x)
n=
Anzahl der Werte xi mit xi ≤ x
n
Die empirische Verteilungsfunktion bei diskreten Merkmalen isteine monoton wachsende Treppenfunktion, die an den Ausprä-gungen a1, . . . , ak um die entsprechende relative Häufigkeit nachoben springt.
Mit zunehmender Anzahl an realisierten Ausprägungen wird diesprunghafte Treppenfunktion immer glatter und geht in eine ste-tige, monoton wachsende Verteilungsfunktion über.
−3 −2 −1 0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
empirische Verteilungsfunktion einer normalverteilten Zufallsvariablen (n=200)
x
Fn(x
)
Multivariate Statistik@LS-Kneip 1–30
1.6.4 Normal-Quantil-Plots (NQ-Plots)
• Quantile der Standardnormalverteilung
p 0.5 0.75 0.95 0.975 0.99
zp 0 (Median) 0.67 1.64 1.96 2.33
• Für eine N(µ, σ2)-Verteilung gilt folgende Beziehung zwi-schen den zugehörigen Quantilen ψp und den entsprechendenQuantilen zp der Standardnormalverteilung:
ψp = µ+ σ · zp
• Daten: X1, X2, . . . , Xn
• Geordnete Urliste der Daten X(1) ≤ · · · ≤ X(n)
⇒ X(i) schätzt das i−0.5n -Quantil der zugrundeliegen-
den Verteilung von X
• Der Normal-Quantil-Plot besteht aus den Punkten(z 0,5
n, X(1)), (z 1,5
n, X(2)), (z 2,5
n, X(3)), · · · , (zn−0,5
n, X(n))
im z-x-Koordinatensystem
• Falls die Verteilung von X wirklich eine Normalverteilungist, sollten die Punkte (z i−0,5
n, X(i)) approximativ auf einer
Gerade liegen,
X(i) = β0 + β1z i−0,5n
+ Zufallsschwankungen
Multivariate Statistik@LS-Kneip 1–31
−2 −1 0 1 2
−2
−1
01
2
NQ−Plot einer Normalverteilung (a)
Theoretical Quantiles
Sam
ple
Qua
ntile
s
−2 −1 0 1 2
−5
05
1015
NQ−Plot einer linkssteilen Verteilung (b)
Theoretical Quantiles
Sam
ple
Qua
ntile
s
−2 −1 0 1 2
−10
−6
−4
−2
02
4
NQ−Plot einer rechtssteilen Verteilung (c)
Theoretical Quantiles
Sam
ple
Qua
ntile
s
−2 −1 0 1 2
−5
05
NQ−Plot einer symmetrischen, stark gekümmten Verteilung (d)
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Falls weiterhin x = 0 gilt, aber die Verteilung linkssteil ist, sosind die z-Quantile größer als die x-Quantile, so dass der NQ-Plotdurchhängt, in der Tendenz also konvex ist (siehe b). Für einerechtssteile Verteilung erhält man ganz analog einen konkavenNQ-Plot (siehe c).Für eine symmetrische Verteilung, die bei x = 0 einen im Ver-gleich zur Standardnormalverteilung spitzeren Gipfel, d.h. einestärkere Wölbung hat und dafür dickere Enden links und rechtsbesitzt, erhält man einen NQ-plot wie in Abbildung d.
Multivariate Statistik@LS-Kneip 1–32
2 Multivariate Verteilungen und die Be-schreibung hochdimensionaler Daten
2.1 Elementare Matrixalgebra
• A− (n× d) Matrix
A =
a11 . . . a1d...
an1 . . . and
• Transponierte einer (n× d)-Matrix A
AT =
a11 . . . an1...
a1d . . . and
⇒ AT − (d× n) Matrix
• Spezialfall: n = d ⇒ Eine (d× d)-Matrix A heißt ”quadrati-sche Matrix”
• Sei A eine quadratische (d × d)-Matrix; A heißt ”symme-trisch”, fallsAT = A⇔ aij = aji für alle i, j = 1, . . . , d
Multivariate Statistik@LS-Kneip 2–1
• Summe zweier (n× d)-Matrizen A,B
A+B =
a11 . . . a1d...
an1 . . . and
+
b11 . . . b1d...
...
bn1 . . . bnd
=
a11 + b11 . . . a1d + b1d
...
an1 + bn1 . . . and + bnd
• Produkt einer (n1× d)-Matrix A und einer (d×n2)-MatrixB
A ·B =
a11 . . . a1d...
an11 . . . an1d
·
b11 . . . b1n2
...
bd1 . . . bdn2
=
d∑
i=1
a1ibi1 . . .d∑
i=1
a1ibin2
...d∑
i=1
an1ibi1 . . .d∑
i=1
an1ibin2
︸ ︷︷ ︸
(n1×n2)−Matrix
• Rang einer (n× d)-Matrix A:rang(A) = Anzahl der voneinander linear unabhängigen Zei-len bzw. Spalten
Multivariate Statistik@LS-Kneip 2–2
• Determinante einer quadratischen (d× d)-Matrix
| A |=∑
±a1ia2i . . . adm
Summierung über alle Permutationen i, j, . . . ,m) von (1, 2, . . . , d);positives Vorzeichen bei geraden Permutationen, negativesVorzeichen bei ungeraden Permutationen
• Spur einer quadratischen (d× d)-Matrix
spur(A) =d∑
i=1
aii = Summe der Diagonalelemente
• Inverse einer symmetrischen (d×d)-Matrix A, rang(A) = d:
⇒ Regressionsfunktion: Bedingter Erwartungswert von X2 gege-ben X1 = x1
m(x1) = E(X2 | X1 = x1)
=
1∫0
x2f(x2 | x1)dx2 =
1∫0
x2
12x1 +
32x2
12x1 +
34
dx2 =14x1 +
12
12x1 +
34
Anmerkung: Dies ist eine nichtlineare Funktion von x1
Multivariate Statistik@LS-Kneip 2–18
2.3 Erwartungswerte multivariater Verteilun-gen
Die wichtigsten Parameter einer univariaten Verteilung sind derErwartungswert (Zentrum der Verteilung) und die Varianz (Maßfür die Streuung).
Die entsprechenden Parameter einer multivariaten Verteilung sindder Vektor der Erwartungswerte und die Kovarianzmatrix.
Erwartungswert (”Mittelwert”) der Zufallsvariable Xj , j =
1, . . . , d :
µj = E(Xj) =
∞∫−∞
xfj(x)dx
⇒ Erwartungsvektor
µ =
µ1
...
µd
= E(X) =
E(X1)
...
E(Xd)
Multivariate Statistik@LS-Kneip 2–19
Allgemeine Berechnung von Erwartungswerten(zur Vereinfachung: d = 2).
Sei X = (X1, X2)T und g : R2 → R eine stetige Funktion von
x = (x1, x2)T
⇒ E(g(X)) =
∞∫−∞
∞∫−∞
g(x1, x2)f(x1, x2)dx1dx2
Rechenregeln
• Sei a = (a1, . . . , ad)T ein fest vorgegebener Vektor. Dann gilt
E(a) = a, E(aTX) = aTE(X) = aTµ
• Sei a = (a1, . . . , am)T und A eine (m× d)-Matrix. Dann gilt
E(A ·X + a) = A · E(X) + a = A · µ+ a
Multivariate Statistik@LS-Kneip 2–20
2.4 Die Kovarianzmatrix
Maß für die Streuung der Z.v. Xj , j = 1, . . . , d :
Varianz von Xj
Var(Xj) = σ2j = E((Xj − µj)
2)
Maß für den Zusammenhang zweier Z.v. Xj und Xk:
Kovarianz zwischen Xj und Xk
σjk := Cov(Xj , Xk) = E[(Xj − µj) · (Xk − µk)]
Eigenschaften der Kovarianz:
• Cov(Xj , Xk) > 0 ⇒ tendenziell Xj ↗⇔ Xk ↗
• Cov(Xj , Xk) < 0 ⇒ tendenziell Xj ↗⇔ Xk ↘
• Xj , Xk unabhängig ⇒ Cov(Xj , Xk) = 0
Bei höherdimensionalen Zufallsvektoren ordnet man die Varian-zen und Kovarianzen der einzelnen Komponenten in einer Matrixan. Dies ergibt die Kovarianzmatrix Σ des Zufallsvektors X
Multivariate Statistik@LS-Kneip 2–21
Kovarianzmatrix von X = (X1, . . . , Xd)T
Σ = COV(X) =
σ21 σ12 σ13 · · · σ1d
σ21 σ22 σ23 · · · σ2d
......
......
σd1 σd2 σd3 · · · σ2d
Es gilt
Σ = E[(X − µ)(X − µ)T ]
=
E((X1 − µ1)
2) . . . E[(X1 − µ1)(Xd − µd)]...
...
E[(Xd − µd)(X1 − µ1)] . . . E[(Xd − µd)2]
• Σ = COV(X) ist eine symmetrische (d× d)-Matrix
• Σ = COV(X) ist eine positiv semidefinite Matrix: Für jedenVektor a = (a1, . . . , ad)
T gilt
aTΣa ≥ 0
Schreibweise: Σ ≥ 0
Multivariate Statistik@LS-Kneip 2–22
Standardisiertes Zusammenhangsmaß: Korrelation
ρ(Xj , Xk) = ρjk =σjk
σj · σk=
Cov(Xj , Xk)√Var(Xj)Var(Xk)
Eigenschaften der Korrelation:
• ρ(Xj , Xk) > 0 ⇒ tendenziell Xj ↗⇔ Xk ↗
• ρ(Xj , Xk) < 0 ⇒ tendenziell Xj ↗⇔ Xk ↘
• Xj , Xk unabhängig ⇒ ρ(Xj , Xk) = 0
• −1 ≤ ρ(Xj , Xk) ≤ 1
• ρ(Xj , Xk) = 1 ⇒ Xj = β0 + β1Xk für ein β1 > 0
• ρ(Xj , Xk) = −1 ⇒ Xj = β0 + β1Xk für ein β1 < 0
Korrelationsmatrix
P =
1 ρ12 ρ13 · · · ρ1d
ρ21 1 ρ23 · · · ρ2d...
......
...
ρd1 ρd2 ρd3 · · · 1
P ist die Kovarianzmatrix der standardisierten VariablenZj = (Xj − µj)/σj .
Multivariate Statistik@LS-Kneip 2–23
Zusammenhang von Korrelation und Lage derPunktewolkePerfekte Korrelation*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
***
*
*
*
*
**
*
*
*
*
**
*
*
**
*
*
*
*
*
*
**
*
*
*
*
*
*
*
***
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
***
*
*
*
***
*
*
*
*
*
*
*
*
*
*
*
*
*
***
*
*
*
*
*
*
*
**
*
*
*
*
*
*
**
**
*
*
*
*
*
**
**
*
-2.0 -1.0 0.0 1.0 2.0X[,1]
-2.0
-1.0
0.0
1.0
2.0
X[,2]
r=+1
*
*
**
**
*
***
*
*
*
**
*
**
**
**
*
*
*
*
***
*
*
*
*
*
*
*
*
***
*
****
*
*
*
*
*
*
*
**
*
**
**
*
*
**
*
*
*
*
*
*
**
**
*
**
*
*
*
*
*
*
*
**
*
*
*
*
*
**
**
*
**
**
*
**
*
*
*
*
**
*
*
*
*
*
**
*
*
*
*
**
*
*
*
*
*
*
*
*
**
*
*
**
*
*
*
**
*
*
**
**
**
*
*
-3.0 -2.0 -1.0 0.0 1.0 2.0X[,1]
-2.0
-1.0
0.0
1.0
2.0
3.0
X[,2]
r=-1
Multivariate Statistik@LS-Kneip 2–24
Starke Korrelation*
**
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
**
*
**
*
*
* *
**
*
*
*
*
*
**
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
**
*
*
*
*
*
**
*
*
*
* *
*
**
*
*
*
*
*
**
*
*
*
*
**
*
*
*
*
*
* **
**
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
* ***
** *
*
**
*
*
* *
*
*
*
*
*
**
*
**
*
*
*
-2.0 -1.0 0.0 1.0 2.0 3.0 4.0X[,1]
-2.0
-1.0
0.0
1.0
2.0
X[,2]
r=+0.8
*
*
**
*
*
*
**
***
*
*
*
**
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*** *
*
*
*
*
*
*
**
*
**
*
* *
*
*
*
**
**
*
*
*
* *
*
**
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
* *
*
*
**
*
**
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
-3.0 -2.0 -1.0 0.0 1.0 2.0X[,1]
-2.0
-1.0
0.0
1.0
2.0
X[,2]
r=-0.8
Multivariate Statistik@LS-Kneip 2–25
S hwa he Korrelation*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
* **
**
*
**
*
*
*
*
***
*
*
**
*
* *
*
*
**
**
*
**
* *
*
*
*
*
*
**
*
*
*
*
* *
*
*
*
*
**
*
*
*
*
*
**
*
*
* *
*
*
*
*
*
*
**
*
*
*
*
*
*
*
**
* ** *
*
*
**
** *
*
*
*
*
****
****
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
* *
*
*
*
*
**
**
*
* *
-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0X[,1]
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
X[,2]
r=+0.2
*
*
*
*
*
*
*
*
*
*
**
**
*
*
*
*
*
*
**
*
*
**
*
*
* *
*
*
*
*
*
*
*
**
**
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
**
*
*
*
* *
*
*
*
*
*
*
**
*
*
*
***
*
*
*
*
*
*
*
*
*
*
***
*
*
**
* *
*
**
*
**
*
*
*
*
*
* **
*
*
*
*
* *
**
*
-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0X[,1]
-2.0
-1.0
0.0
1.0
2.0
X[,2]
r=-0.2
Multivariate Statistik@LS-Kneip 2–26
Keine Korrelation
**
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
**
**
*
*
*
**
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
**
*
*
** *
**
**
***
*
*
**
*
*
*
*
*
*
**
**
*
**
*
***
* **
*
*
*
*
*
*
-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0X[,1]
-2.0
-1.0
0.0
1.0
2.0
X[,2]
r=0
Multivariate Statistik@LS-Kneip 2–27
Rechenregeln:
• Σ = COV(X) = E[XXT ]− E(X) · E(X)T
• Für einen fest vorgegebenen Vektor a ∈ IRd:
COV(aTX) = aT · COV(X) · a
• Für einen festen Vektor a ∈ IRm und eine (m× d)-Matrix A
• Satz von Cramer-World: Y = (Y1, . . . , Yd) ist genau dannmultivariat normalverteilt, wenn jede mögliche Linearkom-bination cTY eine univariate Normalverteilung besitzt
• Dieses Resultat impliziert insbesondere, dass alle Randver-teilungen einer multivariaten Normalverteilung univariat nor-mal sind. Gilt X = (X1, . . . , Xd)
T ∼ Nd(µ,Σ), so erhält man
Xj ∼ N(µj , σ2j ), j = 1, . . . , d
• Achtung: Die Umkehrung gilt nicht! AusXj ∼ N(µj , σ2j , j =
1, . . . , d lässt sich nicht automatisch schließen, dass X =
nur eine notwendige, aber keine hinreichende Bedingung fürmultivariate Normalität. Es ist zusätzlich nötig, dass alle Li-nearkombinationen der Variablen Xj normalverteilt sind.
Satz von Cramer-World: X = (X1, . . . , Xd) ist genaudann multivariat normalverteilt, wenn für jeden d-dimensionalenVektor c = 0d die resultierende Zufallsvariable cTX =
∑dj=1 cjXj
eine univariate Normalverteilung besitzt.
Multivariate Statistik@LS-Kneip 2–39
Bedingte Verteilungen: Ist ein Zufallsvektor X multivariatnormalverteilt, so sind auch alle zugehörigen bedingten Vertei-lungen multivariat normal.
Man betrachte einen Zufallsvektor X = (X1, . . . , Xd)T ∼ Nd(µ,Σ).
Für ein 0 < q < d seien X1 = (X1, . . . , Xq)T und X2 = (Xq+1, . . . , Xd)
T .Die führt auf folgenden Partitionierung von Σ:
Σ =
Σ1 Σ12
Σ21 Σ2
mit
Σ1 =
σ21 . . . σ1q...
...
σq1 . . . σ2q
, Σ2 =
σ2q+1 . . . σq+1,d
......
σd,q+1 . . . σ2d
,
Σ12 =
σ1,q+1 . . . σ1d
......
σq,q+1 . . . σ2qd
= ΣT21
MitΣ1|2 := Σ1 − Σ12Σ
−12 Σ21
ergibt sich dann:
• Die bedingte Verteilung von X1 gegeben X2 = x2 ist multi-variat normal:
(X1|X2 = x2) ∼ Nq
(µ1 +Σ12Σ
−12 (x2 − µ2),Σ1|2
)• Die Zufallsvariablen X2 und ϵ := X1−µ1−Σ12Σ
−12 (X2−µ2)
sind voneinander unabhängig.
Multivariate Statistik@LS-Kneip 2–40
Anwendung: Lineare Einfachregression
Man betrachte zwei eindimensionale Zufallsvariablen Y,X. In derRegressionsanalyse interessiert man sich für die Modellierung derVariation von Y in Abhängigkeit von X.
Zusatzannahme: Die gemeinsame Verteilung von (Y,X) seimultivariat normalverteilt:Y
X
∼ N(µ,Σ), Σ =
σ21 σ12
σ21 σ22
Σ1.2 ist eine positive reelle Zahl mit Σ1.2 = σ2
1 − σ212
σ22
. Für ϵ :=Y − µ1 − σ12
σ22(X − µ2), µ1 = E(Y ), µ2 = E(X), ergibt sich aus
den obigen Resultaten:
Y = µ1 +σ12σ22
(X − µ2) + ϵ
= µ1 −σ12σ22
µ2︸ ︷︷ ︸β0
+σ12σ22︸︷︷︸
β1
X + ϵ
E(ϵ) = 0, ϵ ∼ N(0,Σ1.2︸︷︷︸σ2
), ϵ unabhängig von X
Die Regressionsfunktion ist gegeben durch die lineare FunktionE(Y |X = x) = β0 + β1x.
Falls also die gemeinsame Verteilung von (Y,X) multivariat nor-mal ist, so ist das Standardmodell der linearen Einfachregressionnotwendigerweise gültig.
Multivariate Statistik@LS-Kneip 2–41
3 Multiple Regression
Problem: Analysiere den Einfluss mehrerer erklärender („unab-hängiger“) Variablen X1, X2, . . . , Xp auf eine Zielvariable („ab-hängige Variable“) Y .
der Regressionsfunktion m notwendigerweise erfüllt, falls derVektor (Yi, Xi1, Xi2, . . . , Xip)
T ein multivariat normalver-teilter Zufallsvektor ist.
• Im Rahmen des obigen Modellansatzes lassen sich jedochauch komplexere nichtlineare Zusammenhänge zwischen Y
und den erklärenden Variablen erfassen. Dies kann durchEinführung zusätzlicher Modellvariablen Xij geschehen, dieFunktionen der ursprünglichen erklärenden Variablen sind.
Multivariate Statistik@LS-Kneip 3–1
Beispiele möglicher Regressionsmodelle:
∗ Yi = β0 +β1Xi1 +β2Xi2 +β3X2i2 +β4X
2i2 +β5Xi1xi2 + ϵi
Setzt man Xi3 := X2i1, Xi4 := X2
i2 und Xi5 := Xi1Xi2,so führt dies auf:Yi = β0 + β1Xi1 + β2Xi2 + β3Xi3 + β4Xi4 + β5Xi5 + ϵi
∗ Yi = β0 + β1 lnX∗i1 + β2Xi2 + β3(lnX
∗i1)
2 + β4X2i2 + ϵi
Setzt man Xi1 := lnX∗i1, Xi3 := (lnX∗
i1)2 und Xi4 :=
X2i2,
so führt dies wieder auf ein Modell der FormYi = β0 + β1Xi1 + β2Xi2 + β3Xi3 + β4Xi4 ++ϵi
Die einzige Bedingung bei der Modellbildung ist, dass diepostulierte Regressionsbeziehung linear in den Parameternβi ist.
Achtung: Natürlich ist bei der nachfolgenden Interpretationdes Modells die Definition der Modellvariablen zu beachten.
Multivariate Statistik@LS-Kneip 3–2
Spezialfall: linearen Einfachregression (p = 1)
• Schätzer der Koeffizienten durch die Kleinste Quadrate Me-thode:
β1 =
n∑i=1
(Xi − X)(Yi − Y )
n∑i=1
(Xi − X2), β0 = Y − β1X
Beispiel: Ernteertrag von Weizen (Y) in Abhängigkeit von derMenge des eingesetzten Düngemittels (X) in kg/ha
Anmerkung: Für großes n bleibt die angegebene Vertei-lung auch dann i.A. approximativ gültig, wenn die ϵi nichtnormalverteilt sind (zentraler Grenzwertsatz)
Anmerkung: Satz von Gauss-Markovβ ist der wirksamste Schätzer von β in der Klasse aller linearenund erwartungstreuen Schätzer.
3.2 Konfidenzintervalle und Tests
Wichtige Notation
• Im Folgenden sei cij = ij-tes Element der Matrix [XTX]−1,d.h.
c00 c01 · · · c0p
c10 c11 · · · c1p...
... · · ·...
cp0 cp1 · · · cpp
:= [XTX]−1
• Weiterhin sei H := X[XTX]−1XT
(H wird in der Literatur oft als „Hat“-Matrix bezeichnet)
– y =
Y1...
Yn
= Xβ = X[XTX]−1XTY = H · Y
– H ist idempotent: H2 = H ·H = H
Multivariate Statistik@LS-Kneip 3–9
• (In −H) ist idempotent:
(In −H)2 = (In −H) · (In −H) = In −H
• spur(H) = rang(H) = p+ 1;
spur(In −H) = rang(In −H) = n− p− 1
(allgemein für idempotente Matrizen A : spur(A) = rang(A))
Schätzung von σ2
• Wie bei der linearen Einfachregression ist für die Konstruk-tion von Tests und Konfidenzintervallen eine Schätzung derFehlervarianz σ2 notwendig.
• Die Residuen ϵi = Yi − Yi = Yi − β0 −p∑
j=1
βjXij „schätzen“
den Fehler ϵi
• Schätzer σ2 von σ2:
σ2 =1
n− p− 1
n∑i=1
(Yi − Yi)2
=1
n− p− 1(Y − Y )T (Y − Y )
=1
n− p− 1(Y −HY )T (Y −HY )
=1
n− p− 1Y T (I −H)(I −H)Y
=1
n− p− 1Y T (I −H)Y
• σ2 ist ein erwartungstreuer Schätzer von σ2
• (n− p− 1) σ2
σ2 ∼ χ2n−p−1
Multivariate Statistik@LS-Kneip 3–10
Verteilung von βj , j = 0, 1, . . . , p
• Aus β =
β0...
βp
∼ Np+1(β, σ2 · [XTX]−1)︸ ︷︷ ︸
c00 · · · c0p
.
.
.. . .
.
.
.
cp0 · · · cpp
folgt βj ∼ N(βj , σ
2 · cjj)
⇒ Standardisierung
βj − βjσ√cjj
∼ N(0, 1)
• Ersetzt man σ2 durch σ2 folgt die standardisierte Schätz-funktion einer Student t-Verteilung
βj − βjσ√cjj
∼ tn−p−1
Konfidenzintervalle
Es gilt:
P
(−tn−p−1;1−α/2 ≤ βj − βj
σ√cjj
≤ tn−p−1;1−α/2
)= 1− α
⇒ P(βj − tn−p−1;1−α/2 σ
√cjj ≤ βj ≤ βj + tn−p−1;1−α/2 σ
√cjj)= 1− α
⇒ Konfidenzintervall für βj zum Niveau 1− α:
βj = βj ± tn−p−1;1−α/2 σ√cjj
Multivariate Statistik@LS-Kneip 3–11
Anmerkung:Allgemein gilt tn−p−1;1−α > tn−p∗−1;1−α, falls p > p∗. Mit wach-sender Parameterzahl werden daher i.A. die Konfidenzin-tervalle größer, was bedeutet, dass die Schätzungen unge-nauer sind (man beachte aber, dass sich durch Hinzufügen vonweiteren erklärenden Variablen auch die Werte von √
cjj ändern;i.A. werden diese jedoch ebenfalls größer)
Anmerkung:Ein wichtiges Maß für die Genauigkeit der Schätzung von m
aus den Datenpunkten (X11, . . . , X1p), . . . , (Xn1, . . . , Xnp) ist dermittlere quadratische Fehler:
MSE =1
n
n∑i=1
E[(m(Xi1, . . . , Xip)− m(Xi1, . . . , Xip))
2]
• Man erhält
MSE =1
n
n∑i=1
Var (m(Xi1, . . . , Xip))
=1
n
n∑i=1
σ2(1, Xi1, . . . , Xip) · [XTX]−1 ·
1
Xi1
...
Xip
• (1, Xi1, . . . , Xip) · [XTX]−1 ·
1
Xi1
...
Xip
= hii
hii ist das i-te Diagonalelement der MatrixH = X[XTX]−1XT
⇒ MSE =σ2
n
n∑i=1
hii =σ2
nspur(H) = σ2 p+ 1
n
• Bei gleichem σ2 liefert daher ein hochdimensionales Modell(p groß) weniger genaue Schätzer als ein niedrigdimensionales(p klein)
• Das Hinzufügen weiterer erklärender Variablen in ein beste-hendes Regressionsmodell hat nur Sinn, wenn entweder
Multivariate Statistik@LS-Kneip 3–16
a) die neue Variable als Funktion der bereits vorhandenenVariable definiert ist und nichtlineare Zusammenhängequantifiziert, die die Modellanpassung entscheidend ver-bessern
oder
b) die neue Variable einen wichtigen Teil der im Rahmendes bestehenden Modells verbleibenden Streuung der Y -Werte erklärt; sie führt also auf ein neues Modell mit be-tragsmäßig kleineren Zufallschwankungen ϵ und dement-sprechend kleinerer Fehlervarianz σ2. Die Reduktion derFehlervarianz σ2 muss größer sein als die durch den Term„ p+1
n “ bedingte Erhöhung des MSE
• In einem Regressionsmodell ist es sinnvoll Variablen zu eli-minieren, die wenig oder gar nichts zur Erklärung der Y -Werte beitragen
der erklärenden Variablen die zugehörige Realisierung Y0 derZielvariable Y
• Modell:
Y0 = β0 +
p∑j=1
βjX0j + ϵ0 = m(X01, . . . , X0p) + ϵ0
ϵ0 ∼ N(0, σ2); ϵ0 unabhängig von ϵ1, . . . , ϵn
Multivariate Statistik@LS-Kneip 3–17
• Prognose:
Y0 = β0 +
p∑j=1
βjx0j = m(X01, . . . , X0p)
• Problem: Genauigkeit der Prognose
– E(Y0 − Y0) = 0
– Mit a0 =
X01
...
X0p
gilt Y0 = aT0 β + ϵ0, Y = aT0 β
und daher
Var(Y0 − Y0) = Var(aT0 β − aT0 β + ϵ0)
= Var(AT0 β) + Var(ϵ0)
= σ2aT0 [XTX]−1a0 + σ2
⇒ Y0 − Y0 ∼ N(0, σ2(1 + aT0 [X
TX]−1a0))
⇒ Y0 − Y
σ√1 + aT0 [X
TX]−1a0∼ tn−p−1
• Prognoseintervall
Y0 = Y0 ± tn−p−1;1−α/2 σ√1 + aT0 [X
TX]−1a0
Multivariate Statistik@LS-Kneip 3–18
3.4 Die Streuungszerlegung
• Frage: Welcher Anteil der Streunung der Yi lässt sich durchdie Regression von Y auf X erklären?
• Man beachte: 1n
n∑i=1
Yi = Y
• Streuungszerlegung:
n∑i=1
(Yi − Y )2︸ ︷︷ ︸SQT
=
n∑i=1
(Yi − Y )2︸ ︷︷ ︸SQE
+
n∑i=1
(Yi − Y )2︸ ︷︷ ︸SQR
∗ Yi = β0 +p∑
j=1
βjXij (ohne Fehler) ⇒ SQR = SQE
∗ β1 = β2 = . . . = βp = 0 ⇒ Yi = Y ⇒ SQT = SQR
• Varianzanalyse:Wie in der einfachen Regression lässt sich aufbauend auf derStreuungszerlegung ein F -Test zum Test der Hypothese
H0 : β1 = β2 = . . . = βp = 0 gegen H1 : ∃ βj = 0
durchführen
∗ Qualitativ entspricht H0 der Hypothese „das Regressions-modell erklärt keinerlei Variation der Yi“
∗ Teststatistik
F =SQE /p
SQR /n− p− 1
∗ Unter H0: F ∼ Fp,n−p−1
∗ Ablehnung von H0, falls F > Fp,n−p−1;1−α
(bzw. p-Wert zu klein)
Multivariate Statistik@LS-Kneip 3–19
3.5 Das Bestimmtheitsmaß
• Wie bei der einfachen Regression ist das Bestimmtheitsmaß(oder „Determinationskoeffizient“) definiert durch
R2 =SQE
SQT=
n∑i=1
(Yi − Y )2
n∑i=1
(Yi − Y )2= 1−
n∑i=1
(Yi − Yi)2
n∑i=1
(Yi − Y )2
• 0 ≤ R2 ≤ 1
• Wie bei der linearen Einfachregression dient R2 als Maßzahlfür die Güte der Modellanpassung
R2 nahe 1 ⇒ σ2 (Schätzung von σ2) klein,z.B. gute Prognosen zu erwarten
R2 nahe 0 ⇒ β1 ≈ β2 ≈ . . . ≈ βp ≈ 0
Regression nutzlos
• R2 wird oft dazu benutzt verschiedene Regressionsmodelle(mit unterschiedlichen Variablen Xij) zu vergleichen:Besseres Modell ⇔ R2 größer
• Problem bei Modellen mit unterschiedlicher DimensionModell 1: Yi = β0 +
p∑j=1
βjXij + ϵi ⇒ R2p
Modell 2: Yi = β0 +p∑
j=1
βjXij +βp+1Xip+1 + ϵi ⇒ R2p+1
Notwendigerweise: R2p+1 ≥ R2
p
• Es ist möglich, diese Dimensionsabhängigkeit zu verringern,indem man zum „adjustierten Bestimmtheitsmaß“ (adjustedR2) übergeht.
Multivariate Statistik@LS-Kneip 3–20
Adjusted R2:
R2adj = 1−
n∑i=1
(Yi − Yi)2/n− p− 1
n∑i=1
(Yi − Y )2/n− 1
Begründung:
R2 = 1−
n∑i=1
(Yi − Yi)2
n∑i=1
(Yi − Y )2= 1−
1n−1
n∑i=1
(Yi − Yi)2
1n−1
n∑i=1
(Yi − Y )2
= 1−
dimensionsabhängig︷ ︸︸ ︷n− p− 1
n−1 σ2
1n−1
n∑i=1
(Yi − Y )2
Dagegen:
R2adj = 1− σ2
1n−1
n∑i=1
(Yi − Y )2
Multivariate Statistik@LS-Kneip 3–21
Anmerkung:In manchen Anwendungen werden Modelle ohne Konstante β0verwendet
Beispiel: Working Modell
Yi = β1Xi + β2Xi logXi + ϵi
• Schätzung und Analyse dieser Modelle sind völlig analog zudem oben beschriebenen Vorgehen. Bzgl. Konstruktion vonKonfidenzintervallen, Prognose, etc. sind genau die gleichenVerfahren anzuwenden
• Einzige Ausnahme: Die Streuungszerlegung gilt ausschließ-lich für Modelle mit einer Konstanten β0.⇒ Probleme bei der Definition von R2:
1−
n∑i=1
(Yi − Yi)2
n∑i=1
(Yi − Y )2kann negativ werden
• Für Modelle ohne Konstante β0 wird daher in der Praxishäufig eine alternative Definition von R2 benutzt:
R2 = 1−
n∑i=1
(Yi − Yi)2
n∑i=1
Y 2i
⇒ Die Werte von R2 für Modelle mit und ohne Konstante sindnicht vergleichbar
Multivariate Statistik@LS-Kneip 3–22
3.6 Modelldiagnose
• Regression: Residualanalyse dient als Werkzeug zu Modell-diagnose
• Bei der einfachen Regression sieht man Verletzungen der Mo-dellannahmen oft schon am Streudiagramm selbst; Residual-plots zeigen solche Effekte jedoch häufig deutlicher und sindauch im Rahmen der multiplen Regression anwendbar.
• Grundidee: Laut Modellannahme sind ϵ1, ϵ2, . . . , ϵn unab-hängig und identisch verteilt mit Mittelwert 0 (sowie ϵi ∼N(0, σ2)) ⇒ betrachtet man die Werte von ϵi in Abhängig-keit von Xij (bzw. Yi), so sollten diese Werte rein zufällig umNull schwanken; keine Muster, keine systematischen Struk-turen
• Residuum ϵi = Yi − Yi = Yi − βo −p∑
j=1
βjXij
• Graphik („Residualplot“): Üblicherweise werden die Wer-te der ϵi in Abhängigkeit von den prognostizierten WertenYi graphisch dargestellt (alternativ: ϵi als Funktion des In-dex i oder in Abhängigkeit von Xij) ⇒ Identifikation vonmöglichen Problemen, wie z.B.
Idealfall: keine systematischen Strukturen, ϵi rein zufällig(gutes Modell)
Multivariate Statistik@LS-Kneip 3–23
In der Praxis werden mehrere verschiedene Arten von Resi-dualplots benutzt. Wichtige Variante: studentisierte Re-siduen
Analyse von ϵi (für p = 1): Es gilt E(ϵi) = 0 und
∗ Var(ϵi) = Var(Yi − Yi) = σ2
1− 1
n− (Xi − X)2
n∑j=1
(Xj − Xj)2
∗ COV(ϵi, ϵk) = −σ2
1
n+
(Xi − X)(Xk − X)n∑
j=1
(Xj − X)2
⇒ i.A. negative Korrelation; die ϵi sind tendenziell stärkergestreut als die wahren Fehlerterme ϵi
– Studentisierte Residuen
ri =ϵi
σ
√1− 1
n − (Xi−X)2n∑
i=1(Xj−X)2
⇒ Var(ri) ≈ Var(ϵiσ) = 1
⇒ Normalverteilung: Etwa 95% der ri zwischen −2 und 2;etwa 99, 9% der ri zwischen −3 und 3
Studentisierte Residuen für p>1:
ri =ϵi
σ√1− hii
Es gilt wiederum Var(ri) = Var(ϵi/σ) = 1.
Multivariate Statistik@LS-Kneip 3–24
Mögliche Probleme:a.) mangelnde Modellanpassung
0 50 100 150
−2
02
4 Mangelnde Modellanpassung
fitted y
resi
dual
s
Mögliche Lösungen: Komplexeres linearer Modell oder nicht-lineare/nichtparametrische Regression
– Lösung in komplexeren Situationen:Verallgemeinerte Kleinste-Quadrate Methode
Multivariate Statistik@LS-Kneip 3–27
c) Existenz von Ausreißern
Residualplot: Es existieren extrem große oder extrem kleineBeobachtungen, deren Werte weit außerhalb des „normalen“Wertebereichs liegen („Ausreißer“)
0 20 40 60 80 100
−40
−20
020
40
Multivariate Statistik@LS-Kneip 3–28
0 20 40 60 80 100 120
−20
−10
010
2030
4050
Solche untypischen Beobachtungen (Ausreißer) können dieWerte der geschätzen Parameter β0, β1, Konfidenzintervalle,etc. sehr stark beeinflussen. Im Extremfall können sie zurFolge haben, dass die Resultate der gesamten Regressions-analyse unsinnig und nicht interpretierbar sind.
Es exisitiert eine Vielzahl von statistischen Diagnoseverfah-ren, die es erlauben, den Einfluss einzelner Beobachtungenauf die Modellanpassung zu diagnostizieren und zu quantifi-zieren. Ein wichtiges Diagnosewerkzeug ist die Distanz vonCook („Cook’s D“).
Multivariate Statistik@LS-Kneip 3–29
Identifikation von Ausreißern: Cook‘s Distance
– Daten (Y1, X1), . . . , (Yn, Xn)
⇒ Schätzungen β der Regressionsparameter
– Problem: Identifikation von einzelnen Beobachtungen, diedie Schätzungen „zu stark“ beeinflussen
– Ansatz (illustriert für p = 1): Für eine gegebene Beobach-
tung (Yi, Xi) berechnet man neue Schätzer β−i =
(β0,−i
β1,−i
)aus
den verbleibenden Daten (Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn),die durch Weglassen der betrachteten Beobachtungen (Yi, Xi)
entstehen
→ geringer Einfluss von (Yi, Xi) auf die Schätzwerte ⇔
kleiner Unterschied zwischen β =
(β0,
β1,
)und β−i =
(β0,−i
β1,−i
)→ „starker“ Einfluss von (Yi, Xi) ⇔ großer Unterschied zwi-schen β und β−i
– Cook’s Distance:
Di =(β−i − β)T ·XTX · (β−i − β)
2σ2
wobei X =
1 X1
1 X2
......
1 Xn
Multivariate Statistik@LS-Kneip 3–30
– Verallgemeinerung auf multiple Regression (p > 1 erklärendenVariablen)
Di =(β−i − β)T ·XTX · (β−i − β)
(p+ 1)σ2
mit β =
β0
β1...
βp
, β−i =
β0,−i
β1,−i
...
βp,−i
, X =
1 X11 · · · X1p
......
......
1 Xn1 · · · Xnp
– Faustregel: Einfluss von (Yi, Xi) „zu stark“, falls Di > 0, 8
Weiteres mögliches Problem: Starke Abweichung der Verteilungder Residuen von der Normalverteilung⇒ Überprüfung mit Hilfe eines NQ-Plots
Multivariate Statistik@LS-Kneip 3–31
−0.4 −0.2 0.0 0.2
−0.
15−
0.10
−0.
050.
000.
050.
10
residuals
FinAccount.lm$fitted
Fin
Acc
ount
.lm$r
esid
10 1517
21
23
36
Multivariate Statistik@LS-Kneip 3–32
0 10 20 30 40
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Index
cook
s.di
stan
ce(F
inA
ccou
nt.lm
)
15
36
Beispiel: Finanzdaten
Multivariate Statistik@LS-Kneip 3–33
FinAccount.data (logsale, wcftcl, retcap)
3.5 4.0 4.5 5.0 5.5 6.0−0.
8−
0.6
−0.
4−
0.2
0.0
0.2
0.4
−1.5−1.0
−0.5 0.0
0.5 1.0
FinAccount.data$LOGSALE
Fin
Acc
ount
.dat
a$W
CF
TC
L
Fin
Acc
ount
.dat
a$R
ET
CA
P
Multivariate Statistik@LS-Kneip 3–34
Fortsetzung Beispiel 3.1 (Beobachtung Nr. 36 eliminiert)Call:
3.7.1 Komplexere Modelle mit quadratischen Termenund Interaktionen
• Wie in der einfachen Regression ist auch in der multiplenRegression die Annahme eines linearen Zusammenhangs zwi-schen Y und den erklärenden Variablen eine wesentliche Re-striktion
• Eine Standardoption in vielen statistischen Softwarepaketenist die Erfassung von nichtlinearen Effekten durch das Hin-zufügen von quadratischen Termen und/oder Interaktionen
Beispiel:Yi als Funktion von zwei erklärenden Variablen Xi1 und Xi2
– Lineares Modell:
Yi = β0 + β1Xi1 + β2Xi2 + ϵi
– Modell mit quadratischen Termen und Interaktionen:
Yi = β0+β1Xi1+β2Xi2+ β3X2i1 + β4X
2i2︸ ︷︷ ︸
quadratische Terme
+β5Xi1Xi2︸ ︷︷ ︸Interaktion
+ϵi
• Die Notwendigkeit der zusätzlichen Terme kann durch einenVergleich der Modellanpassung des nichtlinearen Modells imVergleich zum linearen Modell überprüft werden (R2
adj grö-ßer für das nichtlineare Modell als für das lineare Modell?).Ein „F -Test“ (siehe Kapitel 4.9) erlaubt einen Test der Hy-pothese
H0 : β3 = β4 = β5 = 0
Anmerkung: Das Hinzufügen nichtlinearer Terme und dieanschließende Überprüfung der Modellanpassung machen i.A.
Multivariate Statistik@LS-Kneip 3–43
nur dann Sinn, wenn R relativ groß im Vergleich zur Anzahlder erklärenden Variablen ist.
• Bei bestimmten ökonomischen Variablen wird „standardmä-ßig“ ein entsprechender quadratischer Term in das Modelleingefügt. Ein Beispiel ist die Variable „Alter einer Person“.Fast alle Modelle,bei denen als erklärender Variable Alterauftritt, beinhalten auch die Variable (Alter)2. Der Grundist, dass sich Personen mittleren Alters in fast allen Aspek-ten ökonomischen Verhaltens sowohl von sehr jungen Leutenals auch von Rentnern unterscheiden.
• Eine weitere wichtige Möglichkeit zur Verbesserung der Mo-dellanpassung sind VariablentransformationenBeispiele:
Yi = β0 + β1 lnXi1 + β2Xi2 + ϵi
Yi = β0 + β1√Xi1 + β2 lnXi2 + ϵi
lnYi = β0 + β1 lnXi1 + β2 lnXi2 + ϵi
......
• Von besonderem Interesse sind Transformationen, die auf„mehr Normalität“ führen. Man beachte, dass der Zusam-menhang zwischen Yi und den erklärenden VariablenXi1, Xi2, . . . , Xip notwendigerweise linear ist, falls(Yi, Xi1, . . . , Xip) ein multivariat normalverteilter Zufallsvek-tor ist.
• Eine Reihe von ökonomischen Variablen wie Einkommen,Vermögen, Verkäufe, etc. werden „standardmäßig“ logarith-miert. Dies sind positive Variablen mit linkssteilen Vertei-lungen; Logarithmierung führt daher auf „mehr Normalität“.
Multivariate Statistik@LS-Kneip 3–44
3.8 Multikollinearität
• Die Parameter β0, . . . , βp eines Regressionsmodells sind nichteindeutig identifizierbar, d.h. nicht eindeutig bestimmbar,falls die Werte einer Variablen Xij sich als Linearkombinati-on der Werte anderer erklärender ergeben.Beispiel:
X =
X11 . . . X1p
......
......
1 Xn1 . . . Xnp
und Xj = γ1
1...
1
+ γ2X1
︸︷︷︸X1
︸︷︷︸Xp
• In der Praxis kommt es häufig vor, dass einige Modellvaria-blen „fast“ kollinear sind. Man spricht dann von dem Phäno-men der „Multikollinearität“. Die Matrix [XTX]−1 ist dannzwar noch invertierbar, einige der Diagonalelemente cjj kön-nen aber möglicherweise sehr groß sein(Analogie: man dividiert „fast“ durch Null)⇒ Erhöhung der Schätzungenauigkeit.
• Diagnose von Multikollinearität
– Analyse der Korrelationsmatrix der Modellvariablen(Xi1, . . . , Xip). Zwei Variablen sind „fast“ kollinear, fallsihre Korrelation betragsmäßig nahe 1 ist.
– Analyse komplexerer Multikollinearitäten durch Hilfsre-gressionen, z.B. Xij in Abhängigkeit vonXi1, . . . , Xij−1, Xij+1, . . . , Xip
⇒ Berechnung von α0, . . . , αp−1 durch die Kleinste-QuadrateMethode
⇒ Bestimmung des zugehörigen Wertes von R2
⇒ Multikollinearität, falls R2 sehr nahe 1
Oft wird statt R2 die sogenannte „Tolerance“ = 1−R2
interpretiert. Multikollinearität falls 1−R2 sehr klein
• Eine mögliche Behandlung von Multikollinearitäten ist dieVariablenelimination. Sind beispielsweise zwei Variablen fastkollinear, so nimmt man nur eine von beiden in das Regres-sionsmodell auf.
• Aber: Starke Korrelation zweier Variablen ist nichtnotwendigerweise ein Problem. Es ist möglich, dass geradeder „kleine Unterschied“, der zwischen beiden noch besteht,einen wichtigen Teil der Variation von Y erklärt. Ein Beispielsind die Variablen LOGSALE und LOGASST in Beispiel 3.1
Multivariate Statistik@LS-Kneip 3–46
Beispiel 3.2 (Multikollinearität)Datensatz 1
Y X1 X2
1 3 0 0
2 0 1 0
3 5 5 6
4 6 6 6
Datensatz 2
Y X1 X2
1 3 0 0
2 −5 6 0
3 10 0 6
4 6 6 6
• Generierendes Modell für Datensatz 1 und Datensatz 2:Yi = 2−Xi1 + 1, 5Xi2 + ϵ
Multivariate Statistik@LS-Kneip 3–47
• Resultierende Schätzungen
Datensatz 1:Call:
lm(formula = Y ~ X1 + X2, data=beispiel1)
Residuals:
1 2 3 4
1 -1 -1 1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.000 1.732 1.155 0.454
X1 -1.000 2.000 -0.500 0.705
X2 1.500 1.700 0.883 0.540
Residual standard error: 2 on 1 degrees of freedom
⇒ Schätzungen auf Grundlage des Datensatzes 2 5-malgenauer!
Multivariate Statistik@LS-Kneip 3–48
3.8.1 Qualitative Variablen
• Viele wichtige Regressionsmodelle beinhalten erklärende Va-riablen von „qualitativer“ Struktur, deren „Werte“ eine Teil-gruppenzugehörigkeit signalisieren (z.B. Geschlecht, Natio-nalität, Bildungsgrad, Region,...)
• Beispiel: Automobile in den USA
∗ Zielvariable : Y - Benzinverbrauch („Miles per Gallon“)
∗ Erklärende Variablen: Xi1 = Gewicht
Herkunftsregion:
↗ Amerika
→ Europa
↘ Japan⇒ Modell: Yi = β0 + β1Xi1 + β2Xi2 + ϵi ???
• Grundidee: Einführung von Indikatorvariablen
Xi2 = Regioni1 =
1 falls Auto i aus amerik. Produktion
0 sonst
Xi3 = Regioni2 =
1 falls Auto i aus europ. Produktion
0 sonst
Xi4 = Regioni3 =
1 falls Auto i aus japanischer Produktion
0 sonst
⇒ In einem Modell der Form
Yi = β0+β1Gewichti+β2Regioni1+β3Regioni2+β4Regioni3+ϵi
entsprechen β2, β3, β4 unterschiedlichen Niveaus von Y jenach Herkunftsland.
Multivariate Statistik@LS-Kneip 3–49
• Aber: Das obige Modell ist nicht identifizierbar, die Wer-te der Parameter β0, β2, β3, β4 sind nicht eindeutig be-stimmt.Es gilt z.B. ebenfalls
Yi = β0 − 4︸ ︷︷ ︸β∗0
+β1Gewichti + (β2 + 4)︸ ︷︷ ︸β∗2
Regioni1
+ (β3 + 4)︸ ︷︷ ︸β∗3
Regioni2 + (β4 + 4)︸ ︷︷ ︸β∗4
Regioni3 + ϵi
⇒ In der Matrixschreibweise Y = X · β + ϵ gilt:
X =
1 Gewicht1 Region11 Region12 Region13
......
......
...
1 Gewichtn Regionn1 Regionn2 Regionn3
und
1...
1
=
Region11
...
Regionn1
+
Region12
...
Regionn2
+
Region13
...
Regionn3
d.h. die erste Spalte von X ist eine Linearkombinationder 3., 4. und 5. Spalte
⇒ rang(XTX) = p, XTX nicht invertierbar
⇒ Es exisitiert kein eindeutig bestimmter Kleinste-Quadrate-Schätzer von β
• Lösung: Elimination einer Faktorstufe der qualitaiven Va-riablen ⇒ Sinnvolles Modell:
• In vielen Anwendungen wird eine Zielvariable Y zunächstals Funktion sehr vieler (p groß) erklärender Variablen mo-delliert. In solchen Fällen versucht man üblicherweise „über-flüssige“ Variablen zu eliminieren und das hochdimensiona-le Originalmodell auf ein niedriger dimensionales Teilmodellmit q < p Variablen zu reduzieren. Dies ist aus mehrerenGründen interessant:
∗ Erhöhung der Schätzgenauigkeit
∗ Effizientere Prognosen
∗ Ökonomische Interpretation: Welche Variablen sind wirk-lich wichtig?
• Man beachte: Für eine sinnvolle Analyse reicht es nichtaus einfach diejenigen Variablen zu eliminieren, bei denender t-Test die Hypothese H0 : βj = 0 nicht ablehnt. Sol-che Variablen sind „Kandidaten“ für eine Elimination, abernicht mehr, denn der t-Test besagt, dass man die betreffen-de Variable evtl. eliminieren kann, wenn man alle anderenVariablen beibehält. Das Zusammenspiel der Variablen beider „Erklärung“ von Y kann jedoch sehr komplex sein undder t-Test sagt nichts darüber aus, was passiert, wenn manmehrere Variablen gleichzeitig eliminiert.
• Es gibt verschiedene Ansätze zur Analyse der Qualität vonTeilmodellen
Multivariate Statistik@LS-Kneip 3–54
3.9.1 F-Test zur Überprüfung der Modellanpassung ei-nes Teilmodells
• Problem: Vergleich der Verteilungen einer Zielvariable Y
für mehrere Gruppen, die sich in einem oder mehreren Merk-malen oder “Faktoren” unterscheiden
• Man konzentriert sich auf Unterschiede in den Mittelwerten(Zentrum) der Verteilungen
• Statistischer Test (F-Test): Entscheidung, ob die beobachte-ten Unterschiede in den Mittelwerten der einzelnen Gruppengroß genug sind, um davon auf Unterschiede in den zugehö-rigen Grundgesamtheiten schließen zu können
• Der Test basiert auf einer Prüfgröße, die misst, wie groß dieVariabilität zwischen den Gruppen im Vergleich zur Variab-lilität innerhalb der Gruppen ist.
• Man unterscheidet zwischen Modellen mit “festen Effekten”(Faktoren fest vorgegeben) und Modellen mit “zufälligen Ef-fekten” (Faktoren selbst Zufallsvariablen)
• Formal lassen sich varianzanalytische Probleme als Spezial-fälle der Regressionsanalyse auffassen (Regression mit reinqualitativen erklärenden Variablen). Sichtweise (und Notati-on) sind jedoch unterschiedlich. Methodisch basiert die Va-rianzanalyse zudem auf der Einführung geeigneter Nebenbe-dingungen.
Multivariate Statistik@LS-Kneip 4–1
Beispiel 4.1 (Testfamilien)
Zielgröße Y – Ausgaben für Milchprodukte
Frage: Beeinflussung durch Werbekampagnien
Studie eines Marktforschungsinstituts: c = 4
Werbespots ausgestrahlt durch verschiedene lokale TV-Stationen.4 Stichproben von 30 zufällig ausgewählten Haushalten, die je-weils genau einen der ausgestrahlten Werbespots empfangen konn-ten (AD1, AD2, AD3, AD4)
Problem: Unterschiede zwischen AD1, AD2, AD3, AD4?
Daten:
Nr. AD1 AD2 AD3 AD4
1 20.02 25.89 15.01 24.45
2 25.07 47.45 24.12 27.99
3 38.25 54.13 29.73 45.16
4 48.62 70.97 33.78 53.79
5 54.88 78.20 44.75 63.71
6 60.18 83.72 54.48 89.31
7 36.38 19.89 23.39 32.77
8 45.73 25.11 30.70 55.80
9 59.29 45.55 38.13 52.71
10 66.70 50.40 53.93 65.27
11 75.54 63.68 55.80 84.29
12 78.78 74.03 76.87 100.37
13 26.63 9.21 3.57 14.50
14 28.36 4.64 24.77 29.37
15 50.33 33.11 24.88 31.73
Nr. AD1 AD2 AD3 AD4
16 57.89 32.18 33.00 39.91
17 75.75 41.00 37.64 54.46
18 81.68 48.74 53.43 68.43
19 15.67 27.61 8.62 26.41
20 21.59 39.18 23.65 48.24
21 24.99 55.17 28.67 64.27
22 34.35 69.29 34.82 82.17
23 53.94 71.61 43.40 100.17
24 52.39 91.73 61.85 101.24
25 32.34 22.18 22.95 24.40
26 30.60 32.01 34.73 34.46
27 45.78 45.13 52.44 47.61
28 53.33 55.07 63.37 49.01
29 54.66 59.30 75.58 67.59
30 70.01 68.90 79.11 81.53
Multivariate Statistik@LS-Kneip 4–2
4.1 Einfaktorielle Varianzanalyse
• c verschiedene Gruppen in Abhängigkeit von einem Faktor(“Treatment”)
• Für jede einzelen Gruppe: ni, (i = 1, . . . , c) unabhängigeBeobachtungen der interessierenden Zielvariable Y
• Beobachtungen
Faktor
Stufe 1 Stufe 2 . . . Stufe c
Y11 Y21 . . . Yc1...
.... . .
...
Y1n1 Y2n2 . . . Ycnc
empirische
Mittelwerte Y1· Y2· . . . Yc·
empirische
Varianzen s21 s22 . . . s2c
Multivariate Statistik@LS-Kneip 4–3
• Wichtige Annahmen: (Varianzanalyse mit festen Effek-ten)
– Y11, . . . , Ycnc sind voneinander unabhängig
– Normalverteilung aller Variablen Yij– Homoskedastizität: Alle Varianzen sind gleich.
1 falls die Beobachtung Yij zur l-ten Gruppe gehört
0 sonst
• Per Definition von Yij gilt offensichtlich Xij;l = 0 für l = j
und Xij;i = 1. Das Regressionsmodell mit Indikatorvariablenlässt sich also in folgender Form schreiben:
Yij = µ︸︷︷︸≡β0
+ α1︸︷︷︸≡β1
Xij;1 + · · ·+ αc︸︷︷︸≡βc
Xij;c + ϵij
= µ+ αi + ϵij
• Das Problem der Identifizierbarkeit der Parameter wird inder Varianzananalyse durch die Nebenbedingung
c∑i=1
niαi =
0 beseitigt. Es lässt sich zeigen, dass die nachfolgend defi-nierten Schätzer µ, αi Kleinste-Quadrate Schätzer von µ, αi
unter der Nebenbedingungc∑
i=1
niαi = 0 sind.
Multivariate Statistik@LS-Kneip 4–6
• Schätzungen
– Mittelwerte µi, i = 1, . . . c:
µi = Yi· =1
ni
ni∑j=1
Yij
– Grand Mean:
µ =1
N
c∑i=1
niµi =1
N
c∑i=1
niYi·
=1
N
c∑i=1
ni∑j=1
Yij := Y··
– αi = µi − µ = Yi· − Y··
Fortsetzung Beispiel 4.1 (Testfamilien)
Stufe 1 Stufe 2 Stufe 3 Stufe 4
Yi· 37.2 39.6 34.5 51.0
Y·· 40.6 40.6 40.6 40.6
Yi· − Y·· −3.4 −1.0 −6.1 10.4
s2i 430.3 547.6 354.2 605.3
⇒ geschätzte αi = 0
• Aber: Zufallsschwankungen!
• Frage: Unterschiede signifikant? ⇒ Definition einer Prüfgrö-ße, Test
Multivariate Statistik@LS-Kneip 4–7
Die Streuungszerlegung
Gesamtstreuung der beobachteten Werte von Y :
SQT =c∑
i=1
ni∑j=1
(Yij − Y··)2
Streuungszerlegung:
c∑i=1
ni∑j=1
(Yij − Y··)2
︸ ︷︷ ︸SQT
=c∑
i=1
ni∑j=1
(Yi· − Y··)2
︸ ︷︷ ︸SQE
+c∑
i=1
ni∑j=1
(Yij − Yi·)2
︸ ︷︷ ︸SQR
• SQE =c∑
i=1
ni∑j=1
(Yi· − Y··)2 =
c∑i=1
ni(Yi· − Y··)2
– “erklärte Streuung”
– Streuung zwischen den Stichproben
• SQR =c∑
i=1
ni∑j=1
(Yij − Yi·)2
– “Residualstreuung”
– Streuung innerhalb der Stichproben
• MQR := 1N−c SQR = 1
N−c
c∑i=1
ni∑j=1
(Yij − Yi·)2
ist erwartungstreuer Schätzer von σ2.
Multivariate Statistik@LS-Kneip 4–8
• H0 wahr ⇒ α1 = · · · = αc = 0 ⇒c∑
i=1
niα2i = 0
⇒ tendenziell: SQE =c∑
i=1
niα2i klein im Vergleich zu SQR
• H1 wahr ⇒c∑
i=1
niα2i > 0
⇒ tendenziell: SQE =c∑
i=1
niα2i groß im Vergleich zu SQR
• Teststatistik (H0 gegen H1):
F =SQE /c− 1
SQR/N − c=MQE
MQR[MQE :=
1
c− 1
c∑i=1
ni(Yi· − Y··)2
]
• Unter H0: F ∼ Fc−1,N−c
⇒ Ablehung von H0, falls der beobachtete Wert Fbeobachtet
zu groß ist (Niveaus: α = 0.05, α = 0.01)
– Fbeobachtet > Fc−1,N−c;1−α
– p-Wert = P (Fc−1,N−c > Fbeobachtet) < α
Multivariate Statistik@LS-Kneip 4–9
Unter H0:
X�1×
X�2×
X�3×
Unter H1:
X�1×
X�2×
X�3×
Multivariate Statistik@LS-Kneip 4–10
• Varianzanalysetabelle
Streu- Frei- mittlere
ungs- Streu- heits- quadratische
ursache ung grade Abweichung F
Faktor SQE c− 1 SQEc−1 = MQE MQE
MQR
Residuen SQR N − c SQRN−c = MQR
Fortsetzung Beispiel 4.1 (Testfamilien)
Streu- Frei- mittlere
ungs- Streu- heits- quadratische
ursache ung grade Abweichung F
Werbung 4585.7 3 1528.6 3.16
Residuen 56187.4 116 484.4
Für die Überschreitungswahrscheinlichkeit ergibt sich:
p-Wert = P (F3,116 > 3.16) = 0.0275 < 5%
H0 ist daher abzulehnen.
Multivariate Statistik@LS-Kneip 4–11
4.2 Paarweise Vergleiche (Kontraste)
• Problem: Nehmen wir an, dass in einer Anwendung der F -Test die Nullhypothese ablehnt. In vielen Fällen wird mansich dann dafür interessieren, welche Stufen des Faktors sichsignifikant voneinander unterscheiden.
⇒ Man untersucht die “Kontraste”
µi − µj (= αi − αj), i = 1, . . . , c; j = 1, . . . , i, i > j
• Frage: µi − µj = 0? (insgesamt c(c−1)2
Vergleiche)
• Vorgehen für einen vorgegebenen Kontrast µi − µj :
• Es gilt
Yi· − Yj· ∼ N
(µi − µj , σ
2
(1
ni+
1
nj
))⇒ Yi· − Yj· − (µi − µj)
σ[
1ni
+ 1nj
] 12
∼ N(0, 1)
• Schätzung von σ2 durch
σ2 = MQR =1
N − c
c∑i=1
ni∑j=1
(Yij − Yi·)2
⇒ Yi· − Yj· − (µi − µj)
σ[
1ni
+ 1nj
] 12
∼ tN−c
⇒ (1− α)-Konfidenzintervall für µi − µj :
Yi· − Yj· ± tN−c;1−α2σ
[1
ni+
1
nj
] 12
Multivariate Statistik@LS-Kneip 4–12
⇒ Signifikanztest zum Niveau α für
H0 : µi − µj = 0
gegen
H1 : µi − µj = 0
H0 : µi − µj = 0 wird abgelehnt, falls
0 ∈
[Yi· − Yj· ± tN−c;1−α
2σ
[1
ni+
1
nj
] 12
]Man spricht dann von einem “signifikanten” Kontrast.
• Diese Prozedur ist geeignet, wenn es sich um die Analyseeines einzelnen, fest vorgegebenen Kontrasts handelt.
• Problematisch, wenn es sich um das Auffinden von signi-fikanten Kontrasten innerhalb einer größeren Anzahl ( c(c−1)
2 )von paarweisen Vergleichen handelt.
• Man stößt dann auf das Problem des Multiplen Testens(oder das “Problem der multiplen Vergleiche”).
Multivariate Statistik@LS-Kneip 4–13
Das Problem des Multiplen Testens
• Multiple Tests: Durchführung von mehreren Signifikanztestsinnerhalb der gleichen empirischen Studie
• Beispiel: m verschiedene voneinander unabhängige Tests; fürjeden dieser Tests sei H0 wahr
⇒ P
Ablehung von H0
durch mindestens
einen der m Tests
= 1− (1− α)m =: αm
m αm
1 0.05
3 0.143
5 0.226
10 0.401
100 0.994 (!)
⇒ Interpretation eines signifikanten Resultats?
• Analog: m (1− α)-Konfidenzintervalle
P
mind. eines der m Konfidenz-
intervalle enthält nicht
den wahren Parameterwert
= 1− (1− α)m
⇒ Varianzanalyse: m = c(c−1)2 paarweise Vergleiche; Inter-
pretation eines signifikanten Kontrasts?
Multivariate Statistik@LS-Kneip 4–14
• Lösung: Konstruktion von simultanen Tests bzw. Kon-fidenzintervallen: Modifikation der Konstruktionsprinzipienderart, dass
P
Fehler 1. Art durch
mind. einen der m Tests
≤ α
bzw.
P
alle Konfidenzintervalle
gleichzeitig enthalten den
wahren Parameterwert
= 1− α
1) Allgemeines Verfahren: Bonferroni
Satz (Bonferroni): Gegeben seien m verschiedene EreignisseA1, A2, . . . , Am. Dann gilt
P (A1 ∩A2 ∩ · · · ∩Am) ≥ 1−m∑i=1
P ( Ai︸︷︷︸“nicht Ai”
)
Anwendung:
• m verschiedene Tests zum Signifikanzniveau α∗ = αm :
⇒ P
Fehler 1. Art durch
mind. einen der m Tests
≤m∑i=1
α
m= α
Multivariate Statistik@LS-Kneip 4–15
• Analog: (1− α∗)-Konfidenzintervalle zum Niveau α∗ = αm
⇒ P
alle Konfidenzintervalle
gleichzeitig enthalten den
wahren Parameterwert
≥ 1−m∑i=1
α
m= 1− α
• Anwendung auf Identifikation von signifikanten Kontrasten:Mit α∗ = 2α
c(c−1) gilt:
P
µi−µj∈[Yi·−Yj·±t
N−c;1−α∗2
σ[
1ni
+ 1nj
] 12
]für alle i, j mit i > j
≥ 1 − α
⇒ signifikativ, falls
0 ∈
[Yi· − Yj· ± tN−c;1−α∗
2σ
[1
ni+
1
nj
] 12
]
• Aber: Es existieren subtilere Verfahren, die spezifisch für dieVarianzanalyse sind
2) Verfahren von Scheffé
Simultane Konfidenzintervalle zum Niveau 1− α:[Yi· − Yj· ± σ
[(c− 1)Fc−1,N−c,1−α
(1ni
+ 1nj
)] 12
]
P
µi−µj∈[Yi·−Yj·±σ
[(c−1)Fc−1,N−c,1−α
(1ni
+ 1nj
)] 12
]für alle i, j, i > j
≥ 1− α
Multivariate Statistik@LS-Kneip 4–16
3) Verfahren von Tukey:
Sei n = n1 = · · · = nc. Simultane Konfidenzintervalle zum Ni-veau 1− α: [
Yi· − Yj· ± qc,N−c,1−ασ√n
]Hierbei ist qc,N−c,1−α das (1−α)-Quantil der sogenannten “Studentized-Range-Verteilung” mit c und N − c als Freiheitsgraden. DieseVerteilung ist gerade definiert als die Verteilung von
maxi =j
∣∣Yi· − Yj·∣∣
σ/√n
unter H0 : µ1 = µ2 = · · · = µc
⇒ P
µi−µj∈[Yi·−Yj·±qc,N−c,1−α]
für alle i, j, i > j
= 1− α
Fortsetzung Beispiel 4.1 (Testfamilien)
• Methode von Scheffé: Keine signifikanten Kontraste
4.3 Zweifaktorielle Varianzanalyse mit festenEffekten
• Es existieren zwei verschiedene Faktoren A und B, die dieZielvariable Y beeinflussen
• i = 1, . . . , c Stufen für Faktor A, j = 1, . . . , d Stufen fürFaktor B
• Für jede Stufenkombination (“Zelle”) (i, j) n > 1 unabhängi-ge Messungen von Y
⇒ N = c · d · n Beobachtungen:
Yijk, i = 1, . . . , c; j = 1, . . . , d; k = 1, . . . , n
Modell (Effektdarstellung):
Yijk = µij + εijk
= µ+ αi + βj + γij + εijk
wobei
• ε111, . . . , εcdn i.i.d., εijk ∼ N(0, σ2)
• µ = 1c·d
c∑i=1
d∑j=1
µij – Grand Mean
• αi beschreibt den Effekt von Faktor A auf der i-ten Faktor-stufe
– αi = µi· − µ, µi· =1d
d∑j=1
µij
–c∑
i=1
αi = 0
Multivariate Statistik@LS-Kneip 4–18
• βj beschreibt den Effekt von Faktor B auf der j-ten Faktor-stufe
– βj = µ·j − µ, µ·j =1c
c∑i=1
µij
–d∑
j=1
βj = 0
• γij beschreibt die Interaktion (oder Wechselwirkung) vonA und B auf der Faktorstufenkombination (i, j)
– γij = µij − (µ+ αi + βj)
–c∑
i=1
γij = 0,d∑
j=1
γij = 0
• Einfachster Fall: c = 2, d = 2
1
2
Faktor A
1 2Faktor B
µij
Abbildung 1: keineWechselwirkungen
1 2Faktor B
µij
Abbildung 2: nurWechselwirkungen
1 2Faktor B
µij
Abbildung 3:Haupteffekte +Wechselwirkungen
Multivariate Statistik@LS-Kneip 4–19
Schätzungen:
• MittelwerteFaktor B
1 2 . . . d
1 Y11· Y12· . . . Y1d· Y1··
Faktor A...
......
...
c Yc1· Yc2· . . . Ycd· Yc··
Y·1· Y·2· . . . Y·d· Y···
• Schätzung von µ
µ =1
N
c∑i=1
d∑j=1
n∑k=1
Yijk = Y···
• Schätzungen von αi
αi = Yi·· − Y··· mit Yi·· =1
dn
d∑j=1
n∑k=1
Yijk
• Schätzungen von βj
βj = Y·j· − Y··· mit Y·j· =1
cn
c∑i=1
n∑k=1
Yijk
• Schätzungen von γij
γij = Yij· − (µ+ αi + βj)
= Yij· − (Y··· + Yi·· − Y··· + Y·j· − Y···)
= Yij· − Yi·· − Y·j· + Y···
mit Yij· =1
n
n∑k=1
Yijk
Multivariate Statistik@LS-Kneip 4–20
• Schätzungen von εijk: Es gilt
εijk = Yijk − (µ+ αi + βj + γij) = Yijk − µij
⇒ εijk = Yijk − Yij·
• Die zugehörigen Signifikanztests beruhen auf einer Verallge-meinerung der in der Einfachklassifikation verwendeten Streu-ungszerlegung
Beispiel 4.2 (Leistungen junger Arbeitnehmer)
• Y – Leistung
• Faktor A: Zufriedenheit mit den Arbeitsbedingungen
• Faktor B: Familiäre Situation
• Pro Faktorkombination wurden 5 Arbeitnehmer zufällig aus-gewählt
Multivariate Statistik@LS-Kneip 4–21
Familiäre Situation
Partner allein lebend
zufrieden 85 50
89 52
91 65
95 71
80 72
unzufrieden 34 30
30 28
28 33
23 16
40 23
Mittelwerte:
Faktor B
1 2
1 88 62
Faktor A
2 31 26
α1 = −α2 = 23.25 γ11 = −γ12 = 5.25
β1 = −β2 = 7.75 γ22 = −γ21 = 5.25
Multivariate Statistik@LS-Kneip 4–22
Die Streuungszerlegung
c∑i=1
d∑j=1
n∑k=1
(Yijk − Y···)2
= SQT = SQA+SQB+SQAB+SQR
• SQA = dnc∑
i=1
(Yi·· − Y···)2 = dn
c∑i=1
α2i
– Streuung bedingt (“erklärt”) durch Faktor A
• SQB = cnd∑
j=1
(Y·j· − Y···)2 = cn
d∑j=1
β2j
– Streuung bedingt (“erklärt”) durch Faktor B
• SQAB = nc∑
i=1
d∑j=1
(Yij· − Yi·· − Y·j· + Y···)2
= nc∑
i=1
d∑j=1
γ2ij
– Streuung bedingt (“erklärt”) durch Interaktionen
• SQR =c∑
i=1
d∑j=1
n∑k=1
(Yijk − Yij·)2 =
c∑i=1
d∑j=1
n∑k=1
ε2ijk
– Residualstreuung– MQR = 1
cd(n−1) SQR ist ein erwartungstreuer Schätzer derVarianz σ2
• Dies ermöglicht die die Defintion von Prüfgrößen zum Testender verschiedenen möglichen Hypothesen (Nichtexistenz-Existenzvon Effekten der Faktoren A, B bzw. Interaktionen)
Multivariate Statistik@LS-Kneip 4–23
Teststatistiken:
• Signifikanztest zum Niveau α von
HA0 : α1 = · · · = αc = 0
gegen
HA1 : Verneinung von HA
0
– Teststatistik FA = SQA /c−1SQR /cd(n−1) =
MQAMQR
– unter HA0 : FA ∼ Fc−1,cd(n−1)
⇒ Ablehnung von HA0 , falls FA > Fc−1,cd(n−1);1−α
(bzw. p-Wert hinreichend klein)
• Signifikanztest von
HAB0 : γ11 = · · · = γcd = 0
gegen
HAB1 : Verneinung von HAB
0
– Teststatistik: FAB = SQAB /(c−1)(d−1)SQR /cd(n−1) = MQAB
MQR
– Unter HAB0 : FAB ∼ F(c−1)(d−1),cd(n−1)
⇒ Ablehung von HAB0 , falls
FAB > F(c−1)(d−1),cd(n−1);1−α
(bzw. p-Wert ausreichend klein)
Multivariate Statistik@LS-Kneip 4–24
• Varianzanalysetabelle
Streu- Frei- mittlere
ungs- Streu- heits- quadratische
ursache ung grade Abweichung F
Faktor A SQA c−1 MQA= SQAc−1 FA=MQA
MQR
Faktor B SQB d−1 MQB= SQBd−1 FB=MQB
MQR
Interakt.
A×B
SQAB (c−1)(d−1) MQAB= SQAB(c−1)(d−1)
FAB=MQABMQR
Residuen SQR cd(n−1) MQR= SQRcd(n−1)
Fortsetzung Beispiel 4.2 (Leistungen junger Arbeitnehmer)
Streuungs- Freih.- mittl. quadr.
ursache Streuung grade Abweichung F
Faktor A 10811.25 1 10811.25 190.51
Faktor B 1201.25 1 1201.25 21.17
Interakt. A×B 551.25 1 551.25 9.71
Residuen 908 16 56.75
• FA = 190.51 > F1,16,0.95 = 4.94 ⇒ Ablehnung von HA0
• Das besprochene Modell ist das einfachste Beispiel eines Mo-dells mit gemischten Effekten (fest + zufällig). Solche Mo-delle werden auch als “Varianzkomponentenmodelle” bezeich-net.
• Für das diskutierte einfache Modell konnten die gleichenAnalyseverfahren verwendet werden wie in der gewöhnlichenVarianzanalyse mit festen Effekten. Dies ist jedoch bei kom-plizierteren gemischten Modellen nicht mehr der Fall. DieSchätzung unbekannter Parameter erfolgt dann über den Maxi-mum-Likelihood Ansatz, während für die zufälligen Effektebeste erwartungstreue Prädikatoren (BLUP) bestimmt wer-den ⇒ EM-Algorithmus.