MS13 1 2 Multivariate Statistik 2.1 Grundbegriffe In diesem Abschnitt sollen die ersten wichtigen Grundbegriffe der Multivaria- ten Statistik eingef¨ uhrt werden: Mehrdimensionale Variablen, Erwartungswerte, Kovarianzmatrizen, affine Abbildungen. Multivariate Daten. Sehr oft liefern Versuchspersonen oder allgemeiner Unter- suchungseinheiten in Untersuchungen nicht nur einen Zahlenwert als Versuchs- ergebnis, sondern mehrere. Es wird dann also nicht nur eine Variable erhoben, sondern mehrere. In solchen F¨ allen ist es oft angemessen und empfehlenswert, diese Werte oder einen Teil dieser Werte zu einem Vektor zusammenzufassen. Gelegentlich fasst man auch zusammengeh¨ orende Gruppen von Variablen jeweils zu Vektoren zusammen. Beispiele: 1. Bei der Normierung eines Intelligenztests liefern alle Probanden f¨ ur jeden Untertest einen Wert. Hat der Intelligenztest 3 Untertests (verbale, rechne- rische, r¨ aumliche Intelligenz), so ist es sinnvoll, die Ergebnisse der Personen in einem 3-Vektor zusammenzufassen. Ein Ergebnisvektor (10, 7, 9) 0 einer Versuchsperson bedeutet dann, dass sie in dem ersten Untertest (verbale Intelligenz) 10 Punkte erzielt hat, in dem zweiten 7 und so weiter. Vielleicht werden bei der Untersuchung zus¨ atzlich Alter und Geschlecht er- hoben. Dann k¨ onnte man die Werte in diesen Variablen (Geschlecht geeignet als Zahl kodiert) hinzuf¨ ugen und h¨ atte nun als Ergebnis jeder Versuchsper- son einen 5-Vektor. Ob dies sinnvoll ist oder ob man nur die Intelligenzwerte zusammenfassen sollte, h¨ angt von den Zielsetzungen der Untersuchung und den Auswertungsmethoden ab. 2. In einer Studie zum Therapieerfolg wird bei allen Versuchspersonen die Befindlichkeit vor der Therapie, zweimal w¨ ahrend der Therapie zu festge- setzten Zeitpunkten und nach der Therapie erhoben. Hier liefert jede Person vier Werte, die man sinnvollerweise zu einem 4-Vektor zusammenfasst. Ein Ergebnisvektor (4, 7, 6, 8) 0 bedeutet dann, dass die untersuchte Person vor der Therapie einen Wert von 4 hatte, der sich im Laufe der Therapie ¨ uber die Werte 7 und 6 auf 8 nach der Therapie ¨ anderte.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
MS13 1
2 Multivariate Statistik
2.1 Grundbegriffe
In diesem Abschnitt sollen die ersten wichtigen Grundbegriffe der Multivaria-
ten Statistik eingefuhrt werden: Mehrdimensionale Variablen, Erwartungswerte,
Kovarianzmatrizen, affine Abbildungen.
Multivariate Daten. Sehr oft liefern Versuchspersonen oder allgemeiner Unter-
suchungseinheiten in Untersuchungen nicht nur einen Zahlenwert als Versuchs-
ergebnis, sondern mehrere. Es wird dann also nicht nur eine Variable erhoben,
sondern mehrere. In solchen Fallen ist es oft angemessen und empfehlenswert,
diese Werte oder einen Teil dieser Werte zu einem Vektor zusammenzufassen.
Gelegentlich fasst man auch zusammengehorende Gruppen von Variablen jeweils
zu Vektoren zusammen.
Beispiele:
1. Bei der Normierung eines Intelligenztests liefern alle Probanden fur jeden
Untertest einen Wert. Hat der Intelligenztest 3 Untertests (verbale, rechne-
rische, raumliche Intelligenz), so ist es sinnvoll, die Ergebnisse der Personen
in einem 3-Vektor zusammenzufassen. Ein Ergebnisvektor (10, 7, 9)′ einer
Versuchsperson bedeutet dann, dass sie in dem ersten Untertest (verbale
Intelligenz) 10 Punkte erzielt hat, in dem zweiten 7 und so weiter.
Vielleicht werden bei der Untersuchung zusatzlich Alter und Geschlecht er-
hoben. Dann konnte man die Werte in diesen Variablen (Geschlecht geeignet
als Zahl kodiert) hinzufugen und hatte nun als Ergebnis jeder Versuchsper-
son einen 5-Vektor. Ob dies sinnvoll ist oder ob man nur die Intelligenzwerte
zusammenfassen sollte, hangt von den Zielsetzungen der Untersuchung und
den Auswertungsmethoden ab.
2. In einer Studie zum Therapieerfolg wird bei allen Versuchspersonen die
Befindlichkeit vor der Therapie, zweimal wahrend der Therapie zu festge-
setzten Zeitpunkten und nach der Therapie erhoben. Hier liefert jede Person
vier Werte, die man sinnvollerweise zu einem 4-Vektor zusammenfasst. Ein
Ergebnisvektor (4, 7, 6, 8)′ bedeutet dann, dass die untersuchte Person vor
der Therapie einen Wert von 4 hatte, der sich im Laufe der Therapie uber
die Werte 7 und 6 auf 8 nach der Therapie anderte.
2.1 Grundbegriffe MS13 2
3. Man will den Zusammenhang von Personlichkeitseigenschaften und physio-
logischen Parameter untersuchen. Fur die Personlichkeit liegen 5 Variablen
vor (Extraversion, Gewissenhaftigkeit, ...), an physiologischen Maßen wur-
den 4 erhoben (Herzrate, Atemfrequenz, ...). Hier ist es angemessen, die
Personlichkeitswerte jeder Versuchsperson zu einem 5-Vektor zusammenzu-
fassen und die physiologischen Maße zu einem 4-Vektor. Jede Versuchsper-
son liefert dann zwei Vektoren, daruber hinaus vielleicht auch noch weitere
Variablen wie Alter, Geschlecht etc.
Die einfachste Situation ist die, dass man alle interessierenden Variablen zu ei-
nem Vektor zusammenfasst. Sind p solche Variablen zu untersuchen, so ist das
Ergebnis fur jede Versuchsperson ein p -Vektor.
Als Beispiel seien an 5 Probanden je drei Intelligenzwerte erhoben worden, die
Ergebnisse seien in der ublichen Weise in der folgenden Datenmatrix (Zeilen:
Personen, Spalten: Variablen) zusammengefasst:
5 10 8
4 6 3
2 3 3
6 12 3
8 14 13
Bezeichnet man diese Datenmatrix mit X, so erhalt der Ergebnisvektor der i-
ten Versuchsperson ublicherweise den Namen xi. Dieser Ergebnisvektor ist die
transponierte i-te Zeile der Datenmatrix (man rechnet ja nach Moglichkeit mit
Spaltenvektoren, daher die Transposition). Hier ist beispielsweise das Ergebnis
der dritten Versuchsperson der Vektor x3 = (2, 3, 3)′.
Es ist nicht ganz einfach, fur solche Situationen eine in jeder Hinsicht befriedi-
gende Notation zu finden. Von der univariaten Statistik her wurde es naheliegen,
Variablen (hier im informellen Sinn) mit großen Buchstaben zu bezeichnen und
auf diese Weise eine Variable X von einem moglichen Wert x oder dem Wert xieiner Versuchsperson zu unterscheiden. Nun mochte man jedoch Variablen auch
zu Vektoren von Variablen zusammenfassen, und hier musste man folgerichtig fur
einen solchen Variablenvektor das Symbol X gebrauchen, das jedoch schon fur
die Datenmatrizen reserviert und ganz ungebrauchlich ist.
Man kann also nicht alle Wunsche an die Notation befriedigen, und daher werden
im folgenden Text unterschiedliche Konventionen benutzt, wobei die leitenden
2.1 Grundbegriffe MS13 3
Gesichtspunkte die sind, dass einerseits die Sachverhalte moglichst deutlich wer-
den sollen, und dass andererseits die Diskrepanz zu ublichen Notationen nicht
zu groß werden darf. Konkret bedeutet dies, dass zur Bezeichnung von Einzelva-
riablen gelegentlich große und gelegentlich kleine Buchstaben verwendet werden;
werden solche Variablen jedoch zu Variablenvektoren zusammengefasst, so sol-
len nur kleine Buchstaben gebraucht werden. Die Bedeutungskollision bei der
Verwendung kleiner Buchstaben, dass damit namlich einerseits Variablen oder
Variablenvektoren und andererseits mogliche Werte solcher Variablen oder Va-
riablenvektoren bezeichnet werden, wird sich immer durch die Beachtung des
Kontexts auflosen lassen. Statt von’Variablenvektoren‘ redet man dabei auch
von’p-dimensionalen Variablen‘.
In dem Beispiel sollen die drei Variablen hier den fruheren Konventionen folgend
mit X1, X2 und X3 bezeichnet werden, der zugehorige Variablenvektor jedoch
mit x; es gilt dann x = (X1, X2, X3)′, und man kann dieses x dann auch eine
dreidimensionale Variable nennen. Die mogliche Kollision ist die, dass das Sym-
bol x sowohl den Variablenvektor als auch einen moglichen Wert dieses Vektors
bezeichnen kann.
Die wichtigsten deskriptiven Kennwerte in einer multivariaten Datensituation
sind die Mittelwerte der Variablen und die Varianzen und Kovarianzen. Die Mit-
telwerte fasst man dabei auch wieder zu einem Vektor zusammen, der den Namen
x erhalt, und die Varianzen und Kovarianzen stellt man zu der Kovarianzmatrix
zusammen, die oft den Namen S bekommt.
In dem Beispiel ergibt sich dann
x =
5
9
6
und S =
4 7.8 6
7.8 16 11
6 11 16
.
Wenn man n Personen unabhangig aus einer Population gezogen hat und sich fur
die Varianzen und Kovarianzen in der Population interessiert, so erhalt man dafur
bekanntlich erwartungstreue Schatzer mit den korrigierten Stichprobenvarianzen
und -kovarianzen, bei deren Bildung man nicht durch n, sondern durch n−1 teilt.
Die analog aufgebaute Matrix der korrigierten Varianzen und Kovarianzen soll
hier korrigierte Stichprobenkovarianzmatrix heißen und mit Su abgekurzt werden.
Der Index u steht dabei fur unbiased, die englische Bezeichnung fur erwartungs-
treu. Es gilt naturlich Su = (n/(n− 1))S.
2.1 Grundbegriffe MS13 4
Im Beispiel ergibt sich
Su =
5 9.75 7.5
9.75 20 13.75
7.5 13.75 20
.
Die Matrix nS = (n − 1)Su, die gewissermaßen die Vorstufe zur Bildung der
beiden Kovarianzmatrizen ist, bei der nur noch nicht durch n bzw. n−1 dividiert
wurde, tragt auch den Namen SSCP-Matrix, wobei SSCP fur’Sum of Squares
and Cross Products‘ steht.
Der Name weist auf die Rechnung hin, mit der man einen Eintrag dieser Matrix
erhalt. Fur das (i, j)-Element bildet man zunachst fur die zugehorigen Varia-
blen i und j personenweise die Abweichungen vom jeweiligen Mittelwert. Dann
multipliziert man entsprechende (zur gleichen Person gehorende) Abweichungen
miteinander (’Squares and Cross Products‘,
’Squares‘ steht fur den Fall i = j, in
dem einfach zu quadrieren ist) und summiert schließlich auf.
Im Beispiel ist die SSCP-Matrix gleich20 39 30
39 80 55
30 55 80
.
Neben den Kovarianzmatrizen ist oft auch die analog aufgebaute Korrelationsma-
trix interessant, bei der die Kovarianzen durch Korrelationen ersetzt sind, und die
daher in der Diagonalen aus Einsen besteht. Die Korrelationsmatrix des Beispiels
ist 1 0.975 0.75
0.975 1 0.6875
0.75 0.6875 1
.
Zentriermatrizen. In diesem Abschnitt sollen verschiedene deskriptive Berech-
nungen mit Hilfe von Matrizenmultiplikationen dargestellt werden. Diese Darstel-
lungsmoglichkeit ist fur theoretische Zwecke interessant und wichtig. Fur konkrete
Berechnungen – beispielsweise von Kovarianzmatrizen – sind sie allerdings meist
zu aufwendig, hier benutzt man besser die bekannten Formeln aus der Elemen-
tarstatistik.
Ein weiterer Zweck des Abschnitts ist das Einuben des Umgangs mit Matrizen.
2.1 Grundbegriffe MS13 5
Zunachst soll eine univariate Situation betrachtet werden, in der an n Versuchs-
personen eine Variable X erhoben worden ist. Die Werte der Versuchspersonen
fasst man dann oft in einem sogenannten Datenvektor zusammen, der hier x
heißen soll.
Sind beispielsweise bei 5 Personen die Werte 10, 8, 7, 6 und 14 erhoben worden,
so ist x = (10, 8, 7, 6, 14)′.
Um Verwirrungen vorzubeugen sei hier darauf hingewiesen, dass Vektoren in
unterschiedlichen Situationen unterschiedlich verwendet werden. In univariaten
Situationen wie hier fasst man mit Vektoren meist die Daten vieler Versuchsperso-
nen in einer Variablen zusammen. In multivariaten Situationen werden dagegen
Vektoren oft auch verwendet, um die Werte einer Versuchsperson in mehreren
erhobenen Variablen zusammenzufassen.
Als erstes soll der Mittelwert berechnet werden. Bezeichnet man mit 1n den
Vektor aus n Einsen (den Index n lasst man meist weg, wenn keine Unklarheiten
auftreten konnen), so kann der Mittelwert auch wie folgt dargestellt werden (links
steht die allgemeine Form, rechts das konkrete Beispiel):
x =1
n1′x x =
1
5(1, 1, 1, 1, 1)
10
8
7
6
14
=45
5= 9
Eigentlich ist hier das Ergebnis keine Zahl, sondern eine (1 × 1)-Matrix. Diese
wird jedoch hier – wie ublich – mit ihrem einzigen Element identifiziert.
Beim Berechnen der Varianzen und Kovarianzen ist meist der erste Schritt der,
dass man von allen Datenpunkten den Mittelwert abzieht. Man spricht hier auch
vom Zentrieren der Daten. Die Differenzen fasst man dann wieder zu einem
Vektor zusammen, den man den zentrierten Datenvektor nennt, und der hier mit
x bezeichnet werden soll.
Den zentrierten Vektor erhalt man also, indem man von dem Datenvektor x den
Vektor abzieht, dessen Komponenten alle gleich x sind. Diesen Vektor kann man
auch schreiben als 1(x), wobei (x) die (1× 1)-Matrix mit Element x bezeichnet.
2.1 Grundbegriffe MS13 6
x = x− 1(x)
x =
10
8
7
6
14
−
1
1
1
1
1
(9)
=
10
8
7
6
14
−
9
9
9
9
9
=
1
−1
−2
−3
5
Hier kann man nun fur (x) den gerade berechneten Ausdruck einsetzen und erhalt
nach einigen Umformungen
x = x− 1(x) = x− 1
(1
n1′x
)= x− 1
n1 (1′x) = x− 1
n(11′) x
= Ix− 1
n(11′) x =
(I− 1
n(11′)
)x = Znx ,
wobei mit Zn (oder, wenn n aus dem Kontext zu erschließen ist, kurz Z) die
Matrix I − (1/n)11′ abgekurzt wird, die auch Zentriermatrix heißt. Fur den
was man in der Tat als zwei ubereinandergeschriebene regressionsartige Gleichun-
gen lesen kann, in denen beispielsweise die erste Vordiplomsnote durch die drei
Schulnoten mit den Regressionsgewichten a11, a12 und a13 und der additiven Kon-
stante b1 vorhergesagt wird, also durch Koeffizienten, die in der ersten Zeile von
A zusammengefasst sind und durch die erste Komponente von b. Entsprechend
enthalt die zweite Zeile von A die Koeffizienten der zweiten Regressionsgleichung
und die zweite Komponente von b die zugehorige additive Konstante.
Eine Bemerkung zur Notation: Die Gleichung y = Ax+b kann wegen der Ambi-
guitat der Verwendung der Symbole auf zwei Arten gedeutet werden. Einerseits
kann man y und x als Bezeichnung von Variablenvektoren lesen; dann gibt die
Gleichung symbolisch an, wie der Variablenvektor y aus dem Variablenvektor
x hervorgeht. Andererseits kann man y und x als Bezeichnungen von moglichen
Werten lesen; dann sagt die Gleichung, wie man fur einen Wert x den zugehorigen
Wert y berechnet. Da hier beide Interpretationen denselben Grundgedanken aus-
drucken, ist diese Uneindeutigkeit nicht nur harmlos, sondern geradezu nutzlich.
2.1 Grundbegriffe MS13 12
Ein Spezialfall einer affinen Transformation einer p-dimensionalen Variablen x,
die aus den Einzelvariablen X1, . . . , Xp besteht, ist der, in dem q = 1 gilt, in
dem also nur eine neue Variable Y gebildet wird. Die Matrix A besteht dann
aus nur einer Zeile und anstelle eines Vektors b hat man eine Zahl b. Hier zieht
man es vor, die Koeffizienten in der Zeile der Matrix A zu einem Spaltenvektor
zusammenzufassen, der hier a heißen moge – es gilt dann also A = a′.
Die entstehende Gleichung Y = a′x+b kann man ausschreiben zu Y =∑ajXj+b,
und es folgt, dass dieser Spezialfall gerade das ist, was im Univariaten als eine
Linearkombination der Variablen Xj bezeichnet wurde.
Das Ergebnis dieser Uberlegungen ist einerseits, dass man Linearkombinationen
Y =∑ajXj+b von Variablen Xj auch als Y = a′x+b schreiben kann, wobei man
die Koeffizienten aj zu einem Spaltenvektor a zusammenfasst, und andererseits,
dass solche Linearkombinationen Spezialfalle von affinen Abbildungen sind, wobei
die Matrix A aus der allgemeinen Definition durch a′ ersetzt ist und der Vektor
b durch b.
Will man beipielsweise nur eine Vordiplomsnote mit Hilfe von drei Schulnoten
vorhersagen, so fasst man die Regressionsgewichte in einem 3-Vektor a zusammen
und schreibt die Vorhersagegleichung
y =3∑j=1
ajxj + b
auch kurz als
y = a′x + b ;
der lineare Anteil der zugehorigen affinen Abbildung ist hier also a′, das dann als
Matrix mit einer Zeile und drei Spalten betrachtet wird.
Ein wichtiges Beispiel einer affinen Transformation ist diejenige Transformation,
bei der man alle Variablen z-transformiert, wie nun gezeigt werden soll.
Zunachst ist es sinnvoll, einige Bezeichnungen einzufuhren. Ist x der betrachtete
p-Variablenvektor, so soll mit Vx die Diagonalmatrix mit den Varianzen der
Komponenten von x bezeichnet werden. Mit V1/2x und V
−1/2x sollen entsprechend
die Diagonalmatrizen mit den Streuungen und den Kehrwerten der Streuungen
benannt werden (wobei bei der letzten vorauszusetzen ist, dass alle Streuungen
von 0 verschieden sind).
2.1 Grundbegriffe MS13 13
Ist zum Beispiel
S =
4 7.8 6
7.8 16 11
6 11 16
die Kovarianzmatrix einer dreidimensionalen Variable x, so gilt
Vx =
4 0 0
0 16 0
0 0 16
, V1/2x =
2 0 0
0 4 0
0 0 4
und V−1/2x =
1/2 0 0
0 1/4 0
0 0 1/4
.
Die Verwendung der Exponenten 1/2 und −1/2 soll andeuten, dass bei Vx aus
den Diagonalelementen die Wurzeln bzw. die Kehrwerte der Wurzeln gebildet
werden sollen. Man kann ubrigens fur gewisse Matrizen das Potenzieren auch mit
nicht ganzzahligen Exponenten definieren, und die hier verwendeten Bezeichnun-
gen lassen sich dann in diesem Sinne interpretieren.
Oft rechnet man statt mit Varianzen und Kovarianzen mit den entspechenden kor-
rigierten Stichprobenvarianzen und -kovarianzen, also statt mit S mit Su. Auch
dann ist die Einfuhrung entsprechender Diagonalmatrizen sinnvoll, fur die eigent-
lich eigene Bezeichnungen zu wahlen waren. Da man jedoch sinnvollerweise nie
die beiden Versionen von Varianzen und Kovarianzen in Rechnungen mischt, ist
dies nicht notig, da das jeweils Gemeinte aus dem Kontext deutlich werden sollte.
Da die z-Transformation darin besteht, von den Daten den Mittelwert abzuziehen
und das Ergebnis durch die Streuung zu teilen, erkennt man sofort, dass bei
einem Datenvektor x diese komponentenweise durchgefuhrten Operationen zu
dem Ergebnis
z = V−1/2x (x− x) = V
−1/2x x−V
−1/2x x
fuhren. Die z-Transformation aller Komponenten von x lasst sich also durch die
affine Abbildung mit linearem Anteil V−1/2x und Verschiebung −V
−1/2x x beschrei-
ben.
Kennwerte bei affinen Transformationen. In diesem Abschnitt soll unter-
sucht werden, wie sich Mittelwertsvektor und Kovarianzmatrix verhalten, wenn
man Daten einer affinen Abbildung unterwirft, oder sie, wie man auch sagt, affin
transformiert.
An dieser Stelle ist zu bemerken, dass die ublichen Terminologien im Univaria-
ten und im Multivariaten leider nicht harmonieren: Eine lineare Transformation
2.1 Grundbegriffe MS13 14
im Univariaten heißt multivariat betrachtet nicht mehr linear, sondern affin. Die
multivariate Bezeichnung ist deshalb sinnvoll, weil der Begriff der linearen Ab-
bildung in der Linearen Algebra etwas anders besetzt ist. Allerdings ist hier die
Terminologie der multivariaten Statistik in der Literatur auch nicht einheitlich.
Es soll nun also eine Situation betrachtet werden, in der an n Versuchspersonen
Daten einer p-dimensionalen Variable x erhoben worden sind, die in einer (n×p)-Datenmatrix X zusammengefasst sind. Die p-dimensionale Variable x soll affin zu
einer neuen q-dimensionalen Variablen y = Ax+b transformiert werden, wobei A
eine (q×p)-Matrix ist und b ein q-Vektor. Gefragt ist nach dem Mittelwertvektor
und der Kovarianzmatrix von y.
Bei der Transformation werden also fur alle Versuchspersonen deren Datenvekto-
ren x in neue Datenvektoren y = Ax + b umgewandelt; nach dieser Umformung
gehoren dann zu jeder Versuchsperson nicht mehr p, sondern q Werte. Die trans-
formierten Daten sollen wieder in einer neuen Datenmatrix Y zusammengefasst
werden, die dann eine (n× q)-Matrix sein muss. Es soll sogleich gezeigt werden,
dass man die Matrix Y als
Y = XA′ + 1nb′ ,
erhalt.
Zuvor ein Beispiel zur Veranschaulichung: In dem Beispiel mit den Schulnoten
und den vorhergesagten Vordiplomsnoten konnten die Schulnoten von 20 Studie-
renden als (20× 3)-Matrix vorliegen. Wendet man dann die Vorhersage auf jede
einzelne Person an, so erhalt man fur alle 20 Personen je zwei Vorhersagewerte
fur die beiden Vordiplomsnoten, die man in einer neuen (20 × 2)-Datenmatrix
zusammenfassen kann.
Zur Begrundung der Formel fur Y transponiert man zunachst die Matrix X,
so dass die Datenvektoren der einzelnen Personen nun die Spalten bilden. Die
Matrix AX′ ist dann spaltenweise das Produkt von A mit den Datenvektoren
der Personen; die Spaltenvektoren sind also bis auf eine Addition des Vektors b
bereits die gesuchten transformierten Datenvektoren. Die Addition von b zu allen
Spalten bewirkt man jedoch, indem man zur Matrix AX′ die Matrix addiert, die
aus der n mal wiederholten Spalte b besteht. Die zu addierende Matrix kann
man als b1′n schreiben (man interpretiere die beiden Faktoren als Matrizen und
wende b auf die Spalten von 1′n an). Als Ergebnis der Addition erhalt man so
spaltenweise die neuen Datenvektoren fur die Versuchspersonen, also die Matrix
Haufig hat man es mit Transformationen von Daten zu tun, die von der Form
y = Ax oder y = Ax + b sind. Ist dabei die Matrix A invertierbar, so konnen
solche Transformationen auch als Variablentransformationen interpretiert wer-
den, wie man sieht, wenn man als Koeffizientenmatrix G die Matrix A′ wahlt
und gegebenenfalls h = b setzt. In dieser Interpretation druckt dann die neue
Variable y die Information, die in den Originaldaten steckt, nur anders aus.
Transformationen der Form y = Ax oder y = Ax + b mit invertierbarem A
konnen damit auch als Koordinatentransformationen interpretiert und dargestellt
werden, was in vielen Situationen nutzlich ist.
Der einfachste Fall bei affinen Transformationen ist der, in dem nur eine Varia-
ble vorliegt, die transformiert wird. Die Transformation sei dabei von der Form
y = ax+ b mit a 6= 0. Auch eine solche Transformation kann man als affinen Ko-
ordinatenwechsel interpretieren, bei dem der Nullpunkt auf −b/a gesetzt wird,
und bei dem 1/a die neue Einheit ist.
Beispielsweise sei die Transformation y = −2x + 3 gegeben. Die transformierten
Werte lassen sich dann auf der Skala ablesen, deren Nullpunkt auf 1.5 gesetzt ist,
und deren Einheit gleich −.5 (also negative Richtung) ist.
−3 −2 −1 0 1 2 3
9 8 7 6 5 4 3 2 1 0 -1 -2 -3
x
yrZu dem eingezeichneten Punkt mit x = 2.5 gehort der Wert y = (−2)(2.5) + 3 =
−2 den man auch im oberen Koordinatensystem abliest.
2.2 Geometrische Veranschaulichungen MS13 44
Das Thermometer mit der Celsius-Skala auf der einen und der Fahrenheit-Skala
auf der anderen Seite ist ein bekanntes Beispiel, in der eine affine Transformation
durch einen Koordinatenwechsel ausgedruckt wird.
Zum Schluss soll noch besprochen werden, wie sich Linearkombinationen der al-
ten Variablen mit Hilfe der neuen Variablen schreiben lassen; insbesondere geht
es um die Umrechnung des Koeffizientenvektors einer Linearkombination u der
x-Variablen in den Koeffizientenvektor bei einer Darstellung von u als Linear-
kombination der y-Variablen.
Als Beispiel soll wieder die Umrechnung von zwei Intelligenzuntertests x1 und x2in zwei neue Linearkombinationen y1 und y2 dienen, die gerade die Summe und
die Differenz der z-transformierten x-Werte sind, und die fur Gesamtintelligenz
und Spezialisierung stehen sollen. Koeffizientenmatrix und Vektor der additiven
Konstanten seien wieder
G =
(.5 −.52 2
)und h =
(−8.5
−3.5
),
die Berechnung von y geschieht dann mit der Formel
y = G′x + h .
Nun moge es sich als praktisch erwiesen haben, zur Vorhersage des Studienerfolgs
in einem bestimmten Fach die Linearkombination u = x1 + 2x2− 7 zu benutzen.
Die Frage ist, ob sich diese Vorhersage auch mit Hilfe von y1 und y2 ausdrucken
lasst, und wie die umgerechnete Vorhersage dann aussieht.
Dies Problem ist einfach zu losen, indem man die x-Variablen mit Hilfe der y-
Variablen ausdruckt und die Ergebnisse in die Gleichung fur u einsetzt. Es ergibt
sich so x1 = y1 − y2 + 5 und x2 = (y1 + y2)/4 + 3, was eingesetzt
In dem Spezialfall, dass der Vektor a bereits Lange 1 hat, besteht die Koordina-
tenanderung auf dem eindimensionalen Unterraum nur darin, dass der Nullpunkt
nach −b verschoben wird.
Schließlich ist anzumerken, dass die Koordinaten selber Spezialfalle von Line-
arkombinationen sind. Hier ist namlich der Vektor a der Einheitsvektor ei, der
die 1 an der Stelle i hat, die der untersuchten Koordinate entspricht. In der Tat
werden ja auch rechtwinklige Koordinaten abgelesen, indem man das Lot auf die
Koordinatenachse fallt.
Eine haufig angewendete multivariate Technik besteht darin, multivariate Pro-
bleme auf univariate zu reduzieren, indem man Linearkombinationen bildet. Hier
hat sich gezeigt, dass dies geometrisch so zu deuten ist, dass man die multivariate
Situation orthogonal auf die zu den Linearkombinationen gehorenden eindimen-
sionalen linearen Unterraume projiziert.
Orthogonale Projektionen und Quadratsummen. In diesem Abschnitt soll
die Quadratsummenzerlegung der einfaktoriellen Varianzanalyse als Anwendung
der Techniken der orthogonalen Projektionen behandelt werden. Fur spatere
Zwecke ist es wesentlich, dass die Quadratsummen quadrierte Normen des auf
2.2 Geometrische Veranschaulichungen MS13 65
orthogonale Unterraume projizierten Datenvektors sind.
Die Anzahl der Bedingungen in der untersuchten varianzanalytischen Situation
sei J , und die Anzahl der Beobachtungen in Bedingung j sei nj mit∑nj = N .
Die Ergebnisse in der untersuchten Variable Y seien zu einem langen Vektor y der
Lange N zusammengefasst, der in den ersten n1 Komponenten die Beobachtungen
der ersten Bedingung hat, etc.. Gelegentlich wird statt von’Bedingung j‘ auch
von’Gruppe j‘ gesprochen.
Ist beispielsweise J = 3, und haben sich bei einer konkreten Durchfuhrung die
Werte
1 2 3
9 1 3
9 3 2
6 7
ergeben, so wurde man diese Ergebnisse zu
y = (9, 9, 6, 1, 3, 3, 2, 7)′
zusammenfassen. Der Anschaulichkeit halber sollen solche Vektoren jedoch auch
oft in der zuerst verwendeten Form angegeben werden. Mogliche Ergebnisse einer
Varianzanalyse werden jedenfalls jetzt als Vektoren im RN aufgefasst.
Es werden nun Vektoren 1j definiert, die genau an den Stellen 1 sind, die zur
j-ten Bedingung gehoren, und sonst 0. Mit 1 wird wie ublich der Vektor aus
lauter Einsen bezeichnet. Im Beispiel sind dann die Vektoren 11, 12, 13 und 1 die
folgenden:
11:
1 2 3
1 0 0
1 0 0
1 0
, 12:
1 2 3
0 1 0
0 1 0
0 0
, 13:
1 2 3
0 0 1
0 0 1
0 1
, 1:
1 2 3
1 1 1
1 1 1
1 1
.
Die quadrierten Normen dieser Vektoren sind nj bzw. N , im Beispiel also 3, 2, 3
und 8. Die von den Vektoren 1j jeweils erzeugten eindimensionalen Unterraume
sollen Vj heißen, der von 1 erzeugte eindimensionale Unterraum sein Vm. Die
Summe der Vj sei V . Die wechselseitige Orthogonalitat der 1j ubertragt sich auf
2.2 Geometrische Veranschaulichungen MS13 66
die von ihnen erzeugten Unterraume Vj, weshalb dann (V1, . . . , VJ) eine orthogo-
nale Zerlegung von V ist. Offenbar liegt 1 in V , da 1 =∑
1j gilt, und daher gilt
auch Vm ⊆ V .
Im Beispiel haben Vektoren aus V dann die Form
1 2 3
a b c
a b c
a c
mit beliebigen Zahlen a, b und c; die Vektoren aus V zeichnen sich also gerade
dadurch aus, dass sie in den einzelnen Bedingungen konstant sind.
Nun soll die orthogonale Projektion P auf V bestimmt werden. Da man mit
den Vj eine orthogonale Zerlegung von V hat, kann man dazu beispielsweise die
orthogonalen Projektionen Pj auf Vj bestimmen und addieren, denn P ist ja die
Summe dieser Projektionen.
Die Projektion Pj auf Vj ist als Projektion auf einen eindimensionalen Unterraum
leicht bestimmt. Fur einen Vektor y ergibt sich namlich
Pj y =<1j, y>
‖1j‖21j =
<1j, y>
nj1j .
Hier ist das Skalarprodukt von y mit 1j gerade die Summe der Werte in der j-ten
Bedingung, die Division durch nj liefert damit deren Mittelwert, der yj heißen
soll. Die Projektion auf Vj ersetzt also die Werte in der j-ten Bedingung durch
ihren Mittelwert und alle anderen Werte durch 0.
Die Projektion P erhalt man, indem man die Pj addiert, daher ist Py =∑
Pj y
der Vektor, bei dem alle Werte durch die Mittelwerte ihrer Bedingung (kurz:
durch ihre Gruppenmittelwerte) ersetzt sind. Fur die Beispielsituation folgen
nacheinander der Vektor y, seine Projektionen auf die Vj und die Projektion
auf V .
1 2 3
9 1 3
9 3 2
6 7
,
1 2 3
8 0 0
8 0 0
8 0
,
1 2 3
0 2 0
0 2 0
0 0
,
1 2 3
0 0 4
0 0 4
0 4
,
1 2 3
8 2 4
8 2 4
8 4
.
2.2 Geometrische Veranschaulichungen MS13 67
Es folgt nun noch eine alternative Moglichkeit, die Projektion auf V zu bestim-
men. Man fasst dazu die Basisvektoren der Vj, die ja insgesamt eine Basis von V
bilden, zu einer Matrix X zusammen.
Im Beispiel wurde X so aussehen:
1 0 0
1 0 0
1 0 0
0 1 0
0 1 0
0 0 1
0 0 1
0 0 1
.
An der Matrix X kann man nun direkt ablesen, wieviele Bedingungen vorliegen
und wie die Bedingungen besetzt sind. Die Matrix heißt auch Designmatrix.
Die Projektion P auf den von den Spalten von X erzeugten Unterraum V ist dann
X(X′X)−1X′, und die Matrix, die die Koordinaten des projizierten Vektors liefert,
ist (X′X)−1X′. Diese beiden Matrizen und ihre Wirkung auf einen Datenvektor
sollen nun genauer untersucht werden.
Die Matrix X′X ist offenbar die Diagonalmatrix, deren Diagonalelemente die
Gruppengroßen nj sind. Ihr Inverses hat in der Diagonale also gerade die Kehr-
werte der Gruppengroßen. Multipliziert man X′ mit dem Datenvektor y, so erhalt
man jeweils die Summen der Beobachtungen in den Bedingungen; das Produkt
(X′X)−1X′y liefert folglich die Gruppenmittelwerte. Im Beispiel gilt
(X′X)−1X′y =
1/3 0 0
0 1/2 0
0 0 1/3
1 1 1 0 0 0 0 0
0 0 0 1 1 0 0 0
0 0 0 0 0 1 1 1
9
9
6
1
3
3
2
7
=
1/3 0 0
0 1/2 0
0 0 1/3
24
4
12
=
8
2
4
.
2.2 Geometrische Veranschaulichungen MS13 68
Multipliziert man das Ergebnis, also den Vektor der Gruppenmittelwerte von
links noch mit X, so erhalt man einen Vektor der Lange N , in dem alle Beobach-
tungen durch die jeweiligen Gruppenmittelwerte ersetzt sind.
Im Beispiel ergibt sich
X(X′X)−1X′y =
1 0 0
1 0 0
1 0 0
0 1 0
0 1 0
0 0 1
0 0 1
0 0 1
8
2
4
=
8
8
8
2
2
4
4
4
.
Man erhalt also in der Tat das gleiche Ergebnis wie bei der ersten Moglichkeit.
Die zu P komplementare Projektion I − P ordnet damit einem Vektor y den
Vektor zu, in dem alle Werte durch die Abweichungen von ihren Gruppenmittel-
werten ersetzt sind. Anders ausgedruckt bewirkt I−P gruppenweises Zentrieren.
Die so erhaltenen Werte sind gerade die, mit denen man SSw (die Quadratsumme
innerhalb) bildet, und deshalb soll die Projektion I−P den Namen Pw erhalten
und ihr Bild V ⊥ den Namen Vw. Es gilt dann also Pw = I−P und
‖Pwy‖2 = SSw .
Im Beispiel erhalt man folgende Vektoren:
y:
1 2 3
9 1 3
9 3 2
6 7
, Py:
1 2 3
8 2 4
8 2 4
8 4
, Pwy:
1 2 3
1 -1 -1
1 1 -2
-2 3
.
Nach Konstruktion sind die Unterraume V und Vw komplementar, ebenso die
zugehorigen Projektionen P und Pw .
Fur Pw 1 erhalt man den Wert 0, denn 1 liegt ja in V , also im Kern von Pw . Die
Gleichung Pw 1 = 0 folgt alternativ auch daraus, dass die Abweichungen von den
Gruppenmittelwerten alle 0 sind, wenn alle Daten gleich (hier gleich 1) sind.
2.2 Geometrische Veranschaulichungen MS13 69
Die Projektion Pm auf den von 1 erzeugten Unterraum Vm liefert
Pmy =<1, y>
‖1‖21 =
<1, y>
N1 .
Das Skalarprodukt ist die Summe aller beobachteten Werte, Division durch N
liefert den Mittelwert aller Werte, der mit y bezeichnet werden soll. Die Projektion
selbst ergibt damit den Vektor, bei dem alle Werte durch y ersetzt sind. Dies
Ergebnis ist auch schon von fruher bekannt.
Die zu Pm komplementare Projektion I − Pm ersetzt in einem Vektor y alle
Werte durch ihre Abweichungen vom Gesamtmittelwert, weshalb diese Matrix
gerade die Zentriermatrix ist. Da man nun mit der Projektion I−Pm die Werte
erhalt, die zur Bildung der totalen Quadratsumme SSt fuhren, soll sie hier den
Namen Pt erhalten und ihr Bild V ⊥m entsprechend den Namen Vt. Hier gilt dann
also Pt = I−Pm und
‖Pty‖2 = SSt .
Im Beispiel ergibt sich
y:
1 2 3
9 1 3
9 3 2
6 7
, Pmy:
1 2 3
5 5 5
5 5 5
5 5
, Pty:
1 2 3
4 -4 -2
4 -2 -3
1 2
.
Die Unterraume Vm und Vt sind nach Konstruktion komplementar und ebenso die
zugehorigen Projektionen Pm und Pt , was beispielsweise I = Pm + Pt bedeutet.
Es ist vielleicht nutzlich, die schon bekannte Tatsache zu wiederholen, dass die
aus I = Pm + Pt folgende Beziehung
‖y‖2 = ‖Pmy‖2 + ‖Pty‖2
mit einer Umstellung und Division durch N die Formel liefert, nach der die Va-
rianz die Differenz des Mittelwerts der quadrierten Daten und des quadrierten
Mittelwerts ist.
Es gilt ferner Pt1 = 0, was man genauso wie bei Pw sieht oder auch daran, dass
Pt ja die Zentriermatrix ist.
Entscheidend fur die weiteren Uberlegungen ist, dass Vm ⊆ V gilt.
2.2 Geometrische Veranschaulichungen MS13 70
Hieraus folgt, dass (Vm, V⊥m ∩ V ) eine orthogonale Zerlegung von V ist und
(Vm, V⊥m ∩ V, V ⊥) eine orthogonale Zerlegung von RN . Diese Zerlegungen sollen
nun genauer untersucht werden.
Zunachst ist wegen V ⊥m = Vt auch V ⊥m ∩ V = Vt ∩ V . Die Projektion auf diesen
Unterraum ist P − Pm . Wendet man diese Projektion auf ein y an, so erhalt
man mit Py − Pmy einen Vektor, in dem alle Daten durch die Abweichungen
ihres Gruppenmittelwerts vom Gesamtmittelwert ersetzt sind. Dies sind genau die
Werte, die man zur Bildung von SSw (der Quadratsumme innerhalb) benotigt,
und daher soll V ⊥m ∩ V = Vt ∩ V auch kurz mit Vb bezeichnet werden und die
zugehorige Projektion mit Pb (es gilt also Pb = P −Pm ). Hier gilt nun
‖Pby‖2 = SSb .
Im Beispiel ergeben die zugehorigen Projektionen dann die folgenden Vektoren:
y:
1 2 3
9 1 3
9 3 2
6 7
, Pmy:
1 2 3
5 5 5
5 5 5
5 5
, Pby:
1 2 3
3 -3 -1
3 -3 -1
3 -1
, Pwy:
1 2 3
1 -1 -1
1 1 -2
-2 3
.
Die orthogonale Zerlegung (Vm, V⊥m ∩ V ) von V lasst sich nun auch als (Vm, Vb)
schreiben und die orthogonale Zerlegung (Vm, V⊥m ∩V, V ⊥) von RN als (Vm, Vb, Vw).
Berechnet man auch hier Pb1, so erhalt man wieder Pb1 = 0, beispielsweise, weil
1 in Vm liegt und Vm⊥Vb gilt. Alternativ sieht man dies auch daran, dass bei kon-
stanten Daten die Abweichungen der Gruppenmittelwerte vom Gesamtmittelwert
alle 0 sind.
Aus der Zerlegung (Vm, Vb, Vw) des RN erhalt man die besonders wichtige Teil-
zerlegung (Vb, Vw) von V ⊥m = Vt. In der Sprache der Projektionen schreibt sich
diese Zerlegung als
Pt = Pb + Pw .
Damit kann man einen Datenvektor y folgendermaßen zerlegen (Multiplikation
mit y von rechts):
Pty = Pby + Pwy ,
was inhaltlich heißt, dass sich die Abweichung vom Gesamtmittelwert zusam-
mensetzt aus der Abweichung des Gruppenmittelwerts vom Gesamtmittelwert
und der Abweichung vom Gruppenmittelwert.
2.2 Geometrische Veranschaulichungen MS13 71
Außerdem folgt die Zerlegung
‖Pty‖2 = ‖Pby‖2 + ‖Pwy‖2 ,
anders ausgedruckt die angestrebte Gleichung
SSt = SSb + SSw .
Man erhalt dies auch ganz einfach dadurch, dass man die Gleichung Pt = Pb +Pwvon links mit y′ und von rechts mit y multipliziert.
Damit ist das gesteckte Ziel erreicht. Dies bestand weniger darin, die ja bekannte
Quadratsummenzerlegung der Varianzanalyse noch einmal herzuleiten, als viel-
mehr darin, zu zeigen, dass diese Quadratsummenzerlegung sich aus einer Zerle-
gung des Datenvektors mit Hilfe von orthogonalen Projektionen auf wechselseitig
orthogonale Unterraume als einfache Anwendung des Satzes von Pythagoras er-
gibt. Mit dieser Tatsache folgert man namlich spater leicht, dass der F -Bruch
tatsachlich eine F -Verteilung besitzt.
Interessant sind auch noch die Dimensionen der Unterraume Vm, Vb und Vw,
die nun bestimmt werden sollen. Offenbar hat Vm die Dimension 1 und V die
Dimension J . Hieraus folgt, dass die Dimension des Komplements Vw von V
gleich N − J ist. Da Vm und Vb eine orthogonale Zerlegung von V bilden, ist die
Summe ihrer Dimensionen gleich J , weshalb die Dimension von Vb gleich J − 1
sein muss. Die Dimensionen J − 1 von Vb und N − J von Vw sind damit gerade
die Freiheitsgrade des F -Bruchs.
Die umfassendere orthogonale Zerlegung (Vm, Vb, Vw) des RN druckt sich mit Pro-
jektionen geschrieben als
I = Pm + Pb + Pw
aus und fuhrt zur Zerlegung
y = Pmy + Pby + Pwy
der Daten in Gesamtmittelwert, Abweichung des Gruppenmittelwerts vom Ge-
samtmittelwert und Abweichung vom Gruppenmittelwert. Außerdem liefert sie
eine weitere Quadratsummenzerlegung, die man gelegentlich antrifft, namlich
‖y‖2 = ‖Pmy‖2 + ‖Pby‖2 + ‖Pwy‖2 .
Diese Zerlegung besagt, dass die Summe der quadrierten y-Werte gleich der Sum-
me des N -fachen quadrierten Mittelwerts und von SSb und SSw ist.
2.2 Geometrische Veranschaulichungen MS13 72
Aus der Tatsache, dass (Pm ,Pb ,Pw ) eine orthogonale Zerlegung von I ist, folgt
auch, dass die Produkte von je zwei dieser Projektionen gleich 0 ist. Da außerdem
P = Pm + Pb und Pt = Pb + Pw gilt, ergeben sich unmittelbar einige Tatsachen
uber die Produkte von diesen Projektionen.
Beispielsweise gilt
PtP = (Pb + Pw )(Pm + Pb ) = Pb ,
und da das Produkt symmetrisch ist, gilt auch PPt = Pb , also insbesondere
PPt = PtP.
Inhaltlich lasst sich die Gleichung PPt = Pb folgendermaßen deuten: Wenn man
die gegebenen Daten zunachst zentriert (also Pt anwendet) und fur die zentrierten
Daten dann die Gruppenmittelwerte berechnet (mit P), so erhalt man dasselbe
Ergebnis, wie wenn man die Abweichungen der Gruppenmittelwerte der Original-
daten vom Gesamtmittelwert bildet (mit Pb ). Entsprechend bedeutet PtP = Pb ,
dass das (gewichtete) Zentrieren der Gruppenmittelwerte dasselbe Ergebnis hat
wie die Bildung der Abweichung der Gruppenmittelwerte vom Gesamtmittelwert.
Analog, oder auch direkt wegen Vm ⊆ V bzw. Vw ⊆ Vt, folgen die Beziehungen
PPm = PmP = Pm bzw. PtPw = PwPt = Pw .
Auch diese Gleichungen kann man inhaltlich deuten. So bedeutet PPm = Pm ,
dass man, wenn man zuerst alle Daten durch ihren Mittelwert ersetzt und dann
die neuen Werte in den Gruppen wieder durch ihren jeweiligen Mittelwert, zum
gleichen Ergebnis kommt, wie wenn man nur die erste Operation durchfuhrt. Dies
ist offensichtlich; interessanter ist die zweite Aussage PmP = Pm , die entspre-
chend bedeutet, dass man, wenn man die Daten durch ihre Gruppenmittelwerte
ersetzt und dann durch den Mittelwert dieser neuen Werte (der offenbar das mit
den Gruppengroßen gewichtete Mittel der Einzelmittelwerte ist), dasselbe erhalt,
wie wenn man die Daten gleich durch ihren Gesamtmittelwert ersetzt. Man hat
hier also die bekannte Tatsache, dass der Gesamtmittelwert das gewichtete Mittel
der Gruppenmittelwerte ist.
Interessant ist zum Abschluss noch die Projektionen des Vektors, der entsteht,
wenn man jeden Wert durch seinen Erwartungswert ersetzt. Dieser Vektor soll µ
genannt werden. Im Beispiel schreibt sich dieser Vektor als
2.3 Kovarianzmatrizen und Verteilungen MS13 73
µ:
1 2 3
µ1 µ2 µ3
µ1 µ2 µ3
µ1 µ3
.
Die Projektion dieses Vektors auf Vm ersetzt alle Werte durch ihren Mittelwert,
der hier 1/N∑njµj =
∑(nj/N)µj ist, also gleich dem grand mean, der wie
ublich µ heißen soll. Da der Vektor µ bereits in V liegt, wird er durch P nicht
mehr geandert. Daher ist Pbµ = Pµ−Pmµ = µ−Pmµ der Vektor, der aus den
Differenzen der einzelnen Erwartungswerte µj zu µ besteht, also gerade aus den
Effektgroßen αj. Hier folgen noch einmal µ mit seinen beiden Projektionen:
µ:
1 2 3
µ1 µ2 µ3
µ1 µ2 µ3
µ1 µ3
, Pmµ:
1 2 3
µ µ µ
µ µ µ
µ µ
, Pbµ:
1 2 3
α1 α2 α3
α1 α2 α3
α1 α3
.
Der Vektor Pwµ ist ubrigens offensichtlich gleich 0. Wichtig ist nun die quadrierte
Norm von Pbµ; sie ist offenbar gleich
‖Pbµ‖2 =∑
njα2j = σ2δ2
und damit gerade das σ2-fache des Nonzentralitatsparameters δ2 des F -Bruchs.
2.3 Kovarianzmatrizen und Verteilungen
Das Thema dieses Kapitels ist die Bedeutung, die die Kovarianzmatrix fur ei-
ne Verteilung besitzt. Mit Hilfe der Kovarianzmatrix kann man sich erste Vor-
stellungen uber die Lage der Daten oder der moglichen Variablenwerte machen;
dies wird im ersten Teil genauer ausgefuhrt. Danach geht es um multivariate
z-Transformationen und ein darauf aufgebautes statistisches Distanzmaß.
Meist sollen dabei empirische Verteilungen aufgrund von Daten betrachtet werden
– es sollte aber klar werden, dass entsprechende Aussagen analog fur theoretische
Verteilungen gelten. Man hat nur die Operation der Mittelwertbildung jeweils
durch die der Bildung des Erwartungswerts zu ersetzen.
Bei Kovarianzmatrizen ist zu unterscheiden zwischen solchen, deren Rang gleich
der Anzahl der Variablen ist, und solchen, bei denen dieser Rang kleiner ist als
die Anzahl der Variablen. Zuerst wird der zweite Fall behandelt.
2.3 Kovarianzmatrizen und Verteilungen MS13 74
Kovarianzmatrizen mit Rangdefekt. Es soll untersucht werden, was man
uber die Daten sagen kann, wenn die Kovarianzmatrix einen Rangdefekt hat,
wenn der Rang also kleiner ist als die Anzahl p der Variablen.
Ausgangspunkt sind Daten fur p Variablen, die wie ublich zu einem Variablen-
vektor x zusammengefasst sind. Der Mittelwertvektor x der Daten und die Ko-
varianzmatrix S sollen schon vorliegen. Der Rang von S sei dabei r < p.
Dann ist der Kern von S ein Unterraum der Dimension p− r. Fur diesen Unter-
raum seien die Vektoren einer Basis zu einer Matrix A mit p Zeilen und p − rSpalten zusammengestellt. Dass alle Spaltenvektoren von A im Kern von S liegen,
kann man kurz durch SA = 0 ausdrucken.
Wendet man nun auf die Variable x die lineare Abbildung A′ an, so gewinnt man
einen neuen (p− r)-dimensionalen Variablenvektor y := A′x. Die Kovarianzma-
trix von y ist dann A′SA = 0; alle Datenpunkte yi = A′xi der Versuchspersonen
fallen also mit dem Zentroid y = A′x der Variable y zusammen.
Fur alle xi gilt folglich: A′xi = y, alle xi sind also Losungen des inhomogenen
Gleichungssystems A′x = y. Es folgt, dass alle xi in einem affinen Unterraum
liegen, und zwar in dem, der zum Kern von A′ parallel ist und durch eine spezielle
Losung des Gleichungssystems geht. Eine spezielle Losung ist offensichtlich x (da
ja A′x = y gilt). Es bleibt der Kern von A′ zu bestimmen.
Nun sieht man durch Transponieren von SA = 0, dass auch A′S = 0 gilt. Alle
Spalten von S liegen also im Kern von A′, damit gilt auch Bild(S) ⊆ Kern(A′).
Die Dimension von Kern(A′) ist aber p−Rang(A′) = p− (p− r) = r und stimmt
mit der Dimension r von Bild(S) uberein. Daher gilt sogar Bild(S) = Kern(A′),
so dass man zusammenfassend formulieren kann:
Feststellung 1. Hat die Kovarianzmatrix S den Rang r < p, so liegen alle Da-
tenpunkte xi in dem affinen Unterraum der Dimension r, der parallel zu Bild(S)
ist und den Punkt x enthalt. �
Hat man beipielsweise fur drei Variablen das Zentroid (1, 2, 3)′ und die Kovari-
anzmatrix 2 3 1
3 5 2
1 2 1
erhalten, so erkennt man leicht, dass die Matrix nur den Rang 2 besitzt. Es folgt,
dass alle Datenpunkte in der Ebene im dreidimensionalen Variablenraum liegen,
2.3 Kovarianzmatrizen und Verteilungen MS13 75
die parallel ist zu dem durch die Vektoren (2, 3, 1)′ und (3, 5, 2)′ aufgespannten
Unterraum, und die durch den Punkt (1, 2, 3)′ geht.
Ein noch einfacheres Beispiel ist das von zwei Variablen, die beide nicht Varianz 0
besitzen mogen. Man macht sich leicht klar, dass die Kovarianzmatrix hier genau
dann den Rang 1 besitzt, wenn die Korrelation der beiden Variablen gleich 1 oder
−1 ist. Bekanntlich bedeutet dies aber, dass alle Datenpunkte auf einer Geraden
liegen.
Es gilt ubrigens auch die Umkehrung des oben geschilderten Sachverhaltes:
Feststellung 2. Liegen alle Datenpunkte xi einer Variable x in einem r-dimen-
sionalen affinen Unterraum des Rp, so hat die Kovarianzmatrix S von x hochstens
den Rang r.
Der affine Unterraum sei namlich V + v mit dim(V ) = r. Bildet man die neue
Variable y = x−v, so liegen alle yi = xi−v in V . Da y aus x durch eine einfache
Verschiebung hervorgeht, ist die Kovarianzmatrix von y ebenfalls gleich S. Ist P
die orthogonale Projektion auf V , so gilt fur alle yi die Beziehung Pyi = yi,
weshalb die Kovarianzmatrix PSP′ der Variable Py gleich der Kovarianzmatrix
S von y ist. Da P den Rang r besitzt, kann schließlich auch S hochstens diesen
Rang haben. �
Wenn alle Datenpunkte in einem r-dimensionalen affinen Unterraum liegen, so
sollten r geeignete Angaben genugen, um einen Datenpunkt zu charakterisieren.
Zur Vorbereitung entsprechender Aussagen dient die nachste Feststellung:
Feststellung 3. Es sei S die Kovarianzmatrix von x. Wahlt man einen Teil der
Spalten von S aus, so sind diese Spalten genau dann linear unabhangig, wenn die
Kovarianzmatrix der zugehorigen Variablen regular ist.
Zur Begrundung sei zunachst daran erinnert, dass wegen der positiven Semide-
finitheit von S fur beliebige Vektoren a die Beziehung Sa = 0 genau dann gilt,
wenn a′Sa = 0 ist.
Es sollen nun Vektoren a betrachtet werden, die außerhalb der ausgewahlten
Spalten 0 sind, was vereinbarungsgemaß bedeuten soll, dass alle Komponenten
eines solchen Vektors, deren Index nicht mit dem Index einer der ausgewahlten
Spalten ubereinstimmt, gleich 0 sind. Die Linearkombination a′x aller gegebe-
nen Variablen x ist dann auch schon eine Linearkombination der ausgewahlten
2.3 Kovarianzmatrizen und Verteilungen MS13 76
Variablen (also der Variablen, die den ausgewahlten Spalten entsprechen). Ande-
rerseits lasst sich jede beliebige Linearkombination der ausgewahlten Variablen
kunstlich in dieser Form einer Linearkombination aller Variablen schreiben, in-
dem man einfach fur alle nicht ausgewahlten Variablen als Koeffizienten 0 nimmt.
Die Varianz von a′x ist a′Sa.
Die Kovarianzmatrix der ausgewahlten Variablen ist genau dann regular, wenn
sie positiv definit ist, was gleichbedeutend damit ist, dass die Varianzen nicht-
trivialer Linearkombinationen dieser Variablen alle 6= 0 sind (eine nichttriviale
Linearkombination ist naturlich eine, bei der nicht alle Koeffizienten gleich 0
sind). Dies ist nun gleichbedeutend damit, dass fur alle Vektoren a 6= 0 der oben
betrachteten Art a′Sa 6= 0 gilt.
Andererseits sind die ausgewahlten Spalten genau dann linear unabhangig, wenn
fur alle a 6= 0 der oben betrachteten Art auch Sa 6= 0 ist.
Da wegen der einleitenden Bemerkung allgemein a′Sa = 0 genau dann gilt, wenn
Sa = 0 gilt, folgt nun schließlich die Behauptung. �
Bei der oben als Beispiel betrachteten (3×3)-Kovarianzmatrix sind beispielsweise
alle Teilsysteme von je zwei Spalten linear unabhangig, weshalb auch alle Kova-
rianzmatrizen von je zwei der drei Variablen regular sind (wovon man sich auch
leicht direkt uberzeugt).
Feststellung 4. Hat die Kovarianzmatrix S von x den Rang r < p, so kann man
r Variablen aus den xi auswahlen, deren Kovarianzmatrix auch schon den Rang
r besitzt. Die restlichen p−r Variablen lassen sich dann als Linearkombinationen
der ausgewahlten r Variablen ausdrucken (jedenfalls was die erhobenen Daten
betrifft).
Zur Begrundung wahlt man r Variablen aus, die r linear unabhangigen Spal-
ten von S entsprechen. Außerdem wahlt man eine kovarianztreue Darstellung
aller Variablen. Die reprasentierenden Vektoren haben dann wegen Feststellung
9 aus Kapitel 2.2 ebenfalls den Rang r. Diesen Rang besitzen jedoch bereits die
Reprasentanten der ausgewahlten Variablen, da deren Kovarianzmatrix wegen
Feststellung 3 regular ist. Daraus folgt, dass die Reprasentanten der ubrigen Va-
riablen sich als Linearkombinationen der ausgewahlten Reprasentanten schreiben
lassen, was auf die ubrigen Variablen ubertragen bedeutet, dass sie sich von den
entsprechenden Linearkombinationen der ausgewahlten Variablen nur um Kon-
stanten unterscheiden, also Linearkombinationen der ausgewahlten Variablen im
2.3 Kovarianzmatrizen und Verteilungen MS13 77
statistischen Sinn sind (was die erhobenen Daten angeht). �
Will man die restlichen Variablen als Linearkombinationen der ausgewahlten aus-
drucken, so kann man sich beispielsweise der Technik der multiplen Regression
bedienen. Ist namlich eine Variable y =∑bixi + a Linearkombination gegebener
xi, deren Kovarianzmatrix regular ist, so muss y =∑bixi + a auch bereits die
(eindeutige) Vorhersage bei einer multiplen Regression von y auf die xi sein, denn
diese Vorhersagegleichung ist ja fehlerfrei und damit optimal.
In einer Situation mit p Variablen, deren Kovarianzmatrix den Rang r besitzt,
kann man also insgesamt r Variablen auswahlen, deren Kovarianzmatrix ebenfalls
den Rang r besitzt (man wahlt dazu r Variablen aus, fur die die zugehorigen Spal-
ten in S linear unabhangig sind). Die restlichen p− r Variablen kann man dann
als Linearkombinationen der r ausgewahlten xi ausdrucken (beispielsweise mit
Hilfe der Regression). Sie enthalten in diesem Sinne keine zusatzliche Informati-
on uber das hinaus, was bereits in den r ausgewahlten Variablen an Information
steckt, und sind gewissermaßen uberflussig. Man hat sozusagen’eigentlich‘ eine
Situation mit nur r Variablen (jedenfalls hinsichtlich der erhobenen Daten).
In dem oben betrachteten Beispiel einer (3×3)-Kovarianzmatrix vom Rang 2 kann
man beispielsweise die dritte Variable (mit Hilfe einer Regression) schreiben als
x3 = −x1 +x2 + 2. Ebenso kann man aber auch die erste Variable oder die zweite
Variable als Linearkombination der jeweils beiden anderen ausdrucken.
Haben als weiteres Beispiel zwei Variablen die Korrelation 1, so liegen alle Daten-
punkte auf einer Geraden und die eine Variable ist eine lineare Transformation
der anderen (dieses Beispiel sollte auch die Notwendigkeit des Zusatzes’was die
erhobenen Daten betrifft‘ noch einmal deutlich machen).
Zum Abschluss sei noch angemerkt, dass alle in diesem Unterabschnitt bespro-
chenen Sachverhalte analog fur Zufallsvariablen gelten; man hat dabei nur kleine
Umformulierungen vorzunehmen. In Feststellung 1 muss es dann beispielsweise
heißen, dass die Zufallsvariable x (fast sicher) nur Werte in dem angegebenen
affinen Unterraum annimmt, in Feststellung 4 sind die restlichen Variablen (fast
sicher) Linearkombinationen der r ausgewahlten.
Die Verhaltnisse fur singulare Kovarianzmatrizen sind damit ausfuhrlich behan-
delt. Im Folgenden soll von den Kovarianzmatrizen meistens vorausgesetzt wer-
den, dass sie invertierbar sind.
Regulare Kovarianzmatrizen und Tschebyscheffsche Ungleichung. Fur
2.3 Kovarianzmatrizen und Verteilungen MS13 78
den ersten noch zu untersuchenden Fall, dass die Kovarianzmatrix S von x re-
gular ist, soll nun eine Verallgemeinerung der Tschebyscheffschen Ungleichung
hergeleitet werden, mit deren Hilfe man genauere Vorstellungen uber die Lage
der Datenpunkte gewinnen kann.
Es soll hierzu die eindimensionale Variable y := (x − x)′S−1(x − x) untersucht
werden, von der als erstes der Mittelwert berechnet werden soll. Die Mittelwert-
bildung soll mit M abgekurzt werden, M(y) bezeichnet also den Mittelwert der
Variable y.
Es gilt dann
M(y) = M (Spur((y)))
= M(Spur
((x− x)′S−1(x− x)
))= M
(Spur
(S−1(x− x)(x− x)′
))= Spur
(S−1M ((x− x)(x− x)′)
)= Spur(S−1S) = Spur(Ip) = p .
Hierbei sind die bekannten Eigenschaften der Spur zu berucksichtigen, sowie die
Tatsache, dass sich der Mittelwert ja als (1/n)-fache Summe berechnet und folg-
lich die Mittelwertbildung mit der Spurbildung und der Matrizenmultiplikation
vertauschbar ist.
Steht h fur die relative Haufigkeit, so folgt aus der Markoffschen Ungleichung fur
jedes k > 0 die Beziehung h(y ≥ k2) ≤ p/k2, und daraus die verallgemeinerte
Tschebyscheffsche Ungleichung:
Feststellung 5. Ist die Kovarianzmatrix S der p-dimensionalen Variable x re-
gular, so gilt fur jedes k > 0 die Beziehung
h((x− x)′S−1(x− x) ≥ k2
)≤ p
k2. �
Dies ist tatsachlich eine multivariate Verallgemeinerung der univariaten Tscheby-
scheffschen Ungleichung, denn fur p = 1 ist der Ausdruck links vom ≥-Zeichen
gleich (x − x)2/S2, wenn man hier fur die Varianz (das einzige Element in der
(1×1)-Kovarianzmatrix) wie ublich S2 schreibt, weshalb sich hier die Ungleichung
umformen lasst zu
h (|x− x| ≥ kS) ≤ 1
k2,
was gerade eine mogliche Version der Tschebyscheffschen Ungleichung ist.
2.3 Kovarianzmatrizen und Verteilungen MS13 79
Die Bedingung (x − x)′S−1(x − x) ≥ k2 deutet man geometrisch so, dass x
außerhalb des Ellipsoids E(S, x, k) liegt. Dieses Ellipsoid ist gerade das um den
Faktor k vergroßerte Ellipsoid E(S, x, 1).
Es ist praktisch, fur das Ellipsoid E(S, x, 1) die Bezeichnung Verteilungsellipsoid
von x einzufuhren.
Abkurzend soll auch ein um den Faktor k vergroßertes Ellipsoid (bei gleichblei-
bendem Mittelpunkt) als k-faches Ellipsoid bezeichnet werden.
Man kann dann die Tschebyscheffsche Ungleichung auch so ausdrucken:
Feststellung 6. Die relative Haufigkeit von Datenpunkten, die außerhalb des
k-fachen Verteilungsellipsoids E(S, x, 1) liegen, ist hochstens p/k2.
Betrachtet man nicht Punkte außerhalb, sondern innerhalb der Ellipsoide, so
erhalt man aquivalent:
Die relative Haufigkeit von Datenpunkten, die im k-fachen Verteilungsellipsoid
E(S, x, 1) liegen, ist mindestens 1− p/k2.
Als Beispiel soll eine Situation wieder aufgegriffen werden, die bereits im Zusam-
menhang der Deutung der Spur als Gesamtvarianz untersucht wurde.
In dem Beispiel waren an 5 Versuchspersonen jeweils zwei Variablen x1 und x2erhoben worden. Fur Mittelwertvektor und Kovarianzmatrix hatten sich
x =
(3
2
)und S =
(2 .8
.8 .8
)ergeben.
Als Eigenwerte der Kovarianzmatrix errechnet man die Zahlen 2.4 und .4 mit
zugehorigen Eigenvektoren (2, 1)′ und (−.5, 1)′. Die Ellipse E(S, x, 1) hat also
ihre Achsen in Richtung dieser Eigenvektoren und besitzt als Halbmesser die
Wurzeln der zugehorigen Eigenwerte, also 1.55 und .63. In der folgenden Graphik
ist diese Ellipse und ihre Verdopplung eingezeichnet:
........................................................................................................................................................... y
Eine naheliegende Moglichkeit, die Profile mit dem Idealprofil zu vergleichen,
ware nun die folgende: Man stellt das Idealprofil und die Bewerberprofile als
Punkte im vierdimensionalen Raum dar und misst dort den Abstand der beiden
zu den Bewerbern gehorenden Punkten zu dem Idealpunkt. Dann wahlt man den
Bewerber mit dem niedrigeren Abstand aus.
Anders ausgedruckt erhalt man den Abstand, indem man man auf jeder Skala
die Differenz zwischen Bewerberwert und Idealwert bildet, die quadrierten Diffe-
renzen addiert und aus dem Ergebnis die Wurzel zieht.
Diese Moglichkeit ist jedoch aus mehreren Grunden unbefriedigend. Zunachst
hangen die Abstande ganz entscheidend von der Skalierung der Variablen ab.
Wurde man eine der Variablen umskalieren, indem man zum Beispiel die Werte
dort verzehnfacht, so wurde sich die Bedeutung dieser Variablen fur den Abstand
deutlich erhohen. Wenn keine mogliche Skala vor anderen ausgezeichnet ist, ist
das Abstandsmaß also stark davon abhangig, welche der moglichen Skalierungen
nun gerade vorliegt.
Eine Moglichkeit, diesem Problem auszuweichen, ware die, die Skalen vergleich-
bar zu machen, und hier bietet sich die z-Transformation pro Variable an (die
z-Transformation bewirkt ja, dass die Streuung 1 wird, und daher wurden z-
Transformationen aller Variablen dafur sorgen, dass die statistischen Schwankun-
gen auf allen Skalen gleich sind). Solche Transformationen andern jedoch nichts
an den Korrelationen, und das Vorhandensein von Korrelationen ist ein weiteres
Problem bei der geschilderten Vorgehensweise.
Um dies zu verdeutlichen, sei angenommen, dass es nun nur zwei Variablen x1und x2 gibt. Das Idealprofil besitze die Werte 3 und 2. Zwei Bewerber A und B
haben die Profile 2.5, 2.8 und 1.9, 1.5.
Dies fuhrt zu folgenden Darstellungen: links als Profilvergleich, rechts im zweidi-
wegen der Eigenschaften der orthogonalen Projektionen und der Spur.
Die Spur von PXX ′ ist bekanntlich maximal gleich der Summe der q großten
Eigenwerte von XX ′, wobei dieses Maximum dann erreicht wird, wenn das Bild
von P von zugehorigen orthogonalen Eigenvektoren aufgespannt wird. Wie oben
sind die großten Eigenwerte von XX ′ wieder dieselben wie die von X ′X = S,
und zugehorige Eigenvektoren erhalt man, indem man auf Eigenvektoren von S
die Matrix X anwendet, was wieder zu Reprasentanten der Hauptkomponenten
fuhrt.
Die Summe der quadrierten Abweichungen ist schließlich wieder die Summe der
restlichen Eigenwerte von XX ′, also gleichzeitig die der restlichen Eigenwerte von
S, da ja die Eigenwerte dieser Matrizen bis auf unwesentlichen Nullen dieselben
sind.
Zusammenfassend erhalt man:
Feststellung 13. Gegeben seien Variablen x1, . . . , xp mit einer Kovarianzmatrix
S vom Rang r ≤ p; außerdem sei q ≤ r. Eine Losung der Aufgabe, in einer kova-
rianztreuen Darstellung der Originalvariablen xi einen q-dimensionalen linearen
Unterraum zu finden, fur den die Summe der quadrierten Abstande zu den Va-
riablen minimal ist, ist der von den ersten q Hauptkomponenten aufgespannte
Raum.
Die (minimale) Summe der quadrierten Abstande ist die Summe der letzten p−qEigenwerte von S. �
Bemerkenswert, wenn auch nicht uberraschend ist hier wieder, dass der optimale
Unterraum durch Linearkombination der xi aufgespannt wird, und damit ganz
im Erzeugnis der xi gelegen ist.
Man kann naturlich die ersten q Hauptkomponenten auch durch beliebige Line-
arkombinationen ersetzen, solange der aufgespannte Raum derselbe bleibt.
Standardisierte Hauptkomponenten. Oft arbeitet man statt mit den Haupt-
komponenten eher mit den standardisierten Hauptkomponenten weiter, denen
2.4 Hauptkomponenten MS13 123
dieser Abschnitt gewidmet ist.
Ein Grund fur die Bevorzugung der standardisierten Komponenten mag darin
liegen, dass eine Standardisierung allgemein als angenehm empfunden wird, was
sie ja in manchen Zusammenhangen auch ist. Ein anderer Grund liegt womoglich
darin, dass man auf diese Weise die Darstellung den Darstellungen der Ergebnisse
der Faktorenanalyse anahnelt, was vielleicht an der beklagenswerten Konfusion
liegt, die im Hinblick auf Faktorenanalyse und Hauptkomponentenanalyse leider
weit verbreitet ist.
Da standardisierte Hauptkomponenten aus den eigentlichen Hauptkomponenten
durch eine affine (sogar lineare) Transformation hervorgehen, konnen sie diese in
vielen Zusammenhangen vertreten. Beispielsweise konnen bei der Datenreduktion
die ersten q standardisierten Hauptkomponenten die Originalhauptkomponenten
ersetzen, ohne dass sich etwas an der Gute der Rekonstruktion der Originaldaten
andert, da der Fehler ja gleich bleibt.
Ausgerechnet der Aspekt jedoch, der bei der Konstruktion der Hauptkomponen-
ten immer im Mittelpunkt stand, und der dieser Konstruktion eigentlich erst Sinn
verleiht, der Aspekt der Erhaltung von Distanzen namlich, ausgerechnet dieser
Aspekt also wird bei der Standardisierung pikanterweise eliminiert.
Die Bezeichnung der standardisierten j-ten Hauptkomponente sei zj. Ist dann z
der Vektor der standardisierten Hauptkomponenten, so gilt
z = D−1/2y = D−1/2G′(x− x) ,
worin man auch eine der moglichen multivariaten z-Transformationen wiederer-
kennt.
Bei den weiteren Uberlegungen sei vorausgesetzt, dass man sich dafur entschie-
den hat, nur die ersten q standardisierten Hauptkompontenten fur weitere Un-
tersuchungen zu verwenden, beispielsweise, weil der Fehler bei dieser Reduktion
vertretbar klein erscheint.
Wird mit z1 der Vektor der ersten q der zj bezeichnet, so gilt
z1 = D1−1/2y1 ,
so dass die optimale Rekonstruktion der Originaldaten mit Hilfe dieser standar-
disierten Hauptkomponenten die Form
x = G1y1 + x = G1D11/2D1
−1/2y1 + x = G1D11/2z1 + x
2.4 Hauptkomponenten MS13 124
annimmt (hier wird die gegebene Vorhersage mit Hilfe der standardisierten Haupt-
komponenten ausgedruckt, was bekanntlich gleichzeitig die neue Regression der
Originaldaten auf die standardisierten Hauptkomponenten liefert). Die Spalten
der Matrix G1D11/2, die auch mit L1 abgekurzt werden soll, sind die mit den
Wurzeln der Eigenwerte multiplizierten Eigenvektoren, also die normalisierten
Eigenvektoren – ihre Lange ist gleich der Streuung der entsprechenden Haupkom-
ponente.
Es sollen nun kurz die Eigenschaften der Matrix L1 hervorgehoben werden.
Ihre Zeilen geben die Koeffizienten an, mit denen die Originalvariablen mit Hilfe
der zj optimal vorhergesagt werden. Da die zj ebenso wie die ihnen zugrunde
liegenden yj unkorreliert sind und zusatzlich Varianz 1 besitzen, ist die Varianz
der Vorhersage von xi gleich der Summe der quadrierten Koeffizienten in der
Zeile i. Durch Relativierung an der Varianz von xi erhalt man damit sogleich den
Anteil der aufgeklarten Varianz und kann beurteilen, ob man mit der Vorhersage
zufrieden ist.
Das Skalarprodukt von zwei Zeilen i und j von L1 ist gleich der Kovarianz der
Vorhersagen xi und xj.
Die Spalten der Matrix L1 stehen senkrecht aufeinander und die Summe der qua-
drierten Koeffizienten der Spalte j ist gleich dem j-ten Eigenwert; diese Summe
gibt daher an, wieviel Varianz zj insgesamt an allen Variablen aufklart (da die zjunkorreliert sind, sind die aufgeklarten Varianzen additiv). Da die Summe aller
Eigenwerte gleich der Spur von S ist, kann man die Bedeutung von zj fur die
Vorhersage insgesamt an dem Verhaltnis des j-ten Eigenwerts zur Spur von S
beurteilen.
Praktisch ist die Standardisierung beispielsweise, wenn man sich die Verhaltnisse
in einer kovarianztreuen Darstellung veranschaulichen will. Man kann dann nam-
lich die zj als orthogonale Vektoren der Lange 1 darstellen und in dem dadurch
entstehenden (Standard-)Koordinatensystem die Vorhersagen xi als Punkte (oder
Vektoren) eintragen, deren Koordinaten durch die Zeilen der Matrix L1 gegeben
sind.
Ein Beispiel soll dies verdeutlichen: Gegeben sind vier Variablen x1, . . . , x4 mit
der Kovarianzmatrix
2.4 Hauptkomponenten MS13 125
S =
2.7 1.4 0.28 1.54
1.4 12.3 3.46 0.28
0.28 3.46 12.3 1.4
1.54 0.28 1.4 2.7
.
Man rechnet leicht nach, dass die Spalten der Matrix0.1 0.1 0.7 0.7
0.7 0.7 −0.1 −0.1
0.7 −0.7 −0.1 0.1
0.1 −0.1 0.7 −0.7
orthogonale Eigenvektoren der Lange 1 von S sind mit zugehorigen Eigenwerten
16, 9, 4, 1. Diese Matrix kann daher als Matrix G der Eigenvektoren verwendet
werden. Die Spalten geben dann die Koeffizienten zur Bildung der Hauptkompo-
nenten. Hier fallt ubrigens auf, dass in die Bildung der ersten Hauptkomponenten
vor allem die zweite und dritte Variable eingehen; dies passt gut dazu, dass die-
se Variablen die großte Varianz besitzen, denn die Hauptkomponenten sollen ja
auch sukzessiv maximale Varianz erfassen.
Nun sollen die Variablen xi mit Hilfe von 2 Variablen optimal approximiert wer-
den. Die Entscheidung fur zwei Variablen konnte dabei dadurch begrundet sein,
dass damit ein genugend hoher Anteil der Gesamtvarianz erfasst und aufgeklart
wird, namlich die Summe der ersten beiden Eigenwerte 16 + 9 = 25, die zu rela-
tivieren ist an der Gesamtvarianz, die man als Spur von S oder als Summe aller
Eigenwerte zu 30 berechnet. Der aufgeklarte Varianzanteil in diesem Sinne ist
also 25/30 = 5/6 = .833.
Wahlt man zur Vorhersage nun die standardisierten Hauptkomponenten, so sind
die Koeffizienten die Zeilen der Matrix
L1 = G1D11/2 =
0.1 0.1
0.7 0.7
0.7 −0.7
0.1 −0.1
(
4 0
0 3
)=
0.4 0.3
2.8 2.1
2.8 −2.1
0.4 −0.3
.
Zunachst sollen die oben angegebenen Eigenschaften von L1 durch das konkrete
Beispiel illustriert werden.
Die beiden Spaltenvektoren stehen senkrecht aufeinander und sind Eigenvektoren
von S. Die Summe der quadrierten Koeffizienten ergibt spaltenweise die beiden
großten Eigenwerte 16 und 9.
2.4 Hauptkomponenten MS13 126
Zeilenweise ergibt die Summe der quadrierten Koeffizienten die durch die Regres-
sion aufgeklarte Varianz der xi (absolut, nicht als Anteil), hier .25, 12.25, 12.25, .25.
Hier fallt ubrigens wieder auf, dass die zweite und dritte Variable deutlich bevor-
zugt werden, was die aufgeklarten Varianzanteile angeht.
Die Summe der aufgeklarten Varianzen ist gleich der Summe der ersten beiden
Eigenwerte, also 25. Dies kann man auch interpretieren als die Varianz, die im
Sinne der Spur insgesamt aufgeklart wird.
Das Skalarprodukt von jeweils zwei Zeilen ist die Kovarianz der entsprechenden
Vorhersagen.
Die Matrix L1 kann unmittelbar in eine kovarianztreue Darstellung der Verhalt-
nisse bei der Vorhersage der Variablen durch die standardisierten ersten beiden
Hauptkomponenten umgesetzt werden – der Vorteil der Standardisierung liegt
darin, dass ohne weitere Umrechnungen ein vorgefertigtes Koordinatensystem
mit gleichen Achsenlangen benutzt werden kann.
Die folgende Abbildung gibt eine solche Darstellung, wobei die Vorhersagen der
Originalvariablen durch Punkte markiert sind. Es ware eigentlich angemessener,
die Punkte durch Vektoren zu ersetzen und auch z1 und z2 als Vektoren einzu-
zeichnen (mit Spitzen in (1, 0)′ und (0, 1)′), aus Ubersichtlichkeitsgrunden ist der
Aufbau aber ganz analog zu den entsprechenden Diagrammen der Faktorenana-
Die Normalverteilung bleibt bei linearen Transformationen erhalten: Ist x nor-
malverteilt und y = ax+ b mit a 6= 0, so ist auch y normalverteilt.
Man bestimmt leicht den Erwartungswert und die Varianz von y und erhalt ge-
nauer, dass aus x ∼ N(µ, σ2) folgt, dass y ∼ N(aµ+ b, a2σ2) gilt.
Eine Skizze zur Begrundung der Aussage uber lineare Transformationen findet
sich im nachsten Abschnitt.
Eine wichtige Konsequenz ist die, dass die Verteilung der z-Transformierten einer
normalverteilten Variable immer die N(0, 1)-Verteilung ist. Mit Hilfe der Verta-
felung der Standardnormalverteilung N(0, 1) kann man daher konkrete Fragen
nach Wahrscheinlichkeiten, die sich auf normalverteilte Variable beziehen, in der
Regel beantworten.
Eine wichtige Eigenschaft der Standardnormalverteilung ist ihre Symmetrie, die
sich darin ausdruckt, dass ihre Dichtefunktion symmetrisch zur Ordinatenachse
ist. Diese Symmetrie erkennt man unmittelbar an der zugehorigen Dichtefunktion
(1/√
2π) e−z2/2, die fur z und −z immer den gleichen Wert besitzt.
2.5 Verteilungen MS13 149
Von der Normalverteilung ist eine ganze Familie weiterer Verteilungen abgeleitet,
an deren prominenteste Mitglieder nun erinnert werden soll.
Sind z1, . . . , zn unabhangige standardnormalverteilte Variable, so heißt die Ver-
teilung von u =∑z2i auch χ2-Verteilung mit n Freiheitsgraden. Die Abkurzung
hierfur ist u ∼ χ2n.
Man beachte die Form der Definition, die gewissermaßen einen Umweg macht:
Es wird hier gesagt, wie man eine χ2n-verteilte Variable erzeugen kann; eigentlich
geht es jedoch nicht um die Variable selbst, sondern nur um deren Verteilung. Es
wird also ein Standardbeispiel gegeben, wie man zu dieser Verteilung gelangt.
Insbesondere bedeutet die Definition keineswegs, dass jede χ2-verteilte Variable
eine Summe von quadrierten standardnormalverteilten Variablen sein musste.
Das Wort’Freiheitsgrad‘ wird haufig mit df (
’degree of freedom‘) abgekurzt.
Die gerade definierte Verteilung lasst sich etwas verallgemeinern:
Sind z1, . . . , zn unabhangige normalverteilte Variable mit der Varianz 1, fur die
E(z1) = δ ≥ 0 und E(z2) = . . . = E(zn) = 0 gilt, so heißt die Verteilung von
u =∑z2i auch χ2-Verteilung mit n Freiheitsgraden und Nonzentralitatsparameter
δ2. Die Abkurzung hierfur ist u ∼ χ2n, δ2 .
Wie man sieht, ist die zuvor definierte χ2-Verteilung hiervon der Spezialfall, dass
δ = 0 gilt (χ2n ist also dasselbe wie χ2
n,0); diese Verteilung soll zur Unterscheidung
eine zentrale χ2-Verteilung heißen, wahrend die Verteilungen mit δ > 0 auch
nonzentrale Verteilungen genannt werden sollen.
Das Wort’Nonzentralitatsparameter‘ wird oft mit NZP abgekurzt. Leider ist die
Terminologie hier nicht einheitlich, so dass als Nonzentralitatsparameter gele-
gentlich auch eine andere Zahl als δ2 bezeichnet wird.
Ist z eine N(δ, 1)-verteilte Variable, so ist der Erwartungswert von z2 die Summe
1 + δ2 aus der Varianz und dem quadrierten Erwartungswert. Hieraus folgt un-
mittelbar, dass der Erwartungswert einer χ2n, δ2-verteilten Variable gleich n + δ2
ist.
Bei den nachsten beiden Verteilungsklassen werden gleich die allgemeinen Ver-
sionen definiert. Zunachst folgt die t-Verteilung.
Sind z ∼ N(δ, 1) und u ∼ χ2n unabhangig mit δ ∈ R, so heißt die Vertei-
2.5 Verteilungen MS13 150
lung von t = z/√u/n auch t-Verteilung mit n Freiheitsgraden und Nonzen-
tralitatsparameter δ. Die Abkurzung hierfur ist t ∼ tn, δ.
Fur δ = 0 erhalt man als Spezialfall die zentralen t-Verteilungen, die mit tnabgekurzt werden, und die nonzentralen t-Verteilungen sind entsprechend die
mit δ 6= 0.
Ebenso wie die Standardnormalverteilung sind die zentralen t-Verteilungen sym-
metrisch. Dies kann man schließen aus der Tatsache, dass aus t ∼ tn auch −t ∼ tnfolgt; diese Tatsache selber begrundet man analog zu der sogleich folgenden Aus-
sage uber den Zusammenhang von t- und F -Verteilungen.
Sind schließlich u ∼ χ2m, δ2 und v ∼ χ2
n unabhangig, so heißt die Verteilung von
F = (u/m) /(v/n) auch F -Verteilung mit m Zahler- und n Nennerfreiheitsgraden
und Nonzentralitatsparameter δ2. Die Abkurzung hierfur ist F ∼ Fm,n, δ2 .
Wieder heißen die Verteilungen mit δ2 = 0 auch zentrale F -Verteilungen und
haben die Abkurzung Fm,n; die mit δ2 > 0 heißen nonzentrale F -Verteilungen.
Man uberzeugt sich leicht davon, das fur eine tn, δ-verteilte Variable t die Bezie-
hung t2 ∼ F1, n, δ2 gilt. Als Beispiel fur spatere ahnliche Falle soll die Begrundung
hier noch einmal ausfuhrlich gegeben werden.
Man wahlt zu diesem Zweck unabhangige Variablen z ∼ N(δ, 1) und u ∼ χ2n und
bildet die Variable v = z/√
(u/n). Dann ist v definitionsgemaß tn, δ-verteilt, und
t und v besitzen folglich die gleiche Verteilung. Dann mussen auch t2 und v2 die
gleiche Verteilung besitzen.
Fur v2 = z2/(u/n) kann man jedoch die Verteilung leicht bestimmen: Der Zahler
z2 besitzt eine χ21, δ2-Verteilung und ist mit z unabhangig von u. Wegen z2 = z2/1
andert sich am Zahler auch nichts, wenn man durch die Anzahl 1 der Freiheits-
grade teilt. Nach Definion folgt, dass v2 eine F1, n, δ2 besitzt und damit auch t2
diese Verteilung besitzen muss. �
Wem diese Begrundung umstandlich erscheint, der sei daran erinnert, dass aus
der Tatsache, dass t eine t-Verteilung besitzt, keineswegs folgt, dass t auch die
Form der gleichnamigen Variable in der Definition haben muss. Daher ist der
Umweg uber v notwendig.
In der Begrundung wurde außerdem von der plausiblen Tatsache Gebrauch ge-
macht, dass mit z und u auch z2 und u unabhangig sind. Eigentlich musste
2.5 Verteilungen MS13 151
man auch dies begrunden. Die Tatsache ist aber intuitiv so einleuchtend, dass
darauf hier und in ahnlichen Situationen im Folgenden verzichtet werden kann
(abgesehen davon musste eine Begrundung sich auf den allgemeinen Fall stetiger
Zufallsvariablen beziehen, die ja hier sowieso im strengen Sinn nicht behandelt
werden konnen).
Zum Schluss sei ferner erinnert an den Begriff des α-Fraktils einer Verteilung, das
gerade der Wert ist, der bei dieser Verteilung rechts α abschneidet.
Die α-Fraktile werden meist mit der Abkurzung der zugehorigen Verteilung be-
zeichnet, bei denen im Index (gegebenenfalls nach einem Semikolon) α angegeben
ist. Das α-Fraktil der Fm,n-Verteilung ist also beispielsweise Fm,n;α, und es gilt
dann
P(F ≥ Fm,n;α) = α ,
falls F die Fm,n-Verteilung besitzt. Mit P wird hier wie ublich die Wahrschein-
lichkeit bezeichnet.
Man beachte in diesem Zusammenhang den unterschiedlichen Gebrauch von Kom-
ma und Semikolon, von denen das Komma beim Nonzentralitatsparameter ge-
braucht wird und das Semikolon bei der Abkurzung des α-Fraktils.
Gelegentlich wird von der Gleichheit t2n;α/2 = F1, n;α Gebrauch gemacht, die nun
auch noch einmal gezeigt werden soll.
Dazu sei t ∼ tn und k der kritische Wert tn;α/2. Wegen der Symmetrie der t-
Verteilung sind die Wahrscheinlichkeiten P(t ≤ −k) und P(t ≥ k) gleich groß,
namlich α/2. Das Ereignis, dass t2 ≥ k2 ist, setzt sich jedoch gerade aus diesen
beiden disjunkten Teilereignissen zusammen, weshalb P(t2 ≥ k2) = α gilt. Da t2
jedoch die F1, n-Verteilung besitzt, folgt, dass k2 bei dieser Verteilung rechts α
abschneidet, weshalb schließlich in der Tat k2 = F1, n;α gelten muss. �
Haufig sind Variable gewissermaßen nur bis auf einen Faktor χ2-verteilt, und es
ist praktisch, fur solche Situationen eine Abkurzung einzufuhren.
Gilt fur eine Variable u und ein σ2 > 0 die Beziehung u/σ2 ∼ χ2n, δ2 , so soll dies
auch als
u ∼ σ2χ2n, δ2
abgekurzt werden. Diese Abkurzung bedeutet also, dass sich aus u bei Division
durch σ2 eine χ2n, δ2 verteilte Variable ergibt.
Diese Schreibweise ist beispielsweise praktisch bei der Ermittlung kritischer Wer-
2.5 Verteilungen MS13 152
te: Ist eine Variable u gegeben mit u ∼ σ2χ2n, und fragt man nun nach dem Wert,
der bei der Verteilung von u rechts α abschneidet, so ist das gerade das σ2-fache
des Wertes, der bei der Verteilung von u/σ2 rechts α abschneidet – da
u/σ2 ≥ χ2n;α genau dann gilt, wenn u ≥ σ2χ2
n;α
gilt, ist ja
α = P(u/σ2 ≥ χ2
n;α
)= P
(u ≥ σ2χ2
n;α
).
Folglich ist das α-Fraktil der Verteilung von u ∼ σ2χ2n−1 gleich
σ2χ2n;α ,
was sich einfach merken lasst.
Mit dieser Schreibweise lassen sich einige Argumente bei der Herleitung von Ver-
teilungen etwas verkurzen; zwei der wichtigsten Falle sollen nun vorbereitend
behandelt werden.
Feststellung 1. Sind x ∼ N(µ, σ2) und u ∼ σ2χ2n unabhangig, so besitzt der
Quotient t = x/√u/n eine tn, δ-Verteilung mit δ = µ/σ.
Man beachte, dass die Varianz von x gleich dem Faktor bei u ist.
Man schreibt namlich
t =x√u/n
=x/σ√
(u/σ2)/n,
und hat auf der rechten Seite den Quotienten aus (x/σ) ∼ N(µ/σ, 1) und aus
der Wurzel der durch n geteilten Variable (u/σ2) ∼ χ2n, wobei (x/σ) und (u/σ2)
unabhangig sind. Der Quotient auf der rechten Seite – und damit auch t – besitzt
folglich in der Tat eine tn, δ-Verteilung mit δ = µ/σ. �
Feststellung 2. Sind u ∼ σ2χ2m, δ2 und v ∼ σ2χ2
n unabhangig, so hat der
Quotient (u/m)/(v/n) eine Fm,n, δ2-Verteilung.
Genau wie eben schreibt man namlich
F =u/m
v/m=
(u/σ2)/m
(v/σ2)/n
und erhalt auf der rechten Seite den Quotienten zweier unabhangiger, durch ih-
re Freiheitsgrade geteilter χ2-Variablen. Der Quotient rechts besitzt also eine
Fm,n, δ2-Verteilung und damit auch F . �
2.5 Verteilungen MS13 153
Die multivariate Normalverteilung. Zur Vorbereitung der Definition der
multivariaten Normalverteilung sei vereinbart, im Eindimensionalen auch solche
Variablen als normalverteilt zu bezeichnen, die Varianz 0 besitzen, also (fast
sicher) nur einen Wert annehmen. Diese Erweiterung des Begriffs der eindimen-
sionalen Normalverteilung um einen sozusagen degenerierten Fall ist harmlos, da
man an der Varianz einer in diesem neuen Sinn normalverteilten Variable sofort
sehen kann, ob es sich um eine ubliche Normalverteilung oder um einen degene-
rierten Fall handelt. Die Erweiterung ist von Vorteil, weil sie bei der adaquaten
Behandlung der multivariaten Normalverteilung lastige Fallunterscheidungen er-
spart, die sonst fast standig gemacht werden mussten.
Ein p-dimensionaler Zufallsvektor x heißt jetzt multinormalverteilt, wenn jede
Linearkombination der Komponenten von x normalverteilt ist.
Es wird also gefordert, dass fur jeden (Koeffizienten-)Vektor a und jede additive
Konstante die (eindimensionale) Linearkombination∑aixi + b = a′x + b der
Komponenten xi von x normalverteilt ist. Hier ist die additive Konstante b offen-
sichtlich irrelevant, da eine Variable u genau dann normalverteilt ist, wenn u+ b
normalverteilt ist; bei der Prufung, ob das Kriterium der Definition erfullt ist,
kann man also das oft lastige b auch weglassen, was in Zukunft meist so geschehen
soll.
Die Forderung, dass alle a′x normalverteilt sein sollen, ist bedeutend starker als
die Forderung, dass dies nur fur die xi gelten soll. Dass bei einem multinormal-
verteilten x auch alle xi normalverteilt sind, folgt leicht, wenn man fur a die
Einheitsvektoren ei wahlt wegen xi = e′ix.
Manchmal gebraucht man statt der Formulierung, dass x multinormalvarteilt ist,
auch die Alternativformulierung, dass die xi gemeinsam normalverteilt sind.
Aus der Definition folgt unmittelbar, dass fur ein multinormalverteiltes x auch
jeder durch eine affine Transformation y = Ax + b aus x hervorgehende Zufalls-
vektor y multinormalverteilt ist.
Ist namlich y q-dimensional und a jetzt ein beliebiger q-Vektor, so ist
a′y = a′(Ax + b) = (A′a)′x + a′b ,
was eine Linearkombination der xi ist mit Koeffizientenvektor A′a und additiver
Konstante a′b. Wegen der Multinormalverteilung von x ist also a′y normalver-
teilt, und dies impliziert, da a beliebig war, die Multinormalverteilung von y.
2.5 Verteilungen MS13 154
Nachdem multinormalverteilte Vektoren solch schone Eigenschaften haben, fragt
man sich naturlich, ob es uberhaupt welche gibt.
Hier gilt nun der folgende mathematisch schon etwas tiefere und daher hier nur
zitierte Satz:
Feststellung 3. Sind x1, . . . , xp unabhangige normalverteilte Variablen, so ist
x = (x1, . . . , xp)′ multinormalverteilt. �
Dass es unabhangige normalverteilte Variablen gibt, besser: dass sich solche kon-
struieren lassen, ist ebenfalls begrundungsbedurftig, durfte jedoch plausibel sein
und ist auch tatsachlich richtig.
Erstaunlich ist auch der nachste Satz, der partielle Umkehrung des vorangegan-
genen ist und der hier ebenfalls nur zitiert werden kann:
Feststellung 4. Sind x1, . . . , xp gemeinsam normalverteilt und paarweise unkor-
reliert, so sind sie gemeinsam unabhangig. �
Hier folgt also aus der Unkorreliertheit die Unabhangigkeit, was deutlich darauf
hinweist, wie stark der Begriff der gemeinsamen Normalverteiltheit ist.
Um auch den degenerierten Fall einzubeziehen, dass eine oder mehrere der Va-
riablen die Varianz 0 besitzen, durfte man eigentlich nicht von Korrelationen
sprechen, sondern musste fordern, dass die Kovarianzen von je zwei Variablen
immer 0 sind. Diese Formulierung ist jedoch ziemlich unhandlich, so dass es bei
der kleinen Unkorrektheit bleiben soll, die sich ja wie hier so auch in ahnlichen
Fallen im Folgenden leicht korrigieren lasst.
Der erste der beiden Satze zeigt, dass es Multinormalverteilungen gibt, deren
Kovarianzmatrix eine Diagonalmatrix ist, wobei die Diagonalelemente beliebig
vorgegeben werden konnen (sie durfen dabei naturlich nicht negativ sein).
Es stellt sich die Frage, ob es auch Multinormalverteilungen gibt, die eine beliebige
vorgegebene Kovarianzmatrix haben, die naturlich positiv semidefinit sein muss.
Auch den Erwartungswertvektor mochte man vielleicht vorschreiben. In der Tat
gilt:
Feststellung 5. Ist Σ eine positiv semidefinite (p × p)-Matrix und µ ein p-
Vektor, so gibt es eine multinormalverteilte Variable x, deren Erwartungswert µ
und deren Kovarianzmatrix Σ ist.
2.5 Verteilungen MS13 155
Man zerlegt namlich beispielsweise Σ nach dem Spektralsatz in Σ = GDG′ und
setzt dann p unabhangige normalverteilte Variablen, deren Erwartungswerte 0
sind, und die als Varianzen die Diagonalelemente von D besitzen, zu einem p-
Zufallsvektor u zusammen. Der Zufallsvektor x = Gu + µ ist dann multinormal
und hat die angestrebten Kennwerte. �
Weiterhin ist die Frage wichtig, ob eine Multinormalverteilung durch Erwartungs-
wertvektor und Kovarianzmatrix schon eindeutig bestimmt ist. Auch diese Frage
kann positiv beantwortet werden:
Feststellung 6. Durch den Erwartungswert µ und die Kovarianzmatrix Σ ist
eine Multinormalverteilung eindeutig bestimmt.
Ist namlich x eine p-dimensionale multinormalverteilte Variable mit diesen Kenn-
werten und schreibt man wieder Σ = GDG′, so ist u = G′x auch multinor-
malverteilt mit Kovarianzmatrix D. Die Komponenten von u sind daher unkor-
reliert und normalverteilt, wegen der gemeinsamen Normalverteilung also auch
unabhangig; damit ist (aufgrund der Unabhangigkeit) ihre gemeinsame Vertei-
lung eindeutig durch die Einzelverteilungen festgelegt. Damit liegt aber auch die
Verteilung von x = Gu eindeutig fest. �
Diese Erorterungen berechtigen dazu, von der Multinormalverteilung mit Erwar-
tungswert µ und Kovarianzmatrix Σ zu sprechen, die kurz mit N(µ,Σ), oder,
wenn die Dimension explizit mit aufgenommen werden soll, mit Np(µ,Σ) bezeich-
net werden soll. Dafur, dass eine Variable x diese Verteilung besitzt, schreibt man
auch kurz x ∼ Np(µ,Σ).
Ist die Kovarianzmatrix Σ einer multinormalverteilten Variable x singular, so hat
sich schon in Kapitel 2.3 gezeigt, dass dann x mit Wahrscheinlichkeit 1 Werte
in dem affinen Unterraum annimmt, dessen zugehoriger linearer Unterraum von
den Spalten von Σ aufgespannt wird und den Erwartungswertvektor µ enthalt.
Ist dagegen Σ regular, so lasst sich die Verteilung von x durch eine Dichtefunktion
charakterisieren, deren Form besonders Interessierten jetzt zumindest plausibel
gemacht werden soll.
Zunachst soll der Fall betrachtet werden, dass p unabhangige standardnormal-
verteilte Variablen z1, . . . , zp vorliegen. Die Dichtefunktion einer standardnormal-
2.5 Verteilungen MS13 156
verteilten Variable z ist bekanntlich
1√2π
e−1
2z2.
Da die zi unabhangig sind, besitzen sie eine gemeinsame Dichte, die gleich dem
Produkt der Randdichten ist. Wegen exey = ex+y ist diese gemeinsame Dichte im
Punkt z = (z1, . . . , zp)′ gleich
1√2π
p e−1
2
∑z2i
=1√2π
p e−1
2z′z
.
Man sieht, dass die Dichtefunktion auf den Oberflachen von Kugeln um den
Nullpunkt uberall den gleichen Wert annimmt.
Nun soll es um die Dichtefunktion von x ∼ Np(µ,Σ) gehen. Schreibt man mit
dem Spektralsatz Σ = GDG′ und setzt A = GD1/2, so sind wegen der In-
vertierbarkeit von Σ alle Diagonalelemente von D großer als Null, weshalb A
invertierbar ist und die Eigenschaften AA′ = Σ und A−1ΣA′−1 = I hat.
Die affine Transformation z = A−1(x−µ) (ubrigens eine multivariate z-Transfor-
mation) liefert ein z, welches multinormalverteilt ist mit dem Erwartungswert
A−1(µ − µ) = 0 und der Kovarianzmatrix A−1ΣA′−1 = I. Die Dichtefunktion
von z ist daher gerade die eben beschriebene.
Man kann den Ubergang von x zu z auch als affinen Koordinatenwechsel auffas-
sen. Tut man dies, so ist es nicht unplausibel und auch richtig, dass die Dichte-
funktion im Wesentlichen die gleiche bleibt, nur dass sie in anderen Koordinaten
geschrieben wird – genauer erhalt man die Werte der Dichtefunktion im We-
sentlichen dadurch, dass man die Werte der Dichtefunktion von z einfach fur
das zurucktransformierte x ubernimmt. Eine Anderung muss jedoch noch vorge-
nommen werden: Da sich bei der affinen Transformation die (p-dimensionalen)
Volumina andern, muss die Dichtefunktion mit einem Faktor multipliziert wer-
den, der dies kompensiert (das Gesamtvolumen (jetzt (p+ 1)-dimensional) unter
der Dichtefunkion muss ja 1 bleiben).
Betrachtet man die umgekehrte Transformation von z nach x, so ist deren li-
nearer Anteil gerade A, so dass sich Volumina bei dieser umgekehrten Transfor-
mation um den Faktor | det(A)| andern. Wurde man nun einfach die Werte der
Dichtefunktion von z bei der Rucktransformation beibehalten, so wurden sich
Volumina ebenfalls um den Faktor | det(A)| andern, da sich die Grundflachen
2.5 Verteilungen MS13 157
um diesen Faktor andern, wahrend die Hohen gleichbleiben. Die Flache unter der
rucktransformierten Dichtefunktion ware also um den Faktor | det(A)| verkehrt,
was man aber nun leicht dadurch kompensiert, dass man die rucktransformierte
Dichte noch mit 1/| det(A)| multipliziert.
In der folgenden Abbildung wird dies fur den einfachsten Fall einer eindimensio-
nalen Normalverteilung illustriert. Die Variable x soll dabei Erwartungswert 1
und Streuung 1/2 haben. In der folgenden Abbildung findet sich rechts die Dich-
tefunktion der Standardnormalverteilung (mit der Flache 1 unter der Kurve) und
links gepunktet die Funktion, die man erhalt, wenn man die Werte dieser Dichte-
funktion direkt uber die umgekehrte z-Transformation in den x-Raum ubernimmt
(diese Ubernahme ist fur drei konkrete Werte angedeutet). Offenbar wird dabei
die entstehende Flache zu klein, und zwar genauer um den Faktor 1/2, der hier
der Koeffizient bei der Umkehrung der z-Transformation ist (in diesem Fall ist
die Kovarianz’matrix‘ von x gleich (1/4), die
’Matrix‘ A also (1/2) mit Determi-
nante 1/2). Durchgezogen ist daruber die mit 2 multiplizierte rucktransformierte
die quadrierte Norm dieser Variable ist also die Summe von p unabhangigen qua-
drierten standardnormalverteilten Variablen und folglich χ2p-verteilt. Insgesamt
gilt also
(x− µ)′Σ−1(x− µ) ∼ χ2p .
Hiermit kann berechnet werden, mit welcher Wahrscheinlichkeit sich Datenpunkte
in den Ellipsoiden E(Σ, µ, r) aufhalten, denn dies ist gleichbedeutend damit, dass
die Mahalanobisdistanz zu µ hochstens r ist.
Da der Mittelwert aus mehreren Beobachtungen auch wieder multinormalverteilt
ist, kann man dies Ergebnis benutzen, um Konfidenzbereiche fur µ bei bekanntem
Σ zu bestimmen, die dann wie erwartet kleiner ausfallen als die mit Hilfe der
Tschebyscheffschen Ungleichung ermittelten.
Gelegentlich braucht man auch die Verteilung der quadrierten Mahalanobisdi-
stanz zu einem Wert µ0, der vom Erwartungswertvektor verschieden sein kann.
Es wird nicht uberraschen, dass sich auch hier eine χ2-Verteilung ergibt, wenn
auch eine nonzentrale.
Zu untersuchen ist also nun (x−µ0)′Σ−1(x−µ0). Wahlt man wieder ein L mit
Σ = LL′, so ist die gesuchte quadrierte Mahalanobisdistanz wie oben
(x− µ0)′L′−1L−1(x− µ0) = (L−1(x− µ0))
′(L−1(x− µ0)) = ‖L−1(x− µ0)‖2.
Hier gilt
L−1(x− µ0) ∼ Np(L−1(µ− µ0),L
−1ΣL′−1) = Np(L−1(µ− µ0), I) .
2.6 Multivariate Varianzanalyse MS13 168
Schreibt man fur L−1(x − µ0) abkurzend y, so folgt aus der Bemerkung nach
Feststellung 13 (das dortige σ2 ist hier 1), dass ‖y‖2 eine χ2p, δ2-Verteilung besitzt
mit dem Nonzentralitatsparameter
δ2 = ‖L−1(µ− µ0)‖2
= (µ− µ0)′L′−1L−1(µ− µ0)
= (µ− µ0)′Σ−1(µ− µ0) ,
der gerade die quadrierte Mahalanobisdistanz von µ zu µ0 ist. Da ‖y‖2 die unter-
suchte quadrierte Mahalanobisdistanz von x und µ0 ist, folgt zusammenfassend
die nachste Feststellung.
Feststellung 18. Ist x eine Np(µ,Σ)-verteilte Variable mit invertierbarer Ko-
varianzmatrix Σ, so hat die quadrierte Mahalanobisdistanz
(x− µ0)′Σ−1(x− µ0)
von x zu einem festen Wert µ0 eine χ2p, δ2-Verteilung mit p Freiheitsgraden und
Nonzentralitatsparameter
δ2 = (µ− µ0)′Σ−1(µ− µ0) .
Im Fall µ0 = µ ist δ2 = 0 und die Verteilung zentral. �
2.6 Multivariate Varianzanalyse
In diesem Kapitel sollen grundlegende Aspekte der multivariaten Varianzana-
lyse behandelt werden. Nach der Aufstellung der Hypothesen werden die fur
die Prufstatistiken zentralen Matrizen B und W eingefuhrt. Danach werden die
wichtigsten Prufverfahren vorgestellt, die allerdings hier noch nicht im Detail
begrundet werden konnen, da die benotigten Verteilungen noch nicht bekannt
sind; viele fur genauere Untersuchungen notige Tatsachen werden jedoch schon
bereitgestellt.
Die Hypothesen der multivariaten Varianzanalyse. Der Unterschied zur
univariaten Varianzanalyse liegt bei der multivariaten Varianzanalyse in der Zahl
der abhangigen Variablen. Wahrend bei der univariaten Varianzanalyse nur eine
abhangige Variable untersucht wird, geht es hier um p Variablen Y1, . . . , Yp die
zu einer p-dimensionalen Variable Y zusammengefasst sein sollen (die Bezeich-
nung der Variablen mit Y und nicht mit X folgt einer verbreiteten Tradition).
Zur Terminologie ist zu bemerken, dass diese Variablen Variablen im informellen
2.6 Multivariate Varianzanalyse MS13 169
Sinn sind und keine Zufallsvariablen im statistischen Sinn; Zufallsvariablen wer-
den erst eingefuhrt im Rahmen eines Modells der Verteilung der Variablen unter
bestimmten Versuchsbedingungen oder in verschiedenen Populationen.
Man konnte sich beispielsweise nach der Auswirkung unterschiedlicher Entspan-
nungsinduktionen auf die korperliche Befindlichkeit fragen. Halt man mehrere
physiologische Werte als Entspannungsindikatoren fur relevant, so wird man al-
le diese Werte bei den Versuchspersonen messen und die Ergebnisse jeweils in
einem Datenvektor zusammenfassen, dessen Lange p gerade gleich der Anzahl
der untersuchten physiologischen Variablen ist. Statt nur eines Wertes liefert jede
Versuchsperson jetzt also einen ganzen Datenvektor mit p Komponenten.
Wenn allgemein die Anzahl der Versuchsbedingungen gleich J ist, so soll nun
in jeder dieser Bedingungen der p-dimensionale Datenvektor (bestehend aus den
Werten der Variablen Y1, . . . , Yp) mehrfach erhoben werden, in den Standardbei-
spielen an mehreren Versuchspersonen oder Versuchsobjekten.
Da man das Ergebnis einer einmaligen Erhebung eines Datenvektors in einer
Bedingung als Resultat auch von Zufallseinflussen betrachtet (da es beispielsweise
von der zufallig ausgewahlten Versuchsperson abhangen kann), wird man dieses
Ergebnis mit Hilfe eines p-dimensionalen Zufallsvektors modellieren wollen. Fur
die j-te Bedingung sei dieser Zufallsvektor gleich yj.
Der (unbekannte) Erwartungswertvektor von yj sei nun µj, und die Frage, die
durch die Untersuchung zu beantworten ist, ist die, ob sich die µj aus den ver-
schiedenen Bedingungen unterscheiden oder nicht. Dass man so die Ausgangs-
fragestellung prazisiert, liegt nahe, da man ja annehmen wird, dass sich in den
µj die systematischen, vom Zufall gereinigten Wirkungen der Bedingungsstufen
widerspiegeln.
Die zu testenden Hypothesen der multivariaten Varianzanalyse sind analog zu
denen der univariaten
H0 : µ1 = µ2 = . . . = µJ
H1 : nicht H0 .
Hier wird also gleichzeitig in p Dimensionen nach Unterschieden gesucht; die
Betrachtungsweise ist daher nicht mehr eindimensional wie in der univariaten
Varianzanalyse sondern p-dimensional.
2.6 Multivariate Varianzanalyse MS13 170
Die Matrizen T, B und W. Zur Beantwortung der in den Hypothesen formu-
lierten Frage liegt es in Analogie zur univariaten Varianzanalyse nahe, zunachst
in jeder Bedingung den Mittelwertvektor der Beobachtungen zu bilden, der ja
als Schatzung fur den Erwartungswertvektor dienen kann. Danach wird man un-
tersuchen, wie groß die Variation dieser Mittelwertvektoren ist, und ob sich An-
haltspunkte fur die Annahme ergeben, dass mehr als nur der Zufall fur deren
Verschiedenheit verantwortlich ist. Dazu wird man in geeigneter Weise die Va-
riation der Mittelwertvektoren vergleichen mit der Variation der Beobachtungen
innerhalb der einzelnen Bedingungen, die als ausschließlich zufallsbedingt ange-
sehen werden.
Die Untersuchung soll nun konkret so aussehen, dass in der j-ten Bedingung njWerte (also Datenvektoren) erhoben werden, wobei
∑nj = N gilt. In dem Fall,
dass die Daten von unterschiedlichen Versuchspersonen geliefert werden, ist njalso die Anzahl der Versuchspersonen in der j-ten Bedingung oder – wie man
auch sagt – in der j-ten Zelle.
Zur besseren Illustration der Datenverrechnung soll nun in einem Beispiel ange-
nommen werden, dass bereits Daten einer Untersuchung vorliegen, bei der in drei
Bedingungen zwei Variable Y1 und Y2 erhoben worden sind. Konkret konnte es
sich darum handeln, die Auswirkungen von zwei Entspannungsverfahren auf die
Herzrate und den Hautwiderstand zu untersuchen, wobei als dritte Bedingung
noch eine Kontrollgruppe vorhanden ist.
Die Anzahl der Beobachtung in den einzelnen Bedingungen sei 3, 2 und 3; es gilt
hier also insgesamt J = 3, n1 = 3, n2 = 2, n3 = 3, N = 8 und p = 2.
Die folgende Datenmatrix Y enthalt nacheinander die Ergebnisse aus den einzel-
nen Bedingungen; zur besseren Verdeutlichung der Grenzen zwischen den Zellen
sind die entsprechenden Zwischenraume etwas großer.
Y =
8 2
7 1
6 3
3 2
1 4
7 3
4 5
4 4
2.6 Multivariate Varianzanalyse MS13 171
Als erstes wird man hier die Mittelwertvektoren der drei Zellen bestimmen, die
hier yj heißen sollen; auch der Mittelwertvektor aller Beobachtungen y wird
gelegentlich gebraucht. Es ergibt sich
y1 =
(7
2
), y2 =
(2
3
), y3 =
(5
4
)und y =
(5
3
).
Da hier die Dimension p des Datenvektors nur 2 ist, kann man sich die Datensi-
Die Werte in unterschiedlichen Zellen sind hier mit verschiedenen Symbolen ein-
getragen und die Zentroide der einzelnen Zellen mit dem jeweils zugehorigen
vergroßerten Symbol.
In der univariaten Varianzanalyse zerlegt man die durch SSt erfasste Gesamt-
variation der Daten in einen Anteil SSb, der die Variation der Zellmittelwerte
wiederspiegelt, und einen Anteil SSw, der die Variation innerhalb der Zellen wie-
dergibt. Man erhalt so die Quadratsummenzerlegung
SSt = SSb + SSw .
Es hat sich schon gezeigt, dass man die Quadratsummen aus dem Datenvektor
y mit Hilfe von orthogonalen Projektionen erhalt, genauer gilt SSt = y′Pty,
SSb = y′Pby und SSw = y′Pwy. Die Bilder der Projektionen Pt, Pb und Pw
haben dabei die Dimensionen N − 1, J − 1 und N − J , wobei die Bilder von Pb
und Pw orthogonal sind. Die Matrix Pt ist die Zentriermatrix. Ferner gilt
Pt = Pb + Pw ,
woraus durch Multiplikation von y′ von links und y von rechts noch einmal die
Quadratsummenzerlegung folgt:
y′Pty = y′Pby + y′Pwy
SSt = SSb + SSw .
2.6 Multivariate Varianzanalyse MS13 172
Es ist naheliegend, in der multivariaten Varianzanalyse analog vorzugehen. Der
Unterschied ist nur, dass der Datenvektor durch die Datenmatrix ersetzt wird.
Man erhalt so die folgende Gleichung, deren Bestandteile in der nachsten Zeile
noch einmal abgekurzt werden:
Y′PtY = Y′PbY + Y′PwY
T = B + W .
Die Matrizen in der unteren Zeile sind offenbar symmetrische (p × p)-Matrizen.
Da orthogonale Projektionen positiv semidefinit sind (sie sind ja symmetrisch
und haben keine negativen Eigenwerte), sind auch die Matrizen T, B und W
positiv semidefinit.
Dabei ist der Rang von B hochstens J − 1, denn er kann nicht großer sein als der
Rang von Pb, und dieser ist gleich der Dimension des Bildes von Pb, also J − 1.
Die Matrizen B und W spielen bei der statistischen Behandlung der multivariaten
Varianzanalyse eine ahnlich wichtige Rolle wie die Quadratsummen SSb und SSwim Univariaten, deren Verallgemeinerung sie ja auch sind.
Tatsachlich spiegeln auch hier die Matrizen T, B und W die Gesamtvariation der
Daten, die Variation der Mittelwertvektoren und die Variation der Daten inner-
halb der Zellen wider, so dass man auch in dieser Hinsicht eine Verallgemeinerung
der univariaten Varianzzerlegung vor sich hat. Dies wird schon von der Definition
nahegelegt, soll jedoch auch noch weiter begrundet werden.
Zunachst sollen jedoch die Matrizen T = Y′PtY, B = Y′PbY und W = Y′PwY
fur die Beispieldaten bestimmt werden. Hier ergibt sich
T =
(40 −12
−12 12
), B =
(30 −6
−6 6
), W =
(10 −6
−6 6
),
womit man auch die Gleichung T = B + W unmittelbar nachpruft.
Nun sollen die Matrizen T, B und W genauer in Augenschein genommen werden.
Da Pt die Zentriermatrix ist, erweist sich zunachst T als SSCP-Matrix aller
Daten ohne Berucksichtigung der Gruppierung in einzelne Zellen. Als Vorstufe
der Kovarianzmatrix ist T ein Indikator dafur, wie stark die Daten (multivariat)
um den Gesamtmittelwertvektor streuen.
Bei der Untersuchung der Matrizen B und W ist die Projektion P nutzlich, die
bei einem Datenvektor alle Werte durch die zugehorigen Zellmittelwerte ersetzt.
2.6 Multivariate Varianzanalyse MS13 173
Diese Projektion ist schon aus der Behandlung der univariaten Varianzanalyse
mit Hilfe von Projektionen bekannt, wo auch die Gleichung Pb = PtP = PPt
hergeleitet wurde.
Wendet man P auf die Datenmatrix Y an, so erhalt man das Ergebnis, indem
man P auf die Spalten von Y anwendet und die Ergebnisspalten wieder zu einer
Matrix zusammensetzt. Die Spalten von Y sind jedoch gerade die Datenvektoren
der einzelnen Variablen. Im Produkt PY sind also variablenweise alle Daten
durch die zugehorigen Zellmittelwerte ersetzt.
Analog sieht man, dass PwY wegen der Eigenschaften von Pw aus Y dadurch
entsteht, dass alle Daten variablenweise durch die Abweichungen vom zugehorigen
Zellmittelwert ersetzt werden.
Zur Veranschaulichung sollen PY und PwY fur die Beispieldaten Y bestimmt
werden. Es gilt hier
Y =
8 2
7 1
6 3
3 2
1 4
7 3
4 5
4 4
, PY =
7 2
7 2
7 2
2 3
2 3
5 4
5 4
5 4
, PwY =
1 0
0 −1
−1 1
1 −1
−1 1
2 −1
−1 1
−1 0
.
In der Tat werden also bei beiden Variablen die Daten durch die zugehorigen
Zellmittelwerte beziehungsweise durch die Abweichungen der Daten von den Zell-
mittelwerten ersetzt.
Da P eine orthogonale Projektion ist, gilt P2 = P und P′ = P, woraus man in
Verbindung mit der Vertauschbarkeit von P und Pt folgert, dass Pb = PtP =
PtP2 = PPtP = P′PtP gilt. Damit kann man umformen:
B = Y′PbY = Y′(P′PtP)Y = (PY)′Pt(PY) .
Da Pt die Zentriermatrix ist, folgt, dass B die SSCP-Matrix von PY ist, also der
Matrix, in der jeder Datenvektor durch den zugehorigen Zellenmittelwert ersetzt
ist. Sie ist damit ein Indikator fur die multivariate Variation der Gruppenzentro-
ide, die mit der Große der zugehorigen Gruppen gewichtet ist.
2.6 Multivariate Varianzanalyse MS13 174
Bekanntlich hat die affine Hulle von (mehrdimensionalen) Daten die Dimension r,
falls ihre Kovarianzmatrix den Rang r besitzt; der zugehorige lineare Unterraum
ist dabei das Bild der Kovarianzmatrix. Hier ist nun B die SSCP-Matrix der
Gruppenzentroide (wobei jedes Zentroid so oft auftaucht, wie Personen/Objekte
in der zugehorigen Gruppe sind). Dividiert man B noch durch N , so erhalt man
die Kovarianzmatrix der (so’gewichteten‘) Zentroide. Da sich bei Division durch
N weder Rang noch Bild andern, folgt, dass der Rang von B gleich der Dimension
der affinen Hulle der Zentroide ist, und dass das Bild von B der zu dieser affinene
Hulle gehorende lineare Unterraum ist.
Die Matrix W kann man wegen der Beziehung Pw = P′wPw, die sofort daraus
folgt, dass Pw eine orthogonale Projektion ist, auch als
W = Y′PwY = Y′P′wPwY = (PwY)′(PwY)
schreiben.
Zur Deutung dieses Produkts soll zunachst die Datenmatrix Y selber partitioniert
werden in die zu den einzelnen Gruppen j gehorenden Teile Yj; diese Partitionie-
rung wird oben im Beispiel schon durch die großeren Abstande veranschaulicht.
Es gilt also
Y =
Y1
...
YJ
.
Da die entsprechenden Teile von PwY dadurch entstehen, dass man von den
Daten die Gruppenmittelwerte abzieht, sind sie gerade die zentrierten Yj und
sollen daher Yj heißen.
Fur die erste Gruppe im Beispiel gilt beispielsweise
Y1 =
8 2
7 1
6 3
und Y1 =
1 0
0 −1
−1 1
,
tatsachlich stimmt also die obere Teilmatrix von PwY mit der Matrix uberein,
die man aus Y1 durch Zentrieren erhalt.
Damit berechnet man W = (PwY)′(PwY) zu
W =(Y′1 . . . Y′J
)Y1
...
YJ
=∑
Y′jYj ,
2.6 Multivariate Varianzanalyse MS13 175
und da man in den Y′jYj die SSCP-Matrizen der Teilmatrizen Yj erkennt, sieht
man insgesamt, dass W die Summe der SSCP-Matrizen der Daten der einzelnen
Bedingungen ist, was die Eignung zum Indikator der Variation innerhalb der
Gruppen deutlich macht.
Fur das Beispiel lassen sich die SSCP-Matrizen der drei Bedingungen leicht be-
rechnen. Die Gleichung W =∑
Y′jYj kontrolliert man leicht nach – es gilt
tatsachlich
W =
(10 −6
−6 6
)=
(2 −1
−1 2
)+
(2 −2
−2 2
)+
(6 −3
−3 2
).
Die bisherigen Uberlegungen haben gezeigt, dass die Matrizen T, B und W auch
interpretierbar sind als die SSCP-Matrizen der Daten, der Gruppenzentroide und
der’Residuen‘. Dividert man diese Matrizen noch durch N , so erhalt man die
entsprechenden Kovarianzmatrizen, und die ebenfalls durch N dividierte Glei-
chung T = B + W sagt dann gerade, dass sich die Kovarianzmatrix der Daten
zerlegen lasst in die Summe der Kovarianzmatrix der Zentroide (die dabei in der
Haufigkeit der jeweiligen Zellbesetzungen auftreten) und der Kovarianzmatrix der
Residuen.
Da die Diagonalelemente der Matrizen T, B und W gerade dadurch zustande-
kommen, dass man die Matrizen Pt, Pb und Pw von rechts und links mit der
entsprechenden Spalte von Y multipliziert (links ist die Spalte vorher noch zu
transponieren), und da die Spalten von Y gerade die Datenvektoren der einzelnen
Komponenten Yi der multivariaten Variable Y sind, folgt, dass diese Diagonalele-
mente gerade die Quadratsummen SSt, SSb und SSw fur die einzelnen Yi sind. In
der Diagonale der Matrizengleichung T = B + W stehen folglich die univariaten
Quadratsummenzerlegungen der Komponenten Yi von Y .
Im Beispiel sind daher die Quadratsummenzerlegungen SSt = SSb +SSw fur die
univariate Varianzanalyse mit Y1 gerade 40 = 30 + 10 und fur die mit Y2 gleich
12 = 6 + 6.
Was die praktische Berechnung der Matrizen T, B und W angeht, so wird man
diese naturlich nicht so durchfuhren, dass man zunachst die Matrizen Pt, Pw
und Pw bestimmt, die ihren Platz eher in den theoretischen Uberlegungen haben.
Vielmehr wird man auf andere Methoden zuruckgreifen.
Die Matrix T ist die SSCP-Matrix der Daten Y, man bekommt sie also als
Vorstufe der Kovarianzmatrix, wobei nur jeweilige Division durch den Stichpro-
2.6 Multivariate Varianzanalyse MS13 176
benumfang N am Ende zu unterlassen ist. Liegt hingegen die Kovarianzmatrix
der Daten vor, so ist diese einfach mit N zu multiplizieren.
Zur Berechnung der Matrix B schreibt man beispielsweise B = Y′PbY als
Y′P′bPbY = (PbY)′(PbY). Hier ist also das Produkt von (PbY)′ mit PbY zu
bilden.
Ist wie bei der einfaktoriellen Varianzanalyse Pm die Projektion auf den von 1
erzeugten Unterraum, so hatte sich dort die Gleichung Pb = P − Pm ergeben.
Man sieht nach den bisherigen Uberlegungen sofort, dass bei PY im Vergleich
zu Y alle Zeilen durch die zugehorigen Gruppenzentroide ersetzt sind, wahrend
bei PmY in allen Zeilen das Gesamtzentroid steht.
Fur die Beispieldaten erhalt man zur Veranschaulichung
Y =
8 2
7 1
6 3
3 2
1 4
7 3
4 5
4 4
, PY =
7 2
7 2
7 2
2 3
2 3
5 4
5 4
5 4
, PmY =
5 3
5 3
5 3
5 3
5 3
5 3
5 3
5 3
, PbY =
2 −1
2 −1
2 −1
−3 0
−3 0
0 1
0 1
0 1
.
Die aktuelle Aufgabe besteht darin, B als das Produkt von (PbY)′ und PbY zu
bestimmen. Partitioniert man die erste Matrix in ihre Spalten und die zweite in
ihre Zeilen, so erkennt man, dass man dieses Produkt auch erhalt, indem man
die Summe der z′izi bildet, wo zi fur die i-te Zeile von PbY steht. Diese Zeilen
stimmen jedoch zum großen Teil uberein: In dem zu einer Zelle j gehorenden Teil
sind sie namlich alle gleich der transponierten Differenz (yj− y) des Zellenzentro-
ids yj und des Gesamtzentroids y. Da die Anzahl der zu einer Zelle gehorenden
Zeilen gleich nj ist, erhalt man schließlich
B =∑
nj(yj − y)(yj − y)′ ,
worin man unmittelbar auch eine Verallgemeinerung der univariaten Formel fur
SSb erkennt.
Im Beispiel erhalt man so
B = 3
(2
−1
)(2 −1
)+ 2
(−3
0
)(−3 0
)+ 3
(0
1
)(0 1
)=
(30 −6
−6 6
)
2.6 Multivariate Varianzanalyse MS13 177
in Ubereinstimmung mit der Rechnung oben.
Dass die Matrix W die Summe der SSCP-Matrizen der einzelnen Zellen ist, hatte
sich oben schon ergeben, und dies durfte in vielen Fallen auch eine gute Berech-
nungsmoglichkeit sein.
Naturlich mussen von den drei Matrizen T, B und W nur zwei bestimmt werden,
da sich die dritte auf Grund der Gleichung T = B + W dann unmittelbar ergibt.
Es soll nun noch fur spatere Zwecke eine Moglichkeit bereitgestellt werden, die
Zentroide der Daten mit Hilfe einer Matrixmultiplikation herzustellen; Ziel ist es,
eine Matrix A zu finden, so dass das Produkt AY als Zeilen gerade die Zentroide
der Gruppen besitzt. Die Losung ist aus der univariaten Varianzanalyse schon
bekannt.
Ist namlich A die (J×N)-Matrix, die in der j-ten Zeile nur Nullen enthalt außer
an den Stellen, die zu Beobachtungen in der j-ten Bedingung gehoren, wo dann
die Elemente dann 1/nj sind, so liefert die j-te Zeile von A multiplizert mit Y
gerade die durch nj geteilte Summe der zur j-ten Bedingung gehorenden Zeilen,
also in der Tat das j-te Zentroid.
Im Beispiel ist diese Matrix gleich1/3 1/3 1/3 0 0 0 0 0
0 0 0 1/2 1/2 0 0 0
0 0 0 0 0 1/3 1/3 1/3
,
und man uberzeugt sich unmittelbar, dass das Produkt
AY =
7 2
2 3
5 4
tatsachlich zeilenweise die Gruppenzentroide enthalt.
Da in A′ innerhalb der zu einzelnen Zellen gehorenden Bereiche die Zahlen va-
riablenweise konstant sind, folgt die Beziehung PwA′ = 0, die ebenso wie die
Beziehung PwPb = 0 bei der genauen Begrundung der statistischen Behandlung
eine zentrale Rolle spielt.
Vom Rang von B wurde schon weiter oben gezeigt, dass er hochstens J − 1 ist.
Die Range von T und W lassen sich entsprechend abschatzen; sie sollten im
Allgemeinen gleich p sein, was auch in der weiteren Auswertung vorausgesetzt
2.6 Multivariate Varianzanalyse MS13 178
wird. Kritisch ist dann naturlich der Fall, dass die Zahl der Versuchspersonen
klein ist, denn der Rang von W = Y′PwY ist hochstens gleich dem Rang N − Jvon Pw. Dies bedeutet, dass die weitere Auswertung nur dann moglich ist, wenn
N −J ≥ p oder N ≥ p+J gilt, was nun zusatzlich fur die Zukunft vorausgesetzt
sei.
Verteilungsvoraussetzungen. Die Matrizen B und W spielen bei der statisti-
schen Auswertung der multivariaten Varianzanalyse eine ahnlich zentrale Rolle
wie die entsprechenden Quadratsummen SSb und SSw im univariaten Fall. Es ist
daher wichtig, uber die Verteilung dieser Matrizen Bescheid zu wissen.
Da sich B und W aus der Datenmatrix Y bestimmen lassen, hangt ihre Verteilung
von der von Y ab. Damit ist das Thema der Verteilungsvoraussetzungen der
multivariaten Varianzanalyse angesprochen.
Diese Verteilungsvoraussetzungen sehen so aus, dass man analog zur univariaten
Varianzanalyse fordert, dass die Datenvektoren der Versuchseinheiten insgesamt
unabhangig sind und dass sie jeweils normalverteilt sind mit Erwartungswert µj
und einer invertierbaren Kovarianzmatrix Σ, die in allen Bedingungen gleich ist.
Man hat also wie im Univariaten die Voraussetzungen der Unabhangigkeit, der
Normalverteiltheit und der Varianzhomogenitat.
Auf diesem Modell baut nun die Auswertung der Daten auf, und man hat sich
naturlich zu fragen, ob man das Modell fur angemessen halt, ob man also denkt,
dass die Realitat des Versuchs mit diesem Modell hinreichend gut vertraglich ist
(naturlich wird niemand annehmen, dass das Modell perfekt passt – schon bei
einer solchen bloßen Formulierung liegt der Verdacht nahe, dass die empirische
Welt und die theoretische Welt gedanklich nicht angemessen getrennt werden).
Ein wichtiger Aspekt ist hier die Unabhangigkeitsvoraussetzung, bei der eine
angemessene Versuchsplanung zu gewahrleisten hat, dass die statistische Un-
abhangigkeitsannahme nicht allzu deutlich mit der Praxis der Datenerhebung
kollidiert.
Fasst man die Verteilungsvoraussetzungen noch einmal zusammen, so bedeuten
sie, dass die Zeilen der Matrix Y unabhangig sind und Np(µj,Σ)-Verteilungen
besitzen mit einem invertierbaren Σ. Bei Gultigkeit der Nullhypothese sind zu-
dem die Erwartungswertvektoren aller Zeilen von Y gleich.
Die Matrix Y ist jetzt naturlich keine konkrete Datenmatrix mehr, sondern eine
2.6 Multivariate Varianzanalyse MS13 179
Zufallsmatrix, deren Elemente Zufallsvariable sind, da es ja um die Modellie-
rung eines moglichen Experimentes geht und nicht um ein bereits konkret durch-
gefuhrtes.
Spatere Abschnitte werden sich mit Datenmatrizen beschaftigen, die den fur Y
gemachten Voraussetzungen genugen.
Aus den Voraussetzungen folgt, dass W/(N − J) erwartungstreuer Schatzer fur
Σ ist. Es hatte sich schon gezeigt, dass W die Summe der SSCP-Matrizen der
Gruppen ist. Da die Beobachtungen in den Gruppen unabhangig sind mit gleicher
theoretischer Kovarianzmatrix Σ, ist der Erwartungswert der SSCP-Matrix der
j-ten Gruppe gleich (nj−1)Σ, der Erwartungswert von W ergibt sich daher durch
Aufsummieren zu (∑
(nj − 1)) Σ = (N−J) Σ. Nach Division durch (N−J) folgt
daher
E(W/(N − J)) = Σ .
Teststatistiken. In diesem Abschnitt sollen die vier am haufigsten verwendeten
Statistiken zum Testen der Nullhypothese der multivariaten Varianzanalyse vor-
gestellt werden. Anders als im Univariaten, wo bei der Varianzanalyse eigentlich
nur der F -Bruch zum Einsatz kommt, gibt es hier mehrere Alternativen zum
Testen.
Die vier Teststatistiken sind Wilks’ Λ, Roys Maximalwurzel, die Pillai-Bartlett-
Spur und die Hotelling-Lawley-Spur
Die Alternativen beruhen teilweise auf unterschiedlichen Herangehensweisen an
das Testproblem. Fur spezifische Situationen und Ziele eignen sich einige Tests
besser als andere, ohne dass man jedoch einen als fur alle Situationen optimal
bezeichnen konnte.
Im Spezialfall der univariaten Varianzanalyse sind ubrigens die Tests alle zum F -
Test aquivalent, wesentliche Unterschiede gibt es also erst bei p ≥ 2. Hier kann es
sein, dass in derselben Situation einer der Tests signifikant wird und ein anderer
nicht.
Genauere Fragen nach der Verteilung der Teststatistiken sollen auf spater ver-
schoben werden.
Alle Tests beruhen auf den Matrizen B und W, bei genauerer Untersuchung
sogar nur auf den Eigenwerten von W−1B. Die Matrizen W und T sind praktisch
2.6 Multivariate Varianzanalyse MS13 180
immer regular und damit positiv definit, wenn die Anzahl der Versuchspersonen
groß genug ist (es muss N ≥ p+ J gelten).
Fur die Beispieldaten wurden folgende Matrizen berechnet:
T =
(40 −12
−12 12
), B =
(30 −6
−6 6
), W =
(10 −6
−6 6
).
Die erste Teststatistik ist Wilks’ Λ, das definiert ist als
Λ =det(W)
det(W + B)=
det(W)
det(T).
Fur die Beispieldaten ist die Determinante von W gleich 24 und die von T gleich
336, womit sich
Λ =det(W)
det(T)=
24
336= .0714
ergibt.
Da die Determinante ein multivariates Streuungsmaß ist, kann diese Statistik
interpretiert werden als Vergleich der Streuung innerhalb der Gruppen zur Ge-
samtstreuung. Allerdings sind die Matrizen T und W keine Kovarianzmatrizen,
sondern SSCP-Matrizen. Aus diesen entstehen jedoch Kovarianzmatrizen bei Di-
vision durch N , wobei die Determinante sich um den Faktor (1/N)p andert.
Geht man also im Zahler und im Nenner zu den entsprechenden Kovarianzma-
trizen uber, so andern sich Zahler und Nenner um den gleichen Faktor, der sich
wegkurzt. Mit Kovarianzmatrizen erhalt man daher denselben Wert fur den Quo-
tienten der Determinanten wie mit SSCP-Matrizen, so dass die gerade gegebene
Deutung von Λ gerechtfertigt ist.
Hier spricht ein kleiner Wert gegen die Nullhypothese, die daher fur kleine Λ zu
verwerfen ist.
Die Verteilung von Λ unter der Nullhypothese ist eine sogenannte Wilks’-Λ-
Verteilung. Diese Verteilungen sind gekennzeichnet durch drei Parameter, namlich
die Anzahl p der Variablen, die Anzahl ne der Fehlerfreiheitsgrade und die Anzahl
nh der Hypothesenfreiheitsgrade. Im Falle der multivariaten Varianzanalyse ist
ne = N − J und nh = J − 1, dies sind ja auch die Freiheitsgrade im univariaten
Fall. Die Abkurzung fur die Wilks’-Λ-Verteilung ist Λ(p, ne, nh).
Im Beispiel ist die Verteilung von Λ unter H0 also eine Λ(2, 5, 2)-Verteilung.
Als Wert, der bei dieser Verteilung links (!) gerade 5% abschneidet, findet man
2.6 Multivariate Varianzanalyse MS13 181
.117368. Da das empirische Λ kleiner ist als dieser kritische Wert, kann die Null-
hypothese verworfen werden.
Es ist anzumerken, dass die Bezeichnung der Parameter der Λ-Verteilungen nicht
ganz einheitlich ist. Oft trifft man auch auf Approximationen durch geeignete
F -Verteilungen, in einigen Fallen ist auch eine exakte Transformation in eine
geeignete F -Verteilung moglich.
Die zweite Teststatistik ist Roys Maximalwurzel. Leider ist die Definition unein-
heitlich. Nach einer Definition ist dies der großte Eigenwert θ1 von T−1B, nach
einer anderen der großte Eigenwert λ1 von W−1B.
Hier sollen diese beiden Moglichkeiten dadurch unterschieden werden, dass zur
Bezeichnung’Roys Maximalwurzel‘ entweder θ1 oder λ1 hinzugefugt wird.
Die Matrizen T−1B und W−1B sind im Allgemeinen nicht symmetrisch, wes-
halb es nicht selbstverstandlich ist, dass sie Eigenwerte besitzen. Da sie jedoch
das Produkt einer positiv definiten Matrix und einer mindestens positiv semide-
finiten Matrix sind, besitzen sie unter Berucksichtigung der Multiplizitat doch
p nichtnegative Eigenwerte, so dass insbesondere auch der großte Eigenwert exi-
stiert und nichtnegativ ist.
Die Bezeichnung’Wurzel‘ kommt daher, dass der großte Eigenwert die großte
Nullstelle des charakteristischen Polynoms ist, und Nullstellen von Polynomen
bezeichnet man gelegentlich auch als’Wurzeln‘. Man findet alternativ auch die
Bezeichnung großter Eigenwert.
Fur die Beispieldaten errechnet man
T−1B =
(6/7 0
5/14 1/2
)und W−1B =
(6 0
5 1
).
Die erste Matrix besitzt die Eigenwerte 6/7 und 1/2, wahrend die Eigenwerte der
zweiten 6 und 1 sind. Hier ist folglich θ1 = 6/7 = 0.8571 und λ1 = 6.
Die beiden Versionen der Maximalwurzel stehen nicht beziehungslos nebeneinan-
der, vielmehr lassen sie sich ineinander umrechnen. Genauer gilt
λ1 =θ1
1− θ1und θ1 =
λ11 + λ1
,
wie man auch unmittelbar im Beispiel bestatigt.
Die Umrechnungsformeln gelten ubrigens auch fur die weiteren Eigenwerte.
2.6 Multivariate Varianzanalyse MS13 182
Die Funktionen, die die Umrechnungen beschreiben, sind streng monoton, wes-
halb Tests mit λ1 und θ1 im Endergebnis zu den gleichen Resultaten fuhren. Die
beiden Versionen der Maximalwurzel sind damit aquivalent und ihre Verschie-
denheit ist nur oberflachlich.
Die Interpretation der Maximalwurzel fallt zunachst schwerer als bei Wilks’ Λ,
man erkennt jedoch, dass in gewisser Weise das Streuungsverhalten der Gruppen-
mittelwerte mit dem der Daten insgesamt bzw. mit dem innerhalb der Gruppen in
Beziehung gesetzt wird. Diesmal sprechen große Werte gegen die H0. Eine genaue-
re Untersuchung der Maximalwurzel, die ihren Wert als Teststatistik deutlicher
macht, folgt spater.
Die Verteilung von θ1 unter der Nullhypothese wird meist mit θmax(p, ne, nh)
bezeichnet, wobei die Bedeutung der Parameter dieselbe ist wie bei Wilks’ Λ.
Im Beispiel ist die Verteilung von θ1 unter H0 also eine θmax(2, 5, 2)-Verteilung.
Der Wert, der bei dieser Verteilung rechts gerade 5% abschneidet, ist .8577. Da das
empirische θ1 = .8571 kleiner ist als dieser kritische Wert, kann die Nullhypothese
nicht verworfen werden.
Da der Test mit Λ auf dem 5%-Niveau signifikant war, hat man hier bereits
ein Beispiel dafur, dass die verschiedenen Tests der multivariaten Varianzanalyse
tatsachlich zu unterschiedlichen Ergebnissen fuhren konnen und daher insbeson-
dere nicht aquivalent sind.
Die Anmerkungen zu Λ bezuglich der Uneinheitlichkeit der Bezeichnungen und
der Moglichkeit einer approximativen oder manchmal exakten Transformation in
eine F -Verteilung gelten analog auch fur θ1 und λ1.
Die dritte gebrauchliche Teststatistik fur die multivariate Varianzanalyse ist die
Spur der Matrix T−1B, die auch Pillai-Bartlett-Spur heißt. Im Beispiel erhalt
man den Wert 6/7 + 1/2 = 19/14 = 1.3571.
Auch bei dieser Statistik ist die Interpretation zunachst schwierig. In gewisser
Weise wird die Variation innerhalb der Gruppen mit der Gesamtvariation vergli-
chen, wobei der Vergleich mit Hilfe der Spur geschieht.
Große Werte der Statistik sprechen fur H1. Die Verteilung der Statistik unter
der Nullhypothese findet man in geeigneten Tabellen. Leider sind im Beispiel die
Zellbesetzungen so klein, dass die gangigen Tabellen versagen.
2.6 Multivariate Varianzanalyse MS13 183
Alternativ wird auch diese Statistik oft in eine Statistik transformiert, deren Ver-
teilung unter der Nullhypothese naherungsweise mit einer geeigneten F -Verteilung
ubereinstimmt.
Die letzte der am meisten verwendeten Statistiken ist die Spur von W−1B, die
auch Hotelling-Lawley-Spur heißt. Im Beispiel berechnet sie sich zu 6 + 1 = 7.
Was die Interpretation angeht, wird hier in gewisser Weise die Variation zwischen
den Gruppen diesmal mit der innerhalb der Gruppen verglichen, wieder mit Hilfe
der Spur.
Auch hier sprechen große Werte fur H1; im Ubrigen gelten auch hier die bei der
Pillai-Bartlett-Spur gemachten Bemerkungen.
Spezialfalle. In zwei Fallen sind alle vier Teststatistiken aquivalent, namlich im
Fall p = 1 und im Fall J = 2. Im zweiten Fall gibt es eine weitere Statistik, die
ebenfalls zu den genannten aquivalent ist und die außerdem bis auf einen Faktor
eine F -Verteilung besitzt, namlich Hotellings T 2.
Zunachst soll kurz der Fall p = 1 betrachtet werden. In diesem Fall enthalten die
Matrizen T, B und W nur jeweils eine Zahl, namlich SSt, SSb und SSw. Die
Matrizen T−1B und W−1B enthalten entsprechend nur die Zahlen SSb/SSt und
SSb/SSw.
Da im Fall von (1 × 1)-Matrizen die Determinante, die Spur und der großte
Eigenwert mit dem einzigen Element der Matrix ubereinstimmen, errechnet man
Kehrt man zur Ausgangsfrage zuruck, so sieht man mit Hilfe dieser Tatsachen
einerseits, dass θ eine monotone Funktion von λ ist, und andererseits auch, dass
sich λ umgekehrt aus θ als
λ =θ
1− θzuruckgewinnen lasst, also auch mit Hilfe einer monotonen Funktion.
Insgesamt sieht man, dass im Falle p = 1 die multivariaten Tests alle aquivalent
zum bekannten univariaten F -Test sind.
Der zweite Spezialfall ist der Fall J = 2, also der Fall, dass nur zwei Gruppen
untersucht werden. Hier gibt es eine weitere verbreitete Teststatistik, namlich
Hotellings T 2, die als erstes besprochen werden soll, und von der auch gleich die
Aquivalenz zur Hotelling-Lawley-Spur gezeigt werden soll.
Zunachst soll eine spezielle Formel zur Berechnung von B hergeleitet werden. Zu
diesem Zweck seien y1 und y2 die beiden Gruppenzentroide und n1 und n2 die
Gruppengroßen. Dann berechnet sich y zu
y =1
n1 + n2
(n1y1 + n2y2) ,
woraus
y1 − y =n2
n1 + n2
(y1 − y2) und y2 − y =n1
n1 + n2
(y2 − y1)
folgt. Nach der oben gegebenen Formel zur Berechnung von B mit Hilfe der
2.6 Multivariate Varianzanalyse MS13 186
Zentroide erhalt man daraus
B = n1(y1 − y)(y1 − y)′ + n2(y2 − y)(y2 − y)′
=n1n
22
(n1 + n2)2(y1 − y2)(y1 − y2)
′ +n21n2
(n1 + n2)2(y2 − y1)(y2 − y1)
′
=n1n2(n1 + n2)
(n1 + n2)2(y2 − y1)(y2 − y1)
′
=n1n2
n1 + n2
(y2 − y1)(y2 − y1)′ ,
wobei ausgenutzt wurde, dass sich y2 − y1 und y1 − y2 nur um den Faktor
(−1) unterscheiden, so dass die Produkte der beiden Vektoren mit sich selbst in
transponierter Form gleich sind.
Nun kann beispielsweise die Hotelling-Lawley-Spur auch folgendermaßen berech-
net werden:
Spur(W−1B) = Spur
(W−1 n1n2
n1 + n2
(y2 − y1)(y2 − y1)′)
=n1n2
n1 + n2
Spur((y2 − y1)′W−1(y2 − y1))
=n1n2
n1 + n2
(y2 − y1)′W−1(y2 − y1) .
Es ist sinnvoll, hier (analog zum Gebrauch im Einstichprobenfall) die Bezeichnung
Su =1
n1 + n2 − 2W =
1
n1 + n2 − 2(n1S1 + n2S2)
einzufuhren, wo S1 und S2 die Kovarianzmatrizen der Daten in den beiden Grup-
pen sind. Wegen Su = W/(N − 2) besitzt man in Su einen erwartungstreuen
Schatzer fur Σ. Schreibt man ubrigens Suj fur (nj/(nj − 1))Sj, so sind diese Sujerwartungstreue Schatzer fur Σ auf der Basis der Einzelstichproben (j = 1, 2).
Die Umformulierung
Su =1
n1 + n2 − 2((n1 − 1)Su1 + (n2 − 1)Su2)
erkennt man dann unmittelbar als Verallgemeinerung der Formel fur die gemein-
same Varianzschatzung s2 aus dem Zweistichproben-t-Test.
Die Statistik
T 2 =n1n2
n1 + n2
(y2 − y1)′S−1u (y2 − y1)
2.6 Multivariate Varianzanalyse MS13 187
heißt auch Hotelligs T 2 (fur den Zweistichprobenfall). Wegen der Beziehung
S−1u = (n1 + n2 − 2)W−1 ist T 2 das (N − 2)-fache der Hotelling-Lawley-Spur,
wobei fur die Gesamtstichprobengroße n1 + n2 wieder N geschrieben wird. Der
Test mit T 2 und der mit der Hotelling-Lawley-Spur sind daher aquivalent.
Die Kovarianzmatrix der Differenz der Mittelwertvektoren y2 und y1 errechnet
man zu (1/n2)Σ + (1/n1)Σ = ((n1 + n2)/(n1n2))Σ. Die Inverse dieser Matrix ist
((n1n2)/(n1 + n2))Σ−1. Schatzt man Σ durch Su, so kann man T 2 interpretie-
ren als die quadrierte Mahalanobisdistanz der Mittelwertvektoren bezuglich einer
Schatzung der Kovarianzmatrix der Differenz dieser Vektoren.
Fur p = 1 ist Su die Matrix, die die erwartungstreue Schatzung s2 der Fehlerva-
rianz enthalt, weshalb man hier fur
T 2 =n1n2
n1 + n2
(y2 − y1)2
s2
gerade die quadrierte t-Statistik im Zweistichprobenfall erhalt – in dieser Hinsicht
passt die Bezeichnung T 2 also gut bis auf die Großschreibung.
Es leuchtet unmittelbar ein, dass die Nullhypothese, dass die beiden (theoreti-
schen) Zentroide ubereinstimmen, bei großen Werten von T 2 zu verwerfen ist.
Unter der Nullhypothese hat T 2 eine sogenannte Hotellings-T 2-Verteilung mit
den Parametern p und N − 2, die auch mit T 2(p,N − 2) abgekurzt wird. Die
Parameter sind dabei die Anzahl p der Variablen und die Differenz N − 2 aus
der Zahl der Beobachtungen und der Gruppen, die ja auch in der Varianzanalyse
und beim t-Test als Zahl der Nennerfreiheitsgrade eine wichtige Rolle spielt.
Diese Verteilung ist eng mit einer F -Verteilung verwandt, genauer kann man
zeigen, dass
T 2(p,N − 2) =(N − 2)p
N − p− 1Fp,N−p−1
gilt, was so zu interpretieren ist, dass die T 2(p,N − 2)-Verteilung mit der Ver-
teilung einer mit dem Faktor ((N − 2)p)/(N − p − 1) multiplizierten Fp,N−p−1-
verteilten Variable ubereinstimmt (die Tatsache, dass die Summe der Freiheits-
grade der zugehorigen F -Verteilung gerade N−1 ist, bietet sich als Merkhilfe fur
die Freiheitsgrade an).
Dies kann auf zwei Arten fur einen Signifikanztest genutzt werden. Zur Erlauterung
sei F eine Fp,N−p−1-verteilten Variable. Die H0-Verteilung von T 2 ist dann die
von ((N − 2)p)/(N − p − 1)F , weshalb die von (N − p − 1)/((N − 2)p)T 2
2.6 Multivariate Varianzanalyse MS13 188
eine Fp,N−p−1-Verteilung ist. Die erste Moglichkeit besteht also darin, T 2 zu
(N−p−1)/((N−2)p)T 2 zu transformieren, das unterH0 eine Fp,N−p−1-Verteilung
hat, und dann rechtsseitig zu testen. Die Entscheidungsregel ist dann die, H0 dann
zu verwerfen, wennN − p− 1
(N − 2)pT 2 ≥ Fp,N−p−1;α
gilt; der Ausdruck rechts ist dabei das α-Fraktil der Fp,N−p−1-Verteilung, also der
Wert, der rechts bei dieser Verteilung α abschneidet. Ausfuhrlich kann man die
Teststatistik auch so schreiben:
N − p− 1
(N − 2)pT 2 =
n1n2(N − p− 1)
N(N − 2)p(y2 − y1)
′S−1u (y2 − y1)
=(N − p− 1)
pSpur
(W−1B
).
Die letzte Form gibt die Umrechnung der Hotelling-Lawley-Spur in eine F -verteilte
Statistik.
Die zweite Moglichkeit besteht darin, nicht die T 2-Statistik zu transformieren,
sondern den kritischen Wert der F -Verteilung. Hierzu sei wieder F eine Fp,N−p−1-
verteilten Variable. Das α-Fraktil der Verteilung von ((N−2)p)/(N−p−1)F ist
dann das ((N − 2)p)/(N − p− 1)-fache des α-Fraktils der Fp,N−p−1-Verteiltung,
und da die Verteilung von ((N − 2)p)/(N − p − 1)F mit der von T 2 unter H0
ubereinstimmt, auch das der T 2(p,N−2)-Verteilung. Das α-Fraktil T 2(p,N−2;α)
der T 2(p,N − 2)-Verteilung ist also
T 2(p,N − 2;α) =(N − 2)p
N − p− 1Fp,N−p−1;α ,
und H0 ist zu verwerfen, wenn T 2 ≥ T 2(p,N − 2;α) gilt. Ausfuhrlich formuliert
heißt das, dass
T 2 ≥ (N − 2)p
N − p− 1Fp,N−p−1;α
sein muss – man sieht sofort, dass dies nur eine Umformulierung der ersten gege-
benen Regel ist.
Das Verfahren soll gleich an einem Beispiel illustriert werden. Dazu seien in zwei
2.6 Multivariate Varianzanalyse MS13 189
Gruppen mit je drei Personen die folgenden Daten erhoben worden:
Y =
8 2
7 1
6 3
7 3
4 5
4 4
Zu untersuchen ist, ob sich die zugehorigen Zentroide µ1 und µ2 sich unterschei-
den. Man berechnet dazu die entsprechenden Mittelwerte zu
y1 =
(7
2
)und y2 =
(5
4
)und die SSCP-Matrizen der beiden Gruppen zu(
2 −1
−1 2
)und
(6 −3
−3 2
).
Hieraus bestimmt man
y2 − y1 =
(−2
2
)und Su =
1
4
(8 −4
−4 4
)=
(2 −1
−1 1
).
Mit
S−1u =
(1 1
1 2
)errechnet man damit
T 2 =n1n2
n1 + n2
(y2 − y1)′S−1u (y2 − y1) =
3 · 33 + 3
(−2 2
)(1 1
1 2
)(−2
2
)= 6 .
Nebenbei ergibt sich die Hotelling-Lawley-Spur zu 6/4 = 1.5.
Unter H0 besitzt T 2 eine T 2(p,N − 2)-Verteilung, also eine T 2(2, 4)-Verteilung.
Zum Test auf dem 5%-Niveau kann einerseits T 2 in eine F -Statistik transformiert
werden. Hierzu ist T 2 mit (N − p− 1)/((N − 2)p) = (6− 2− 1)/((6− 2)2) = 3/8
zu multiplizieren, was 6 · 3/8 = 2.25 ergibt. Dieser Wert ist zu vergleichen mit
dem .05-Fraktil der Fp,N−p−1-Verteilung, also mit F2, 3; .05 = 9.55. Offensichtlich
ist das Ergebnis nicht signifikant.
2.6 Multivariate Varianzanalyse MS13 190
Andererseits kann der T 2-Wert direkt mit dem zugehorigen kritischen Wert ver-
glichen werden, der hier das ((N − 2)p)/(N − p− 1)-fache, also das 8/3-fache des
gerade schon bestimmten .05-Fraktils F2, 3; .05 = 9.55 ist, also (8/3) · 9.55 = 25.47.
Naturlich ist auch hier T 2 = 6 nicht signifikant, und man sieht an der Rechnung
auch noch einmal, dass beide Alternativen zum gleichen Ergebnis fuhren mussen.
In dem Spezialfall J = 2 der multivariaten Varianzanalyse steht neben den
vier ublichen Teststatistiken also auch noch Hotellings T 2 als Teststatistik zur
Verfugung. Es hat sich oben schon herausgestellt, dass Hotellings T 2 aquivalent
zur Hotelling-Lawley-Spur ist; aber auch alle drei anderen Tests sind zu diesen
beiden aquivalent, so dass im Fall J = 2 alle funf moglichen Tests aquivalent
sind. Dies lasst sich recht einfach mit Hilfe der Eigenwerte von W−1B zeigen,
was in einem der nachsten Abschnitte geschehen soll. Entscheidend ist dabei die
Tatsache, dass fur J = 2 der Rang von B hochstens 1 ist, was auch die gerade
hergeleitete Alternativformel fur B noch einmal deutlich zeigt.
Vielleicht ist es nicht uberflussig, zum Abschluss genauer auf Situationen einzu-
gehen, in denen zwei Teststatistiken in monotoner Beziehung stehen. In diesen
Fallen wurde gesagt, dass die zugehorigen Tests aquivalent sind, was bedeuten
sollte, dass sie immer zum gleichen Resultat fuhren mussen. Diese eigentlich ein-
leuchtende Aussage soll nun begrundet werden.
Zuvor sei der Vollstandigkeit halber an den Begriff der streng monotonen Funktion
erinnert. Ist D eine Teilmenge von R, so heißt eine Funktion f : D → R streng
monoton wachsend, falls fur alle x1 < x2 aus D auch f(x1) < f(x2) gilt.
Eine solche Funktion respektiert also die Ordnungsrelation. Neben den streng
monoton wachsenden Funktionen gibt es noch die streng monoton fallenden, bei
denen die Ordnung umgekehrt wird. Bei solchen Funktionen soll fur alle x1 < x2aus D die Beziehung f(x1) > f(x2) gelten.
Da nun es offenbar bei solchen Funktionen nie sein kann, dass zwei verschiedene
x-Werte denselben Funktionswert zugewiesen bekommen, ist es moglich, aus den
Funktionswerten die x-Werte eindeutig zu rekonstruieren; mit anderen Worten
sind solche Funktionen umkehrbar. Dabei erben die Umkehrfunktionen offenbar
die Eigenschaft der strengen Monotonie: Umkehrfunktionen von streng monoton
wachsenden Funktionen sind ebenfalls streng monoton wachsend und Umkehr-
funktionen von streng monoton fallenden ebenfalls streng monoton fallend.
Der Zusatz’streng‘ wird, da hier ausschließlich streng monotone Funktionen be-
2.6 Multivariate Varianzanalyse MS13 191
trachtet werden, der Kurze halber wie auch schon oben meist weggelassen.
Zur Begrundung der Aquivalenz von Tests mit Statistiken, die sich monoton in-
einander transformieren lassen, seien nun fur dieselben Daten zwei Teststatistiken
T1 und T2 gegeben, wobei die Statistik T2 sich aus T1 als T2 = f(T1) mit Hilfe
einer streng monotonen Funktion f berechnen lasst. Es sei vorausgesetzt, dass f
monoton wachsend ist, fur monoton fallende Funktionen argumentiert man ana-
log, außer dass sich die Richtung der Tests andert – aus einem rechtsseitigen Test
wird also ein linksseitiger und umgekehrt.
Als Beispiel kann man an die beiden Versionen λ und θ von Roys Maximalwurzel
fur den Fall p = 1 denken, von denen sich ja gezeigt hatte, dass sie sich durch
In beiden Tests soll nun die Nullhypothese fur große Werte verworfen werden (fur
linksseitige Tests argumentiert man analog, bei monoton fallenden Transforma-
tionen ware dagegen vorauszusetzen, dass die Nullhypothese bei dem einen Test
fur große Werte verworfen wird und bei dem anderen fur kleine). Die kritischen
Werte auf Niveau α seien k1 und k2; der Einfachheit halber sei vorausgesetzt,
dass diese kritischen Werte eindeutig sind in dem Sinne, dass sie die einzigen
sind, die bei den zugehorigen Verteilungen rechts α abschneiden, was in den hier
behandelten Situationen immer der Fall ist. Die Statistik Ti wird also genau dann
signifikant, wenn Ti ≥ ki gilt.
Da die Werte ki bei den Verteilungen von Ti unter H0 beide rechts α abschneiden,
gilt P(Ti ≥ ki) = α, wobei P die Wahrscheinlichkeit unter H0 bezeichnet. Nun
ist wegen der Monotonie von f die Gleichung T1 ≥ k1 genau dann erfullt, wenn
f(T1) ≥ f(k1) ist. Insbesondere ist die Wahrscheinlichkeit dafur, das T1 ≥ k1 gilt,
gleich der Wahrscheinlichkeit, dass f(T1) ≥ f(k1) gilt. Nun ist aber f(T1) = T2,
woraus P(T2 ≥ f(k1)) = α folgt, und dies bedeutet, dass f(k1) bei der Verteilung
von T2 unter H0 rechts gerade α abschneidet, mit anderen Worten, dass f(k1)
der kritische Wert fur den Test T2 ist. Dieser kritische Wert ist andererseits k2,
wegen der Eindeutigkeit muss also k2 = f(k1) gelten.
Damit ist die Aquivalenz der beiden Tests gezeigt, denn da nun T1 ≥ k1 genau
dann gilt, wenn T2 ≥ k2 gilt, wird offenbar T1 genau dann signifikant, wenn T2signifikant wird.
Die Argumentation hat ubrigens auch gezeigt, dass man den kritischen Wert fur
den Test mit T2 einfach dadurch erhalt, dass man auf den kritischen Wert k1 des
2.6 Multivariate Varianzanalyse MS13 192
Tests mit T1 die Funktion f anwendet, der kritische Wert k2 fur T2 ist also f(k1).
Eigenwerte. In diesem Abschnitt soll gezeigt werden, dass sich alle Teststatisti-
ken der multivariaten Varianzanalyse mit Hilfe der Eigenwerte von W−1B aus-
drucken lassen. Es wird sich dabei auch die Aquivalenz der verschiedenen Tests
fur J = 2 ergeben.
Da die behandelten Sachverhalte auch in anderen Situationen wichtig sind, sol-
len die allgemeinere Bezeichnungen gewahlt werden, die nicht so stark mit der
Situation der Varianzanalyse assoziiert sind.
Die Ausgangssituation ist die, dass zwei symmetrische positiv semidefinite (p×p)-Matrizen A und B gegeben sind, wobei A invertierbar, also sogar positiv definit
ist.
Bei der multivariaten Varianzanalyse ubernimmt dann W die Rolle von A, wah-
rend die Bezeichnung B bereits passt.
In dieser Situation werden nun mehrere Fragen behandelt, die sich mit Eigenwer-
ten von Matrizen beschaftigen, die sich aus A und B zusammensetzen.
Zunachst erkennt man leicht, dass A + B positiv definit und damit auch inver-
tierbar ist: Offenbar ist A+B symmetrisch, und fur jedes x 6= 0 ist der Ausdruck
x′(A + B)x = x′Ax + x′Bx wegen x′Ax > 0 und x′Bx ≥ 0 großer als 0, woraus
die positive Definitheit folgt.
Bekanntlich stimmen die Eigenwerte von A−1B = A−1/2A−1/2B mit denen von
A−1/2BA−1/2 uberein. Diese letzte Matrix ist jedoch symmetrisch und positiv
semidefinit und besitzt daher p nichtnegative Eigenwerte, die in absteigender
Reihenfolge λ1, . . . , λp heißen sollen (man erinnere sich hier ubrigens an die Kon-
vention, nach der Eigenwerte so oft aufzulisten sind, wie ihre geometrische Mul-
tiplizitat angibt).
Diese Eigenwerte λ1, . . . , λp sind also auch die Eigenwerte von A−1B. Was zu-
gehorige Eigenvektoren angeht, so gilt hier, dass y genau dann ein Eigenvek-
tor von A−1/2BA−1/2 ist, wenn A−1/2y Eigenvektor von A−1B ist (und zwar
zum selben Eigenwert). Wahlt man nun fur A−1/2BA−1/2 eine Orthonormalba-
sis y1, . . . ,yp von Eigenvektoren zu den λi, und setzt man xi = A1/2yi, so sind
die xi Eigenvektoren zu λi von A−1B, die wegen der Invertierbarkeit von A1/2
zusatzlich linear unabhangig sind. Man hat mit den xi also eine Basis des Rp aus
Eigenvektoren von A−1B.
2.6 Multivariate Varianzanalyse MS13 193
Die nachste Frage, die es zu losen gilt, ist die nach den Eigenwerten von I+A−1B.
Ist x ein Eigenvektor zu einem Eigenwert λ von A−1B, gilt also (A−1B)x = λx,
so gilt auch
(I + A−1B)x = x + (A−1B)x = x + λx = (1 + λ)x ,
was gerade bedeutet, dass x auch Eigenvektor zum Eigenwert (1+λ) von I+A−1B
ist.
Mit den xi besitzt man also bereits p linear unabhangige Eigenvektoren von
I+A−1B zu Eigenwerten 1+λi. Die Summe der Dimensionen der Eigenraume zu
diesen Eigenwerten ist daher ≥ p, woraus folgt, dass man bereits alle Eigenwerte
von I + A−1B gefunden hat.
Als Ergebnis kann festgehalten werden, dass die Eigenwerte von I+A−1B gerade
(1 + λ1), . . . , (1 + λp) sind, wobei die zugehorigen Eigenvektoren dieselben sind
wie die von A−1B zu den Eigenwerten λi. Offenbar sind die Eigenwerte (1 + λi)
auch schon in absteigender Reihenfolge angeordnet.
Nun soll mit Hilfe dieser Eigenwerte ein Quotient von Determinanten bestimmt
werden (im Falle der Varianzanalyse gerade Wilks’ Λ), namlich
Λ =det(A)
det(A + B)
(da A + B positiv definit ist, taucht hier kein Problem wegen einer moglichen
schreiben. Da die Determinante von I+A−1B gleich dem Produkt der Eigenwerte
1 + λi dieser Matrix ist, lasst sich der Quotient folgendermaßen umformen:
Λ =det(A)
det(A + B)=
p∏i=1
1
1 + λi
(∏
ist dabei naturlich – vollig analog zum Summenzeichen∑
– die Abkurzung
fur ein Produkt). Da alle λi nichtnegativ waren, folgt weiter, dass der untersuchte
Quotient großer als 0 ist und maximal den Wert 1 annehmen kann, was allerdings
nur in dem Extremfall A−1B = 0, also B = 0 vorkommen kann.
2.6 Multivariate Varianzanalyse MS13 194
Das nachste Problem ist das der Eigenwerte von (A+B)−1B, die θi heißen sollen.
Es soll gezeigt werden, dass diese Eigenwerte in enger Beziehung zu den λi stehen.
Im Falle der Varianzanalyse geht es ubrigens um die Eigenwerte von T−1B.
Ist λ irgendein Eigenwert von A−1B mit Eigenvektor x, so gilt A−1Bx = λx,
woraus Bx = λAx und
(1 + λ)Bx = Bx + λBx = λAx + λBx = λ(A + B)x
folgt, was wiederum (A+B)−1Bx = (λ/(1+λ))x impliziert. Dies bedeutet aber,
dass λ/(1 + λ) Eigenwert von (A + B)−1B mit Eigenvektor x ist.
Genau wie eben folgert man daraus, dass die Eigenwerte von (A + B)−1B gerade
die λi/(1+λi) fur i = 1, . . . , p sind, wobei die zugehorigen Eigenvektoren dieselben
sind wie die von A−1B zu den Eigenwerten λi.
Wie man sieht, erhalt man die Eigenwerte θi aus den λi durch Anwendung der
Funktion f(x) = x/(1 + x), die sich ja gerade als streng monoton wachsend
erwiesen hat. Mit den λi sind also auch die θi bereits in absteigender Reihenfol-
ge angeordnet, was insbesondere bedeutet, dass der großte Eigenwert θ1 gleich
λ1/(1 + λ1) ist.
Offenbar ist θ1 kleiner als 1 und damit auch alle weiteren θi.
Wegen der Umkehrbarkeit der Funktion f kann man aus den θi auch wieder
ruckwarts die λi bestimmen. Man erhalt so die folgenden Beziehungen:
θi =λi
1 + λiund λi =
θi1− θi
.
Nun konnen die gewonnenen Ergebnisse auf den Fall der multivariaten Varianz-
analyse angewendet werden. Die Rolle von A spielt hier die Matrix W, wahrend
B schon den passenden Namen tragt.
Eine zentrale Rolle spielen die Matrizen W−1B und T−1B. Sind λ1, . . . , λp die
Eigenwerte von W−1B in absteigender Reihenfolge, und θ1, . . . , θp die von T−1B
(ebenfalls in absteigender Reihenfolge), so gilt
θi =λi
1 + λiund λi =
θi1− θi
.
Die Transformation ist in beiden Richtungen streng monoton wachsend. Entspre-
chende Eigenwerte haben dabei die gleichen Eigenvektoren.
2.6 Multivariate Varianzanalyse MS13 195
Damit konnen die multivariaten Statistiken mit Hilfe der Eigenwerte ausgedruckt
werden. Zunachst gilt fur Wilks’ Λ die Gleichung
Λ =
p∏i=1
1
1 + λi=
p∏i=1
(1− θi) ,
deren erster Teil oben schon gezeigt wurde. Der zweite Teil folgt beispielsweise
aus1
1 + λi+ θi =
1
1 + λi+
λi1 + λi
= 1 ,
was 1/(1 + λi) = 1− θi zur Folge hat.
Roys Maximalwurzel ist entweder θ1 oder λ1; diese beiden Werte lassen sich durch
die angegebenen monotonen Transformationen ineinander umrechnen.
Die Pillai-Bartlett-Spur ist
Spur(T−1B) =
p∑i=1
θi =
p∑i=1
λi1 + λi
und die Hotelling-Lawley-Spur
Spur(W−1B) =
p∑i=1
λi =
p∑i=1
θi1− θi
,
da die Spur dieser Matrizen die Summe der Eigenwerte ist (hier ist die Tatsache
wichtig, dass T−1B und W−1B jeweils – mit Berucksichtigung der Multiplizitat
– gerade p Eigenwerte besitzen).
Damit ist es gelungen, alle multivariaten Statistiken durch die Eigenwerte λi von
W−1B oder alternativ durch die Eigenwerte θi von T−1B auszudrucken.
Die Formeln sollen nun auch noch einmal durch das Beispiel der Varianzanalyse
mit den drei Bedingungen illustriert werden. Die notigen Eigenwerte waren schon
bestimmt worden – die Eigenwerte von W−1B sind λ1 = 6 und λ2 = 1, wahrend
die von T−1B gleich θ1 = 6/7 und θ2 = 1/2 sind.
Als erstes sieht man, dass die Umrechnungsformeln zum richtigen Ergebnis fuhren,
beispielsweise ist θ1 = λ1/(1 + λ1) = 6/(1 + 6) = 6/7 oder λ2 = θ2/(1 − θ1) =
(1/2)/(1− 1/2) = 1.
Wilks’ Λ ist das Produkt der 1/(1 + λi), also das Produkt von 1/7 und 1/2,
was 1/14 = .0174 ergibt, in Ubereinstimmung mit der Rechnung oben. Mit dem
Produkt der (1− θi) erhalt man naturlich das gleiche Ergebnis.
2.6 Multivariate Varianzanalyse MS13 196
Die Pillai-Bartlett-Spur ist die Summe der θi, also 19/14 = 1.3571, wahrend die
Hotelling-Lawley-Spur die Summe der λi ist, also 7. Beides stimmt mit den schon
berechneten Werten uberein.
Zum Abschluss ist noch der Fall zu behandeln, dass B (im Fall J = 2) hochstens
den Rang 1 besitzt. Es soll gezeigt werden, dass alle multivariaten Statistiken
aus Roys Maximalwurzel λ1 durch eine monotone Transformation hervorgehen.
Damit sind dann diese Statistiken alle aquivalent.
Wenn B hochstens Rang 1 hat, besitzt auch W−1B hochstens den Rang 1, und
die Eigenwerte dieser Matrix sind alle gleich 0 bis auf hochstens λ1, der dann
auch der großte ist.
Den großten Eigenwert θ1 von T−1B errechnet man zu λ1/(1+λ1). Die restlichen
θi sind alle 0. Die Maximalwurzel θ1 ist also (was ja auch schon bekannt war)
eine monotone Funktion von λ1.
Wilks’ λ ist hier 1/(1 + λ1), da alle weiteren Faktoren 1/(1 + λi) in der Pro-
duktdarstellung gleich 1 sind. Wilks’ λ ist also eine monotone Funktion von λ1 –
diesmal eine monoton fallende (weshalb ja auch hier linksseitig getestet wird).
Da die θi und die λi fur i > 1 alle 0 sind, ist die Pillai-Bartlett-Spur gleich θ1 =
λ1/(1 + λ1) und die Hotelling-Lawley-Spur gleich λ1. Die Spuren sind also hier
gleich den beiden Versionen der Maximalwurzel und folglich ebenfalls monotone
Transformationen von λ1.
Insgesamt sind im Fall J = 2 also alle Statistiken monotone Funktionen von λ1und damit aquivalent. Dass auch Hotellings T 2 als ein Vielfaches der Hotelling-
Lawley-Spur aquivalent zu λ1 ist, hat sich oben schon gezeigt.
Invarianz. Die vier Tests der multivariaten Varianzanalyse sind invariant ge-
genuber bijektiven affinen Transformationen; die Teststatistiken andern sich also
nicht, wenn man die Daten einer solchen Transformation unterzieht. Hierunter
fallt insbesondere die Moglichkeit, dass man die Skalen der einzelnen Variablen
durch andere ersetzt, die sich durch’lineare Transformationen‘ ergeben(damit
sind hier solche der Form u = ay + b mit a 6= 0 gemeint).
Mit geeigneten Transformationen kann man auch den vier Statistiken eine noch
anschaulichere Interpretation geben.
Zur Begrundung dieser Invarianzeigenschaft sei also u = Ay+b eine affine Trans-
2.6 Multivariate Varianzanalyse MS13 197
formation von y mit einer invertierbaren (p×p)-Matrix A. Die neuen Erwartungs-
werte fur die Bedingungen sind hier Aµj +b, und wegen der Invertierbarkeit von
A erkennt man sofort, dass die neuen Erwartungswerte genau dann alle gleich
sind, wenn die µj gleich sind; die Nullhypthese gilt fur die transformierten Daten
also genau dann, wenn sie fur die Origialdaten gilt.
Nun sollen die B-, die W- und die T-Matrix fur die transformierten Daten be-
stimmt werden; zur Unterscheidung sollen sie B, W und T heißen. Hierzu wird
die neue Datenmatrix benotigt, die U heißen soll und sich aus der Originalda-
tenmatrix Y bekanntlich als U = YA′ + 1b′ ergibt.
Die Matrizen B, W und T erhalt man dann als U′PbU, U′PwU und U′PtU,
wo Pb, Pw und Pt die entsprechenden Projektionsoperatoren sind. Da Pb1, Pw1
und Pt1 bekanntlich alle gleich 0 sind, folgt
B = U′PbU = (YA′)′Pb(YA′) = AY′PbYA′ = ABA′
und entsprechend W = AWA′ und T = ATA′ . Hieraus ergibt sich
W−1
B = (AWA′)−1ABA′ = A′−1W−1A−1ABA′ = A′−1W−1BA′ ,
und wegen der Invertierbarkeit von A′ sind die Eigenwerte dieser Matrix diesel-
ben wie die von A′A′−1W−1B = W−1B. Aus der Gleichheit der Eigenwerte von
W−1
B und W−1B folgt aber unmittelbar die Gleichheit der aus diesen Eigen-
werten zusammengesetzten Teststatistiken.
Erganzend werden noch die zugehorigen Eigenvektoren bestimmt. Da nach einem
bekannten Satz aus der linearen Algebra ein Vektor x genau dann Eigenvektor zu
einem Eigenwert λ von W−1
B = A′−1W−1BA′ ist, wenn A′x Eigenvektor von
A′A′−1W−1B = W−1B zum selben Eigenwert ist, erhalt man die Eigenvektoren
von W−1
B zum Eigenwert λi genau als die A′−1v, wo v Eigenvektor von W−1B
zu λi ist.
Anschauliche Deutung der Statistiken. Mit Hilfe der Invarianzeigenschaft
kann nun den Statistiken der multivariaten Varianzanalyse eine anschaulichere
Deutung gegeben werden.
Zunachst soll Wilks’ Λ betrachtet werden. Hierzu wird in der folgenden Abbil-
dung die Darstellung der Beispieldaten wieder aufgegriffen, zusatzlich werden
aber noch Ellipsen eingezeichnet, die in gewisser Weise die Matrizen T, B und
Zum Vergleich folgt die entsprechende Zeichnung fur die Linearkombination Y2(also die Betrachtung der zweiten Variable fur sich genommen). In diesem Fall
hat man eine deutliche Uberlappung der drei’Streuungsintervalle‘, was auch an-
schaulich erwarten lasst, dass der F -Bruch fur diese Linearkombination wohl nicht
Die Frage nach der Linearkombination mit dem maximalen F -Bruch hat vie-
le Losungen, da alle Eigenvektoren zum großten Eigenwert λ1 von W−1B eine
Losung liefern. Insbesondere ist jede lineare Transformation cU + d einer Losung
U mit c 6= 0 wieder eine Losung, da der neue Koeffizientenvektor gerade das
c-fache des alten und damit wieder Eigenvektor zu λ1 ist.
Es ist daher naheliegend, eine Art Standardisierung durch eine Zusatzforderung
vorzunehmen.
Da man solche Standardisierungen nicht nur in dieser Situation durchfuhrt, son-
dern auch bei anderen Linearkombinationen, soll dies nun auch allgemein be-
sprochen werden. Es sei also irgendeine Linearkombination U =∑aiYi + b der
Originalvariablen gegeben, deren Koeffizienten wie ublich zu einem Koeffizien-
tenvektor a zusammengefasst seien.
Im Einstichprobenfall ist die ubliche Standardisierung gerade die z-Transforma-
tion, die bewirkt, dass der Mittelwert zu 0 wird und die Varianz zu 1. Analog
soll hier eine Standardisierung eine lineare Transformation cU +d von U sein, die
ahnliche Eigenschaften besitzt.
Was den Mittelwert angeht, wird man fordern, dass der Mittelwert aller Daten
nach der Standardisierung 0 ist. Hingegen hat man bei der Verallgemeinerung der
Varianz-Bedingung zwei Optionen. Einerseits konnte man fordern, dass die Vari-
anz aller Daten nach der Standardisierung 1 sein soll, andererseits aber auch, dass
die Varianz innerhalb zu 1 werden soll. Hier entscheidet man sich ublicherweise
fur die zweite Alternative, was auch sinnvoll erscheint, da die Auswahl der Ver-
suchsbedingungen, die ja die Gesamtvarianz beeinflusst, oft willkurlich sein wird,
wahrend die Varianzen innerhalb der Gruppen in vielen Fallen als naturliche
Schwankung interpretierbar sind.
Dabei ist zunachst zu klaren, was unter der Varianz innerhalb der Gruppen zu
verstehen ist. Fur die Variable U , deren Koeffizientenvektor a ist, ist die (theore-
2.6 Multivariate Varianzanalyse MS13 211
tische) Varianz innerhalb jeder Gruppe gleich a′Σa, da ja Σ die Kovarianzmatrix
der Werte in jeder Gruppe ist. Es liegt daher nahe, als (empirische) Varianz inner-
halb der Gruppen einen erwartungstreuen Schatzer dieser theoretischen Varianz
zu wahlen.
Aus der bekannten Tatsache, dass W/(N − J) die theoretische Kovarianzmatrix
Σ erwartungstreu schatzt, folgt nun, dass fur alle p-Vektoren a und b die Statistik
a′(W/(N − J))b = a′Wb/(N − J) ein erwartungstreuer Schatzer fur a′Σb ist,
denn bezeichnen σij und wij die Elemente von Σ und W, so gilt fur alle i und j
die Beziehung E(wij/(N − J)) = σij und daher
E(a′(W/(N − J))b) = E(∑
aibjwij/(N − J))
=∑
aibjE(wij/(N − J)) =∑
aibjσij = a′Σb .
Insbesondere gilt fur den Koeffizientenvektor a von U , dass a′Wa/(N − J) die
Varianz a′Σa von U innerhalb der Gruppen erwartungstreu schatzt, weshalb
a′Wa/(N − J) nun die Rolle der empirischen Varianz innerhalb der Gruppen
spielen soll. Dies steht im Einklang damit, dass es sich dabei ja gerade um
MSw = SSw/(N − J) der Variable U handelt und damit um den bekannten
erwartungstreuen Schatzer der Fehlervarianz aus der univariaten Varianzanalyse.
Spater wird auch die Kovarianz und die Korrelation von zwei Variablen innerhalb
der Gruppen gebraucht werden. Haben diese beiden Variablen die Koeffizienten-
vektoren a und b, so ist die (theoretische) Kovarianz innerhalb jeder Gruppe
gleich a′Σb, was von a′Wb/(N − J) erwartungstreu geschatzt wird. Daher soll
a′Wb/(N − J) auch als (empirische) Kovarianz der gegebenen Variablen inner-
halb der Gruppen bezeichnet werden.
Als Korrelation dieser Variablen innerhalb der Gruppen bezeichnet man dann
naheliegenderweise die Zahl
a′Wb/(N − J)√a′Wa/(N − J)
√b′Wb/(N − J)
=a′Wb√
(a′Wa)(b′Wb).
Ersetzt man links (N − J) uberall durch N , so bleibt das Ergebnis gleich, die
linke Seite ist dann jedoch eine Korrelation im ublichen Sinn, namlich die der
Daten, die entstehen, wenn man in beiden Variablen alle Werte durch ihre Ab-
weichung von den Gruppenmittelwerten ersetzt. Dies erkennt man unmittelbar
daran, dass die entsprechenden Datenvektoren gleich PwYa bzw. PwYb sind
und die Kovarianz folglich gleich (1/N)(PwYa)′(PwYb) = (1/N)a′Wb (fur den
2.6 Multivariate Varianzanalyse MS13 212
Nenner argumentiert man analog). Da also der als Korrelation bezeichnete Aus-
druck auch tatsachlich eine Korrelation ist, besitzt er auch die Eigenschaften einer
Korrelation, kann also beispielsweise nur Werte zwischen −1 und 1 annehmen.
Die so definierten Korrelationen innerhalb der Gruppen sollen auch kurz Inner-
gruppen-Korrelationen heißen.
Die Forderung, dass die Innergruppenkorrelation von zwei von Variablen mit von
0 verschiedenen Koeffizientenvektoren a und b gleich 0 ist, ist offenbar aquivalent
zur Forderung, dass
a′Wb = 0
gelten soll.
Man pruft ubrigens leicht nach, dass die Innergruppenkorrelation von zwei Line-
arkombinationen U und V der Variablen Yi sich nicht andert, wenn wenn man U
und V durch lineare Transformationen aU + b und cV + d ersetzt, sofern a und
c großer als 0 sind.
Nun soll die Linearkombination U =∑aiYi + b der Originalvariablen stan-
dardisiert werden in dem gerade prazisierten Sinn. Mittelwert und SSw von U
sind a′y + b und a′Wa, woraus sich Mittelwert und SSw von cU + d bestim-
men als c(a′y + b) + d und c2a′Wa, letzteres, da ca der Koeffizientenvektor
von cU + d bezuglich der Originalvariablen ist. Die Forderung, dass die Vari-
anz SSw/(N−J) innerhalb der Gruppen zu 1 werden soll, ist genau dann erfullt,
wenn c = ±√
(N − J)/a′Wa gilt, die Forderung fur den Mittelwert genau dann,
wenn d = −c(a′y + b) ist. Es ergeben sich also genau zwei mogliche Standar-
disierungen, die durch Multiplikation mit (−1) auseinander hervorgehen. Am
einfachsten nimmt man hier die positive Losung fur c (man kann naturlich auch
die andere nehmen, wenn irgendwelche Grunde dafur sprechen, wie beispielsweise
eine zwanglosere’Interpretierbarkeit‘).
Die standardisierte Variable ist dann insgesamt
cU + d = c(∑
aiYi + b)− c(a′y + b) =
√N − Ja′Wa
(∑aiYi − a′y
),
was man auch noch als √N − Ja′Wa
∑ai(Yi − Yi)
schreiben kann, wobei Yi den Mittelwert aller Daten in der Variable Yi bezeichnet.
2.6 Multivariate Varianzanalyse MS13 213
Der Koeffizient von Yi nach der Standardisierung ist also√
(N − J)/(a′Wa) aiund der neue Koeffizientenvektor folglich
√(N − J)/(a′Wa) a; er ist also ein
Vielfaches des alten. Die additive Konstante ist dann −√
(N − J)/(a′Wa) a′y.
Im Sonderfall der Standardisierung der i-ten Originalvariablen ist a der i-te Ein-
heitsvektor und folglich a′Wa gerade das i-te Diagonalelement von W.
Zur Illustration sollen nun die beiden Originalvariablen des Beispiels in diesem
Sinne standardisiert werden. Hier galt
y =
(5
3
)und W =
(10 −6
−6 6
).
Fur N − J ergibt sich 8 − 3 = 5. Nennt man die standardisierten Variablen
naheliegenderweise Zi (womit naturlich jetzt nicht die z-Transformierten gemeint
sind), so erhalt man
Z1 =√
5/10 (Y1 − 5) = .707Y1 − 3.535
und
Z2 =√
5/6 (Y2 − 3) = .913Y2 − 2.739 .
Ausgangspunkt der gerade angestellten Uberlegungen war der Wunsch nach ei-
ner Art Standardisierung der Losung der Frage nach der Linearkombination mit
maximalem F -Bruch. Dies kann nun prazisiert werden durch die Forderung, dass
eine Losung zusatzlich standardisiert sein soll im gerade definierten Sinn, dass
das zugehorige MSw also 1 sein soll und der zugehorige Gesamtmittelwert 0.
Erfullt eine Losung diese Forderung (wobei die Teilforderung hinsichtlich des
Mittelwerts gelegentlich auch wegfallt), so nennt man sie eine erste Diskrimi-
nanzfunktion.
Man findet eine solche erste Diskriminanzfunktion nach dem bisher Gesagten ein-
fach dadurch, dass man irgendeine Losung des Maximierungsproblems standar-
disiert; den Koeffizientenvektor erhalt man also ausgehend von einem beliebigen
Eigenvektor a von W−1B zum großten Eigenwert λ1 als√
(N − J)/(a′Wa) a;
dieser neue Koeffizientenvektor soll auch d1 heißen – er ist ein Vielfaches von a.
Die additive Konstante ist dann −√
(N − J)/(a′Wa) a′y.
Im Beispiel war
W =
(10 −6
−6 6
),
2.6 Multivariate Varianzanalyse MS13 214
so dass fur den schon gefundenen Eigenvektor (1, 1)′ der Ausdruck a′Wa gleich
4 wird. Der Eigenvektor ist daher noch mit dem Faktor√
5/4 = 1.118 zu multi-
plizieren mit dem Ergebnis d1 = (1.118, 1.118)′. Die additive Konstante ist dann
−√
5/4 a′y, wegen y = (5, 3)′ also −√
5/4 · 8 = −8.944
Die erste Diskriminanzfunktion, die D1 genannt werden soll, ist folglich
D1 = 1.118Y1 + 1.118Y2 − 8.944 .
Man rechnet unschwer nach, dass die drei Gruppenmittelwerte in dieser neuen
Variable gleich 1.118, −3.354 und 1.118 sind, wahrend der Gesamtmittelwert
naturlich 0 ist.
Naturlich stellt sich als erstes die Frage nach der Eindeutigkeit der ersten Diskri-
minanzfunktion. Da eine solche definitionsgemaß den F -Bruch maximieren muss,
muss ihr Koeffizientenvektor ein Eigenvektor von W−1B zum großten Eigenwert
λ1 sein. Hier sind nun zwei Falle zu unterscheiden, namlich der, dass die Multi-
plizitat dieses Eigenwerts 1 ist und der, dass sie großer als 1 ist.
Ist die Multiplizitat von λ1 gleich 1, so hat man Eindeutigkeit bis auf das Vor-
zeichen. Da namlich die Koeffizientenvektoren von zwei moglichen ersten Diskri-
minanzfunktionen U1 und U2 Eigenvektoren zu λ1 sein mussen, ist der eine ein
Vielfaches des andern. Daher ist U2 eine lineare Transformation von U1. Es hat
sich aber gezeigt, dass nur zwei lineare Transformationen einer Linearkombina-
tion der Originalvariablen standardisiert sind, und dass diese sich dann nur im
Vorzeichen unterscheiden. Da definitionsgemaß U1 und U2 standardisiert sind,
muss U2 = U1 oder U2 = −U1 gelten. Naturlich ist andererseits das (−1)-fache
einer ersten Diskriminanzfunktion wieder eine solche.
In dem Fall, dass die Multiplizitat von λ1 gleich 1 ist, gibt es also genau zwei
erste Diskriminanzfunktionen, die sich nur im Vorzeichen unterscheiden.
In dem Fall, dass die Multiplizitat von λ1 großer als 1 ist, gibt es hingegen un-
endlich viele mogliche erste Diskriminanzfunktionen, da man ja aus jedem Ei-
genvektor zwei herstellen kann, und da sich dann unendlich viele Eigenvektoren
finden lassen, von denen keiner ein Vielfaches eines andern ist (weshalb dann auch
die zugehorigen Diskriminanzfunktionen nicht gleich sein konnen). Dieser Fall ist
allerdings die Ausnahme.
Wenn in Zukunft von der ersten Diskriminanzfunktion gesprochen wird, ist dies
also streng genommen nicht korrekt. Vielmehr ist eine solche erst auszuwahlen.
2.6 Multivariate Varianzanalyse MS13 215
Genau wie bei den (ebenfalls nicht eindeutigen) Hauptkomponenten ist diese
Sprechweise jedoch nicht schadlich und vermeidet umstandliche Formulierungen.
Hat man das Bedurfnis, die erste Diskriminanzfunktion auch inhaltlich zu inter-
pretieren, so wird man einerseits die Koeffizienten heranziehen, mit denen sie sich
als Linearkombinationen der Yi ergeben, andererseits die Korrelationen mit den
Yi. Diese beiden Moglichkeiten sollen nun genauer beleuchtet werden.
Die Koeffizienten waren im Beispiel 1.118 und 1.118. Wie in vielen anderen Fallen
auch (beispielsweise bei den β-Gewichten in der Regression) wird man es jedoch
vielleicht vorziehen, die’standardisierten‘ Koeffizienten zu verwenden, mit denen
sich die Diskriminanzfunktion aus den standardisierten Variablen Zi berechnet.
Zur Bestimmung dieser Koeffizienten hat man nur die schon berechnete Linear-
kombination der Yi in der bekannten Weise zu einer Linearkombination der Ziumzuschreiben. Dabei erhalt man die neuen Koeffizienten, indem man die alten
Koeffizienten durch diejenigen Koeffizienten dividiert, die zur Berechnung der Ziaus den Yi dienen.
Da die Zi bereits standardisiert sind, ist ihr Mittelwert gleich 0. Der Mittelwert
irgendeiner Linearkombination der Zi ist daher gleich der additiven Konstante
dieser Linearkombination. Damit dieser Mittelwert gleich 0 ist, muss also die
additive Konstante 0 sein. Da der Mittelwert der Diskriminanzfunktion gleich 0
ist, muss insbesondere die additive Konstante bei ihrer Darstellung durch die Zigleich 0 sein und kann daher wegfallen.
Im Beispiel ergeben sich die neuen Koeffizienten also zu 1.118/.707 = 1.581 und
1.118/.913 = 1.225. Die erste Diskriminanzfunktion ausgedruckt mit standardi-
sierten Variablen ist daher
D1 = 1.581Z1 + 1.225Z2 .
Will man diese standardisierten Koeffizienten direkt aus einem Eigenvektor a
von W−1B zu λ1 erhalten, so sieht man leicht, dass sie gleich√wii/a′Wa ai
sind, wo wii das i-te Diagonalelement von W ist; fur konkrete Rechnungen mag
die Darstellung√wiiai/
√a′Wa oft praktischer sein.
Die standardisierten Koeffizienten sind so eine mogliche Grundlage fur eine In-
terpretation der ersten Diskriminanzfunktion. Eine weitere mogliche Grundlage
bilden die Korrelationen mit den Originalvariablen (vgl. die entsprechenden Dis-
kussionen bei der Faktorenanalyse).
2.6 Multivariate Varianzanalyse MS13 216
Allerdings ist hier nicht klar, welche’Korrelationen‘ zu nehmen sind – man hat ja
einerseits die Korrelationen insgesamt (ohne Berucksichtigung der Gruppen) und
andererseits die Innergruppen-Korrelationen. Die Argumente im Zusammenhang
mit der Standardisierung von Linearkombinationen der Yi sprechen womoglich oft
dafur, die Korrelationen innerhalb der Gruppen zu verwenden, die ja in vielen
Fallen eher eine naturliche Interpretation besitzen.
Nach den weiter oben angestellten Uberlegungen ist die Innergruppen-Korrelation
von D1 und irgendeiner weiteren Linearkombination mit Koeffizientenvektor b
gleichd′1Wb√
(N − J)b′Wb,
da nach Konstruktion d1′Wd1/(N−J) = 1, also d1
′Wd1 = N−J gilt. Auch hier
ist es praktisch, eine Formel mit dem Eigenvektor a von W−1B zu besitzen, der
zu d1 gefuhrt hat. Wegen d1 =√
(N − J)/(a′Wa) a erhalt man durch Einsetzen
d′1Wb√(N − J)b′Wb
=a′Wb√
(a′Wa)(b′Wb).
Die Form rechts erhalt man auch unmittelbar: Ist U die mit dem Koeffizienten-
vektor a gebildete Linearkombination, so steht rechts die Innergruppenkorrelation
von der zu b gehorenden Linearkombination V mit U ; diese Korrelation ist je-
doch die gleiche wie die von V mit D1, da D1 ja nur eine lineare Transformation
von U ist.
Die womoglich zur Interpretation nutzlichen Innergruppen-Korrelationen von D1
und den Variablen Yi erhalt man nun leicht, indem man fur b jeweils den i-ten
Einheitsvektor ei einsetzt, wodurch aus b′Wb das i-te Diagonalelement von W
wird und aus a′Wb das i-te Element von Wa.
Im Beispiel berechnet man mit a = (1, 1)′ zunachst Wa zu (4, 0)′ und daraus die
Innergruppen-Korrelationen von D1 mit Y1 und Y2 zu
4√4 · 10
= .632 und0√4 · 6
= 0 .
Ob man bei einer Interpretation nun die standardisierten Koeffizienten benutzen
will oder die Korrelationen, ist eine inhaltlich zu beantwortende Frage; vielleicht
nimmt man aber auch bei weiterem Nachdenken davon Abstand, die Diskrimi-
nanzfunktion ernsthaft interpretieren zu wollen.
2.6 Multivariate Varianzanalyse MS13 217
Zum Abschluss dieser Diskussion soll noch kurz auf eine varianzanalytisch moti-
vierte Deutung der Eigenwerte λ1 und θ1 hingewiesen werden.
Der Eigenwert λ1 von W−1B hat sich als der Quotient von SSb und SSw bei
der Varianzanalyse derjenigen Linearkombination D1 herausgestellt, die zu einem
maximalen F -Bruch fuhrt. Diesen Quotienten kann man auch noch erweitern:
λ1 =SSbSSw
=SSb/N
SSw/N.
Im Ausdruck rechts kann man nun Zahler und Nenner deuten als (empirische)
Varianzen zwischen den Gruppen und innerhalb der Gruppen. Auf theoretischer
Ebene entspricht SSw/N in gewisser Weise σ2, wahrend SSb/N eine Entsprechung
in∑
(nj/N)α2j besitzt (αj ist hier die j-te Effektgroße µj − µ bei der univariaten
Varianzanalyse der VariablenD1). Dem Quotienten (SSb/N)/(SSw/N) entspricht
damit auf theoretischer Ebene der Quotient∑
(nj/N)α2j/σ
2, der bekanntlich auch
als Effektstarke f 2 bezeichnet wird.
So gesehen gibt also λ1 einen Hinweis auf die Effektstarke der Varianzanalyse mit
D1, die ja zum maximalen F -Bruch fuhrt. Als Schatzer dieser Effektstarke ist λ1nicht die beste Wahl, daher die vorsichtige Formulierung. Immerhin erhalt man
mit(J − 1)F
N=
(N − J)SSbN SSw
=(N − J)
Nλ1
einen eher gebrauchlichen Schatzer der Effektstarke – man bringt dabei bei λ1nur einen
’Korrekturfaktor‘ (N − J)/N an. Ob man hiermit eine befriedigende
Schatzung erhalt, sei dahingestellt (erwartungstreu ist sie offenbar nicht, was man
beispielsweise im Fall der Gultigkeit der Nullhypothese leicht sieht). Bekanntlich
ist ubrigens in der univariaten Varianzanalyse der Ausdruck (J − 1)F ein oft
verwendeter Schatzer des Nonzentralitatsparameters δ2, was wegen δ2 = Nf 2
gut zu der gerade angegebenen Schatzung von f 2 passt.
Als alternative Moglichkeit der Beschreibung der Große des Effekts im Sinne der
’aufgeklarten Varianz‘ dient in der univariaten Varianzanalyse auch der Kennwert
ω2 =∑
(nj/N)α2j/(σ
2 +∑
(nj/N)α2j ), der ja oft durch
R2 =SSbSSt
=(J − 1)F
(J − 1)F + (N − J)
geschatzt wird (gelegentlich wird auch hier noch eine’Adjustierung‘ angebracht,
mit der eine Verbesserung der Schatzung angestrebt wird). Hier ist von Interesse,
2.6 Multivariate Varianzanalyse MS13 218
dass das zur Varianzanalyse von D1 gehorende R2 sich zu
SSbSSb + SSw
=SSb/SSw
SSb/SSw + 1=
λ1λ1 + 1
= θ1
errechnet. Auf diese Weise bekommt θ1 also die Deutung als das R2 der Varian-
zanalyse von D1.
Da das R2 fur unterschiedliche Linearkombinationen hier eine monotone Funktion
des zugehorigen F ist, kann die erste Diskriminanzfunktion auch als diejenige
Linearkombination gekennzeichnet werden, die zu einem maximalen R2 fuhrt;
dieses maximale R2 ist dann der erste Eigenwert θ1 von T−1B.
Die Wurzel aus θ1 wird manchmal auch als erste kanonische Korrelation bezeich-
net. Der Hintergrund sei nur kurz angedeutet: Bei der kanonischen Korrelation
versucht man, aus zwei Variablengruppen jeweils eine Linearkombination so zu
bilden, dass die beiden Linearkombinationen maximale Korrelation besitzen (da-
nach geht es um weitere Linearkombinationen mit maximalen Korrelationen unter
entsprechenden Nebenbedingungen). Im Fall der multivariaten Varianzanalyse ist
die eine Variablengruppe die mehrdimensionale abhangige Variable und die an-
dere besteht aus den Einzelvariablen, die jeweils in einer Gruppe den Wert 1
annehmen und in den anderen den Wert 0. Die maximale Korrelation (dies ist
dann√θ1) wird erzielt mit der ersten Diskriminanzfunktion einerseits und einer
Linearkombionation der anderen Variablen, die in gewisser Weise dem aus der
Die erste Diskriminanzfunktion ist damit ausreichend behandelt; sie ist diejenige
Linearkombination D1 der abhangigen Variablen, fur die bei einer univariaten
Varianzanalyse ein maximaler F -Bruch erzielt wird (wie sich gerade gezeigt hat,
auch ein maximales R2). Dem Schema der Hauptkomponentenanalyse folgend
liegt nun die Frage nahe, bei welcher weiteren Linearkombination der F -Bruch
am zweitgroßten wird. Wie bei der Hauptkomponentenanalyse wird diese Frage
allerdings erst dann sinnvoll, wenn eine geeignete Nebenbedingung eingefuhrt
wird.
Der Ubersichtlichkeit halber sollen die bisher benutzten Bezeichnungen oben et-
was modifiziert werden. Die Linearkombination U , die oben zum maximalen F -
Bruch gefuhrt hatte soll nun den Namen U1 bekommen, ebenso soll der zugehorige
Koeffizientenvektor nun nicht mehr a sondern a1 heißen (genauer musste man sa-
gen’die oben gewahlte Linearkombination‘ etc., da ja alle linearen Transformatio-
nen ebenso gut sind). Die aus U1 entstehende standardisierte Linearkombination
2.6 Multivariate Varianzanalyse MS13 219
D1 hat, ebenso wie ihr Koeffizientenvektor d1 den Index 1 gleich von Anfang an
bekommen.
Gesucht ist nun also eine Linearkombination U2, die wiederum einen maximalen
F -Bruch besitzt, wobei die Nebenbedingung die ist, dass die Innergruppenkor-
relation zur bereits gefundenen ersten Diskriminanzfunktion D1 (oder auch –
gleichbedeutend – zu U1) gleich 0 sein soll.
Dass diese Nebenbedingung in vielen Fallen auch inhaltlich sinnvoll sein wird,
wurde oben schon diskutiert.
Die Bedingung dafur, dass die Innergruppenkorrelation von U2 zu D1 gleich 0 ist,
wurde oben schon gefunden: sie lautet a′2Wd1 = 0. Die Forderung nach einem
maximalen F -Bruch ubersetzt sich wie oben in die Forderung, dass
a′2Ba2
a′2Wa2
maximal werden soll – jetzt eben unter der gerade formulierten Nebenbedingung.
Da d1 mit a1 ein Eigenvektor von W−1B zum großten Eigenwert λ1 ist, ist die
Losung dieser Aufgabe bekannt: fur a2 kann ein beliebiger Eigenvektor von W−1B
zum zweiten Eigenwert λ2 gewahlt werden, wobei das gesuchte Maximum gerade
λ2 ist. Es gibt hier einen Sonderfall zu beachten, namlich den, dass λ2 = λ1gilt, dass also mit anderen Worten die Multiplizitat von λ1 großer als 1 ist (zur
Erinnerung: Eigenwerte sind vereinbarungsgemaß so oft aufzufuhren, wie ihre
Multiplizitat angibt). In diesem Fall muss bei dem gewahlten zweiten Eigenvektor
die Bedingung a′2Wd1 = 0 eigens beachtet werden, sie ist dann namlich nicht wie
im Fall λ1 6= λ2 automatisch erfullt.
Der F -Bruch, der zu der gefundenen Linearkombination gehort, ist dann
F =N − JJ − 1
λ2 .
Naheliegenderweise wird man auch diese Linearkombination standardisieren. Das
Ergebnis ist die zweite Diskriminanzfunktion, die hier D2 heißen soll; ihr Koeffi-
zientenvektor soll entsprechend d2 heißen.
Dieses d2 erhalt man aus a2 wie oben als√
(N − J)/(a′2Wa2) a2; es ist naturlich
wieder ein Vielfaches von a2 und damit ebenfalls ein Eigenvektor zu λ2. Die addi-
tive Konstante ist entsprechend −√
(N − J)/(a′2Wa2) a′2y. Bei der Standardisie-
rung andert sich offenbar weder der F -Bruch noch die Innergruppenkorrelation
von 0 mit der ersten Diskriminanzfunktion.
2.6 Multivariate Varianzanalyse MS13 220
Die zweite Diskriminanzfunktion ist dann eine – im geschilderten Sinne stan-
dardisierte – Linearkombination der abhangigen Variablen, fur die eine univaria-
te Varianzanalyse einen maximalen F -Bruch liefert unter der Nebenbedingung,
dass die Innergruppenkorrelation mit der ersten Diskriminanzfunktion gleich 0
sein soll.
Was die Frage der Eindeutigkeit angeht, so gelten die bei der ersten Diskrimi-
nanzfunktion gemachten Bemerkungen sinngemaß.
Auch die weiteren Ausfuhrungen zur ersten Diskriminanzfunktion lassen sich
sinngemaß ubertragen. So kann kann man die zweite Diskriminanzfunktion auch
mit Hilfe der standardisierten Variablen ausdrucken, und man kann die Inner-
gruppenkorrelationen mit den Originalvariablen bestimmen und womoglich zur
Interpretation benutzen.
Man kann nun auch λ2 als Hinweis auf die Effektstarke verwenden und erhalt mit
θ2 das R2 der Varianzanalyse mit D2. Alternativ kann man die zweite Diskrimi-
nanzfunktion dann auch dadurch charakterisieren, dass die zugehorige Varianz-
analyse ein maximales R2 besitzt unter der Nebenbedingung, dass die Innergrup-
penkorrelation zur ersten Diskriminanzfunktion gleich 0 sein soll.
Die Wurzel aus θ2 nennt man ubrigens auch die zweite kanonische Korrelation;
die genaue Herkunft dieser Bezeichnung ist an dieser Stelle jedoch nicht wichtig.
Im Beispiel mit den drei Gruppen war der zweite Eigenwert von W−1B gleich
1, ein Eigenvektor dazu ist (0, 1)′. Damit ist die zweite Diskriminanzfunktion in
diesem Fall die standardisierte zweite Variable Y2. Die zugehorigen Berechnungen
wurden oben schon durchgefuhrt, die Ergebnisse konnen nun einfach ubertragen
werden.
Es gilt also
D2 = .913Y2 − 2.739 ,
in standardisierten Variablen ausgedruckt noch einfacher
D2 = Z2 .
Die Innergruppenkorrelation dieser Diskriminanzfunktion mit der ersten Variable
Y1 errechnet sich hier zu −6/√
10 · 6 = −.775, wahrend die Innergruppenkorrela-
tion mit der zweiten Variable Y2 naturlich 1 ist. Beim Versuch, die Funktion D2
zu interpretieren, gerat man also auch hier in Schwierigkeiten, wenn man sowohl
2.6 Multivariate Varianzanalyse MS13 221
die Koeffizienten berucksichtigen will, mit denen die Funktion aus den Variablen
Y1 und Y2 gebildet wird, als auch die Innergruppenkorrelationen. Im Fall von
Y1 ist der Koeffizient namlich 0, wahrend die entsprechende Korrelation −.775
deutlich negativ ist.
Die Veranschaulichung zu dieser Diskriminanzfunktion kann ebenfalls von oben
ubernommen werden; zum Vergleich links noch einmal die Veranschaulichung der
Es ist vielleicht nicht unwichtig, darauf hinzuweisen, dass die Geraden, auf die
bei der ersten und zweiten Diskriminanzfunktion projiziert wird, nicht senkrecht
sind (was man womoglich etwas voreilig aus der Tatsache, dass die Innergrup-
penkorrelation 0 ist,’schließen‘ konnte). Die Assoziation senkrecht-unkorreliert
ist also nicht in allen Situationen angebracht.
Schließlich ist in diesem Beispiel der Eigenwert 1 nicht nur der zweitgroßte, son-
dern auch der kleinste Eigenwert. Mit ganz analogen Argumentationen wie bei
der ersten Diskriminanzfunktion erkennt man, dass die zweite Diskriminanzfunk-
tion daher in diesem Fall gleichzeitig eine Linearkombination ist, die die Gruppen
am schlechtesten trennt.
Es ist klar, dass der Prozess nun so weitergehen kann; nach der zweiten Diskrimi-
nanzfunktion sucht man nach einer dritten, wiederum mit maximalem F -Bruch,
diesmal unter der Nebenbedingung, dass die Innergruppenkorrelation mit den er-
sten beiden (schon gefundenen) Diskriminanzfunktionen gleich 0 sein soll. Eine
solche Funktion findet man wie oben: man nimmt einen geeigneten Eigenvektor
a3 zum dritten Eigenwert λ3 von W−1B als vorlaufigen Koeffizientenvektor und
standardisiert diesen dann. Den maximalen F -Bruch erhalt man aus λ3 genau
wie oben.
Die Formulierung, dass ein’geeigneter‘ Eigenvektor zu wahlen ist, ist nur fur
multiple Eigenwerte von Bedeutung; in diesem Fall ist analog zu verfahren, wie
2.6 Multivariate Varianzanalyse MS13 222
oben bei der zweiten Diskriminanzfunktion beschrieben.
Nach der dritten Diskriminanzfunktion kann man eine vierte bestimmen, danach
eine funfte und so weiter.
Es fragt sich, wann dieser Prozess abzubrechen ist. Diese Frage kann man unter-
schiedlich stellen; einerseits kann man fragen, wie lange der Prozess uberhaupt
weitergetrieben werden kann, andererseits, wie lange die Fortsetzung sinnvoll ist.
Ein Ende ist auf alle Falle dann erreicht, wenn man soviele Diskriminanzfunktio-
nen gefunden hat, wie Variablen vorhanden sind, also p solche Funktionen. Die
Bedingung, dass fur die Koeffizientenvektoren di die Bedingung d′iWdj = 0 gel-
ten muss fur i 6= j, hat namlich zur Folge, dass die di linear unabhangig sind (die
Vektoren W1/2di sind namlich offenbar orthogonal und 6= 0 und damit linear un-
abhangig, weshalb auch die di als Bilder dieser Vektoren unter der invertierbaren
linearen Abbildung W−1/2 linear unabhangig sein mussen). Da alle di Vektoren
des Rp sind, folgt, dass ihre Zahl hochstens gleich p sein kann.
Dass der Prozess tatsachlich solange fortgesetzt werden kann, bis man p Diskri-
minanzfunktionen besitzt, ist aus der linearen Algebra bekannt.
In vielen Fallen sind allerdings die letzten Diskriminanzfunktionen ziemlich unin-
teressant, da sie oft zu einem F -Bruch von 0 fuhren, also zwischen den Gruppen
uberhaupt nicht mehr unterscheiden.
In der Tat sind ja die sukzessiven maximalen F -Bruche bis auf einen Vorfaktor
gerade die Eigenwerte von W−1B, und da diese Matrix p reelle Eigenwerte besitzt,
ist die Anzahl der von 0 verschiedenen Eigenwerte gleich dem Rang von W−1B.
Der Kern dieser Matrix ist namlich genau dann von {0} verschieden, wenn 0
ein Eigenwert ist, und in diesem Fall ist der Kern gerade der Eigenraum zu 0,
seine Dimension also die Multiplizitat m von 0. Falls 0 kein Eigenwert ist, ist der
Rang von W−1B folglich gleich p, und im anderen Fall ist er gleich p − m. In
jedem Fall ist er gleichzeitig die Zahl der von 0 verschiedenen Eigenwerte (mit
Berucksichtigung der Multiplizitat).
Falls also der Rang r von W−1B kleiner als p ist, so folgt, dass die letzten p− rDiskriminanzfunktionen zu einem F -Bruch von 0 fuhren.
Da W−1 invertierbar ist, ist der Rang r von W−1B gleich dem von B, so dass man
die bisherigen Ergebnisse folgendermaßen zusammenfassen kann: Ist r der Rang
von B, so fuhren die letzten p−r Diskriminanzfunktionen zu einem F -Bruch von
2.6 Multivariate Varianzanalyse MS13 223
0 und sind in diesem Sinne uninteressant.
Wenn man also die Frage nach der sinnvollen Anzahl der Diskriminanzfunktio-
nen so beantwortet, dass der zugehorige F -Bruch von 0 verschieden sein soll, so
ist diese Anzahl gerade gleich dem Rang von B, der ja bekanntlich seinerseits
hochstens gleich J − 1 ist.
In diesem Zusammenhang bemerkt man ubrigens auch unmittelbar, dass alle Li-
nearkombinationen der Yi, deren Koeffizientenvektoren a im Kern von B liegen,
zu einem F -Bruch von 0 fuhren (genauer: genau diese Linearkombinationen, wo-
bei naturlich a = 0 auszunehmen ist). Der zu einer derartigen Linearkombination
gehorende F -Bruch ist namlich genau dann gleich 0, wenn der Faktor a′Ba im
Zahler 0 ist. Wegen der positiven Semidefinitheit von B ist dies aber genau dann
der Fall, wenn Ba = 0 gilt, wenn also a im Kern von B liegt.
Der Rang von B hat auch eine geometrische Bedeutung: er ist gleich der Di-
mension der affinen Hulle der Mittelwertvektoren yj, also des kleinsten affinen
Unterraums, der die yj enthalt; dabei ist der zugehorige lineare Unterraum gerade
das Bild von B. Dies hatte sich schon oben bei der Einfuhrung von B gezeigt.
Eine weitere mogliche Antwort auf die Frage nach der sinnvollen Anzahl der Dis-
kriminanzfunktionen kann auch auf die Große des zugehorigen F -Bruchs Bezug
nehmen und nur solche Diskriminanzfunktionen zulassen, die zu einem hinrei-
chend großen F -Bruch fuhren, oder alternativ, da die F -Bruche sich von den
Eigenwerten λi nur um einen festen Faktor unterscheiden, zu einem hinreichend
großen Eigenwert gehoren. Wie groß dieser Eigenwert sein soll, ware dann auf
Grund inhaltlicher Kriterien zu beantworten.
Ein solches Vorgehen findet sich beispielsweise bei der Diskriminanzanalyse. Dort
werden Funktionen gesucht, die gut zwischen den Gruppen unterscheiden, auch
mit dem Ziel, neue Falle spater einer der Gruppen zuzuordnen. Das Verfahren
soll nun erganzend oberflachlich skizziert werden.
Beipielsweise konnte es sein, dass verschiedene klinische Gruppen (gekennzeich-
net durch unterschiedliche Krankheitsbilder) mit mehreren Diagnoseverfahren
(die den Variablen Yi entsprechen) untersucht werden. Man mochte dann die
Einzeldiagnosen in geeigneter Weise zu Linearkombinationen zusammenfassen,
die besonders gut zwischen den Gruppen unterscheiden. Als Losung erhalt man
naturlich die Diskriminanzfunktionen.
Nachdem man diese Funktionen gewonnen hat, mochte man oft weitere neue
2.6 Multivariate Varianzanalyse MS13 224
Patienten den klinischen Gruppen zuordnen. Dazu werden diese neuen Patienten
den Diagnoseverfahren unterworfen, aus deren Ergebnissen dann die Werte der
neuen Patienten auf den Diskriminanzfunktionen berechnet werden konnen. Die
Zuordnung zu einem Krankheitsbild geschieht danach auf Grund dieser Werte
mit Hilfe einer geeigneten Entscheidungsregel.
Naturlich konnen dabei Fehler gemacht werden, und eine zentrale Aufgabe ist
es dann, diese Fehler oder deren Kosten durch eine optimale Wahl der Entschei-
dungsregel zu minimieren.
In diesem Zusammenhang zeigt sich bei geeigneten Voraussetzungen, dass die
Anzahl der benotigten Diskriminanzfunktionen gleich der Dimension der affi-
nen Hulle der Erwartungswertvektoren µj ist. Obwohl die Mittelwertvektoren
yj Schatzer dieser Erwartungswertvektoren sind, mussen die Dimensionen der
affinen Hullen keineswegs ubereinstimmen.
Um zu einer Vorstellung uber die Dimension der affinen Hulle der µj zu kommen,
kann man geeignete Tests verwenden, bei denen die Nullhpyothese jeweils die ist,
dass diese Dimension gleich einer gegebenen Zahl k ist, und die Alternativhypo-
these die, dass die Dimension großer als k ist.
Insgesamt fallt jedenfalls die Entscheidung uber die Zahl sinnvoller Diskriminanz-
funktionen dann auf der Basis derartiger Tests, die sich auf die Dimension der
affinen Hulle der µj beziehen.
Es folgen nun noch zwei erganzende Anmerkungen zu den Diskriminanzfunktio-
nen. Bei der Konstruktion der Diskriminanzfunktionen wurde als einschrankende
Bedingung die verwendet, dass die Innergruppenkorrelationen von je zwei Dis-
kriminanzfunktionen alle 0 sein sollen. Nun kann man naturlich auch die Korre-
lation von je zwei Diskriminanzfunktionen bilden, wenn man die Originaldaten
zugrundelegt und die Gruppeneinteilung nicht berucksichtigt. Interessanterwei-
se ist dann auch diese Korrelation zwischen jeweils zwei Diskriminanzfunktionen
gleich 0, was aus der Linearen Algebra bekannt ist, da die Diskriminanzfunktionen
ja mit Hilfe von Eigenvektoren von W−1B konstruiert wurden.
Dass dies ein Sonderfall ist, dass also aus dem Verschwinden der Innergruppen-
korrelation allgemein keineswegs folgt, dass die’globale‘ Korrelation gleich 0 ist,
macht man sich leicht an Beispielen klar. So rechnet man leicht nach, dass in
dem gerade verwendeten Beispiel die Innergruppenkorrelation der beiden Line-
arkombinationen Y1 und 3Y1 + 5Y2 (mit Koeffizientenvektoren a = (1, 0)′ und
2.6 Multivariate Varianzanalyse MS13 225
b = (3, 5)′) gleich 0 ist, die Gesamtkorrelation jedoch nicht, da sich ja die (un-
korrigierte) Kovarianz dieser beiden Linearkombinationen sofort zu
1
Na′Tb =
1
8
(1 0
)( 40 −12
−12 12
)(3
5
)= 7.5
berechnet.
Die nachste Anmerkung betrifft die Bestimmung der Diskriminanzfunktion im
Fall von zwei Gruppen. Hier ist hochstens der erste Eigenwert von W−1B ungleich
0, so dass in der Tat nur die erste Diskriminanzfunktion interessant ist, die daher
hier auch kurz als die Diskriminanzfunktion bezeichnet werden soll.
Aus der besonders einfachen Datenlage ergibt sich eine Vereinfachung in der
Berechnung dieser Diskriminanzfunktion. Das Ergebnis soll mit Hilfe der hier
angemesseneren Matrix Su und der beiden Zentroide y1 und y2 formuliert werden;
fur die Differenz y2 − y1 soll kurz v geschrieben werden.
Der Zusammenhang mit den Matrizen W und B wurde oben schon hergestellt;
es ergab sich
W = (n1 + n2 − 2) Su
und
B =n1n2
n1 + n2
vv′ .
Hieraus folgt sofort
W−1B =n1n2
(n1 + n2 − 2) (n1 + n2)S−1u vv′ .
Fur Matrizen dieser Art sind – wie aus der Linearen Algebra bekannt ist – Ei-
genwerte und Eigenvektoren besonders einfach zu bestimmen. Falls die Zahl
λ1 =n1n2
(n1 + n2 − 2) (n1 + n2)v′S−1u v
ungleich 0 ist, so hat die Matrix genau einen Eigenwert 6= 0, namlich dies λ1.
Ist hingegen λ1 = 0, so gibt es keinen Eigenwert 6= 0; dann muss aber auch
W−1B = 0 gelten, was wegen der vorausgesetzten positiven Definitheit von Sunur dann der Fall ist, wenn v = 0 gilt, wenn also die beiden Mittelwertvekto-
ren ubereinstimmen – dieser uninteressante Fall soll im Folgenden nicht mehr
berucksichtigt werden, denn hier ist dann mit Linearkombinationen auch keine
Unterscheidung zwischen den Gruppen moglich.
2.6 Multivariate Varianzanalyse MS13 226
Der zugehorige F -Bruch ist dann
F =N − JJ − 1
λ1 =N − 2
1λ1 =
n1n2
(n1 + n2)v′S−1u v ,
also Hotellings T 2.
Ein Eigenvektor zu dem Eigenwert λ1 ist dann bekanntlich beispielsweise S−1u v.
Insgesamt erhalt man damit das Ergebnis, dass im Falle J = 2 der großte Eigen-
wert λ1 von W−1B gleich
λ1 =n1n2
(n1 + n2 − 2) (n1 + n2)v′S−1u v
ist, wobei im Falle λ1 6= 0 alle Eigenvektoren dazu Vielfache von S−1u v sind (der
Vektor v ist hierbei die Differenz y2 − y1 der Zentroide).
Will man den Eigenvektor standardisieren, so hatte man allgemein den gefunde-
nen Eigenvektor mit√
(N − J)/a′Wa zu multiplizieren, was sich hier zu√N − 2
(S−1u v)′(N − 2) Su(S−1u v)=
√1
v′S−1u v
vereinfacht. Der Koeffizientenvektor ist dann
d1 =√
1/ (v′S−1u v) S−1u v ,
wahrend sich als additive Konstante
−√
1/ (v′S−1u v) v′S−1u y
ergibt.
Die Standardisierung der Variablen selber lasst sich hier auch mit Hilfe von Suausdrucken; dazu mogen die Diagonalelemente dieser Matrix naheliegenderweise
s2i heißen (in der Tat sind diese Elemente ja gerade die Fehlervarianzschatzungen,
die man bei univariaten t-Tests der Einzelvariablen benutzen wurde). Der Zusam-
menhang mit den weiter oben wii genannten Diagonalelementen von W ist dann
naturlich s2i = wii/(N − 2). Die standardisierten Variablen Zi erhalt man dann
aus den Variablen Yi, indem man sie durch si(=√s2i ) teilt und davon noch yi/si
abzieht, also als
Zi =1
si(Yi − yi) =
1
siYi −
yisi.
2.6 Multivariate Varianzanalyse MS13 227
Damit erhalt man schließlich die Koeffizienten der mit Hilfe von standardisierten
Variablen ausgedruckten standardisierten Diskriminanzfunktion, indem man die
Komponenten von d1 mit dem jeweils zugehorigen si multipliziert.
In dem weiter oben behandelten Beispiel mit zwei Gruppen waren die Zentroide
y1 = (7, 2)′ und y2 = (5, 4)′ und
Su =
(2 −1
−1 1
),
woraus sich
S−1u =
(1 1
1 2
)ergab. Hier ist dann v = y2− y1 = (−2, 2)′ und wegen der gleichen Zellbesetzung
y = (6, 3)′.
Damit sind zunachst die standardisierten Variablen
Z1 = Y1/√
2− 6/√
2 = .707Y1 − 4.243
und
Z2 = Y2/√
1− 3/√
1 = Y2 − 3 .
Zur Bestimmung des großten Eigenwerts ist zunachst v′S−1u v = 4, woraus sich
wegen n1 = n2 = 3 der großte Eigenwert λ1 zu
3 · 3(3 + 3− 2)(3 + 3)
· 4 =3
2= 1.5
errechnet. Das (N − 2)-fache dieser Zahl, also 6, ist dann in der Tat der schon
errechnete Wert von Hotellings T 2.
Als zugehorigen Eigenvektor bestimmt man zunachst
S−1u v =
(0
2
),
was nur noch durch√
4 = 2 zu teilen ist, um den standardisierten Koeffizi-
entenvektor d1 = (0, 1)′ zu liefern. Die additive Konstante errechnet sich zu
−√
1/4 · 6 = −3, so dass schließlich die erste Diskriminanzfunktion
D1 = Y2 − 3
2.6 Multivariate Varianzanalyse MS13 228
ist und hier interessanterweise bis auf eine additive Konstante mit der zweiten
Variable ubereinstimmt. Das heißt ubrigens naturlich nicht, dass die erste Va-
riable nicht zwischen den beiden Gruppen unterscheidet, vielmehr ist die zweite
Diskriminanzfunktion hier eine lineare Transformation der Summe der beiden
Variablen (und nicht etwa die erste Variable); in der Summe zeigt sich ja auch in
der Tat kein Unterschied zwischen den Mittelwerten der Gruppen.
Will man die erste Diskriminanzfunktion mit Hilfe der standardisierten Variablen
ausdrucken, so hat man ihre Koeffizienten 0 und 1 noch mit den Wurzeln der
entsprechenden Diagonalelemente von Su multipliziert, also mit√
2 und√
1. Das
Ergebnis ist
D1 = Z2 .
Die folgende Graphik veranschaulicht die Daten mit den beiden Zentroiden: