2 Multivariate Statistik

MS13 1

2 Multivariate Statistik

2.1 Grundbegriffe

In diesem Abschnitt sollen die ersten wichtigen Grundbegriffe der Multivaria-

ten Statistik eingefuhrt werden: Mehrdimensionale Variablen, Erwartungswerte,

Kovarianzmatrizen, affine Abbildungen.

Multivariate Daten. Sehr oft liefern Versuchspersonen oder allgemeiner Unter-

suchungseinheiten in Untersuchungen nicht nur einen Zahlenwert als Versuchs-

ergebnis, sondern mehrere. Es wird dann also nicht nur eine Variable erhoben,

sondern mehrere. In solchen Fallen ist es oft angemessen und empfehlenswert,

diese Werte oder einen Teil dieser Werte zu einem Vektor zusammenzufassen.

Gelegentlich fasst man auch zusammengehorende Gruppen von Variablen jeweils

zu Vektoren zusammen.

Beispiele:

1. Bei der Normierung eines Intelligenztests liefern alle Probanden fur jeden

Untertest einen Wert. Hat der Intelligenztest 3 Untertests (verbale, rechne-

rische, raumliche Intelligenz), so ist es sinnvoll, die Ergebnisse der Personen

in einem 3-Vektor zusammenzufassen. Ein Ergebnisvektor (10, 7, 9)′ einer

Versuchsperson bedeutet dann, dass sie in dem ersten Untertest (verbale

Intelligenz) 10 Punkte erzielt hat, in dem zweiten 7 und so weiter.

Vielleicht werden bei der Untersuchung zusatzlich Alter und Geschlecht er-

hoben. Dann konnte man die Werte in diesen Variablen (Geschlecht geeignet

als Zahl kodiert) hinzufugen und hatte nun als Ergebnis jeder Versuchsper-

son einen 5-Vektor. Ob dies sinnvoll ist oder ob man nur die Intelligenzwerte

zusammenfassen sollte, hangt von den Zielsetzungen der Untersuchung und

den Auswertungsmethoden ab.

2. In einer Studie zum Therapieerfolg wird bei allen Versuchspersonen die

Befindlichkeit vor der Therapie, zweimal wahrend der Therapie zu festge-

setzten Zeitpunkten und nach der Therapie erhoben. Hier liefert jede Person

vier Werte, die man sinnvollerweise zu einem 4-Vektor zusammenfasst. Ein

Ergebnisvektor (4, 7, 6, 8)′ bedeutet dann, dass die untersuchte Person vor

der Therapie einen Wert von 4 hatte, der sich im Laufe der Therapie uber

die Werte 7 und 6 auf 8 nach der Therapie anderte.

2.1 Grundbegriffe MS13 2

3. Man will den Zusammenhang von Personlichkeitseigenschaften und physio-

logischen Parameter untersuchen. Fur die Personlichkeit liegen 5 Variablen

vor (Extraversion, Gewissenhaftigkeit, ...), an physiologischen Maßen wur-

den 4 erhoben (Herzrate, Atemfrequenz, ...). Hier ist es angemessen, die

Personlichkeitswerte jeder Versuchsperson zu einem 5-Vektor zusammenzu-

fassen und die physiologischen Maße zu einem 4-Vektor. Jede Versuchsper-

son liefert dann zwei Vektoren, daruber hinaus vielleicht auch noch weitere

Variablen wie Alter, Geschlecht etc.

Die einfachste Situation ist die, dass man alle interessierenden Variablen zu ei-

nem Vektor zusammenfasst. Sind p solche Variablen zu untersuchen, so ist das

Ergebnis fur jede Versuchsperson ein p -Vektor.

Als Beispiel seien an 5 Probanden je drei Intelligenzwerte erhoben worden, die

Ergebnisse seien in der ublichen Weise in der folgenden Datenmatrix (Zeilen:

Personen, Spalten: Variablen) zusammengefasst:

5 10 8

4 6 3

2 3 3

6 12 3

8 14 13

Bezeichnet man diese Datenmatrix mit X, so erhalt der Ergebnisvektor der i-

ten Versuchsperson ublicherweise den Namen xi. Dieser Ergebnisvektor ist die

transponierte i-te Zeile der Datenmatrix (man rechnet ja nach Moglichkeit mit

Spaltenvektoren, daher die Transposition). Hier ist beispielsweise das Ergebnis

der dritten Versuchsperson der Vektor x3 = (2, 3, 3)′.

Es ist nicht ganz einfach, fur solche Situationen eine in jeder Hinsicht befriedi-

gende Notation zu finden. Von der univariaten Statistik her wurde es naheliegen,

Variablen (hier im informellen Sinn) mit großen Buchstaben zu bezeichnen und

auf diese Weise eine Variable X von einem moglichen Wert x oder dem Wert xieiner Versuchsperson zu unterscheiden. Nun mochte man jedoch Variablen auch

zu Vektoren von Variablen zusammenfassen, und hier musste man folgerichtig fur

einen solchen Variablenvektor das Symbol X gebrauchen, das jedoch schon fur

die Datenmatrizen reserviert und ganz ungebrauchlich ist.

Man kann also nicht alle Wunsche an die Notation befriedigen, und daher werden

im folgenden Text unterschiedliche Konventionen benutzt, wobei die leitenden


Gesichtspunkte die sind, dass einerseits die Sachverhalte moglichst deutlich wer-

den sollen, und dass andererseits die Diskrepanz zu ublichen Notationen nicht

zu groß werden darf. Konkret bedeutet dies, dass zur Bezeichnung von Einzelva-

riablen gelegentlich große und gelegentlich kleine Buchstaben verwendet werden;

werden solche Variablen jedoch zu Variablenvektoren zusammengefasst, so sol-

len nur kleine Buchstaben gebraucht werden. Die Bedeutungskollision bei der

Verwendung kleiner Buchstaben, dass damit namlich einerseits Variablen oder

Variablenvektoren und andererseits mogliche Werte solcher Variablen oder Va-

riablenvektoren bezeichnet werden, wird sich immer durch die Beachtung des

Kontexts auflosen lassen. Statt von’Variablenvektoren‘ redet man dabei auch

von’p-dimensionalen Variablen‘.

In dem Beispiel sollen die drei Variablen hier den fruheren Konventionen folgend

mit X1, X2 und X3 bezeichnet werden, der zugehorige Variablenvektor jedoch

mit x; es gilt dann x = (X1, X2, X3)′, und man kann dieses x dann auch eine

dreidimensionale Variable nennen. Die mogliche Kollision ist die, dass das Sym-

bol x sowohl den Variablenvektor als auch einen moglichen Wert dieses Vektors

bezeichnen kann.

Die wichtigsten deskriptiven Kennwerte in einer multivariaten Datensituation

sind die Mittelwerte der Variablen und die Varianzen und Kovarianzen. Die Mit-

telwerte fasst man dabei auch wieder zu einem Vektor zusammen, der den Namen

x erhalt, und die Varianzen und Kovarianzen stellt man zu der Kovarianzmatrix

zusammen, die oft den Namen S bekommt.

In dem Beispiel ergibt sich dann

x =

5

9

6

und S =

4 7.8 6

7.8 16 11

6 11 16

.

Wenn man n Personen unabhangig aus einer Population gezogen hat und sich fur

die Varianzen und Kovarianzen in der Population interessiert, so erhalt man dafur

bekanntlich erwartungstreue Schatzer mit den korrigierten Stichprobenvarianzen

und -kovarianzen, bei deren Bildung man nicht durch n, sondern durch n−1 teilt.

Die analog aufgebaute Matrix der korrigierten Varianzen und Kovarianzen soll

hier korrigierte Stichprobenkovarianzmatrix heißen und mit Su abgekurzt werden.

Der Index u steht dabei fur unbiased, die englische Bezeichnung fur erwartungs-

treu. Es gilt naturlich Su = (n/(n− 1))S.


Im Beispiel ergibt sich

Su =

5 9.75 7.5

9.75 20 13.75

7.5 13.75 20

.

Die Matrix nS = (n − 1)Su, die gewissermaßen die Vorstufe zur Bildung der

beiden Kovarianzmatrizen ist, bei der nur noch nicht durch n bzw. n−1 dividiert

wurde, tragt auch den Namen SSCP-Matrix, wobei SSCP fur’Sum of Squares

and Cross Products‘ steht.

Der Name weist auf die Rechnung hin, mit der man einen Eintrag dieser Matrix

erhalt. Fur das (i, j)-Element bildet man zunachst fur die zugehorigen Varia-

blen i und j personenweise die Abweichungen vom jeweiligen Mittelwert. Dann

multipliziert man entsprechende (zur gleichen Person gehorende) Abweichungen

miteinander (’Squares and Cross Products‘,

’Squares‘ steht fur den Fall i = j, in

dem einfach zu quadrieren ist) und summiert schließlich auf.

Im Beispiel ist die SSCP-Matrix gleich20 39 30

39 80 55

30 55 80

.

Neben den Kovarianzmatrizen ist oft auch die analog aufgebaute Korrelationsma-

trix interessant, bei der die Kovarianzen durch Korrelationen ersetzt sind, und die

daher in der Diagonalen aus Einsen besteht. Die Korrelationsmatrix des Beispiels

ist 1 0.975 0.75

0.975 1 0.6875

0.75 0.6875 1

.

Zentriermatrizen. In diesem Abschnitt sollen verschiedene deskriptive Berech-

nungen mit Hilfe von Matrizenmultiplikationen dargestellt werden. Diese Darstel-

lungsmoglichkeit ist fur theoretische Zwecke interessant und wichtig. Fur konkrete

Berechnungen – beispielsweise von Kovarianzmatrizen – sind sie allerdings meist

zu aufwendig, hier benutzt man besser die bekannten Formeln aus der Elemen-

tarstatistik.

Ein weiterer Zweck des Abschnitts ist das Einuben des Umgangs mit Matrizen.


Zunachst soll eine univariate Situation betrachtet werden, in der an n Versuchs-

personen eine Variable X erhoben worden ist. Die Werte der Versuchspersonen

fasst man dann oft in einem sogenannten Datenvektor zusammen, der hier x

heißen soll.

Sind beispielsweise bei 5 Personen die Werte 10, 8, 7, 6 und 14 erhoben worden,

so ist x = (10, 8, 7, 6, 14)′.

Um Verwirrungen vorzubeugen sei hier darauf hingewiesen, dass Vektoren in

unterschiedlichen Situationen unterschiedlich verwendet werden. In univariaten

Situationen wie hier fasst man mit Vektoren meist die Daten vieler Versuchsperso-

nen in einer Variablen zusammen. In multivariaten Situationen werden dagegen

Vektoren oft auch verwendet, um die Werte einer Versuchsperson in mehreren

erhobenen Variablen zusammenzufassen.

Als erstes soll der Mittelwert berechnet werden. Bezeichnet man mit 1n den

Vektor aus n Einsen (den Index n lasst man meist weg, wenn keine Unklarheiten

auftreten konnen), so kann der Mittelwert auch wie folgt dargestellt werden (links

steht die allgemeine Form, rechts das konkrete Beispiel):

x =1

n1′x x =

1

5(1, 1, 1, 1, 1)

10

8

7

6

14

=45

5= 9

Eigentlich ist hier das Ergebnis keine Zahl, sondern eine (1 × 1)-Matrix. Diese

wird jedoch hier – wie ublich – mit ihrem einzigen Element identifiziert.

Beim Berechnen der Varianzen und Kovarianzen ist meist der erste Schritt der,

dass man von allen Datenpunkten den Mittelwert abzieht. Man spricht hier auch

vom Zentrieren der Daten. Die Differenzen fasst man dann wieder zu einem

Vektor zusammen, den man den zentrierten Datenvektor nennt, und der hier mit

x bezeichnet werden soll.

Den zentrierten Vektor erhalt man also, indem man von dem Datenvektor x den

Vektor abzieht, dessen Komponenten alle gleich x sind. Diesen Vektor kann man

auch schreiben als 1(x), wobei (x) die (1× 1)-Matrix mit Element x bezeichnet.


x = x− 1(x)

x =

10

8

7

6

14

−

1

1

1

1

1

(9)

=

10

8

7

6

14

−

9

9

9

9

9

=

1

−1

−2

−3

5

Hier kann man nun fur (x) den gerade berechneten Ausdruck einsetzen und erhalt

nach einigen Umformungen

x = x− 1(x) = x− 1

(1

n1′x

)= x− 1

n1 (1′x) = x− 1

n(11′) x

= Ix− 1

n(11′) x =

(I− 1

n(11′)

)x = Znx ,

wobei mit Zn (oder, wenn n aus dem Kontext zu erschließen ist, kurz Z) die

Matrix I − (1/n)11′ abgekurzt wird, die auch Zentriermatrix heißt. Fur den

Spezialfall n = 5 sieht diese Matrix so aus:

Z5 =

1 0 0 0 0

0 1 0 0 0

0 0 1 0 0

0 0 0 1 0

0 0 0 0 1

−1

5

1 1 1 1 1

1 1 1 1 1

1 1 1 1 1

1 1 1 1 1

1 1 1 1 1

=

.8 −.2 −.2 −.2 −.2−.2 .8 −.2 −.2 −.2−.2 −.2 .8 −.2 −.2−.2 −.2 −.2 .8 −.2−.2 −.2 −.2 −.2 .8

Man bemerkt dabei, dass 11′ die (n × n)-Matrix aus lauter Einsen ist. Im Ge-

gensatz dazu ist das sogleich benotigte Produkt 1′1 die (1 × 1)-Matrix (n), die

auch mit der Zahl n identifiziert wird.

Die Zentriermatrix Z hat die beiden wichtigen Eigenschaften

Z′ = Z und Z2 = Z ,

wobei Z2 fur ZZ steht.

Einerseits ist namlich

Z′ =

(I− 1

n11′)′

= I′ −(

1

n11′)′

= I− 1

n(11′)′ = I− 1

n1′′1′ = I− 1

n11′ = Z


und andererseits

Z2 =

(I− 1

n11′)(

I− 1

n11′)

= II− I

(1

n11′)−(

1

n11′)

I +

(1

n11′)(

1

n11′)

= I− 1

n11′ − 1

n11′ +

1

n2(11′)(11′)

= I− 1

n11′ = Z

wegen

1

n2(11′)(11′) =

1

n21(1′1)1′ =

1

n21(n)1′ =

n

n21(1)1′ =

1

n11′ ,

womit beide Behauptungen gezeigt sind. �

Die beiden genannten Eigenschaften haben auch Namen. Erfullt eine quadratische

Matrix A die Bedingung A2 = A, so nennt man A auch idempotent. Gilt fur ein

quadratisches A die Bedingung A′ = A, so heißt A auch symmetrisch.

Die gerade gezeigte Behauptung uber Z lasst sich also auch mit den Worten

formulieren, dass Z symmetrisch und idempotent ist.

Die Klasse der symmetrischen und idempotenten Matrizen spielt eine sehr wich-

tige Rolle in der multivariaten Statistik – es ist die Klasse der sogenannten ortho-

gonalen Projektionen. Die Zentriermatrix ist also ein Beispiel fur eine orthogonale

Projektion.

Viele Argumente lassen sich durch die folgende Beobachtung vereinfachen:

Eine quadratische Matrix A ist genau dann symmetrisch und idempotent, wenn

sie der Bedingung

A′A = A

genugt.

Genugt namlich A der Bedingung A′A = A, so folgt einerseits durch einfache

Anwendung der Rechenregeln

A′ = (A′A)′ = A′A′′ = A′A = A ,

andererseits damit sofort

A2 = AA = A′A = A ,


insgesamt also Symmetrie und Idempotenz.

Ist andererseits A symmetrisch und idempotent, so gilt

A′A = AA = A ,

wobei die erste Gleichung aus der Symmetrie und die zweite aus der Idempotenz

folgt. Die behauptete Aquivalenz ist damit gezeigt. �

Insbesondere kann man die oben gezeigte Idempotenz und Symmetrie von Z nun

auch alternativ formulieren als

Z′Z = Z .

Fur Z gilt außerdem

Z1 = 0 ,

da der Vektor 1, als konstante Datenreihe interpretiert, zu einem Mittelwert von

1 fuhrt, von dem alle Komponenten die Abweichung 0 besitzen. Man macht sich

dies auch leicht formal klar:

Z1 = (I− 1

n11′)1 = I1− 1

n(11′)1 = 1− 1

n1(1′1) = 1− n

n1 = 0 .

Die Zentriermatrix kann nun dazu benutzt werden, die Bildung von Varianzen und

Kovarianzen in der Matrizensprache zu beschreiben. Da die Varianz ein Spezialfall

der Kovarianz ist, soll gleich die Kovarianz behandelt werden.

Dazu seien zwei Variablen X und Y an denselben n Versuchspersonen erhoben

worden. Die Ergebnisse werden wieder in zwei Datenvektoren x und y zusam-

mengefasst, die dann insbesondere gleiche Lange haben. Die Kovarianz KovX,Yvon X und Y berechnet sich dann bekanntlich nach der Formel

KovX,Y =1

n

n∑i=1

(xi − x)(yi − y) .

Hier werden zunachst die Abweichungen vom jeweiligen Mittelwert miteinander

multipliziert und dann die Produkte aufsummiert und durch n geteilt.

Die Abweichungen vom jeweiligen Mittelwert stehen jedoch auch in den zentrier-

ten Datenvektoren x und y, so dass man die Kovarianz auch als

KovX,Y =1

nx′y


schreiben kann. Sind beispielsweise die Werte fur die Variable X wie oben 10, 8,

7, 6, 14 und die von Y in der gleichen Reihenfolge 4, 6, 5, 3, 7, so gilt

x =

10

8

7

6

14

, y =

4

6

5

3

7

, x =

1

−1

−2

−3

5

, y =

−1

1

0

−2

2

und

1

5x′y =

1

5

(1 −1 −2 −3 5

)−1

1

0

−2

2

=1

5· 14 = 2.8 ,

was in der Tat gerade die Kovarianz von X und Y ist.

Die Operation des Zentrierens kann man auch mit der Zentriermatrix ausdrucken,

es gilt daher

x′y = (Zx)′(Zy) = x′Z′Zy = x′Zy

wegen der Eigenschaften der Zentriermatrix. Insgesamt erhalt man die Darstel-

lung

KovX,Y =1

nx′Zy .

Ein Spezialfall ist die Varianz von X, die man auch als (1/n)x′Zx schreiben kann.

Nun soll der Fall betrachtet werden, dass bei den untersuchten n Personen nicht

nur 2, sondern allgemein p Variablen erhoben worden sind. Die Ergebnisse seien in

einer Datenmatrix X zusammengefasst, die dann n Zeilen und p Spalten besitzt.

Man uberlegt sich leicht, dass man beispielsweise den Mittelwertvektor in der

folgenden Weise schreiben kann:

x =1

nX′1n .

Das Produkt X′1 ist namlich gerade die Summe der (als Vektoren aufgefassten)

Spalten von X′, also die Summe der Ergebnisvektoren aller Versuchspersonen,

und mit Division durch n erhalt man daraus komponentenweise die Mittelwerte.

Will man alle Spalten einer Datenmatrix zentrieren, so erhalt man das Ergebnis,

das hier naheliegenderweise zentrierte Datenmatrix genannt und mit X bezeich-

net werden soll, auch mit der Formel

X = ZX ,


wie man sofort sieht, wenn man sich vergegenwartigt, dass die Spalten von ZX

gerade die Produkte von Z mit den Spalten von X sind.

Die SSCP-Matrix kann man nun schreiben als

X′X .

Man erhalt namlich das (i, j)-Element der Matrix X′X als Produkt der i-ten Zeile

von X′ und der j-ten Spalte von X, also als Produkt der zentrierten Datenreihen

der i-ten und der j-ten Variable. Dieses Produkt ist aber gerade das (i, j)-Element

der SSCP-Matrix, die daher mit X′X in allen Elementen ubereinstimmt, woraus

die Gleichheit folgt.

Die Kovarianzmatrix S und die korrigierte Stichprobenkovarianzmatrix Su sind

dann

S =1

nX′X und Su =

1

n− 1X′X .

Die SSCP-Matrix kann man nun auch mit Hilfe der Zentriermatrix und der Ori-

ginaldatenmatrix als X′ZX schreiben:

X′X = (ZX)′ZX = X′Z′ZX = X′ZX .

Da man die beiden Versionen der Kovarianzmatrix dadurch erhalt, dass man die

SSCP-Matrix durch n bzw. n− 1 teilt, gilt entsprechend

S =1

nX′ZX und Su =

1

n− 1X′ZX .

Wegen (X′X)′ = X′X′′ = X′X erhalt man ubrigens auch sofort die ohnehin be-

kannte Tatsache, dass Kovarianzmatrizen und SSCP-Matrizen symmetrisch sind.

Abschließend sei noch einmal darauf hingewiesen, dass die angegebenen Matri-

zenformeln eine fur theoretische Zwecke elegante Darstellung geben, dass man

beim Berechnen von Varianzen und Kovarianzen in den meisten Fallen besser

nach den aus der Elementarstatistik bekannten Formeln vorgeht.

Affine Abbildungen. In der multivariaten Statistik spielen die sogenannten

affinen Abbildungen eine ganz zentrale Rolle. Sie sind Verallgemeinerungen der

Abbildungen, die man in der univariaten Statistik oft lineare Transformationen

nennt, auf die multivariate Situation.


Eine affine Abbildung ist eine Abbildung f von einem Rp in einen Rq, die die

Form

f(x) = Ax + b

besitzt. Dabei ist A eine (q × p)-Matrix und b ein q-Vektor. Die Matrix A heißt

auch der lineare Anteil der affinen Abbildung und der Vektor b auch der Ver-

schiebungsvektor.

Als Beispiel sei eine Situation betrachtet, in der man zwei Vordiplomsnoten mit

Hilfe von drei Schulnoten in der aus der multiplen Regression bekannten Weise

vorhersagen mochte. Diesen Fall kann man multivariat so behandeln, dass man

zunachst die drei Schulnoten zu einem 3-Vektor x und die beiden vorhergesagten

Vordiplomsnoten zu einem 2-Vektor y zusammenfasst. Die Vorhersagegleichungen

kann man dann in die Form

y = Ax + b

mit einer geeigneten (2 × 3)-Matrix A und einem 2-Vektor b bringen, also auf

die Form einer affinen Abbildung.

Schreibt man namlich die Gleichung y = Ax + b aus, so erhalt man

(y1y2

)=

(a11 a12 a13a21 a22 a23

)x1x2x3

+

(b1b2

)=

(a11x1 + a12x2 + a13x3 + b1a21x1 + a22x2 + a23x3 + b2

),

was man in der Tat als zwei ubereinandergeschriebene regressionsartige Gleichun-

gen lesen kann, in denen beispielsweise die erste Vordiplomsnote durch die drei

Schulnoten mit den Regressionsgewichten a11, a12 und a13 und der additiven Kon-

stante b1 vorhergesagt wird, also durch Koeffizienten, die in der ersten Zeile von

A zusammengefasst sind und durch die erste Komponente von b. Entsprechend

enthalt die zweite Zeile von A die Koeffizienten der zweiten Regressionsgleichung

und die zweite Komponente von b die zugehorige additive Konstante.

Eine Bemerkung zur Notation: Die Gleichung y = Ax+b kann wegen der Ambi-

guitat der Verwendung der Symbole auf zwei Arten gedeutet werden. Einerseits

kann man y und x als Bezeichnung von Variablenvektoren lesen; dann gibt die

Gleichung symbolisch an, wie der Variablenvektor y aus dem Variablenvektor

x hervorgeht. Andererseits kann man y und x als Bezeichnungen von moglichen

Werten lesen; dann sagt die Gleichung, wie man fur einen Wert x den zugehorigen

Wert y berechnet. Da hier beide Interpretationen denselben Grundgedanken aus-

drucken, ist diese Uneindeutigkeit nicht nur harmlos, sondern geradezu nutzlich.


Ein Spezialfall einer affinen Transformation einer p-dimensionalen Variablen x,

die aus den Einzelvariablen X1, . . . , Xp besteht, ist der, in dem q = 1 gilt, in

dem also nur eine neue Variable Y gebildet wird. Die Matrix A besteht dann

aus nur einer Zeile und anstelle eines Vektors b hat man eine Zahl b. Hier zieht

man es vor, die Koeffizienten in der Zeile der Matrix A zu einem Spaltenvektor

zusammenzufassen, der hier a heißen moge – es gilt dann also A = a′.

Die entstehende Gleichung Y = a′x+b kann man ausschreiben zu Y =∑ajXj+b,

und es folgt, dass dieser Spezialfall gerade das ist, was im Univariaten als eine

Linearkombination der Variablen Xj bezeichnet wurde.

Das Ergebnis dieser Uberlegungen ist einerseits, dass man Linearkombinationen

Y =∑ajXj+b von Variablen Xj auch als Y = a′x+b schreiben kann, wobei man

die Koeffizienten aj zu einem Spaltenvektor a zusammenfasst, und andererseits,

dass solche Linearkombinationen Spezialfalle von affinen Abbildungen sind, wobei

die Matrix A aus der allgemeinen Definition durch a′ ersetzt ist und der Vektor

b durch b.

Will man beipielsweise nur eine Vordiplomsnote mit Hilfe von drei Schulnoten

vorhersagen, so fasst man die Regressionsgewichte in einem 3-Vektor a zusammen

und schreibt die Vorhersagegleichung

y =3∑j=1

ajxj + b

auch kurz als

y = a′x + b ;

der lineare Anteil der zugehorigen affinen Abbildung ist hier also a′, das dann als

Matrix mit einer Zeile und drei Spalten betrachtet wird.

Ein wichtiges Beispiel einer affinen Transformation ist diejenige Transformation,

bei der man alle Variablen z-transformiert, wie nun gezeigt werden soll.

Zunachst ist es sinnvoll, einige Bezeichnungen einzufuhren. Ist x der betrachtete

p-Variablenvektor, so soll mit Vx die Diagonalmatrix mit den Varianzen der

Komponenten von x bezeichnet werden. Mit V1/2x und V

−1/2x sollen entsprechend

die Diagonalmatrizen mit den Streuungen und den Kehrwerten der Streuungen

benannt werden (wobei bei der letzten vorauszusetzen ist, dass alle Streuungen

von 0 verschieden sind).


Ist zum Beispiel

S =

4 7.8 6

7.8 16 11

6 11 16

die Kovarianzmatrix einer dreidimensionalen Variable x, so gilt

Vx =

4 0 0

0 16 0

0 0 16

, V1/2x =

2 0 0

0 4 0

0 0 4

und V−1/2x =

1/2 0 0

0 1/4 0

0 0 1/4

.

Die Verwendung der Exponenten 1/2 und −1/2 soll andeuten, dass bei Vx aus

den Diagonalelementen die Wurzeln bzw. die Kehrwerte der Wurzeln gebildet

werden sollen. Man kann ubrigens fur gewisse Matrizen das Potenzieren auch mit

nicht ganzzahligen Exponenten definieren, und die hier verwendeten Bezeichnun-

gen lassen sich dann in diesem Sinne interpretieren.

Oft rechnet man statt mit Varianzen und Kovarianzen mit den entspechenden kor-

rigierten Stichprobenvarianzen und -kovarianzen, also statt mit S mit Su. Auch

dann ist die Einfuhrung entsprechender Diagonalmatrizen sinnvoll, fur die eigent-

lich eigene Bezeichnungen zu wahlen waren. Da man jedoch sinnvollerweise nie

die beiden Versionen von Varianzen und Kovarianzen in Rechnungen mischt, ist

dies nicht notig, da das jeweils Gemeinte aus dem Kontext deutlich werden sollte.

Da die z-Transformation darin besteht, von den Daten den Mittelwert abzuziehen

und das Ergebnis durch die Streuung zu teilen, erkennt man sofort, dass bei

einem Datenvektor x diese komponentenweise durchgefuhrten Operationen zu

dem Ergebnis

z = V−1/2x (x− x) = V

−1/2x x−V

−1/2x x

fuhren. Die z-Transformation aller Komponenten von x lasst sich also durch die

affine Abbildung mit linearem Anteil V−1/2x und Verschiebung −V

−1/2x x beschrei-

ben.

Kennwerte bei affinen Transformationen. In diesem Abschnitt soll unter-

sucht werden, wie sich Mittelwertsvektor und Kovarianzmatrix verhalten, wenn

man Daten einer affinen Abbildung unterwirft, oder sie, wie man auch sagt, affin

transformiert.

An dieser Stelle ist zu bemerken, dass die ublichen Terminologien im Univaria-

ten und im Multivariaten leider nicht harmonieren: Eine lineare Transformation


im Univariaten heißt multivariat betrachtet nicht mehr linear, sondern affin. Die

multivariate Bezeichnung ist deshalb sinnvoll, weil der Begriff der linearen Ab-

bildung in der Linearen Algebra etwas anders besetzt ist. Allerdings ist hier die

Terminologie der multivariaten Statistik in der Literatur auch nicht einheitlich.

Es soll nun also eine Situation betrachtet werden, in der an n Versuchspersonen

Daten einer p-dimensionalen Variable x erhoben worden sind, die in einer (n×p)-Datenmatrix X zusammengefasst sind. Die p-dimensionale Variable x soll affin zu

einer neuen q-dimensionalen Variablen y = Ax+b transformiert werden, wobei A

eine (q×p)-Matrix ist und b ein q-Vektor. Gefragt ist nach dem Mittelwertvektor

und der Kovarianzmatrix von y.

Bei der Transformation werden also fur alle Versuchspersonen deren Datenvekto-

ren x in neue Datenvektoren y = Ax + b umgewandelt; nach dieser Umformung

gehoren dann zu jeder Versuchsperson nicht mehr p, sondern q Werte. Die trans-

formierten Daten sollen wieder in einer neuen Datenmatrix Y zusammengefasst

werden, die dann eine (n× q)-Matrix sein muss. Es soll sogleich gezeigt werden,

dass man die Matrix Y als

Y = XA′ + 1nb′ ,

erhalt.

Zuvor ein Beispiel zur Veranschaulichung: In dem Beispiel mit den Schulnoten

und den vorhergesagten Vordiplomsnoten konnten die Schulnoten von 20 Studie-

renden als (20× 3)-Matrix vorliegen. Wendet man dann die Vorhersage auf jede

einzelne Person an, so erhalt man fur alle 20 Personen je zwei Vorhersagewerte

fur die beiden Vordiplomsnoten, die man in einer neuen (20 × 2)-Datenmatrix

zusammenfassen kann.

Zur Begrundung der Formel fur Y transponiert man zunachst die Matrix X,

so dass die Datenvektoren der einzelnen Personen nun die Spalten bilden. Die

Matrix AX′ ist dann spaltenweise das Produkt von A mit den Datenvektoren

der Personen; die Spaltenvektoren sind also bis auf eine Addition des Vektors b

bereits die gesuchten transformierten Datenvektoren. Die Addition von b zu allen

Spalten bewirkt man jedoch, indem man zur Matrix AX′ die Matrix addiert, die

aus der n mal wiederholten Spalte b besteht. Die zu addierende Matrix kann

man als b1′n schreiben (man interpretiere die beiden Faktoren als Matrizen und

wende b auf die Spalten von 1′n an). Als Ergebnis der Addition erhalt man so

spaltenweise die neuen Datenvektoren fur die Versuchspersonen, also die Matrix


Y′. Aus

Y′ = AX′ + b1′

folgt aber durch Transponieren

Y = (AX′ + b1′)′ = (AX′)′ + (b1′)′ = X′′A′ + 1′′b′ = XA′ + 1b′ ,

wobei 1 naturlich fur 1n steht. �

Nachdem so die Matrix Y der transformierten Daten bestimmt ist, kann nach

dem Mittelwertvektor und der Kovarianzmatrix dieser Daten gefragt werden.

Eine mogliche Losung dieser Frage erhalt man mit Hilfe der Zentriermatrizen.

Da die Datenmatrix Y der transformierten Daten gleich XA′+1b′ ist, errechnet

sich der Mittelwertvektor y als

y =1

nY′1 =

1

n(XA′ + 1b′)′1 =

1

nA′′X′1 +

1

nb′′1′1

= A

(1

nX′1

)+

1

nb(n) = Ax + b .

Der Mittelwertvektor wird also genauso transformiert wie der Ergebnisvektor

jeder einzelnen Versuchsperson.

Zur Vorbereitung der Formeln fur die Kovarianzmatrix gilt zunachst

Y = ZY = Z(XA′ + 1b′) = ZXA′ + Z1b′ = XA′

wegen ZX = X und Z1 = 0.

Nun kann die Kovarianzmatrix der transformierten Daten bestimmt werden. Zur

Unterscheidung soll hier die Kovarianzmatrix der Originaldaten mit Sx und die

der transformierten Daten mit Sy bezeichnet werden. Es gilt dann

Sy =1

nY′Y =

1

n(XA′)′(XA′) =

1

nA′′X′XA′ = A

(1

nX′X

)A′ = ASxA

′ .

Man uberzeugt sich sofort, dass eine analoge Formel auch fur die SSCP-Matrix

und die korrigierte Stichprobenkovarianzmatrix gilt.

Das Ergebnis soll wegen seiner zentralen Bedeutung fur alle multivariaten Rech-

nungen noch einmal ausfuhrlich festgehalten werden:


Feststellung 1. Sind x und Sx Mittelwertsvektor und Kovarianzmatrix einer

Datenmatrix, und werden die Daten aller Versuchspersonen der affinen Transfor-

mation y = Ax + b unterworfen, so gelten fur den Mittelwertvektor y und die

Kovarianzmatrix Sy der transformierten Daten die Formeln

y = Ax + b und Sy = ASxA′ . �

Da die Korrelationsmatrix gleichzeitig die Kovarianzmatrix der komponentenwei-

se z-transformierten Daten ist, ergibt sich aus der Formulierung der z-Transforma-

tionen mit Hilfe der affinen Abbildung V−1/2x x−V

−1/2x x unmittelbar die Formel

V−1/2x SxV

−1/2x

fur die Korrelationsmatrix von x; hierbei ist noch zu berucksichtigen, dass wegen

der Symmetrie von V−1/2x das Transponieren des letzten Faktors unterbleiben

kann.

Es soll nun noch der Sonderfall behandelt werden, dass man die Kovarianz von

zwei Linearkombinationen (im Sinne der univariaten Statistik) der Daten einer

Datenmatrix X mit Kovarianzmatrix S berechnen will. Sind also neue Variablen

U und V durch die Vorschrift U = a′x + b und V = c′x + d definiert, so gilt

fur die zentrierten Datenvektoren der neuen Variablen u = Xa und v = Xc

(man beachte, dass die linearen Anteile der Transformationen hier durch die

transponierten Koeffizientenvektoren gegeben sind). Die Kovarianz bestimmt sich

dann zu

KovU,V =1

nu′v =

1

n(Xa)′(Xc) =

1

na′X′Xc = a′

(1

nX′X

)c = a′Sc .

Feststellung 2. Ist S die Kovarianzmatrix einer Datenmatrix X und sind die

Variablen U = a′x+b und V = c′x+d zwei Linerarkombinationen der gegebenen

Variablen, so gilt

KovU,V = a′Sc . �

Als Spezialfall kann man hier fur V auch U einsetzen, und erhalt fur die Varianz

S2U der Linearkombination U = a′x + b die Formel

S2U = a′Sa .

Der Mittelwert von U ergibt sich leicht zu a′x + b. Man hat also


Feststellung 3. Ist S die Kovarianzmatrix einer Datenmatrix X und ist U =

a′x + b eine Linearkombination der gegebenen Variablen, so gilt

u = a′x + b und S2U = a′Sa . �

Die Teilaussage uber die Varianz hat eine wichtige Konsequenz: Da man fur a

jeden beliebigen Vektor einsetzen kann und mit der Formel dann die Varianz

der durch a gegebenen Linearkombination erhalt, und da andererseits Varianzen

nicht negativ sein konnen, folgt, dass fur eine Kovarianzmatrix S der Ausdruck

a′Sa fur alle Vektoren a nichtnegativ ist. Fur Matrizen mit dieser Eigenschaft

gibt es eine besondere Bezeichnung:

Eine symmetrische Matrix A mit der Eigenschaft, dass fur alle Vektoren x die

Beziehung

x′Ax ≥ 0

gilt, heißt auch positiv semidefinit.

Die positiv semidefiniten Matrizen sind in gewisser Weise Verallgemeinerungen

der nichtnegativen Zahlen im Bereich der Matrizen.

Da Kovarianzmatrizen symmetrisch sind, folgt die

Feststellung 4. Kovarianzmatrizen sind symmetrisch und positiv semidefinit.

Hier schließen sich interessante Fragen an. Zunachst kann man fragen, ob jede

positiv semidefinite Matrix eine mogliche Kovarianzmatrix ist, oder ob Kovari-

anzmatrizen noch weitere einschrankende Eigenschaften haben (man stelle sich

jemanden vor, der eine Aufgabe entwirft, in der eine Kovarianzmatrix vorkommt

– genugt es hier, sich irgendeine positiv semidefinite Matrix auszudenken, oder

konnte es sein, dass diese Matrix aus noch nicht bekannten Grunden doch keine

Kovarianzmatrix sein kann?). Es wird sich herausstellen, dass tatsachlich jede

positiv semidefinite Matrix eine mogliche Kovarianzmatrix ist, genauso, wie jede

nicht negative Zahl eine mogliche Varianz ist. Nahe verwandt mit der ersten Fra-

ge ist dann das Problem, wie man bei einer gegebenen Matrix feststellen kann,

ob sie positiv semidefinit ist.

Die Antwort auf die erste Frage soll schon hier angedeutet werden. Es wird sich

spater zeigen, dass man jede positiv semidefinite (p × p)-Matrix K schreiben

kann als K = AA′ mit einer geeigneten (p × p)-Matrix A. Wenn es dann in

einer untersuchten Situation moglich ist, p unkorrelierte Variablen zu finden,


die die Varianz 1 besitzen, so haben diese Variablen als Kovarianzmatrix die

Einheitsmatrix I. Fasst man diese Variablen zu einem Vektor x zusammen und

definiert man y als affine Transformation y = Ax, so ist die Kovarianzmatrix

von y gerade AIA′ = AA′ = K. Dies ergibt die

Feststellung 5. Gibt es in einer Situation p unkorrelierte Variablen der Varianz

1, so ist jede positiv semidefinite (p×p)-Matrix K eine mogliche Kovarianzmatrix.

�

Die Voraussetzung, dass es p unkorrelierte Variablen der Varianz 1 gibt (was

nicht heißt, dass sie konkret vorliegen mussen, sondern nur, dass man derartige

Variablen finden kann), durfte in den meisten Situationen harmlos sein, so dass

die Begriffe’positiv semidefinite Matrix‘ und

’mogliche Kovarianzmatrix‘ im We-

sentlichen zusammenfallen. Man kann sie also (wenn man an der Voraussetzung

nicht zweifelt) auch synonym gebrauchen, was in Zukunft geschehen soll.

Gesamtvarianz. In einer Situation mit p Variablen gibt die Kovarianzmatrix

eine sehr gute Beschreibung der Variabilitat der Daten. Sie enthalt nicht nur die

Einzelvarianzen in der Diagonale, sondern auch Informationen uber den linearen

Zusammenhang der Variablen.

Ein Nachteil der Kovarianzmatrix ist, dass sie – besonders bei großem p – nicht

leicht uberschaubar ist. Hier kann der Wunsch entstehen, die Information uber

die Variabilitat in einer einzigen Zahl zusammenzufassen – naturlich unter Infor-

mationsverlust.

Eine erste naheliegende Moglichkeit, eine solche Zahl zu definieren, ist es, einfach

die Summe der Einzelvarianzen zu bilden. Diese Summe soll auch die Gesamtva-

rianz der gegebenen Variablen genannt werden.

Da die Varianzen der einzelnen Variablen gerade die Diagonale der Kovarianz-

matrix bilden, ist die Gesamtvarianz gleich der Spur der Kovarianzmatrix.

In dem Beispiel vom Anfang war die Kovarianzmatrix gleich

S =

4 7.8 6

7.8 16 11

6 11 16

,

so dass sich die Gesamtvarianz der drei betrachteten Variablen zu 4+16+16 = 36

errechnet.


Die Eigenschaften der so definierten Gesamtvarianz werden spater noch genauer

untersucht werden. Es ist jedoch klar, dass eine solche Definition in unterschiedli-

chen Situationen unterschiedlich sinnvoll sein wird. Wenn die Variablen inhaltlich

viel miteinander zu tun haben und die Skalen, auf denen sie gemessen werden,

miteinander’harmonieren‘, so ist das Konzept der Gesamtvarianz sicher angemes-

sener, als wenn man es mit heterogenen Variablen zu tun hat, oder mit solchen,

deren Skalen nicht in einem fur diese Zwecke geeigneten Zusammenhang stehen.

Die Problematik wird vielleicht deutlicher, wenn man sich vor Augen fuhrt, dass

die Anderung einer der Skalen durch eine Transformation, die die Werte ledig-

lich mit einer großen Zahl multipliziert, dazu fuhrt, dass diese Variable in der

Gesamtvarianz nach dieser Transformation ein erheblich großeres Gewicht erhalt

als vorher und womoglich schließlich die Gesamtvarianz vollig dominiert, obwohl

die Transformation an sich so harmlos ist wie die Umrechnung von Kilometern

in Millimeter.

Zufallsvektoren und ihre Kennwerte. Sind p eindimensionale Zufallsvaria-

blen xi auf demselben Wahrscheinlichkeitsraum definiert, so kann man sie auch zu

einem Zufallsvektor x zusammenfassen, dessen Komponenten dann die einzelnen

Variablen sind.

Man schreibt auch

x =

x1x2...

xp

.

Zur Notation: Es ware besser, wenn man Zufallsvariablen im Gegensatz zu kon-

kreten Messwerten mit Großbuchstaben bezeichnen wurde. Dies geht hier jedoch

deshalb nicht, weil die Großbuchstaben schon zur Bezeichnung von Matrizen ver-

braucht sind. Es ist daher ublich, Zufallsvariable und konkrete Messwerte mit

den gleichen Symbolen zu bezeichnen, wobei sich aus dem Kontext ergibt, was

jeweils gemeint ist.

Es folgen zwei typische Beispiele:

Immer wenn eine Versuchsperson (allgemeiner eine Untersuchungseinheit) in ei-

nem noch durchzufuhrenden Experiment mehrere Werte (z.B. Werte verschiede-

ner physiologischer Variablen) liefern soll, kann man die Zufallsvariablen, die die

Einzelergebnisse modellieren, zu einem Zufallsvektor zusammenfassen.


Ist in einer Datenerhebung eine Person durch ihre Werte in mehreren Variablen

gekennzeichnet (z.B. Personlichkeitsvariablen), so fasst man diese Werte auch zu

einem Zufallsvektor zusammen (beachte: hier sind nicht die konkreten Werte einer

konkreten Person gemeint, sondern die Werte, die eine noch zu ziehende Person

liefern wird; der Wahrscheinlichkeitsraum wird dann meist die Population sein,

aus der gezogen wird, und das W-Maß wird ein Modell fur die Ziehung sein).

Sofern nichts anderes gesagt wird, soll von Zufallsvariablen generell vorausgesetzt

werden, dass sie einen Erwartungswert und eine Varianz besitzen.

Als Erwartungswert oder Erwartungswertvektor E(x) des Zufallsvektors x be-

zeichnet man den Vektor, der als Komponenten die Erwartungswerte der xi be-

sitzt. Man bildet sozusagen den Erwartungswert komponentenweise. Als Symbole

fur Erwartungswertvektoren werden meist fette griechische Buchstaben wie µ mit

Komponenten µi verwendet.

Man schreibt also

E(x) = E(

x1x2...

xp

) =

E(x1)

E(x2)...

E(xp)

oder E(x) = µ =

µ1

µ2

...

µp

.

Als Kovarianzmatrix V(x) eines p−dimensionalen Zufallsvektors x bezeichnet

man diejenige (p× p)-Matrix, die als (i, j)-Element die Kovarianz von xi und xjenthalt:

V(x) =

Kov(x1, x1) Kov(x1, x2) . . . Kov(x1, xp)

Kov(x2, x1) Kov(x2, x2) . . . Kov(x2, xp)...

... · · · ...

Kov(xp, x1) Kov(xp, x2) . . . Kov(xp, xp)

Wenn x ein Zufallsvektor mit mehr als einer Komponente ist, bezeichnet V(x)

also eine ganze Matrix, und nicht etwa nur eine Zahl. Nur im Spezialfall einer

eindimensionalen Variable x ist V(x) eine Zahl, namlich die Varianz von x; hier

identifiziert man (1× 1)-Matrizen wie ublich mit ihrem einzigen Element.

Als Abkurzung werden oft Symbole wie Σ (mit Elementen σij) verwendet – in

diesem Zusammenhang ist dann σii die Varianz und nicht etwa die Streuung der

i-ten Komponente.


Bei eindimensionalen Variablen x soll mit σ(x) gelegentlich die Streuung von x

bezeichnet werden.

Kovarianzmatrizen von Zufallsvektoren sind naturlich symmetrisch.

Ist µ der Erwartungswert des p-Zufallsvektors x, so ist (x−µ)(x−µ)′ eine (p×p)-

’Zufallsmatrix‘ (analog definiert wie Zufallsvektoren), die als (i, j)-Element gerade

das Produkt (xi − µi)(xj − µj) enthalt. Der Erwartungswert dieses Produkts ist

die Kovarianz von xi und xj. Man bildet den Erwartungswert einer Zufallsmatrix

auch wieder komponentenweise und erhalt so mit

V(x) = E((x− µ)(x− µ)′)

eine Schreibweise der Kovarianzmatrix mit Hilfe des Erwartungswertoperators.

Auch hier definiert man die Gesamtvarianz eines Zufallsvektors als die Summe

der Varianzen der einzelnen Variablen, gleichbedeutend als die Spur der Kovari-

anzmatrix.

Gelegentlich liegt es aus inhaltlichen Grunden nahe, die betrachteten Einzelvaria-

blen zu zwei Zufallsvektoren zusammenzufassen, beispielsweise in dem Fall, dass

mehrere Personlichkeitsvariable einerseits und mehrere physiologische Variable

andererseits an den selben Versuchspersonen erhoben werden sollen.

Allgemein definiert man die Matrix der Kovarianzen C(x,y) der (auf ein- und

demselben W-Raum definierten) p- bzw. q-dimensionalen Zufallsvektoren x und y

als die Matrix der Kovarianzen der Komponenten. Die Matrix C(x,y) ist dann al-

so eine (p×q)−Matrix, deren (i, j)−Element gerade Kov(xi, yj) ist. Man beachte

den Unterschied der Bezeichnungen’Kovarianzmatrix‘ und

’Matrix der Kovari-

anzen‘.

Im Gegensatz zu Kovarianzmatrizen sind Matrizen von Kovarianzen im Allge-

meinen nicht quadratisch und erst recht nicht symmetrisch.

Es folgt ein Beispiel: Eine (noch zu ziehende) Versuchsperson sei durch zwei zu

einem 2-Zufallsvektor x zusammengefasste Personlichkeitsvariable und durch drei

zu einem Zufallsvektor y zusammengefasste Intelligenzkomponenten charakteri-

siert. Die Kovarianzen zwischen Personlichkeitsvariablen und Intelligenzvariablen

fasst man dann in der Matrix

C(x,y) =

(Kov(x1, y1) Kov(x1, y2) Kov(x1, y3)

Kov(x2, y1) Kov(x2, y2) Kov(x2, y3)

)


zusammen.

Offenbar gilt:

C(y,x) = (C(x,y))′ ,

außerdem

V(x) = C(x,x) .

Außerdem kann man auch die Matrix der Kovarianzen als Erwartungswert schrei-

ben: Ist µ der Erwartungswertvektor von x und ν der von y, so ist die Matrix

der Kovarianzen von x und y gleich

E((x− µ)(y − ν)′) .

Affine Transformationen. Auch im theoretischen Fall ist nun das Verhalten

der Kenngroßen bei affinen Abbildungen zu untersuchen.

Wendet man eine affine Abbildung u = Ax + b (wobei A eine (r × p)-Matrix

ist und b ein r-Vektor) auf die moglichen Werte eines p-Zufallsvektors x an, so

erhalt man einen neuen r-Zufallsvektor

u = Ax + b .

Die i−te Komponente von u ist die Zufallsvariable ui =∑aijxj+bi. Hier liegt also

eine Linearkombination (im Sinne der univariaten Statistik, nicht zu verwechseln

mit dem Begriff aus der linearen Algebra) der xj vor. Der Vektor u fasst dann die

r zu den Zeilen von A (und den Komponenten von b) gehorenden Zufallsvariablen

zu einem r-Zufallsvektor zusammen.

Man nennt u auch eine affine Transformation von x.

Die Gleichung u = Ax + b ist ubrigens wieder ein Beispiel fur die mehrfache

Verwendung von Symbolen. Einerseits gibt sie an, wie man fur einen konkreten

Datenvektor x den zugehorigen Datenvektor u berechnet; x und u stehen dann fur

mogliche konkrete Vektoren. Andererseits kann man die Gleichung jedoch auch

als Beschreibung der Transformation eines Zufallsvektors x in einen Zufallsvektor

u lesen, wobei jetzt x und u fur Zufallsvektoren stehen.

Ein Beispiel: Man kann sich vorstellen, dass man auf Grund der Werte in einem

aus drei Teilen bestehenden Intelligenztest die Leistungen in zwei Aufgaben vor-

hersagen will, die in unterschiedlicher Weise auf den drei Intelligenzkomponenten


beruhen. Die Vorhersage soll dabei linear sein im Sinne der multiplen linearen

Regression. Sind die Werte in den drei Untertests x1, x2 und x3, und die vorher-

gesagten Werte u1 und u2, so haben u1 und u2 die Form

u1 = a11x1 + a12x2 + a13x3 + b1

u2 = a21x1 + a22x2 + a23x3 + b2 ,

was man kurz mit Hilfe einer affinen Abbildung als

u = Ax + b

schreiben kann.

Ein einfacher Spezialfall ist wieder der, dass man nur eine neue Variable bildet;

dann ist es ublich, die Koeffizienten in einem p-Spaltenvektor a zusammenzufas-

sen. Die neue eindimensionale Variable u schreibt sich dann als

u =∑

aixi + b = a′x + b ;

hier ist die Matrix der affinen Abbildung also a′ und der Verschiebungsvektor die

Zahl b.

Bekanntlich berechnet sich der Erwartungswert einer Linearkombination ui =∑aijxj + bi von Zufallsvariablen xj als

E(ui) = E(∑

aijxj + bi

)=∑

aijE(xj) + bi .

Fasst man die Komponenten wieder zu einem Vektor zusammen, so erkennt man,

dass fur den Erwartungswert E(u) von u = Ax + b die Beziehung

E(u) = AE(x) + b

gilt, denn die i-te Komponente auf der rechten Seite stimmt nach der vorange-

henden Rechnung gerade mit der i-ten Komponente der linken Seite uberein fur

alle i.

Ist neben x ein weiterer q-Zufallsvektor y gegeben, so ist die Kovarianz der i−ten

Komponente ui von u mit der k−ten Komponente yk von y gleich

Kov(ui, yk) = Kov

(∑j

aijxj + bi, yk

)=∑j

aijKov(xj, yk); ,

und das ist genau das (i, k)−Element von AC(x,y) (Produkt der i-ten Zeile der

ersten Matrix mit der k-ten Spalte der zweiten).


Daher gilt fur u = Ax + b die Beziehung

C(u,y) = C(Ax + b,y) = AC(x,y) .

Wendet man auf y die affine Abbildung v = Cy + d an, so gilt analog

C(x,v) = C(x,Cy + d) = C(x,y)C′ ,

denn

C(x,v) = (C(v,x))′ = (C(Cy + d,x))′ = (CC(y,x))′ = C(x,y)C′ .

Durch Kombination ergibt sich:

C(u,v) = C(Ax + b,Cy + d) = AC(x,Cy + d) = AC(x,y)C′

Als Spezialfall erhalt man fur u = Ax + b

V(u) = C(u,u) = C(Ax + b,Ax + b) = AC(x,x)A′ = AV(x)A′

Die zentralen Regeln werden noch einmal zusammengefasst in der

Feststellung 6. Ist u = Ax + b, E(x) = µ und V(x) = Σ, so gilt

E(u) = Aµ + b

V(u) = AΣA′ . �

Man hat auch wieder den Spezialfall eines eindimensionalen u:

Feststellung 7. Ist u = a′x + b, so gilt

E(u) = a′µ + b

V(u) = a′Σa . �

Wie oben folgert man hieraus, dass Kovarianzmatrizen positiv semidefinit sind.

Die umgekehrte Frage, ob namlich jede positiv semidefinite (p× p)-Matrix auch

eine mogliche Kovarianzmatrix ist, kann genauso wie oben beantwortet werden:

Dies gilt jedenfalls dann, wenn auf dem betrachteten Wahrscheinlichkeitsraum p

unkorrelierte Zufallsvariablen mit Varianz 1 existieren.


Die Regeln sind ubrigens vollig analog zu denen im deskriptiven Fall, was nicht

uberraschen sollte.

Ein weiterer Spezialfall ist der, dass x mit einer Zahl a multipliziert wird:

Feststellung 8. Ist u = ax + b, so gilt

E(u) = aµ + b

V(u) = a2Σ .

Zur Begrundung kann man fur ax auch (aI)x schreiben und erhalt beispielsweise

fur die Varianz

V(u) = (aI)Σ(aI)′ = a2IΣI = a2Σ . �

Auch im theoretischen Bereich ist es im Zusammenhang mit Standardisierungen

sinnvoll, Bezeichnungen fur die Diagonalmatrizen zu haben, deren Diagonalen

aus den Varianzen der Komponenten eines Zufallsvektors x bestehen oder den

Streuungen oder deren Kehrwerten. Hierfur konnen die gleichen Bezeichnungen

Vx, V1/2x und V

−1/2x wie im deskriptiven Fall verwendet werden, da Verwechs-

lungsgefahren durch den Kontext ausgeschlossen sein sollten (man beachte jedoch

die Unterschiedlichkeit der Bezeichnungen V(x) und Vx). Es gelten dann – bei-

spielsweise bei der Bildung von Korrelationsmatrizen – die gleichen Regeln wie

im Deskriptiven.

Es sei angemerkt, dass man die Regeln fur die empirischen Kovarianzmatrizen

genauso hatte zeigen konnen wie fur die theoretischen. Der Zugang uber die

Zentriermatrix wurde vorgezogen, um einerseits die’abstrakte‘ Matrizenrechnung

zu uben, und andererseits aus dem Grund, dass diese Zentriermatrix spater noch

wichtig werden wird.

Eine weitere Anmerkung: Auch im empirischen Fall ist es gelegentlich sinnvoll,

eine Matrix der Kovarianzen fur zwei verschiedene Variablengruppen zu bilden,

so wie C(x,y); es sollte nun aber nicht schwerfallen, sich selbst zu uberlegen, wie

die Definition aussehen muss, und dass analoge Rechenregeln gelten.

Summen von Zufallsvektoren. Wichtig sind auch die Kennwerte von Summen

von Zufallsvektoren.

Sind x und y zwei p−Zufallsvektoren, die naturlich auf dem gleichen W-Raum


definiert sein mussen, so folgt aus Betrachtung der Komponenten unmittelbar

E(x + y) = E(x) + E(y) ,

analog fur Differenzen und allgemeiner Linearkombinationen ax + by.

Ist u ein weiterer Zufallsvektor, so gilt

C(x + y,u) = C(x,u) + C(y,u) ,

da ja das (i, j)-Element Kov(xi + yi, uj) der Matrix auf der linken Seite gleich

Kov(xi, uj) + Kov(yi, uj) ist, und das ist das (i, j)-Element der rechten Seite.

Ganz analog gilt fur einen weiteren Zufallsvektor v der gleichen Lange wie u die

Beziehung

C(x,u + v) = C(x,u) + C(x,v) ,

was man leicht durch Transponieren der letzten Regel erkennt.

Zusammen ergibt dies

C(x + y,u + v) = C(x,u) + C(x,v) + C(y,u) + C(y,v) ,

und im Spezialfall

V(x + y) = V(x) + V(y) + C(x,y) + C(y,x) ,

wobei man fur C(y,x) naturlich auch C(x,y)′ schreiben kann.

Wichtig ist vor allem der Spezialfall, dass die Matrix der Kovarianzen von x und

y die Nullmatrix ist. Meist spricht man hier eher davon, dass x und y unkorreliert

sind, womit man meint, dass jede Komponente von x mit jeder Komponente von

y die Korrelation 0 hat; daraus folgt dann unmittelbar C(x,y) = 0 (allerdings ist

die erste Formulierung allgemeiner, weil sie auch die Moglichkeit umfasst, dass bei

den Variablen auch Varianzen von 0 vorkommen). Fur diesen Spezialfall erhalt

man:

Feststellung 9. Ist die Matrix C(x,y) der Kovarianzen der p-Zufallsvektoren x

und y gleich 0, so gilt

V(x + y) = V(x) + V(y) . �

Man kann die Formeln fur die Summe zweier p-dimensionaler Zufallsvariablen x

und y auch mit Hilfe der Regeln zu partitionierten Matrizen herleiten. Man fasst

2.2 Geometrische Veranschaulichungen MS13 27

dazu die beiden Variablen zu einem Zufallsvektor z = (x,y) (eigentlich (x′,y′)′)

zusammen, und macht sich zunachst klar, dass der Erwartungswertvektor von z

gleich (E(x)

E(y)

)ist und die Kovarianzmatrix von z gleich(

V(x) C(x,y)

C(y,x) V(y)

).

Die Summe von x und y erhalt man auch, indem man auf z die durch die Matrix

(I, I) gegebene affine Abbildung anwendet, denn es gilt

(I I

)(x

y

)= Ix + Iy = x + y .

Nach den Regeln fur affine Transformationen ist daher der Erwartungswert von

x + y gleich

E(x + y) =(I I

)(E(x)

E(y)

)= I E(x) + I E(y) = E(x) + E(y) ,

und die Kovarianzmatrix von x + y gleich

V(x + y) =(I I

)( V(x) C(x,y)

C(y,x) V(y)

)(I

I

)= V(x) + C(x,y) + C(y,x) + V(y) .

Naturlich gelten ubrigens im Deskriptiven analoge Regeln, insbesondere ist die

Kovarianzmatrix der Summe von zwei unkorrelierten Variablenvektoren gleich

der Summe der Kovarianzmatrizen der beiden Vektoren.

2.2 Geometrische Veranschaulichungen

In diesem Abschnitt sollen geometrische Veranschaulichungen multivariater Si-

tuationen besprochen werden und geometrische Deutungen multivariater Kenn-

werte. Die Einzelthemen sind dabei eher heterogen.

Variablenraum und Personenraum. In diesem Abschnitt geht es um zwei

Moglichkeiten, multivariate Daten geometrisch darzustellen. Die Daten von n


Personen auf p Variablen sollen dabei wie ublich in einer (n× p)-Datenmatrix X

vorliegen.

Hier ist zunachst ein Miniaturbeispiel einer solchen Datenmatrix: Von drei Ver-

suchspersonen seien je zwei Testwerte erhoben worden. Als Datenmatrix kann

sich dann die folgende (3× 2)-Matrix ergeben haben: 1 −2

2 1

−3 1

Die erste Person hat also die Werte 1 und −2 in den beiden Tests erzielt, in der

zweiten Variablen hatten die drei Personen die Werte −2, 1 und 1, etc.

Zur geometrischen Darstellung einer Datenmatrix stehen zwei Moglichkeiten zur

Verfugung: Die Darstellung im Variablenraum und die im Personenraum.

Der Variablenraum ist bekannt: Hier entsprechen die Achsen den Variablen und

jede Person wird durch einen Punkt reprasentiert, dessen Koordinaten die Werte

der einzelnen Variablen fur diese Person sind. Man hat also eine Darstellung der

Daten im Rp.

Die Darstellung im Personenraum ist sozusagen dual dazu: Hier entsprechen die

Achsen den Personen, wahrend die Variablen als Vektoren reprasentiert sind,

deren Koordinaten die Werte sind, die die einzelnen Personen auf den jeweiligen

Variablen haben. Hier werden die Daten also im Rn dargestellt.

Wahrend bei der Darstellung der Daten im Variablenraum die einzelnen Personen

im Mittelpunkt stehen, geht es bei der Darstellung im Personenraum um eine Re-

prasentation der Variablen. Die Namensgebung richtet sich nach der Bedeutung,

die die Achsen haben.

Die folgende Abbildung zeigt fur die gerade betrachtete Datenmatrix X die Dar-

stellungen im Variablenraum und im Personenraum, wobei die Buchstaben P, p

fur die Personen und die Buchstaben X,x fur die Variablen stehen.


1

1

p

pp

p1

p2p3

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.........................

...................X2

.......................................................................................................................................................................................................................................... ...................

X1

............................................................................................................................................................... ...................

........................................

........................................

.....................................

........................................

........................................

........................................................

...................

............................................................................................................................................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

....................

...................

...........................................................................................................................................................

..................

.........

................

........

..............

.......

..............

.......

.......

.......

.......

.......

.......

.......

................

.........

...........................................................

pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp pppppppppppppppp.........

....

..................

.......................

pppppppppppppppppppppppppppppppppppppppppppp

P1

P2

P3

1

11

x1

x2

Fur das Beispiel der einfachen linearen Regression bei n Versuchspersonen erhalt

man eine (n× 2)-Datenmatrix. Im zweidimensionalen Variablenraum werden die

Daten durch die bekannte Punktwolke dargestellt. Der Personenraum ist hinge-

gen n-dimensional und die Datendarstellung besteht aus zwei Vektoren, die fur

Pradiktor und Kriterium stehen.

Punktwolken im Variablenraum. Die Darstellung multivariater Daten durch

Punktwolken ist aus der bivariaten Situation (also der mit zwei Variablen) wohl-

bekannt. In diesem Abschnitt soll die Spur der Kovarianzmatrix in dieser Dar-

stellung eine geometrische Interpretation erhalten, die ihre Bezeichnung als Ge-

samtvarianz rechtfertigt.

Ausgangspunkt ist wie ublich eine (n×p)-Datenmatrix X, deren Element xij den

Wert angibt, den die i-te Versuchsperson auf der j-ten Variable hat. Die Variablen

werden mit x1, . . . , xp bezeichnet und zu einem Variablenvektor x zusammenge-

fasst. Die wie ublich mit xi bezeichnete transponierte i-te Zeile von X gibt dann

an, welchen Wert die i-te Versuchsperson auf dem gesamten Variablenvektor x

besitzt.

An dieser Stelle ist noch einmal ein Hinweis auf unterschiedliche Verwendungswei-

sen von Symbolen wie xi angebracht: Oft bezeichnet xi wie hier den Datenvektor

der i-ten Versuchsperson. In anderen Situationen, beispielsweise im Personen-

raum oder wenn eher Datenvektoren im Mittelpunkt des Interesses stehen, kann

xi aber auch den Vektor der Daten in der i-ten Variable bezeichnen. Man konnte

diesem Bezeichnungskonflikt durch die Einfuhrung getrennter Bezeichnungswei-

sen aus dem Weg gehen, was aber zu eher unhandlichen Ausdrucken fuhren wurde.

Da aus dem Kontext die Bedeutung meist klar ist, kann meist ein kurzer einlei-

tender Hinweis zur Klarung genugen, falls dieser uberhaupt notig ist.

Die wichtigsten Kennwerte der Verteilung sind der Mittelwertsvektor (das Zen-


troid) der Daten und die Kovarianzmatrix. Den Mittelwertsvektor x erhalt man,

indem man variablenweise die Mittelwerte bildet und zu einem Vektor zusam-

menfasst. Alternativ ergibt sich auch sofort

x =1

n

n∑i=1

xi .

Bei der Reprasentation der Daten im Variablenraum entspricht jeder Person

derjenige Punkt in einem p-dimensionalen Koordinatensystem, dessen Koordi-

naten die Werte der Person in den p Variablen sind. Auf diese Weise erhalt

man insgesamt eine Punktwolke. Das Zentroid kann dabei auch (in einem naher

prazisierbaren Sinn) als Schwerpunkt der Punktwolke angesehen werden.

In den folgenden Uberlegungen soll uber das Koordinatensystem vorausgesetzt

werden, dass seine Achsen senkrecht aufeinander stehen und dass die Einhei-

ten auf den Koordinatenachsen alle die gleiche Lange haben. Die folgenden geo-

metrischen Interpretationen beruhen wesentlich auf diesen Voraussetzungen, die

normalerweise auch erfullt sein sollten.

Ein Beispiel: Sind an 5 Versuchspersonen jeweils zwei Variablen x1 und x2 erhoben

worden, so konnte die Datenmatrix X so aussehen:2 1

4 3

1 1

5 2

3 3

Hier hat also zum Beispiel die vierte Versuchsperson in den beiden Variablen die

Werte 5 und 2, die man in dem Vektor x4 = (5, 2)′ zusammenfasst.

Der Mittelwertsvektor x ist hier gleich (3, 2)′. Die folgende Graphik veranschau-

licht die Daten im Variablenraum:


1

1

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.........................

...................

x1

x2

r

r

rr

rs

x4

x

Die Kovarianzmatrix S bildet man als Matrix der Kovarianzen. Man erhalt diese

Kovarianzmatrix offenbar auch folgendermaßen:

S =1

n

n∑i=1

(xi − x)(xi − x)′ ,

denn hier ergibt sich als (j, k)-Element gerade der Mittelwert der Produkte der

Abweichungen der j-ten und der k-ten Variable von ihrem jeweiligen Mittelwert.

Im Beispiel ergibt sich als Kovarianzmatrix die Matrix

S =

(2 .8

.8 .8

).

Nun kann die Spur der Kovarianzmatrix geometrisch gedeutet werden.

Feststellung 1. Die Spur der Kovarianzmatrix ist gleichzeitig der durchschnitt-

liche quadrierte Abstand der Datenpunkte vom Zentroid.

Der quadrierte Abstand des i-ten Datenpunktes vom Zentroid ist namlich gleich

‖xi − x‖2 = (xi − x)′(xi − x) .

Dies kann man auch kunstlich schreiben als Spur((xi − x)′(xi − x)), denn die

Spur einer (1 × 1)-Matrix ist gerade die in dieser Matrix enthaltene Zahl. Der


durchschnittliche quadrierte Abstand ist daher

1

n

n∑i=1

Spur((xi − x)′(xi − x)) =1

n

n∑i=1

Spur((xi − x)(xi − x)′)

= Spur

(1

n

n∑i=1

(xi − x)(xi − x)′

)= Spur(S) .

Hierbei werden die bekannten Eigenschaften der Spur benutzt, unter anderem

die Linearitatseigenschaften, also beispielsweise, dass die Spur einer Summe die

Summe der Spuren ist. �

Im Beispiel ist die Spur der Kovarianzmatrix gleich 2.8. Dies ist nun wegen der

letzten Feststellung gleichzeitig der durchschnittliche quadrierte Abstand der Da-

tenpunkte vom Zentroid. In der folgenden Abbildung sind die Abstande der Da-

tenpunkte vom Zentroid an den Beispieldaten veranschaulicht.

1

1

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.........................

...................

x1

x2

r

r

rr

rs

.............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

............................

............................

............................

............................

............................

............................................................................................................................................................................................................................................................................................................................................................................

x

Man erkennt in der Argumentation, dass die Voraussetzungen uber Achsen und

Einheiten wesentlich fur diese Deutungsmoglichkeit sind, denn nur unter diesen

Voraussetzungen ist die Summe der quadrierten Koordinatendifferenzen zweier

Punkte als quadrierter Abstand dieser Punkte interpretierbar.

Der durchschnittliche quadrierte Abstand vom Zentroid ist die naturliche Verall-

gemeinerung des univariaten durchschnittlichen quadrierten Abstands vom Mit-

telwert. Daher ist die Spur der Kovarianzmatrix auch eine naturliche Verallge-

meinerung der univariaten Varianz, und die Bezeichnung Gesamtvarianz fur die

Spur erfahrt eine zusatzliche Rechtfertigung.


Ein Sonderfall tritt dann ein, wenn die Spur der Kovarianzmatrix gleich 0 ist

(dann besteht ubrigens die gesamte Kovarianzmatrix nur aus Nullen, da ja ei-

nerseits die nichtnegativen Diagonalelemente und damit die Varianzen dann alle

gleich Null sein mussen, und da andererseits die Kovarianz zweier Variablen be-

tragsmaßig hochstens so groß ist wie das Produkt der Streuungen). Das bedeutet

namlich, dass der durchschnittliche quadrierte Abstand vom Zentroid gleich 0 ist,

dass also alle Datenpunkte mit dem Zentroid zusammenfallen. Es besteht dann

also keinerlei Variation in den Daten. Die Umkehrung ist unmittelbar klar, und

man hat damit

Feststellung 2. Die Spur einer Kovarianzmatrix ist genau dann 0, wenn die

Daten konstant sind. �

Es soll nun noch der durchschnittliche quadrierte Abstand eines beliebigen Punk-

tes v zu den Datenpunkten berechnet werden.

Der quadrierte Abstand von xi zu v ist

‖xi − v‖2 = ‖(xi − x) + (x− v)‖2

= ‖xi − x‖2 + 2<xi − x, x− v>+ ‖ x− v‖2 ,

der durchschnittliche quadrierte Abstand daher

1

n

∑‖xi − v‖2 =

1

n

∑(‖xi − x‖2 + 2<xi − x, x− v>+ ‖ x− v‖2

)=

1

n

∑‖xi − x‖2 + 2<

1

n

∑(xi − x), x− v>+ ‖ x− v‖2 .

Hier ist das Skalarprodukt gleich 0, da

1

n

∑(xi − x) =

1

n

∑xi −

1

nn x = x− x = 0

ist (dies ist die durchschnittliche Abweichung vom Zentroid). Der erste Summand

ist der durchschnittliche quadrierte Abstand vom Zentroid, also die Spur der

Kovarianzmatrix S der Punkte xi. Damit gilt:

Feststellung 3. Der durchschnittliche quadrierte Abstand eines Punktes v von

den xi ist1

n

∑‖xi − v‖2 = Spur(S) + ‖ x− v‖2 . �

Eine wichtige Folgerung hieraus ist die, dass das Zentroid derjenige Punkt ist, der

zu den Punkten einer Punktwolke den kleinsten durchschnittlichen quadrierten


Abstand hat. Fur alle vom Zentroid verschiedenen Punkte v ist ja der durch-

schnittliche quadrierte Abstand um den dann positiven Summanden ‖ x− v‖2

großer.

Die gerade fur empirische Daten formulierten Aussagen gelten analog auch fur

den theoretischen Fall eines Zufallsvektors. Die angestellten Uberlegungen las-

sen sich mit leichten Modifikationen ganz entsprechend auf theoretischer Ebene

durchfuhren, was fur besonders Interessierte nun etwas genauer erlautert werden

soll. Ausgangspunkt ist jetzt eine p-dimensionale Zufallsvariable x mit Erwar-

tungswertvektor µ und Kovarianzmatrix Σ.

Stellt man sich bei diesem Zufallsvektor vor, dass er Werte in einem p-dimensiona-

len Raum annimmt, der wie oben mit einem rechtwinkligen Koordinatensystem

mit gleichen Einheiten der Achsen versehen ist, so lassen sich die Argumenta-

tionen aus der empirischen Situation direkt ubertragen. Ein moglicher Wert des

Zufallsvektors wird dabei naturlich durch den Punkt reprasentiert, dessen Koor-

dinaten die Werte der Komponenten des Zufallsvektors sind.

Zunachst ist dann die Spur der Kovarianzmatrix gleich dem Erwartungswert des

quadrierten Abstandes von x zu µ. Die Begrundung ist ganz analog wie im empi-

rischen Fall, wobei nur die Mittelwertbildung durch die Bildung des Erwartungs-

werts zu ersetzen ist. Der Schritt, bei dem die Bildung der Spur mit der Bildung

des Erwartungswerts vertauscht wird, ist dadurch gerechtfertigt, dass die Spur

die Summe der Diagonalelemente ist, und dass der Erwartungswert einer Summe

gleich der Summe der Erwartungswerte ist. Zu berucksichtigen ist dann noch die

schon bekannte Gleichung V(x) = E((x− µ)(x− µ)′).

Damit ist auch in der theoretischen Situation die Spur der Kovarianzmatrix geo-

metrisch interpretierbar, diesmal als Erwartungswert des quadrierten Abstands

zum Erwartungswertvektor, und ist damit ebenfalls eine naturliche Verallgemei-

nerung der univariaten theoretischen Varianz.

Der Fall, dass die Spur der Kovarianzmatrix (also die Gesamtvarianz) gleich Null

ist, bedeutet daher, dass der Erwartungswert des quadrierten Abstandes der Zu-

fallsvariable zu µ gleich 0 ist. Dies bedeutet, dass dieser Abstand mit Wahr-

scheinlichkeit 1, oder wie man auch sagt fast sicher (f.s.) gleich 0 ist, was eine

etwas schwachere Formulierung ist als die, dass der Zufallsvektor konstant ist,

aber nicht wesentlich schwacher, da die Ausnahme der Abweichung von µ eben

nur mit Wahrscheinlichkeit 0 eintreten kann.


In Zukunft wird in analogen Situationen nur der Genauigkeit halber ahnlichen

Aussagen der Zusatz’(f.s.)‘ hinzugefugt.

Die Aussage uber den Erwartungswert des durchschnittlichen quadrierten Ab-

stands von x zu einem beliebigen Punkt v lasst sich im theoretischen Fall ganz

analog zum empirischen Fall formulieren und begrunden, wobei nur bei dem

Teilschritt E(<x− µ, µ− v>) = <E(x− µ), µ− v> eine kleine Schwierig-

keit auftritt, die sich aber sofort durch den Hinweis beheben lasst, dass das erste

Skalarprodukt eine Linearkombination der Komponenten von x−µ ist, bei dem

die Koeffizienten die konstanten Komponenten von µ− v sind, und dass der Er-

wartungswert einer Linearkombination die entsprechende Linearkombination der

Erwartungswerte ist.

Variablentransformationen. Ein zentrales Prinzip der multivariaten Stati-

stik besagt, dass Variablen beliebig durch Linearkombinationen ersetzt werden

durfen, solange dies insgesamt ohne’Informationsverlust‘ moglich ist. Ein solcher

Ubergang von Originalvariablen zu neuen Variablen soll auch Variablentransfor-

mation heißen.

Ob die neuen Variablen inhaltlich gut interpretierbar sind, spielt dabei nicht unbe-

dingt die Hauptrolle – oft liegen die Grunde fur solche Variablentransformationen

auch in statistischen Gesichtspunkten. Man erhalt dann gelegentlich neue Varia-

blen mit praktischen statistischen Eigenschaften, deren inhaltliche Interpretation

schwer fallt.

Der zunachst noch vage Ausdruck’ohne Informationsverlust‘ wird weiter unten

prazisiert werden. Wichtig ist der Hinweis, dass dieser’Informationserhalt‘ we-

sentlich ist fur den Begriff der Variablentransformation, wie er hier gebraucht

werden soll. Fur den in vielen Zusammenhangen mit wechselnden Bedeutun-

gen verwendeten eher informellen Begriff der’Transformation‘ trifft das hingegen

nicht notwendigerweise zu, wie man beispielsweise an der schon fruher gebrauch-

ten Bezeichnung einer’affinen Transformation‘ bei der Umformung von Daten

sieht.

Ein ganz einfaches Beispiel fur eine solche Variablentransformation ist das eines

Intelligenztests, der aus zwei Untertests x1 und x2 besteht, der sprachlichen und

der rechnerischen Intelligenz. Eine Versuchsperson ist hier also durch zwei Werte

gekennzeichnet. Aus diesen beiden Werten kann man nun einerseits die Summe

y1 = x1 + x2 bilden und andererseits die Differenz y2 = x2 − x1.


Die beiden so definierten neuen Variablen y1 und y2 sind offenbar Linearkombi-

nationen der Ausgangsvariablen, und sie sind auch inhaltlich gut interpretierbar:

die Variable y1 gibt die Gesamtintelligenz wieder, wahrend man an der Variable

y2 ablesen kann, ob die rechnerische oder die sprachliche Intelligenz uberwiegt –

man konnte y2 also auch als Spezialisierung bezeichnen. Damit die Definition der

Spezialisierung durch eine simple Differenzbildung gerechtfertigt ist, sei voraus-

gesetzt, dass x1 und x2 im Mittel gleich groß sind und auch gleiche Varianzen

besitzen.

Man kann nun aus y1 und y2 die Werte von x1 und x2 wieder rekonstruieren. Es

gilt namlich

y1 + y2 = (x1 + x2) + (x2 − x1) = 2x2 ,

woraus x2 = 1/2 (y1 + y2) folgt, und

y1 − y2 = (x1 + x2)− (x2 − x1) = 2 x1

woraus sich x1 = 1/2 (y1 − y2) ergibt.

Die beiden neuen Variablen y1 und y2 enthalten damit zusammen dieselbe Infor-

mation wie die Ausgangsvariablen x1 und x2, mit dem Unterschied, dass diese

Information mit den neuen Variablen unter anderen Gesichtspunkten dargeboten

wird.

Bis jetzt sind x1 und x2 die Ausgangsvariablen, und y1 und y2 sind gewissermaßen

nur daraus abgeleitet und haben daher einen anderen – niedereren – Status.

Wodurch ist diese Sichtweise jedoch gerechtfertigt? Kann es nicht sein, dass die

Gesamtintelligenz und die Spezialisierung die’eigentlichen‘ Variablen sind, und

dass x1 und x2 ihrerseits nur aus diesen abgeleitet sind? Rechnerisch kann man

die Beziehung zwischen x- und y-Variablen ja in beiden Richtungen explizieren.

Mit einiger Uberlegung findet man womoglich tatsachlich Argumente, die den

y-Variablen Vorrang einraumt (vor allem, wenn man sich vergegenwartigt, dass

Intelligenztests oft so hergestellt werden, dass man gegebene Items nach nicht

immer ganz nachvollziehbaren Kriterien in Gruppen zusammfasst, und diesen

dann kreativ solche Namen gibt, wie’verbale‘ oder ‘rechnerische Intelligenz‘, kann

man leicht zu zweifeln anfangen, ob nun gerade die so hergestellten Variablen in

der Realitat eine substantielle Entsprechung haben und andere Variablen, wie

hier die Gesamtintelligenz, nicht).

Solche Uberlegungen sind ganz im Sinne des multivariaten Standpunktes, der zu-

mindest technisch neuen Linearkombinationen den gleichen Status einraumt wie


den Originalvariablen. Denkt man hier konsequent weiter, so merkt man, dass der

Variablenbegriff oft keineswegs so scharf ist, wie man im ersten Moment meinen

konnte, oder dass haufig Kriterien fehlen, die es gestatten, bei unterschiedlichen

Linearkombinationen festzulegen (oder – je nach Standpunkt – festzustellen), wel-

che dieser Linearkombinationen’fundamentale‘ Variablen sind, und welche nur

’abgeleitet‘ sind. Die Hoffnung auf ein materielles Substrat, das hier weiterhel-

fen konnte, wird sich vielleicht auch nur in wenigen Fallen, wenn uberhaupt je,

erfullen. In letzter Konsequenz lost sich womoglich der Variablenbegriff selbst

auf, jedenfalls viele naiven Vorstellungen daruber.

Der multivariaten Statistik ist dies jedoch weitgehend gleichgultig, eben weil sie

nach dem Prinzip verfahrt, zunachst keine der Linearkombinationen von Varia-

blen vor anderen auszuzeichnen, letztlich auch die Variablen selbst nicht, und die

zwanglos mit Hilfe von Transformationen von einem Variablensystem zu jedem

anderen aquivalenten ubergehen kann.

Hier sollen allgemein derartige Variablentransformationen unter dem geometri-

schen Aspekt betrachtet werden. Es wird sich herausstellen, dass die Transfor-

mationen sich auch als Koordinatentransformationen interpretieren lassen, was

ihre’Harmlosigkeit‘ unterstreicht, denn dies bedeutet, dass man immer von den

gleichen Sachverhalten spricht, die man nur anders beschreibt oder betrachtet.

Zunachst sollen die Bezeichnungen fur diesen Abschnitt festgelegt werden: Die

Originalvariablen seien immer mit dem Buchstaben x bezeichnet, die durch die

Transformation gewonnen neuen mit dem Buchstaben y.

Der Ausdruck’ohne Informationsverlust‘ soll – nun etwas genauer, aber immer

noch vorlaufig – bedeuten, dass es moglich sein soll, Originaldaten aus transfor-

mierten Daten wieder vollstandig zu rekonstruieren.

Bevor sogleich die Standardfalle von Variablentransformationen im Rahmen der

multivariaten Statistik besprochen werden, soll noch auf eine Moglichkeit hinge-

wiesen werden, die Forderung des Informationserhalts auch mathematisch ange-

messen zu formulieren.

Bezeichnet man allgemein die Menge moglicher Werte der Originalvariablen mit

D und die Menge moglicher Werte der transformierten Variablen mit W , so wird

man die Forderung nach Informationserhalt so prazisieren, dass man verlangt,

dass die Funktion f : D → W , die die Transformation beschreibt, bijektiv ist.

Dies bedeutet ja bekanntlich gerade, dass einerseits unterschiedlichen Elementen


von D unterschiedliche Elemente von W zugeordnet werden, und dass anderer-

seits jedes Element von W durch die Abbildung f auch erfasst wird. Anschau-

lich heißt das, dass Verschiedenheit von Daten nach der Transformation erhalten

bleibt, und dass alle Elemente von W auch als transformierte Daten in Frage

kommen. Damit ist – jedenfalls im Prinzip – die Rekonstruierbarkeit der Origi-

naldaten aus den transformierten Daten gewahrleistet.

Als erstes wird nun der etwas einfachere Fall einer linearen Variablentransforma-

tion behandelt; der allgemeinere Fall der affinen Variablentransformation folgt

spater.

Hier sollen die neuen Variablen aus den alten als Linearkombinationen ohne ad-

ditive Konstante gebildet werden. Die Transformation der beiden Intelligenzva-

riablen vom Anfang erfullt beispielsweise diese Bedingung.

Die Koeffizienten, mit denen die neuen Variablen aus den alten gebildet werden,

sollen spaltenweise zu einer Matrix G zusammengefasst werden, die hier auch

Koeffizientenmatrix heißen soll.

In dem Eingangsbeispiel mit y1 = x1 + x2 und y2 = x2 − x1 sieht diese Koeffizi-

entenmatrix so aus:

G =

(1 −1

1 1

).

Fasst man die Originalvariablen zu einem Vektor x zusammen und die neuen

Variablen zu einem Vektor y, so gilt

y = G′x ,

denn bei der Matrix G standen die Koeffizienten zur Bildung der neuen Variablen

in den Spalten, weshalb G hier zu transponieren ist.

Am Beispiel sei dies verdeutlicht: hier gilt

y =

(y1y2

)=

(1 1

−1 1

)(x1x2

)= G′x .

Die Gleichung y = G′x ist ubrigens auf zwei Weisen interpretierbar: einerseits

auf Variablen bezogen und andererseits auf mogliche Daten.

Auf Variablen bezogen sagt die Gleichung, wie die y-Variablen aus den x-Variablen

hergestellt werden – man hat gewissermaßen die Definition des neuen Variablen-

vektors y mit Hilfe des Originalvariablenvektors x vor sich.


Man kann die Gleichung aber auch so lesen, dass x und y mogliche Datenvektoren

sind. Dann gibt die Gleichung an, wie man die Daten einer Versuchsperson, die in

den Originalvariablen ausgedruckt sind, mit Hilfe der neuen Variablen darstellt.

Dass G bei der Transformation erst noch zu transponieren ist, wirkt auf den er-

sten Blick unschon. Hatte man die Koeffizienten zur Bildung der neuen Variablen

nicht zu Spalten, sondern zu Zeilen gemacht, hatte man diesen Schritt vermeiden

konnen. Allerdings wird in vielen Verfahren traditionellerweise die hier verwen-

dete Schreibweise benutzt, da sie unter anderen, spater behandelten Aspekten

Vorteile besitzt. Daher soll sie der Einheitlichkeit halber gleich von Beginn an

verwendet werden.

Die Forderung, dass die Transformation ohne Informationsverlust vonstatten ge-

hen soll, prazisiert man nun durch die Bedingung, dass die Matrix G invertierbar

sein soll.

Dann ist auch G′ invertierbar und x lasst sich aus y in der Form x = G′−1y

zuruckgewinnen.

Die Matrix G im Beispiel erfullt die Bedingung der Invertierbarkeit; die Inverse

errechnet sich zu

G−1 =1

2

(1 1

−1 1

),

weshalb die Rucktransformation

x = G′−1y =1

2

(1 −1

1 1

)(y1y2

)=

1

2

(y1 − y2y1 + y2

)lautet, genau wie oben schon auf elementarem Weg berechnet.

Die Gleichung y = G′x, die jetzt als Datentransformation verstanden werden

soll, kann geometrisch als Koordinatentransformation interpretiert werden, und

zwar als diejenige, bei der man vom ursprunglichen Koordinatensystem ubergeht

zu dem neuen Koordinatensystem, dessen Achsen durch die Spalten von G′−1

bestimmt sind.

Berechnet man namlich allgemein fur einen Vektor x den Vektor y der neuen

Koordinaten, so erhalt man y = (G′−1)−1x = G′x, was in der Tat gerade die

Transformationsgleichung ist.

Stellt man also die Ergebnisse einer Versuchsperson in den Originalvariablen wie

ublich durch einen Punkt x im Standardkoordinatensystem dar, so erhalt man


die Werte dieser Versuchsperson in den neuen Variablen einfach durch Ablesen

der Koordinaten des Punktes in dem neuen Koordinatensystem.

Im Beispiel sind die Achsen und Einheiten des neuen Koordinatensystems gege-

ben durch die Spalten der Matrix

G′−1 =

(1/2 −1/2

1/2 1/2

).

Die folgende Abbildung zeigt die beiden Koordinatensysteme, und außerdem

einen Punkt, der einer Versuchsperson entspricht, die in den beiden Untertests

die Werte 4 und 3 besitzt.

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

........................

...................x2

.......................................................................................................................................................................................................................................................................................... ...................

x1

r

..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

.......................................................

..................................................................................................................................................................................................................................................................................................................

...................y1y2

...........

...........

...........

...........

...........

...........

...........

...........

...........

...........

...........

...........

...........

...........

...........

...........

...........

...........

...........

...........

...........

...........

...........

...........

...................................................................

..................................................

....

Fur die untersuchte Person berechnet sich der y-Vektor zu (7,−1)′, was tatsachlich

in der Abbildung direkt abgelesen werden kann.

Feststellung 4. Bildet man aus p in x zusammengefassten Variablen neue Line-

arkombinationen, fur die die Koeffizienten die Spalten einer invertierbaren Matrix

G sind und die additiven Konstanten alle 0, und fasst man die neuen Variablen

zu einem Vektor y zusammen, so gilt

y = G′x und x = G′−1y .

Die Umrechnung von x zu y kann als eine Koordinatentransformation interpre-

tiert werden, bei der das neue Koordinatensystem durch die Spalten der Matrix

G′−1 gegeben ist. �

Als nachstes soll der allgemeinere Fall der affinen Variablentransformationen be-

handelt werden, bei denen die additiven Konstanten nicht notwendigerweise gleich

0 sind.


Auch hier soll am Anfang wieder ein Beispiel stehen, das eine etwas kompliziertere

Version des ersten Beispiels ist.

Wieder soll es um zwei Teiltests eines Intelligenztests gehen (x1: verbal, x2: rech-

nerisch), von denen aus einer Normstichprobe die Mittelwerte 5 und 3 und die

Streuungen 2 und .5 bekannt seien. Jetzt soll also nicht mehr vorausgesetzt sein,

dass die Teiltests in ihren statistischen Kennwerten gleich sind. Will man die

beiden Teiltests zu einem Gesamtwert zusammenfugen oder die beiden Intelli-

genzkomponenten miteinander vergleichen, so ware eine simple Summen- und

Differenzbildung sicher nicht angemessen; eine bessere Idee ist die, zunachst z-

Werte zu berechnen und dann von diesen die Summe y1 (’Gesamtscore‘) und die

Differenz y2 (’Spezialisierung‘) zu bilden.

Der zu x1 gehorende z-Wert z1 ist gleich (x1 − 5)/2, der zu x2 gehorende z-Wert

z2 ist (x2 − 3)/(.5). Damit erhalt man

y1 = z1 + z2 = (x1 − 5)/2 + (x2 − 3)/(.5) = (1/2)x1 + 2x2 − 8.5

und

y2 = z2 − z1 = (x2 − 3)/(.5)− (x1 − 5)/2 = −(1/2)x1 + 2x2 − 3.5 .

Fasst man die Koeffizienten bei der Bildung dieser Linearkombinationen wieder

spaltenweise zu einer Koeffizientenmatrix G zusammen und die additiven Kon-

stanten zu einem Vektor h, so erhalt man

G =

(.5 −.52 2

)und h =

(−8.5

−3.5

).

Die Transformation von x zu y ist jetzt

y = G′x + h ,

auch hier ist also die Koeffizientenmatrix zu transponieren.

Die Bedingung, dass die Transformation umkehrbar sein soll, bedeutet wieder,

dass G invertierbar sein muss, was nun vorausgesetzt werden soll. Die Um-

kehrtransformation berechnet sich dann zu

x = G′−1(y − h) = G′−1y −G′−1h .

Auch hier ist nun die Gleichung y = G′x + h als Koordinatentransformation in-

terpretierbar. Wahlt man namlich ein affines Koordinatensystem, dessen Achsen


und Einheiten durch die Spalten von G′−1 gegeben sind, wahrend der Nullpunkt

nach −G′−1h verschoben ist, so errechnet sich der zu x gehorende neue Koordi-

natenvektor y zu

y = (G′−1)−1x− (G′−1)−1(−G′−1h) = G′x + h ,

was genau die Transformationsgleichung ist.

Fur das Beispiel errechnet man

G′−1 =

(1 −1

.25 .25

)und −G′−1h =

(5

3

).

Die folgende Abbildung zeigt die beiden zugehorigen Koordinatensysteme mit

dem Punkt, der zu einer Person mit x = (6, 1)′ gehort.

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......................

................... x2

........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................ ...................

x1

....................................................

....................................................

....................................................

....................................................

....................................................

....................................................

....................................................

....................................................

....................................................

....................................................

...................................................................................

....................................................

....................................................

....................................................

....................................................

....................................................

....................................................

....................................................

....................................................

....................................................

....................................................

...........................................................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

y1y2

r...................................................................

........................................................

............

...........

....................

Fur die betrachtete Person errechnet man y = (−3.5,−4.5)′, was man auch im

Koordinatensystem abliest (Vorsicht: Optische Tauschung).

Feststellung 5. Bildet man aus p in x zusammengefassten Variablen neue Line-

arkombinationen, fur die die Koeffizienten die Spalten einer invertierbaren Matrix

G sind und die additiven Konstanten die Komponenten eines Vektors h, und fasst

man die neuen Variablen zu einem Vektor y zusammen, so gilt

y = G′x + h und x = G′−1(y − h) = G′−1y −G′−1h .

Die Umrechnung von x zu y kann als eine affine Koordinatentransformation in-

terpretiert werden, bei der das neue Koordinatensystem durch die Spalten der

Matrix G′−1 und den neuen Nullpunkt −G′−1h gegeben ist. �


Naturlich kann man fur transformierte Daten auch ein neues Koordinatensystem

zeichnen (was oft sinnvoll ist); die Form einer Punktwolke wird sich dann oft

etwas verzerren, wie man an der folgenden Abbildung sieht:

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

..........................

................... x2

..................................................................................................................................................................................................................................................................................................................................................................... ...................

x1

....................................................

....................................................

....................................................

....................................................

....................................................

....................................................

....................................................

....................................................

............................................

....................................................

....................................................

....................................................

....................................................

....................................................

....................................................

....................................................

...........................................................

...................

......................

......................

......................

......................

......................

........... ........... ........... ........... ........... ........... ........... ........... ........... ...........

y1y2

rrrr r r r r r r

rrr r r

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

..........................

...................y2

........................................................................................................................................................................................................................................................... ...................

y1rr

rr rr

rr r

r r rrr r

Haufig hat man es mit Transformationen von Daten zu tun, die von der Form

y = Ax oder y = Ax + b sind. Ist dabei die Matrix A invertierbar, so konnen

solche Transformationen auch als Variablentransformationen interpretiert wer-

den, wie man sieht, wenn man als Koeffizientenmatrix G die Matrix A′ wahlt

und gegebenenfalls h = b setzt. In dieser Interpretation druckt dann die neue

Variable y die Information, die in den Originaldaten steckt, nur anders aus.

Transformationen der Form y = Ax oder y = Ax + b mit invertierbarem A

konnen damit auch als Koordinatentransformationen interpretiert und dargestellt

werden, was in vielen Situationen nutzlich ist.

Der einfachste Fall bei affinen Transformationen ist der, in dem nur eine Varia-

ble vorliegt, die transformiert wird. Die Transformation sei dabei von der Form

y = ax+ b mit a 6= 0. Auch eine solche Transformation kann man als affinen Ko-

ordinatenwechsel interpretieren, bei dem der Nullpunkt auf −b/a gesetzt wird,

und bei dem 1/a die neue Einheit ist.

Beispielsweise sei die Transformation y = −2x + 3 gegeben. Die transformierten

Werte lassen sich dann auf der Skala ablesen, deren Nullpunkt auf 1.5 gesetzt ist,

und deren Einheit gleich −.5 (also negative Richtung) ist.

−3 −2 −1 0 1 2 3

9 8 7 6 5 4 3 2 1 0 -1 -2 -3

x

yrZu dem eingezeichneten Punkt mit x = 2.5 gehort der Wert y = (−2)(2.5) + 3 =

−2 den man auch im oberen Koordinatensystem abliest.


Das Thermometer mit der Celsius-Skala auf der einen und der Fahrenheit-Skala

auf der anderen Seite ist ein bekanntes Beispiel, in der eine affine Transformation

durch einen Koordinatenwechsel ausgedruckt wird.

Zum Schluss soll noch besprochen werden, wie sich Linearkombinationen der al-

ten Variablen mit Hilfe der neuen Variablen schreiben lassen; insbesondere geht

es um die Umrechnung des Koeffizientenvektors einer Linearkombination u der

x-Variablen in den Koeffizientenvektor bei einer Darstellung von u als Linear-

kombination der y-Variablen.

Als Beispiel soll wieder die Umrechnung von zwei Intelligenzuntertests x1 und x2in zwei neue Linearkombinationen y1 und y2 dienen, die gerade die Summe und

die Differenz der z-transformierten x-Werte sind, und die fur Gesamtintelligenz

und Spezialisierung stehen sollen. Koeffizientenmatrix und Vektor der additiven

Konstanten seien wieder

G =

(.5 −.52 2

)und h =

(−8.5

−3.5

),

die Berechnung von y geschieht dann mit der Formel

y = G′x + h .

Nun moge es sich als praktisch erwiesen haben, zur Vorhersage des Studienerfolgs

in einem bestimmten Fach die Linearkombination u = x1 + 2x2− 7 zu benutzen.

Die Frage ist, ob sich diese Vorhersage auch mit Hilfe von y1 und y2 ausdrucken

lasst, und wie die umgerechnete Vorhersage dann aussieht.

Dies Problem ist einfach zu losen, indem man die x-Variablen mit Hilfe der y-

Variablen ausdruckt und die Ergebnisse in die Gleichung fur u einsetzt. Es ergibt

sich so x1 = y1 − y2 + 5 und x2 = (y1 + y2)/4 + 3, was eingesetzt

u = (y1 − y2 + 5) + 2 ((y1 + y2)/4 + 3)− 7 = 1.5 y1 − .5 y2 + 4

ergibt.

Im allgemeinen Fall sei wieder G die Koeffizientenmatrix und h der Vektor der

additiven Konstanten. Die Umrechnung von x in y ist

y = G′x + h

und die Umkehrung

x = G′−1(y − h) .


Die umzuformende Linearkombination u sei gegeben durch den Koeffizientenvek-

tor a und die additive Konstante b; es gilt dann also

u = a′x + b .

In dieser Gleichung wird nun x mit Hilfe von y ausgedruckt, und es ergibt sich

u = a′(G′−1(y − h)) + b

= a′G′−1y − a′G′−1h + b

= (G−1a)′y + b− a′G′−1h ,

woraus man unmittelbar abliest, dass der neue Koeffizientenvektor G−1a ist und

die neue Konstante b−a′G′−1h, was man alternativ auch als b− (G−1a)′h schrei-

ben kann.

In dem Beispiel ist a = (1, 2)′ und b = −7. Nach den beiden Formeln ist der neue

Koeffizientenvektor gleich G−1a = (1.5,−.5)′ und die neue additive Konstante

gleich b−a′G′−1h = −7+11 = 4, was mit den auf elementarem Weg gewonnenen

Ergebnissen ubereinstimmt.

Feststellung 6. Ist y = G′x + h eine Transformation von x mit invertierbarer

Matrix G, und ist u = a′x + b eine Linearkombination der Komponenten von x,

so gilt

u = a′(G′−1(y − h)) + b = (G−1a)′y + b− a′G′−1h .

Die Linearkombination u lasst sich also auch als Linearkombination der Kompo-

nenten von y schreiben, wobei der Koeffizientenvektor G−1a ist und die additive

Konstante b− a′G′−1h = b− (G−1a)′h. �

Auf die gleiche Art kann man naturlich auch affine Abbildungen der Form

u = Ax + b

auf die transformierten Variablen y umschreiben; dann ergibt sich entsprechend

u = A(G′−1(y − h)) + b = (AG′−1)y + b−AG′−1h ,

was wieder eine affine Abbildung ist, jetzt mit linearem Anteil AG′−1 und Ver-

schiebungsvektor b−AG′−1h.

Kovarianztreue Darstellungen. Ungewohnt an der Darstellung der Daten im

Personenraum ist, dass hier die Variablen und nicht die Personen reprasentiert


werden. Diese Reprasentation ist allerdings nicht in jeder Hinsicht befriedigend.

Vorteilhafter ist eine Reprasentation der Variablen durch Vektoren, bei der sich

die Kovarianz im Skalarprodukt widerspiegelt.

Der Vorteil einer solchen Reprasentation liegt darin, dass zwei Konzepte aus

unterschiedlichen Bereichen in fruchtbarer Weise miteinander in Verbindung ge-

bracht werden, namlich einerseits das Konzept der Kovarianz aus der Statistik

und andererseits das Konzept des Skalarprodukts aus der linearen Algebra mit

seinen starken geometrischen Bezugen.

Zur Motivation soll zunachst eine Moglichkeit geschildert werden, eine solche

Verbindung der statistischen Kovarianz und des linear-algebraisch-geometrischen

Skalarprodukts durch eine kleine Abanderung der Darstellung im Personenraum

zu schaffen.

In einer Stichprobe vom Umfang n seien mehrere Variable erhoben worden, unter

anderem die Variablen X und Y . Im Personenraum werden diese Variablen durch

Vektoren x und y reprasentiert, deren Komponenten die Messwerte der einzelnen

Personen in den beiden Variablen sind.

Entscheidend ist nun der Schritt, zu den zentrierten Datenvektoren x und y

uberzugehen, die aus x und y dadurch entstehen, dass man bei allen Messungen

die jeweiligen Mittelwerte abzieht. Es gilt dann namlich

< x, y> =∑

(xi − x)(yi − y) = nKovX,Y ,

was schon in der Form bekannt ist, in der das Skalarprodukt durch den aquivalen-

ten Ausdruck x′y ersetzt ist.

Man hat auf diese Weise einen engen Zusammenhang zwischen der Kovarianz

einerseits und dem Skalarprodukt andererseits, bei dem allerdings der Faktor n

noch etwas stort. Diesen Schonheitsfehler kann man jedoch dadurch beheben,

dass man die reprasentierenden Vektoren noch durch√n dividiert.

Dieser Weg soll hier jedoch nicht weiter verfolgt werden. Statt dessen soll die

Moglichkeit derartiger Darstellungen etwas abstrakter untersucht werden, womit

sich auch der theoretische Fall erfassen lasst.

Allgemein soll eine Darstellung (oder Reprasentation) einer Menge von Variablen

durch Vektoren kovarianztreu heißen, wenn die Kovarianz von zwei Variablen

gleich dem Skalarprodukt der entsprechenden Vektoren ist (die beiden Variablen

mussen dabei nicht notwendigerweise verschieden sein).


Diese Festlegung bezieht sich sowohl auf den empirischen Fall, in dem die Va-

riablen alle in einer Stichprobe erhoben wurden, als auch auf den theoretischen

Fall von Zufallsvariablen, die auf dem gleichen Wahrscheinlichkeitsraum definiert

sind.

Die folgenden Uberlegungen beziehen sich auf den theoretischen Fall von Zufalls-

variablen. Es sollte aber aus der Argumentation unmittelbar klar werden, dass

alle Aussagen auch fur empirisch in einer Stichprobe erhobene Variablen gelten,

wenn man nur die Symbole passend ersetzt (also beispielsweise ρ durch r).

Zur deutlicheren Unterscheidung sollen die Variablen mit großen Buchstaben be-

zeichnet werden wie X, Y etc. und die sie reprasentierenden Vektoren mit den

entsprechenden fetten Kleinbuchstaben, also mit x, y etc.. Die Streuung einer

Variablen X soll mit σ(X) bezeichnet werden. Fur den Winkel zwischen zwei

Vektoren x und y soll schließlich das Symbol ∠(x,y) verwendet werden.

Eine kovarianztreue Darstellung hat sehr angenehme Eigenschaften. Aus der Tat-

sache, dass die Kovarianz zweier Variablen gleich dem Skalarprodukt der enspre-

chenden Vektoren ist, dass also

Kov(X, Y ) = <x, y>

gilt, folgt fur X = Y die Beziehung σ2(X) = ‖x‖2 oder

σ(X) = ‖x‖ .

Hieraus folgt fur die Korrelation ρ(X, Y ) von X und Y die Beziehung

ρ(X, Y ) =Kov(X, Y )

σ(X)σ(Y )=<x, y>

‖x‖‖y‖= cos(∠(x,y))

(hierbei ist naturlich vorausgesetzt, dass die Streuungen und damit die Langen

der Vektoren ungleich 0 sind, damit uberhaupt sinnvoll von einer Korrelation und

einem Winkel gesprochen werden kann). Bei einer kovarianztreuen Darstellung

entspricht also nicht nur der Kovarianz das Skalarprodukt, sondern auch der

Streuung die Norm und der Korrelation (uber den Kosinus) der Winkel.

Insbesondere entspricht eine Nullkorrelation von Variablen der Orthogonalitat

der zugehorigen Vektoren.

Die gerade gefundenen Entsprechungen von Langen und Winkeln einerseits mit

Streuungen und Korrelationen andererseits ist sowohl aus geometrischer Sicht

wie aus statistischer Sicht anschaulicher als die Entsprechung von Skalarprodukt


und Kovarianz (wenngleich diese Entsprechung formal angenehmer ist). Es ist

daher erfreulich, dass sich kovarianztreue Darstellungen auch nur mit Hilfe der

anschaulicheren Konzepte charakterisieren lassen.

Feststellung 7. Eine Darstellung von Variablen durch Vektoren ist genau dann

kovarianztreu, wenn die Streuungen der Variablen gleich der Lange der entspre-

chenden Vektoren sind und die Korrelationen von je zwei Variablen, die nicht

Streuung 0 besitzen, gleich den Kosinus der Winkel zwischen den entsprechenden

Vektoren.

Dass kovarianztreue Darstellungen die angegebenen Eigenschaften besitzen, hat

sich gerade schon gezeigt, es bleibt also nur nachzuweisen, dass Darstellungen mit

den angegebenen Eigenschaften kovarianztreu sind.

Es ist nur zu zeigen, dass die Kovarianz zweier Variablen X und Y tatsachlich

mit dem Skalarprodukt der entsprechenden Vektoren x und y ubereinstimmt. Im

Falle X = Y (also x = y) folgt dies wegen

Kov(X,X) = σ2(X) = ‖x‖2 = <x, x>

und im Falle verschiedener Variablen X und Y wegen

Kov(X, Y ) = ρ(X, Y )σ(X)σ(Y ) = cos(∠(x,y)) ‖x‖‖y‖ = <x, y> ,

wobei jeweils die mittlere Gleichheit die vorausgesetzten Eigenschaften der Dar-

stellung ausnutzt. Der bei der zweiten Gleichung noch nicht erfasste Fall, dass

X oder Y (oder beide) die Streuung 0 besitzen (und damit die entsprechenden

Vektoren die Lange 0) folgt daraus, dass dann sowohl die Kovarianz als auch das

Skalarprodukt gleich 0 sind. �

Als Beispiel soll eine Situation mit zwei Variablen X und Y veranschaulicht

werden, deren Streuungen 2 und .5 sind, und deren Korrelation .5 ist. Der Winkel,

dessen Kosinus .5 ist, ist der von 60◦, womit man eine geometrische Darstellung

der statistischen Situation durch folgendes Bild erhalt (die Darstellung ist wegen

Feststellung 7 kovarianztreu):

................................................................................................................................................................................................................................................................................................................ ...................x

..............................................................................................................y

.......

.......................... .............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.........................................................

.........................................................

......................................................................................

......................................................................................

......................................................................................


Fur die, die nachmessen wollen, sind rechts zwei Einheiten des verwendeten Maß-

stabs mit aufgenommen worden. Die Variable X ist hier durch den Vektor x

reprasentiert, dessen Lange 2 gleich der Streuung der Variable ist. Analoges gilt

fur Y und y. Der Winkel zwischen den beiden Variablen betragt 60◦, und der

zugehorige Kosinus ist .5, was gleichzeitig die Korrelation der beiden Variablen

ist.

Bei diesen angenehmen Eigenschaften ist es erfreulich, dass fur eine endliche

Anzahl von Variablen immer eine kovarianztreue Darstellung existiert:

Feststellung 8. Sind X1, . . . , Xm endlich viele Variablen, so existieren kovari-

anztreue Darstellungen dieser Variablen. Ist der Rang der Kovarianzmatrix der

Variablen gleich k, so existieren sogar kovarianztreue Darstellungen im Rk.

Zur Begrundung schreibt man die Kovarianzmatrix K der Variablen als K = BB′

mit einer geeigneten (m × k)-Matrix B. Dass eine solche Zerlegung moglich ist,

folgt daraus, dass K positiv semidefinit ist. Die Matrix BB′ kann man nun auch

interpretieren als Matrix der Skalarprodukte der Zeilen von B.

Bezeichnet man nun die transponierte i-te Zeile von B als xi und wahlt sie als

Reprasentanten fur die Variable Xi aus, so hat man das Ziel erreicht, denn nun

ist das (i, j)-Element von K gleichzeitig die Kovarianz von Xi und Xj und das

Skalarprodukt von xi und xj, weshalb tatsachlich die Kovarianzen der Variablen

gleich den Skalarprodukten der reprasentierenden Vektoren sind. Uberdies sind

nach Konstruktion alle Vektoren Elemente des Rk. �

Man sollte die Formulierung der Feststellung nicht in der Weise missverstehen, als

sei bei einer Kovarianzmatrix vom Rang k eine Darstellung nur im Rk moglich;

da man den Rk auch als Unterraum von hoherdimensionalen Raumen ansehen

kann, hat man unmittelbar auch Darstellungen in solchen hoherdimensionalen

Raumen. Praktisch kann man beispielsweise die reprasentierenden Vektoren alle

durch eine gleiche Anzahl von Nullen als neue Komponenten am Ende verlangern,

ohne dass sich die Skalarprodukte andern, und befindet sich damit schon in einem

entsprechend hoherdimensionalen Raum.

Fur den Zusammenhang zwischen dem Rang der Kovarianzmatrix und dem Rang

der Reprasentanten (der ja auch gleich der Dimension des durch die Reprasentanten

erzeugten Unterraums ist) gilt allgemein die folgende Feststellung:

Feststellung 9. Bilden die Vektoren x1, . . . ,xm eine kovarianztreue Darstellung

der Variablen X1, . . . , Xm, so ist der Rang der Vektoren xi gleich dem Rang der


Kovarianzmatrix K der Variablen.

Zur Begrundung stellt man aus den Vektoren xi als Zeilen eine Matrix B zusam-

men. Die Matrix BB′ ist dann die Matrix der Skalarprodukte der Zeilen von B

untereinander, und, da diese Skalarprodukte gleich den Kovarianzen der entspre-

chenden Variablen sind, gleichzeitig die Kovarianzmatrix K der Variablen. Der

Rang der xi ist nun gleich dem Rang von B′, der bekanntlich gleich dem Rang

von BB′ = K ist, womit die Behauptung gezeigt ist. �

Insbesondere sind die Reprasentanten der Variablen genau dann linear unabhangig,

wenn deren Kovarianzmatrix invertierbar ist.

In dem Fall, dass die Kovarianzmatrix nur Rang 2 oder 3 besitzt, ist nach Fest-

stellung 8 eine Darstellung in dem der Anschauung zuganglichen R2 bzw. R3

moglich. Mochte man sich in diesem Fall eine solche Darstellung verschaffen, so

wird man nicht unbedingt den eher komplizierten Weg aus der Begrundung der

Feststellung beschreiten, sondern eine einfachere Vorgehensweise wahlen, die nun

geschildert werden soll.

Man bestimmt zunachst die Streuungen und die Korrelationen der Variablen und

rechnet die Korrelationen in Winkel um. Dann fugt man Vektoren, die als Lange

gerade die Streuungen besitzen, so zusammen, dass die zugehorigen Winkel alle zu

den entsprechenden Korrelationen gehoren. Man erhalt dann eine Reprasentation

der Variablen durch Vektoren mit der Eigenschaft, dass die Streuungen der Va-

riablen gleich den Langen der zugehorigen Vektoren sind und die Korrelationen

gleich den Kosinus der entsprechenden Winkel. Damit hat man nach Feststellung

7 bereits eine kovarianztreue Darstellung erreicht.

Es soll gleich eine Anwendung folgen: Von drei Variablen X, Y und Z sind die

Korrelationen ρXY = .5 und ρY Z = .788 bekannt. Kann man etwas uber ρXZsagen?

Wegen Feststellung 8 gibt es eine kovarianztreue Darstellung dieser Situation

im R3. Die den Variablen entsprechenden Vektoren seien x, y und z. Fur die

Winkel zwischen den Vektoren gilt dann ∠(x,y) = 60◦ und ∠(y, z) = 38◦. Der

Winkel ∠(x, z) muss daher zwischen 60◦ − 38◦ = 22◦ und 60◦ + 38◦ = 98◦ liegen.

Diese Winkel entsprechen Korrelationen von .927 und −.139, womit man Grenzen

gefunden hat, zwischen denen die Korrelation von X und Z liegen muss.

Eine kovarianztreue Darstellung von endlich vielen Variablen durch Vektoren

mag zwar vieles veranschaulichen, sie lasst aber doch noch Wunsche offen. Einer-


seits mochte man vielleicht nicht nur die gegebenen Variablen darstellen, sondern

auch Linearkombinationen, also beispielsweise die Summe von zwei Variablen –

vielleicht kann man hierzu die Summe, allgemeiner die entsprechende Linearkom-

bination der zugehorigen Vektoren nehmen? Andererseits haben in dem Vektor-

raum bisher nur endlich viele Vektoren etwas mit Variablen zu tun – lassen sich

vielleicht auch die anderen Vektoren mit Variablen in Verbindung bringen?

Diese Wunsche laufen darauf hinaus, dass man versuchen sollte, die Darstellung

so auszuweiten, dass neben den gegebenen Variablen auch Linearkombinationen

dieser Variablen Vektoren als Reprasentanten bekommen. Schon ware es, wenn

dann Linearkombinationen von Variablen die analogen Linearkombinationen der

Vektoren entsprechen wurden.

Hier ist eine Warnung angebracht: Das Wort’Linearkombination‘ wird in zwei

verschiedenen Bedeutungen gebraucht. Wenn es um Variablen geht, so sind Li-

nearkombinationen im statistischen Sinn gemeint, also neue Variablen der Form∑aiXi + a0, wahrend bei Vektoren das Wort die Bedeutung aus der linearen

Algebra besitzt, wo eine Linearkombination die Form∑aixi hat. Abgesehen von

der Konstanten bei statistischen Linearkombinationen sind die beiden Konzep-

te formal praktisch gleich, so dass die Verwendung des gleichen Worts durchaus

naheliegend erscheint.

Wenn von’entsprechenden Linearkombinationen‘ die Rede ist, so ist damit ge-

meint, dass der Variable∑aiXi + a0 der Vektor

∑aixi entsprechen soll – die

additive Konstante a0 fallt dabei weg.

Fur besonders Interessierte soll nun geschildert werden, wie die gewunschte Er-

weiterung der Darstellung vorgenommen werden kann; das Ergebnis ist am Ende

in einer Feststellung zusammengefasst.

Als Voraussetzung sei eine kovarianztreue Darstellung von endlich vielen Varia-

blen gegeben; es seien also die Variablen X1, . . . , Xm durch Vektoren x1, . . . ,xmso reprasentiert, dass fur alle Paare (i, j) die Beziehung

Kov(Xi, Xj) = <xi, xj>

gilt.

Jetzt soll versucht werden, auch Linearkombinationen der Ausgangsvariablen als

Vektoren zu reprasentieren. Aus spater erkennbaren Grunden muss ein Umweg

eingeschlagen werden.


Zunachst wird eine Abbildung f auf dem Rm definiert durch die Vorschrift, dass

einem Vektor a = (a1, . . . , am)′ der Vektor f(a) :=∑aixi zugewiesen werden

soll. Stellt man die Vektoren xi als Spalten zu einer Matrix X zusammen, so

erkennt man, dass f(a) = Xa gilt.

Sind nun zwei Linearkombinationen Y =∑aiXi + a0 und Z =

∑bjXj + b0

gegeben, und fasst man die Koeffizienten ai und bi unter Weglassung von a0 und

b0 zu Koeffizientenvektoren a und b zusammen, so gilt nach den Rechenregeln

fur Kovarianzen einerseits und fur das Skalarprodukt andererseits:

Kov(Y, Z) = Kov(∑

aiXi + a0,∑

bjXj + b0)

=∑i

∑j

aibjKov(Xi, Xj)

=∑i

∑j

aibj<xi, xj>

= <∑aixi,

∑bjxj>

= <f(a), f(b)> .

In der Mitte dieser Gleichungskette wurde die Voraussetzung Kov(Xi, Xj) =

<xi, xj> benutzt. Wesentlich ist hierbei, dass die Rechenregeln fur Kovarian-

zen denen fur Skalarprodukte formal gleichen, so dass man abgesehen von der

Ersetzung in der Mitte zweimal die gleiche Umformung vor sich hat, nur in umge-

kehrten Richtungen und in unterschiedlichen Bereichen – einmal im statistischen

und einmal im geometrischen.

Insbesondere kann nun die Streuung einer Linearkombination Y =∑aiXi + a0

bestimmt werden, indem man auf ihren Koeffizientenvektor a die Abbildung f

anwendet und vom Ergebnis die Norm bildet; man setze namlich Z = Y und

erhalt σ2(Y ) = ‖f(a)‖2, also σ(Y ) = ‖f(a)‖.

Sind wieder zwei Linearkombinationen Y =∑aiXi + a0 und Z =

∑bjXj + b0

gegeben, so kann man sich fragen, wann f(a) = f(b) gilt. Dies gilt genau dann,

wenn f(a) − f(b) = 0 gilt. Eine einfache Umformung liefert f(a) − f(b) =

Xa−Xb = X(a−b) = f(a−b), so dass den beiden Linearkombinationen durch f

genau dann der gleiche Wert zugeordnet wird, wenn f(a−b) = 0 ist. Nun ist a−b

aber Vektor von Koeffizienten fur U := Y −Z =∑

(ai−bi)Xi+(a0−b0), und daher

gilt σ(U) = ‖f(a− b)‖. Es folgt insgesamt, dass f(a) = f(b) genau dann gilt,

wenn U als Streuung 0 besitzt, also (fast sicher) konstant ist, beziehungsweise,

wenn sich Y und Z nur um eine Konstante unterscheiden (fast sicher).

Nun ist es moglich, Variablen Y , die Linearkombinationen der Xi sind, zugehorige


Vektoren zuzuweisen. Man schreibt dazu Y in der Form Y =∑aiXi + a0 und

wahlt als Darstellung y den Vektor f(a).

Hier tritt jedoch das Problem auf, dass man Y vielleicht auch noch in einer an-

deren Form Y =∑biXi + b0 als Linearkombination schreiben kann, was dann

womoglich mit f(b) zu einem anderen Vektor fuhren wurde. Die gerade angestell-

te Uberlegung zeigt jedoch, dass dies nicht der Fall ist (man setze fur Z ebenfalls

Y ein, nur in der zweiten Schreibweise). Das Problem, dass man moglicherweise

Variablen in unterschiedlicher Weise als Linearkombination schreiben kann, war

ubrigens der Grund fur den Umweg uber die Koeffizientenvektoren.

In der bisherigen Argumentation tauchte korrekterweise mehrfach die Formu-

lierung’fast sicher‘ auf. Nachdem auf diese Weise noch einmal daran erinnert

wurde, dass bei Zufallsvariablen im allgemeinen Fall eigentlich diese Sprechwei-

se verwendet werden musste, soll in der weiteren Argumentation der glatteren

Formulierungen wegen meist darauf verzichtet werden.

Durch die Festlegung, dass eine Linearkombination Y =∑aiXi + a0 durch

y =∑aixi = f(a) reprasentiert werden soll, ist die Reprasentation auf alle

Linearkombinationen der Variablen Xi ausgeweitet (dass dabei die Xi nach wie

vor durch die xi reprasentiert werden, dass also die neue Definition nicht mit der

ursprunglichen Darstellung in Konflikt gerat, folgt aus der Darstellung von Xi

als Linearkombination mit Koeffizientenvektor ei).

Ist Z =∑biXi + b0 eine weitere Linearkombination, so zeigt die oben schon

hergeleitete Gleichung Kov(Y, Z) = <f(a), f(b)>, dass die Kovarianztreue auch

fur die Reprasentantion von Y und Z durch f(a) und f(b) und damit allgemein

fur alle Linearkombinationen und deren Reprasentanten gilt.

Hieraus folgt insbesondere, dass fur alle Linearkombinationen Y die Beziehung

σ(Y ) = ‖y‖ gilt, und dass der Kosinus des Winkels zwischen zwei reprasentieren-

den Vektoren gleich der Korrelation der entsprechenden Variablen ist.

Die Darstellung ist nicht ganz eindeutig insofern, als Linearkombinationen, bei

denen nur die additive Konstante verschieden ist, durch den gleichen Vektor re-

prasentiert werden. So reprasentiert der Nullvektor zum Beispiel alle konstanten

Variablen.

Ganz genau muss man – wie sich oben gezeigt hat – so formulieren: Zwei Variable

werden genau dann durch denselben Vektor reprasentiert, wenn sie sich fast sicher

nur um eine additive Konstante unterscheiden.


Die erweiterte Reprasentation respektiert auch Linearkombinationen in folgen-

dem Sinn: Sind Y1, . . . , Yk irgendwelche Linearkombinationen der Variablen Xi,

sind y1, . . . ,yk ihre Reprasentanten, und ist Y =∑

j bjYj + b0 eine Linearkombi-

nation der Yj, so wird Y reprasentiert durch∑

j bjyj.

Ist namlich Yj =∑

i aijXi + a0j, so ist

Y =∑j

bj∑i

aijXi +∑j

bja0j + b0 =∑i

(∑j

bjaij)Xi +∑j

bja0j + b0

und wird daher reprasentiert durch∑i

(∑j

bjaij)xi =∑j

bj(∑i

aijxi) =∑j

bjyj .

Es ist schließlich klar, dass die Reprasentanten von Linearkominationen der Xi

genau den Unterraum ausfullen, der durch die xi aufgespannt wird, da ja jedes

beliebige Element∑aixi dieses Unterraums Reprasentant beispielsweise von der

Variable∑aiXi ist.

Wahlt man als Bezeichnung der Reprasentation einer Variablen Y wieder das

entsprechende Symbol y, so hat man zusammenfassend

Feststellung 10. Eine kovarianztreue Darstellung von Variablen X1, . . . , Xm

durch Vektoren x1, . . . ,xm kann zu einer kovarianztreuen Darstellung aller Line-

arkombinationen Y der Xi erweitert werden, so dass folgende Bedingungen erfullt

sind:

(i) <y1, y2> = Kov(Y1, Y2)

(ii) ‖y‖ = σ(Y )

(iii) cos(∠(y1,y2)) = ρ(Y1, Y2)

(iv) y1 = y2 genau dann, wenn Y1 − Y2 = konstant (fast sicher)

(v)∑aiYi + b wird reprasentiert durch

∑aiyi

Die Vektoren, die Linearkombinationen der Xi reprasentieren, sind dabei genau

die Elemente des Erzeugnisses der xi. �

Es mag vielleicht als etwas unangenehm empfunden werden, dass Variablen, die

sich um Konstanten unterscheiden, durch denselben Vektor reprasentiert werden.


Dies kann man dadurch entscharfen, dass man fordert, dass der Erwartungswert

aller betrachteten Variablen gleich 0 sein soll. Dann wird offensichtlich Eindeu-

tigkeit hergestellt. Anders ausgedruckt betrachtet man nur noch zentrierte Va-

riablen – der Begriff der Linearkombination ist entsprechend zu andern: additive

Konstanten sind dann nicht mehr zulassig.

Schließlich ist zu der Feststellung noch zu bemerken, dass sie – mutatis mu-

tandis – auch fur die empirische Situation einer Stichprobe gilt. Dabei ist das

sicherheitshalber eingefugte’fast sicher‘ zu ersetzen durch den Zusatz

’fur die

zugrundeliegenden Daten‘. Hier kann es namlich vorkommen, dass zwei’eigent-

lich verschiedene‘ Variable bei allen Versuchspersonen genau die gleichen Daten

erbracht haben, oder auch, dass zwei Linearkombinationen mit unterschiedlichen

Koeffizienten immer die gleichen Werte liefern, sofern man nur Daten der Ver-

suchspersonen aus der Stichprobe einsetzt, obwohl die Werte fur weitere mogliche,

aber nicht erhobene Daten verschieden sein konnten. Solche Situationen sollten

zwar selten sein, sie konnen aber nicht ausgeschlossen werden.

Eine oft vorkommende Situation ist die, dass man von einem Vektor auf die von

einem anderen Vektor aufgespannte Gerade das Lot fallt. Die folgende Illustration

enthalt schon einige Bezeichnungen fur die folgenden Argumentationen:

................................................................................................................................................................................................................................................................................................................ ...................x

................................................................................................................................................................................................................................................................................

y

.................................................................................................................................................................. ...................

bx

..................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.........................................................................................................................................................................................

α............................................................

......

Der Lotfußpunkt liefert dann etwas Information uber die Kovarianz und die Kor-

relation der zugehorigen Variablen:

Feststellung 11. Sind X und Y Variablen, die in einer kovarianztreuen Darstel-

lung durch x und y reprasentiert werden, und fallt man von y das Lot auf x, so

ist der Lotfußpunkt die Spitze des Vektors bx mit

b =Kov(X, Y )

σ2(X)= ρ(X, Y )

σ(Y )

σ(X).

Die Entfernung des Lotfußpunktes vom Nullpunkt ist gleich

|Kov(X, Y ) |σ(X)

= | ρ(X, Y ) | σ(Y ) .


Den Betrag der Korrelation erhalt man also auch, indem man die Entfernung des

Lotfußpunktes zu 0 durch die Lange von y teilt.

Bekanntlich ist namlich der Lotfußpunkt gerade bx mit b = <x, y>/<x, x>,

was man wegen der Eigenschaften der kovarianztreuen Darstellung umschreibt

zu

b = <x, y>/<x, x> = Kov(X, Y )/σ2(X) = ρ(X, Y )(σ(Y )/σ(X))

und die Entfernung von bx zum Nullpunkt ist gerade ‖bx‖ = | b | ‖x‖ = | b |σ(X),

woraus man durch Einsetzen sofort den Rest der Behauptung erhalt. �

Man erhalt also beispielsweise den Betrag der Korrelation bis auf den Faktor σ(Y )

als Entfernung des Lotfußpunkts zum Nullpunkt, wahrend man das Vorzeichen

der Korrelation daran erkennt, ob der Fußpunkt vom Nullpunkt aus in gleicher

Richtung liegt wie x oder in entgegengesetzter.

Um den Betrag der Korrelation rechnerisch zu erhalten, kann man auch den

Abstand von 0 zum Lotfußpunkt durch die Lange von y teilen; die Abbildung

oben zeigt, dass dies das Verhaltnis von Ankathete zu Hypothenuse in einem

rechtwinkligen Dreieck ist, und damit der Kosinus des eingeschlossenen Winkels

α, also in der Tat die Korrelation, wie sich nun auch noch einmal direkt zeigt.

Besonders angenehm ist naturlich der Fall, dass σ(Y ) = 1 ist, weil man dann die

Korrelation direkt an der Entfernung zum Nullpunkt ablesen kann.

Die Zahl b kann man auch direkt ablesen, wenn man die durch x gegebene Achse

mit einer Skala versieht, die ihren Nullpunkt im Punkt 0 hat und ihre Eins in

der Spitze des Vektors x.

Diese Zahl b ist ubrigens das Regressionsgewicht bei einer einfachen linearen

Regression von Y auf X.

Wie man sieht, lassen sich uber den Abstand des Lotfußpunktes zu 0 zwei wichtige

Kennwerte bestimmen: Teilt man diesen Abstand durch σ(Y ), so erhalt man den

Betrag der Korrelation, teilt man ihn hingegen durch σ(X), so erhalt man den

Betrag des Regressionsgewichts. Das Vorzeichen von Korrelation und Regressi-

onsgewicht richtet sich danach, ob der Lotfußpunkt auf der Seite von x liegt oder

auf der entgegengesetzten Seite.

Kovarianztreue Darstellungen erlauben es, sich mit Hilfe der geometrischen An-

schauung Verhaltnisse klarzumachen, die sonst eher undurchsichtig waren. Ein

wichtiges Beispiel dafur ist die multiple Regression.


An dieser Stelle soll jedoch ein anderes Thema behandelt werden, namlich die

Frage, wie sich Variablentransformationen, wie sie im letzten Abschnitt behandelt

wurden, in einer kovarianztreuen Darstellung wiederspiegeln. Eine Zusatzfrage ist,

was dabei mit Linearkombinationen geschieht.

Die Situation soll also die sein, dass gewisse Originalvariablen x1, . . . , xp eine mit

Hilfe einer affinen oder linearen Variablentransformation durch neue Variablen

y1, . . . , yp ersetzt werden sollen (Variablen werden jetzt also wieder mit kleinen

Buchstaben bezeichnet). Die Koeffizientenmatrix dieser Variablentransformation

soll dabei wieder mit G bezeichnet werden. Fur die xi soll eine kovarianztreue

Darstellung durch Vektoren xi gegeben sein.

Sinnvollerweise soll dabei vorausgesetzt werden, dass die xi linear unabhangig

sind, was nach Feststellung 9 gleichbedeutend damit ist, dass die Kovarianzmatrix

der x-Variablen den Rang p besitzt.

Als Beispiel moge die im Abschnitt uber Variablentransformationen behandelte

Situation von zwei Untertests eines Intelligenztests dienen, die wieder x1 und

x2 heißen sollen. Die Fragen sind dann die, wie sich der Ubergang zu den y-

Variablen in der kovarianztreuen Darstellung ausdruckt, und was man uber die

Linearkombination u sagen kann.

Zur Erinnerung: Die Variablen x1 und x2 waren die verbale und die rechnerische

Intelligenz in einem Intelligenztest, y1 und y2 waren die Summe und die Differenz

der z-transformierten x-Werte, die als Indikatoren fur die Gesamtintelligenz und

die Spezialisierung dienen sollten. Mit der Variable u sollte der Studienerfolg

vorhergesagt werden.

Die Streuungen der Variablen x1 und x2 sollten 2 und .5 sein; hieraus ergab

sich die Koeffizientenmatrix G der Transformation, die ja in den Spalten die

Koeffizienten zur Bildung der neuen Variablen aus den alten enthalt, zu

G =

(.5 −.52 2

).

Die Variable u war als u = x1 + 2x2 − 7 definiert.

Diese Angaben reichen zur Herstellung einer kovarianztreuen Darstellung noch

nicht aus, es muss vielmehr beispielsweise noch die Korrelation zwischen x1 und

x2 bekannt sein. Diese sei hier .5.

Damit kann leicht eine kovarianztreue Darstellung der beiden x-Variablen her-


gestellt werden. Man rechnet zunachst die Korrelation in einen Winkel um, was

hier 60◦ ergibt, und wahlt als x1 und x2 dann zwei Vektoren der Lange 2 und .5,

die einen Winkel von 60◦ einschließen.

Man erhalt dann ein Bild von der folgenden Art:

................................................................................................................................................................................................................................................................................................................ ...................x1

..............................................................................................................x2 .............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.........................................................

.........................................................

......................................................................................

......................................................................................

......................................................................................

Fur die, die nachmessen wollen, sind rechts zwei Einheiten des verwendeten Maß-

stabs mit aufgenommen worden.

Nun soll dieser Darstellung der Reprasentant fur u = x1 + 2x2 − 7 hinzugefugt

werden; dies ist u = x1 + 2 x2. Die Koeffizienten dieser Linearkombination sind

gleichzeitig die Koordinaten bezuglich des durch x1 und x2 gegebenen Koordina-

tensystems, das in der nachsten Abbildung mit angedeutet ist. Kurz gesagt ist

also der Koeffizientenvektor von u gleichzeitig der Koordinatenvektor von u.

................................................................................................................................................................................................................................................................................................................ ...................x1

..............................................................................................................x2

..............................................................................................................

..............................................................................................................

..............................................................................................................

.................................................................. ...................u

......................................................................................

..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.............................................................................................................................................................................................................................................................................................

Aus dieser Abbildung kann schon einiges uber u entnommen werden. Die Lange

von u und damit die Streuung von u ist 2.65, die Winkel mit x1 und x2 sind

19.1◦ und 40.9◦, was Korrelationen von .95 und .76 entspricht. Dass diese geo-

metrisch ermittelten Kennwerte richtig sind, kann man naturlich leicht mit den

statistischen Formeln nachrechnen.

Eine gewisse Information uber die Korrelationen erhalt man auch ohne Messung

der Winkel, wenn man die Lote von u auf die durch x1 und x2 erzeugten Geraden

fallt:


................................................................................................................................................................................................................................................................................................................ ...................x1

..............................................................................................................x2

..............................................................................................................

..............................................................................................................

..............................................................................................................

.................................................................. ...................u

.........................

......

......

......

......

......

......

......

......

..

..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

........................................................................................................................................................................................................................................................................................................................................................................................................

Man erkennt nach Feststellung 11, dass beide Korrelationen positiv sind, und

dass die mit x1 etwas großer ist. Misst man die Abstande der Lotfußpunkte zu

Null und teilt sie durch die Streuung von u, die ja gleichzeitig die Lange von u

ist, so ergeben sich die gleichen Werte fur die Korrelationen wie eben.

Als nachstes soll die Variablentransformation untersucht werden. Zuerst werden

die Darstellungen der beiden neuen Variablen y1 und y2 eingezeichnet:

................................................................................................................................................................................................................................................................................................................ ...................x1

..............................................................................................................x2

........................................................................

........................................................................

........................................................................

.....................................................................y1

..........................................

..........................................

..........................................

.......................................................y2

.........................................................

.........................................................

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.............................................................................................................................................................................................................................................................................................

Wie im Falle von u kann man mit Hilfe der Zeichnung nun die Streuungen von

y1 und y2 sowie alle moglichen Korrelationen bestimmen. Fur y1 und y2 erhalt

man so beispielsweise eine Korrelation von 0, da die entsprechenden Vektoren

senkrecht aufeinander stehen. Offenbar bilden hier ferner die Vektoren y1 und y2

eine alternative Basis zu der durch x1 und x2 gegebenen.

Wie hier, so sind auch allgemein die Koeffizienten bei der Bildung der y-Variablen

die Spalten der Matrix G, diese Spalten sind also die Koordinatenvektoren der

y-Vektoren bezuglich der x-Basis. Da G invertierbar ist, stellen die y-Vektoren

eine alternative Basis des von den xi aufgespannten Unterraums dar. Die Matrix

G ist dabei gleichzeitig die, die den entsprechenden Basiswechsel definiert (dass

hier die nicht transponierte Matrix G auftaucht, die direkt in den Kontext der

Basiswechsel passt, ist womoglich ein Grund dafur, dass die Koeffizientenmatrix


der Variablentransformation gerade so definiert wurde, dass die Koeffizienten in

den Spalten und nicht in den Zeilen stehen).

Nun ist noch interessant, wie sich u bezuglich der neuen Basis ausdruckt. Man

ermittelt dazu die Koordinaten von u in dem neuen durch y1 und y2 gegebenen

Koordinatensystem:

................................................................................................................................................................................................................................................................................................................ ..............................................................................................................

...................

..............................................................................................................

..............................................................................................................

..............................................................................................................

.................................................................. ...................u

........................................................................

........................................................................

........................................................................

.....................................................................y1

..........................................

..........................................

..........................................

.......................................................y2

.........................................................................................

....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

...........................................................................................................................................................................................................................................................................................................................................................................................................................................

Man liest hier die Koordinaten (1.5,−.5)′ ab, es gilt also u = 1.5 y1−.5 y2. Bis auf

eine Konstante stimmt also die Variable u mit 1.5 y1−.5 y2 uberein, und das heißt,

dass man mit diesen Koordinaten auch schon die Koeffizienten gefunden hat, die

die Variable u als Linearkombination von y1 und y2 besitzt. Die Umrechnung des

Koeffizientenvektors einer Linearkombination u der xi in den Koeffizientenvektor,

den u bezuglich der yi besitzt, entspricht in der kovarianztreuen Darstellung also

einer Koordinatentransformation.

Dies kann auch formal noch einmal nachvollzogen werden: Die Koordinatentrans-

formation von dem x-Koordinatensystem zu dem y-Koordinatensystem wird be-

kanntlich durch die Matrix G−1 bewirkt; ist a dann der Koordinatenvektor von

u bezuglich der x-Koordinaten, so erhalt man den Koordinatenvektor von u

bezuglich der y-Koordinaten als G−1a. Dies ist aber andererseits genau die For-

mel, die sich im letzten Abschnitt in statistischer Sprache fur die Umrechnung

des Koeffizientenvektors a von u bezuglich der x-Variablen in den Koeffizienten-

vektor bezuglich der y-Variablen ergeben hatte. In der Tat stellt sich also diese

statistische Umrechnung der Koeffizienten auf die neuen Variablen geometrisch

als Koordinatentransformation dar.

Untersucht man ubrigens im Beispiel nun noch die Korrelationen, die u mit den


neuen Variablen y1 und y2 besitzt, so kann man die Koordinatenlinien in der

letzten Abbildung auch als Lote benutzen, da hier die Vektoren y1 und y2 senk-

recht aufeinander stehen. Die Korrelationskoeffizienten sind daher in diesem Fall

den Koeffizienten in der Darstellung von u als Linearkombination von y1 und y2proportional.

Die zwischendurch notierten allgemeinen Ergebnisse sollen nun noch einmal zu-

sammengefasst werden:

Feststellung 12. Eine Variablentransformation von x-Variablen zu y-Variablen

sei durch die Koeffizientenmatrix G gegeben und die Kovarianzmatrix der x-

Variablen sei invertierbar. Wahlt man dann in einer kovarianztreuen Darstel-

lungen die Reprasentanten xi der Variablen xi als Basis des von ihnen aufge-

spannten Unterraums, so sind die Spalten von G die Koordinatenvektoren der

Reprasentanten yi der Variablen yi. Die yi bilden ebenfalls eine Basis dieses Un-

terraums.

Die Umrechnung des Koeffizientenvektors einer Linearkombination u der x-Varia-

blen in den der Darstellung von u als Linearkombination der y-Variablen ist

dann gerade die Koordinatentransformation der Koordinaten des zu u gehorenden

Vektors u von dem x-Koordinatensystem in das y-Koordinatensystem. �

Kurz gesagt entspricht also einer Variablentransformation ein Basiswechsel und

der Umrechnung von Koeffizientenvektoren einer Linearkombination eine Koor-

dinatentransformation.

Linearkombinationen. Linearkombinationen spielen eine ganz zentrale Rolle

in der multivariaten Statistik, da es mit ihrer Hilfe gelingt, viele multivariate

Probleme auf univariate Probleme zu reduzieren.

Es geht nun um die geometrische Veranschaulichung einzelner Linearkombinatio-

nen Y =∑aiXi+b von VariablenX1, . . . , Xp (Beispiel: Bildung des Gesamtscores

eines Tests als gewichtete Summe von einzelnen Untertests). Die Koeffizienten

ai seien in einem Koeffizientenvektor a zusammengefasst. Ist x ein Vektor aus

Messwerten (im Beispiel der Vektor der Werte eines Probanden in den Unter-

tests), so erhalt man den zugehorigen Wert y als a′x + b = <a, x>+ b.

Zunachst soll der Fall betrachtet werden, dass der Vektor a die Lange 1 hat; man

spricht dann auch von einer standardisierten Linearkombination (SLK). Außer-

dem soll die additive Konstante b zunachst gleich 0 sein.


Man stellt nun wie ublich Daten als Punkte x in dem p-dimensionalen Varia-

blenraum mit orthogonalen Achsen dar. Zusatzlich wird vorausgesetzt, dass die

Einheiten auf den Achsen alle gleich lang sind.

Der von dem Vektor a erzeugte Unterraum sei V . Als’Koordinatensystem‘ auf

V wahlt man dasjenige, dessen Einheit durch die Spitze des Vektors a definiert

ist.

Dieses Koordinatensystem von V hat den Vorteil, dass seine Einheit auch im Va-

riablenraum die Lange 1 besitzt. Man misst so gewissermaßen in dem Unterraum

V mit dem gleichen Maß wie im Rp. Ein weiterer Vorteil des Koordinatensystems

ist der, dass die Nullpunkte zusammenfallen.

Der Wert y = <a, x> der Linearkombination ist dann bekanntlich gleichzeitig

interpretierbar als Koordinate des orthogonal auf den Unterraum V projizierten

Punktes x.

Beispielsweise entspricht der Vektor a = (.8, .6)′ (Lange ist 1) der standardisierten

Linearkombination Y = .8X1 + .6X2. Eine Person mit den Werten (−2, 1)′ in den

beiden X-Variablen erhalt in Y den Wert .8 · (−2) + .6 · 1 = −1, was auch in der

folgenden Zeichung ablesbar ist.

1

1

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......................

...................

X2

................................................................................................................................................................................................................................................................................................................ ...................

X1

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

...............

...............

...............

...............

...............

...............

...............

...............

...............

rr

.............................

........................................................................................................a

V

In der Zeichnung erkennt man auch, dass a die Lange 1 besitzt; der fur den Un-

terraum gultige Maßstab ist also gewissermaßen derselbe wie der im R2. Gerade

dies zeichnet SLKn vor anderen Linearkombinationen aus.

Bildet man fur zwei Datenpunkte die SLKn, so lasst sich deshalb deren Differenz

deuten als Abstand, den die Datenpunkte in Richtung des Vektors a haben. Dies


wird in der nachsten Zeichnung illustriert.

1

1

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......................

...................

X2

................................................................................................................................................................................................................................................................................................................ ...................

X1

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

...............

...............

...............

...............

...............

...............

...............

...............

...............

rr

.............................

rr

...............

........................................................................................................a

V

Der Fall einer beliebigen Linearkombination lasst sich auf den Fall einer standar-

disierten Linearkombination mit anschließendem affinen Koordinatenwechsel in

dem eindimensionalen Unterraum V reduzieren, wie nun gezeigt werden soll.

Ist also allgemein eine Linearkombination durch den Koeffizientenvektor a und die

additive Konstante b gegeben, so ermittelt man zunachst den Vektor in Richtung

a mit Lange 1, der a0 heißen soll, und der sich als a0 = a/‖a‖ errechnet. Es gilt

dann a = ‖a‖ a0, und den Wert der Linearkombination fur einen Vektor x erhalt

man damit als

y = <a, x>+ b = <‖a‖ a0, x>+ b = ‖a‖<a0, x>+ b .

Man erhalt y so in zwei Schritten, namlich indem man zunachst die SLK <a0, x>

bildet und dann auf dieses Ergebnis die lineare Transformation anwendet, die

einem u den Wert ‖a‖u + b zuordnet. Der erste Schritt kann als orthogonale

Projektion auf den von a erzeugten Unterraum aufgefasst werden (der naturlich

auch von a0 erzeugt wird), und der zweite Schritt kann dann als affiner Koordi-

natenwechsel auf diesem Unterraum interpretiert werden.

Ist beispielsweise die Linearkombination jetzt Y = 2X1 + 1.5X2 − 4, also a =

(2, 1.5)′ und b = −4, so ist ‖a‖ = 2.5 und a0 = (.8, .6)′; dies ist der Vektor

aus dem letzten Beispiel und daher ist die zugehorige Projektion gerade die dort

schon untersuchte. Die anschließende affine Transformation u 7→ 2.5u − 4 lasst

sich als eindimensionaler Koordinatenwechsel deuten, wobei der neue Nullpunkt

bei −(−4)/2.5 = 1.6 zu liegen kommt und wobei die neue Einheit 1/2.5 = .4 ist.

Untersucht man wieder den Punkt (−2, 1) aus dem vorigen Beispiel, so ergibt sich


y = 2 · (−2) + 1.5 · 1− 4 = −6.5, also dasselbe Ergebnis, wie wenn man auf den

Wert der SLK fur (−2, 1), der hier −1 ist, die angegebene lineare Transformation

anwendet.

In der folgenden Zeichnung ist der Unterraum V (derselbe wie im vorigen Beispiel)

mit den neuen Koordinaten versehen, und man kann in der Tat den Wert der

Linearkombination ablesen.

1

1

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......................

...................

X2

................................................................................................................................................................................................................................................................................................................ ...................

X1

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

.............................. ............... ........

......................

...............

...............

...............

rr

.............................

V

01

In dem Spezialfall, dass der Vektor a bereits Lange 1 hat, besteht die Koordina-

tenanderung auf dem eindimensionalen Unterraum nur darin, dass der Nullpunkt

nach −b verschoben wird.

Schließlich ist anzumerken, dass die Koordinaten selber Spezialfalle von Line-

arkombinationen sind. Hier ist namlich der Vektor a der Einheitsvektor ei, der

die 1 an der Stelle i hat, die der untersuchten Koordinate entspricht. In der Tat

werden ja auch rechtwinklige Koordinaten abgelesen, indem man das Lot auf die

Koordinatenachse fallt.

Eine haufig angewendete multivariate Technik besteht darin, multivariate Pro-

bleme auf univariate zu reduzieren, indem man Linearkombinationen bildet. Hier

hat sich gezeigt, dass dies geometrisch so zu deuten ist, dass man die multivariate

Situation orthogonal auf die zu den Linearkombinationen gehorenden eindimen-

sionalen linearen Unterraume projiziert.

Orthogonale Projektionen und Quadratsummen. In diesem Abschnitt soll

die Quadratsummenzerlegung der einfaktoriellen Varianzanalyse als Anwendung

der Techniken der orthogonalen Projektionen behandelt werden. Fur spatere

Zwecke ist es wesentlich, dass die Quadratsummen quadrierte Normen des auf


orthogonale Unterraume projizierten Datenvektors sind.

Die Anzahl der Bedingungen in der untersuchten varianzanalytischen Situation

sei J , und die Anzahl der Beobachtungen in Bedingung j sei nj mit∑nj = N .

Die Ergebnisse in der untersuchten Variable Y seien zu einem langen Vektor y der

Lange N zusammengefasst, der in den ersten n1 Komponenten die Beobachtungen

der ersten Bedingung hat, etc.. Gelegentlich wird statt von’Bedingung j‘ auch

von’Gruppe j‘ gesprochen.

Ist beispielsweise J = 3, und haben sich bei einer konkreten Durchfuhrung die

Werte

1 2 3

9 1 3

9 3 2

6 7

ergeben, so wurde man diese Ergebnisse zu

y = (9, 9, 6, 1, 3, 3, 2, 7)′

zusammenfassen. Der Anschaulichkeit halber sollen solche Vektoren jedoch auch

oft in der zuerst verwendeten Form angegeben werden. Mogliche Ergebnisse einer

Varianzanalyse werden jedenfalls jetzt als Vektoren im RN aufgefasst.

Es werden nun Vektoren 1j definiert, die genau an den Stellen 1 sind, die zur

j-ten Bedingung gehoren, und sonst 0. Mit 1 wird wie ublich der Vektor aus

lauter Einsen bezeichnet. Im Beispiel sind dann die Vektoren 11, 12, 13 und 1 die

folgenden:

11:

1 2 3

1 0 0

1 0 0

1 0

, 12:

1 2 3

0 1 0

0 1 0

0 0

, 13:

1 2 3

0 0 1

0 0 1

0 1

, 1:

1 2 3

1 1 1

1 1 1

1 1

.

Die quadrierten Normen dieser Vektoren sind nj bzw. N , im Beispiel also 3, 2, 3

und 8. Die von den Vektoren 1j jeweils erzeugten eindimensionalen Unterraume

sollen Vj heißen, der von 1 erzeugte eindimensionale Unterraum sein Vm. Die

Summe der Vj sei V . Die wechselseitige Orthogonalitat der 1j ubertragt sich auf


die von ihnen erzeugten Unterraume Vj, weshalb dann (V1, . . . , VJ) eine orthogo-

nale Zerlegung von V ist. Offenbar liegt 1 in V , da 1 =∑

1j gilt, und daher gilt

auch Vm ⊆ V .

Im Beispiel haben Vektoren aus V dann die Form

1 2 3

a b c

a b c

a c

mit beliebigen Zahlen a, b und c; die Vektoren aus V zeichnen sich also gerade

dadurch aus, dass sie in den einzelnen Bedingungen konstant sind.

Nun soll die orthogonale Projektion P auf V bestimmt werden. Da man mit

den Vj eine orthogonale Zerlegung von V hat, kann man dazu beispielsweise die

orthogonalen Projektionen Pj auf Vj bestimmen und addieren, denn P ist ja die

Summe dieser Projektionen.

Die Projektion Pj auf Vj ist als Projektion auf einen eindimensionalen Unterraum

leicht bestimmt. Fur einen Vektor y ergibt sich namlich

Pj y =<1j, y>

‖1j‖21j =

<1j, y>

nj1j .

Hier ist das Skalarprodukt von y mit 1j gerade die Summe der Werte in der j-ten

Bedingung, die Division durch nj liefert damit deren Mittelwert, der yj heißen

soll. Die Projektion auf Vj ersetzt also die Werte in der j-ten Bedingung durch

ihren Mittelwert und alle anderen Werte durch 0.

Die Projektion P erhalt man, indem man die Pj addiert, daher ist Py =∑

Pj y

der Vektor, bei dem alle Werte durch die Mittelwerte ihrer Bedingung (kurz:

durch ihre Gruppenmittelwerte) ersetzt sind. Fur die Beispielsituation folgen

nacheinander der Vektor y, seine Projektionen auf die Vj und die Projektion

auf V .

1 2 3

9 1 3

9 3 2

6 7

,

1 2 3

8 0 0

8 0 0

8 0

,

1 2 3

0 2 0

0 2 0

0 0

,

1 2 3

0 0 4

0 0 4

0 4

,

1 2 3

8 2 4

8 2 4

8 4

.


Es folgt nun noch eine alternative Moglichkeit, die Projektion auf V zu bestim-

men. Man fasst dazu die Basisvektoren der Vj, die ja insgesamt eine Basis von V

bilden, zu einer Matrix X zusammen.

Im Beispiel wurde X so aussehen:

1 0 0

1 0 0

1 0 0

0 1 0

0 1 0

0 0 1

0 0 1

0 0 1

.

An der Matrix X kann man nun direkt ablesen, wieviele Bedingungen vorliegen

und wie die Bedingungen besetzt sind. Die Matrix heißt auch Designmatrix.

Die Projektion P auf den von den Spalten von X erzeugten Unterraum V ist dann

X(X′X)−1X′, und die Matrix, die die Koordinaten des projizierten Vektors liefert,

ist (X′X)−1X′. Diese beiden Matrizen und ihre Wirkung auf einen Datenvektor

sollen nun genauer untersucht werden.

Die Matrix X′X ist offenbar die Diagonalmatrix, deren Diagonalelemente die

Gruppengroßen nj sind. Ihr Inverses hat in der Diagonale also gerade die Kehr-

werte der Gruppengroßen. Multipliziert man X′ mit dem Datenvektor y, so erhalt

man jeweils die Summen der Beobachtungen in den Bedingungen; das Produkt

(X′X)−1X′y liefert folglich die Gruppenmittelwerte. Im Beispiel gilt

(X′X)−1X′y =

1/3 0 0

0 1/2 0

0 0 1/3

1 1 1 0 0 0 0 0

0 0 0 1 1 0 0 0

0 0 0 0 0 1 1 1

9

9

6

1

3

3

2

7

=

1/3 0 0

0 1/2 0

0 0 1/3

24

4

12

=

8

2

4

.


Multipliziert man das Ergebnis, also den Vektor der Gruppenmittelwerte von

links noch mit X, so erhalt man einen Vektor der Lange N , in dem alle Beobach-

tungen durch die jeweiligen Gruppenmittelwerte ersetzt sind.


X(X′X)−1X′y =

1 0 0

1 0 0

1 0 0

0 1 0

0 1 0

0 0 1

0 0 1

0 0 1

8

2

4

=

8

8

8

2

2

4

4

4

.

Man erhalt also in der Tat das gleiche Ergebnis wie bei der ersten Moglichkeit.

Die zu P komplementare Projektion I − P ordnet damit einem Vektor y den

Vektor zu, in dem alle Werte durch die Abweichungen von ihren Gruppenmittel-

werten ersetzt sind. Anders ausgedruckt bewirkt I−P gruppenweises Zentrieren.

Die so erhaltenen Werte sind gerade die, mit denen man SSw (die Quadratsumme

innerhalb) bildet, und deshalb soll die Projektion I−P den Namen Pw erhalten

und ihr Bild V ⊥ den Namen Vw. Es gilt dann also Pw = I−P und

‖Pwy‖2 = SSw .

Im Beispiel erhalt man folgende Vektoren:

y:

1 2 3

9 1 3

9 3 2

6 7

, Py:

1 2 3

8 2 4

8 2 4

8 4

, Pwy:

1 2 3

1 -1 -1

1 1 -2

-2 3

.

Nach Konstruktion sind die Unterraume V und Vw komplementar, ebenso die

zugehorigen Projektionen P und Pw .

Fur Pw 1 erhalt man den Wert 0, denn 1 liegt ja in V , also im Kern von Pw . Die

Gleichung Pw 1 = 0 folgt alternativ auch daraus, dass die Abweichungen von den

Gruppenmittelwerten alle 0 sind, wenn alle Daten gleich (hier gleich 1) sind.


Die Projektion Pm auf den von 1 erzeugten Unterraum Vm liefert

Pmy =<1, y>

‖1‖21 =

<1, y>

N1 .

Das Skalarprodukt ist die Summe aller beobachteten Werte, Division durch N

liefert den Mittelwert aller Werte, der mit y bezeichnet werden soll. Die Projektion

selbst ergibt damit den Vektor, bei dem alle Werte durch y ersetzt sind. Dies

Ergebnis ist auch schon von fruher bekannt.

Die zu Pm komplementare Projektion I − Pm ersetzt in einem Vektor y alle

Werte durch ihre Abweichungen vom Gesamtmittelwert, weshalb diese Matrix

gerade die Zentriermatrix ist. Da man nun mit der Projektion I−Pm die Werte

erhalt, die zur Bildung der totalen Quadratsumme SSt fuhren, soll sie hier den

Namen Pt erhalten und ihr Bild V ⊥m entsprechend den Namen Vt. Hier gilt dann

also Pt = I−Pm und

‖Pty‖2 = SSt .


y:

1 2 3

9 1 3

9 3 2

6 7

, Pmy:

1 2 3

5 5 5

5 5 5

5 5

, Pty:

1 2 3

4 -4 -2

4 -2 -3

1 2

.

Die Unterraume Vm und Vt sind nach Konstruktion komplementar und ebenso die

zugehorigen Projektionen Pm und Pt , was beispielsweise I = Pm + Pt bedeutet.

Es ist vielleicht nutzlich, die schon bekannte Tatsache zu wiederholen, dass die

aus I = Pm + Pt folgende Beziehung

‖y‖2 = ‖Pmy‖2 + ‖Pty‖2

mit einer Umstellung und Division durch N die Formel liefert, nach der die Va-

rianz die Differenz des Mittelwerts der quadrierten Daten und des quadrierten

Mittelwerts ist.

Es gilt ferner Pt1 = 0, was man genauso wie bei Pw sieht oder auch daran, dass

Pt ja die Zentriermatrix ist.

Entscheidend fur die weiteren Uberlegungen ist, dass Vm ⊆ V gilt.


Hieraus folgt, dass (Vm, V⊥m ∩ V ) eine orthogonale Zerlegung von V ist und

(Vm, V⊥m ∩ V, V ⊥) eine orthogonale Zerlegung von RN . Diese Zerlegungen sollen

nun genauer untersucht werden.

Zunachst ist wegen V ⊥m = Vt auch V ⊥m ∩ V = Vt ∩ V . Die Projektion auf diesen

Unterraum ist P − Pm . Wendet man diese Projektion auf ein y an, so erhalt

man mit Py − Pmy einen Vektor, in dem alle Daten durch die Abweichungen

ihres Gruppenmittelwerts vom Gesamtmittelwert ersetzt sind. Dies sind genau die

Werte, die man zur Bildung von SSw (der Quadratsumme innerhalb) benotigt,

und daher soll V ⊥m ∩ V = Vt ∩ V auch kurz mit Vb bezeichnet werden und die

zugehorige Projektion mit Pb (es gilt also Pb = P −Pm ). Hier gilt nun

‖Pby‖2 = SSb .

Im Beispiel ergeben die zugehorigen Projektionen dann die folgenden Vektoren:

y:

1 2 3

9 1 3

9 3 2

6 7

, Pmy:

1 2 3

5 5 5

5 5 5

5 5

, Pby:

1 2 3

3 -3 -1

3 -3 -1

3 -1

, Pwy:

1 2 3

1 -1 -1

1 1 -2

-2 3

.

Die orthogonale Zerlegung (Vm, V⊥m ∩ V ) von V lasst sich nun auch als (Vm, Vb)

schreiben und die orthogonale Zerlegung (Vm, V⊥m ∩V, V ⊥) von RN als (Vm, Vb, Vw).

Berechnet man auch hier Pb1, so erhalt man wieder Pb1 = 0, beispielsweise, weil

1 in Vm liegt und Vm⊥Vb gilt. Alternativ sieht man dies auch daran, dass bei kon-

stanten Daten die Abweichungen der Gruppenmittelwerte vom Gesamtmittelwert

alle 0 sind.

Aus der Zerlegung (Vm, Vb, Vw) des RN erhalt man die besonders wichtige Teil-

zerlegung (Vb, Vw) von V ⊥m = Vt. In der Sprache der Projektionen schreibt sich

diese Zerlegung als

Pt = Pb + Pw .

Damit kann man einen Datenvektor y folgendermaßen zerlegen (Multiplikation

mit y von rechts):

Pty = Pby + Pwy ,

was inhaltlich heißt, dass sich die Abweichung vom Gesamtmittelwert zusam-

mensetzt aus der Abweichung des Gruppenmittelwerts vom Gesamtmittelwert

und der Abweichung vom Gruppenmittelwert.


Außerdem folgt die Zerlegung

‖Pty‖2 = ‖Pby‖2 + ‖Pwy‖2 ,

anders ausgedruckt die angestrebte Gleichung

SSt = SSb + SSw .

Man erhalt dies auch ganz einfach dadurch, dass man die Gleichung Pt = Pb +Pwvon links mit y′ und von rechts mit y multipliziert.

Damit ist das gesteckte Ziel erreicht. Dies bestand weniger darin, die ja bekannte

Quadratsummenzerlegung der Varianzanalyse noch einmal herzuleiten, als viel-

mehr darin, zu zeigen, dass diese Quadratsummenzerlegung sich aus einer Zerle-

gung des Datenvektors mit Hilfe von orthogonalen Projektionen auf wechselseitig

orthogonale Unterraume als einfache Anwendung des Satzes von Pythagoras er-

gibt. Mit dieser Tatsache folgert man namlich spater leicht, dass der F -Bruch

tatsachlich eine F -Verteilung besitzt.

Interessant sind auch noch die Dimensionen der Unterraume Vm, Vb und Vw,

die nun bestimmt werden sollen. Offenbar hat Vm die Dimension 1 und V die

Dimension J . Hieraus folgt, dass die Dimension des Komplements Vw von V

gleich N − J ist. Da Vm und Vb eine orthogonale Zerlegung von V bilden, ist die

Summe ihrer Dimensionen gleich J , weshalb die Dimension von Vb gleich J − 1

sein muss. Die Dimensionen J − 1 von Vb und N − J von Vw sind damit gerade

die Freiheitsgrade des F -Bruchs.

Die umfassendere orthogonale Zerlegung (Vm, Vb, Vw) des RN druckt sich mit Pro-

jektionen geschrieben als

I = Pm + Pb + Pw

aus und fuhrt zur Zerlegung

y = Pmy + Pby + Pwy

der Daten in Gesamtmittelwert, Abweichung des Gruppenmittelwerts vom Ge-

samtmittelwert und Abweichung vom Gruppenmittelwert. Außerdem liefert sie

eine weitere Quadratsummenzerlegung, die man gelegentlich antrifft, namlich

‖y‖2 = ‖Pmy‖2 + ‖Pby‖2 + ‖Pwy‖2 .

Diese Zerlegung besagt, dass die Summe der quadrierten y-Werte gleich der Sum-

me des N -fachen quadrierten Mittelwerts und von SSb und SSw ist.


Aus der Tatsache, dass (Pm ,Pb ,Pw ) eine orthogonale Zerlegung von I ist, folgt

auch, dass die Produkte von je zwei dieser Projektionen gleich 0 ist. Da außerdem

P = Pm + Pb und Pt = Pb + Pw gilt, ergeben sich unmittelbar einige Tatsachen

uber die Produkte von diesen Projektionen.

Beispielsweise gilt

PtP = (Pb + Pw )(Pm + Pb ) = Pb ,

und da das Produkt symmetrisch ist, gilt auch PPt = Pb , also insbesondere

PPt = PtP.

Inhaltlich lasst sich die Gleichung PPt = Pb folgendermaßen deuten: Wenn man

die gegebenen Daten zunachst zentriert (also Pt anwendet) und fur die zentrierten

Daten dann die Gruppenmittelwerte berechnet (mit P), so erhalt man dasselbe

Ergebnis, wie wenn man die Abweichungen der Gruppenmittelwerte der Original-

daten vom Gesamtmittelwert bildet (mit Pb ). Entsprechend bedeutet PtP = Pb ,

dass das (gewichtete) Zentrieren der Gruppenmittelwerte dasselbe Ergebnis hat

wie die Bildung der Abweichung der Gruppenmittelwerte vom Gesamtmittelwert.

Analog, oder auch direkt wegen Vm ⊆ V bzw. Vw ⊆ Vt, folgen die Beziehungen

PPm = PmP = Pm bzw. PtPw = PwPt = Pw .

Auch diese Gleichungen kann man inhaltlich deuten. So bedeutet PPm = Pm ,

dass man, wenn man zuerst alle Daten durch ihren Mittelwert ersetzt und dann

die neuen Werte in den Gruppen wieder durch ihren jeweiligen Mittelwert, zum

gleichen Ergebnis kommt, wie wenn man nur die erste Operation durchfuhrt. Dies

ist offensichtlich; interessanter ist die zweite Aussage PmP = Pm , die entspre-

chend bedeutet, dass man, wenn man die Daten durch ihre Gruppenmittelwerte

ersetzt und dann durch den Mittelwert dieser neuen Werte (der offenbar das mit

den Gruppengroßen gewichtete Mittel der Einzelmittelwerte ist), dasselbe erhalt,

wie wenn man die Daten gleich durch ihren Gesamtmittelwert ersetzt. Man hat

hier also die bekannte Tatsache, dass der Gesamtmittelwert das gewichtete Mittel

der Gruppenmittelwerte ist.

Interessant ist zum Abschluss noch die Projektionen des Vektors, der entsteht,

wenn man jeden Wert durch seinen Erwartungswert ersetzt. Dieser Vektor soll µ

genannt werden. Im Beispiel schreibt sich dieser Vektor als

2.3 Kovarianzmatrizen und Verteilungen MS13 73

µ:

1 2 3

µ1 µ2 µ3

µ1 µ2 µ3

µ1 µ3

.

Die Projektion dieses Vektors auf Vm ersetzt alle Werte durch ihren Mittelwert,

der hier 1/N∑njµj =

∑(nj/N)µj ist, also gleich dem grand mean, der wie

ublich µ heißen soll. Da der Vektor µ bereits in V liegt, wird er durch P nicht

mehr geandert. Daher ist Pbµ = Pµ−Pmµ = µ−Pmµ der Vektor, der aus den

Differenzen der einzelnen Erwartungswerte µj zu µ besteht, also gerade aus den

Effektgroßen αj. Hier folgen noch einmal µ mit seinen beiden Projektionen:

µ:

1 2 3

µ1 µ2 µ3

µ1 µ2 µ3

µ1 µ3

, Pmµ:

1 2 3

µ µ µ

µ µ µ

µ µ

, Pbµ:

1 2 3

α1 α2 α3

α1 α2 α3

α1 α3

.

Der Vektor Pwµ ist ubrigens offensichtlich gleich 0. Wichtig ist nun die quadrierte

Norm von Pbµ; sie ist offenbar gleich

‖Pbµ‖2 =∑

njα2j = σ2δ2

und damit gerade das σ2-fache des Nonzentralitatsparameters δ2 des F -Bruchs.

2.3 Kovarianzmatrizen und Verteilungen

Das Thema dieses Kapitels ist die Bedeutung, die die Kovarianzmatrix fur ei-

ne Verteilung besitzt. Mit Hilfe der Kovarianzmatrix kann man sich erste Vor-

stellungen uber die Lage der Daten oder der moglichen Variablenwerte machen;

dies wird im ersten Teil genauer ausgefuhrt. Danach geht es um multivariate

z-Transformationen und ein darauf aufgebautes statistisches Distanzmaß.

Meist sollen dabei empirische Verteilungen aufgrund von Daten betrachtet werden

– es sollte aber klar werden, dass entsprechende Aussagen analog fur theoretische

Verteilungen gelten. Man hat nur die Operation der Mittelwertbildung jeweils

durch die der Bildung des Erwartungswerts zu ersetzen.

Bei Kovarianzmatrizen ist zu unterscheiden zwischen solchen, deren Rang gleich

der Anzahl der Variablen ist, und solchen, bei denen dieser Rang kleiner ist als

die Anzahl der Variablen. Zuerst wird der zweite Fall behandelt.


Kovarianzmatrizen mit Rangdefekt. Es soll untersucht werden, was man

uber die Daten sagen kann, wenn die Kovarianzmatrix einen Rangdefekt hat,

wenn der Rang also kleiner ist als die Anzahl p der Variablen.

Ausgangspunkt sind Daten fur p Variablen, die wie ublich zu einem Variablen-

vektor x zusammengefasst sind. Der Mittelwertvektor x der Daten und die Ko-

varianzmatrix S sollen schon vorliegen. Der Rang von S sei dabei r < p.

Dann ist der Kern von S ein Unterraum der Dimension p− r. Fur diesen Unter-

raum seien die Vektoren einer Basis zu einer Matrix A mit p Zeilen und p − rSpalten zusammengestellt. Dass alle Spaltenvektoren von A im Kern von S liegen,

kann man kurz durch SA = 0 ausdrucken.

Wendet man nun auf die Variable x die lineare Abbildung A′ an, so gewinnt man

einen neuen (p− r)-dimensionalen Variablenvektor y := A′x. Die Kovarianzma-

trix von y ist dann A′SA = 0; alle Datenpunkte yi = A′xi der Versuchspersonen

fallen also mit dem Zentroid y = A′x der Variable y zusammen.

Fur alle xi gilt folglich: A′xi = y, alle xi sind also Losungen des inhomogenen

Gleichungssystems A′x = y. Es folgt, dass alle xi in einem affinen Unterraum

liegen, und zwar in dem, der zum Kern von A′ parallel ist und durch eine spezielle

Losung des Gleichungssystems geht. Eine spezielle Losung ist offensichtlich x (da

ja A′x = y gilt). Es bleibt der Kern von A′ zu bestimmen.

Nun sieht man durch Transponieren von SA = 0, dass auch A′S = 0 gilt. Alle

Spalten von S liegen also im Kern von A′, damit gilt auch Bild(S) ⊆ Kern(A′).

Die Dimension von Kern(A′) ist aber p−Rang(A′) = p− (p− r) = r und stimmt

mit der Dimension r von Bild(S) uberein. Daher gilt sogar Bild(S) = Kern(A′),

so dass man zusammenfassend formulieren kann:

Feststellung 1. Hat die Kovarianzmatrix S den Rang r < p, so liegen alle Da-

tenpunkte xi in dem affinen Unterraum der Dimension r, der parallel zu Bild(S)

ist und den Punkt x enthalt. �

Hat man beipielsweise fur drei Variablen das Zentroid (1, 2, 3)′ und die Kovari-

anzmatrix 2 3 1

3 5 2

1 2 1

erhalten, so erkennt man leicht, dass die Matrix nur den Rang 2 besitzt. Es folgt,

dass alle Datenpunkte in der Ebene im dreidimensionalen Variablenraum liegen,


die parallel ist zu dem durch die Vektoren (2, 3, 1)′ und (3, 5, 2)′ aufgespannten

Unterraum, und die durch den Punkt (1, 2, 3)′ geht.

Ein noch einfacheres Beispiel ist das von zwei Variablen, die beide nicht Varianz 0

besitzen mogen. Man macht sich leicht klar, dass die Kovarianzmatrix hier genau

dann den Rang 1 besitzt, wenn die Korrelation der beiden Variablen gleich 1 oder

−1 ist. Bekanntlich bedeutet dies aber, dass alle Datenpunkte auf einer Geraden

liegen.

Es gilt ubrigens auch die Umkehrung des oben geschilderten Sachverhaltes:

Feststellung 2. Liegen alle Datenpunkte xi einer Variable x in einem r-dimen-

sionalen affinen Unterraum des Rp, so hat die Kovarianzmatrix S von x hochstens

den Rang r.

Der affine Unterraum sei namlich V + v mit dim(V ) = r. Bildet man die neue

Variable y = x−v, so liegen alle yi = xi−v in V . Da y aus x durch eine einfache

Verschiebung hervorgeht, ist die Kovarianzmatrix von y ebenfalls gleich S. Ist P

die orthogonale Projektion auf V , so gilt fur alle yi die Beziehung Pyi = yi,

weshalb die Kovarianzmatrix PSP′ der Variable Py gleich der Kovarianzmatrix

S von y ist. Da P den Rang r besitzt, kann schließlich auch S hochstens diesen

Rang haben. �

Wenn alle Datenpunkte in einem r-dimensionalen affinen Unterraum liegen, so

sollten r geeignete Angaben genugen, um einen Datenpunkt zu charakterisieren.

Zur Vorbereitung entsprechender Aussagen dient die nachste Feststellung:

Feststellung 3. Es sei S die Kovarianzmatrix von x. Wahlt man einen Teil der

Spalten von S aus, so sind diese Spalten genau dann linear unabhangig, wenn die

Kovarianzmatrix der zugehorigen Variablen regular ist.

Zur Begrundung sei zunachst daran erinnert, dass wegen der positiven Semide-

finitheit von S fur beliebige Vektoren a die Beziehung Sa = 0 genau dann gilt,

wenn a′Sa = 0 ist.

Es sollen nun Vektoren a betrachtet werden, die außerhalb der ausgewahlten

Spalten 0 sind, was vereinbarungsgemaß bedeuten soll, dass alle Komponenten

eines solchen Vektors, deren Index nicht mit dem Index einer der ausgewahlten

Spalten ubereinstimmt, gleich 0 sind. Die Linearkombination a′x aller gegebe-

nen Variablen x ist dann auch schon eine Linearkombination der ausgewahlten


Variablen (also der Variablen, die den ausgewahlten Spalten entsprechen). Ande-

rerseits lasst sich jede beliebige Linearkombination der ausgewahlten Variablen

kunstlich in dieser Form einer Linearkombination aller Variablen schreiben, in-

dem man einfach fur alle nicht ausgewahlten Variablen als Koeffizienten 0 nimmt.

Die Varianz von a′x ist a′Sa.

Die Kovarianzmatrix der ausgewahlten Variablen ist genau dann regular, wenn

sie positiv definit ist, was gleichbedeutend damit ist, dass die Varianzen nicht-

trivialer Linearkombinationen dieser Variablen alle 6= 0 sind (eine nichttriviale

Linearkombination ist naturlich eine, bei der nicht alle Koeffizienten gleich 0

sind). Dies ist nun gleichbedeutend damit, dass fur alle Vektoren a 6= 0 der oben

betrachteten Art a′Sa 6= 0 gilt.

Andererseits sind die ausgewahlten Spalten genau dann linear unabhangig, wenn

fur alle a 6= 0 der oben betrachteten Art auch Sa 6= 0 ist.

Da wegen der einleitenden Bemerkung allgemein a′Sa = 0 genau dann gilt, wenn

Sa = 0 gilt, folgt nun schließlich die Behauptung. �

Bei der oben als Beispiel betrachteten (3×3)-Kovarianzmatrix sind beispielsweise

alle Teilsysteme von je zwei Spalten linear unabhangig, weshalb auch alle Kova-

rianzmatrizen von je zwei der drei Variablen regular sind (wovon man sich auch

leicht direkt uberzeugt).

Feststellung 4. Hat die Kovarianzmatrix S von x den Rang r < p, so kann man

r Variablen aus den xi auswahlen, deren Kovarianzmatrix auch schon den Rang

r besitzt. Die restlichen p−r Variablen lassen sich dann als Linearkombinationen

der ausgewahlten r Variablen ausdrucken (jedenfalls was die erhobenen Daten

betrifft).

Zur Begrundung wahlt man r Variablen aus, die r linear unabhangigen Spal-

ten von S entsprechen. Außerdem wahlt man eine kovarianztreue Darstellung

aller Variablen. Die reprasentierenden Vektoren haben dann wegen Feststellung

9 aus Kapitel 2.2 ebenfalls den Rang r. Diesen Rang besitzen jedoch bereits die

Reprasentanten der ausgewahlten Variablen, da deren Kovarianzmatrix wegen

Feststellung 3 regular ist. Daraus folgt, dass die Reprasentanten der ubrigen Va-

riablen sich als Linearkombinationen der ausgewahlten Reprasentanten schreiben

lassen, was auf die ubrigen Variablen ubertragen bedeutet, dass sie sich von den

entsprechenden Linearkombinationen der ausgewahlten Variablen nur um Kon-

stanten unterscheiden, also Linearkombinationen der ausgewahlten Variablen im


statistischen Sinn sind (was die erhobenen Daten angeht). �

Will man die restlichen Variablen als Linearkombinationen der ausgewahlten aus-

drucken, so kann man sich beispielsweise der Technik der multiplen Regression

bedienen. Ist namlich eine Variable y =∑bixi + a Linearkombination gegebener

xi, deren Kovarianzmatrix regular ist, so muss y =∑bixi + a auch bereits die

(eindeutige) Vorhersage bei einer multiplen Regression von y auf die xi sein, denn

diese Vorhersagegleichung ist ja fehlerfrei und damit optimal.

In einer Situation mit p Variablen, deren Kovarianzmatrix den Rang r besitzt,

kann man also insgesamt r Variablen auswahlen, deren Kovarianzmatrix ebenfalls

den Rang r besitzt (man wahlt dazu r Variablen aus, fur die die zugehorigen Spal-

ten in S linear unabhangig sind). Die restlichen p− r Variablen kann man dann

als Linearkombinationen der r ausgewahlten xi ausdrucken (beispielsweise mit

Hilfe der Regression). Sie enthalten in diesem Sinne keine zusatzliche Informati-

on uber das hinaus, was bereits in den r ausgewahlten Variablen an Information

steckt, und sind gewissermaßen uberflussig. Man hat sozusagen’eigentlich‘ eine

Situation mit nur r Variablen (jedenfalls hinsichtlich der erhobenen Daten).

In dem oben betrachteten Beispiel einer (3×3)-Kovarianzmatrix vom Rang 2 kann

man beispielsweise die dritte Variable (mit Hilfe einer Regression) schreiben als

x3 = −x1 +x2 + 2. Ebenso kann man aber auch die erste Variable oder die zweite

Variable als Linearkombination der jeweils beiden anderen ausdrucken.

Haben als weiteres Beispiel zwei Variablen die Korrelation 1, so liegen alle Daten-

punkte auf einer Geraden und die eine Variable ist eine lineare Transformation

der anderen (dieses Beispiel sollte auch die Notwendigkeit des Zusatzes’was die

erhobenen Daten betrifft‘ noch einmal deutlich machen).

Zum Abschluss sei noch angemerkt, dass alle in diesem Unterabschnitt bespro-

chenen Sachverhalte analog fur Zufallsvariablen gelten; man hat dabei nur kleine

Umformulierungen vorzunehmen. In Feststellung 1 muss es dann beispielsweise

heißen, dass die Zufallsvariable x (fast sicher) nur Werte in dem angegebenen

affinen Unterraum annimmt, in Feststellung 4 sind die restlichen Variablen (fast

sicher) Linearkombinationen der r ausgewahlten.

Die Verhaltnisse fur singulare Kovarianzmatrizen sind damit ausfuhrlich behan-

delt. Im Folgenden soll von den Kovarianzmatrizen meistens vorausgesetzt wer-

den, dass sie invertierbar sind.

Regulare Kovarianzmatrizen und Tschebyscheffsche Ungleichung. Fur


den ersten noch zu untersuchenden Fall, dass die Kovarianzmatrix S von x re-

gular ist, soll nun eine Verallgemeinerung der Tschebyscheffschen Ungleichung

hergeleitet werden, mit deren Hilfe man genauere Vorstellungen uber die Lage

der Datenpunkte gewinnen kann.

Es soll hierzu die eindimensionale Variable y := (x − x)′S−1(x − x) untersucht

werden, von der als erstes der Mittelwert berechnet werden soll. Die Mittelwert-

bildung soll mit M abgekurzt werden, M(y) bezeichnet also den Mittelwert der

Variable y.

Es gilt dann

M(y) = M (Spur((y)))

= M(Spur

((x− x)′S−1(x− x)

))= M

(Spur

(S−1(x− x)(x− x)′

))= Spur

(S−1M ((x− x)(x− x)′)

)= Spur(S−1S) = Spur(Ip) = p .

Hierbei sind die bekannten Eigenschaften der Spur zu berucksichtigen, sowie die

Tatsache, dass sich der Mittelwert ja als (1/n)-fache Summe berechnet und folg-

lich die Mittelwertbildung mit der Spurbildung und der Matrizenmultiplikation

vertauschbar ist.

Steht h fur die relative Haufigkeit, so folgt aus der Markoffschen Ungleichung fur

jedes k > 0 die Beziehung h(y ≥ k2) ≤ p/k2, und daraus die verallgemeinerte

Tschebyscheffsche Ungleichung:

Feststellung 5. Ist die Kovarianzmatrix S der p-dimensionalen Variable x re-

gular, so gilt fur jedes k > 0 die Beziehung

h((x− x)′S−1(x− x) ≥ k2

)≤ p

k2. �

Dies ist tatsachlich eine multivariate Verallgemeinerung der univariaten Tscheby-

scheffschen Ungleichung, denn fur p = 1 ist der Ausdruck links vom ≥-Zeichen

gleich (x − x)2/S2, wenn man hier fur die Varianz (das einzige Element in der

(1×1)-Kovarianzmatrix) wie ublich S2 schreibt, weshalb sich hier die Ungleichung

umformen lasst zu

h (|x− x| ≥ kS) ≤ 1

k2,

was gerade eine mogliche Version der Tschebyscheffschen Ungleichung ist.


Die Bedingung (x − x)′S−1(x − x) ≥ k2 deutet man geometrisch so, dass x

außerhalb des Ellipsoids E(S, x, k) liegt. Dieses Ellipsoid ist gerade das um den

Faktor k vergroßerte Ellipsoid E(S, x, 1).

Es ist praktisch, fur das Ellipsoid E(S, x, 1) die Bezeichnung Verteilungsellipsoid

von x einzufuhren.

Abkurzend soll auch ein um den Faktor k vergroßertes Ellipsoid (bei gleichblei-

bendem Mittelpunkt) als k-faches Ellipsoid bezeichnet werden.

Man kann dann die Tschebyscheffsche Ungleichung auch so ausdrucken:

Feststellung 6. Die relative Haufigkeit von Datenpunkten, die außerhalb des

k-fachen Verteilungsellipsoids E(S, x, 1) liegen, ist hochstens p/k2.

Betrachtet man nicht Punkte außerhalb, sondern innerhalb der Ellipsoide, so

erhalt man aquivalent:

Die relative Haufigkeit von Datenpunkten, die im k-fachen Verteilungsellipsoid

E(S, x, 1) liegen, ist mindestens 1− p/k2.

Als Beispiel soll eine Situation wieder aufgegriffen werden, die bereits im Zusam-

menhang der Deutung der Spur als Gesamtvarianz untersucht wurde.

In dem Beispiel waren an 5 Versuchspersonen jeweils zwei Variablen x1 und x2erhoben worden. Fur Mittelwertvektor und Kovarianzmatrix hatten sich

x =

(3

2

)und S =

(2 .8

.8 .8

)ergeben.

Als Eigenwerte der Kovarianzmatrix errechnet man die Zahlen 2.4 und .4 mit

zugehorigen Eigenvektoren (2, 1)′ und (−.5, 1)′. Die Ellipse E(S, x, 1) hat also

ihre Achsen in Richtung dieser Eigenvektoren und besitzt als Halbmesser die

Wurzeln der zugehorigen Eigenwerte, also 1.55 und .63. In der folgenden Graphik

ist diese Ellipse und ihre Verdopplung eingezeichnet:


1

1

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.........................

...................

x1

x2

r

r

rr

rrx

.............................................................................................................................................

......................................................................................................................................................................................................................................................................................................................................................

...........................

.........................................................................................................

............................

............................

............................

............................

............................

............................

............................

...........

......

......

...........................................

..........

.........................................................................................................................

.........

.......

..

Nach der Tschebyscheffschen Ungleichung muss die großere Ellipse mindestens

den Anteil 1 − 2/22 = 1 − 1/2 = 1/2 der Datenpunkte enthalten – hier enthalt

sie sogar alle Datenpunkte. Die Tschebyscheffsche Ungleichung rechnet ja auch

bekanntlich mit dem schlimmsten Fall.

Analoge Ungleichungen kann man ubrigens mit ahnlicher Argumentation auch fur

anderere Ellipsoide herleiten. Das hier benutzte Ellipsoid ist jedoch im Vergleich

das mit dem kleinsten Volumen und daher am besten geeignet, Information uber

die Lage der Daten zu liefern.

In vielen Fallen spiegelt das Ellipsoid E(S, x, 1) auch gut die Form der Punktwol-

ke wieder. Auch deshalb ist die Bezeichnung als Verteilungsellipsoid angemessen.

Das Volumen des Ellipsoids ist bis auf einen von der Dimension abhangigen Faktor

gleich der Wurzel aus der Determinante der Kovarianzmatrix. Die Determinan-

te gibt daher ebenfalls Aufschluss uber das Streuungsverhalten der Punktwolke

und ist neben der Spur eine weitere mogliche Verallgemeinerung der univariaten

Varianz.

Bei diesen beiden moglichen Verallgemeinerungen der univariaten Varianz ist der

enge Bezug zu den Eigenwerten der Kovarianzmatrix zu betonen: Die Spur ist

die Summe der Eigenwerte, die Determinante deren Produkt.

Die Eigenwerte selbst charakterisieren das Streuungsverhalten noch besser, da sie

eine gewisse Vorstellung von der Form der Punktwolke liefern: die Wurzeln aus

den Eigenwerten sind ja gerade die Halbmesser des die Verteilung charakterisie-

renden Ellipsoids. Die zugehorigen Eigenvektoren geben zusatzlich die Richtung

der Achsen an.


Nun soll noch untersucht werden, wie das Ellipsoid im Eindimensionalen aussieht.

Hier besteht die Kovarianzmatrix nur aus der Varianz der einzigen Variablen, die

wie ublich als S2 bezeichnet werden soll; der Mittelwert sei x. Die Bedingung

dafur, dass Punkte x in dem Ellipsoid liegen, ist (x − x)2/S2 < 1 oder auch

|x− x| < S, so dass das Ellipsoid hier gerade das Intervall ]x−S, x+S[ ist, das ja

im Eindimensionalen auch ublicherweise zur Charakterisierung einer Verteilung

benutzt wird.

Zum Schluss sei bemerkt, dass die Tschebyscheffsche Ungleichung in analoger

Form auch fur multivariate Zufallsvariablen gultig ist. Man macht sich das ge-

nauso klar wie die deskriptive Version; man hat nur uberall Mittelwert durch

Erwartungswert, relative Haufigkeit durch Wahrscheinlichkeit etc. zu ersetzen.

Kennwerte von eindimensionalen Linearkombinationen. Betrachtet man

von einer p-dimensionalen Variablen x mit Zentroid x und positiv definiter Ko-

varianzmatrix S eine Linearkombination y = a′x + b mit Koeffizientenvektor a

und additiver Konstante b, so erhalt man als Mittelwert und Varianz von y die

Werte y = a′x + b und S2y = a′Sa.

Die Linearkombination kann auch dargestellt werden als orthogonale Projek-

tion der Datenpunkte auf den von a erzeugten Unterraum, der mit einer ge-

eigneten Skalierung versehen werden kann, an der die y-Werte direkt ablesbar

sind. Bei der Projektion wird x auf a′x + b = y abgebildet und E(S, x, 1) auf

E(a′Sa, a′x + b, 1), also das Zentroid von x auf den Mittelwert von y und das

Verteilungsellipsoid E(S2y , y, 1

)von x auf das Verteilungsellipsoid von y, also auf

das die eindimensionale Verteilung charakterisierende Intervall um den Mittelwert

mit der Lange 2Sy.

Besonders angenehm ist der Fall standardisierter Linearkombinationen, bei denen

ja die Einheit auf dem eindimensionalen Unterraum genau so lang ist wie die

Einheit im Variablenraum.

Die folgende Graphik illustriert diesen Sachverhalt fur die Daten aus dem schon

mehrfach verwendeten Beispiel und die SLK y = .96x1 + .28x2. Eingezeichnet

sind die die Verteilung charakterisierende Ellipse und ihr Bild bei Projektion auf

den von (.96, .28)′ erzeugten Unterraum – dieses Bild ist gerade das Intervall um

y mit Lange 2Sy.


1

1

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.........................

...................

x1

x2

r

r

rr

rrx

.............................................................................................................................................

......................................................................................................................................................................................................................................................................................................................................................

...........................

...............

...............

...............

...............

...............

...............

...............

...............

..............................................

..............................................

..............................................

..............................................

..............................................

..............................................

..............................................

..............................................

..............................................

..............................................

..............................................

..............................................

..............................................

..............................................................

...................

y

r rr

rrr......

..........................

..........

........

..............................

................

........................................................................................................................................................... y

..........................................................................................................................................................................................................................

Allgemein gilt, dass die Streuung der SLK gleich dem halben’Durchmesser‘ des

Ellipsoids in der Richtung a ist, was auch in der Zeichnung deutlich wird. Als

Durchmesser gilt hier der Abstand von zwei Tangenten (im allgemeineren Fall:

Tangentialraumen) an das Ellipsoid senkrecht zu der betrachteten Richtung.

SLKn konnen also durch ihre Streuungen eine Vorstellung von der Form des

Ellipsoids geben. Sie liefern sozusagen einen Hinweis darauf, wie groß die Streuung

der Punktwolke in der Richtung des Koeffizientenvektors ist.

Multivariate z-Transformationen. Gegeben sei wieder die Situation einer

p-dimensionalen Variablen x mit Zentroid x und positiv definiter Kovarianz-

matrix S. Eine naheliegende Verallgemeinerung des univariaten Begriffs der z-

Transformation wird in der folgenden Definition gegeben:

Eine affine Transformation z = Ax + b mit einer (p× p)-Matrix A heißt multi-

variate z-Transformation, falls z = 0 und V (z) = I gilt.

Die Komponenten von z sollen also standardisiert sein (der Mittelwert soll 0 und

die Varianz 1 sein), und sie sollen daruber hinaus auch noch unkorreliert sein.

Falls es solche Transformationen gibt, so folgt wegen 0 = z = Ax + b die Bezie-

hung b = −Ax, so dass sich die Transformation auch als z = A(x− x) schreiben

lasst. Umgekehrt fuhrt jede Transformation dieser Form zu einer neuen Variable

mit Erwartungswertvektor 0.

Es bleibt die Frage nach moglichen Matrizen A. Hier ist die Gleichung ASA′ = I

zu erfullen, weshalb ein solches A invertierbar sein muss. Eine mogliche Losung

fur A ist bereits bekannt, namlich A = S−1/2. Es gibt also multivariate z-


Transformationen. Die hier beschriebene heißt auch Mahalanobistransformation

(bezuglich S).

Die Form z = S−1/2(x− x) erinnert ubrigens unmittelbar an die eindimensionale

z-Transformation z = (x− x)/SX .

Eine andere Moglichkeit eroffnet der Spektralsatz. Schreibt man S = LL′, wobei

L eine Matrix aus orthogonalen normalisierten Eigenvektoren ist, und setzt A =

L−1, so gilt

ASA′ = L−1LL′L′−1 = I .

Auch so erhalt man also eine mogliche z-Transformation.

Diese letzte Moglichkeit hat eine anschauliche geometrische Beschreibung als Ko-

ordinatenwechsel zu dem neuen affinen Koordinatensystem, dessen Nullpunkt das

Zentroid x ist und dessen Achsen und Einheiten durch die Matrix A−1 = L ge-

geben sind. Die Achsen liegen also in Richtung der Eigenvektoren von S und die

Einheiten haben als Langen gerade die Wurzeln aus den zugehorigen Eigenwerten.

Mit anderen Worten liegen die Einheiten dieses neuen Koordinatensystems dort,

wo die Achsen die Oberflache des die Verteilung charakterisierenden Ellipsoids

E(S, x, 1) schneiden.

Hat man bereits eine Orthonormalbasis aus Eigenvektoren von S in den Spalten

von G gefunden und ist D die Diagonalmatrix der zugehorigen Eigenwerte, so

kann man fur L die Matrix GD1/2 wahlen, was zu A = L−1 = D−1/2G′ fuhrt.

Eine Matrix von orthonormalen Eigenvektoren fur das schon mehrfach verwen-

dete Beispiel ist

G =1√5

(2 −1

1 2

)mit zugehorigen Eigenwerten 2.4 und .4. Als mogliche Matrix L aus normalisierten

Eigenvektoren erhalt man

L =1√5

(2 −1

1 2

)(√2.4 0

0√.4

)=

(√48/5 −

√2/5√

12/5√

8/5

)=

(1.386 −.283

.693 .566

).

Die Matrix A ist dann(√1/2.4 0

0√

1/.4

)1√5

(2 1

−1 2

)=

( √1/3

√1/12

−√

1/2√

2

)=

(.577 .289

−.707 1.414

).


Die folgende Graphik zeigt das neue Koordinatensystem und das Ellipsoid, dane-

ben die z-transformierten Punkte in einem eigenen Koordinatensystem, in dem

die Ellipse zum Einheitskreis geworden ist.

1

1

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.........................

...................

x1

x2

r

r

rr

r

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

.........................................................

.................................................................................................................................................................................................................................................................................................................................................................

.........

..........

..........

.........

..........

.........

.........

.........

.........

.........

......... z1z2

11

. ...

...............

.................................. . . . . . . . . .

. . .. . .

1

1

................................................................................................................................................................................................................................................ ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......................

...................

z1

z2

rrrr

r........

.....

............................ . . . . . . . .

...........

Im multivariaten Fall gibt es also womoglich mehr als eine z-Transformation. Be-

merkenswert ist jedoch, dass fur alle moglichen solchen Transformationen immer

A′A = S−1 gilt. Dies folgt unmittelbar aus der Gleichung ASA′ = I uber die

Umformung S = A−1IA′−1 = (A′A)−1 durch Invertieren.

Feststellung 7. Ist z = A(x − x) eine multivariate z-Transformation einer

Variable x mit Kovarianzmatrix S, so gilt A′A = S−1. �

Mahalanobisdistanz. Als Anwendung der z-Transformation soll nun eine Art

statistische Distanz von Punkten eingefuhrt werden.

Als motivierendes Beispiel soll eine Situation dienen, in der zwei Bewerber sich um

eine Stelle bewerben. Fur die Eignung halt man mehrere Personlichkeitsvariablen

fur relevant: Ordnung (O), Sauberkeit (S), Punktlichkeit (P) und Grundstimmung

(G). Es gibt nun ein Idealprofil der Stelle, das in den Variablen nacheinander die

Werte 4, 3, 3, 4 hat.

Bei den beiden Bewerbern hat man mit einem psychometrischen Test die Werte

in den vier relevanten Variablen festgestellt. Dabei ergaben sich bei Wilhelm

Wohlgemuth die Werte 1, 2, 1, 5, und bei Max Murrisch die Werte 5, 4, 5, 1. Nun

stellt sich die Frage, welcher Bewerber dem Idealprofil naherkommt.

Ein Bild des Sachverhalts konnte folgendermaßen aussehen:


O S P G

1....................................................................................................................................................................................................................................................................................

...................

.................................................................................................................................................................................................................................

.............

.............................................................................................................................................................................

..................................................................................................................................................................................................................................................................................

...............................................................................................................................................................................................................................................................

I

WW

MM

Eine naheliegende Moglichkeit, die Profile mit dem Idealprofil zu vergleichen,

ware nun die folgende: Man stellt das Idealprofil und die Bewerberprofile als

Punkte im vierdimensionalen Raum dar und misst dort den Abstand der beiden

zu den Bewerbern gehorenden Punkten zu dem Idealpunkt. Dann wahlt man den

Bewerber mit dem niedrigeren Abstand aus.

Anders ausgedruckt erhalt man den Abstand, indem man man auf jeder Skala

die Differenz zwischen Bewerberwert und Idealwert bildet, die quadrierten Diffe-

renzen addiert und aus dem Ergebnis die Wurzel zieht.

Diese Moglichkeit ist jedoch aus mehreren Grunden unbefriedigend. Zunachst

hangen die Abstande ganz entscheidend von der Skalierung der Variablen ab.

Wurde man eine der Variablen umskalieren, indem man zum Beispiel die Werte

dort verzehnfacht, so wurde sich die Bedeutung dieser Variablen fur den Abstand

deutlich erhohen. Wenn keine mogliche Skala vor anderen ausgezeichnet ist, ist

das Abstandsmaß also stark davon abhangig, welche der moglichen Skalierungen

nun gerade vorliegt.

Eine Moglichkeit, diesem Problem auszuweichen, ware die, die Skalen vergleich-

bar zu machen, und hier bietet sich die z-Transformation pro Variable an (die

z-Transformation bewirkt ja, dass die Streuung 1 wird, und daher wurden z-

Transformationen aller Variablen dafur sorgen, dass die statistischen Schwankun-

gen auf allen Skalen gleich sind). Solche Transformationen andern jedoch nichts

an den Korrelationen, und das Vorhandensein von Korrelationen ist ein weiteres

Problem bei der geschilderten Vorgehensweise.

Um dies zu verdeutlichen, sei angenommen, dass es nun nur zwei Variablen x1und x2 gibt. Das Idealprofil besitze die Werte 3 und 2. Zwei Bewerber A und B

haben die Profile 2.5, 2.8 und 1.9, 1.5.

Dies fuhrt zu folgenden Darstellungen: links als Profilvergleich, rechts im zweidi-

mensionalen Raum:


x1 x2

1

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

........................

...................

...........................................................................................................................

............................................

.........

.............................................................................

I

A

B

1

1

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.........................

...................

x1

x2

rrr.....

..............

. .. . .

xA

xB

xI

Hier ist der Abstand von xA zu xI kleiner als der von xB zu xI . Dies wurde dafur

sprechen, dass A geeigneter fur die Stelle ist.

Nun sind Idealprofile oft als Durchschnittswert von vielen erfolgreichen Stellenin-

habern gebildet. Wenn dies auch hier so ist, so gehort zu diesen vielen Messungen

auch eine Punktwolke mit zugehoriger Kovarianzmatrix. Das Verteilungsellipsoid

gibt eine Vorstellung von der Form der Punktwolke. In der nachsten Abbildung

ist links zusatzlich die Punktwolke eingetragen, rechts ist dieselbe Situation nach

einer multivariaten z-Transformation dargestellt.

1

1

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.........................

...................

x1

x2

rrrxA

xB

xI

.............................................................................................................................................

......................................................................................................................................................................................................................................................................................................................................................

...........................

1

................................................................................................................................................................................................................................................ ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......................

...................

z1

z2

rr

rzA

zB zI ............................................................

.........................

..........................................................................................................................................................................................................................................................................................................................................................................

Aus beiden Abbildungen geht deutlich hervor, dass B eher in die Population

der erfolgreichen Stelleninhaber passt als A. Das Auswahlkriterium ist also zu

modifizieren, und zwar naheliegenderweise so, dass man auf die Punkte, deren


Abstand zu bestimmen ist, erst eine multivariate z-Transformation anwendet

und danach den euklidischen Abstand bestimmt. Die so gebildete Distanz heißt

auch Mahalanobisdistanz.

Die Mahalanobisdistanz soll nun allgemein fur zwei beliebige Punkte x1 und x2

definiert werden (wobei ubrigens zu fragen ist, ob eine Distanz zwischen belie-

bigen Punkten inhaltlich in der jeweils betrachteten Situation ebenso zwanglos

als statistische Verschiedenheit interpretierbar ist wie die Distanz eines Punktes

zum Mittelwertvektor).

Ist z = Ax + b eine multivariate z-Transformation, so sind die zu x1 und x2

gehorenden z-Werte die Vektoren z1 = Ax1 + b und z2 = Ax2 + b. Der Abstand

dieser Punkte ist dann die Lange des Differenzvektors

z2 − z1 = (Ax2 + b)− (Ax1 + b) = A(x2 − x1) .

Das Quadrat dieser Lange ist mit Feststellung 7 gleich

(A(x2 − x1))′(A(x2 − x1)) = (x2 − x1)

′A′A(x2 − x1) = (x2 − x1)′S−1(x2 − x1)

und hangt damit nicht von der speziellen gewahlten Transformation ab.

Nun kann die Mahalanobisdistanz zwischen zwei Punkten x1 und x2 bezuglich S

definiert werden als ((x2 − x1)

′S−1(x2 − x1))1/2

.

Dass hier die Matrix S explizit erwahnt wird, hat seinen Grund darin, dass in

manchen Situationen unterschiedliche Matrizen geeignet sind, eine Streuung zu

beschreiben. Man hat dann zu spezifizieren, auf welche man sich bezieht.

Auch die Mahalanobistransformation, die ja eine spezielle z-Transformation ist,

kann in der gerade durchgefuhrten Konstruktion verwendet werden, und man

erhalt dann die Aussage, dass die Mahalanobisdistanz zwischen zwei Punkten

gleich der euklidischen Distanz zwischen den Mahalanobis-transformierten Punk-

ten ist.

Interessant ist die Frage, welche Punkte zu x die Mahalanobisdistanz r besitzen.

Die Bedingung hierfur ist

(x− x)′S−1(x− x) = r2 ,

und die Punkte x, die diese Bedingung erfullen, sind offenbar gerade die Punkte

auf der Oberflache des Ellipsoids E(S, x, r). Dieses Ellipsoid selber ist daher

2.4 Hauptkomponenten MS13 88

gerade die Menge der Punkte, deren Mahalanobisdistanz vom Zentroid kleiner

als r ist.

Man hat damit eine enge Beziehung zwischen dem Verteilungsellipsoid und der

Mahalanobisdistanz.

2.4 Hauptkomponenten

Dieses Kapitel ist den Hauptkomponenten und ihren Eigenschaften gewidmet.

Eine Situation mit vielen Variablen ist meist unubersichtlich, so dass der Wunsch

entsteht, ohne allzu viel Informationsverlust die Zahl der Variablen zu reduzie-

ren. Diesem Ziel dient die Hauptkomponentenanalyse. Die Hauptkomponenten

sind Transformationen der Originalvariablen, die in gewisser Weise nacheinander

moglichst viel der Variabilitat erfassen. Alle Hauptkomponenten zusammen ent-

halten die gesamte Information der Originalvariablen, jedoch ist ein großer Teil

der Information (im Sinne der Variabilitat) bereits in den ersten Hauptkompo-

nenten enthalten. Es liegt daher nahe, die letzten Hauptkomponenten nicht weiter

zu berucksichtigen und nur mit den ersten weiterzuarbeiten, womit das Ziel der

Reduktion der Variablen erreicht ist.

Nach der Definition wird sich zeigen, dass die Hauptkomponenten eine Losung

fur viele naheliegende Fragen liefern. Ein Hauptaspekt bei den Untersuchungen

ist der, genauer zu klaren und zu quantifizieren, inwiefern ein großer Teil der

Information bereits durch die ersten Hauptkomponenten erfasst wird, und wieso

es gerechtfertigt ist, sich bei weiteren inhaltlichen Untersuchungen womoglich auf

die ersten Hauptkomponenten zu beschranken.

Es wird sich zeigen, dass dabei die euklidische Distanz im Variablenraum eine

ganz entscheidende Rolle spielt, weshalb eine zentrale Frage die ist, ob diese

Distanz inhaltlich sinnvoll interpretiert werden kann.

Es wird in diesem Kapitel um empirische Verteilungen gehen, wobei aber auch

wieder klar werden sollte, dass entsprechende Verhaltnisse bei theoretischen Ver-

teilungen herrschen.

Definition und erste Eigenschaften. Ausgangspunkt ist eine Situation, in der

p Variablen an einer gewissen Zahl von Versuchspersonen erhoben worden sind.

Die Variablen sind zu einem Vektor x zusammengefasst; dabei ist wie ublich x


das Zentroid und S die Kovarianzmatrix.

An S wird die Forderung der Invertierbarkeit meistens nicht gestellt.

Nach dem Spektralsatz kann man S schreiben als GDG′ mit einer Orthogo-

nalmatrix G und einer Diagonalmatrix D, die in der Diagonale in absteigender

Reihenfolge die Eigenwerte von S enthalt, die wie ublich λ1, . . . , λp heißen sollen.

Die Hauptkomponenten sind dann definiert als die Komponenten des Variablen-

vektors

y = G′(x− x) .

An der Umformung y = G′x−G′x sieht man, dass die Hauptkomponenten durch

eine affine Abbildung gewonnen werden, die wegen der Invertierbarkeit von G′

auch umkehrbar ist: Mit

x = Gy + x

kann x aus y vollstandig rekonstruiert werden. Man hat hier also eine Variablen-

transformation, die sozusagen ohne Informationsverlust ist.

Die Transformation von x zu y heißt auch Hauptkomponententransformation.

Es konnen gleich die wichtigsten Kennwerte der Hauptkomponenten bestimmt

werden: Das Zentroid y ist gleich G′x −G′x = 0, und die Kovarianzmatrix ist

G′SG′′ = G′GDG′G′′ = D. Die Hauptkomponenten sind also unkorreliert.

Die Koeffizientenmatrix der Hauptkomponententransformation ist die Matrix G

(verabredungsgemaß stehen hier, wie bei Koeffizientenmatrizen ublich, die Koef-

fizienten zur Bildung einer neuen Variable in der entsprechenden Spalte).

Die j-te Hauptkomponente ist also eine Linearkombination der Variablen xi, de-

ren Koeffizienten in der j-ten Spalte der Matrix G stehen. Zu einem Vektor

zusammengefasst liefern diese Koeffizienten damit gerade einen Eigenvektor zum

j-ten Eigenwert von S, der auch noch die Lange 1 besitzt, da G Orthogonalma-

trix ist. Die Hauptkomponenten sind also standardisierte Linearkombinationen

der xi.

Die additiven Konstanten bei den Hauptkomponenten sind so gewahlt, dass deren

Mittelwerte gleich 0 sind (wegen y = 0). Dies hat den Vorteil, dass man dem Wert

eines Probanden auf einer Hauptkomponente direkt am Vorzeichen ansehen kann,

ob er uber- oder unterdurchschnittlich ist.


Feststellung 1. Die Hauptkomponenten sind standardisierte Linearkombinatio-

nen, die zentriert und untereinander unkorreliert sind, und die als Varianzen die

Eigenwerte von S besitzen. �

Will man ganz genau sein, so musste man eigentlich formulieren, dass die Kovari-

anzen der Hauptkomponenten untereinander alle 0 sind, denn in dem Fall, dass D

auch Nullen in der Diagonale besitzt, sind die Varianzen der letzten Hauptkom-

ponenten 0, so dass Korrelationen gar nicht definiert sind. Es sollen in solchen

Situationen jedoch auch in Zukunft die glatteren, wenn auch nicht ganz richti-

gen Formulierungen bevorzugt werden, da Missverstandnisse kaum zu befurchten

sind.

In einem Beispiel sollen nun die Hauptkomponenten bestimmt werden. Die Da-

tenmatrix ist dabei die schon mehrfach verwendete Matrix2 1

4 3

1 1

5 2

3 3

,

die die Daten von 5 Probanden in zwei Variablen enthalt. Fur diese Matrix wurden

schon

x =

(3

2

)und S =

(2 .8

.8 .8

)errechnet. Die Eigenwerte waren 2.4 und .4 mit zugehorigen Eigenvektoren

√1/5 (2, 1)′

und√

1/5 (−1, 2)′, die hier schon auf 1 normiert sind. Man kann daher

G =1√5

(2 −1

1 2

)wahlen und erhalt die Hauptkomponententransformation

y = G′(x− x) =1√5

(2 1

−1 2

)((x1x2

)−(

3

2

))=

(2√

5/5√

5/5

−√

5/5 2√

5/5

)(x1x2

)−(

8√

5/5√5/5

)=

(0.894 0.447

−0.447 0.894

)(x1x2

)−(

3.578

0.447

),

wobei die letzte Zeile gerundet ist. Ausgeschrieben erhalt man

y1 = (2√

5/5)x1 + (√

5/5)x2 − 8√

5/5

y2 = (−√

5/5)x1 + (2√

5/5)x2 −√

5/5 ,


oder gerundet

y1 = 0.894x1 + 0.447x2 − 3.578

y2 = −0.447x1 + 0.894x2 − 0.447 .

Man beachte, dass die Summe der quadrierten Koeffizienten gleich 1 ist.

Die Matrix der Hauptkomponenten der 5 Probanden ist dann−1.342 −0.447

1.342 0.447

−2.236 0

1.789 −0.894

0.447 0.894

.

Geometrisch kann man die Transformation interpretieren als einen Koordinaten-

wechsel zu dem neuen affinen Koordinatensystem, dessen Nullpunkt das Zentroid

x ist, dessen Achsen parallel sind zu den Eigenvektoren von S (den Spalten von

G) und dessen Einheiten auch im alten Koordinatensystem die Lange 1 besitzen.

Die folgende Abbildung zeigt das neue Koordinatensystem in dem alten System

und getrennt fur sich mit den betrachteten Daten. Die die Verteilungsellipsen

sind mit eingezeichnet.

1

1

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.........................

...................

x1

x2

r

r

rr

r

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

.........................................................

.................................................................................................................................................................................................................................................................................................................................................................

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

y1y2

1

1

........

.............................

.......................................................................................

...........

.

1

1

................................................................................................................................................................................................................................................ ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......................

...................

y1

y2

rrr

r

r................

..........

...............

.........

......................................................................................

Es ist lehrreich, diese Transformation mit der teilweise ahnlichen multivariaten

z-Transformation zu vergleichen, die durch die Matrix D−1/2G′ definiert ist. Die

folgende Abbildung zeigt diese z-Transformation.


1

1

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.........................

...................

x1

x2

r

r

rr

r

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

.........................................................

.................................................................................................................................................................................................................................................................................................................................................................

.........

..........

..........

.........

..........

.........

.........

.........

.........

.........

......... z1z2

11

........

.............................

.......................................................................................

...........

.

1

1

................................................................................................................................................................................................................................................ ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......................

...................

z1

z2

rrrr

r...............

.......

................................................................................

..................

Der Unterschied zwischen den beiden Transformationen liegt nur darin, dass die z-

Transformation an die Hauptkomponententransformation noch eine Reskalierung

der neuen Variablen anschließt, die deren Varianzen zu 1 macht.

In den Abbildungen zur z-Transformation sieht man, dass diese Reskalierung

insbesondere eine Anderung der Distanzen zur Folge hat. Bei der Hauptkom-

ponententransformation bleiben hingegen wegen der Orthogonalitat von G die

Distanzen erhalten:

Feststellung 2. Sind x1 und x2 zwei Punkte und y1 und y2 ihre Bilder unter

der Hauptkomponententransformation, so gilt

‖y2 − y1‖ = ‖x2 − x1‖ .

Dies folgt aus

‖y2 − y1‖2 = ‖G′(x2 − x)−G′(x1 − x)‖2 = ‖G′x2 −G′x1‖2

= ‖G′(x2 − x1)‖2 = (G′(x2 − x1))′(G′(x2 − x1))

= (x2 − x1)′G′′G′(x2 − x1) = (x2 − x1)

′(x2 − x1)

= ‖x2 − x1‖2 . �

Ein wesentliches Kennzeichen der Hauptkomponententransformation ist also, dass

hier die’Metrik‘ erhalten bleibt, das heißt, dass Abstande sich bei der Transfor-

mation nicht verandern. Es wird sich zeigen, dass diese Metrik fur die unter-

schiedlichen Zugange zur Hauptkomponentenanalyse und fur ihre Interpretation

zentral ist.


Dies bedeutet insbesondere, dass es wunschenswert, wenn nicht sogar unerlasslich

ist, dass die hier vorgenommene euklidische Abstandsbildung inhaltlich sinnvoll

und interpretierbar ist. Dass zwei Punktepaare gleichen Abstand besitzen, sollte

also auch bedeuten, dass die entsprechenden Unterschiede inhaltlich gleich (oder

zumindest vergleichbar) sind.

Diese Forderung impliziert insbesondere, dass die Skalen der einzelnen Variablen

nicht unabhangig voneinander geandert werden konnen, sondern vielmehr aufein-

ander bezogen sein sollen (eine isolierte Umskalierung nur einer Variable lasst die

Gleichheitsrelation von Abstanden nicht invariant; wenn also zwei Punktepaare

vor der Umskalierung gleichen Abstand hatten, so muss das danach keineswegs

so sein). In Situationen, in denen die Skalen der einzelnen Variablen nicht mitein-

ander zusammenhangen, in denen vielmehr ohne inhaltlich erkennbaren Schaden

diese Skalen unterschiedlich linear transformiert werden durfen, ist die Interpreta-

tion der Hauptkomponenten in der Art, wie sie im Folgenden besprochen werden

soll, nicht unproblematisch.

Dass das euklidische Abstandsmaß auch in Fallen, in denen die Variablen auf der

gleichen Skala gemessen werden, nicht unbedingt inhaltlich sinnvoll sein muss,

zeigt folgendes Beispiel: Zur Auswahl von Infanteristen werden die Lange des

linken (x1) und des rechten (x2) Beins erhoben, beide in cm. Der Durchschnitt

der beiden Variablen sei (90, 90)′, dieser Durchschnitt sei auch das Idealprofil (was

hier inhaltlich nicht unangemessen ist). Dann hat ein Kandidat mit (93, 94)′ von

diesem Durchschnitt den gleichen euklidischen Abstand wie einer mit (93, 86)′.

Inhaltlich wird aber die Tauglichkeit der beiden sehr unterschiedlich sein, was

sich sehr deutlich in der Mahalanobisdistanz zeigen durfte. In diesem Fall ist im

Hinblick auf den Auswahlaspekt die Verwendung der Mahalanobisdistanz wohl

angemessener als die der euklidischen Distanz.

Bei der Frage, ob in einer bestimmten Situation die Verwendung der euklidischen

Distanz sinnvoll ist, sollte man also keinesfalls schematisch vorgehen und die

Entscheidung beispielsweise oberflachlich nur auf Grund von Skaleneigenschaf-

ten treffen. Vielmehr muss sich die Wahl in jedem Einzelfall an dem jeweiligen

inhaltlichen Zweck orientieren.

Zum Schluss ist noch ein Kommentar zur Definition notig. Eigentlich ist diese

so genannte Definition gar keine, da sie uneindeutig ist. Im Falle unterschiedli-

cher Eigenwerte kann zum Beispiel jede Spalte von G durch ihr Negatives ersetzt

werden, das ja auch Eigenvektor zum entsprechenden Eigenwert ist. Der Fall mul-

tipler Eigenwerte ist noch uneindeutiger, hier konnen diejenigen Spalten von G,


die die Eigenvektoren zu einem multiplen Eigenwert enthalten, durch irgendeine

andere Orthonormalbasis des entsprechenden Eigenraums ersetzt werden.

Fur praktische Zwecke haben diese Uneindeutigkeiten jedoch kaum negative Kon-

sequenzen. Was die Definition angeht, so wird man korrekter so formulieren: Jede

Transformation von der Form y = G′(x − x), bei der die Spalten von G eine

Orthonormalbasis aus Eigenvektoren von S zu Eigenwerten in absteigender Rei-

henfolge bilden, heißt Hauptkomponententransformation, und die Komponenten

von y heißen Hauptkomponenten.

Weiter oben war schon davon die Rede, dass die Hauptkomponententransforma-

tion in vielen Fallen inhaltlich sinnvoll ist, ohne dass dies genauer ausgefuhrt

wurde. Die folgenden Abschnitte sollen nun zeigen, dass die Hauptkomponenten

eine Losung fur viele unterschiedliche formal oder inhaltlich motivierte Fragestel-

lungen bieten. Eine zentrale Rolle spielt dabei der Abstandsbegriff, weshalb ein

wichtiger Aspekt immer der der Interpretierbarkeit des euklidischen Abstands

von Datenpunkten ist, also die Frage nach dem Bezug der einzelnen Skalen zu-

einander.

Charakterisierung durch varianzmaximierende Eigenschaften. Die Haupt-

komponenten besitzen die Eigenschaft, aus den Daten in gewisser Weise sukzessiv

ein Maximum an Varianz herauszuziehen. Durch diese Eigenschaft lassen sie sich

in alternativer Weise auch charakterisieren. Damit sind die Themen dieses Ab-

schnitts umrissen.

Ausgangspunkt der Uberlegungen ist der Wunsch, mit Hilfe von Linearkombina-

tionen der Daten moglichst viel von deren’Verschiedenheit‘, genauer von deren

Variation zu erfassen. Es ist sinnvoll, sich auf standardisierte Linearkombinatio-

nen (SLKn) zu beschranken, denn diese haben den Vorteil, dass man ihnen an

ihrer Varianz direkt ansehen kann, wieviel von der Datenvariation erfasst wird,

da die Varianz hier als Varianz der Daten in der Richtung des Koeffizientenvek-

tors gedeutet werden kann. Die Varianzen von SLKn haben gewissermaßen die

gleiche Einheit wie die Variation der multivariaten Daten. Da jede Linearkombi-

nation sich durch eine einfache Umskalierung zu einer SLK machen lasst, ist die

Einschrankung auf SLKn auch keine wesentliche Einschrankung.

Im Hinblick auf die Absicht, moglichst viel Variation der Daten zu erfassen,

konnen also SLKn direkt mit Hilfe ihrer Varianz bezuglich ihrer Tauglichkeit

verglichen werden.


Damit ist die Frage die, welche SLK eine maximale Varianz besitzt. Von der geo-

metrischen Anschauung her kann als Antwort vermutet werden, dass die großte

Varianz in Richtung des Eigenvektors zum großten Eigenwert liegt. Ubersetzt

heißt dies, dass die erste Hauptkomponente maximale Varianz unter den SLKn

besitzen sollte.

Zur Auffindung einer Losung soll die Aufgabenstellung formal aufgeschrieben

werden. Ist dazu∑aixi + b = a′x + b eine solche SLK der xi, ist also ‖a‖ = 1,

so ist deren Varianz gleich a′Sa. Die Aufgabe ist damit die, einen Vektor a der

Lange 1 zu finden, der den Ausdruck

a′Sa

maximiert.

Die Losungen dieses Problems sind bekanntlich die Eigenvektoren a der Lange

1 zum großten Eigenwert von S, wobei der Maximalwert von a′Sa der großte

Eigenwert ist.

Eine spezielle mogliche Losung des Ausgangsproblems ist also die erste Haupt-

komponente; diese hat zusatzlich noch die angenehme Eigenschaft, zentriert zu

sein.

Umgekehrt kann man durch Ubergang zu einer alternativen Version der Haupt-

komponenten jede zentrierte Losung des Problems der Varianzmaximierung zur

ersten Hauptkomponente machen. Hierzu sei eine beliebige Losung vorgegeben,

die zusatzlich zentriert ist. Dann kann man den Koeffizientenvektor zu einer Or-

thonormalbasis des Eigenraums von S zum großten Eigenwert erganzen und dann

die ersten Spalten von G durch diese Basis ersetzen. Die modifizierte Matrix

erfullt dann ebenfalls die Eigenschaften des Spektralsatzes und kann folglich zur

Definition von alternativen Hauptkomponenten dienen. Da die Losung als zen-

triert vorausgesetzt war, muß sie dann mit der ersten modifizierten Hauptkom-

ponente ubereinstimmen.

Zusammenfassend ergibt sich so

Feststellung 3. Die erste Hauptkomponente ist eine Losung der Aufgabe, eine

SLK mit Mittelwert 0 zu finden, die maximale Varianz besitzt.

Hat man umgekehrt eine Losung der Aufgabe, eine SLK mit Mittelwert 0 zu

finden, die maximale Varianz besitzt, so gibt es eine Hauptkomponententransfor-

mation, deren erste Hauptkomponente diese Losung ist. �


Die Feststellung zeigt, dass sich die erste Hauptkomponente ohne Bezug auf den

Spektralsatz auch durch die angegebene varianzmaximierende Eigenschaft cha-

rakterisieren und (in dem oben erlauterten Sinn) definieren lasst.

Analog erhalt man, dass die letzte Hauptkomponente eine entsprechende varianz-

minimierende Eigenschaft hat und sich dadurch auch charakterisieren lasst.

Auch die zweite und die weiteren Hauptkomponenten lassen sich durch eine va-

rianzmaximierende Eigenschaft charakterisieren.

Sinnvollerweise wird man bei der Aufgabe, weitere SLKn zu suchen, die moglichst

große Varianz haben, darauf achten, dass der Varianzanteil, den sich die erste

Hauptkomponente nimmt, gewissermaßen nicht mehrfach erfasst wird. Dies er-

reicht man dadurch, dass man fur weitere SLKn fordert, dass sie zu der bereits

gefundenen unkorreliert sein sollen, denn dann tragen die SLKn untereinander

im Sinne der linearen Regression nichts zur gegenseitigen Varianzaufklarung bei.

Man kann also jetzt folgende Aufgabe formulieren:

Finde eine SLK, die unter allen zu der ersten Hauptkomponente unkorrelierten

SLKn maximale Varianz besitzt!

Ist der im ersten Schritt gefundene Koeffizientenvektor a1, so ist jetzt ein weiterer

Koeffizientenvektor a mit ‖a‖ = 1 gesucht, der die Varianz a′Sa maximiert unter

der zusatzlichen Nebenbedingung, dass die Kovarianz a′Sa1 = 0 sein soll.

Genau wie oben erkennt man, dass eine Losung dieser Aufgabe die zweite Haupt-

komponente ist, und dass es zu jeder Losung, die zusatzlich Mittelwert 0 hat,

eine modifizierte Hauptkomponententransformation gibt, bei der die Losung ge-

rade die zweite Hauptkomponente ist. Die maximale Varianz ist dann der zweite

Eigenwert λ2 (der unter Umstanden mit λ1 ubereinstimmen kann).

Entsprechend kann man die weiteren Hauptkomponenten charakterisieren durch

die Forderung, varianzmaximierende SLKn mit Mittelwert 0 zu sein, wobei jeweils

die Kovarianz mit allen vorhergehenden Hauptkomponenten 0 sein soll.

Im dem Ausnahmefall, dass 0 mehrfacher Eigenwert von S ist, muss hierbei aller-

dings noch die Zusatzforderung gestellt werden, dass Koeffizientenvektoren von

SLKn mit Varianz 0 senkrecht aufeinander stehen sollen. Ist 0 Eigenwert von

S, so ist auch die Forderung nach Nullkorrelationen durch die zu ersetzen, dass

die entsprechenden Kovarianzen gleich 0 sind (die in diesem Fall nicht korrekte


obige Formulierung wurde wieder nur aus Grunden der sprachlichen Glattheit

gewahlt).

Das Ergebnis soll noch einmal zusammengefasst werden, wobei zur Vereinfachung

der Formulierung der gerade behandelte Fall, dass 0 Eigenwert ist, ausgeklammert

wird.

Feststellung 4. Ist die Kovarianzmatrix S von p Variablen xi invertierbar und

q ≤ p, so bilden die ersten q Hauptkomponenten eine Losung der Aufgabe, q

zentrierte standardisierte Linearkombinationen yi der Variablen zu finden, die

die Eigenschaft haben, dass yi maximale Varianz unter allen SLKn hat, die zu

allen yj mit j < i unkorreliert sind.

Umgekehrt besteht jede Losung dieser Aufgabe aus den ersten q Hauptkompo-

nenten einer geeignet gewahlten Hauptkomponententransformation. �

Setzt man q = p, so erkennt man, dass die Hauptkomponenten alternativ auch

durch die Forderung definiert werden konnen, sukzessiv mit unkorrelierten zen-

trierten SLKn ein jeweiliges Maximum an Varianz aus den ursprunglichen Varia-

blen abzuschopfen.

Ganz analog liefern die Hauptkomponenten in umgekehrter Reihenfolge sukzes-

sive Minima der Varianzen.

Bemerkenswert bei der varianzmaximierenden Konstruktion ist die Tatsache, dass

die Koeffizientenvektoren der gefundenen Hauptkomponenten senkrecht aufeinan-

der stehen. Dies folgt keineswegs allein aus deren Unkorreliertheit, denn allgemein

fallen bei SLKn die Eigenschaften der Unkorreliertheit und der Orthogonalitat

der Koeffizientenvektoren nicht zusammen.

Beispielsweise sind die Originalvariablen im allgemeinen nicht unkorreliert, wah-

rend die Koeffizientenvektoren, mit denen sie als standardisierte Linearkombi-

nationen gewonnen werden konnen, die Einheitsvektoren ei sind, die nach Kon-

struktion alle senkrecht zueinander sind.

Die Begriffe der Unkorreliertheit und der Orthogonalitat haben ja auch im Va-

riablenraum keine Beziehung zueinander, vielmehr fallen sie bei kovarianztreuen

Darstellungen zusammen.

Nun soll noch die inhaltliche Bedeutung der Varianzmaximierung (bzw. Minimie-

rung) diskutiert werden. Fur sich genommen erscheint zunachst die Maximierung


der Varianz nicht als inhaltlich interessantes oder anzustrebendes Ziel. Nun ha-

ben aber Streuungen von SLKn geometrisch die Bedeutung eines Maßes fur die

Ausdehnung der multidimensionalen Punktwolke in der durch den Koeffizienten-

vektor angegebenen Richtung. Wenn dann die Ausdehnungen in unterschiedliche

Richtungen inhaltlich sinnvoll vergleichbar sind, kann auch die Frage, in welcher

Richtung die Ausdehnung maximal ist, einen inhaltlichen Sinn bekommen.

Dies ist insbesondere dann der Fall, wenn man Abstande der Punkte unterein-

ander inhaltlich als Ausmaß der Verschiedenheit der Versuchspersonen deuten

kann. Dann entspricht eine SLK mit maximaler Varianz einer Richtung, in der

die Punktwolke maximale Ausdehnung hat, in der also die Unterschiede zwischen

den Versuchspersonen am deutlichsten hervortreten.

In einem solchen Fall ist folglich die erste Hauptkomponente eine Linearkombi-

nation der Variablen mit Mittelwert 0, in der sich die Unterschiede zwischen den

Versuchspersonen am deutlichsten zeigen.

Die zweite Hauptkomponente soll zur ersten unkorreliert sein, was man so in-

terpretieren kann, dass (jedenfalls im linearen Sinn) die erste Hauptkomponente

nichts zur Vorhersage der zweiten leistet. Die zweite liefert in diesem Sinne dann

nur Information, die nicht schon in der ersten Hauptkomponente enthalten ist.

Entsprechend ware die Interpretation der zweiten Hauptkomponente dann die

einer Linearkombination, die die Unterschiede, die nichts mit der ersten Haupt-

komponente zu tun haben (im Sinne einer linearen Regression), am deutlichsten

zeigt.

Analoges gilt fur die weiteren Hauptkomponenten.

Es ist dabei hervorzuheben, dass die Angemessenheit dieser Interpretationen we-

sentlich davon abhangt, ob die euklidischen Distanzen im p-dimensionalen Raum

inhaltlich als Maße fur die Unterschiedlichkeit der Personen benutzt werden kann.

Die Tatsache, dass die Mittelwerte 0 sein sollen, hat den angenehmen Nebeneffekt,

dass man schon am Vorzeichen sieht, ob eine Versuchsperson in den betrachteten

Hauptkomponenten uber- oder unterdurchschnittliche Werte haben.

Geometrie der Punktwolke. Ganz eng mit dem eben beschriebenen Zugang

verwandt ist ein weiterer, der nach der Ausdehnung der Punktwolke der Daten in

unterschiedlichen Richtungen fragt. Die erste Frage ist hier die, in welcher Rich-

tung die Punktwolke maximale Ausdehnung besitzt. Prazisiert man den Ausdruck


’Ausdehnung‘ naheliegenderweise wieder durch die Varianz, so ist dies die Frage,

fur welche Richtung die zugehorige SLK maximale Varianz besitzt.

Diese Frage wurde im vorangehenden Abschnitt schon beantwortet: es ist die zur

ersten Hauptkomponente gehorende Richtung. Genauer muss dies so formuliert

werden: jede Richtung, fur die dies gilt, kann zur Richtung gemacht werden, die

zur ersten Hauptkomponente einer geeigneten Hauptkomponententransformation

gehort. Die Varianz in dieser Richtung ist der großte Eigenwert von S und die

Richtung selbst ist Eigenvektor dazu.

Soweit besteht kein Unterschied zum vorigen Abschnitt. Ein Unterschied tritt

jedoch dann auf, wenn man zur Charakterisierung der zweiten Hauptkomponente

jetzt die Frage stellt, in welcher Richtung die Varianz maximal ist, wenn man sich

nur noch auf Richtungen beschrankt, die zu der gefundenen ersten senkrecht sind.

Die Forderung nach Orthogonalitat der Richtungen ist vom geometrischen Stand-

punkt her angemessener als die oben benutzte nach Unkorreliertheit, die ihrerseits

vom statistischen Standpunkt her sinnvoller erscheint.

Bemerkenswert ist es, dass die Losung auch hier wieder die zweite Hauptkompo-

nente ist, so dass sich trotz unterschiedlicher Fragestellungen die gleichen Losun-

gen ergeben.

Man erhalt dann ganz analog auch die weiteren Hauptkomponenten durch die

Forderung nach Varianzmaximierung in jeweils einer Richtung, die zu allen bis-

herigen Richtungen senkrecht ist, und kann die Hauptkomponenten insgesamt

auch wieder durch diese Forderungen charakterisieren.

Formal andert sich im Vergleich zur Fragestellung des letzten Abschnitts die

Nebenbedingung, was hier am Beispiel der zweiten Hauptkomponente illustriert

werden soll. Ist die optimale erste Losung schon gefunden und durch einen Koeffi-

zientenvektor a1 gegeben, so wird im zweiten Schritt ein Koeffizientenvektor a der

Lange 1 gesucht, der a′Sa maximiert unter der Nebenbedingung <a, a1> = 0;

diese Nebenbedingung ersetzt die fruhere Nebenbedinung a′Sa1 = 0.

Die Losung der entsprechenden Aufgaben ist bekannt und wird in der folgenden

Feststellung zusammengefasst; die neue Nebenbedingung hat dabei den schonen

Nebeneffekt, dass die Sonderformulierungen fur den Fall singularer Kovarianzma-

trizen entbehrlich werden.

Feststellung 5. Ist S die Kovarianzmatrix von p Variablen xi und q ≤ p, so


bilden die ersten q Hauptkomponenten eine Losung der Aufgabe, q zentrierte

standardisierte Linearkombinationen yi der Variablen mit Koeffizientenvektoren

ai zu finden, die die Eigenschaft haben, dass yi maximale Varianz unter allen

SLKn hat, deren Koeffizientenvektoren orthogonal zu allen aj mit j < i sind.

Umgekehrt besteht jede Losung dieser Aufgabe aus den ersten q Hauptkompo-

nenten einer geeignet gewahlten Hauptkomponententransformation. �

Auch hier hat man eine analoge Aussage fur die minimalen Varianzen.

Ob die Losung auch inhaltlich interessant ist, hangt wieder davon ab, ob es sinn-

voll ist, Ausdehnungen der Punktwolke in unterschiedlichen Richtungen zu ver-

gleichen.

Partitionierung der Hauptkomponenten. In den folgenden Abschnitten wird

haufig der Vektor y der Hauptkomponenten in zwei Teilvektoren partitioniert,

namlich in einen Teilvektor der als wichtig erachteten ersten Hauptkomponenten

und in einen zweiten der eher vernachlassigbaren letzten. In diesem Abschnitt

soll die Notation fur derartige Partitionierungen bereitgestellt werden.

Die Gesichtspunkte, nach denen die Trennung in zwei Teile vorgenommen wird,

beziehen sich meist auf so etwas wie’aufgeklarte Varianz‘ und werden anschlie-

ßend besprochen.

Fur ein festes q < p soll genauer der Vektor y zerteilt werden in den q-Vektor

y1 der (wichtigen) ersten q Hauptkomponenten und den (p − q)-Vektor y2 der

(unwichtigen) letzten p− q. Damit gilt y = (y1,y2), genauer: y = (y1′,y2

′)′ oder

y =

(y1

y2

).

Entsprechend wird die Matrix G zerlegt in die Teilmatrizen G1 der ersten q und

G2 der letzten p− q Spalten. Damit hat man die Partitionierung

G = (G1|G2) .

Dass G aus orthonormalen Vektoren besteht, druckt sich aus in

G1′G1 = Iq und G2

′G2 = I(p−q) .

Da G′ sich dann zusammensetzt aus dem oberen Teil G1′ und dem unteren

Teil G2′, kann man die Hauptkomponententransformation y = G′(x − x) auch


partitioniert schreiben als (y1

y2

)=

(G1′

G2′

)(x− x)

und in die Teile

y1 = G1′(x− x) und y2 = G2

′(x− x)

zerlegen. Die Rucktransformation x = Gy + x schreibt sich wegen

Gy =(G1|G2

)(y1

y2

)= G1y1 + G2y2

auch als

x = G1y1 + G2y2 + x .

In gewisser Weise werden dadurch uber die Hauptkomponenten auch die Origi-

naldaten zerlegt in einen wichtigen Anteil G1y1 + x, der aus den ersten Haupt-

komponenten rekonstruierbar ist, und einen unwichtigen Rest G2y2.

Schließlich zerlegt man die Matrix D der Eigenwerte analog zu

D =

(D1 0

0 D2

),

wobei D1 und D2 die Diagonalmatrizen mit den ersten q und den letzten p − qEigenwerten von S sind.

Da D die Kovarianzmatrix von y ist, ist D1 die Kovarianzmatrix von y1 und

D2 die von y2. Mit der Gleichung x = G1y1 + G2y2 + x kann man nun die

Kovarianzmatrix S von x auf neue Weise ausdrucken: Da die Matrix der Kova-

rianzen von y1 und y2 gleich 0 ist, gilt dasselbe fur die Matrix der Kovarianzen

von G1y1 und G2y2, weshalb die Kovarianzmatrix von x einfach die Summe der

Kovarianzmatrizen der Summanden G1y1 und G2y2 ist. Es folgt

S = G1D1G1′ + G2D2G2

′ .

Hier wird die Kovarianzmatrix S zerlegt in zwei Summanden, fur die in gewisser

Weise die beiden Teilvektoren der Hauptkomponenten verantwortlich sind. Man

erhalt diese Gleichung ubrigens alternativ auch direkt, indem man auf der rechten

Seite der Gleichung S = GDG′ die partitionierten Matrizen einsetzt und das

Produkt ausrechnet.


Die Matrix G1D1G1′ ist dann die Kovarianzmatrix des

’wichtigen‘ Anteils der

Daten, wahrend G2D2G2′ die des

’vernachlassigbaren‘ Teils ist.

Man macht sich auch leicht klar, dass die angegebene Zerlegung auch eine additive

Zerlegung in Matrizen mit den q großten und p− q kleinsten Eigenwerten ist; in

der Tat sind die Eigenwerte von G1D1G1′ gerade die q großten Eigenwerte von

S und die von G2D2G2′ die restlichen kleinen.

Schließlich ist die Matrix G1D1G1′ eine Matrix, die zu S unter den positiv se-

midefiniten Matrizen vom Rang ≤ q minimalen Abstand hat – der quadrierte

Abstand der beiden Matrizen ist die Summe der letzten p− q quadrierten Eigen-

werte von S.

Varianzmaximierung in mehreren Dimensionen. Es wurde schon unter-

sucht, in welcher Richtung die’Varianz‘ der mehrdimensionalen Punktwolke ma-

ximal ist, und wie man die Information uber die Lage eines Punktes in Bezug auf

diese Richtung ausdrucken kann. Bei der Prazisierung dieser Fragestellung spiel-

ten orthogonale Projektionen eine entscheidende Rolle, die Frage wurde namlich

als die Frage aufgefasst, welches die Richtung ist, in der die orthogonal auf die-

se Richtung projizierten Punkte die großte Varianz haben. Dabei war wesent-

lich, dass die Koordinatisierung der Geraden in dieser Richtung mit der Metrik

des Gesamtraumes kompatibel war, dass also eine Einheit in der Koordinatisie-

rung genauso groß war wie die Einheiten der Dimensionen des Gesamtraums. Die

Prazisierung kondensiert sich also im Begriff der SLK.

Als Losung des ersten Problems ergab sich die Richtung des ersten Eigenvektors

der Kovarianzmatrix S, die Losung des zweiten Problems, namlich die einer ein-

dimensionalen Information uber die Lage in Bezug auf diese Richtung, war die

erste Hauptkomponente.

Nun soll das Problem auf mehrere, namlich q Dimensionen verallgemeinert wer-

den. Der erste Teil des Problems ist es dann, einen q-dimensionalen Unterraum

zu finden, der die Eigenschaft hat, dass die auf ihn orthogonal projizierte Punkt-

wolke maximale Varianz besitzt. Der zweite Teil des Problems besteht darin,

die Information uber die Lage der projizierten Punkte in einem q-dimensionalen

Vektor zusammenzufassen.

Die Losung dieses Problems ermoglicht dann eine Datenreduktion: Mit moglichst

wenig Informationsverlust (im noch zu prazisierenden Sinn) werden die Proban-

den statt in p Dimensionen nun in q Dimensionen beschrieben.


Nach den Ergebnissen des vorangegangenen Absatzes ist zu erwarten, dass der

optimale Unterraum von den ersten q Eigenvektoren von S aufgespannt wird, und

dass die ersten q Hauptkomponenten dann eine optimale Beschreibung liefern.

Zunachst ist allerdings zu prazisieren, was unter der Varianz der projizierten

Punkte verstanden werden soll. Zu diesem Zweck soll die Spur der Kovarianz-

matrix der projizierten Punkte benutzt werden, die ja die durchschnittliche qua-

drierte Abweichung vom Zentroid angibt.

Eine orthogonale Projektion wird durch eine Matrix P beschrieben, die die Ei-

genschaften P2 = P und P′ = P besitzt. Der Rang von P ist die Dimension des

Unterraums V , auf den projiziert wird.

Die Varianz (im Sinne der Spur) der durch P auf einen Unterraum V projizierten

Datenpunkte ist die Spur von PSP′. Wegen der Eigenschaften der Spur und von

P ergibt sich

Spur(PSP′) = Spur(P′PS) = Spur(P2S) = Spur(PS) .

Bekanntlich sind die orthogonalen Projektionen P, fur die diese Spur maximal

wird, gerade die, deren Bild von q orthogonalen Eigenvektoren zu den großten

Eigenwerten von S aufgespannt wird. Solche orthogonalen Eigenvektoren enthalt

beispielsweise die (p× q)-Matrix G1, die aus den ersten q Spalten von G besteht.

Die Spur ist dann die Summe der q großten Eigenwerte von S.

Die Projektion P beschreibt man nun sinnvollerweise mit Hilfe von G1; die Spal-

ten dieser Matrix wahlt man dabei als Orthonormalbasis des Bildes V von P.

Wegen (G1′G1) = I vereinfacht sich P zu

P = G1(G1′G1)−1G1

′ = G1G1′ ,

wahrend die Koordinaten eines projizierten Punktes mit Hilfe von

(G1′G1)−1G1

′ = G1′

ermittelt werden. Es folgt, dass diese Koordinaten bis auf (unwesentliche) additive

Konstanten die ersten q Hauptkomponenten sind.

Das auf diese Weise konstruierte Koordinatensystem auf dem Unterraum V hat

zusatzlich die Eigenschaft, dass die Einheiten der Achsen alle auch im Gesam-

traum die Lange 1 besitzen, was direkt aus G1′G1 = I folgt. Die

’Metrik‘ dieses

Koordinatensystems wird also sozusagen von der des umgebenden Raums geerbt.


Es stellt sich nun noch die Frage nach der Eindeutigkeit dieser Losung. Da ein

optimaler Unterraum V immer das Erzeugnis von q orthogonalen Eigenvekto-

ren zu den großten Eigenwerten ist, ist dieses optimale V dann eindeutig, wenn

der q-te und der (q + 1)-te Eigenwert verschieden sind. Insbesondere liegt dann

Eindeutigkeit vor, wenn alle Eigenwerte verschieden sind.

Feststellung 6. Eine Losung der Aufgabe, einen q-dimensionalen Unterraum

V zu finden, der die Eigenschaft hat, dass die Varianz (im Sinne der Spur) der

auf ihn orthogonal projizierten Datenpunkte maximal ist, ist der von den ersten

q Eigenvektoren von S aufgespannte Unterraum. Die maximale Varianz ist die

Summe der ersten q Eigenwerte von S. Die Basis von V kann so gewahlt werden,

dass die Koordinaten eines projizierten Punktes bis auf additive Konstanten die

ersten q Hauptkomponenten sind. �

Vollig analog zeigt man, dass die entsprechende Minimierungsaufgabe, eine or-

thogonale Projektion auf einen Unterraum zu finden, deren Ergebnis minimale

Varianz hat, als Ergebnis die Projektion auf den von den letzten Eigenvektoren

aufgespannten Unterraum hat, wobei die Varianz gleich der Summe der entspre-

chenden Eigenwerte ist.

Die Maximierungs- und die Minimierungsaufgabe haben daruber hinaus einen

engen Zusammenhang: Ist eine orthogonale Projektion P auf V gegeben, und ist

Q = I − P die orthogonale Projektion auf das orthogonale Komplement von V ,

so gilt:

Spur(PS) + Spur(QS) = Spur((P + Q)S) = Spur(IS) = Spur(S) ,

so dass sich die Varianzen der Projektionen auf orthogonal komplementare Un-

terraume gerade zur Gesamtvarianz erganzen. Ist daher dann P eine Projektion

auf einen q-dimensionalen Unterraum mit maximaler Varianz, so ist gleichzei-

tig Q eine Projektion auf einen (p− q)-dimensionalen Unterraum mit minimaler

Varianz und umgekehrt.

Wahlt man als Unterraume die, die durch die ersten bzw. letzten Spalten von G

aufgespannt werden, so sind diese Unterraume gerade wechselseitig orthogonale

Komplemente.

Approximierende Unterraume. Eng mit der Aufgabe des letzten Abschnitts

verwandt ist das Problem, einen q-dimensionalen affinen Unterraum zu finden,

der die Punktwolke moglichst gut reprasentiert in dem Sinne, dass der durch-

schnittliche quadrierte Abstand der Punkte von diesem Unterraum minimal ist.


Ist im Eingangsbeispiel q = 1, so ist hier eine Gerade gesucht, die in diesem

Sinne moglichst dicht bei den Punkten liegt; in der folgenden Abbildung ist eine

beliebige Gerade mit den dazu gehorenden Abstanden eingezeichnet. Man beachte

den Unterschied dieser Problemstellung zu der der linearen Regression, der die

Richtung betrifft, in der die Abstande gemessen werden. Bei der Regression ist

diese Richtung parallel zur zweiten Achse, hier ist die Richtung senkrecht zur

gesuchten Gerade.

1

1

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.........................

...................

x1

x2

r

r

rr

r

..................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

rr

r

rr...............

...............

.............................

......................................................................................

.........................................................

Als erstes stellt sich die Frage, was genau unter einer Projektion auf einen affinen

Unterraum zu verstehen ist und wie eine solche Projektion beschrieben wird.

Die Projektion eines Punktes x soll naheliegenderweise wieder der Punkt des

Unterraums sein, der von x minimalen Abstand hat. Ob es einen eindeutigen

derartigen Punkt gibt, ist dabei naturlich auch zu klaren.

Nun andern sich die Abstande von Punkten nicht, wenn man sie um den glei-

chen Vektor verschiebt. Daher kann diese Aufgabe gelost werden, indem zuerst

alles so verschoben wird, dass der verschobene Unterraum den Nullpunkt enthalt,

also zum linearen Unterraum wird. Hier kann die Aufgabe durch eine orthogo-

nale Projektion gelost werden, und anschließend ist nur die Verschiebung wieder

ruckgangig zu machen.

Ist folglich ein affiner Unterraum V + z gegeben durch einen linearen Unterraum

V und einen Verschiebungsvektor z, ist P die orthogonale Projektion auf V und

x ein zu projizierender Punkt, so kann der affine Unterraum durch den Vektor −z

in den Nullpunkt zuruckverschoben werden, wobei x nach x−z verschoben wird.

Dieser Punkt wird auf P(x − z) projiziert und die Verschiebung zuruck liefert


dann als Gesamtergebnis P(x− z) + z = Px + (z−Pz) = Px + Qz, wenn Q wie

ublich die Projektion auf das orthogonale Komplement von V ist. Die Projektion

auf den affinen Unterraum ist daher eine affine Abbildung.

Nun kommt es auf die Abstande an, also auf die Langen der Differenzvektoren von

den Originalpunkten zu ihren Projektionen. Der Differenzvektor fur den Punkt x

ist x−(Px+Qz) = Qx−Qz. Die Lange des Differenzvektors ist also gleichzeitig

der Abstand von Qx zu Qz, und die Summe – oder aquivalent den Durchschnitt

– dieser quadrierten Abstande gilt es zu minimieren.

Der Durchschnitt der quadrierten Abstande ist nach Feststellung 3 aus Abschnitt

2.2 gleich der Summe der Spur der Kovarianzmatrix der Qxi und des quadrier-

ten Abstands des Zentroids der Qxi von Qz. Die Kovarianzmatrix der Qxi ist

aber gerade die Matrix QSQ′, deren Spur bekanntlich Spur(QS) ist, wahrend

das Zentroid der Qxi gleich Qx ist. Der gesuchte durchschnittliche quadrierte

Abstand ist also gleich

Spur(QS) + ‖Q(x− z)‖2 .

Es soll zunachst der zweite Summand betrachtet werden. Er ist immer nichtne-

gativ und kann bestenfalls gleich 0 werden. Dies ist genau dann der Fall, wenn

x − z im Kern von Q liegt, also in V . Dies wiederum ist genau dann der Fall,

wenn sich x als z + v schreiben lasst fur ein v ∈ V , mit anderen Worten, wenn

x in dem affinen Unterraum V + z liegt.

Der erste Summand wird dann minimal, wenn Q die Projektion auf den von den

letzten p−q Eigenvektoren aufgespannten Unterraum ist; dies ist genau dann der

Fall, wenn das orthogonale Komplement V dieses Raumes der von den ersten q

Eigenvektoren aufgespannte Raum ist.

Insgesamt ergibt sich also:

Feststellung 7. Eine Losung des Problems, einen affinen Unterraum der Di-

mension q zu finden, zu dem die Daten minimalen durchschnittlichen quadrierten

Abstand haben, ist der affine Unterraum V + x, der parallel ist zu dem durch

die ersten q Eigenvektoren aufgespannten linearen Raum V und das Zentroid x

enthalt. Der minimale durchschnittliche quadrierte Abstand ist die Summe der

letzten p− q Eigenwerte von S. �

Die Losung ist wieder dann eindeutig, wenn alle Eigenwerte, oder sogar nur der

q-te und der (q + 1)-te, verschieden sind.


Auch bei der hier betrachteten Aufgabe spielt der Abstandsbegriff eine zentrale

Rolle; die Optimalitat ist ja gerade dadurch definiert, dass der durchschnittliche

quadrierte Abstand minimiert wird.

Zum Abschluss soll noch untersucht werden, wie sich der gefundene Unterraum

und die Projektion auf ihn in dem neuen durch die Hauptkomponenten gegebenen

Koordinatensystem darstellen. Es werden die Bezeichnungen aus dem Abschnitt

uber die Partitionierung der Hauptkomponenten verwendet.

In den neuen Koordinaten entspricht nun dem optimalen Unterraum gerade das

Bild von V + x unter der Hauptkomponententransformation, also unter der durch

den linearen Anteil G′ und die Verschiebung −G′x gegebenen affinen Abbildung.

Dies Bild ist also wieder ein affiner Unterraum, und zwar der, dessen zugehoriger

linearer Unterraum U das Bild von V unter G′ ist, und dessen Verschiebungs-

vektor gleich G′x−G′x = 0 ist; das Bild U + 0 = U ist daher sogar ein linearer

Unterraum, der nun bestimmt werden soll.

Der Unterraum V besitzt als Basis die Spalten von G1. Diese Basis wird durch

G′ auf die Spalten der Matrix G′G1 abgebildet, die gerade aus den ersten q

Einheitsvektoren besteht. Damit ist U der von den ersten q Einheitsvektoren

erzeugte Unterraum, mit anderen Worten der, der dadurch gekennzeichnet ist,

dass die letzten p− q Koordinaten seiner Elemente alle 0 sind.

Zur Untersuchung der Projektion sei x ein moglicher Datenpunkt und x? der am

nachsten bei x gelegene Punkt aus V − x. Die Bilder dieser Punkte unter der

Hauptkomponententransformation seien y und y?.

Da sich nach Feststellung 2 Distanzen bei der Transformation nicht andern, ist

y? der Punkt im Bild U von V + x, der von y den kleinsten Abstand besitzt.

Man erhalt also y? aus y durch die orthogonale Projektion auf U , die sich hier

besonders einfach schreiben lasst: man setzt einfach die letzten p−q Koordinaten

von y auf 0.

Um dies einzusehen, schreibt man y = (y1,y2). Offenbar liegt (y1,0) in U ,

außerdem ist die Differenz y− (y1,0) = (y1,y2)− (y1,0) = (0,y2) senkrecht zu

U , so dass tatsachlich y? = (y1,0) gilt.

Zusammenfassend hat man also:

Feststellung 8. In den zur Hauptkomponententransformation gehorenden Ko-

ordinaten entspricht dem optimalen Unterraum V + x der lineare Unterraum U ,


der das Erzeugnis der ersten q Einheitsvektoren ist.

Der am nachsten an einem Punkt x mit Koordinaten y = (y1, . . . , yp)′ gelegene

Punkt x? aus V + x hat die Koordinaten y? = (y1, . . . , yq, 0, . . . , 0)′. Man erhalt

y? aus y durch orthogonale Projektion auf U . �

Als Illustration soll wieder das Eingangsbeispiel dienen.

Ist hier q = 1, so ist die Gerade gesucht, die von den Datenpunkten kleinsten

durchschnittlichen quadrierten Abstand hat. Dies ist die Gerade in Richtung des

ersten Eigenvektors durch das Zentroid. Die (minimale) durchschnittliche qua-

drierte Abweichung ist der zweite Eigenwert, namlich .4. Im Hauptkomponenten-

koordinatensystem ist diese optimale Gerade dann die erste Koordinatenachse

und die Projektion ist die Projektion auf diese Achse, die gerade die zweite Ko-

ordinate durch 0 ersetzt. Zur Verdeutlichung ist links auch das Zentroid mit

eingezeichnet.

1

1

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.........................

...................

x1

x2

xr

r

rr

rr

................................

................................

..

................................................................

................................................................

pp

p

pp

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

............................

......................

1

1

................................................................................................................................................................................................................................................ ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......................

...................

y1

y2

rrr

r

rp pp ppp................................

..................................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.

................................................................

Fur spatere Zwecke soll noch die gerade gefundene Moglichkeit festgehalten wer-

den, fur einen Punkt x den Punkt x? zu finden, der zu x in dem optimalen Unter-

raum den geringsten Abstand hat. Diese Moglichkeit besteht darin, die Losung

y? = (y1,0) im Hauptkomponentensystem zuruckzutransformieren. Man erhalt

dann mit der partitionierten Schreibweise

x? = Gy? + x = G1y1 + G20 + x = G1y1 + x .

Den Punkt x? erhalt man also auch mit Hilfe einer affinen Abbildung aus dem

Vektor y1 der ersten q Hauptkomponenten von x.


Optimale Vorhersagefunktionen. In diesem Abschnitt geht es darum, die

Originalvariablen mit Hilfe von q weiteren Variablen moglichst gut vorherzusagen.

Es wird sich zeigen, dass die durchschnittliche quadrierte Abweichung bei jeder

Vorhersage mindestens gleich der Summe der letzten p − q Eigenwerte von S

ist, und dass die Vorhersage mit Hilfe der ersten q Hauptkomponenten diese

Grenze tatsachlich erreicht. Die ersten q Hauptkomponenten erweisen sich damit

als optimale Pradiktoren.

Zu prazisieren ist zunachst, dass nur Vorhersagen mit Hilfe von affinen Abbil-

dungen betrachtet werden; die durchschnittliche quadrierte Abweichung ist die

durschnittliche quadrierte euklidische Distanz zwischen den tatsachlichen Werten

und den vorhergesagen Werten.

Bei gegebenen Pradiktoren kann die optimale Vorhersage dann durch die multiva-

riate multiple Regression ermittelt werden, wobei die durchschnittliche quadrierte

Abweichung gleichzeitig die Fehlervarianz ist.

Zunachst soll nun ermittelt werden, wie gut eine Vorhersage mit Hilfe von q

Variablen bestenfalls sein kann.

Da die Vorhersage mit Hilfe einer affinen Abbildung gemacht wird, liegen alle

vorhergesagten Punkte im Bild des gesamten Rq unter dieser affinen Abbildung,

also in einem affinen Unterraum mit einer Dimension ≤ q.

Die durchschnittliche quadrierte Abweichung ist dann der durchschnittliche qua-

drierte Abstand d der Originalpunkte zu den vorhergesagten Punkten, die alle in

dem affinen Unterraum liegen mussen. Vergleicht man dies mit dem durchschnitt-

lichen quadrierten Abstand d1 der Originalpunkte zu dem affinen Unterraum im

Sinne der orthogonalen Projektion, so ist d ≥ d1, da ja die orthogonale Projekti-

on gerade die am nachsten gelegenen Punkte des Unterraums liefert. Mit d1 ist d

dann mindestens gleich der Summe der letzten p− q Eigenwerte, wie Feststellung

7 gezeigt hat.

Damit ist das erste Ziel dieses Abschnitts erreicht, namlich die Klarung der Frage,

wie gut (im Sinne des Fehlers) eine Vorhersage der Originalvariablen mit Hilfe

von q anderen Variablen bestenfalls sein kann.

Als nachstes ist die Frage zu klaren, ob sich q Variablen finden lassen, mit denen

man dieses (bislang nur theoretische) Optimum erreichen kann.

Eine Losung sind die ersten q Hauptkomponenten y1, fur die sich ja schon gezeigt


hat, dass der durchschnittliche quadrierte Abstand der durch sie mit Hilfe der

affinen Abbildung

G1y1 + x

konstruierten Punkte von den Originalpunkten gleich der Summe der letzten p−qEigenwerte ist.

Da auch die optimale Vorhersage mit Hilfe der multiplen multivariaten Regression

bestenfalls diesen durchschnittlichen quadrierten Abstand erreichen kann, folgt,

dass mit der Gleichung

x = G1y1 + x

bereits die Regressionsgleichung von x auf y1 gefunden sein muss.

Sind insbesondere die letzten Eigenwerte alle 0, so gelingt die Vorhersage fehler-

frei.

Dass die angegebene Gleichung tatsachlich die Regressionsgleichung ist, kann

naturlich auch leicht direkt gezeigt werden, was nun erganzend geschehen soll.

Zur Aufstellung der Normalengleichungen braucht man die Kovarianzmatrix der

Pradiktoren (hier also der ersten q Hauptkomponenten) und die Matrix der Ko-

varianzen zwischen den Pradiktoren und den Kriteriumsvariablen (hier den Ori-

ginalvariablen). Die Kovarianzmatrix von y1 ist die Matrix D1, wahrend sich aus

y = G′x−G′x die Matrix der Kovarianzen von y und x zu G′S = G′GDG′ =

DG′ errechnet. Die Matrix der Kovarianzen von y1 und x besteht aus den ersten q

Zeilen dieser Matrix; mit Hilfe der Partitionierung errechnet man diese Teilmatrix

zu D1G1′. Die Normalengleichungen fur die Matrix B der Regressionsgewichte

lauten daher

D1B′ = D1G1

′

und besitzen offenbar die Losung B = G1.

Der Konstantenvektor der Regression ist x, da das Zentroid der Hauptkompo-

nenten gleich 0 ist. Als Vorhersagefunktion erhalt man daher

x = G1y1 + x ,

wenn x den Vektor der Vorhersagen xi bezeichnet.

In der Tat war also die oben angegeben Gleichung bereits die Regressionsglei-

chung.


Es sollen gleich noch einige Zusatzanmerkungen zur Regression gemacht werden,

die an die schon bekannte Gleichung

x = G1y1 + G2y2 + x = (G1y1 + x) + G2y2

anknupfen, die die Rekonstruktion der Originalvariablen x aus den Hauptkom-

ponenten y = (y1,y2) beschreibt.

Die Vorhersage kann man sich nun so vorstellen, dass man bei der Rucktransfor-

mation der Hauptkomponenten in Originalvariablen die letzten p− q Hauptkom-

ponenten auf 0 setzt.

Den Vorhersagefehler e = x − x errechnet man nun leicht zu e = G2y2, dieser

Fehler ist also gewissermaßen die Rucktransformation des zweiten Teils y2 der

Hauptkomponenten.

Es soll nun noch die aufgeklarte Varianz und die Fehlervarianz im Sinne der

Spur bestimmt werden. Die aufgeklarte Varianz ist die Spur von G1D1G1′, was

gleichzeitig die Spur von G1′G1D1 = I D1 = D1 ist, also die Summe der ersten q

Eigenwerte. Die Fehlervarianz ist daher die Summe der letzten p− q Eigenwerte.

Die Rechnung fuhrt also in der Tat zu dem schon bekannten Ergebnis.

Als Erganzung sollen noch die Kovarianzmatrizen von Vorhersage und Fehler

genauer betrachtet werden. Die Kovarianzmatrix der Vorhersage ist G1D1G1′,

wahrend die Kovarianzmatrix des Fehlers G2y2 gleich G2D2G2′ ist. Die Zer-

legung der Kovarianzmatrix von x nimmt daher fur die multivariate multiple

Regression auf die ersten q Hauptkomponenten die Form

S = G1D1G1′ + G2D2G2

′

an (diese Gleichung ist ubrigens schon aus dem Abschnitt uber die Partitionierung

der Hauptkomponenten bekannt). Berucksichtigt man noch, dass G1D11/2 die

Matrix der ersten normalisierten Eigenvektoren ist, so erkennt man, dass es sich

bei G1D1G1′ gerade um eine positiv semidefinite Matrix vom Rang ≤ q handelt,

die S optimal approximiert. Die Kovarianzmatrix der Vorhersage von x durch die

ersten q Hauptkomponenten ist also gleichzeitig eine am nachsten bei S gelegene

positiv semidefinite Matrix vom Rang ≤ q.

Das Ergebnis dieses Abschnitts soll noch kurz zusammengefasst werden:

Feststellung 9. Eine Losung des Problems, zu den Variablen x geeignete weitere

q Variablen zu finden, die x im Sinne einer multivariaten multiplen linearen Re-

gression optimal vorhersagen, sind die ersten q Hauptkomponenten y1. Die (dann


minimale) Varianz des zugehorigen Vorhersagefehlers (im Sinne der Spur) ist die

Summe der letzten p− q Eigenwerte von S. Die Vorhersage selber ist

x = G1y1 + x . �

Naturlich sind die ersten Hauptkomponenten nicht die einzige mogliche Losung

– jede (invertierbare affine) Variablentransformation erzeugt aus ihnen weitere

mogliche Losungen, da sich ja bei solchen Transformationen der Pradiktoren die

Gute der Regression nicht andert. Derartige’Rotationen‘ sollen spater noch ge-

nauer untersucht werden.

Es ist noch der Hinweis angebracht, dass die Fehlervarianz mit Hilfe der qua-

drierten euklidischen Abweichungen definiert ist, so dass auch hier der euklidische

Abstand bei der Formulierung des Problems eine entscheidende Rolle spielt.

Datenreduktion. Nun kann auch das Ziel der Datenreduktion genauer geklart

werden. Ziel einer Datenreduktion ist es, bei moglichst kleinem Fehler die Pro-

banden mit weniger Dimensionen zu beschreiben, genauer: mit q Dimensionen,

wobei q < p vorgegeben ist.

In dieser Zielbeschreibung stecken mehrere Unklarheiten, namlich zunachst die,

welche Methoden zur Datenreduktion zuzulassen sind, und dann die, wie der Feh-

ler zu definieren ist. Diese Unklarheiten sind zunachst durch genauere Absprachen

zu beseitigen.

Eine Datenreduktion soll darin bestehen, dass man auf die Daten eine affine

Abbildung anwendet, deren Bildbereich Rq eine geringere Dimension q hat als

die Anzahl p der Variablen. Wie kann man dann den Fehler quantifizieren, der

durch den Verlust von Information wohl meist vorhanden sein wird? Man wird

versuchen, die ursprunglichen Daten aus den reduzierten Daten zu rekonstruieren,

was meistens nicht vollstandig gelingen wird, und den Fehler dann mit Hilfe eines

geeigneten Abweichungsmaßes definieren.

Hier soll der Fall untersucht werden, dass zur Rekonstruktion der Daten auch

wieder nur affine Abbildungen herangezogen werden durfen, und dass zusatzlich

der Fehler als durchschnittlicher quadrierter Abstand der Originaldaten von den

rekonstruierten Daten definiert wird.

Ob diese Fehlerdefinition inhaltlich angemessen ist, hangt entscheidend wieder

davon ab, ob der euklidische Abstand im Variablenraum ein inhaltlich vertretba-

res Maß fur die Verschiedenheit von Punkten ist.


Trifft man jedoch diese Vereinbarungen, so erweisen sich wieder die ersten q

Hauptkomponenten als optimal.

Offenbar kommt namlich als Methode der Rekonstruktion nur die multivariate

multiple (lineare) Regression in Frage, denn sie minimiert gerade das angegebene

Kriterium. Nun hat sich jedoch im letzten Abschnitt schon gezeigt, dass bei belie-

bigen Pradiktoren der durchschnittliche quadrierte Fehler mindestens die Summe

der letzten p−q Eigenwerte von S ist, und dass dieses Minimum durch die ersten q

Hauptkomponenten erreicht wird. Da diese Hauptkomponenten aus den Original-

daten durch die affine Abbildung y1 = G1′(x− x) gewonnen werden, erfullen sie

auch die erste Einschrankung und stellen damit insgesamt eine optimale Losung

dar.

Feststellung 10. Die Aufgabe einer optimalen Datenreduktion auf q Dimensio-

nen bestehe darin, dass die Datenreduktion durch eine affine Abbildung erreicht

werden soll, wobei die Gute gemessen wird mit der durchschnittlichen quadrier-

ten Abweichung der Originaldaten zu rekonstruierten Daten, die mit Hilfe einer

geeigneten affinen Transformation aus den reduzierten Daten gewonnen werden.

Diese Aufgabe besitzt als eine Losung die ersten q Hauptkomponenten, wobei die

minimale durchschnittliche quadrierte Abweichung die Summe der letzten p − qEigenwerte von S ist. �

Nun sollen noch die Abstande zwischen Punkten nach dem Ubergang zu den

ersten q Hauptkomponenten betrachtet werden. Hierzu seien y11 und y12 die

Vektoren der ersten q Hauptkomponenten fur zwei Personen, x∗1 = G1y11 + x

und x∗2 = G1y12 + x die zugehorigen rekonstruierten Datenpunkte. Allgemein

gilt zunachst

‖G1y1‖2 = (G1y1)′(G1y1) = y1′G1

′G1y1 = y1′y1 = ‖y1‖2 ,

da G1′G1 = I ist. Wegen

x∗2 − x∗1 = (G1y12 + x)− (G1y11 + x) = G1(y12 − y11)

ist dann

‖x∗2 − x∗1‖2 = ‖G1(y12 − y11)‖

2 = ‖y12 − y11‖2 ,

der Abstand der reduzierten Datenpunkte x∗i ist also gleich dem Abstand der y1i.

Da die x∗i im Durchschnitt moglichst nahe bei den xi liegen, sollte der Abstand

der x∗i und damit der der y1i einigermaßen den Abstand der xi wiederspiegeln

(man macht sich ubrigens leicht klar, dass der Abstand der x∗i immer hochstens so


groß ist wie der der xi). Insgesamt sollte man also die Ahnlichkeit von Personen

auch noch einigermaßen gut an den Abstanden ihrer y1-Werte ablesen konnen.

Hat man das Ziel, in einer gegebenen Situation eine Datenreduktion im hier

erorterten Sinn vorzunehmen, so wird normalerweise die Anzahl q der Variablen

nach der Reduktion nicht von Beginn an feststehen. Bei den beiden Teilzielen,

die man verfolgt, namlich dem, die Anzahl der neuen Variablen moglichst gering

zu halten, und dem, den Fehler, der mit der Reduktion verbunden ist, nicht allzu

groß werden zu lassen, kommt man dem einen nur naher, wenn man an dem

anderen Abstriche macht.

Man muss hier also einen Kompromiss schließen. Als Maß fur die Große des

Fehlers nimmt man sinnvollerweise die Gesamtvarianz des Vorhersagefehlers bei

der Rekonstruktion der Originaldaten aus den reduzierten Daten mit Hilfe einer

multiplen Regression. Dieser Fehler ist dabei mit der Gesamtvarianz der Daten

zu vergleichen.

Nun kann man – wenn man sinnvollerweise die Hauptkomponenten fur die Re-

duktion benutzt – mit Hilfe der Eigenwerte der Kovarianzmatrix S den fur die je-

weiligen Zwecke angemessenen Kompromiss leicht finden. Das Maß fur den Fehler

ist ja dann gerade die Summe der Eigenwerte der nicht berucksichtigten Haupt-

komponenten, die zur Beurteilung in Beziehung zu setzen ist zur Gesamtvarianz

der Daten, also zur Spur der Kovarianzmatrix, die gleichzeitig die Summe aller

Eigenwerte ist.

Hauptkomponentenanalyse und Faktorenanalyse. An dieser Stelle liegt es

nahe, die Hauptkomponentenanalyse zur Faktorenanalyse in Beziehung zu setzen.

Schreibt man im letzten Abschnitt die Regressionsgleichung mit G2y2 = e als

x = (G1y1 + x) + e ,

so erhalt man eine Gleichung, die stark an die Grundgleichung der Faktorenana-

lyse erinnert – G1 entspricht dabei der Ladungsmatrix und y1 dem Vektor der

Faktoren.

Allerdings gibt es hier eine Menge Verschiedenheiten. Zunachst sind die ober-

flachlich auffalligen Unterschiede die, dass noch die Verschiebung x auftaucht,

und dass die Varianzen der Faktoren und Variablen nicht auf 1 normiert sind.

Diese Unterschiede sind jedoch unwesentlich, denn startet man die Hauptkom-

ponentenanalyse mit z-transformierten Variablen und skaliert anschließend die


Faktoren um (bei kompensatorischer Anderung der Elemente von G1), so fallen

diese Unterschiede weg.

Wesentlicher ist schon der Unterschied im Fehler. Zwar ist auch hier der Fehler-

vektor e mit den’Faktoren‘ y1 unkorreliert, da ja y1 und y2 unkorreliert sind,

jedoch ist die Kovarianzmatrix des Fehlers nicht notwendig eine Diagonalmatrix.

Ganz entscheidend ist jedoch der folgende Unterschied: Die Hauptkomponenten

sind’konkrete‘ Variablen, die sich aus den Originaldaten mit Hilfe einer affinen

Abbildung errechnen lassen, wahrend die Faktoren der Faktorenanalyse hypo-

thetische Variablen sind, die gar nicht beobachtet, sondern bestenfalls geschatzt

werden konnen, wenn sie denn uberhaupt existieren.

Uberhaupt ist die Sichtweise bei den beiden Verfahren geradezu entgegengesetzt,

was das Verhaltnis der Faktoren/Hauptkomponenten zu den Variablen angeht.

Bei der Faktorenanalyse sind die Faktoren die eigentlich wichtigen Variablen;

die beobachtbaren Variablen werden bis auf einen Fehler von ihnen bestimmt

und konnen als sekundar angesehen werden. Bei der Hauptkomponentenanalyse

hingegen bildet man aus den gegebenen Variablen zweckgebunden neue Variablen,

deren Status eher zweitrangig ist, wenn sie auch ihren Zweck gut erfullen mogen.

Hauptkomponenten und kovarianztreue Darstellung. In diesem Abschnitt

geht es um eine weitere geometrische Veranschaulichung der Verhaltnisse bei der

Hauptkomponentenanalyse, und zwar im Rahmen einer kovarianztreuen Darstel-

lung.

Es wird sich erweisen, dass die Hauptkomponenten geometrisch die gegebenen

Variablen in noch zu prazisierender Weise optimal’approximieren‘.

Ausgangspunkt ist eine kovarianztreue Darstellung der gegebenen Variablen als

Vektoren, deren Lange gleich der Streuung der zugehorigen Variablen ist, wahrend

der Winkel zwischen zwei Vektoren der Korrelation zwischen den zugehorigen Va-

riablen entspricht, was genauer bedeutet, dass sein Kosinus gleich der Korrelation

ist. Die reprasentierenden Vektoren sollen die gleichen Bezeichnungen xi haben

wie die betrachteten Variablen. Die Bezeichnung mag etwas ungewohnt sein, ist

jedoch hier deshalb sinnvoll, weil die naheliegendere Bezeichnung xi schon fur

den Datenvektor der i-ten Versuchsperson reserviert ist; die Bezeichnung der Va-

riablen und der sie reprasentierenden Vektoren durch das gleiche Symbol sollte

dagegen eigentlich nicht zu Verwirrung fuhren.


Die beiden Variablen des Eingangsbeispiels hatten die Kovarianzmatrix

S =

(2 .8

.8 .8

),

woraus sich eine Korrelation von .8/√

2 · .8 = 0.6325 ergibt. Der zugehorige Win-

kel ist 50.77◦, wahrend die Streuungen der beiden Variablen 1.414 und 0.894 sind.

Eine mogliche kovarianztreue Darstellung findet sich in der folgenden Graphik,

in der rechts auch ein Maßstab angegeben ist.

...........................................................................................................................................................................................................................................................................................................................................................................

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...............................

.......

.......

.......

....

.......

.......

.......

.......

.......

...

.......

.......

.......

.......

.......

...

.......

.......

.......

.......

.......

...

0 1 2............................................................................................................................................................................................................................................................................... ...............................................

........................................................

........................................................

.........................................................

x1

x2

Ziel ist es jetzt, eine Gerade durch den Nullpunkt zu finden, die moglichst nahe

bei diesen Vektoren liegt, was wieder so prazisiert werden soll, dass die Summe

der quadrierten Abstande der Vektorspitzen von der Geraden moglichst klein sein

soll.

Die gesuchte Gerade soll das’Bundel‘ von Vektoren xi also moglichst gut re-

prasentieren; hilfreich ist vielleicht das Bild eines weitgehend zugeklappten, etwas

demolierten Regenschirms, von dem die Streben bekannt sind, wahrend der Stiel

gesucht ist.

Fur das Eingangsbeispiel sind in dem folgenden Diagramm zwei Geraden mit den

zugehorigen Abstanden eingezeichnet – hier ist offensichtlich die Gerade g1 den

beiden Vektoren naher als g2.

............................................................................................................................................................................................................................................................................... ...................

......................................................................................................................................................................................................

x1

x2

................................................

................................................

................................................

................................................

................................................

................................................

................................................

................................................

................................................

................................................

................................................

......

............................................................................................

...............................................................................

g1

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

..

......................................................................................................................................................................................................................................................

..............................................................................................................................

g2


Die Aufgabe soll nun formal gefasst werden. Bezeichnet man mit xi den auf die

Gerade projizierten Vektor xi und mit ei den Differenzvektor xi− xi, so gilt nach

dem Satz des Pythagoras

‖xi‖2 = ‖ xi‖2 + ‖ei‖2 ,

wie es die folgende Abbildung fur x2 zeigt.

............................................................................................................................................................................................................................................................................... ...................

......................................................................................................................................................................................................

x1

x2

x2e2

..........................................................................................................................................................................................................................

................................................

................................................

................................................

................................................

................................................

................................................

................................................

................................................

................................................

................................................

................................................

......

g

Addiert man auf und berucksichtigt man, dass die Summe der Varianzen der

Variablen die Spur von S ist, so erhalt man

Spur(S) =∑‖xi‖2 =

∑‖ xi‖2 +

∑‖ei‖2 .

Da die Spur von S eine feste Zahl ist, ist folglich die Aufgabe, die Summe der qua-

drierten Abstande ‖ei‖2 zu minimieren, aquivalent zu der Aufgabe, die Summe

der projizierten Vektorlangen ‖ xi‖2 zu maximieren.

Der Raum, in dem sich die kovarianztreue Darstellung befindet, braucht nicht

genauer spezifiziert werden. Als seine Dimension sei m angenommen.

Nun bezeichne X die (m× p)-Matrix, die spaltenweise die xi enthalt. Die unge-

wohnte Bezeichnung wird wiederum deshalb gewahlt, weil das Symbol X schon

fur die Datenmatrix vergeben ist. Die Tatsache, dass die xi eine kovarianztreue

Darstellung bilden, schreibt sich dann als X ′X = S.

Die Richtung einer zu untersuchenden Geraden sei durch einen Vektor u gegeben,

fur den ‖u‖ = 1 angenommen werden kann. Die Projektion von xi auf die durch

u gegebene Gerade liefert dann xi = <xi, u> u, die quadrierte Lange ist

‖ xi‖2 = ‖<xi, u> u‖2 = <xi, u>2 ‖u‖2 = <xi, u>

2 .

Der Vektor X ′u enthalt als Komponenten gerade die Skalarprodukte <xi, u>,

weshalb die Summe der ‖ xi‖2 gleich

‖X ′u‖2 = (X ′u)′(X ′u) = u′XX ′u


ist. Dies nun ist zu maximieren. Die Losung ist bekannt: Das Maximum ist der

großte Eigenwert vonXX ′ und wird erreicht genau von Eigenvektoren u zu diesem

Eigenwert.

Nun kann man die bekannten Beziehungen zwischen den Eigenwerten und Eigen-

vektoren von XX ′ einerseits und X ′X = S andererseits verwenden und erhalt

als Maximum den großten Eigenwert λ1 von S, wahrend die Eigenvektoren zu

diesem Eigenwert gerade die Xz sind, wobei z Eigenvektor von S zum Eigenwert

λ1 ist.

Ein Beispiel fur einen solchen Vektor z ist die erste Spalte g1 von G, und anderer-

seits kann jeder Eigenvektor z der Lange 1 zum großten Eigenwert als erste Spalte

der Matrix G einer modifizierten Hauptkomponententransformation dienen.

Da die Spalten der Matrix X die Variablen xi reprasentieren, reprasentiert Xg1

als Linearkombination dieser Variablen mit Koeffizienten in g1 gerade die erste

Hauptkomponente y1.

Die Losungen u des Problems sind also gerade die Vielfachen von Reprasentanten

von moglichen ersten Hauptkomponenten mit Lange 1. Auf die sowieso nur aus

technischen Grunden gestellte Forderung, dass die Lange des Richtungsvektors 1

sein soll, kann man nun auch wieder verzichten.

Hervorzuheben ist die geometrisch nicht unerwartete Tatsache, dass die optimale

Losung Linearkombination der Originalvariablen ist.

Erganzend ist noch die Summe der quadrierten Abweichungen von der optimalen

Geraden zu bestimmen. Da diese sich mit der Summe λ1 der quadrierten proji-

zierten Langen zur Spur von S addiert, also zur Summe aller Eigenwerte, ist die

Summe der quadrierten Abweichungen die Summe der verbleibenden Eigenwerte

λ2, . . . , λp.

Das Ergebnis wird zusammengefasst in

Feststellung 11. Die Aufgabe, in einer kovarianztreuen Darstellung der Varia-

blen x1, . . . , xp mit Kovarianzmatrix S eine Gerade zu finden, zu der die Summe

der quadrierten Abstande der die Variablen xi reprasentierenden Vektoren mi-

nimal ist, hat als Losung genau die Geraden, deren Richtungen durch mogliche

erste Hauptkomponenten gegeben sind.

Die Summe der quadrierten Abstande ist dann die Summe der letzten p − 1


Eigenwerte von S. �

Auch bei dieser Aufgabe spielt die Skalierung der Variablen, und damit wieder die

Metrik des Variablenraums, eine entscheidende Rolle: die optimale Gerade wird

sich andern, wenn sich die Skalierungen andern, was sich in unterschiedlichen

Verlangerungen oder Verkurzungen der einzelnen Vektoren bei gleichbleibenden

Winkeln ausdruckt.

Wie gewohnt kann man nun die Frage anschließen, fur welche weitere Gerade die

Summe der quadrierten Abstande minimal ist unter der Nebenbedingung, dass

die neue Gerade auf der schon gefundenen senkrecht stehen soll.

Mit der gleichen Argumentation wie oben findet man hier als eine mogliche

Losung die Gerade, deren Richtung durch die zweite Hauptkomponente bestimmt

ist. Umgekehrt lasst sich jede Losung in dieser Weise aus der zweiten Hauptkom-

ponente einer gegebenenfalls modifizierten Hauptkomponententransformation ge-

winnen.

Es ist klar, wie der Prozess nun weiter fortgesetzt werden kann. Interessant ist die

Frage, wann er zu beenden ist. Wahrend er fur regulare Kovarianzmatrizen bis

zur p-ten sukzessiven Losung weitergefuhrt werden kann, ist es fur eine Matrix S

vom Rang r < p nicht sinnvoll, weitere Fragen nach Auffindung der r-ten Losung

zu stellen.

Da namlich die zu den ersten r Hauptkomponenten gehorenden Vektoren linear

unabhangig (z.B. weil orthogonal) sind und außerdem Linearkombinationen der

Variablenvektoren xi, spannen sie bereits den Unterraum auf, der alle xi enthalt,

denn dieser ist auch nur r-dimensional (Feststellung 9 aus Kapitel 2.2).

Eine (r+1)-te Richtung, die zu den ersten r gefundenen und damit auch zu allen

xi senkrecht ist, ist offenbar nicht mehr sinnvoll zur Fortfuhrung des Prozesses, der

damit an dieser Stelle abzubrechen ist (alle Variablenvektoren werden fur solche

Richtungen auf den Nullpunkt projiziert, so dass die Summe der quadrierten

projizierten Langen immer 0 ist).

Der Vollstandigkeit halber soll auch dieses Ergebnis eigens festgehalten werden:

Feststellung 12. Gegeben seien Variablen x1, . . . , xp mit einer Kovarianzmatrix

S vom Rang r ≤ p; außerdem sei q ≤ r. Dann besitzt die Aufgabe, sukzessiv q

orthogonale Geraden im Raum einer kovarianztreuen Darstellung der xi zu finden,

die jeweils von den die Variablen reprasentierenden Vektoren in der Summe einen


minimalen quadrierten Abstand haben, als Losung die Geraden, die durch die

ersten q Hauptkomponenten definiert werden.

Jede Losung der Aufgabe ergibt sich in dieser Weise aus den ersten q Hauptkom-

ponenten einer geeignet gewahlten Hauptkomponententransformation. �

In dem Eingangsbeispiel ist die erste Hauptkomponente

y1 = .894x1 + .447x2 − 3.578 ,

die hier wesentlichen Koeffizienten sind also .894 und .447. Jetzt kann diese

Hauptkomponente und die durch sie bestimmte Gerade in der Graphik einge-

zeichnet werden – man erkennt dabei auch, dass die Lange des entsprechenden

Vektors gerade die Wurzel aus dem ersten Eigenwert 2.4, also 1.55 ist.

Auch die zweite Hauptkomponente y2 ist eingezeichnet. Sie steht naturlich senk-

recht auf der ersten. Die Langen von y1 und y2 geben einen Hinweis auf die Gute

der Geraden, denn diese quadrierten Langen – also die Eigenwerte – sind die

Summen der quadrierten Langen der projizierten Vektoren xi.

...........................................................................................................................................................................................................................................................................................................................................................................

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...............................

.......

.......

.......

....

.......

.......

.......

.......

.......

...

.......

.......

.......

.......

.......

...

.......

.......

.......

.......

.......

...

0 1 2............................................................................................................................................................................................................................................................................... .........................................................................................................................................................................................................................

....................................................................................................................................................................................................................................................................................................... ...................

...................

...................

...................

...................

...................

........................................................

x1

x2

.........................

........................

...........

y1.................................................................

..................................................................................................................................

..................................................................................................................................

..................................................................................................................................

..........................

....................................................................................................................................................................................................................................................................................................................................................................

y2

In der nachsten Abbildung sind die Abstande von x1 und x2 zu der durch die erste

Hauptkomponente bestimmten Gerade eingezeichnet. Die Summe der quadrier-

ten Abstande ist minimal, namlich die Differenz der Spur von S und des ersten

Eigenwerts, die hier gleich dem zweiten Eigenwert .4 ist. Die Summe der qua-

drierten Langen der projizierten Vektoren hingegen ist maximal, namlich gleich

dem ersten Eigenwert 2.4.


...........................................................................................................................................................................................................................................................................................................................................................................

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...............................

.......

.......

.......

....

.......

.......

.......

.......

.......

...

.......

.......

.......

.......

.......

...

.......

.......

.......

.......

.......

...

0 1 2............................................................................................................................................................................................................................................................................... .........................................................................................................................................................................................................................

....................................................................................................................................................................................................................................................................................................... ...................

...................

...................

...................

...................

...................

........................................................

x1

x2

y1

..................................................................................................................................

..................................................................................................................................

..................................................................................................................................

...........................................................................................

.......

.......

.......

.......

.......

.......

.......

..

.....................................................................................................

....................................................................................................................................................................................................................................................................................................................................................................

y2

Die nachste Graphik zeigt die entsprechenden Verhaltnisse fur die zweite Haupt-

komponente. Hier ist die Summe der quadrierten Abstande 2.4 und die Summe

der projizierten quadrierten Langen .4.

...........................................................................................................................................................................................................................................................................................................................................................................

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...................

.......

...............................

.......

.......

.......

....

.......

.......

.......

.......

.......

...

.......

.......

.......

.......

.......

...

.......

.......

.......

.......

.......

...

0 1 2............................................................................................................................................................................................................................................................................... .........................................................................................................................................................................................................................

....................................................................................................................................................................................................................................................................................................... ...................

...................

...................

...................

...................

...................

........................................................

x1

x2

y1

..................................................................................................................................

..................................................................................................................................

..................................................................................................................................

...........................................................................................

....................................................................................................................................................................................................................................................................................................................................................................

.......................................................................................................................................................................................................................................................

............................................................................................................................

y2

Die bisher behandelte Frage kann wiederum verallgemeinert werden, indem man

nicht nach einem eindimensionalen Unterraum fragt, der moglichst dicht bei den

Variablenvektoren xi liegt, sondern nach einem q-dimensionalen. Minimiert wer-

den soll dabei wieder die Summe der quadrierten Abstande zu diesem Unterraum.

Genau wie oben addiert sich diese Summe mit der Summe der quadrierten Langen

der auf den Unterraum projizierten Vektoren zur Spur von S, also zur Summe

der Varianzen.

Alternativ kann die Aufgabe also auch so gestellt werden, dass die Summe der

quadrierten Langen der auf den Unterraum projizierten Vektoren maximal wer-

den soll.

Ist nun P die Projektion auf einen moglichen derartigen Unterraum, so erhalt

man mit PX die Matrix, die spaltenweise die projizierten Vektoren xi enthalt.


Die Matrix (PX)′(PX) enthalt dann in der Diagonalen gerade deren quadrierte

Langen, so dass die zu maximierende Summe gleich der Spur dieser Matrix ist.

Fur diese Spur gilt aber

Spur((PX)′(PX)) = Spur(X ′P ′PX) = Spur(X ′PX) = Spur(PXX ′)

wegen der Eigenschaften der orthogonalen Projektionen und der Spur.

Die Spur von PXX ′ ist bekanntlich maximal gleich der Summe der q großten

Eigenwerte von XX ′, wobei dieses Maximum dann erreicht wird, wenn das Bild

von P von zugehorigen orthogonalen Eigenvektoren aufgespannt wird. Wie oben

sind die großten Eigenwerte von XX ′ wieder dieselben wie die von X ′X = S,

und zugehorige Eigenvektoren erhalt man, indem man auf Eigenvektoren von S

die Matrix X anwendet, was wieder zu Reprasentanten der Hauptkomponenten

fuhrt.

Die Summe der quadrierten Abweichungen ist schließlich wieder die Summe der

restlichen Eigenwerte von XX ′, also gleichzeitig die der restlichen Eigenwerte von

S, da ja die Eigenwerte dieser Matrizen bis auf unwesentlichen Nullen dieselben

sind.

Zusammenfassend erhalt man:

Feststellung 13. Gegeben seien Variablen x1, . . . , xp mit einer Kovarianzmatrix

S vom Rang r ≤ p; außerdem sei q ≤ r. Eine Losung der Aufgabe, in einer kova-

rianztreuen Darstellung der Originalvariablen xi einen q-dimensionalen linearen

Unterraum zu finden, fur den die Summe der quadrierten Abstande zu den Va-

riablen minimal ist, ist der von den ersten q Hauptkomponenten aufgespannte

Raum.

Die (minimale) Summe der quadrierten Abstande ist die Summe der letzten p−qEigenwerte von S. �

Bemerkenswert, wenn auch nicht uberraschend ist hier wieder, dass der optimale

Unterraum durch Linearkombination der xi aufgespannt wird, und damit ganz

im Erzeugnis der xi gelegen ist.

Man kann naturlich die ersten q Hauptkomponenten auch durch beliebige Line-

arkombinationen ersetzen, solange der aufgespannte Raum derselbe bleibt.

Standardisierte Hauptkomponenten. Oft arbeitet man statt mit den Haupt-

komponenten eher mit den standardisierten Hauptkomponenten weiter, denen


dieser Abschnitt gewidmet ist.

Ein Grund fur die Bevorzugung der standardisierten Komponenten mag darin

liegen, dass eine Standardisierung allgemein als angenehm empfunden wird, was

sie ja in manchen Zusammenhangen auch ist. Ein anderer Grund liegt womoglich

darin, dass man auf diese Weise die Darstellung den Darstellungen der Ergebnisse

der Faktorenanalyse anahnelt, was vielleicht an der beklagenswerten Konfusion

liegt, die im Hinblick auf Faktorenanalyse und Hauptkomponentenanalyse leider

weit verbreitet ist.

Da standardisierte Hauptkomponenten aus den eigentlichen Hauptkomponenten

durch eine affine (sogar lineare) Transformation hervorgehen, konnen sie diese in

vielen Zusammenhangen vertreten. Beispielsweise konnen bei der Datenreduktion

die ersten q standardisierten Hauptkomponenten die Originalhauptkomponenten

ersetzen, ohne dass sich etwas an der Gute der Rekonstruktion der Originaldaten

andert, da der Fehler ja gleich bleibt.

Ausgerechnet der Aspekt jedoch, der bei der Konstruktion der Hauptkomponen-

ten immer im Mittelpunkt stand, und der dieser Konstruktion eigentlich erst Sinn

verleiht, der Aspekt der Erhaltung von Distanzen namlich, ausgerechnet dieser

Aspekt also wird bei der Standardisierung pikanterweise eliminiert.

Die Bezeichnung der standardisierten j-ten Hauptkomponente sei zj. Ist dann z

der Vektor der standardisierten Hauptkomponenten, so gilt

z = D−1/2y = D−1/2G′(x− x) ,

worin man auch eine der moglichen multivariaten z-Transformationen wiederer-

kennt.

Bei den weiteren Uberlegungen sei vorausgesetzt, dass man sich dafur entschie-

den hat, nur die ersten q standardisierten Hauptkompontenten fur weitere Un-

tersuchungen zu verwenden, beispielsweise, weil der Fehler bei dieser Reduktion

vertretbar klein erscheint.

Wird mit z1 der Vektor der ersten q der zj bezeichnet, so gilt

z1 = D1−1/2y1 ,

so dass die optimale Rekonstruktion der Originaldaten mit Hilfe dieser standar-

disierten Hauptkomponenten die Form

x = G1y1 + x = G1D11/2D1

−1/2y1 + x = G1D11/2z1 + x


annimmt (hier wird die gegebene Vorhersage mit Hilfe der standardisierten Haupt-

komponenten ausgedruckt, was bekanntlich gleichzeitig die neue Regression der

Originaldaten auf die standardisierten Hauptkomponenten liefert). Die Spalten

der Matrix G1D11/2, die auch mit L1 abgekurzt werden soll, sind die mit den

Wurzeln der Eigenwerte multiplizierten Eigenvektoren, also die normalisierten

Eigenvektoren – ihre Lange ist gleich der Streuung der entsprechenden Haupkom-

ponente.

Es sollen nun kurz die Eigenschaften der Matrix L1 hervorgehoben werden.

Ihre Zeilen geben die Koeffizienten an, mit denen die Originalvariablen mit Hilfe

der zj optimal vorhergesagt werden. Da die zj ebenso wie die ihnen zugrunde

liegenden yj unkorreliert sind und zusatzlich Varianz 1 besitzen, ist die Varianz

der Vorhersage von xi gleich der Summe der quadrierten Koeffizienten in der

Zeile i. Durch Relativierung an der Varianz von xi erhalt man damit sogleich den

Anteil der aufgeklarten Varianz und kann beurteilen, ob man mit der Vorhersage

zufrieden ist.

Das Skalarprodukt von zwei Zeilen i und j von L1 ist gleich der Kovarianz der

Vorhersagen xi und xj.

Die Spalten der Matrix L1 stehen senkrecht aufeinander und die Summe der qua-

drierten Koeffizienten der Spalte j ist gleich dem j-ten Eigenwert; diese Summe

gibt daher an, wieviel Varianz zj insgesamt an allen Variablen aufklart (da die zjunkorreliert sind, sind die aufgeklarten Varianzen additiv). Da die Summe aller

Eigenwerte gleich der Spur von S ist, kann man die Bedeutung von zj fur die

Vorhersage insgesamt an dem Verhaltnis des j-ten Eigenwerts zur Spur von S

beurteilen.

Praktisch ist die Standardisierung beispielsweise, wenn man sich die Verhaltnisse

in einer kovarianztreuen Darstellung veranschaulichen will. Man kann dann nam-

lich die zj als orthogonale Vektoren der Lange 1 darstellen und in dem dadurch

entstehenden (Standard-)Koordinatensystem die Vorhersagen xi als Punkte (oder

Vektoren) eintragen, deren Koordinaten durch die Zeilen der Matrix L1 gegeben

sind.

Ein Beispiel soll dies verdeutlichen: Gegeben sind vier Variablen x1, . . . , x4 mit

der Kovarianzmatrix


S =

2.7 1.4 0.28 1.54

1.4 12.3 3.46 0.28

0.28 3.46 12.3 1.4

1.54 0.28 1.4 2.7

.

Man rechnet leicht nach, dass die Spalten der Matrix0.1 0.1 0.7 0.7

0.7 0.7 −0.1 −0.1

0.7 −0.7 −0.1 0.1

0.1 −0.1 0.7 −0.7

orthogonale Eigenvektoren der Lange 1 von S sind mit zugehorigen Eigenwerten

16, 9, 4, 1. Diese Matrix kann daher als Matrix G der Eigenvektoren verwendet

werden. Die Spalten geben dann die Koeffizienten zur Bildung der Hauptkompo-

nenten. Hier fallt ubrigens auf, dass in die Bildung der ersten Hauptkomponenten

vor allem die zweite und dritte Variable eingehen; dies passt gut dazu, dass die-

se Variablen die großte Varianz besitzen, denn die Hauptkomponenten sollen ja

auch sukzessiv maximale Varianz erfassen.

Nun sollen die Variablen xi mit Hilfe von 2 Variablen optimal approximiert wer-

den. Die Entscheidung fur zwei Variablen konnte dabei dadurch begrundet sein,

dass damit ein genugend hoher Anteil der Gesamtvarianz erfasst und aufgeklart

wird, namlich die Summe der ersten beiden Eigenwerte 16 + 9 = 25, die zu rela-

tivieren ist an der Gesamtvarianz, die man als Spur von S oder als Summe aller

Eigenwerte zu 30 berechnet. Der aufgeklarte Varianzanteil in diesem Sinne ist

also 25/30 = 5/6 = .833.

Wahlt man zur Vorhersage nun die standardisierten Hauptkomponenten, so sind

die Koeffizienten die Zeilen der Matrix

L1 = G1D11/2 =

0.1 0.1

0.7 0.7

0.7 −0.7

0.1 −0.1

(

4 0

0 3

)=

0.4 0.3

2.8 2.1

2.8 −2.1

0.4 −0.3

.

Zunachst sollen die oben angegebenen Eigenschaften von L1 durch das konkrete

Beispiel illustriert werden.

Die beiden Spaltenvektoren stehen senkrecht aufeinander und sind Eigenvektoren

von S. Die Summe der quadrierten Koeffizienten ergibt spaltenweise die beiden

großten Eigenwerte 16 und 9.


Zeilenweise ergibt die Summe der quadrierten Koeffizienten die durch die Regres-

sion aufgeklarte Varianz der xi (absolut, nicht als Anteil), hier .25, 12.25, 12.25, .25.

Hier fallt ubrigens wieder auf, dass die zweite und dritte Variable deutlich bevor-

zugt werden, was die aufgeklarten Varianzanteile angeht.

Die Summe der aufgeklarten Varianzen ist gleich der Summe der ersten beiden

Eigenwerte, also 25. Dies kann man auch interpretieren als die Varianz, die im

Sinne der Spur insgesamt aufgeklart wird.

Das Skalarprodukt von jeweils zwei Zeilen ist die Kovarianz der entsprechenden

Vorhersagen.

Die Matrix L1 kann unmittelbar in eine kovarianztreue Darstellung der Verhalt-

nisse bei der Vorhersage der Variablen durch die standardisierten ersten beiden

Hauptkomponenten umgesetzt werden – der Vorteil der Standardisierung liegt

darin, dass ohne weitere Umrechnungen ein vorgefertigtes Koordinatensystem

mit gleichen Achsenlangen benutzt werden kann.

Die folgende Abbildung gibt eine solche Darstellung, wobei die Vorhersagen der

Originalvariablen durch Punkte markiert sind. Es ware eigentlich angemessener,

die Punkte durch Vektoren zu ersetzen und auch z1 und z2 als Vektoren einzu-

zeichnen (mit Spitzen in (1, 0)′ und (0, 1)′), aus Ubersichtlichkeitsgrunden ist der

Aufbau aber ganz analog zu den entsprechenden Diagrammen der Faktorenana-

lyse.

1

1

............................................................................................................................................................................................................................................................................ ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......................

...................

r

r

r

r z1

z2

x1

x2

x4

x3

Die Reprasentanten der beiden ersten Hauptkomponenten konnte man dem Dia-

gramm leicht hinzufugen, namlich als Vektoren in Richtung der beiden Achsen

mit den Langen 4 und 3; man erhalt so eine kovarianztreue Darstellung der


Verhaltnisse bei Regressionen durch die unstandardisierten Hauptkomponenten.

Ganz analog zur Faktorenanalyse konnen solche Diagramme auch gelesen werden.

Zum Beispiel entsprechen den Winkeln zwischen zwei Verbindungsstrecken zum

Nullpunkt die Korrelationen zwischen den Vorhersagen.

Kleine Unterschiede zur Faktorenanalyse sind die folgenden: Die Koordinaten

sind hier nur Regressionsgewichte (bei der Faktorenanalyse Ladungen, die bei

einer entsprechenden Interpretation eine starkere inhaltliche Bedeutung haben

konnen), die quadrierten Abstande zum Nullpunkt sind hier aufgeklarte Varian-

zen im absoluten Sinne (wegen der Standardisierung der Variablen in der Fakto-

renanalyse sind die quadrierten Abstande dort aufgeklarte Varianzen im absolu-

ten und relativen Sinn).

Die wesentlichen Unterschiede zur Faktorenanalyse wurden schon weiter oben

diskutiert.

Rotationen. Hat man sich fur eine Datenreduktion auf q Dimensionen entschie-

den, so kann man an Stelle der ersten q Hauptkomponenten auch q Linearkom-

binationen der Hauptkomponenten verwenden, wenn die Transformation zu den

Linearkombinationen umkehrbar ist. Die Große des Fehlers bei Rekonstruktion

der Originaldaten mit Hilfe einer Regression andert sich dabei nicht. In diesem

Abschnitt sollen derartige’Rotationen‘ besprochen werden.

Solche Rotationen konnen sinnvoll sein, weil die Hauptkomponenten zwar stati-

stische Optimalitatseigenschaften haben, jedoch keineswegs zwanglos inhaltlich

interpretierbar sein mussen – ein inhaltlicher Aspekt wurde ja bei der Konstruk-

tion auch gar nicht einbezogen, es sei denn indirekt, wenn beispielsweise das

Abschopfen von einem Maximum an Varianz auch mit inhaltlichen Zielen in Ver-

bindung gebracht werden kann.

Wenn sich also in vielen Fallen die Hauptkomponenten einer inhaltlichen Deutung

entziehen, so kann man womoglich durch eine Variablentransformation auf Sei-

ten der Hauptkomponenten zu neuen Variablen kommen, die einer inhaltlichen

Deutung zuganglicher sind, ohne dabei Einbußen an dem statistischen Vorteil

hinnehmen zu mussen, mit einer gegebenen Anzahl von neuen Variablen einen

minimalen Fehler bei der Reduktion zu machen.

Als Ausgangspunkt sollen die ersten q standardisierten Hauptkomponenten ge-

wahlt werden, die ja den zugehorigen Hauptkomponenten zum gegenwartigen


Zweck gleichwertig sind. Da die standardisierten Hauptkomponenten selbst eben-

falls durch eine’Rotation‘ aus den unstandardisierten hervorgehen (die Standar-

disierung lasst sich ja als eine – zudem besonders einfache – Rotation auffassen),

ist eine Rotation der standardisierten Hauptkomponenten immer auch gleichzei-

tig eine der unstandardisierten, so dass diese Wahl des Ausgangspunktes keine

Einschrankung darstellt.

Es ist zunachst nutzlich, einige Bezeichnungen einzufuhren. Die neuen Variablen

sollen mit u1, . . . , uq bezeichnet werden, zusammengefasst zu einem Vektor u.

Die Matrix, die die Rotation beschreibt, soll hier T heißen; diese (q × q)-Matrix

enthalt in der j-ten Spalte die Koeffizienten, mit denen die j-te neue Variable

aus den standardisierten Hauptkomponenten gebildet wird. Von T wird die In-

vertierbarkeit vorausgesetzt und es gilt

u = T′z1 .

Im Beispiel des letzten Abschnitts liegt es nahe, als neue Achsen die Geraden

durch jeweils zwei Punkte einzufuhren. Wenn man zusatzlich fordert, dass auch

die neuen Variablen u1 und u2 die Varianz 1 besitzen sollen, so ergibt sich das

folgende Bild.

1

1

............................................................................................................................................................................................................................................................................ ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......................

...................

r

r

r

r z1

z2

x1

x2

x4

x3

............................................................................................................................................................................................................................................................................................................................................................................................................................................. ...................

................................................................................................................................................................................................................................................................................................................................................................................................................................................................

u1

u2

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

...............

Die Matrix T, die zu dieser Rotation gehort, enthalt in den Spalten die Vektoren,

die die neuen Variablen reprasentieren. Sie ist daher

T =1

5

(4 4

−3 3

).

Die neuen Variablen errechnen sich aus den alten durch Anwendung von T′, sind


also

u1 =1

5(4z1 − 3z2)

u2 =1

5(4z1 + 3z2) .

Zur genaueren Untersuchung der Eigenschaften einer Rotation – insbesondere

auch beim Versuch der Beantwortung der Frage, wie denn die aus der Rotation

resultierenden neuen Variablen uj zu interpretieren sein mogen – sind neben

der Kovarianzmatrix der rotierten Hauptkomponenten drei Typen von Matrizen

wichtig, die unter verschiedenen Aspekten den’Zusammenhang‘ zwischen den

Originalvariablen xi und den rotierten ersten Hauptkomponenten uj beschreiben.

Was den Zusammenhang zwischen den Originalvariablen x und den rotierten

ersten Hauptkomponenten u angeht, so kann man erstens fragen, wie die u-

Variablen aus den x-Variablen gebildet werden, zweitens, wie groß die Kovari-

anzen oder Korrelationen sind, und drittens, wie die Regression aussieht, mit der

man die x-Variablen aus den u-Variablen naherungsweise zuruckgewinnen kann.

Der zweite und dritte Aspekt des Zusammenhangs wird ubrigens in der analogen

Situation der Faktorenanalyse durch Faktorstruktur und Faktormuster erfasst,

wahrend der erste Aspekt dort nicht auftaucht.

Die Matrizen, die diese unterschiedlichen Aspekte des Zusammenhangs beschrei-

ben, sind die Koeffizientenmatrix zur Bildung von u aus x, die Matrix der Ko-

varianzen oder Korrelationen zwischen diesen beiden Variablengruppen und die

Matrix der Regressionsgewichte bei der Regression von x auf u.

Zur besseren Vergleichbarkeit ist es sinnvoll, ein einheitliches Format fur diese

Matrizen zu wahlen. Bei dieser Form sollen immer die Zeilen den x-Variablen und

die Spalten den u-Variablen entsprechen – alle Matrizen besitzen also p Zeilen

und q Spalten.

Die Situation wird dadurch noch etwas verwickelter, dass man es oft als sinn-

voll erachtet, entweder die x-Variablen oder die u-Variablen oder auch beide

zu standardisieren, was dazu fuhrt, dass von den drei genannten Haupttypen

von Matrizen unterschiedliche Varianten je nach zusatzlicher Standardisierung

im Gebrauch sind.

Zu Standardisierungszwecken bezeichnen im Folgenden wie ublich Vx und Vu die

Diagonalmatrizen, deren Elemente die Varianzen der Komponenten von x und u


sind – im Vergleich zu den Kovarianzmatrizen sind hier alle Elemente außerhalb

der Diagonalen durch Nullen ersetzt. Abgesehen von der Zentrierung erhalt man

die standardisierten Variablen durch Multiplikation mit dem Inversen der Wurzel

der entsprechenden V-Matrix, die in der Diagonalen die Kehrwerte der Streu-

ungen enthalt. Den Vektor x der x-Variablen standardisiert man beispielsweise

komponentenweise mit der Transformation V−1/2x (x− x).

Im Beispiel sind Kovarianzmatrix von x und die daraus gebildete Matrix Vx die

Matrizen

S =

2.7 1.4 0.28 1.54

1.4 12.3 3.46 0.28

0.28 3.46 12.3 1.4

1.54 0.28 1.4 2.7

und Vx =

2.7 0 0 0

0 12.3 0 0

0 0 12.3 0

0 0 0 2.7

.

In der weiteren Untersuchung sollen nun Formeln fur die genannten Matrizen und

ihre Varianten hergeleitet werden.

Als erstes kann die Kovarianzmatrix Su von u bestimmt werden. Da die Kovari-

anzmatrix der standardisierten Hauptkomponenten die Einheitsmatrix ist, ergibt

sich

Su = T′T ;

hieraus errechnet man die Korrelationsmatrix zu V−1/2u SuV

−1/2u , da ja der lineare

Anteil der komponentenweisen z-Transformation gerade durch die Matrix V−1/2u

gegeben ist.


Su =

(1 .28

.28 1

),

was mit der Korrelationsmatrix ubereinstimmt, da ja die Rotation so gewahlt

war, dass die Varianzen der neuen Variablen 1 waren. Varianzen und Korrelati-

on ermittelt man leicht auch aus der kovarianztreuen Darstellung mit Hilfe von

Langen und Winkel. Bei dieser Rotation sind die u-Variablen also leicht korreliert.

Als nachstes soll die affine Transformation bestimmt werden, mit der sich die

u-Variablen aus den x-Variablen errechnen. Hier gilt

u = T′z1 = T′D1−1/2y1 = T′D1

−1/2G1′(x− x) ,

der lineare Anteil der Transformation ist also T′D1−1/2G1

′. Diese Matrix enthalt

zeilenweise die Gewichte, mit denen die x-Variablen in die Bildung der u-Variablen


eingehen, und ist damit die erste der Matrizen, die zur Beschreibung des Zusam-

menhangs von x und u von Bedeutung sind.

Der Einheitlichkeit halber sollten bei allen Matrizen, die sich auf den Zusammen-

hang zwischen x und u beziehen, die Zeilen den x-Variablen und die Spalten den

u-Variablen entsprechen. Bei der gerade betrachteten Matrix ist dies genau umge-

kehrt, was man aber leicht durch Transponieren beheben kann. Man erhalt dann

die Matrix G1D1−1/2T; sie enthalt spaltenweise die Koeffizienten zur Bildung

der u-Variablen aus den x-Variablen. Alternativ liefert wegen L1 = G1D11/2 die

Gleichung

G1D1−1/2T = L1D1

−1T

eine weitere Darstellungsmoglichkeit dieser Matrix.

Im Beispiel ergibt sich 0 0.04

0 0.28

0.28 0

0.04 0

,

hier geht also in u1 hauptsachlich x3 ein und in u2 hauptsachlich x2. Man erkennt

ubrigens auch hier eine deutliche Bevorzugung der Variablen mit den großen Va-

rianzen, was ja gut zur Konstruktion der Hauptkomponenten passt. Außerdem

zeigt sich nochmals, dass alle vier Originalvariablen in die Bildung der ersten

beiden Hauptkomponenten und der daraus gewonnenen Vorhersagevariablen ein-

gehen – die Datenreduktion besteht also nicht darin, dass weniger Daten erhoben

werden mussten, sondern darin, dass pro Person (mit Informationsverlust) weni-

ger (transformierte) Daten gespeichert oder weiterverarbeitet werden.

Ganz unproblematisch ist die Interpretation der Koeffizienten (’Gewichte‘) in der

Matrix G1D1−1/2T = L1D1

−1T nicht, denn ein numerisch gleiches Gewicht fuhrt

bei einer großen Varianz der entsprechenden Variablen zu einem deutlicheren

’Einfluss‘ als bei einer kleinen Varianz.

Fragt man namlich genauer danach, um wieviel sich uj andert, wenn sich xi(bei Konstanthaltung aller anderen xk) um eine Standardabweichung andert, so

ist diese Anderung gerade das Produkt des Gewichts mit dieser Standardabwei-

chung und damit um so großer, je großer die Standardabweichung ist. In vielen

Zusammenhangen kann man nun die Standardabweichung als ein Maß fur die

’naturliche Schwankung‘ einer Variablen ansehen, und in diesem Sinn hat dann

die normale Schwankung von xi deutlich starkere Anderungen bei uj zur Folge,


wenn die Varianz von xi groß ist, als dies bei einer kleinen Varianz und numerisch

gleichem Gewicht der Fall ist. Es sollte ubrigens selbstverstandlich sein, dass das

Wort’Einfluss‘ im letzten Absatz nur in dem gerade erlauterten schwachen Sinn

zu interpretieren ist.

Analog zum Ubergang zu standardisierten Regressionsgewichten (’β-Gewichten‘)

bei der multiplen Regression kann man auch hier einen Ausgleich schaffen, indem

man die x-Variablen und womoglich auch die u-Variablen standardisiert und diese

Standardisierung durch Anderung der Gewichte kompensiert.

Die neuen Koeffizienten geben dann die Anderung in uj (oder dem standardisier-

ten uj) an, wenn sich xi um eine Standardabweichung andert bei Konstanthaltung

der anderen xk. Die Gleichungen (zunachst ohne Standardisierung auf u-Seite)

sind

u = T′D1−1/2G1

′(x− x) = T′D1−1/2G1

′V1/2x V

−1/2x (x− x) ,

und da die standardisierten x-Werte gerade in dem Vektor V−1/2x (x−x) enthalten

sind, ergibt sich T′D1−1/2G1

′V1/2x als linearer Anteil der Transformation auf Basis

der standardisierten xi, was nach Transponieren die Matrix

V1/2x G1D1

−1/2T = V1/2x L1D1

−1T

zur Beschreibung liefert; die Standardisierung auf u-Seite erreicht man, indem

man das Ergebnis noch mit V−1/2u multipliziert, was nach Transponieren zu der

Matrix

V1/2x G1D1

−1/2TV−1/2u = V

1/2x L1D1

−1TV−1/2u

fuhrt. Die Standardisierung auf u-Seite mag dann sinnvoll sein, wenn man die Ko-

effizienten vergleichen will, mit der eine x-Variable in unterschiedliche u-Variablen

eingeht, und wenn man dabei die Unterschiedlichkeit der Varianzen der u-Variab-

len’herausrechnen‘ will.

Im Beispiel sind die u-Variablen bereits standardisiert gewahlt, so dass sich hier

in beiden Fallen die Matrix 0 0.06573

0 0.98200

0.98200 0

0.06573 0

ergibt, die den

’Einfluss‘ der x-Variablen mit großer Varianz noch deutlicher her-

aushebt.


Der zweite Matrixtyp zur Beschreibung des Zusammenhangs der x- und u-Variab-

len enthalt die Kovarianzen oder Korrelationen zwischen x- und u-Variablen (wie-

der entsprechen die Zeilen den x-Variablen und die Spalten den u-Variablen).

Zunachst ist die Matrix der Kovarianzen gleich SG1D1−1/2T , was sich mit S =

G1D1G1′ + G2D2G2

′ wegen G2′G1 = 0 und G1

′G1 = I zu G1D11/2T = L1T

umformen lasst. Die gesuchte Matrix der Korrelationen zwischen x und u ist

dann

V−1/2x G1D1

1/2TV−1/2u = V

−1/2x L1TV

−1/2u .

Fur das Beispiel ergibt sich als Matrix der Korrelationen0.08520 0.30429

0.27943 0.99797

0.99797 0.27943

0.30429 0.08520

,

was dem bisherigen Eindruck uber die Zusammenhange nicht grob widerspricht,

wenngleich an Stelle der Nullen jetzt teilweise deutliche Korrelationen auftauchen

und sich die Großenverhaltnisse dadurch deutlich geandert haben.

Man konnte auch noch die Matrizen der Kovarianzen bilden, wenn man nur eine

der beiden Variablengruppen standardisiert; diese Matrizen sind jedoch nur von

geringerem Interesse.

Der dritte Typ von Matrizen zur Beschreibung des Zusammenhangs zwischen

x und u enthalt die Koeffizienten fur die Vorhersage der x-Variablen durch die

u-Variablen und ist im Hinblick auf die Rekonstruktion der Originaldaten von

zentraler Bedeutung.

Da man z1 aus u durch die Umkehrtransformation z1 = T′−1u zuruckerhalt, und

da die Vorhersage von x mit Hilfe von z1 durch die Gleichung x = G1D11/2z1+ x

gegeben war, erhalt man durch Einsetzen die Regressionsgleichung zur Rekon-

struktion von x aus u als

x = G1D11/2T′−1u + x = L1T

′−1u + x .

Fur das Beispiel erhalt man die Matrix0 0.5

0 3.5

3.5 0

0.5 0

,


deren Spalten man naturlich alternativ auch in dem Diagramm als Koordinaten

der xi in dem u-Koordinatensystem ablesen kann. Die Korreliertheit von u1 und

u2 wird hier – konstruktionsgemaß – durch besonders schone Vorhersagegleichun-

gen aufgewogen.

Auch hier kann es sinnvoll sein, zur standardisierten Form der Regressionskoef-

fizienten uberzugehen, die gerade die Regressionskoeffizienten fur die Vorhersage

der standardisierten x-Variablen durch die standardisierten u-Variablen sind. Die

Matrix dieser standardisierten Koeffizienten bestimmt man zu

V−1/2x G1D1

1/2T′−1V1/2u = V

−1/2x L1T

′−1V1/2u ,

wahrend man beispielsweise als Koeffizientenmatrix fur die Regression mit Stan-

dardisierung nur der u-Variablen die Matrix

G1D11/2T′−1V

1/2u = L1T

′−1V1/2u

erhalt.

Im Beispiel andert sich bei Standardisierung auf u-Seite nichts, wahrend man bei

zusatztlicher Standardisierung auf x-Seite die Matrix0 0.30429

0 0.99797

0.99797 0

0.30429 0

errechnet.

Zusammenfassend sind es also drei Typen von Matrizen, die unterschiedliche

Aspekte des Zusammenhangs von rotierten ersten Hauptkomponenten und Ori-

ginalvariablen erfassen; erstens namlich die Matrizen, die die Herstellung der ro-

tierten Hauptkomponenten mit Hilfe der Originalvariablen beschreiben, zweitens

die Matrizen der Kovarianzen oder Korrelationen zwischen Originalvariablen und

rotierten Hauptkomponenten und drittens die Matrizen mit den Regressionskoef-

fizienten zur Rekonstruktion der Originalvariablen aus den rotierten Hauptkom-

ponenten.

Von den erzielten Ergebnissen halt die folgende Feststellung die standardisierten

Versionen fest.

Feststellung 14. Ergibt sich u durch eine Rotation der ersten q standardisierten

Hauptkomponenten von x mit einer Rotationsmatrix T, ist L1 die Matrix der


ersten q normalisierten Eigenvektoren der Kovarianzmatrix S von x, und sind D1,

Vx und Vu die Diagonalmatrizen mit den ersten q Eigenwerten von S und den

Varianzen von x und u (die Kovarianzmatrix von u ist dabei T′T), so enthalten

die Matrizen

V1/2x L1D1

−1TV−1/2u , V

−1/2x L1TV

−1/2u und V

−1/2x L1T

′−1V1/2u

nacheinander die Koeffizienten zur Herstellung der standardisierten u-Variablen

aus den standardisierten x-Variablen, die Korrelationen zwischen x- und u-Variab-

len und die Regressionskoeffizienten bei Regression der standardisierten x-Variab-

len auf die standardisierten u-Variablen. Die Korrelationsmatrix von u ist

V−1/2u T′TV

−1/2u . �

Die Verhaltnisse vereinfachen sich etwas, wenn man an die Rotation Zusatzforde-

rungen stellt. Beispielsweise hat eine Beschrankung der Rotationsmatrizen T auf

Orthogonalmatrizen die Beziehungen T′−1 = T und Su = Vu = I zur Folge und

damit die Gleichheit der Korrelationsmatrix mit der der standardisierten Regres-

sionsgewichte; ferner ist die Kovarianzmatrix von u dann die Einheitsmatrix.

Der Fall der standardisierten Hauptkomponenten z selbst ist hier der Spezialfall

mit q = p und T = I; die Kovarianzmatrix von z ist ebenfalls die Einheitsmatrix.

Von den drei oben genannten Matrizen fallen die beiden letzten zusammen, und

so bleiben nur die Matrizen

V1/2x LD−1 und V

−1/2x L

ubrig, von denen die erste die Koeffizienten zur Berechnung der standardisierten

Hauptkomponenten und die zweite die Korrelationen und die Regressionsgewich-

te zur Vorhersage der Originalvariablen enthalt. Strukturell sollten sich diese

Matrizen meist nicht allzu stark unterscheiden.

Sind die Originalvariablen bereits standardisiert, oder haben sie zumindest Vari-

anz 1, so vereinfacht sich auch noch Vx zur Einheitsmatrix.

Zur Interpretation. Oft ist es ein Ziel der Rotation, die Hauptkomponenten

durch Variablen zu ersetzen, die zusatzlich zu den vorteilhaften statistischen Ei-

genschaften sich auch noch inhaltlich deuten lassen. Es geht dann also um die

Interpretation der rotierten Hauptkomponenten.


Beim Versuch einer solchen Interpretation liegt es nahe, sich der gerade behandel-

ten Matrizen zu bedienen, die ja unterschiedliche Aspekte des Zusammenhangs

der neu gebildeten Variablen mit den Originalvariablen widerspiegeln.

Ein Urteil daruber, welche der Matrizen gegebenenfalls zu einer Interpretation

heranzuziehen waren, kann nun dem mundigen Leser uberlassen werden, da zu

der Bedeutung der Matrizen alles Notige gesagt ist.

Womoglich wird man alle drei Matrizen heranziehen wollen (was bei der letzten

durch eine (uberzogene?) Analogie zur Faktorenanalyse motiviert sein mag). Im

Beispiel wiesen die drei Matrizen einer Interpretation zumindest nicht deutlich

verschiedene Richtungen. Im allgemeinen Fall kann es jedoch auch zu Konflik-

ten kommen, beispielsweise wenn entsprechende Elemente in den verschiedenen

Matrizen verschiedene Vorzeichen haben und von der Große her nicht zu ver-

nachlassigen sind. Wer an einer solchen Stelle nicht mehr weiter weiß, der frage

sich, warum Hauptkomponenten oder ihre Transformationen uberhaupt inhalt-

lich interpretierbar sein sollten – schließlich zielte die Konstruktion ja auf anderes,

namlich auf Varianzmaximierung, optimale Vorhersagen etc., oder bei Transfor-

mationen auf formale Uberschaubarkeit. Vielleicht helfen ja solche Uberlegungen,

eine zwanghafte Interpretationssucht zu uberwinden.

Dass sich die Situation etwas entspannt, wenn man beispielsweise nur orthogona-

le Rotationen zulasst, haben die Bemerkungen am Ende des letzten Abschnitts

gezeigt. Hierunter fallt beispielsweise die Interpretation der Hauptkomponenten

selber oder ihrer Standardisierungen.

Abschließende Bemerkungen. Die Hauptkomponenten erweisen sich als Li-

nearkombinationen der Originalvariablen, die viele angenehme Eigenschaften ha-

ben: Optimale Erfassung der Variabilitat, gute Beschreibung der Ausmaße der

Punktwolke, optimale Approximation der Daten durch weniger Dimensionen, op-

timale Datenreduktion, optimale Vorhersage der Originalvariablen im Sinne der

linearen Regression.

Nutzlich konnen Hauptkomponenten dann sein, wenn bei einer weiteren Verar-

beitung der Daten die Reduktion der Anzahl der Variablen sinnvoll ist.

Beispielsweise kann es darum gehen, mit den erhobenen Informationen weitere

Variable im Sinne der linearen Regression vorherzusagen, jedoch mit einer ge-

ringeren Anzahl von Pradiktoren. Benutzt man zu diesem Zweck die Hauptkom-

ponenten, so hat man den weiteren Vorteil, dass diese unkorreliert sind, was die


multiple Regression technisch einfacher macht. Bekanntlich treten ja bei der mul-

tiplen Regression dann Probleme auf, wenn die Pradiktoren untereinander stark

korreliert sind (’Multikollinearitat‘). Allerdings trugt die Hoffnung, mit Hilfe der

Hauptkomponenten derartige Probleme umgehen zu konnen, denn eine großere

Prazision bei der Schatzung der Regressionsparameter wird durch eine erhohte

Unsicherheit bei der Schatzung der Koeffizienten der Hauptkomponententransfor-

mation erkauft (hier geht es beispielsweise darum, die Hauptkomponententrans-

formationsmatrix auf Populationsebene mit Hilfe einer Stichprobe zu schatzen).

Alle Zugange zur Hauptkomponentenanalyse haben gezeigt, wie wesentlich es

ist, dass Abstande im Variablenraum inhaltlich mit der Unterschiedlichkeit der

Versuchspersonen oder Untersuchungsgegenstande in Beziehung gesetzt werden

konnen.

Hat man also eine Situation, in der die Skalen, auf denen die einzelnen Varia-

blen gemessen werden, in keinem inhaltlichen Zusammenhang stehen, und folg-

lich ohne Schaden durch unterschiedliche lineare Transformationen ersetzt werden

konnten, so ist eine Hauptkomponentenanalyse wenig sinnvoll.

Die Schwierigkeit zeigt sich zum Beispiel darin, dass die Hauptkomponenten von

Variablen, deren Skalen unterschiedlich linear transformiert wurden, in keinem

leicht durchschaubaren Zusammenhang mit den Hauptkomponenten der untrans-

formierten Originalvariablen stehen. Es gibt insbesondere keine Umrechnung die-

ser beiden Systeme von Hauptkomponenten ineinander, die sich in einfacher Weise

aus den Koeffizienten fur die einzelnen Skalentransformationen gewinnen ließe.

Zur Verdeutlichung eine Analogie: Die Korrelation von zwei Linearkombinationen

der Komponenten eines Vektors x lasst sich nicht bestimmen, wenn man nur die

Korrelationsmatrix von x kennt, vielmehr mussen zu diesem Zweck auch die Vari-

anzen bekannt sein. Ebenso konnen die Hauptkomponenten von transformierten

Variablen nicht bestimmt werden, wenn nur die einzelnen Skalentransformationen

und die Hauptkomponenten der Originalvariablen bekannt sind, vielmehr braucht

man zusatzlich beispielsweise die Kovarianzmatrix der Originalvariablen, mit de-

ren Hilfe die Umrechnung jedoch dann auch nicht unkomplizierter ist als die

Bestimmung von Hauptkomponenten uberhaupt.

Die Hauptkomponenten der transformierten Variablen konnen daruber hinaus ei-

ne vollig andere inhaltliche Interpretationen nahelegen als die Hauptkomponenten

der Originalvariablen.

2.5 Verteilungen MS13 138

Manchmal versucht man diesem Problem dadurch zu begegnen, dass man die

Variablen zunachst alle z-transformiert und dann die Hauptkomponentenanalyse

durchfuhrt. Anders gesagt basiert die Analyse dann auf der Korrelationsmatrix

an Stelle der Kovarianzmatrix. Auf diese Weise rettet man sich zwar mit Hil-

fe einer Normierung formal aus dem Problem der Willkurlichkeit der Auswahl

von Skalen, ob allerdings die z-transformierten Skalen auch inhaltlich weniger

willkurlich sind, ist im Einzelfall zu beurteilen. Außerdem ware zu fragen, ob

der euklidische Abstand der Datenpunkte nach einer solchen z-Transformation

eine inhaltliche Bedeutung hat, wie sie zur Rechtfertigung der Konstruktion der

Hauptkomponenten wunschenswert ware.

Eine gewisse Rechtfertigung einer z-Transformation aller Variablen kann darin

liegen, dass die Streuungen danach alle gleich 1 und damit gleich sind. Wenn die

Daten so gewonnen wurden, dass sie die naturliche Variabilitat der Variablen in

einer Population wiederspiegeln, so ist nach einer derartigen Transformation die

Einheit der naturlichen Streuung fur alle Variablen gleich groß, was immerhing

eine statistisch begrundete Vergleichbarkeit der unterschiedlichen Skalen nach der

Transformation gewahrleistet.

2.5 Verteilungen

In diesem Abschnitt sollen die wichtigsten multivariaten Verteilungen eingefuhrt

werden. Davor sollen gewisse statistischen Eigenschaften von Mittelwerten und

Varianzen noch einmal in der Terminologie der Vektor- und Matrizenrechnung

beschrieben werden.

Empirische Mittelwerte und Varianzen. Im folgenden Abschnitt geht es um

statistische Eigenschaften von Mittelwerten und Varianzen.

Als Ausgangssituation sei das zu erwartende Ergebnis eines Einzelversuchs durch

eine Zufallsvariable x beschrieben.

Ein solcher Einzelversuch soll jetzt jedoch nicht nur einmal durchgefuhrt werden,

sondern n mal. Die Einzelergebnisse des (erst noch durchzufuhrenden!) Gesamt-

versuchs kann man dann durch Zufallsvariablen x1, . . . , xn modellieren. Meist (so

auch hier) wird in den weiteren theoretischen Uberlegungen und Ableitungen

von diesen Zufallsvariablen vorausgesetzt, dass sie alle die gleiche Verteilung wie

x haben und zusatzlich unabhangig sind. Als Abkurzung fur diesen Sachverhalt


dient die Sprechweise, dass x1, . . . , xn unabhangige Versionen von x sind.

Beispielsweise kann es darum gehen, ein bestimmtes Wahrnehmungsexperiment

(beispielsweise zur Ermittlung einer Reaktionszeit) an einer Versuchsperson nicht

nur einmal, sondern n-mal durchzufuhren, oder darum, den Wert einer Variable

nicht nur an einer Versuchsperson, sondern an n Versuchspersonen zu erheben.

Sofort stellt sich die Frage, ob fur eine solche Situation die Modellvorstellung, dass

die Einzelergebnisse xi unabhangige Versionen von x sind, wirklich angemessen

ist.

Diese Frage ist deshalb von zentraler Bedeutung, weil die allermeisten statisti-

schen Auswertungsverfahren von dieser Modellvorstellung ausgehen. Eine Recht-

fertigung dafur, dass die Modellvorstellung angemessen ist, wird immer auf die

konkrete Versuchsplanung eingehen mussen. Bei dem Wahrnehmungsexperiment

wird etwa dafur zu sorgen sein, dass die Einzelergebnisse sich nicht gegenseitig

beeinflussen konnen, und dass auch Lern- oder Ermudungseffekte weitestmoglich

ausgeschlossen werden konnen. Beim Ziehen mehrerer Versuchspersonen aus ei-

ner Gesamtpopulation ist zu verhindern, dass diese aufeinander Einfluss nehmen

konnen; eigentlich musste man sogar mit Zurucklegen ziehen (was aber wohl meist

andere Probleme zur Folge hat).

Streng genommen wird wohl die Modellvorstellung nur sehr selten als vollig ange-

messen beurteilt werden konnen. Mit dieser Diskrepanz muss man jedoch leben;

man kann und sollte nur dafur sorgen, dass versuchsplanerisch alles getan wird,

um die Diskrepanz moglichst gering zu halten.

Der einfacheren Formulierungen halber soll im Folgenden bei Veranschaulichun-

gen immer auf die Situation Bezug genommen werden, in der man eine Variable

unabhangig an mehreren Versuchspersonen erhebt; die Uberlegungen gelten je-

doch ebenso fur andere Situationen, beispielsweise fur die, dass ein Einzelversuch

an ein und derselben Versuchsperson mehrmals unabhangig durchgefuhrt wird

(ein Statistiker wird ubrigens von solchen akzidentellen Einkleidungen womoglich

uberhaupt absehen wollen und die Situation dann nur abstrakt ohne Bezug auf

irgendwelche Versuche oder Experimente einfach so beschreiben, dass x1, . . . , xnunabhangige Versionen einer Zufallsvariable x sind).

Fasst man dann die Einzelergebnisse zu einem Zufallsvektor x zusammen, so sind

die Komponenten xi von x unabhangig und besitzen alle die gleiche Verteilung,

also insbesondere den gleichen Erwartungswert und die gleiche Varianz.


Dieser Vektor x hat seine moglichen Werte im Personenraum, der daher den

weiteren Uberlegungen zugrundeliegt.

Der Zufallsvektor x ist von anderer Art als die ublicherweise bisher betrachte-

ten Zufallsvektoren, wo ja meist mehrere an ein und derselben Versuchsperson

erhobene Variablen zu einem Vektor (mit Werten im Variablenraum) zusammen-

gefasst wurden, wahrend jetzt die Werte von verschiedenen Personen auf einer

Variablen den Vektor bilden. Formal ist das Konzept des Zufallsvektors allgemein

genug, um beide Situationen zu erfassen.

Hat die Verteilung von x und damit die der einzelnen xi Erwartungswert µ und

Varianz σ2, so ist der Erwartungswertvektor von x gleich µ1 und die Kovarianz-

matrix gleich σ2I, wobei 1 der n-Vektor aus lauter Einsen und I die (n × n)-

Einheitsmatrix ist.

Der Korrektheit halber sei an dieser Stelle die Voraussetzung hinzugefugt, dass

der Erwartungswert von x tatsachlich existiert und dass die Varianz von x endlich

ist. Entsprechende Voraussetzungen sollen auch in den folgenden Abschnitten

gelten, ohne dass dies besonders erwahnt wird.

Den Mittelwert x erhalt man auch als (1/n)1′x, also durch Anwendung der linea-

ren Abbildung (1/n)1′ auf x. Nach den allgemeinen Regeln berechnet man nun

den Erwartungswert des Mittelwerts zu (1/n)1′(µ1) = µ und die Varianz von x

zu ((1/n)1′)(σ2I)((1/n)1) = σ2/n (man berucksichtige 1′1 = n); dies sind nur

alte Resultate in neuer Formulierung.

Als nachstes soll es um die Verteilung der empirischen Varianz gehen, insbeson-

dere um ihren Erwartungswert. Das schon bekannte Resultat wird erneut herge-

leitet, diesmal mit Hilfe von geometrischen Uberlegungen, wie sie auch fur viele

Argumentationen im multivariaten Bereich eine zentrale Rolle spielen werden.

Daher sollen diese wichtigen Techniken hier gleich zu Anfang an einem der ein-

fachsten Beispiele ausfuhrlich illustriert werden.

Bei der Bildung der Varianz zieht man zunachst von jedem xi den Mittelwert

x ab, wonach man die Werte quadriert, aufsummiert und durch n teilt. Diese

Schritte sollen jetzt geometrisch veranschaulicht werden.

Im ersten Schritt geht man von x uber zum zentrierten Datenvektor x, der ja

gerade dadurch entsteht, dass man komponentenweise den Mittelwert abzieht.

Bis auf den Faktor 1/n ist dann im zweiten Schritt die empirische Varianz der

Daten die quadrierte Lange von x.


Ist V der eindimensionale Unterraum des Rn, der aus allen Vielfachen des Vektors

1 besteht, und U = V ⊥ der dazu senkrechte Unterraum, so ist die Dimension von

U gleich n − 1 und man erhalt bekanntlich zunachst den Vektor x1, der zum

Zwecke des Zentrierens vom Datenvektor x zu subtrahieren ist, als orthogonale

Projektion von x auf V . Der Vektor x = x − x1 der zentrierten Daten ergibt

sich dann als orthogonale Projektion des Datenvektors x auf das orthogonale

Komplement U von V . Die Matrix, die diese Projektion beschreibt, ist bekanntlich

die Zentriermatrix Z = I − (1/n)11′. Den ersten Schritt des Ubergangs von x

zu x erhalt man geometrisch also mit einer orthogonalen Projektion auf den

Unterraum U .

Nachdem der Ubergang von x zu x geometrisch durch die orthogonale Projektion

Z beschrieben wurde, geht es im zweiten Schritt um eine dazu passende Formel

fur die Varianz S2 der empirischen Daten. Da Z eine orthogonale Projektion ist,

gelten die Beziehungen Z2 = Z und Z′ = Z, von denen im Folgenden ohne weitere

Hinweise haufig Gebrauch gemacht werden wird.

Die Varianz lasst sich nun auf folgende Weise schreiben:

S2 = (1/n)‖ x‖2 = (1/n)(Zx)′(Zx) = (1/n)x′Z′Zx = (1/n)x′Zx .

Bis auf den Faktor 1/n ist die Varianz also die quadrierte Lange des auf U pro-

jizierten Datenvektors. Geometrisch sind bei der Bildung der Varianz also die

Begriffe der orthogonalen Projektion und der Lange (Norm) von zentraler Bedeu-

tung. Diese Begriffe werden auch im Folgenden immer wieder an entscheidenden

Stellen auftauchen.

Noch eine kurze Anmerkung: Die Zerlegung von x durch die Projektionen auf die

komplementaren Unterraume U und V hat die Form

x = x + x1 ,

und der Satz des Pythagoras liefert dann, da die beiden Vektoren auf der rechten

Seite senkrecht zueinander sind, die Gleichung

‖x‖2 = ‖ x‖2 + ‖ x1‖2 .

Teilt man diese Gleichung noch durch n, so hat man auf der linken Seite den

Mittelwert der quadrierten xi und auf der rechten Seite einerseits die Varianz S2

und andererseits den quadrierten Mittelwert, so dass sich durch Umstellen die

bekannte Formel S2X = MX2 − (MX)2 ergibt.


Fur eine genauere Analyse der statistischen Eigenschaften von Varianz und Ko-

varianz ist es sinnvoll, den Unterraum U mit einer Orthonormalbasis zu versehen

und in den Koordinaten bezuglich dieser Basis zu rechnen (nicht praktisch, son-

dern nur theoretisch). Es sei also L eine (n× (n− 1))-Matrix, deren Spalten eine

Orthonormalbasis von U bilden.

Da aufgrund der Orthonormalitat L′L = In−1 gilt, errechnet sich die Projektion

auf U als

L(L′L)−1L′ = LL′ ,

was mit Z ubereinstimmen muss. Den Koordinatenvektor eines projizierten Punk-

tes bezuglich der gewahlten Orthonormalbasis berechnet man mit der Matrix

(L′L)−1L′, die sich hier zu L′ vereinfacht; der (n − 1)-Koordinatenvektor u von

x ist also u = L′x.

Man kann nun bekanntlich die quadrierte Lange von x ∈ U auch bestimmen,

indem man mit den Koordinaten in U rechnet, so dass sich ‖ x‖2 = ‖u‖2 und

mit Division durch n die Formel

S2 = ‖u‖2/n

ergibt.

Wegen Z = LL′ kann man dies auch noch einmal unmittelbar einsehen:

‖ x‖2 = x′Zx = x′LL′x = (L′x)′(L′x) = u′u = ‖u‖2 .

Als wesentlich wird es sich erweisen, dass u nicht n Komponenten besitzt wie x,

sondern nur noch n− 1.

Nun sollen die statistischen Kennwerte von u bestimmt werden. Da die Spalten

von L eine Basis des orthogonalen Komplements des Erzeugnisses von 1 bilden,

also insbesondere zu 1 senkrecht sind, gilt L′1 = 0. Als Erwartungswert von u

ergibt sich daher

E(u) = E(L′x) = L′E(x) = L′(µ1) = 0 ,

und als Kovarianzmatrix

V(u) = L′V(x)L′′ = L′(σ2In)L = σ2L′InL = σ2 In−1 ;

daruber hinaus ist die Matrix der Kovarianzen von u und x gleich

C(u, x) = C(L′x, (1/n) 1′x) = (1/n) L′V(x)1′′ = (σ2/n) L′I1 = 0 .


Zusammengefasst heißt das, dass die Komponenten von u den Erwartungswert 0

und die Varianz σ2 besitzen und außerdem untereinander und mit dem Mittelwert

unkorreliert sind.

Als kleine Anwendung soll nun noch einmal die bekannte Tatsache gezeigt wer-

den, dass der Erwartungswert von nS2 gleich (n − 1)σ2 ist, woraus ja beispiels-

weise unmittelbar folgt, dass die korrigierte Stichprobenvarianz (n/(n−1))S2 ein

erwartungstreuer Schatzer fur σ2 ist.

Zunachst gilt

nS2 = ‖ x‖2 = ‖u‖2 =n−1∑i=1

u2i .

Da der Erwartungswert von ui gleich 0 ist, ist E(u2i ) gleich der Varianz von ui,

also gleich σ2, woraus die Behauptung unmittelbar folgt.

Entscheidend bei dieser Argumentation ist es, dass man die n-fache Varianz jetzt

als Summe von n − 1 (und nicht etwa n) Variablen u2i schreiben kann, die alle

Erwartungswert 0 und Varianz σ2 besitzen, und die außerdem noch unkorreliert

sind. Diese Umformung wurde moglich durch die Darstellung von x mit Hilfe der

orthogonalen Projektion auf den (n− 1)-dimensionalen Unterraum U .

Ahnliche Uberlegungen werden sich als der Schlussel zu vielen Fragen erweisen,

die mit dem Begriff der Freiheitsgrade zusammenhangen.

Entsprechende Uberlegungen wie in diesem Abschnitt kann man auch in der

multivariaten Situation von mehreren Variablen anstellen. Die Formulierungen

werden dabei allerdings deutlich komplizierter. Einige wichtige Aspekte konnen

allerdings auf den Fall von zwei Variablen reduziert werden, der ubersichtlicher ist

als die allgemeine Situation, und dem daher der Rest dieses Abschnitts gewidmet

sein soll.

Es geht jetzt also um eine weitere Variable, fur die die Verteilung bei einem Ein-

zelversuch nun durch eine Zufallsvariable y beschrieben sei. Bei der n-maligen

Durchfuhrung – es sei wieder die Veranschaulichung von n Versuchspersonen

gewahlt – wird dann jede Versuchsperson i zwei Werte xi und yi liefern. Es sei

weiterhin vorausgesetzt, dass die Ergebnisse unterschiedlicher Versuchspersonen

unabhangig sind, wahrend die gemeinsame Verteilung von xi und yi immer die

gleiche sein soll wie beim einmaligen Versuch, dessen Ergebnisse ja durch x und

y beschrieben werden. Man kann diese Voraussetzung dann auch so formulie-

ren, dass die (xi, yi) unabhangige Versionen des zweidimensionalen Zufallsvektors


(x, y) sein sollen.

Die Ergebnisse der n Versuchspersonen in der neuen Variable werden dann analog

wie bei der ersten Variable zu einem Zufallsvektor y mit n Komponenten zusam-

mengefasst. Haben dann x und y die Kovarianz κ, so bestimmt sich die Matrix

der Kovarianzen von x und y zu

C(x,y) = κ In .

Analog wie oben errechnet sich die empirische Kovarianz der Datenvektoren x

und y zu

(1/n)< x, y> = (1/n) x′Zy = (1/n) u′v = (1/n)<u, v>

wenn man v (analog zu u) als v = L′y definiert.

Nun berechnet man die Matrix der Kovarianzen von u und v zu

C(u,v) = C(L′x,L′y) = L′C(x,y)L′′ = L′(κ In)L = κ In−1 ,

unterschiedliche Komponenten von u und v sind also unkorreliert, wahrend die

Kovarianz gleicher Komponenten gleich κ ist.

Die Matrix der Kovarianzen von x = (1/n) 1′x und v ist analog

C((1/n) 1′x,L′y) = (1/n) 1′C(x,y)L′′ = (1/n) 1′(κ I)L = (κ/n) 1′L = 0 ,

da 1 senkrecht auf allen Spalten von L steht. Entsprechend sind naturlich auch

alle Kovarianzen von y mit Komponenten von u gleich 0.

Schließlich kann man noch genau wie oben zeigen, dass der Erwartungswert der

empirischen Kovarianz gleich ((n− 1)/n)κ ist, und daraus den bekannten erwar-

tungstreuen Schatzer der Kovarianz ableiten.

Mittelwertvektor und empirische Kovarianzmatrix. In diesem Abschnitt

geht es um Kennwerte der Verteilungen des empirischen Mittelwertvektors und

der empirischen Kovarianzmatrix. Die Ergebnisse des letzten Abschnitts werden

auf die multivariate Situation verallgemeinert.

Ganz analog zur dort besprochenen Situation soll zunachst eine p-dimensionale

Zufallsvariable x das zu erwartende Ergebnis eines Einzelversuchs beschreiben.


Dieser Einzelversuch soll nun n mal wiederholt werden; beispielsweise konnten

an derselben Versuchsperson n mal mehrere physiologische Variablen nach einem

stresserzeugenden Stimulus gemessen werden, oder es konnten an n Probanden,

die aus einer großen Population gezogen werden, zur Normierung eines Tests die

Werte in p Untertests erhoben werden. Bei Veranschaulichungen der n-maligen

Durchfuhrung eines Einzelversuchs soll meist Beispiele der zweiten Art benutzt

werden; entsprechende Uberlegungen gelten aber naturlich auch fur andere Si-

tuationen.

Die zu erwartenden Ergebnisse der n Einzelversuche seien nun zusammengefasst

in Zufallsvektoren xi (i = 1, . . . , n), von denen vorausgesetzt sei, dass sie ge-

meinsam unabhangig sind und die gleiche Verteilung besitzen wie das Ergebnis

x des Einzelversuchs. Eine Rechtfertigung dieser Annahme muss wieder auf die

konkrete Versuchsplanung verweisen; es sollte sich also um unabhangige Repli-

kationen des Einzelversuchs handeln oder um unabhangige Ziehungen aus der

Gesamtpopulation.

Man kann dann auch hier die Sprechweise verwenden, dass die xi unabhangige

Versionen von x sind.

Erwartungswertvektor und Kovarianzmatrix von x und damit von allen xi seien

µ und Σ.

Wie ublich fasst man die einzelnen (transponierten) Datenvektoren xi zu einer

empirischen Datenmatrix X zusammen, die dann n Zeilen besitzt, die den Ver-

suchspersonen (allgemeiner Versuchseinheiten) entsprechen und p Spalten, die zu

den Variablen gehoren; die transponierte i-te Zeile ist der Ergebnisvektor der

i-ten Versuchsperson.

Die j-te Spalte der Datenmatrix gibt die Werte an, die die n Versuchspersonen

in der j-ten Variable geliefert haben – dies ist also der zur j-ten Variable xjgehorende Datenvektor im Sinne des vorigen Abschnitts.

Man erhalt den Mittelwertvektor x, indem man die xi aufsummiert und dann

das Ergebnis durch n teilt. Die Summe der xi hat den Erwartungswert nµ und

die Kovarianzmatrix nΣ (wegen der Unabhangigkeit). Fur Erwartungswert und

Kovarianzmatrix von x ergibt sich damit

E(x) = µ und V(x) = (1/n) Σ

ganz analog zu den bekannten Verhaltnissen im Univariaten.


Eine Moglichkeit, die Bildung des Mittelwerts in der Matrizenschreibweise dar-

zustellen, ist

x = (1/n)X′1 .

Die (empirische) Kovarianzmatrix S der Daten erhalt man, indem man die em-

pirischen Varianzen/Kovarianzen der Variablen in einer Matrix zusammenfasst.

Hierbei sollen die Varianzen und Kovarianzen mit Division durch n gebildet wer-

den. Bekanntlich kann man S auch schreiben als

S = (1/n)X′ZX ,

wobei diese Matrix leider nicht erwartungtreu fur Σ ist, was man jedoch leicht

mit dem Ubergang zu Su = (n/(n− 1))S behebt, die Erwartungswert Σ besitzt.

Der Index u steht dabei fur’unbiased‘ oder

’unverzerrt‘, d.h.

’erwartungstreu‘.

Eine dritte Matrix, die gelegentlich auftaucht, ist die SSCP-Matrix

nS = (n− 1)Su = X′ZX

(SSCP steht bekanntlich fur’Sum of Squares and Cross Products‘). Sie hat Er-

wartungswert (n− 1)Σ.

Mit der Matrix L aus dem vorigen Abschnitt gilt Z = LL′, weshalb man die

SSCP-Matrix X′ZX = X′LL′X auch schreiben kann als U′U mit U = L′X.

Die Matrix U soll nun genauer untersucht werden – sie ist die Verallgemeinerung

des analog gebildeten Vektors u aus dem letzten Abschnitt und fur theoretische

Zwecke ahnlich nutzlich. Die Matrix hat wieder p Spalten, im Gegensatz zu X

aber nur n− 1 Zeilen.

Die Spalten von U erhalt man aus den Spalten von X durch Multiplikation mit L′.

Sie entstehen also aus den Datenvektoren der Einzelvariablen so wie im letzten

Abschnitt beschrieben. Damit konnen die Ergebnisse dieses Abschnitts direkt

ubertragen werden.

Es folgt, dass die Erwartungswerte der Elemente von U alle gleich 0 sind, wahrend

die Kovarianzmatrix einer (transponierten) Zeile gleich Σ ist. Die Elemente ver-

schiedener Zeilen haben hingegen Kovarianz 0. Ferner sind alle Kovarianzen von

Komponenten von x mit Elementen von U gleich 0.

Fur das Folgende ist noch die Tatsache wichtig, dass sowohl x als auch U sich

aus X mit Hilfe von linearen Abbildungen gewinnen lassen.


Eigentlich ist dieser Satz allerdings zunachst sinnlos, da lineare Abbildungen ja

auf Vektorraumen definiert sein mussen und ihre Werte auch wieder in Vek-

torraumen annehmen. Die Schwierigkeit, dass es sich bei X und bei U gar nicht

um Vektoren handelt, raumt man aber leicht dadurch aus dem Weg, dass man

sich die Elemente von X und U ja auch leicht in irgendeiner fest vorgegebe-

nen Ordnung untereinandergeschrieben denken kann, weshalb man sie auch als

Vektoren ansehen kann.

Dass dann beispielsweise die Funktion f , die X den Wert f(X) = L′X = U

zuordnet, linear ist, erkennt man am einfachsten, indem man entsprechend der

Definition linearer Abbildungen nachpruft, dass f Addition und Skalarmultipli-

kation respektiert, dass also f(X1 + X2) = f(X1) + f(X2) und f(aX) = a f(X)

fur beliebige X1, X2, X und a gilt. Dies sei hier beispielhaft fur die Addition

durchgefuhrt. Sind also zwei Matrizen X1 und X2 vorgegeben, so gilt

f(X1 + X2) = L′(X1 + X2) = L′(X1) + L′(X2) = f(X1) + f(X2) .

Die Addition wird von f also respektiert. Vollig analog verfahrt man bei der

Skalarmultiplikation.

Die Normalverteilung. In diesem Abschnitt soll an die aus der Elementarsta-

tistik bekannten Verteilungen im Umkreis der Normalverteilung erinnert werden.

Leider reichen die zur Verfugung stehenden mathematischen Hilfsmittel nicht aus,

um die mit diesen Verteilungen zusammenhangenden Aussagen zu begrunden.

Einiges muss also hier als wahr akzeptiert werden, wobei manche Sachverhalte

wenigstens noch einigermaßen veranschaulicht werden konnen.

Eine Zufallsvariable x heißt normalverteilt, wenn sie eine Dichte der Form

g(x) =1√2π σ

e−(x− µ)2

2σ2

besitzt mit einem µ ∈ R und einem σ > 0.

Als Abkurzung schreibt man dafur auch x ∼ N(µ, σ2).

Es stellt sich heraus, dass Erwartungswert und Varianz einer solchen Variable

gleich µ und σ2 sind, womit diese beiden’Verteilungsparameter‘ sogleich auch

eine statistische Bedeutung bekommen.


Vielleicht wurde man bei der Angabe x ∼ N(µ, σ2) der Verteilung als zweiten Pa-

rameter lieber σ statt σ2 nehmen (was auch gelegentlich geschieht), jedoch passt

die hier gewahlte Form eher zur spateren Definition der Multinormalverteilung.

Die Verteilung N(0, 1) mit Erwartungswert 0 und Varianz 1 heißt auch Standard-

normalverteilung.

Die Parameter µ und σ haben fur die Form der Dichtefunktion auch eine an-

schauliche Bedeutung: Sie sind gerade die Stelle des Maximums und der Abstand

von µ zu den Wendepunkten.

Die folgende Abbildung verdeutlicht dies fur die Dichtefunktion einer Variable

mit einer N(1.4, .25)-Verteilung; die Streuung ist hier naturlich .5.

1

1

........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......................

...................

xµ

g(x)

.........................................................................................................................................................................................................................................

.................................

.......................................................................................................................................................................................

..............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

...................

......

......

............................. .......................σ ......

......

......

......

......

............................. .......................σ

Die Normalverteilung bleibt bei linearen Transformationen erhalten: Ist x nor-

malverteilt und y = ax+ b mit a 6= 0, so ist auch y normalverteilt.

Man bestimmt leicht den Erwartungswert und die Varianz von y und erhalt ge-

nauer, dass aus x ∼ N(µ, σ2) folgt, dass y ∼ N(aµ+ b, a2σ2) gilt.

Eine Skizze zur Begrundung der Aussage uber lineare Transformationen findet

sich im nachsten Abschnitt.

Eine wichtige Konsequenz ist die, dass die Verteilung der z-Transformierten einer

normalverteilten Variable immer die N(0, 1)-Verteilung ist. Mit Hilfe der Verta-

felung der Standardnormalverteilung N(0, 1) kann man daher konkrete Fragen

nach Wahrscheinlichkeiten, die sich auf normalverteilte Variable beziehen, in der

Regel beantworten.

Eine wichtige Eigenschaft der Standardnormalverteilung ist ihre Symmetrie, die

sich darin ausdruckt, dass ihre Dichtefunktion symmetrisch zur Ordinatenachse

ist. Diese Symmetrie erkennt man unmittelbar an der zugehorigen Dichtefunktion

(1/√

2π) e−z2/2, die fur z und −z immer den gleichen Wert besitzt.


Von der Normalverteilung ist eine ganze Familie weiterer Verteilungen abgeleitet,

an deren prominenteste Mitglieder nun erinnert werden soll.

Sind z1, . . . , zn unabhangige standardnormalverteilte Variable, so heißt die Ver-

teilung von u =∑z2i auch χ2-Verteilung mit n Freiheitsgraden. Die Abkurzung

hierfur ist u ∼ χ2n.

Man beachte die Form der Definition, die gewissermaßen einen Umweg macht:

Es wird hier gesagt, wie man eine χ2n-verteilte Variable erzeugen kann; eigentlich

geht es jedoch nicht um die Variable selbst, sondern nur um deren Verteilung. Es

wird also ein Standardbeispiel gegeben, wie man zu dieser Verteilung gelangt.

Insbesondere bedeutet die Definition keineswegs, dass jede χ2-verteilte Variable

eine Summe von quadrierten standardnormalverteilten Variablen sein musste.

Das Wort’Freiheitsgrad‘ wird haufig mit df (

’degree of freedom‘) abgekurzt.

Die gerade definierte Verteilung lasst sich etwas verallgemeinern:

Sind z1, . . . , zn unabhangige normalverteilte Variable mit der Varianz 1, fur die

E(z1) = δ ≥ 0 und E(z2) = . . . = E(zn) = 0 gilt, so heißt die Verteilung von

u =∑z2i auch χ2-Verteilung mit n Freiheitsgraden und Nonzentralitatsparameter

δ2. Die Abkurzung hierfur ist u ∼ χ2n, δ2 .

Wie man sieht, ist die zuvor definierte χ2-Verteilung hiervon der Spezialfall, dass

δ = 0 gilt (χ2n ist also dasselbe wie χ2

n,0); diese Verteilung soll zur Unterscheidung

eine zentrale χ2-Verteilung heißen, wahrend die Verteilungen mit δ > 0 auch

nonzentrale Verteilungen genannt werden sollen.

Das Wort’Nonzentralitatsparameter‘ wird oft mit NZP abgekurzt. Leider ist die

Terminologie hier nicht einheitlich, so dass als Nonzentralitatsparameter gele-

gentlich auch eine andere Zahl als δ2 bezeichnet wird.

Ist z eine N(δ, 1)-verteilte Variable, so ist der Erwartungswert von z2 die Summe

1 + δ2 aus der Varianz und dem quadrierten Erwartungswert. Hieraus folgt un-

mittelbar, dass der Erwartungswert einer χ2n, δ2-verteilten Variable gleich n + δ2

ist.

Bei den nachsten beiden Verteilungsklassen werden gleich die allgemeinen Ver-

sionen definiert. Zunachst folgt die t-Verteilung.

Sind z ∼ N(δ, 1) und u ∼ χ2n unabhangig mit δ ∈ R, so heißt die Vertei-


lung von t = z/√u/n auch t-Verteilung mit n Freiheitsgraden und Nonzen-

tralitatsparameter δ. Die Abkurzung hierfur ist t ∼ tn, δ.

Fur δ = 0 erhalt man als Spezialfall die zentralen t-Verteilungen, die mit tnabgekurzt werden, und die nonzentralen t-Verteilungen sind entsprechend die

mit δ 6= 0.

Ebenso wie die Standardnormalverteilung sind die zentralen t-Verteilungen sym-

metrisch. Dies kann man schließen aus der Tatsache, dass aus t ∼ tn auch −t ∼ tnfolgt; diese Tatsache selber begrundet man analog zu der sogleich folgenden Aus-

sage uber den Zusammenhang von t- und F -Verteilungen.

Sind schließlich u ∼ χ2m, δ2 und v ∼ χ2

n unabhangig, so heißt die Verteilung von

F = (u/m) /(v/n) auch F -Verteilung mit m Zahler- und n Nennerfreiheitsgraden

und Nonzentralitatsparameter δ2. Die Abkurzung hierfur ist F ∼ Fm,n, δ2 .

Wieder heißen die Verteilungen mit δ2 = 0 auch zentrale F -Verteilungen und

haben die Abkurzung Fm,n; die mit δ2 > 0 heißen nonzentrale F -Verteilungen.

Man uberzeugt sich leicht davon, das fur eine tn, δ-verteilte Variable t die Bezie-

hung t2 ∼ F1, n, δ2 gilt. Als Beispiel fur spatere ahnliche Falle soll die Begrundung

hier noch einmal ausfuhrlich gegeben werden.

Man wahlt zu diesem Zweck unabhangige Variablen z ∼ N(δ, 1) und u ∼ χ2n und

bildet die Variable v = z/√

(u/n). Dann ist v definitionsgemaß tn, δ-verteilt, und

t und v besitzen folglich die gleiche Verteilung. Dann mussen auch t2 und v2 die

gleiche Verteilung besitzen.

Fur v2 = z2/(u/n) kann man jedoch die Verteilung leicht bestimmen: Der Zahler

z2 besitzt eine χ21, δ2-Verteilung und ist mit z unabhangig von u. Wegen z2 = z2/1

andert sich am Zahler auch nichts, wenn man durch die Anzahl 1 der Freiheits-

grade teilt. Nach Definion folgt, dass v2 eine F1, n, δ2 besitzt und damit auch t2

diese Verteilung besitzen muss. �

Wem diese Begrundung umstandlich erscheint, der sei daran erinnert, dass aus

der Tatsache, dass t eine t-Verteilung besitzt, keineswegs folgt, dass t auch die

Form der gleichnamigen Variable in der Definition haben muss. Daher ist der

Umweg uber v notwendig.

In der Begrundung wurde außerdem von der plausiblen Tatsache Gebrauch ge-

macht, dass mit z und u auch z2 und u unabhangig sind. Eigentlich musste


man auch dies begrunden. Die Tatsache ist aber intuitiv so einleuchtend, dass

darauf hier und in ahnlichen Situationen im Folgenden verzichtet werden kann

(abgesehen davon musste eine Begrundung sich auf den allgemeinen Fall stetiger

Zufallsvariablen beziehen, die ja hier sowieso im strengen Sinn nicht behandelt

werden konnen).

Zum Schluss sei ferner erinnert an den Begriff des α-Fraktils einer Verteilung, das

gerade der Wert ist, der bei dieser Verteilung rechts α abschneidet.

Die α-Fraktile werden meist mit der Abkurzung der zugehorigen Verteilung be-

zeichnet, bei denen im Index (gegebenenfalls nach einem Semikolon) α angegeben

ist. Das α-Fraktil der Fm,n-Verteilung ist also beispielsweise Fm,n;α, und es gilt

dann

P(F ≥ Fm,n;α) = α ,

falls F die Fm,n-Verteilung besitzt. Mit P wird hier wie ublich die Wahrschein-

lichkeit bezeichnet.

Man beachte in diesem Zusammenhang den unterschiedlichen Gebrauch von Kom-

ma und Semikolon, von denen das Komma beim Nonzentralitatsparameter ge-

braucht wird und das Semikolon bei der Abkurzung des α-Fraktils.

Gelegentlich wird von der Gleichheit t2n;α/2 = F1, n;α Gebrauch gemacht, die nun

auch noch einmal gezeigt werden soll.

Dazu sei t ∼ tn und k der kritische Wert tn;α/2. Wegen der Symmetrie der t-

Verteilung sind die Wahrscheinlichkeiten P(t ≤ −k) und P(t ≥ k) gleich groß,

namlich α/2. Das Ereignis, dass t2 ≥ k2 ist, setzt sich jedoch gerade aus diesen

beiden disjunkten Teilereignissen zusammen, weshalb P(t2 ≥ k2) = α gilt. Da t2

jedoch die F1, n-Verteilung besitzt, folgt, dass k2 bei dieser Verteilung rechts α

abschneidet, weshalb schließlich in der Tat k2 = F1, n;α gelten muss. �

Haufig sind Variable gewissermaßen nur bis auf einen Faktor χ2-verteilt, und es

ist praktisch, fur solche Situationen eine Abkurzung einzufuhren.

Gilt fur eine Variable u und ein σ2 > 0 die Beziehung u/σ2 ∼ χ2n, δ2 , so soll dies

auch als

u ∼ σ2χ2n, δ2

abgekurzt werden. Diese Abkurzung bedeutet also, dass sich aus u bei Division

durch σ2 eine χ2n, δ2 verteilte Variable ergibt.

Diese Schreibweise ist beispielsweise praktisch bei der Ermittlung kritischer Wer-


te: Ist eine Variable u gegeben mit u ∼ σ2χ2n, und fragt man nun nach dem Wert,

der bei der Verteilung von u rechts α abschneidet, so ist das gerade das σ2-fache

des Wertes, der bei der Verteilung von u/σ2 rechts α abschneidet – da

u/σ2 ≥ χ2n;α genau dann gilt, wenn u ≥ σ2χ2

n;α

gilt, ist ja

α = P(u/σ2 ≥ χ2

n;α

)= P

(u ≥ σ2χ2

n;α

).

Folglich ist das α-Fraktil der Verteilung von u ∼ σ2χ2n−1 gleich

σ2χ2n;α ,

was sich einfach merken lasst.

Mit dieser Schreibweise lassen sich einige Argumente bei der Herleitung von Ver-

teilungen etwas verkurzen; zwei der wichtigsten Falle sollen nun vorbereitend

behandelt werden.

Feststellung 1. Sind x ∼ N(µ, σ2) und u ∼ σ2χ2n unabhangig, so besitzt der

Quotient t = x/√u/n eine tn, δ-Verteilung mit δ = µ/σ.

Man beachte, dass die Varianz von x gleich dem Faktor bei u ist.

Man schreibt namlich

t =x√u/n

=x/σ√

(u/σ2)/n,

und hat auf der rechten Seite den Quotienten aus (x/σ) ∼ N(µ/σ, 1) und aus

der Wurzel der durch n geteilten Variable (u/σ2) ∼ χ2n, wobei (x/σ) und (u/σ2)

unabhangig sind. Der Quotient auf der rechten Seite – und damit auch t – besitzt

folglich in der Tat eine tn, δ-Verteilung mit δ = µ/σ. �

Feststellung 2. Sind u ∼ σ2χ2m, δ2 und v ∼ σ2χ2

n unabhangig, so hat der

Quotient (u/m)/(v/n) eine Fm,n, δ2-Verteilung.

Genau wie eben schreibt man namlich

F =u/m

v/m=

(u/σ2)/m

(v/σ2)/n

und erhalt auf der rechten Seite den Quotienten zweier unabhangiger, durch ih-

re Freiheitsgrade geteilter χ2-Variablen. Der Quotient rechts besitzt also eine

Fm,n, δ2-Verteilung und damit auch F . �


Die multivariate Normalverteilung. Zur Vorbereitung der Definition der

multivariaten Normalverteilung sei vereinbart, im Eindimensionalen auch solche

Variablen als normalverteilt zu bezeichnen, die Varianz 0 besitzen, also (fast

sicher) nur einen Wert annehmen. Diese Erweiterung des Begriffs der eindimen-

sionalen Normalverteilung um einen sozusagen degenerierten Fall ist harmlos, da

man an der Varianz einer in diesem neuen Sinn normalverteilten Variable sofort

sehen kann, ob es sich um eine ubliche Normalverteilung oder um einen degene-

rierten Fall handelt. Die Erweiterung ist von Vorteil, weil sie bei der adaquaten

Behandlung der multivariaten Normalverteilung lastige Fallunterscheidungen er-

spart, die sonst fast standig gemacht werden mussten.

Ein p-dimensionaler Zufallsvektor x heißt jetzt multinormalverteilt, wenn jede

Linearkombination der Komponenten von x normalverteilt ist.

Es wird also gefordert, dass fur jeden (Koeffizienten-)Vektor a und jede additive

Konstante die (eindimensionale) Linearkombination∑aixi + b = a′x + b der

Komponenten xi von x normalverteilt ist. Hier ist die additive Konstante b offen-

sichtlich irrelevant, da eine Variable u genau dann normalverteilt ist, wenn u+ b

normalverteilt ist; bei der Prufung, ob das Kriterium der Definition erfullt ist,

kann man also das oft lastige b auch weglassen, was in Zukunft meist so geschehen

soll.

Die Forderung, dass alle a′x normalverteilt sein sollen, ist bedeutend starker als

die Forderung, dass dies nur fur die xi gelten soll. Dass bei einem multinormal-

verteilten x auch alle xi normalverteilt sind, folgt leicht, wenn man fur a die

Einheitsvektoren ei wahlt wegen xi = e′ix.

Manchmal gebraucht man statt der Formulierung, dass x multinormalvarteilt ist,

auch die Alternativformulierung, dass die xi gemeinsam normalverteilt sind.

Aus der Definition folgt unmittelbar, dass fur ein multinormalverteiltes x auch

jeder durch eine affine Transformation y = Ax + b aus x hervorgehende Zufalls-

vektor y multinormalverteilt ist.

Ist namlich y q-dimensional und a jetzt ein beliebiger q-Vektor, so ist

a′y = a′(Ax + b) = (A′a)′x + a′b ,

was eine Linearkombination der xi ist mit Koeffizientenvektor A′a und additiver

Konstante a′b. Wegen der Multinormalverteilung von x ist also a′y normalver-

teilt, und dies impliziert, da a beliebig war, die Multinormalverteilung von y.


Nachdem multinormalverteilte Vektoren solch schone Eigenschaften haben, fragt

man sich naturlich, ob es uberhaupt welche gibt.

Hier gilt nun der folgende mathematisch schon etwas tiefere und daher hier nur

zitierte Satz:

Feststellung 3. Sind x1, . . . , xp unabhangige normalverteilte Variablen, so ist

x = (x1, . . . , xp)′ multinormalverteilt. �

Dass es unabhangige normalverteilte Variablen gibt, besser: dass sich solche kon-

struieren lassen, ist ebenfalls begrundungsbedurftig, durfte jedoch plausibel sein

und ist auch tatsachlich richtig.

Erstaunlich ist auch der nachste Satz, der partielle Umkehrung des vorangegan-

genen ist und der hier ebenfalls nur zitiert werden kann:

Feststellung 4. Sind x1, . . . , xp gemeinsam normalverteilt und paarweise unkor-

reliert, so sind sie gemeinsam unabhangig. �

Hier folgt also aus der Unkorreliertheit die Unabhangigkeit, was deutlich darauf

hinweist, wie stark der Begriff der gemeinsamen Normalverteiltheit ist.

Um auch den degenerierten Fall einzubeziehen, dass eine oder mehrere der Va-

riablen die Varianz 0 besitzen, durfte man eigentlich nicht von Korrelationen

sprechen, sondern musste fordern, dass die Kovarianzen von je zwei Variablen

immer 0 sind. Diese Formulierung ist jedoch ziemlich unhandlich, so dass es bei

der kleinen Unkorrektheit bleiben soll, die sich ja wie hier so auch in ahnlichen

Fallen im Folgenden leicht korrigieren lasst.

Der erste der beiden Satze zeigt, dass es Multinormalverteilungen gibt, deren

Kovarianzmatrix eine Diagonalmatrix ist, wobei die Diagonalelemente beliebig

vorgegeben werden konnen (sie durfen dabei naturlich nicht negativ sein).

Es stellt sich die Frage, ob es auch Multinormalverteilungen gibt, die eine beliebige

vorgegebene Kovarianzmatrix haben, die naturlich positiv semidefinit sein muss.

Auch den Erwartungswertvektor mochte man vielleicht vorschreiben. In der Tat

gilt:

Feststellung 5. Ist Σ eine positiv semidefinite (p × p)-Matrix und µ ein p-

Vektor, so gibt es eine multinormalverteilte Variable x, deren Erwartungswert µ

und deren Kovarianzmatrix Σ ist.


Man zerlegt namlich beispielsweise Σ nach dem Spektralsatz in Σ = GDG′ und

setzt dann p unabhangige normalverteilte Variablen, deren Erwartungswerte 0

sind, und die als Varianzen die Diagonalelemente von D besitzen, zu einem p-

Zufallsvektor u zusammen. Der Zufallsvektor x = Gu + µ ist dann multinormal

und hat die angestrebten Kennwerte. �

Weiterhin ist die Frage wichtig, ob eine Multinormalverteilung durch Erwartungs-

wertvektor und Kovarianzmatrix schon eindeutig bestimmt ist. Auch diese Frage

kann positiv beantwortet werden:

Feststellung 6. Durch den Erwartungswert µ und die Kovarianzmatrix Σ ist

eine Multinormalverteilung eindeutig bestimmt.

Ist namlich x eine p-dimensionale multinormalverteilte Variable mit diesen Kenn-

werten und schreibt man wieder Σ = GDG′, so ist u = G′x auch multinor-

malverteilt mit Kovarianzmatrix D. Die Komponenten von u sind daher unkor-

reliert und normalverteilt, wegen der gemeinsamen Normalverteilung also auch

unabhangig; damit ist (aufgrund der Unabhangigkeit) ihre gemeinsame Vertei-

lung eindeutig durch die Einzelverteilungen festgelegt. Damit liegt aber auch die

Verteilung von x = Gu eindeutig fest. �

Diese Erorterungen berechtigen dazu, von der Multinormalverteilung mit Erwar-

tungswert µ und Kovarianzmatrix Σ zu sprechen, die kurz mit N(µ,Σ), oder,

wenn die Dimension explizit mit aufgenommen werden soll, mit Np(µ,Σ) bezeich-

net werden soll. Dafur, dass eine Variable x diese Verteilung besitzt, schreibt man

auch kurz x ∼ Np(µ,Σ).

Ist die Kovarianzmatrix Σ einer multinormalverteilten Variable x singular, so hat

sich schon in Kapitel 2.3 gezeigt, dass dann x mit Wahrscheinlichkeit 1 Werte

in dem affinen Unterraum annimmt, dessen zugehoriger linearer Unterraum von

den Spalten von Σ aufgespannt wird und den Erwartungswertvektor µ enthalt.

Ist dagegen Σ regular, so lasst sich die Verteilung von x durch eine Dichtefunktion

charakterisieren, deren Form besonders Interessierten jetzt zumindest plausibel

gemacht werden soll.

Zunachst soll der Fall betrachtet werden, dass p unabhangige standardnormal-

verteilte Variablen z1, . . . , zp vorliegen. Die Dichtefunktion einer standardnormal-


verteilten Variable z ist bekanntlich

1√2π

e−1

2z2.

Da die zi unabhangig sind, besitzen sie eine gemeinsame Dichte, die gleich dem

Produkt der Randdichten ist. Wegen exey = ex+y ist diese gemeinsame Dichte im

Punkt z = (z1, . . . , zp)′ gleich

1√2π

p e−1

2

∑z2i

=1√2π

p e−1

2z′z

.

Man sieht, dass die Dichtefunktion auf den Oberflachen von Kugeln um den

Nullpunkt uberall den gleichen Wert annimmt.

Nun soll es um die Dichtefunktion von x ∼ Np(µ,Σ) gehen. Schreibt man mit

dem Spektralsatz Σ = GDG′ und setzt A = GD1/2, so sind wegen der In-

vertierbarkeit von Σ alle Diagonalelemente von D großer als Null, weshalb A

invertierbar ist und die Eigenschaften AA′ = Σ und A−1ΣA′−1 = I hat.

Die affine Transformation z = A−1(x−µ) (ubrigens eine multivariate z-Transfor-

mation) liefert ein z, welches multinormalverteilt ist mit dem Erwartungswert

A−1(µ − µ) = 0 und der Kovarianzmatrix A−1ΣA′−1 = I. Die Dichtefunktion

von z ist daher gerade die eben beschriebene.

Man kann den Ubergang von x zu z auch als affinen Koordinatenwechsel auffas-

sen. Tut man dies, so ist es nicht unplausibel und auch richtig, dass die Dichte-

funktion im Wesentlichen die gleiche bleibt, nur dass sie in anderen Koordinaten

geschrieben wird – genauer erhalt man die Werte der Dichtefunktion im We-

sentlichen dadurch, dass man die Werte der Dichtefunktion von z einfach fur

das zurucktransformierte x ubernimmt. Eine Anderung muss jedoch noch vorge-

nommen werden: Da sich bei der affinen Transformation die (p-dimensionalen)

Volumina andern, muss die Dichtefunktion mit einem Faktor multipliziert wer-

den, der dies kompensiert (das Gesamtvolumen (jetzt (p+ 1)-dimensional) unter

der Dichtefunkion muss ja 1 bleiben).

Betrachtet man die umgekehrte Transformation von z nach x, so ist deren li-

nearer Anteil gerade A, so dass sich Volumina bei dieser umgekehrten Transfor-

mation um den Faktor | det(A)| andern. Wurde man nun einfach die Werte der

Dichtefunktion von z bei der Rucktransformation beibehalten, so wurden sich

Volumina ebenfalls um den Faktor | det(A)| andern, da sich die Grundflachen


um diesen Faktor andern, wahrend die Hohen gleichbleiben. Die Flache unter der

rucktransformierten Dichtefunktion ware also um den Faktor | det(A)| verkehrt,

was man aber nun leicht dadurch kompensiert, dass man die rucktransformierte

Dichte noch mit 1/| det(A)| multipliziert.

In der folgenden Abbildung wird dies fur den einfachsten Fall einer eindimensio-

nalen Normalverteilung illustriert. Die Variable x soll dabei Erwartungswert 1

und Streuung 1/2 haben. In der folgenden Abbildung findet sich rechts die Dich-

tefunktion der Standardnormalverteilung (mit der Flache 1 unter der Kurve) und

links gepunktet die Funktion, die man erhalt, wenn man die Werte dieser Dichte-

funktion direkt uber die umgekehrte z-Transformation in den x-Raum ubernimmt

(diese Ubernahme ist fur drei konkrete Werte angedeutet). Offenbar wird dabei

die entstehende Flache zu klein, und zwar genauer um den Faktor 1/2, der hier

der Koeffizient bei der Umkehrung der z-Transformation ist (in diesem Fall ist

die Kovarianz’matrix‘ von x gleich (1/4), die

’Matrix‘ A also (1/2) mit Determi-

nante 1/2). Durchgezogen ist daruber die mit 2 multiplizierte rucktransformierte

Dichte, die zur richtigen Gesamtflache 1 fuhrt.

1

.............................................................................................................................................................................................................................................................................................. ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

......................

...................

z..........................................................................

...................................................................

.......................................................

................................................................................................................................................................................................................................................................................................................................................................

.......

.......

.......

.......

...

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.....

1

.................................................................................................................................................................................................................................................................................................................................................... ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

......................

...................

x...........................................

................................................................................................................................................................................................................................................................................................................................................................................................................

...........

.........

......................................................................

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

.

Die Dichtefunktion der Np(µ,Σ)-Verteilung in einem Punkt x ist also gleich der

Dichtefunktion der Np(0, I)-Verteilung im Punkt z = A−1(x−µ), dividiert durch

den Betrag der Determinante von A. Da die Determinante von Σ = AA′ nach

den Rechenregeln fur die Determinante gleich det(A) det(A′) = det(A)2 ist, ist

| det(A)| =√

det(Σ). Die Dichtefunktion der Np(µ,Σ)-Verteilung im Punkt x

wird dann insgesamt zu

1√det(Σ)

√2π

p e−1

2(A−1(x− µ))′(A−1(x− µ))

=

1√det(2πΣ)

e−1

2(x− µ)′A′−1A−1(x− µ)

=

1√det(2πΣ)

e−1

2(x− µ)′Σ−1(x− µ)

.


Man erkennt, dass die Punkte x, an denen diese Funktion einen vorgegebenen

Wert annimmt (im zweidimensionalen liefern solche Punkte eine Hohenlinie der

Dichtefunktion) gerade diejenigen sind, die eine feste Mahalanobisdistanz von µ

haben. Allgemein ist die Menge dieser Punkte also die Oberflache eines Ellipsoids

E(Σ, µ, r) fur geeignetes r.

Die folgende Graphik zeigt einige Hohenlinien der N2(µ,Σ)-Verteilung mit

µ =

(2

1

)und Σ =

(2 .8

.8 .8

):

1

1

....................................................................................................................................................................................................................................................................................................................................................................................... ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......................

...................

x1

x2

p................................................

...................................................................................................................................................................................................................

...............................................................................................................................................................................................................................................

...................................................................................................................................

.................................................................................................................................................................................................................................................................................................

................................

.................................................................................................................................

.........................................................................................................................................................................................................................................................................................................................................................

.........................................

...............................................................................................................................................................

......................................................................................................................................................................................................................................................................................................................................................................................................

.................................

................................................................................................................................................................................................

.............................................................................................................................................................................................................................................................................................................................................................................................................................................

..........................................

.............................................

..............................................................................................................................................................................................................

....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

............................................

.................................

.......................................................................................................................................................................................................................................................................

............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

..............................................

...................................

........................

....................................................................................................................................................................................................................................................................................................

.............................

............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

..........................................

..................................

............................

Nun sollen mehrere Zufallsvektoren auf einmal betrachtet werden. Nutzlich ist

die folgende Sprechweise:

Zwei Zufallsvektoren x und y heißen gemeinsam (multi)normalverteilt, falls der

Zufallsvektor, der dadurch entsteht, dass man x und y aneinanderfugt, multinor-

malverteilt ist.

Das Aneinanderfugen macht dabei aus einem p-Vektor x = (x1, . . . , xp)′ und

einem q-Vektor y = (y1, . . . , yq)′ den (p+q)-Vektor (x1, . . . , xp, y1, . . . , yq)

′. Dabei

mussen x und y naturlich auf dem gleichen Wahrscheinlichkeitsraum definiert

sein – man konnte beispielsweise an zwei mehrdimensionale Merkmale auf der

gleichen Population denken (die, am Rande bemerkt, dann aber uberabzahlbar

unendlich (!) groß sein musste).

Die Verteilung des aus zwei Variablen x und y zusammengesetzten Vektors soll

auch die gemeinsame Verteilung von x und y heißen.

Zwei unmittelbar folgende Eigenschaften gemeinsam normalverteilter Variablen

sollen gleich genannt werden:

Feststellung 7. Sind x und y gemeinsam multinormalverteilt und sind die Zu-


fallsvektoren u = Ax + b und v = Cy + d affine Transformationen, so sind auch

u und v gemeinsam multinormalverteilt.

Man erhalt namlich den aus u und v zusammengesetzten Vektor als affine Trans-

formation des aus x und y zusammengesetzten, wenn man als linearen Anteil die

Matrix (A 0

0 C

)wahlt und als Verschiebung den aus b und d zusammengesetzten Vektor. �

Als zweite unmittelbare Konsequenz ergibt sich beispielsweise

Feststellung 8. Die Summe x + y von zwei gemeinsam multinormalverteilten

p-Vektoren x und y ist auch multinormalverteilt.

Der Vektor x + y ergibt sich namlich aus dem aus x und y zusammengesetzten

Vektor durch Anwendung der linearen Abbildung(I I

),

die sich aus zwei (p× p)-Einheitsmatrizen zusammensetzt. �

Ebenso argumentiert man fur Differenzen und allgemeiner fur Linearkombinatio-

nen.

Ganz analog ist die gemeinsame Multinormalverteiltheit fur mehr als zwei Zu-

fallsvektoren definiert; als Konsequenzen erhalt man beispielsweise, dass affi-

ne Transformationen y1, . . . ,ym von gemeinsam multinormalverteilten Vektoren

x1, . . . ,xm auch wieder gemeinsam multinormalverteilt sind, oder dass jede Line-

arkombination∑aixi von gemeinsam multinormalverteilten Vektoren xi ihrer-

seits multinormalverteilt ist.

Dass bei gemeinsam normalverteilten Variablen Unabhangigkeit und Unkorre-

liertheit zusammenfallen, vererbt sich auf gemeinsam multinormalverteilte, wie

jetzt gezeigt werden soll.

Sind zunachst zwei unabhangige Variablen x und y jeweils multinormalverteilt,

so sind sie auch gemeinsam multinormalverteilt, denn eine Linearkombination aus

den Komponenten xi von x und yj von y lasst sich durch Umordnen als Sum-

me einer Linearkombination der xi und einer Linearkombination der yj schreiben.

Diese beiden Linearkombinationen sind jedoch unabhangig, da sie Funktionen un-

abhangiger Variablen sind, und andererseits normalverteilt. Folglich ist auch ihre


Summe normalverteilt, und das war zu zeigen. Die Matrix C(x,y) der Kovarian-

zen von zwei solchen unabhangigen Variablen x und y ist ubrigens offensichtlich

gleich 0.

Sind dagegen zwei Variablen x und y gemeinsam multinormalverteilt und ist die

Matrix ihrer Kovarianzen gleich 0, so sind sie unabhangig. Zur Begrundung be-

trachtet man zwei Variablen, die die gleiche Verteilung wie x und y haben und

zusatzlich unabhangig sind. Deren gemeinsame Verteilung hat dann den gleichen

Erwartungswert und die gleiche Kovarianzmatrix wie die gemeinsame Verteilung

von x und y und ist ebenfalls eine Multinormalverteilung. Da Multinormalver-

teilungen jedoch durch Erwartungswert und Kovarianzmatrix bereits vollstandig

bestimmt sind, mussen die beiden Verteilungen ubereinstimmen und folglich auch

x und y unabhangig sein.

Diese Definitionen und Argumente lassen sich ohne weiteres auf mehr als zwei

Variablen ubertragen, und man erhalt zusammenfassend:

Feststellung 9. Sind x1, . . . ,xm gemeinsam unabhangig und jeweils multinor-

malverteilt, so sind sie auch gemeinsam multinormalverteilt. �

Feststellung 10. Sind x1, . . . ,xm gemeinsam multinormalverteilt, so sind sie

gemeinsam unabhangig genau dann, wenn die Matrizen der Kovarianzen von je

zwei verschiedenen Variablen alle die Nullmatrix sind. �

Haufig kommt die Situation vor, dass man aus einer multinormalverteilten Va-

riable x mit Hilfe von verschiedenen affinen Abbildungen mehrere neue Variable

yi = Aix + bi herstellt. Dann kann man die aus den yi zusammengesetzte Varia-

ble auch durch eine geeignete affine Abbildung aus x gewinnen (der lineare Anteil

besteht gerade aus den untereinander zu einer großen Matrix zusammengesetzten

Ai, wahrend die Verschiebung der aus den bi zusammengesetzte Vektor ist). Die

yi sind folglich gemeinsam multinormalverteilt. Ist Σ die Kovarianzmatrix von x,

so ist die Matrix der Kovarianzen C(yi,yj) gleich AiΣA′j. Ist eine solche Matrix

C(yi,yj) gleich 0, so sind yi und yj unabhangig, sind alle (fur i 6= j) gleich der

Nullmatrix, so sind die yi sogar gemeinsam unabhangig.

Feststellung 11. Sind y1, . . . ,yk Variable, die durch affine Transformationen

mit linearen Anteilen A1, . . . ,Ak aus einer multinormalverteilten Variable x mit

Kovarianzmatrix Σ hervorgehen, so sind diese Variablen auch gemeinsam multi-

normalverteilt. Die Matrix der Kovarianzen C(yi,yj) von yi und yj ist AiΣA′j.

Ist C(yi,yj) gleich 0, so sind yi und yj unabhangig. Sind alle C(yi,yj) fur i 6= j


gleich 0, so sind die yi gemeinsam unabhangig. �

Univariate Anwendungen. Die Ergebnisse der letzten Abschnitte gestatten

es, im Univariaten einige bekannte Sachverhalte einfach zu begrunden.

Feststellung 12. Es seien x1, . . . , xn unabhangige normalverteilte Variable mit

gleichem Erwartungswert µ und gleicher Varianz σ2. Dann sind Mittelwert x und

korrigierte Stichprobenvarianz s2 unabhangig, und es gilt

x ∼ N(µ, σ2/n) und (n− 1)s2 ∼ σ2χ2n−1 .

Die Formulierung (n − 1)s2 ∼ σ2χ2n−1 ist definitionsgemaß gleichwertig zu der

Aussage (n− 1)s2/σ2 ∼ χ2n−1.

Zur Begrundung setzt man die xi zu einem Zufallsvektor x zusammen, fur den

dann x ∼ Nn(µ1, σ2I) gilt. Ist nun wie im ersten Abschnitt L eine Orthonor-

malbasis des zu 1 senkrechten Unterraums, so sind 1′x und u = L′x gemeinsam

normalverteilt, und die Matrix ihrer Kovarianzen ist

1′(σ2I)L′′ = σ21′L = 0 ,

weshalb 1′x und u unabhangig sind und damit auch Mittelwert x = 1′x/n und

korrigierte Stichprobenvarianz s2 = u′u/(n − 1), die sich ja als Funktionen aus

diesen Variablen ergeben (’damit‘ sollte intuitiv einleuchten, bedurfte jedoch ei-

gentlich noch einer Begrundung). Die Verteilung des Mittelwertes ist schon be-

kannt, es bleibt die von s2 zu bestimmen. Zunachst gilt

u ∼ N(L′(µ1),L′(σ2In)L′′) = N(0, σ2L′L) = N(0, σ2In−1) .

Teilt man also die Komponenten von u durch σ, so erhalt man (n− 1) standard-

normalverteilte Variable. Es ergibt sich

u′u/σ2 =n−1∑i=1

(ui/σ)2 ∼ χ2n−1 ,

und da s2 = u′u/(n− 1) ist, folgt die letzte Behauptung uber die Verteilung von

s2. �

Wesentlich in der Begrundung war die Moglichkeit, Mittelwert und Varianz aus

normalverteilten Variablen herzustellen, die aus x durch Projektionen auf ortho-

gonale Unterraume hervorgehen. Die Orthogonalitat der Unterraume fuhrt dann


zur Unabhangigkeit der neuen Variablen. Dies ist der zentrale Gedanke auch bei

vielen folgenden Argumentationen.

Die empirische Varianz ergab sich eben bis auf einen Vorfaktor als der quadrierte

Abstand des auf einen Unterraum projizierten Datenvektors zum Nullpunkt. Das

Ergebnis war (bis auf einen Faktor) χ2-verteilt, wobei die Anzahl der Freiheits-

grade gleich der Dimension des Unterraums war.

Derartige Situationen tauchen haufig auf und sollen deshalb etwas allgemeiner

untersucht werden.

Ausgangspunkt ist eine Variable x aus n Komponenten, die multinormalverteilt

sein soll mit einem Erwartungswert µ und der Kovarianzmatrix σ2In – die Situa-

tion ist also insofern etwas allgemeiner als die eben betrachtete, als die Erwar-

tungswerte der xi nicht ubereinstimmen mussen.

Nun soll x durch eine orthogonale Projektion P auf einen Unterraum U der

Dimension m projiziert werden. Gefragt ist nach der Verteilung von ‖Px‖2, also

der quadrierten Lange des projizierten Zufallsvektors Px.

Die zu untersuchende neue Variable ‖Px‖2 lasst sich ubrigens wegen

‖Px‖2 = (Px)′(Px) = x′P′Px = x′Px

(man beachte, dass P orthogonale Projektion ist) auch als x′Px schreiben, was

die passendere Formulierung fur spatere multivariate Verallgemeinerungen ist.

Zur Beantwortung der Frage nach der Verteilung dieser Variablen versieht man U

zunachst wieder mit einer Orthonormalbasis, die jetzt so gewahlt werden kann,

dass der erste Basisvektor ein positives Vielfaches von Pµ ist (falls Pµ gleich

0 ist, entfallt diese Bedingung). Die Vektoren der Basis seien wieder zu einer

(n × m)-Matrix L zusammengestellt. Fur diese Matrix gilt also L′L = Im und

außerdem P = L(L′L)−1L′ = LL′; ferner erhalt man die Koordinaten u von Px

bezuglich der gewahlten Basis mit Hilfe der Matrix (L′L)−1L′ = L′ als u = L′x.

Damit gilt

‖Px‖2 = x′Px = x′LL′x = (L′x)′(L′x) = u′u ,

was man auch alternativ leicht wegen der Tatsache einsieht, dass man Skalar-

produkte in einem Unterraum aquivalent auch mit den Koordinatenvektoren

bezuglich einer Orthonormalbasis bilden kann.


Es bleibt die Verteilung von u′u zu untersuchen. Fur die Verteilung von u gilt

u ∼ Nm(L′µ,L′(σ2In)L′′) = Nm(L′µ, σ2L′L) = Nm(L′µ, σ2Im) .

Zunachst ist L′µ zu bestimmen. Nach Wahl der Basis kann aber hier nur die

erste Komponente von 0 verschieden sein; sie ist genauer gleich ‖Pµ‖. Dividiert

man jetzt wieder die Komponenten von u durch σ, so erhalt man unabhangige

normalverteilte Variablen, die alle Varianz 1 haben, und von denen nur die erste

einen (moglicherweise) von Null verschiedenen Erwartungswert besitzt, namlich

δ := ‖Pµ‖/σ ≥ 0. Daher gilt

‖Px‖2/σ2 = u′u/σ2 =m∑i=1

(ui/σ)2 ∼ χ2m, δ2 mit δ2 = ‖Pµ‖2/σ2 .

Feststellung 13. Ist x ∼ Nn(µ, σ2I) und P eine orthogonale Projektion auf

einen Unterraum der Dimension m, so gilt

‖Px‖2 ∼ σ2χ2m, δ2 mit δ2 = ‖Pµ‖2/σ2 . �

Alternativ kann man dies auch formulieren als

x′Px ∼ σ2χ2m, δ2 mit δ2 = µ′Pµ/σ2 ;

in beiden Formulierungen erkennt man ubrigens, dass der Nonzentralitatspara-

meter δ2 aus µ genauso gebildet wird wie die untersuchte Variable aus x (bis auf

die Division durch σ2).

Ein Spezialfall ist der, dass die Projektion die identische Abbildung I ist, wobei

naturlich auf den Rn selber’projiziert‘ wird. Es folgt:

‖x‖2 ∼ σ2χ2n, δ2 mit δ2 = ‖µ‖2/σ2 .

Es sollen nun zunachst zwei Schlussfolgerungen gezogen werden, die die χ2-

Verteilung betreffen.

Feststellung 14. Sind x1, . . . , xn unabhangige normalverteilte Variablen, die alle

die gleiche Varianz σ2 besitzen und Erwartungswerte µi ∈ R, so gilt∑x2i ∼ σ2χ2

n, δ2 mit δ2 =∑

µ2i

/σ2 .


Hier wahlt man als orthogonale Projektion die identische Abbildung I und beruck-

sichtigt, dass der Erwartungswert der zu x zusammengefassten Variablen gleich

(µ1, . . . , µn)′ ist. �

Ein Spezialfall ist hier der, dass alle Varianzen 1 sind; dann ist die Summe

der quadrierten Variablen χ2-verteilt mit n Freiheitsgraden und dem Nonzentra-

litatsparameter, der sich als Summe der quadrierten Erwartungswerte errechnet.

Die nachste Folgerung betrifft die Summe von zwei unabhangigen χ2-Variablen.

Feststellung 15. Sind u1 ∼ χ2n1, δ21

und u2 ∼ χ2n2, δ22

unabhangig, so gilt

u1 + u2 ∼ χ2n1+n2, δ21+δ

22.

Die Summe unabhangiger χ2-verteilter Variablen ist also wieder χ2-verteilt, wobei

sich die Freiheitsgrade und die Nonzentralitatsparameter addieren.

Zur Begrundung wahlt man n1 + n2 unabhangige normalverteilte Variablen xi,

die alle die Varianz 1 haben, und deren Erwartungswerte alle 0 sind bis auf die

von x1 und xn1+1, die δ1 und δ2 sein sollen. Bildet man dann v1 als Summe der

quadrierten ersten n1 Variablen und v2 als Summe der quadrierten letzten n2,

so sind v1 und v2 unabhangig und haben die gleichen Verteilungen wie u1 und

u2. Da wegen der Unabhangigkeitsvoraussetzung auch die gemeinsame Verteilung

von (u1, u2) mit der von (v1, v2) ubereinstimmt, folgt, dass auch die Verteilungen

von u1 +u2 und v1 + v2 gleich sind. Da v1 + v2 aber die Summe aller x2i ist, ergibt

sich die Behauptung unmittelbar aus der letzten Feststellung. �

Naturlich gilt eine entsprechende Feststellung bei analoger Begrundung auch fur

die Summe von mehr als zwei unabhangigen χ2-verteilten Variablen. Allgemeiner

folgert man daraus (mit Division durch σ2) auch, dass fur die Summe u von

unabhangigen Variablen ui ∼ σ2χ2ni, δ2i

auch wieder u ∼ σ2χ2n, δ2 gilt mit n =

∑ni

und δ2 =∑δ2i .

In den hier betrachteten Situationen einer N(µ, σ2I)-verteilten Variable x kommt

es oft vor, dass man nicht nur mit einer Projektion arbeitet, sondern mit mehre-

ren, oder dass auch noch eine Linearkombination der Variablen eine Rolle spielt.

Wichtig ist es dann oft, dass die auf diese Weise entstehenden Variablen un-

abhangig sind.

Es seien also jetzt bei weiter gleichen Voraussetzungen P1 und P2 zwei ortho-

gonale Projektionen auf Unterraume U1 und U2. Sind die Unterraume, auf die


jeweils projiziert wird, orthogonal, so sind ‖P1x‖2 und ‖P2x‖2 unabhangig.

Sind namlich L1 und L2 wieder Orthonormalbasen von U1 und U2 und u1 = L′1x

und u2 = L′2x die Koordinatenvektoren der Projektionen von x bezuglich der

gewahlten Basen, so sind u1 und u2 gemeinsam normalverteilt und haben als

Matrix der Kovarianzen

C(u1,u2) = L′1(σ2I)L′′2 = σ2L′1L2 = 0

wegen der Orthogonalitat der beiden Unterraume. Folglich sind u1 und u2 und

damit auch ‖P1x‖2 und ‖P2x‖2 unabhangig. Entsprechend argumentiert man

fur mehrere Unterraume und erhalt

Feststellung 16. Ist x ∼ Nn(µ, σ2I) und sind P1, . . . ,Pk orthogonale Projek-

tionen auf paarweise orthogonale Unterraume, so sind die Variablen ‖Pix‖2 ge-

meinsam unabhangig. �

Genauso argumentiert man, wenn neben einer orthogonalen Projektion Px noch

eine affine Transformation y = Ax + b betrachtet wird. Falls dann die Zeilen

von A senkrecht auf dem Unterraum U stehen, auf den projiziert wird, so sind

y und ‖Px‖2 unabhangig. Ist namlich wie eben L eine Orthonormalbasis von U

und u = L′x, so ist die Kovarianzmatrix von y und u gleich σ2AL = 0.

Feststellung 17. Ist x ∼ Nn(µ, σ2I), ferner P eine orthogonale Projektion auf

einen Unterraum U und y = Ax + b, wobei die Zeilen von A senkrecht auf U

stehen (d.h. AP = 0), so sind die Variablen ‖Px‖2 und y unabhangig. �

In den beiden vorangehenden Feststellungen kann man naturlich ‖Pix‖2 bzw.

‖Px‖2 auch durch x′Pix bzw. x′Px ersetzen, was die Formulierungen den spateren

multivariaten Verallgemeinerungen ahnlicher macht.

Als eine letzte univariate Anwendung soll nun noch die einfaktorielle Varianzana-

lyse besprochen werden. In J Bedingungen sollen also Daten erhoben werden, wo-

bei die Anzahl der Daten yij in Bedingung j gleich nj ist. Es werden die ublichen

Voraussetzungen gemacht, namlich die, dass die yij gemeinsam unabhangig sind

und als Verteilungen Normalverteilungen mit Erwartungswerten µj und Varianz

σ2 besitzen.

Fasst man nun wie schon in Kapitel 2.2 die Daten zu einem Zufallsvektor der

Lange N zusammen, so kann man die Voraussetzungen jetzt auch so formulieren,

dass y eine N(µ, σ2IN)-Verteilung besitzt, wobei der Erwartungswertvektor µ

dadurch entsteht, dass man alle Daten yij durch ihre Erwartungswerte µj ersetzt.


Damit liegt genau die gerade besprochene Situation vor. In Kapitel 2.2 hatte

sich bereits ergeben, dass die Quadratsummen SSb und SSw auch interpretiert

werden konnen als die quadrierten Langen des auf Unterraume Vb und Vw pro-

jizierten Datenvektors; sind die zugehorigen Projektionen wieder Pb und Pw,

so war SSb = ‖Pby‖2 = y′Pby und SSw = ‖Pwy‖2 = y′Pwy, wobei die Al-

ternativschreibweisen schon im Hinblick auf die multivariate Varianzanalyse mit

angefuhrt werden.

Die beiden Unterraume Vb und Vw hatten die Dimensionen J − 1 und N − J

und waren zudem orthogonal. Es folgt nun, dass damit SSb/σ2 und SSw/σ

2

unabhangige χ2-Verteilungen mit J − 1 und N − J Freiheitsgraden besitzen,

deren Nonzentralitatsparameter ‖Pbµ‖2/σ2 und ‖Pwµ‖2/σ2 sind.

Die Werte von ‖Pbµ‖2 und ‖Pwµ‖2 wurden in Kapitel 2.2 schon bestimmt zu∑njα

2j und 0, wobei die αj gerade die Effektgroßen µj − µ sind. Die Nonzentra-

litatsparameter sind daher δ2 =∑njα

2j/σ

2 und 0.

Zusammengefasst sind also SSb ∼ σ2χ2J−1, δ2 und SSw ∼ σ2χ2

N−J unabhangig.

Damit kann schließlich die Verteilung des F -Bruchs bestimmt werden: Wegen

F =MSbMSw

=SSb/(J − 1)

SSw/(N − J)

und Feststellung 2 gilt

F ∼ FJ−1, N−J, δ2 mit δ2 =∑

njα2j

/σ2 .

Unter der Nullhypothese der Gleichheit aller µj ist der Nonzentralitatsparameter

0 und die Verteilung eine (zentrale) FJ−1, N−J -Verteilung, weshalb man nahelie-

genderweise als Regel fur den Test, ob alle µj gleich sind, auf dem Signifikanzni-

veau α die Regel wahlt, die Nullhypothese dann zu verwerfen, wenn sich

F ≥ FJ−1, N−J ;α

ergibt.

Den von den wahren µj und σ2 abhangenden Nonzentralitatsparameter δ2 kann

man schließlich zur Bestimmung der Power des Tests verwenden.

Mahalanobisdistanz bei Normalverteilung. In diesem Abschnitt soll die

Mahalanobisdistanz vom Erwartungswert bei einer Np(µ,Σ)-verteilten Variable


x mit invertierbarer Kovarianzmatrix Σ untersucht werden. Die quadrierte Ma-

halanobisdistanz eines Punktes x zu µ ist

(x− µ)′Σ−1(x− µ) ;

sie taucht beipielsweise im Exponenten der Dichtefunktion der Multinormalver-

teilung auf.

Schreibt man nun Σ = LL′ mit geeignetem L, so ist Σ−1 = L′−1L−1 und die

quadrierte Mahalanobisdistanz daher

(x− µ)′L′−1L−1(x− µ) = (L−1(x− µ))′(L−1(x− µ)) = ‖L−1(x− µ)‖2 .

Nun gilt

L−1(x− µ) ∼ Np(L−1(µ− µ),L−1ΣL′−1) = Np(0, I) ,

die quadrierte Norm dieser Variable ist also die Summe von p unabhangigen qua-

drierten standardnormalverteilten Variablen und folglich χ2p-verteilt. Insgesamt

gilt also

(x− µ)′Σ−1(x− µ) ∼ χ2p .

Hiermit kann berechnet werden, mit welcher Wahrscheinlichkeit sich Datenpunkte

in den Ellipsoiden E(Σ, µ, r) aufhalten, denn dies ist gleichbedeutend damit, dass

die Mahalanobisdistanz zu µ hochstens r ist.

Da der Mittelwert aus mehreren Beobachtungen auch wieder multinormalverteilt

ist, kann man dies Ergebnis benutzen, um Konfidenzbereiche fur µ bei bekanntem

Σ zu bestimmen, die dann wie erwartet kleiner ausfallen als die mit Hilfe der

Tschebyscheffschen Ungleichung ermittelten.

Gelegentlich braucht man auch die Verteilung der quadrierten Mahalanobisdi-

stanz zu einem Wert µ0, der vom Erwartungswertvektor verschieden sein kann.

Es wird nicht uberraschen, dass sich auch hier eine χ2-Verteilung ergibt, wenn

auch eine nonzentrale.

Zu untersuchen ist also nun (x−µ0)′Σ−1(x−µ0). Wahlt man wieder ein L mit

Σ = LL′, so ist die gesuchte quadrierte Mahalanobisdistanz wie oben

(x− µ0)′L′−1L−1(x− µ0) = (L−1(x− µ0))

′(L−1(x− µ0)) = ‖L−1(x− µ0)‖2.

Hier gilt

L−1(x− µ0) ∼ Np(L−1(µ− µ0),L

−1ΣL′−1) = Np(L−1(µ− µ0), I) .

2.6 Multivariate Varianzanalyse MS13 168

Schreibt man fur L−1(x − µ0) abkurzend y, so folgt aus der Bemerkung nach

Feststellung 13 (das dortige σ2 ist hier 1), dass ‖y‖2 eine χ2p, δ2-Verteilung besitzt

mit dem Nonzentralitatsparameter

δ2 = ‖L−1(µ− µ0)‖2

= (µ− µ0)′L′−1L−1(µ− µ0)

= (µ− µ0)′Σ−1(µ− µ0) ,

der gerade die quadrierte Mahalanobisdistanz von µ zu µ0 ist. Da ‖y‖2 die unter-

suchte quadrierte Mahalanobisdistanz von x und µ0 ist, folgt zusammenfassend

die nachste Feststellung.

Feststellung 18. Ist x eine Np(µ,Σ)-verteilte Variable mit invertierbarer Ko-

varianzmatrix Σ, so hat die quadrierte Mahalanobisdistanz

(x− µ0)′Σ−1(x− µ0)

von x zu einem festen Wert µ0 eine χ2p, δ2-Verteilung mit p Freiheitsgraden und

Nonzentralitatsparameter

δ2 = (µ− µ0)′Σ−1(µ− µ0) .

Im Fall µ0 = µ ist δ2 = 0 und die Verteilung zentral. �

2.6 Multivariate Varianzanalyse

In diesem Kapitel sollen grundlegende Aspekte der multivariaten Varianzana-

lyse behandelt werden. Nach der Aufstellung der Hypothesen werden die fur

die Prufstatistiken zentralen Matrizen B und W eingefuhrt. Danach werden die

wichtigsten Prufverfahren vorgestellt, die allerdings hier noch nicht im Detail

begrundet werden konnen, da die benotigten Verteilungen noch nicht bekannt

sind; viele fur genauere Untersuchungen notige Tatsachen werden jedoch schon

bereitgestellt.

Die Hypothesen der multivariaten Varianzanalyse. Der Unterschied zur

univariaten Varianzanalyse liegt bei der multivariaten Varianzanalyse in der Zahl

der abhangigen Variablen. Wahrend bei der univariaten Varianzanalyse nur eine

abhangige Variable untersucht wird, geht es hier um p Variablen Y1, . . . , Yp die

zu einer p-dimensionalen Variable Y zusammengefasst sein sollen (die Bezeich-

nung der Variablen mit Y und nicht mit X folgt einer verbreiteten Tradition).

Zur Terminologie ist zu bemerken, dass diese Variablen Variablen im informellen


Sinn sind und keine Zufallsvariablen im statistischen Sinn; Zufallsvariablen wer-

den erst eingefuhrt im Rahmen eines Modells der Verteilung der Variablen unter

bestimmten Versuchsbedingungen oder in verschiedenen Populationen.

Man konnte sich beispielsweise nach der Auswirkung unterschiedlicher Entspan-

nungsinduktionen auf die korperliche Befindlichkeit fragen. Halt man mehrere

physiologische Werte als Entspannungsindikatoren fur relevant, so wird man al-

le diese Werte bei den Versuchspersonen messen und die Ergebnisse jeweils in

einem Datenvektor zusammenfassen, dessen Lange p gerade gleich der Anzahl

der untersuchten physiologischen Variablen ist. Statt nur eines Wertes liefert jede

Versuchsperson jetzt also einen ganzen Datenvektor mit p Komponenten.

Wenn allgemein die Anzahl der Versuchsbedingungen gleich J ist, so soll nun

in jeder dieser Bedingungen der p-dimensionale Datenvektor (bestehend aus den

Werten der Variablen Y1, . . . , Yp) mehrfach erhoben werden, in den Standardbei-

spielen an mehreren Versuchspersonen oder Versuchsobjekten.

Da man das Ergebnis einer einmaligen Erhebung eines Datenvektors in einer

Bedingung als Resultat auch von Zufallseinflussen betrachtet (da es beispielsweise

von der zufallig ausgewahlten Versuchsperson abhangen kann), wird man dieses

Ergebnis mit Hilfe eines p-dimensionalen Zufallsvektors modellieren wollen. Fur

die j-te Bedingung sei dieser Zufallsvektor gleich yj.

Der (unbekannte) Erwartungswertvektor von yj sei nun µj, und die Frage, die

durch die Untersuchung zu beantworten ist, ist die, ob sich die µj aus den ver-

schiedenen Bedingungen unterscheiden oder nicht. Dass man so die Ausgangs-

fragestellung prazisiert, liegt nahe, da man ja annehmen wird, dass sich in den

µj die systematischen, vom Zufall gereinigten Wirkungen der Bedingungsstufen

widerspiegeln.

Die zu testenden Hypothesen der multivariaten Varianzanalyse sind analog zu

denen der univariaten

H0 : µ1 = µ2 = . . . = µJ

H1 : nicht H0 .

Hier wird also gleichzeitig in p Dimensionen nach Unterschieden gesucht; die

Betrachtungsweise ist daher nicht mehr eindimensional wie in der univariaten

Varianzanalyse sondern p-dimensional.


Die Matrizen T, B und W. Zur Beantwortung der in den Hypothesen formu-

lierten Frage liegt es in Analogie zur univariaten Varianzanalyse nahe, zunachst

in jeder Bedingung den Mittelwertvektor der Beobachtungen zu bilden, der ja

als Schatzung fur den Erwartungswertvektor dienen kann. Danach wird man un-

tersuchen, wie groß die Variation dieser Mittelwertvektoren ist, und ob sich An-

haltspunkte fur die Annahme ergeben, dass mehr als nur der Zufall fur deren

Verschiedenheit verantwortlich ist. Dazu wird man in geeigneter Weise die Va-

riation der Mittelwertvektoren vergleichen mit der Variation der Beobachtungen

innerhalb der einzelnen Bedingungen, die als ausschließlich zufallsbedingt ange-

sehen werden.

Die Untersuchung soll nun konkret so aussehen, dass in der j-ten Bedingung njWerte (also Datenvektoren) erhoben werden, wobei

∑nj = N gilt. In dem Fall,

dass die Daten von unterschiedlichen Versuchspersonen geliefert werden, ist njalso die Anzahl der Versuchspersonen in der j-ten Bedingung oder – wie man

auch sagt – in der j-ten Zelle.

Zur besseren Illustration der Datenverrechnung soll nun in einem Beispiel ange-

nommen werden, dass bereits Daten einer Untersuchung vorliegen, bei der in drei

Bedingungen zwei Variable Y1 und Y2 erhoben worden sind. Konkret konnte es

sich darum handeln, die Auswirkungen von zwei Entspannungsverfahren auf die

Herzrate und den Hautwiderstand zu untersuchen, wobei als dritte Bedingung

noch eine Kontrollgruppe vorhanden ist.

Die Anzahl der Beobachtung in den einzelnen Bedingungen sei 3, 2 und 3; es gilt

hier also insgesamt J = 3, n1 = 3, n2 = 2, n3 = 3, N = 8 und p = 2.

Die folgende Datenmatrix Y enthalt nacheinander die Ergebnisse aus den einzel-

nen Bedingungen; zur besseren Verdeutlichung der Grenzen zwischen den Zellen

sind die entsprechenden Zwischenraume etwas großer.

Y =

8 2

7 1

6 3

3 2

1 4

7 3

4 5

4 4


Als erstes wird man hier die Mittelwertvektoren der drei Zellen bestimmen, die

hier yj heißen sollen; auch der Mittelwertvektor aller Beobachtungen y wird

gelegentlich gebraucht. Es ergibt sich

y1 =

(7

2

), y2 =

(2

3

), y3 =

(5

4

)und y =

(5

3

).

Da hier die Dimension p des Datenvektors nur 2 ist, kann man sich die Datensi-

tuation auch graphisch leicht veranschaulichen:

1

1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................

...................

y1

y2

rrrb

bue

Die Werte in unterschiedlichen Zellen sind hier mit verschiedenen Symbolen ein-

getragen und die Zentroide der einzelnen Zellen mit dem jeweils zugehorigen

vergroßerten Symbol.

In der univariaten Varianzanalyse zerlegt man die durch SSt erfasste Gesamt-

variation der Daten in einen Anteil SSb, der die Variation der Zellmittelwerte

wiederspiegelt, und einen Anteil SSw, der die Variation innerhalb der Zellen wie-

dergibt. Man erhalt so die Quadratsummenzerlegung

SSt = SSb + SSw .

Es hat sich schon gezeigt, dass man die Quadratsummen aus dem Datenvektor

y mit Hilfe von orthogonalen Projektionen erhalt, genauer gilt SSt = y′Pty,

SSb = y′Pby und SSw = y′Pwy. Die Bilder der Projektionen Pt, Pb und Pw

haben dabei die Dimensionen N − 1, J − 1 und N − J , wobei die Bilder von Pb

und Pw orthogonal sind. Die Matrix Pt ist die Zentriermatrix. Ferner gilt

Pt = Pb + Pw ,

woraus durch Multiplikation von y′ von links und y von rechts noch einmal die

Quadratsummenzerlegung folgt:

y′Pty = y′Pby + y′Pwy

SSt = SSb + SSw .


Es ist naheliegend, in der multivariaten Varianzanalyse analog vorzugehen. Der

Unterschied ist nur, dass der Datenvektor durch die Datenmatrix ersetzt wird.

Man erhalt so die folgende Gleichung, deren Bestandteile in der nachsten Zeile

noch einmal abgekurzt werden:

Y′PtY = Y′PbY + Y′PwY

T = B + W .

Die Matrizen in der unteren Zeile sind offenbar symmetrische (p × p)-Matrizen.

Da orthogonale Projektionen positiv semidefinit sind (sie sind ja symmetrisch

und haben keine negativen Eigenwerte), sind auch die Matrizen T, B und W

positiv semidefinit.

Dabei ist der Rang von B hochstens J − 1, denn er kann nicht großer sein als der

Rang von Pb, und dieser ist gleich der Dimension des Bildes von Pb, also J − 1.

Die Matrizen B und W spielen bei der statistischen Behandlung der multivariaten

Varianzanalyse eine ahnlich wichtige Rolle wie die Quadratsummen SSb und SSwim Univariaten, deren Verallgemeinerung sie ja auch sind.

Tatsachlich spiegeln auch hier die Matrizen T, B und W die Gesamtvariation der

Daten, die Variation der Mittelwertvektoren und die Variation der Daten inner-

halb der Zellen wider, so dass man auch in dieser Hinsicht eine Verallgemeinerung

der univariaten Varianzzerlegung vor sich hat. Dies wird schon von der Definition

nahegelegt, soll jedoch auch noch weiter begrundet werden.

Zunachst sollen jedoch die Matrizen T = Y′PtY, B = Y′PbY und W = Y′PwY

fur die Beispieldaten bestimmt werden. Hier ergibt sich

T =

(40 −12

−12 12

), B =

(30 −6

−6 6

), W =

(10 −6

−6 6

),

womit man auch die Gleichung T = B + W unmittelbar nachpruft.

Nun sollen die Matrizen T, B und W genauer in Augenschein genommen werden.

Da Pt die Zentriermatrix ist, erweist sich zunachst T als SSCP-Matrix aller

Daten ohne Berucksichtigung der Gruppierung in einzelne Zellen. Als Vorstufe

der Kovarianzmatrix ist T ein Indikator dafur, wie stark die Daten (multivariat)

um den Gesamtmittelwertvektor streuen.

Bei der Untersuchung der Matrizen B und W ist die Projektion P nutzlich, die

bei einem Datenvektor alle Werte durch die zugehorigen Zellmittelwerte ersetzt.


Diese Projektion ist schon aus der Behandlung der univariaten Varianzanalyse

mit Hilfe von Projektionen bekannt, wo auch die Gleichung Pb = PtP = PPt

hergeleitet wurde.

Wendet man P auf die Datenmatrix Y an, so erhalt man das Ergebnis, indem

man P auf die Spalten von Y anwendet und die Ergebnisspalten wieder zu einer

Matrix zusammensetzt. Die Spalten von Y sind jedoch gerade die Datenvektoren

der einzelnen Variablen. Im Produkt PY sind also variablenweise alle Daten

durch die zugehorigen Zellmittelwerte ersetzt.

Analog sieht man, dass PwY wegen der Eigenschaften von Pw aus Y dadurch

entsteht, dass alle Daten variablenweise durch die Abweichungen vom zugehorigen

Zellmittelwert ersetzt werden.

Zur Veranschaulichung sollen PY und PwY fur die Beispieldaten Y bestimmt

werden. Es gilt hier

Y =

8 2

7 1

6 3

3 2

1 4

7 3

4 5

4 4

, PY =

7 2

7 2

7 2

2 3

2 3

5 4

5 4

5 4

, PwY =

1 0

0 −1

−1 1

1 −1

−1 1

2 −1

−1 1

−1 0

.

In der Tat werden also bei beiden Variablen die Daten durch die zugehorigen

Zellmittelwerte beziehungsweise durch die Abweichungen der Daten von den Zell-

mittelwerten ersetzt.

Da P eine orthogonale Projektion ist, gilt P2 = P und P′ = P, woraus man in

Verbindung mit der Vertauschbarkeit von P und Pt folgert, dass Pb = PtP =

PtP2 = PPtP = P′PtP gilt. Damit kann man umformen:

B = Y′PbY = Y′(P′PtP)Y = (PY)′Pt(PY) .

Da Pt die Zentriermatrix ist, folgt, dass B die SSCP-Matrix von PY ist, also der

Matrix, in der jeder Datenvektor durch den zugehorigen Zellenmittelwert ersetzt

ist. Sie ist damit ein Indikator fur die multivariate Variation der Gruppenzentro-

ide, die mit der Große der zugehorigen Gruppen gewichtet ist.


Bekanntlich hat die affine Hulle von (mehrdimensionalen) Daten die Dimension r,

falls ihre Kovarianzmatrix den Rang r besitzt; der zugehorige lineare Unterraum

ist dabei das Bild der Kovarianzmatrix. Hier ist nun B die SSCP-Matrix der

Gruppenzentroide (wobei jedes Zentroid so oft auftaucht, wie Personen/Objekte

in der zugehorigen Gruppe sind). Dividiert man B noch durch N , so erhalt man

die Kovarianzmatrix der (so’gewichteten‘) Zentroide. Da sich bei Division durch

N weder Rang noch Bild andern, folgt, dass der Rang von B gleich der Dimension

der affinen Hulle der Zentroide ist, und dass das Bild von B der zu dieser affinene

Hulle gehorende lineare Unterraum ist.

Die Matrix W kann man wegen der Beziehung Pw = P′wPw, die sofort daraus

folgt, dass Pw eine orthogonale Projektion ist, auch als

W = Y′PwY = Y′P′wPwY = (PwY)′(PwY)

schreiben.

Zur Deutung dieses Produkts soll zunachst die Datenmatrix Y selber partitioniert

werden in die zu den einzelnen Gruppen j gehorenden Teile Yj; diese Partitionie-

rung wird oben im Beispiel schon durch die großeren Abstande veranschaulicht.

Es gilt also

Y =

Y1

...

YJ

.

Da die entsprechenden Teile von PwY dadurch entstehen, dass man von den

Daten die Gruppenmittelwerte abzieht, sind sie gerade die zentrierten Yj und

sollen daher Yj heißen.

Fur die erste Gruppe im Beispiel gilt beispielsweise

Y1 =

8 2

7 1

6 3

und Y1 =

1 0

0 −1

−1 1

,

tatsachlich stimmt also die obere Teilmatrix von PwY mit der Matrix uberein,

die man aus Y1 durch Zentrieren erhalt.

Damit berechnet man W = (PwY)′(PwY) zu

W =(Y′1 . . . Y′J

)Y1

...

YJ

=∑

Y′jYj ,


und da man in den Y′jYj die SSCP-Matrizen der Teilmatrizen Yj erkennt, sieht

man insgesamt, dass W die Summe der SSCP-Matrizen der Daten der einzelnen

Bedingungen ist, was die Eignung zum Indikator der Variation innerhalb der

Gruppen deutlich macht.

Fur das Beispiel lassen sich die SSCP-Matrizen der drei Bedingungen leicht be-

rechnen. Die Gleichung W =∑

Y′jYj kontrolliert man leicht nach – es gilt

tatsachlich

W =

(10 −6

−6 6

)=

(2 −1

−1 2

)+

(2 −2

−2 2

)+

(6 −3

−3 2

).

Die bisherigen Uberlegungen haben gezeigt, dass die Matrizen T, B und W auch

interpretierbar sind als die SSCP-Matrizen der Daten, der Gruppenzentroide und

der’Residuen‘. Dividert man diese Matrizen noch durch N , so erhalt man die

entsprechenden Kovarianzmatrizen, und die ebenfalls durch N dividierte Glei-

chung T = B + W sagt dann gerade, dass sich die Kovarianzmatrix der Daten

zerlegen lasst in die Summe der Kovarianzmatrix der Zentroide (die dabei in der

Haufigkeit der jeweiligen Zellbesetzungen auftreten) und der Kovarianzmatrix der

Residuen.

Da die Diagonalelemente der Matrizen T, B und W gerade dadurch zustande-

kommen, dass man die Matrizen Pt, Pb und Pw von rechts und links mit der

entsprechenden Spalte von Y multipliziert (links ist die Spalte vorher noch zu

transponieren), und da die Spalten von Y gerade die Datenvektoren der einzelnen

Komponenten Yi der multivariaten Variable Y sind, folgt, dass diese Diagonalele-

mente gerade die Quadratsummen SSt, SSb und SSw fur die einzelnen Yi sind. In

der Diagonale der Matrizengleichung T = B + W stehen folglich die univariaten

Quadratsummenzerlegungen der Komponenten Yi von Y .

Im Beispiel sind daher die Quadratsummenzerlegungen SSt = SSb +SSw fur die

univariate Varianzanalyse mit Y1 gerade 40 = 30 + 10 und fur die mit Y2 gleich

12 = 6 + 6.

Was die praktische Berechnung der Matrizen T, B und W angeht, so wird man

diese naturlich nicht so durchfuhren, dass man zunachst die Matrizen Pt, Pw

und Pw bestimmt, die ihren Platz eher in den theoretischen Uberlegungen haben.

Vielmehr wird man auf andere Methoden zuruckgreifen.

Die Matrix T ist die SSCP-Matrix der Daten Y, man bekommt sie also als

Vorstufe der Kovarianzmatrix, wobei nur jeweilige Division durch den Stichpro-


benumfang N am Ende zu unterlassen ist. Liegt hingegen die Kovarianzmatrix

der Daten vor, so ist diese einfach mit N zu multiplizieren.

Zur Berechnung der Matrix B schreibt man beispielsweise B = Y′PbY als

Y′P′bPbY = (PbY)′(PbY). Hier ist also das Produkt von (PbY)′ mit PbY zu

bilden.

Ist wie bei der einfaktoriellen Varianzanalyse Pm die Projektion auf den von 1

erzeugten Unterraum, so hatte sich dort die Gleichung Pb = P − Pm ergeben.

Man sieht nach den bisherigen Uberlegungen sofort, dass bei PY im Vergleich

zu Y alle Zeilen durch die zugehorigen Gruppenzentroide ersetzt sind, wahrend

bei PmY in allen Zeilen das Gesamtzentroid steht.

Fur die Beispieldaten erhalt man zur Veranschaulichung

Y =

8 2

7 1

6 3

3 2

1 4

7 3

4 5

4 4

, PY =

7 2

7 2

7 2

2 3

2 3

5 4

5 4

5 4

, PmY =

5 3

5 3

5 3

5 3

5 3

5 3

5 3

5 3

, PbY =

2 −1

2 −1

2 −1

−3 0

−3 0

0 1

0 1

0 1

.

Die aktuelle Aufgabe besteht darin, B als das Produkt von (PbY)′ und PbY zu

bestimmen. Partitioniert man die erste Matrix in ihre Spalten und die zweite in

ihre Zeilen, so erkennt man, dass man dieses Produkt auch erhalt, indem man

die Summe der z′izi bildet, wo zi fur die i-te Zeile von PbY steht. Diese Zeilen

stimmen jedoch zum großen Teil uberein: In dem zu einer Zelle j gehorenden Teil

sind sie namlich alle gleich der transponierten Differenz (yj− y) des Zellenzentro-

ids yj und des Gesamtzentroids y. Da die Anzahl der zu einer Zelle gehorenden

Zeilen gleich nj ist, erhalt man schließlich

B =∑

nj(yj − y)(yj − y)′ ,

worin man unmittelbar auch eine Verallgemeinerung der univariaten Formel fur

SSb erkennt.

Im Beispiel erhalt man so

B = 3

(2

−1

)(2 −1

)+ 2

(−3

0

)(−3 0

)+ 3

(0

1

)(0 1

)=

(30 −6

−6 6

)


in Ubereinstimmung mit der Rechnung oben.

Dass die Matrix W die Summe der SSCP-Matrizen der einzelnen Zellen ist, hatte

sich oben schon ergeben, und dies durfte in vielen Fallen auch eine gute Berech-

nungsmoglichkeit sein.

Naturlich mussen von den drei Matrizen T, B und W nur zwei bestimmt werden,

da sich die dritte auf Grund der Gleichung T = B + W dann unmittelbar ergibt.

Es soll nun noch fur spatere Zwecke eine Moglichkeit bereitgestellt werden, die

Zentroide der Daten mit Hilfe einer Matrixmultiplikation herzustellen; Ziel ist es,

eine Matrix A zu finden, so dass das Produkt AY als Zeilen gerade die Zentroide

der Gruppen besitzt. Die Losung ist aus der univariaten Varianzanalyse schon

bekannt.

Ist namlich A die (J×N)-Matrix, die in der j-ten Zeile nur Nullen enthalt außer

an den Stellen, die zu Beobachtungen in der j-ten Bedingung gehoren, wo dann

die Elemente dann 1/nj sind, so liefert die j-te Zeile von A multiplizert mit Y

gerade die durch nj geteilte Summe der zur j-ten Bedingung gehorenden Zeilen,

also in der Tat das j-te Zentroid.

Im Beispiel ist diese Matrix gleich1/3 1/3 1/3 0 0 0 0 0

0 0 0 1/2 1/2 0 0 0

0 0 0 0 0 1/3 1/3 1/3

,

und man uberzeugt sich unmittelbar, dass das Produkt

AY =

7 2

2 3

5 4

tatsachlich zeilenweise die Gruppenzentroide enthalt.

Da in A′ innerhalb der zu einzelnen Zellen gehorenden Bereiche die Zahlen va-

riablenweise konstant sind, folgt die Beziehung PwA′ = 0, die ebenso wie die

Beziehung PwPb = 0 bei der genauen Begrundung der statistischen Behandlung

eine zentrale Rolle spielt.

Vom Rang von B wurde schon weiter oben gezeigt, dass er hochstens J − 1 ist.

Die Range von T und W lassen sich entsprechend abschatzen; sie sollten im

Allgemeinen gleich p sein, was auch in der weiteren Auswertung vorausgesetzt


wird. Kritisch ist dann naturlich der Fall, dass die Zahl der Versuchspersonen

klein ist, denn der Rang von W = Y′PwY ist hochstens gleich dem Rang N − Jvon Pw. Dies bedeutet, dass die weitere Auswertung nur dann moglich ist, wenn

N −J ≥ p oder N ≥ p+J gilt, was nun zusatzlich fur die Zukunft vorausgesetzt

sei.

Verteilungsvoraussetzungen. Die Matrizen B und W spielen bei der statisti-

schen Auswertung der multivariaten Varianzanalyse eine ahnlich zentrale Rolle

wie die entsprechenden Quadratsummen SSb und SSw im univariaten Fall. Es ist

daher wichtig, uber die Verteilung dieser Matrizen Bescheid zu wissen.

Da sich B und W aus der Datenmatrix Y bestimmen lassen, hangt ihre Verteilung

von der von Y ab. Damit ist das Thema der Verteilungsvoraussetzungen der

multivariaten Varianzanalyse angesprochen.

Diese Verteilungsvoraussetzungen sehen so aus, dass man analog zur univariaten

Varianzanalyse fordert, dass die Datenvektoren der Versuchseinheiten insgesamt

unabhangig sind und dass sie jeweils normalverteilt sind mit Erwartungswert µj

und einer invertierbaren Kovarianzmatrix Σ, die in allen Bedingungen gleich ist.

Man hat also wie im Univariaten die Voraussetzungen der Unabhangigkeit, der

Normalverteiltheit und der Varianzhomogenitat.

Auf diesem Modell baut nun die Auswertung der Daten auf, und man hat sich

naturlich zu fragen, ob man das Modell fur angemessen halt, ob man also denkt,

dass die Realitat des Versuchs mit diesem Modell hinreichend gut vertraglich ist

(naturlich wird niemand annehmen, dass das Modell perfekt passt – schon bei

einer solchen bloßen Formulierung liegt der Verdacht nahe, dass die empirische

Welt und die theoretische Welt gedanklich nicht angemessen getrennt werden).

Ein wichtiger Aspekt ist hier die Unabhangigkeitsvoraussetzung, bei der eine

angemessene Versuchsplanung zu gewahrleisten hat, dass die statistische Un-

abhangigkeitsannahme nicht allzu deutlich mit der Praxis der Datenerhebung

kollidiert.

Fasst man die Verteilungsvoraussetzungen noch einmal zusammen, so bedeuten

sie, dass die Zeilen der Matrix Y unabhangig sind und Np(µj,Σ)-Verteilungen

besitzen mit einem invertierbaren Σ. Bei Gultigkeit der Nullhypothese sind zu-

dem die Erwartungswertvektoren aller Zeilen von Y gleich.

Die Matrix Y ist jetzt naturlich keine konkrete Datenmatrix mehr, sondern eine


Zufallsmatrix, deren Elemente Zufallsvariable sind, da es ja um die Modellie-

rung eines moglichen Experimentes geht und nicht um ein bereits konkret durch-

gefuhrtes.

Spatere Abschnitte werden sich mit Datenmatrizen beschaftigen, die den fur Y

gemachten Voraussetzungen genugen.

Aus den Voraussetzungen folgt, dass W/(N − J) erwartungstreuer Schatzer fur

Σ ist. Es hatte sich schon gezeigt, dass W die Summe der SSCP-Matrizen der

Gruppen ist. Da die Beobachtungen in den Gruppen unabhangig sind mit gleicher

theoretischer Kovarianzmatrix Σ, ist der Erwartungswert der SSCP-Matrix der

j-ten Gruppe gleich (nj−1)Σ, der Erwartungswert von W ergibt sich daher durch

Aufsummieren zu (∑

(nj − 1)) Σ = (N−J) Σ. Nach Division durch (N−J) folgt

daher

E(W/(N − J)) = Σ .

Teststatistiken. In diesem Abschnitt sollen die vier am haufigsten verwendeten

Statistiken zum Testen der Nullhypothese der multivariaten Varianzanalyse vor-

gestellt werden. Anders als im Univariaten, wo bei der Varianzanalyse eigentlich

nur der F -Bruch zum Einsatz kommt, gibt es hier mehrere Alternativen zum

Testen.

Die vier Teststatistiken sind Wilks’ Λ, Roys Maximalwurzel, die Pillai-Bartlett-

Spur und die Hotelling-Lawley-Spur

Die Alternativen beruhen teilweise auf unterschiedlichen Herangehensweisen an

das Testproblem. Fur spezifische Situationen und Ziele eignen sich einige Tests

besser als andere, ohne dass man jedoch einen als fur alle Situationen optimal

bezeichnen konnte.

Im Spezialfall der univariaten Varianzanalyse sind ubrigens die Tests alle zum F -

Test aquivalent, wesentliche Unterschiede gibt es also erst bei p ≥ 2. Hier kann es

sein, dass in derselben Situation einer der Tests signifikant wird und ein anderer

nicht.

Genauere Fragen nach der Verteilung der Teststatistiken sollen auf spater ver-

schoben werden.

Alle Tests beruhen auf den Matrizen B und W, bei genauerer Untersuchung

sogar nur auf den Eigenwerten von W−1B. Die Matrizen W und T sind praktisch


immer regular und damit positiv definit, wenn die Anzahl der Versuchspersonen

groß genug ist (es muss N ≥ p+ J gelten).

Fur die Beispieldaten wurden folgende Matrizen berechnet:

T =

(40 −12

−12 12

), B =

(30 −6

−6 6

), W =

(10 −6

−6 6

).

Die erste Teststatistik ist Wilks’ Λ, das definiert ist als

Λ =det(W)

det(W + B)=

det(W)

det(T).

Fur die Beispieldaten ist die Determinante von W gleich 24 und die von T gleich

336, womit sich

Λ =det(W)

det(T)=

24

336= .0714

ergibt.

Da die Determinante ein multivariates Streuungsmaß ist, kann diese Statistik

interpretiert werden als Vergleich der Streuung innerhalb der Gruppen zur Ge-

samtstreuung. Allerdings sind die Matrizen T und W keine Kovarianzmatrizen,

sondern SSCP-Matrizen. Aus diesen entstehen jedoch Kovarianzmatrizen bei Di-

vision durch N , wobei die Determinante sich um den Faktor (1/N)p andert.

Geht man also im Zahler und im Nenner zu den entsprechenden Kovarianzma-

trizen uber, so andern sich Zahler und Nenner um den gleichen Faktor, der sich

wegkurzt. Mit Kovarianzmatrizen erhalt man daher denselben Wert fur den Quo-

tienten der Determinanten wie mit SSCP-Matrizen, so dass die gerade gegebene

Deutung von Λ gerechtfertigt ist.

Hier spricht ein kleiner Wert gegen die Nullhypothese, die daher fur kleine Λ zu

verwerfen ist.

Die Verteilung von Λ unter der Nullhypothese ist eine sogenannte Wilks’-Λ-

Verteilung. Diese Verteilungen sind gekennzeichnet durch drei Parameter, namlich

die Anzahl p der Variablen, die Anzahl ne der Fehlerfreiheitsgrade und die Anzahl

nh der Hypothesenfreiheitsgrade. Im Falle der multivariaten Varianzanalyse ist

ne = N − J und nh = J − 1, dies sind ja auch die Freiheitsgrade im univariaten

Fall. Die Abkurzung fur die Wilks’-Λ-Verteilung ist Λ(p, ne, nh).

Im Beispiel ist die Verteilung von Λ unter H0 also eine Λ(2, 5, 2)-Verteilung.

Als Wert, der bei dieser Verteilung links (!) gerade 5% abschneidet, findet man


.117368. Da das empirische Λ kleiner ist als dieser kritische Wert, kann die Null-

hypothese verworfen werden.

Es ist anzumerken, dass die Bezeichnung der Parameter der Λ-Verteilungen nicht

ganz einheitlich ist. Oft trifft man auch auf Approximationen durch geeignete

F -Verteilungen, in einigen Fallen ist auch eine exakte Transformation in eine

geeignete F -Verteilung moglich.

Die zweite Teststatistik ist Roys Maximalwurzel. Leider ist die Definition unein-

heitlich. Nach einer Definition ist dies der großte Eigenwert θ1 von T−1B, nach

einer anderen der großte Eigenwert λ1 von W−1B.

Hier sollen diese beiden Moglichkeiten dadurch unterschieden werden, dass zur

Bezeichnung’Roys Maximalwurzel‘ entweder θ1 oder λ1 hinzugefugt wird.

Die Matrizen T−1B und W−1B sind im Allgemeinen nicht symmetrisch, wes-

halb es nicht selbstverstandlich ist, dass sie Eigenwerte besitzen. Da sie jedoch

das Produkt einer positiv definiten Matrix und einer mindestens positiv semide-

finiten Matrix sind, besitzen sie unter Berucksichtigung der Multiplizitat doch

p nichtnegative Eigenwerte, so dass insbesondere auch der großte Eigenwert exi-

stiert und nichtnegativ ist.

Die Bezeichnung’Wurzel‘ kommt daher, dass der großte Eigenwert die großte

Nullstelle des charakteristischen Polynoms ist, und Nullstellen von Polynomen

bezeichnet man gelegentlich auch als’Wurzeln‘. Man findet alternativ auch die

Bezeichnung großter Eigenwert.

Fur die Beispieldaten errechnet man

T−1B =

(6/7 0

5/14 1/2

)und W−1B =

(6 0

5 1

).

Die erste Matrix besitzt die Eigenwerte 6/7 und 1/2, wahrend die Eigenwerte der

zweiten 6 und 1 sind. Hier ist folglich θ1 = 6/7 = 0.8571 und λ1 = 6.

Die beiden Versionen der Maximalwurzel stehen nicht beziehungslos nebeneinan-

der, vielmehr lassen sie sich ineinander umrechnen. Genauer gilt

λ1 =θ1

1− θ1und θ1 =

λ11 + λ1

,

wie man auch unmittelbar im Beispiel bestatigt.

Die Umrechnungsformeln gelten ubrigens auch fur die weiteren Eigenwerte.


Die Funktionen, die die Umrechnungen beschreiben, sind streng monoton, wes-

halb Tests mit λ1 und θ1 im Endergebnis zu den gleichen Resultaten fuhren. Die

beiden Versionen der Maximalwurzel sind damit aquivalent und ihre Verschie-

denheit ist nur oberflachlich.

Die Interpretation der Maximalwurzel fallt zunachst schwerer als bei Wilks’ Λ,

man erkennt jedoch, dass in gewisser Weise das Streuungsverhalten der Gruppen-

mittelwerte mit dem der Daten insgesamt bzw. mit dem innerhalb der Gruppen in

Beziehung gesetzt wird. Diesmal sprechen große Werte gegen die H0. Eine genaue-

re Untersuchung der Maximalwurzel, die ihren Wert als Teststatistik deutlicher

macht, folgt spater.

Die Verteilung von θ1 unter der Nullhypothese wird meist mit θmax(p, ne, nh)

bezeichnet, wobei die Bedeutung der Parameter dieselbe ist wie bei Wilks’ Λ.

Im Beispiel ist die Verteilung von θ1 unter H0 also eine θmax(2, 5, 2)-Verteilung.

Der Wert, der bei dieser Verteilung rechts gerade 5% abschneidet, ist .8577. Da das

empirische θ1 = .8571 kleiner ist als dieser kritische Wert, kann die Nullhypothese

nicht verworfen werden.

Da der Test mit Λ auf dem 5%-Niveau signifikant war, hat man hier bereits

ein Beispiel dafur, dass die verschiedenen Tests der multivariaten Varianzanalyse

tatsachlich zu unterschiedlichen Ergebnissen fuhren konnen und daher insbeson-

dere nicht aquivalent sind.

Die Anmerkungen zu Λ bezuglich der Uneinheitlichkeit der Bezeichnungen und

der Moglichkeit einer approximativen oder manchmal exakten Transformation in

eine F -Verteilung gelten analog auch fur θ1 und λ1.

Die dritte gebrauchliche Teststatistik fur die multivariate Varianzanalyse ist die

Spur der Matrix T−1B, die auch Pillai-Bartlett-Spur heißt. Im Beispiel erhalt

man den Wert 6/7 + 1/2 = 19/14 = 1.3571.

Auch bei dieser Statistik ist die Interpretation zunachst schwierig. In gewisser

Weise wird die Variation innerhalb der Gruppen mit der Gesamtvariation vergli-

chen, wobei der Vergleich mit Hilfe der Spur geschieht.

Große Werte der Statistik sprechen fur H1. Die Verteilung der Statistik unter

der Nullhypothese findet man in geeigneten Tabellen. Leider sind im Beispiel die

Zellbesetzungen so klein, dass die gangigen Tabellen versagen.


Alternativ wird auch diese Statistik oft in eine Statistik transformiert, deren Ver-

teilung unter der Nullhypothese naherungsweise mit einer geeigneten F -Verteilung

ubereinstimmt.

Die letzte der am meisten verwendeten Statistiken ist die Spur von W−1B, die

auch Hotelling-Lawley-Spur heißt. Im Beispiel berechnet sie sich zu 6 + 1 = 7.

Was die Interpretation angeht, wird hier in gewisser Weise die Variation zwischen

den Gruppen diesmal mit der innerhalb der Gruppen verglichen, wieder mit Hilfe

der Spur.

Auch hier sprechen große Werte fur H1; im Ubrigen gelten auch hier die bei der

Pillai-Bartlett-Spur gemachten Bemerkungen.

Spezialfalle. In zwei Fallen sind alle vier Teststatistiken aquivalent, namlich im

Fall p = 1 und im Fall J = 2. Im zweiten Fall gibt es eine weitere Statistik, die

ebenfalls zu den genannten aquivalent ist und die außerdem bis auf einen Faktor

eine F -Verteilung besitzt, namlich Hotellings T 2.

Zunachst soll kurz der Fall p = 1 betrachtet werden. In diesem Fall enthalten die

Matrizen T, B und W nur jeweils eine Zahl, namlich SSt, SSb und SSw. Die

Matrizen T−1B und W−1B enthalten entsprechend nur die Zahlen SSb/SSt und

SSb/SSw.

Da im Fall von (1 × 1)-Matrizen die Determinante, die Spur und der großte

Eigenwert mit dem einzigen Element der Matrix ubereinstimmen, errechnet man

sofort Λ = SSw/SSt, θ1 = SSb/SSt, λ1 = SSb/SSw, ferner die Pillai-Bartlett-

Spur zu SSb/SSt und die Hotelling-Lawley-Spur zu SSb/SSw.

Von den zunachst funf Werten bleiben also nur drei ubrig, namlich SSw/SSt,

SSb/SSt und SSb/SSw. Bezeichnet man zur Abkurzung SSb/SSw mit λ, so zeigt

sich, dass man die beiden anderen Statistiken in λ umrechnen kann und umge-

kehrt. Da die Umrechnungen streng monoton sind, folgt (unter Berucksichtigung

der Tatsache, dass die Werte, die fur H1 sprechen, an der jeweils passenden Seite

der Verteilungen liegen), dass alle vier Tests aquivalent sind. Da durch einfache

Multiplikation mit (N − J)/(J − 1) aus λ der univariate F -Bruch wird, sind die

vier Tests schließlich auch noch mit dem univariaten F -Test aquivalent.

Es bleibt noch zu zeigen, dass sich SSb/SSt und SSw/SSt monoton in λ trans-

formieren lassen (mit’monoton‘ soll nun immer

’streng monoton‘ gemeint sein).

Wegen SSt = SSb + SSw folgt SSw/SSt = 1 − SSb/SSt, so dass sich diese bei-


den Zahlen in der Tat durch eine einfache monotone Transformation ineinander

umrechnen lassen. Es genugt daher zu zeigen, dass sich SSb/SSt durch eine mono-

tone Transformation in λ und umgekehrt (man beachte, dass die Hintereinander-

ausfuhrung monotoner Transformationen wieder eine monotone Transformation

ergibt).

Setzt man zur Abkurzung SSb/SSt = θ, so gilt

θ =SSbSSt

=SSb

SSb + SSw=

SSb/SSw(SSB + SSw)/SSw

=λ

1 + λ.

Man hat damit θ als eine Funktion von λ ausgedruckt. Die Transformations-

funktion wird in anderem Zusammenhang noch einmal gebraucht und soll daher

genauer untersucht werden. In der ublichen Schreibweise mit x und y geht es also

um die Funktion

y = f(x) =x

1 + x,

deren Graph folgendermaßen aussieht:

1

1

....................................................................................................................................................................................................................................................................................................................................................................................... ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

......................

...................

x

yy = x/(1 + x)

..................................................

...............................................

.......................................................................................................

.......................................................................................................................................................................

Hier vermittelt f bijektiv zwischen den Mengen [ 0,∞) und [ 0, 1). Dass die Funk-

tion streng monoton wachsend ist, rechnet man auch leicht nach, indem man die

Differenz f(x2)− f(x1) fur x2 > x1 bildet. Bringt man alles auf einen Hauptnen-

ner, so ist dieser Hauptnenner (1 + x1)(1 + x2) positiv, wahrend im Zahler nur

x2−x1 stehen bleibt. Die Differenz ist also großer als 0 und die Monotonie damit

bewiesen.

Um die Umkehrfunktion zu bestimmen, sei y = f(x) = x/(1 + x). Multiplikation

mit (1 + x) liefert die Gleichung y + xy = x oder y = x− xy = x(1− y), woraus

x = y/(1− y) folgt. Die Umkehrfunktion g von f ist also

g(y) =y

1− y

und ist jetzt passend zum Wertebereich von f nur auf dem Intervall [ 0, 1) zu

betrachten. Der Graph der Funktion g sieht dort so aus:


1

1

.................................................................................................................................................................. ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

........................

...................

y

x

x = y/(1− y)

........................................................................................................................................................................................................................................................................................................

Kehrt man zur Ausgangsfrage zuruck, so sieht man mit Hilfe dieser Tatsachen

einerseits, dass θ eine monotone Funktion von λ ist, und andererseits auch, dass

sich λ umgekehrt aus θ als

λ =θ

1− θzuruckgewinnen lasst, also auch mit Hilfe einer monotonen Funktion.

Insgesamt sieht man, dass im Falle p = 1 die multivariaten Tests alle aquivalent

zum bekannten univariaten F -Test sind.

Der zweite Spezialfall ist der Fall J = 2, also der Fall, dass nur zwei Gruppen

untersucht werden. Hier gibt es eine weitere verbreitete Teststatistik, namlich

Hotellings T 2, die als erstes besprochen werden soll, und von der auch gleich die

Aquivalenz zur Hotelling-Lawley-Spur gezeigt werden soll.

Zunachst soll eine spezielle Formel zur Berechnung von B hergeleitet werden. Zu

diesem Zweck seien y1 und y2 die beiden Gruppenzentroide und n1 und n2 die

Gruppengroßen. Dann berechnet sich y zu

y =1

n1 + n2

(n1y1 + n2y2) ,

woraus

y1 − y =n2

n1 + n2

(y1 − y2) und y2 − y =n1

n1 + n2

(y2 − y1)

folgt. Nach der oben gegebenen Formel zur Berechnung von B mit Hilfe der


Zentroide erhalt man daraus

B = n1(y1 − y)(y1 − y)′ + n2(y2 − y)(y2 − y)′

=n1n

22

(n1 + n2)2(y1 − y2)(y1 − y2)

′ +n21n2

(n1 + n2)2(y2 − y1)(y2 − y1)

′

=n1n2(n1 + n2)

(n1 + n2)2(y2 − y1)(y2 − y1)

′

=n1n2

n1 + n2

(y2 − y1)(y2 − y1)′ ,

wobei ausgenutzt wurde, dass sich y2 − y1 und y1 − y2 nur um den Faktor

(−1) unterscheiden, so dass die Produkte der beiden Vektoren mit sich selbst in

transponierter Form gleich sind.

Nun kann beispielsweise die Hotelling-Lawley-Spur auch folgendermaßen berech-

net werden:

Spur(W−1B) = Spur

(W−1 n1n2

n1 + n2

(y2 − y1)(y2 − y1)′)

=n1n2

n1 + n2

Spur((y2 − y1)′W−1(y2 − y1))

=n1n2

n1 + n2

(y2 − y1)′W−1(y2 − y1) .

Es ist sinnvoll, hier (analog zum Gebrauch im Einstichprobenfall) die Bezeichnung

Su =1

n1 + n2 − 2W =

1

n1 + n2 − 2(n1S1 + n2S2)

einzufuhren, wo S1 und S2 die Kovarianzmatrizen der Daten in den beiden Grup-

pen sind. Wegen Su = W/(N − 2) besitzt man in Su einen erwartungstreuen

Schatzer fur Σ. Schreibt man ubrigens Suj fur (nj/(nj − 1))Sj, so sind diese Sujerwartungstreue Schatzer fur Σ auf der Basis der Einzelstichproben (j = 1, 2).

Die Umformulierung

Su =1

n1 + n2 − 2((n1 − 1)Su1 + (n2 − 1)Su2)

erkennt man dann unmittelbar als Verallgemeinerung der Formel fur die gemein-

same Varianzschatzung s2 aus dem Zweistichproben-t-Test.

Die Statistik

T 2 =n1n2

n1 + n2

(y2 − y1)′S−1u (y2 − y1)


heißt auch Hotelligs T 2 (fur den Zweistichprobenfall). Wegen der Beziehung

S−1u = (n1 + n2 − 2)W−1 ist T 2 das (N − 2)-fache der Hotelling-Lawley-Spur,

wobei fur die Gesamtstichprobengroße n1 + n2 wieder N geschrieben wird. Der

Test mit T 2 und der mit der Hotelling-Lawley-Spur sind daher aquivalent.

Die Kovarianzmatrix der Differenz der Mittelwertvektoren y2 und y1 errechnet

man zu (1/n2)Σ + (1/n1)Σ = ((n1 + n2)/(n1n2))Σ. Die Inverse dieser Matrix ist

((n1n2)/(n1 + n2))Σ−1. Schatzt man Σ durch Su, so kann man T 2 interpretie-

ren als die quadrierte Mahalanobisdistanz der Mittelwertvektoren bezuglich einer

Schatzung der Kovarianzmatrix der Differenz dieser Vektoren.

Fur p = 1 ist Su die Matrix, die die erwartungstreue Schatzung s2 der Fehlerva-

rianz enthalt, weshalb man hier fur

T 2 =n1n2

n1 + n2

(y2 − y1)2

s2

gerade die quadrierte t-Statistik im Zweistichprobenfall erhalt – in dieser Hinsicht

passt die Bezeichnung T 2 also gut bis auf die Großschreibung.

Es leuchtet unmittelbar ein, dass die Nullhypothese, dass die beiden (theoreti-

schen) Zentroide ubereinstimmen, bei großen Werten von T 2 zu verwerfen ist.

Unter der Nullhypothese hat T 2 eine sogenannte Hotellings-T 2-Verteilung mit

den Parametern p und N − 2, die auch mit T 2(p,N − 2) abgekurzt wird. Die

Parameter sind dabei die Anzahl p der Variablen und die Differenz N − 2 aus

der Zahl der Beobachtungen und der Gruppen, die ja auch in der Varianzanalyse

und beim t-Test als Zahl der Nennerfreiheitsgrade eine wichtige Rolle spielt.

Diese Verteilung ist eng mit einer F -Verteilung verwandt, genauer kann man

zeigen, dass

T 2(p,N − 2) =(N − 2)p

N − p− 1Fp,N−p−1

gilt, was so zu interpretieren ist, dass die T 2(p,N − 2)-Verteilung mit der Ver-

teilung einer mit dem Faktor ((N − 2)p)/(N − p − 1) multiplizierten Fp,N−p−1-

verteilten Variable ubereinstimmt (die Tatsache, dass die Summe der Freiheits-

grade der zugehorigen F -Verteilung gerade N−1 ist, bietet sich als Merkhilfe fur

die Freiheitsgrade an).

Dies kann auf zwei Arten fur einen Signifikanztest genutzt werden. Zur Erlauterung

sei F eine Fp,N−p−1-verteilten Variable. Die H0-Verteilung von T 2 ist dann die

von ((N − 2)p)/(N − p − 1)F , weshalb die von (N − p − 1)/((N − 2)p)T 2


eine Fp,N−p−1-Verteilung ist. Die erste Moglichkeit besteht also darin, T 2 zu

(N−p−1)/((N−2)p)T 2 zu transformieren, das unterH0 eine Fp,N−p−1-Verteilung

hat, und dann rechtsseitig zu testen. Die Entscheidungsregel ist dann die, H0 dann

zu verwerfen, wennN − p− 1

(N − 2)pT 2 ≥ Fp,N−p−1;α

gilt; der Ausdruck rechts ist dabei das α-Fraktil der Fp,N−p−1-Verteilung, also der

Wert, der rechts bei dieser Verteilung α abschneidet. Ausfuhrlich kann man die

Teststatistik auch so schreiben:

N − p− 1

(N − 2)pT 2 =

n1n2(N − p− 1)

N(N − 2)p(y2 − y1)

′S−1u (y2 − y1)

=(N − p− 1)

pSpur

(W−1B

).

Die letzte Form gibt die Umrechnung der Hotelling-Lawley-Spur in eine F -verteilte

Statistik.

Die zweite Moglichkeit besteht darin, nicht die T 2-Statistik zu transformieren,

sondern den kritischen Wert der F -Verteilung. Hierzu sei wieder F eine Fp,N−p−1-

verteilten Variable. Das α-Fraktil der Verteilung von ((N−2)p)/(N−p−1)F ist

dann das ((N − 2)p)/(N − p− 1)-fache des α-Fraktils der Fp,N−p−1-Verteiltung,

und da die Verteilung von ((N − 2)p)/(N − p − 1)F mit der von T 2 unter H0

ubereinstimmt, auch das der T 2(p,N−2)-Verteilung. Das α-Fraktil T 2(p,N−2;α)

der T 2(p,N − 2)-Verteilung ist also

T 2(p,N − 2;α) =(N − 2)p

N − p− 1Fp,N−p−1;α ,

und H0 ist zu verwerfen, wenn T 2 ≥ T 2(p,N − 2;α) gilt. Ausfuhrlich formuliert

heißt das, dass

T 2 ≥ (N − 2)p

N − p− 1Fp,N−p−1;α

sein muss – man sieht sofort, dass dies nur eine Umformulierung der ersten gege-

benen Regel ist.

Das Verfahren soll gleich an einem Beispiel illustriert werden. Dazu seien in zwei


Gruppen mit je drei Personen die folgenden Daten erhoben worden:

Y =

8 2

7 1

6 3

7 3

4 5

4 4

Zu untersuchen ist, ob sich die zugehorigen Zentroide µ1 und µ2 sich unterschei-

den. Man berechnet dazu die entsprechenden Mittelwerte zu

y1 =

(7

2

)und y2 =

(5

4

)und die SSCP-Matrizen der beiden Gruppen zu(

2 −1

−1 2

)und

(6 −3

−3 2

).

Hieraus bestimmt man

y2 − y1 =

(−2

2

)und Su =

1

4

(8 −4

−4 4

)=

(2 −1

−1 1

).

Mit

S−1u =

(1 1

1 2

)errechnet man damit

T 2 =n1n2

n1 + n2

(y2 − y1)′S−1u (y2 − y1) =

3 · 33 + 3

(−2 2

)(1 1

1 2

)(−2

2

)= 6 .

Nebenbei ergibt sich die Hotelling-Lawley-Spur zu 6/4 = 1.5.

Unter H0 besitzt T 2 eine T 2(p,N − 2)-Verteilung, also eine T 2(2, 4)-Verteilung.

Zum Test auf dem 5%-Niveau kann einerseits T 2 in eine F -Statistik transformiert

werden. Hierzu ist T 2 mit (N − p− 1)/((N − 2)p) = (6− 2− 1)/((6− 2)2) = 3/8

zu multiplizieren, was 6 · 3/8 = 2.25 ergibt. Dieser Wert ist zu vergleichen mit

dem .05-Fraktil der Fp,N−p−1-Verteilung, also mit F2, 3; .05 = 9.55. Offensichtlich

ist das Ergebnis nicht signifikant.


Andererseits kann der T 2-Wert direkt mit dem zugehorigen kritischen Wert ver-

glichen werden, der hier das ((N − 2)p)/(N − p− 1)-fache, also das 8/3-fache des

gerade schon bestimmten .05-Fraktils F2, 3; .05 = 9.55 ist, also (8/3) · 9.55 = 25.47.

Naturlich ist auch hier T 2 = 6 nicht signifikant, und man sieht an der Rechnung

auch noch einmal, dass beide Alternativen zum gleichen Ergebnis fuhren mussen.

In dem Spezialfall J = 2 der multivariaten Varianzanalyse steht neben den

vier ublichen Teststatistiken also auch noch Hotellings T 2 als Teststatistik zur

Verfugung. Es hat sich oben schon herausgestellt, dass Hotellings T 2 aquivalent

zur Hotelling-Lawley-Spur ist; aber auch alle drei anderen Tests sind zu diesen

beiden aquivalent, so dass im Fall J = 2 alle funf moglichen Tests aquivalent

sind. Dies lasst sich recht einfach mit Hilfe der Eigenwerte von W−1B zeigen,

was in einem der nachsten Abschnitte geschehen soll. Entscheidend ist dabei die

Tatsache, dass fur J = 2 der Rang von B hochstens 1 ist, was auch die gerade

hergeleitete Alternativformel fur B noch einmal deutlich zeigt.

Vielleicht ist es nicht uberflussig, zum Abschluss genauer auf Situationen einzu-

gehen, in denen zwei Teststatistiken in monotoner Beziehung stehen. In diesen

Fallen wurde gesagt, dass die zugehorigen Tests aquivalent sind, was bedeuten

sollte, dass sie immer zum gleichen Resultat fuhren mussen. Diese eigentlich ein-

leuchtende Aussage soll nun begrundet werden.

Zuvor sei der Vollstandigkeit halber an den Begriff der streng monotonen Funktion

erinnert. Ist D eine Teilmenge von R, so heißt eine Funktion f : D → R streng

monoton wachsend, falls fur alle x1 < x2 aus D auch f(x1) < f(x2) gilt.

Eine solche Funktion respektiert also die Ordnungsrelation. Neben den streng

monoton wachsenden Funktionen gibt es noch die streng monoton fallenden, bei

denen die Ordnung umgekehrt wird. Bei solchen Funktionen soll fur alle x1 < x2aus D die Beziehung f(x1) > f(x2) gelten.

Da nun es offenbar bei solchen Funktionen nie sein kann, dass zwei verschiedene

x-Werte denselben Funktionswert zugewiesen bekommen, ist es moglich, aus den

Funktionswerten die x-Werte eindeutig zu rekonstruieren; mit anderen Worten

sind solche Funktionen umkehrbar. Dabei erben die Umkehrfunktionen offenbar

die Eigenschaft der strengen Monotonie: Umkehrfunktionen von streng monoton

wachsenden Funktionen sind ebenfalls streng monoton wachsend und Umkehr-

funktionen von streng monoton fallenden ebenfalls streng monoton fallend.

Der Zusatz’streng‘ wird, da hier ausschließlich streng monotone Funktionen be-


trachtet werden, der Kurze halber wie auch schon oben meist weggelassen.

Zur Begrundung der Aquivalenz von Tests mit Statistiken, die sich monoton in-

einander transformieren lassen, seien nun fur dieselben Daten zwei Teststatistiken

T1 und T2 gegeben, wobei die Statistik T2 sich aus T1 als T2 = f(T1) mit Hilfe

einer streng monotonen Funktion f berechnen lasst. Es sei vorausgesetzt, dass f

monoton wachsend ist, fur monoton fallende Funktionen argumentiert man ana-

log, außer dass sich die Richtung der Tests andert – aus einem rechtsseitigen Test

wird also ein linksseitiger und umgekehrt.

Als Beispiel kann man an die beiden Versionen λ und θ von Roys Maximalwurzel

fur den Fall p = 1 denken, von denen sich ja gezeigt hatte, dass sie sich durch

monotone Transformationen ineinander uberfuhren lassen.

In beiden Tests soll nun die Nullhypothese fur große Werte verworfen werden (fur

linksseitige Tests argumentiert man analog, bei monoton fallenden Transforma-

tionen ware dagegen vorauszusetzen, dass die Nullhypothese bei dem einen Test

fur große Werte verworfen wird und bei dem anderen fur kleine). Die kritischen

Werte auf Niveau α seien k1 und k2; der Einfachheit halber sei vorausgesetzt,

dass diese kritischen Werte eindeutig sind in dem Sinne, dass sie die einzigen

sind, die bei den zugehorigen Verteilungen rechts α abschneiden, was in den hier

behandelten Situationen immer der Fall ist. Die Statistik Ti wird also genau dann

signifikant, wenn Ti ≥ ki gilt.

Da die Werte ki bei den Verteilungen von Ti unter H0 beide rechts α abschneiden,

gilt P(Ti ≥ ki) = α, wobei P die Wahrscheinlichkeit unter H0 bezeichnet. Nun

ist wegen der Monotonie von f die Gleichung T1 ≥ k1 genau dann erfullt, wenn

f(T1) ≥ f(k1) ist. Insbesondere ist die Wahrscheinlichkeit dafur, das T1 ≥ k1 gilt,

gleich der Wahrscheinlichkeit, dass f(T1) ≥ f(k1) gilt. Nun ist aber f(T1) = T2,

woraus P(T2 ≥ f(k1)) = α folgt, und dies bedeutet, dass f(k1) bei der Verteilung

von T2 unter H0 rechts gerade α abschneidet, mit anderen Worten, dass f(k1)

der kritische Wert fur den Test T2 ist. Dieser kritische Wert ist andererseits k2,

wegen der Eindeutigkeit muss also k2 = f(k1) gelten.

Damit ist die Aquivalenz der beiden Tests gezeigt, denn da nun T1 ≥ k1 genau

dann gilt, wenn T2 ≥ k2 gilt, wird offenbar T1 genau dann signifikant, wenn T2signifikant wird.

Die Argumentation hat ubrigens auch gezeigt, dass man den kritischen Wert fur

den Test mit T2 einfach dadurch erhalt, dass man auf den kritischen Wert k1 des


Tests mit T1 die Funktion f anwendet, der kritische Wert k2 fur T2 ist also f(k1).

Eigenwerte. In diesem Abschnitt soll gezeigt werden, dass sich alle Teststatisti-

ken der multivariaten Varianzanalyse mit Hilfe der Eigenwerte von W−1B aus-

drucken lassen. Es wird sich dabei auch die Aquivalenz der verschiedenen Tests

fur J = 2 ergeben.

Da die behandelten Sachverhalte auch in anderen Situationen wichtig sind, sol-

len die allgemeinere Bezeichnungen gewahlt werden, die nicht so stark mit der

Situation der Varianzanalyse assoziiert sind.

Die Ausgangssituation ist die, dass zwei symmetrische positiv semidefinite (p×p)-Matrizen A und B gegeben sind, wobei A invertierbar, also sogar positiv definit

ist.

Bei der multivariaten Varianzanalyse ubernimmt dann W die Rolle von A, wah-

rend die Bezeichnung B bereits passt.

In dieser Situation werden nun mehrere Fragen behandelt, die sich mit Eigenwer-

ten von Matrizen beschaftigen, die sich aus A und B zusammensetzen.

Zunachst erkennt man leicht, dass A + B positiv definit und damit auch inver-

tierbar ist: Offenbar ist A+B symmetrisch, und fur jedes x 6= 0 ist der Ausdruck

x′(A + B)x = x′Ax + x′Bx wegen x′Ax > 0 und x′Bx ≥ 0 großer als 0, woraus

die positive Definitheit folgt.

Bekanntlich stimmen die Eigenwerte von A−1B = A−1/2A−1/2B mit denen von

A−1/2BA−1/2 uberein. Diese letzte Matrix ist jedoch symmetrisch und positiv

semidefinit und besitzt daher p nichtnegative Eigenwerte, die in absteigender

Reihenfolge λ1, . . . , λp heißen sollen (man erinnere sich hier ubrigens an die Kon-

vention, nach der Eigenwerte so oft aufzulisten sind, wie ihre geometrische Mul-

tiplizitat angibt).

Diese Eigenwerte λ1, . . . , λp sind also auch die Eigenwerte von A−1B. Was zu-

gehorige Eigenvektoren angeht, so gilt hier, dass y genau dann ein Eigenvek-

tor von A−1/2BA−1/2 ist, wenn A−1/2y Eigenvektor von A−1B ist (und zwar

zum selben Eigenwert). Wahlt man nun fur A−1/2BA−1/2 eine Orthonormalba-

sis y1, . . . ,yp von Eigenvektoren zu den λi, und setzt man xi = A1/2yi, so sind

die xi Eigenvektoren zu λi von A−1B, die wegen der Invertierbarkeit von A1/2

zusatzlich linear unabhangig sind. Man hat mit den xi also eine Basis des Rp aus

Eigenvektoren von A−1B.


Die nachste Frage, die es zu losen gilt, ist die nach den Eigenwerten von I+A−1B.

Ist x ein Eigenvektor zu einem Eigenwert λ von A−1B, gilt also (A−1B)x = λx,

so gilt auch

(I + A−1B)x = x + (A−1B)x = x + λx = (1 + λ)x ,

was gerade bedeutet, dass x auch Eigenvektor zum Eigenwert (1+λ) von I+A−1B

ist.

Mit den xi besitzt man also bereits p linear unabhangige Eigenvektoren von

I+A−1B zu Eigenwerten 1+λi. Die Summe der Dimensionen der Eigenraume zu

diesen Eigenwerten ist daher ≥ p, woraus folgt, dass man bereits alle Eigenwerte

von I + A−1B gefunden hat.

Als Ergebnis kann festgehalten werden, dass die Eigenwerte von I+A−1B gerade

(1 + λ1), . . . , (1 + λp) sind, wobei die zugehorigen Eigenvektoren dieselben sind

wie die von A−1B zu den Eigenwerten λi. Offenbar sind die Eigenwerte (1 + λi)

auch schon in absteigender Reihenfolge angeordnet.

Nun soll mit Hilfe dieser Eigenwerte ein Quotient von Determinanten bestimmt

werden (im Falle der Varianzanalyse gerade Wilks’ Λ), namlich

Λ =det(A)

det(A + B)

(da A + B positiv definit ist, taucht hier kein Problem wegen einer moglichen

Division durch 0 auf). Wegen

det(A + B) = det(A(I + A−1B)) = det(A) det(I + A−1B)

kann man diesen Quotienten auch als

1/(det(I + A−1B))

schreiben. Da die Determinante von I+A−1B gleich dem Produkt der Eigenwerte

1 + λi dieser Matrix ist, lasst sich der Quotient folgendermaßen umformen:

Λ =det(A)

det(A + B)=

p∏i=1

1

1 + λi

(∏

ist dabei naturlich – vollig analog zum Summenzeichen∑

– die Abkurzung

fur ein Produkt). Da alle λi nichtnegativ waren, folgt weiter, dass der untersuchte

Quotient großer als 0 ist und maximal den Wert 1 annehmen kann, was allerdings

nur in dem Extremfall A−1B = 0, also B = 0 vorkommen kann.


Das nachste Problem ist das der Eigenwerte von (A+B)−1B, die θi heißen sollen.

Es soll gezeigt werden, dass diese Eigenwerte in enger Beziehung zu den λi stehen.

Im Falle der Varianzanalyse geht es ubrigens um die Eigenwerte von T−1B.

Ist λ irgendein Eigenwert von A−1B mit Eigenvektor x, so gilt A−1Bx = λx,

woraus Bx = λAx und

(1 + λ)Bx = Bx + λBx = λAx + λBx = λ(A + B)x

folgt, was wiederum (A+B)−1Bx = (λ/(1+λ))x impliziert. Dies bedeutet aber,

dass λ/(1 + λ) Eigenwert von (A + B)−1B mit Eigenvektor x ist.

Genau wie eben folgert man daraus, dass die Eigenwerte von (A + B)−1B gerade

die λi/(1+λi) fur i = 1, . . . , p sind, wobei die zugehorigen Eigenvektoren dieselben

sind wie die von A−1B zu den Eigenwerten λi.

Wie man sieht, erhalt man die Eigenwerte θi aus den λi durch Anwendung der

Funktion f(x) = x/(1 + x), die sich ja gerade als streng monoton wachsend

erwiesen hat. Mit den λi sind also auch die θi bereits in absteigender Reihenfol-

ge angeordnet, was insbesondere bedeutet, dass der großte Eigenwert θ1 gleich

λ1/(1 + λ1) ist.

Offenbar ist θ1 kleiner als 1 und damit auch alle weiteren θi.

Wegen der Umkehrbarkeit der Funktion f kann man aus den θi auch wieder

ruckwarts die λi bestimmen. Man erhalt so die folgenden Beziehungen:

θi =λi

1 + λiund λi =

θi1− θi

.

Nun konnen die gewonnenen Ergebnisse auf den Fall der multivariaten Varianz-

analyse angewendet werden. Die Rolle von A spielt hier die Matrix W, wahrend

B schon den passenden Namen tragt.

Eine zentrale Rolle spielen die Matrizen W−1B und T−1B. Sind λ1, . . . , λp die

Eigenwerte von W−1B in absteigender Reihenfolge, und θ1, . . . , θp die von T−1B

(ebenfalls in absteigender Reihenfolge), so gilt

θi =λi

1 + λiund λi =

θi1− θi

.

Die Transformation ist in beiden Richtungen streng monoton wachsend. Entspre-

chende Eigenwerte haben dabei die gleichen Eigenvektoren.


Damit konnen die multivariaten Statistiken mit Hilfe der Eigenwerte ausgedruckt

werden. Zunachst gilt fur Wilks’ Λ die Gleichung

Λ =

p∏i=1

1

1 + λi=

p∏i=1

(1− θi) ,

deren erster Teil oben schon gezeigt wurde. Der zweite Teil folgt beispielsweise

aus1

1 + λi+ θi =

1

1 + λi+

λi1 + λi

= 1 ,

was 1/(1 + λi) = 1− θi zur Folge hat.

Roys Maximalwurzel ist entweder θ1 oder λ1; diese beiden Werte lassen sich durch

die angegebenen monotonen Transformationen ineinander umrechnen.

Die Pillai-Bartlett-Spur ist

Spur(T−1B) =

p∑i=1

θi =

p∑i=1

λi1 + λi

und die Hotelling-Lawley-Spur

Spur(W−1B) =

p∑i=1

λi =

p∑i=1

θi1− θi

,

da die Spur dieser Matrizen die Summe der Eigenwerte ist (hier ist die Tatsache

wichtig, dass T−1B und W−1B jeweils – mit Berucksichtigung der Multiplizitat

– gerade p Eigenwerte besitzen).

Damit ist es gelungen, alle multivariaten Statistiken durch die Eigenwerte λi von

W−1B oder alternativ durch die Eigenwerte θi von T−1B auszudrucken.

Die Formeln sollen nun auch noch einmal durch das Beispiel der Varianzanalyse

mit den drei Bedingungen illustriert werden. Die notigen Eigenwerte waren schon

bestimmt worden – die Eigenwerte von W−1B sind λ1 = 6 und λ2 = 1, wahrend

die von T−1B gleich θ1 = 6/7 und θ2 = 1/2 sind.

Als erstes sieht man, dass die Umrechnungsformeln zum richtigen Ergebnis fuhren,

beispielsweise ist θ1 = λ1/(1 + λ1) = 6/(1 + 6) = 6/7 oder λ2 = θ2/(1 − θ1) =

(1/2)/(1− 1/2) = 1.

Wilks’ Λ ist das Produkt der 1/(1 + λi), also das Produkt von 1/7 und 1/2,

was 1/14 = .0174 ergibt, in Ubereinstimmung mit der Rechnung oben. Mit dem

Produkt der (1− θi) erhalt man naturlich das gleiche Ergebnis.


Die Pillai-Bartlett-Spur ist die Summe der θi, also 19/14 = 1.3571, wahrend die

Hotelling-Lawley-Spur die Summe der λi ist, also 7. Beides stimmt mit den schon

berechneten Werten uberein.

Zum Abschluss ist noch der Fall zu behandeln, dass B (im Fall J = 2) hochstens

den Rang 1 besitzt. Es soll gezeigt werden, dass alle multivariaten Statistiken

aus Roys Maximalwurzel λ1 durch eine monotone Transformation hervorgehen.

Damit sind dann diese Statistiken alle aquivalent.

Wenn B hochstens Rang 1 hat, besitzt auch W−1B hochstens den Rang 1, und

die Eigenwerte dieser Matrix sind alle gleich 0 bis auf hochstens λ1, der dann

auch der großte ist.

Den großten Eigenwert θ1 von T−1B errechnet man zu λ1/(1+λ1). Die restlichen

θi sind alle 0. Die Maximalwurzel θ1 ist also (was ja auch schon bekannt war)

eine monotone Funktion von λ1.

Wilks’ λ ist hier 1/(1 + λ1), da alle weiteren Faktoren 1/(1 + λi) in der Pro-

duktdarstellung gleich 1 sind. Wilks’ λ ist also eine monotone Funktion von λ1 –

diesmal eine monoton fallende (weshalb ja auch hier linksseitig getestet wird).

Da die θi und die λi fur i > 1 alle 0 sind, ist die Pillai-Bartlett-Spur gleich θ1 =

λ1/(1 + λ1) und die Hotelling-Lawley-Spur gleich λ1. Die Spuren sind also hier

gleich den beiden Versionen der Maximalwurzel und folglich ebenfalls monotone

Transformationen von λ1.

Insgesamt sind im Fall J = 2 also alle Statistiken monotone Funktionen von λ1und damit aquivalent. Dass auch Hotellings T 2 als ein Vielfaches der Hotelling-

Lawley-Spur aquivalent zu λ1 ist, hat sich oben schon gezeigt.

Invarianz. Die vier Tests der multivariaten Varianzanalyse sind invariant ge-

genuber bijektiven affinen Transformationen; die Teststatistiken andern sich also

nicht, wenn man die Daten einer solchen Transformation unterzieht. Hierunter

fallt insbesondere die Moglichkeit, dass man die Skalen der einzelnen Variablen

durch andere ersetzt, die sich durch’lineare Transformationen‘ ergeben(damit

sind hier solche der Form u = ay + b mit a 6= 0 gemeint).

Mit geeigneten Transformationen kann man auch den vier Statistiken eine noch

anschaulichere Interpretation geben.

Zur Begrundung dieser Invarianzeigenschaft sei also u = Ay+b eine affine Trans-


formation von y mit einer invertierbaren (p×p)-Matrix A. Die neuen Erwartungs-

werte fur die Bedingungen sind hier Aµj +b, und wegen der Invertierbarkeit von

A erkennt man sofort, dass die neuen Erwartungswerte genau dann alle gleich

sind, wenn die µj gleich sind; die Nullhypthese gilt fur die transformierten Daten

also genau dann, wenn sie fur die Origialdaten gilt.

Nun sollen die B-, die W- und die T-Matrix fur die transformierten Daten be-

stimmt werden; zur Unterscheidung sollen sie B, W und T heißen. Hierzu wird

die neue Datenmatrix benotigt, die U heißen soll und sich aus der Originalda-

tenmatrix Y bekanntlich als U = YA′ + 1b′ ergibt.

Die Matrizen B, W und T erhalt man dann als U′PbU, U′PwU und U′PtU,

wo Pb, Pw und Pt die entsprechenden Projektionsoperatoren sind. Da Pb1, Pw1

und Pt1 bekanntlich alle gleich 0 sind, folgt

B = U′PbU = (YA′)′Pb(YA′) = AY′PbYA′ = ABA′

und entsprechend W = AWA′ und T = ATA′ . Hieraus ergibt sich

W−1

B = (AWA′)−1ABA′ = A′−1W−1A−1ABA′ = A′−1W−1BA′ ,

und wegen der Invertierbarkeit von A′ sind die Eigenwerte dieser Matrix diesel-

ben wie die von A′A′−1W−1B = W−1B. Aus der Gleichheit der Eigenwerte von

W−1

B und W−1B folgt aber unmittelbar die Gleichheit der aus diesen Eigen-

werten zusammengesetzten Teststatistiken.

Erganzend werden noch die zugehorigen Eigenvektoren bestimmt. Da nach einem

bekannten Satz aus der linearen Algebra ein Vektor x genau dann Eigenvektor zu

einem Eigenwert λ von W−1

B = A′−1W−1BA′ ist, wenn A′x Eigenvektor von

A′A′−1W−1B = W−1B zum selben Eigenwert ist, erhalt man die Eigenvektoren

von W−1

B zum Eigenwert λi genau als die A′−1v, wo v Eigenvektor von W−1B

zu λi ist.

Anschauliche Deutung der Statistiken. Mit Hilfe der Invarianzeigenschaft

kann nun den Statistiken der multivariaten Varianzanalyse eine anschaulichere

Deutung gegeben werden.

Zunachst soll Wilks’ Λ betrachtet werden. Hierzu wird in der folgenden Abbil-

dung die Darstellung der Beispieldaten wieder aufgegriffen, zusatzlich werden

aber noch Ellipsen eingezeichnet, die in gewisser Weise die Matrizen T, B und

W reprasentieren.


1

1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................

...................

y1

y2

rrrb

bue

............................................................................................................

.....................

..........................

.....................................................................................................

............................................................................................................

.....................

..........................

.....................................................................................................

............................................................................................................

.....................

..........................

.....................................................................................................

..............................................................................................................................................................

.....................

.........................

................................

............................................................................................................................................................................................................................................................

..........

.......

...........

.....................................................

Die großte Ellipse, die zu T gehort, ist die Ellipse, die im ublichen Sinn die

Verteilung der Daten insgesamt charakterisiert: die Kovarianzmatrix aller Daten

ist T/N und das zugehorige Ellipsoid E(T/N, x, 1) ist gerade die großte Ellipse.

Die etwas kleinere Ellipse gehort zu B; hier handelt es sich um die Ellipse, die die

Verteilung der Gruppenmittelwerte charakterisiert, wobei jeder Gruppenmittel-

wert so oft auftritt, wie in der zugehorigen Zelle Beobachtungen sind. Die Kova-

rianzmatrix der Daten, bei denen die Beobachtungen durch ihre Gruppenmittel-

werte ersetzt sind, ist gerade B/N , wahrend der Mittelwertvektor dieser Daten

wieder x ist. Die Ellipse zu der Verteilung der Gruppenmittelwerte gehorende

Ellipse ist daher E(B/N, x, 1), und dies ist hier die kleinere Ellipse um x.

Hier ist anzumerken, dass in vielen Fallen die Matrix B singular ist, womoglich

notwendigerweise, wenn beispielsweise die Anzahl der Gruppen nicht großer ist

als die der Variablen. In diesem Fall kann B nicht durch ein Ellipsoid reprasentiert

werden. Als Hinweis auf diesen Sachverhalt ist hier die zu B gehorende Ellipse

auch nur gepunktet umrandet.

Schließlich konnte man auch noch die Verteilungen der Abweichungen der Werte

von ihrem jeweiligen Gruppenzentroid durch Ellipsen reprasentieren. Da die ent-

sprechenden theoretischen Kovarianzmatrizen voraussetzungsgemaß gleich sind,

ist es jedoch sinnvoll, diese Abweichungen uber alle Gruppen hinweg zusammen-

zufassen. Die Kovarianzmatrix der Abweichungen ist dann gerade W/N , und die

Ellipse, die diese Kovarianzmatrix charakterisiert, ist hier fur jede Gruppe ein-

mal mit dem jeweiligen Zentroid als Mittelpunkt eingezeichnet; die drei kleinen

Ellipsen sind also die Ellipsen E(W/N, xj, 1).

Nun ist Wilks’ Λ gleich det(W)/ det(T). Die beiden Determinanten sind aber

bis auf einen Faktor, der in beiden Fallen gleich ist und sich damit weghebt, die

quadrierten Volumina der zu W und T gehorenden Ellipsoide E(W, ?, 1) und

E(T, ?, 1) (der Stern bedeutet, dass es auf den Mittelpunkt nicht ankommt).


Das Volumen des hier eingezeichneten zu T/N gehorenden Ellipsoids ist nun

gerade das√

(1/N)p-fache des zu T gehorenden Ellipsoids, und entsprechend

verhalt es sich mit den zu W/N und zu W gehorenden Ellipsoiden. Damit ist

das Verhaltnis der Volumina der zu W und T gehorenden Ellipsoide dasselbe wie

das der Volumina der zu W/N und T/N gehorenden, und diese beiden Ellipsen

befinden sich auch in der Zeichnung (die zu W/N gehorende dreimal). Wenn

man nun das Verhaltnis der Flacheninhalte der W/N - und T/N -Ellipsen in der

Abbildung quadriert, so erhalt man folglich gerade Wilks’ Λ (von den W/N -

Ellipsen nimmt man dabei naturlich nur eine).

Wilks’ Λ ist damit anschaulich als ein quadriertes Verhaltnis von Volumina von

Ellipsoiden gedeutet, und offenbar sprechen hier kleine Werte gegen die Nullhy-

pothese, da sie bedeuten, dass die Variabilitat des Fehlers klein ist im Verhaltnis

zur Gesamtvariabilitat der Daten.

Um auch die anderen Statistiken geometrisch interpretieren zu konnen, ist es

sinnvoll, zunachst geeignete affine Transformationen mit den Daten vorzuneh-

men; der vorangehende Abschnitt hat ja gezeigt, dass die Statistiken bei solchen

Transformationen ihren Wert beibehalten.

Beide hier verwendetete Transformationen lassen sich als Mahalanobis-Transfor-

mationen auffassen, wobei die eine die Kovarianzmatrix der Fehler zur Einheits-

matrix macht und die andere die Kovarianzmatrix aller Daten.

Zunachst soll die Mahalanobistransformation bezuglich der Fehlerkovarianzma-

trix W/N durchgefuhrt werden; die Konstante wird dabei so gewahlt, dass hin-

terher 0 der Mittelwert aller transformierten Daten ist. Die Transformation ist

dann

u = (W/N)−1/2(y − y) .

Die folgende Abbildung zeigt die transformierten Daten mit den zugehorigen El-

lipsen; den Eigenschaften der Transformation entsprechend ist nun 0 der Gesamt-

mittelwert, und aus den zum Fehler gehorenden Ellipsen sind Kreise mit Radius 1

geworden. Zum Vergleich findet sich links noch einmal die Originaldatensituation.


1

1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................

...................

y1

y2

rrrb

bue

............................................................................................................

.....................

..........................

.....................................................................................................

............................................................................................................

.....................

..........................

.....................................................................................................

............................................................................................................

.....................

..........................

.....................................................................................................

..............................................................................................................................................................

.....................

.........................

................................

............................................................................................................................................................................................................................................................

..........

.......

...........

.....................................................

......................................................................................................................................................................................................................................... ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......................

...................

u1

u2

rrr

bb ue

.......

...............................

.......................................................................................................................................................................................................................................

.......

...............................

.......................................................................................................................................................................................................................................

.......

...............................

.......................................................................................................................................................................................................................................

............................................................................................................................................................

......................................................................................................................................................................................................................................................................................................................................................................

...................................

........

......................................

...................................................................................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

.......

Die Berechnung der W- und B-Matrizen der transformierten Daten, die wieder

W und B heißen sollen, liefert wie im letzten Abschnitt

W = (W/N)−1/2W(W/N)−1/2 = NI

und B = (W/N)−1/2B(W/N)−1/2. Die Kovarianzmatrix W/N des Fehlers ist

also in der Tat die Einheitsmatrix, weshalb die entsprechenden Ellipsen Kreise mit

Radius 1 sind. Fur W−1

B erhalt man damit B/N , was jetzt die Kovarianzmatrix

der Gruppenzentroide ist. Es sei noch einmal darauf hingewiesen, dass damit

hier und im Folgenden immer gemeint ist, dass jedes Gruppenzentroid in der

Haufigkeit der Beobachtungen in der zugehorigen Zelle auftritt.

Die Eigenwerte von W−1

B, die wegen des vorangehenden Abschnitts gleichzeitig

die Eigenwerte λi von W−1B sind, lassen sich jetzt also auch verstehen als Eigen-

werte der Kovarianzmatrix B/N der Gruppenzentroide nach der Mahalanobis-

Transformation, die die Fehlerkovarianzmatrix zur Einheitsmatrix gemacht hat.

Insbesondere lassen sich diese Eigenwerte damit in der Weise deuten, wie dies

allgemein bei Eigenwerten von Kovarianzmatrizen der Fall ist.

Die Spur von W−1B, also die Hotelling-Lawley-Spur, ist die Summe dieser Ei-

genwerte und kann als Spur der Kovarianzmatrix B/N der Gruppenzentroide

jetzt als verallgemeinerte Varianz dieser Zentroide gedeutet werden im Sinne ih-

res durchschnittlichen quadrierten Abstands zum Gesamtzentroid, das nun ja der

Nullpunkt ist.

Kurz gesagt ist also die Hotelling-Lawley-Spur die Varianz (im Sinne der Spur)

der Gruppenzentroide nach einer Mahalanobistransformation bezuglich der Feh-

lerkovarianzmatrix.


Große Werte dieser Statistik sprechen also fur eine Verschiedenheit der entspre-

chenden Gruppenerwartungswerte und damit gegen die Nullhypothese, womit

auch die Regel gerechtfertigt ist, die Nullhypothese bei großen Werten zu verwer-

fen.

Der an mehreren Stellen wichtige großte Eigenwert λ1 ist insbesondere interpre-

tierbar als die maximale Varianz der Gruppenzentroide in einer Richtung, wobei

diese maximierende Richtung gerade durch den zugehorigen Eigenvektor gegeben

ist.

In der Abbildung ist die Richtung der maximalen Varianz als gepunktete Li-

nie mit eingezeichnet; die Richtung fallt naturlich mit der Richtung der ersten

Hauptachse der zu B/N gehorenden Ellipse zusammen.

Zur Deutung der restlichen beiden Statistiken soll nun eine Mahalanobistransfor-

mation bezuglich der Kovarianzmatrix T/N aller Daten vorgenommen werden.

Die Transformation ist jetzt

u = (T/N)−1/2(y − y) .

Die folgende Abbildung zeigt die transformierten Daten mit den zugehorigen El-

lipsen; den Eigenschaften der Transformation entsprechend ist 0 der Gesamtmit-

telwert, und die zur Gesamtvarianz gehorende Ellipse ist ein Kreis vom Radius

1. Zum Vergleich findet sich links wieder die Originaldatensituation.

1

1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................

...................

y1

y2

rrrb

bue

............................................................................................................

.....................

..........................

.....................................................................................................

............................................................................................................

.....................

..........................

.....................................................................................................

............................................................................................................

.....................

..........................

.....................................................................................................

..............................................................................................................................................................

.....................

.........................

................................

............................................................................................................................................................................................................................................................

..........

.......

...........

.....................................................

1

1

........................................................................................................................................................................................................................................................... ..........................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

....................

...................

u1

u2

rr

r

b

bue .......

..........................................

..........................................................................................................................................................................................................

...............................................................................

..........................................

..........................................................................................................................................................................................................

........................................................................

.................................................

..........................................................................................................................................................................................................

........................................................................

.......

.......

.......................................................................

...........................

......................................................................................................................................................................................................................................................................................................................................................................

...............................................................................................................

......................................

.......

...................................................................................

..........

..........

..........

..........

..........

..........

..........

..........

..........

..........

..........

.

Die Berechnung der T- und B-Matrizen der transformierten Daten, die wieder

T und B heißen sollen, liefert analog zur Rechnung bei der Transformation mit


(W/N)−1/2 die Matrizen

T = (T/N)−1/2T(T/N)−1/2 = NI

und B = (T/N)−1/2B(T/N)−1/2. Die Kovarianzmatrix T/N aller neuer Daten ist

also in der Tat die Einheitsmatrix, weshalb die entsprechende Ellipse ein Kreis mit

Radius 1 ist. Fur T−1

B erhalt man damit B/N , also wieder die Kovarianzmatrix

der neuen Gruppenzentroide (nach wie vor werden die Gruppenzentroide so oft

aufgenommen wie Beobachtungen in den entsprechenden Zellen sind).

Die Eigenwerte von T−1

B sind, wie man ganz analog zur Argumentation bei der

Transformation mit (W/N)−1/2 sieht, gleichzeitig die Eigenwerte θi von T−1B.

Sie lassen sich also auch wieder verstehen als Eigenwerte der Kovarianzmatrix

B/N der Gruppenzentroide nach der Mahalanobis-Transformation, die die Ge-

samtkovarianzmatrix zur Einheitsmatrix gemacht hat.

Die Spur von T−1B, also die Pillai-Bartlett-Spur, ist die Summe dieser Eigenwer-

te und kann als Spur der Kovarianzmatrix B/N der Gruppenzentroide wieder als

verallgemeinerte Varianz dieser Zentroide gedeutet werden im Sinne ihres durch-

schnittlichen quadrierten Abstands zum neuen Gesamtzentroid 0.

Kurz gesagt ist also die Pillai-Bartlett-Spur die Varianz (im Sinne der Spur) der

Gruppenzentroide nach einer Mahalanobistransformation bezuglich der Gesamt-

kovarianzmatrix.

Große Werte dieser Statistik sprechen also fur eine Verschiedenheit der entspre-

chenden Gruppenerwartungswerte und damit gegen die Nullhypothese, womit

auch die Regel gerechtfertigt ist, die Nullhypothese bei großen Werten zu verwer-

fen.

Der großte Eigenwert θ1, also Roys Maximalwurzel, ist insbesondere interpre-

tierbar als die maximale Varianz der Gruppenzentroide in einer Richtung, wobei

diese maximierende Richtung gerade durch den zugehorigen Eigenvektor gegeben

ist.

In der Abbildung ist die Richtung der maximalen Varianz als gepunktete Li-

nie mit eingezeichnet; die Richtung fallt naturlich mit der Richtung der ersten

Hauptachse der zu B/N gehorenden Ellipse zusammen.

Es deutet sich hier schon eine Besonderheit der Maximalwurzel an, namlich die,

dass sie womoglich besonders empfindlich ist, wenn die Abweichungen der Grup-

penzentroide vom Gesamtzentroid in einer Richtung sehr stark ausgepragt sind,


denn sie berucksichtigt nur die starkste Varianz in einer Richtung, im Gegensatz

zu Pillai-Bartlett-Spur und Hotelling-Lawley-Spur, die auf die Gesamtvarianz der

Gruppenzentroide ansprechen, also auch die anderen Richtungen mit einbeziehen.

Die geometrischen Deutungen konnen noch zu weiteren Vermutungen daruber

Anlass geben, bei welchen Datensituationen womoglich die eine oder die ande-

re Statistik besonders vorteilhaft ist, was das Erzielen signifikanter Ergebnisse

angeht.

Wahl der Statistik. Da man in der Situation der multivariaten Varianzanalyse

die Auswahl zwischen vier ublichen Teststatistiken hat, drangt sich die Frage auf,

welche man wahlen soll.

Die Auswahl wird oft durch Tradition bestimmt sein, jedoch lassen sich auch

Argumente anfuhren, die in unterschiedlichen Situationen fur oder gegen die ein-

zelnen Statistiken sprechen.

Ein Aspekt fur die Wahl kann die Robustheit gegen Verletzung der Verteilungs-

annahmen sein. Hier zeigt die Erfahrung, dass viel fur die Pillai-Bartlett-Spur

spricht.

Ein zweiter Aspekt kann das Bedurfnis sein, nach einer signifikanten Varianz-

analyse, die ja nur eine ganz allgemeine und unspezifische Alternativhypothese

besitzt, und bei der folglich ein signifikantes Ergebnis noch wenig aussagt, gewis-

sermaßen genauer nach der Ursache der Signifikanz zu forschen. Will man sich

nicht mit Problemen der Alpha-Inflation auseinandersetzen mussen, so ware zu

wunschen, eine Statistik zu besitzen, die nach dem UI-Prinzip konstruiert ist,

da dann ja ohne Adjustierprobleme entsprechende post-hoc-Tests durchgefuhrt

werden konnen.

Spezifischere Fragen konnen dabei einerseits auf Unterschiede zwischen bestimm-

ten Gruppen gerichtet sein, allgemeiner auf (multivariate) Kontraste, andererseits

konnen sie sich auch auf Linearkombinationen der Variablen beziehen, speziell al-

so beispielsweise fragen, ob auch in den einzelnen Originalvariablen Unterschiede

vorliegen.

Hier erweist sich der Test mit der Maximalwurzel als UI-Test fur beide Arten

von Fragen (und fur noch weitere). Wahlt man diesen Test, so kann man also

besonders einfach Fragen uber die genauere Form der Unterschiedlichkeit der Er-

wartungswertvektoren nach einem signifikanten Testergebnis beantworten, ohne


sich uber die Alpha-Inflation Gedanken machen zu mussen.

Leider hat der Test mit der Maximalwurzel jedoch den Nachteil, dass er wenig

robust gegenuber Verletzungen der Verteilungsannahmen ist.

Ein weiterer wichtiger Aspekt ist die Power der Testverfahren. Hier kann man

keine allgemeingultige Empfehlung aussprechen, vielmehr weist je nach Konstel-

lation der µj und Form von Σ mal das eine und mal das andere Verfahren die

großere Power auf. Hinweise konnen die Veranschaulichung des letzten Abschnitts

liefern, die jedoch voraussetzen, dass man schon recht genaue Vorstellungen uber

die µj und Σ hat.

Variieren beispielsweise die Erwartungswerte µj im Wesentlichen nur ein einer

Richtung, liegen sie also dicht bei einer Geraden, so spricht man auch von einer

eher konzentrierten Nonzentralitatsstruktur. In diesem Fall empfiehlt sich die

Maximalwurzel als Test, was sich ja auch im letzten Abschnitt schon angedeutet

hat.

Variieren hingegen die Erwartungswerte in den J − 1 ihnen zur Verfugung ste-

henden Dimensionen in etwa gleichem Maße (man hat hier die Fehlerstreuung

zu berucksichtigen, also zunachst eine Mahalanobistransformation bezuglich Σ

durchzufuhren), so spricht man auch von einer eher diffusen Nonzentralitatsstruk-

tur. In diesem Fall sind die drei anderen Statistiken uberlegen.

Noch grundsatzlicher ist schließlich auch die Alternative zu prufen, statt einer

multivariaten Varianzanalyse mehrere univariate Varianzanalysen mit den p Ori-

ginalvariablen durchzufuhren. Auch hier ist nicht unbedingt klar, welchem Weg

der Vorzug zu geben ist.

Zunachst ist eine grundsatzliche Entscheidung zu treffen, namlich die, ob man

sich ausschließlich fur die Originalvariablen interessiert, oder ob man bereit ist,

neben den abhangigen Variablen auch Linearkombinationen dieser Variablen zu

betrachten.

Ein Argument fur die zweite Alternative kann das sein, dass in manchen Fallen

Unterschiede, die sich in den Einzelvariablen noch nicht deutlich genug zeigen,

dann deutlicher werden, wenn man geeignete Linearkombinationen betrachtet –

das Zulassen beliebiger Linearkombinationen ist ja gerade ein Aspekt der multiva-

riaten Vorgehensweise. Beispielsweise ist es oft so, dass bei allen abhangigen Va-

riablen etwa dasselbe Ergebnismuster vorliegt; dann kann dieses vielleicht durch

Summenbildung deutlicher von den sich gegenseitig neutralisierenden’Fehlern‘


abgehoben werden.

Interessiert man sich also fur Unterschiede der Effekte der Stufen der unabhangi-

gen Variable, ohne sich darauf festlegen zu wollen oder zu konnen, wo genau sich

diese Effekte zeigen, so spricht einiges fur den multivariaten Zugang.

Interessiert man sich jedoch (aus welchem Grund auch immer) ausschließlich fur

Effekte in den einzelnen abhangigen Variablen, so wird der univariate Zugang oft

uberlegen sein, insbesondere dann, wenn man bei den Einzeltests meint, auf eine

Adjustierung des Signifikanzniveaus verzichten zu konnen.

Legt man jedoch in diesem Fall (in dem ausschließlich nach den abhangigen Va-

riablen gefragt wird, ein Interesse an Linearkombinationen jedoch ausgeschlossen

wird) Wert auf eine Adjustierung, so konnte man trotz der eingschrankten Fragen

doch auch ein multivariates Verfahren wahlen, da hier eine solche Adjustierung

enthalten ist, wobei sich allerdings anschließend noch die Frage nach passenden

post-hoc-Tests stellt (nach ihrer Konstruktion ist hier Roys Maximalwurzel ge-

eignet). Die Adjustierung mit Hilfe des multivariaten Verfahrens muss jedoch kei-

nesfalls optimal sein – univariate Varianzanalysen mit Bonferroni-Adjustierung

werden meistens vorzuziehen sein.

Wesentlich schoner ist der Fall, dass man vor dem Experiment schon genauere

Vorstellungen hat, wo sich die Unterschiede zeigen sollten, wenn man also eine

Linearkombination der abhangigen Variablen, in der dies der Fall sein sollte, schon

vorher spezifizieren kann. In diesem Fall wird man womoglich nur eine einzige

univariate Varianzanalyse mit dieser Linearkombination rechnen und kann sich

die Uberlegungen zur Adjustierung sparen.

Noch besser ist es, wenn man zusatzlich vorher angeben kann, zwischen welchen

Gruppen die Unterschiede auftreten sollten, oder wenn man allgemeiner Kon-

traste spezifizieren kann, die von Null verschieden sein sollten. In diesem Fall

kann man die Hypothesen so formulieren, dass sie mit Hilfe univariater Kontrast-

statistiken der vorher festgelegten Linearkombination oder Linearkombinationen

der abhangigen Variablen uberprufbar sind.

Ein zentraler Gesichtspunkt bei der Entscheidung zwischen univariaten Tests der

Originalvariablen und einem multivariaten Test ist zusammenfassend die Frage,

ob man beliebige Linearkombinationen der Originalvariablen mit in die Betrach-

tung einbeziehen will oder nicht. Will man dies tun, so sollte man den multiva-

riaten Zugang wahlen, ist man hingegen ausschließlich an den Originalvariablen


interessiert, so ist der univariate Zugang wohl meist sinnvoller, insbesondere, wenn

man auf Adjustierung verzichten will.

In der Praxis ist ubrigens immer mit Uberraschungen zu rechnen, wenn man

parallel univariat und multivariat rechnet und die Ergebnisse vergleicht.

Zu erwahnen sind in diesem Zusammenhang noch Vorschriften der Art, man

musse (!) multivariat rechnen, wenn es deutliche Korrelationen zwischen den Ori-

ginalvariablen gibt, konne oder durfte oder sollte jedoch im Fall geringer Korre-

lationen univariat rechnen und durfe (?) dann auch auf Adjustierung verzichten.

Wenn sich solche Vorschriften auch plausibel anhoren, so ist, gerade wegen ihrer

Schlichtheit, um so kritischer nach einer Rechtfertigung zu fragen (in diesem Zu-

sammenhang ist auch zu klaren, welche Korrelationen gemeint sind: die zwischen

den Fehlern oder die zwischen den Variablen insgesamt ohne Berucksichtigung

der Gruppenzugehorigkeit).

Zur Illustration soll das Beispiel aus der Einleitung noch einmal aufgegriffen wer-

den. Hier wurde zumindest Wilks’ Λ signifikant auf dem 5%-Niveau. Erganzend

ist es nun interessant, nach den Ergebnissen fur univariate Varianzanalysen der

beiden Variablen zu fragen.

Die F -Bruche berechnet man (unter Zuhilfenahme der Diagonalelemente von B

und W) leicht zu (30/2)/(10/5) = 7.5 und (6/2)/(6/5) = 2.5. Der kritische

Wert auf dem 5%-Niveau ist F2, 5; .05 = 5.79. Der Einzeltest wird bei der ersten

Variable also signifikant, wobei nicht adjustiert wurde. Fuhrt man hingegen eine

Bonferroni-Adjustierung durch, so sind die beiden univariaten Tests auf dem

2.5%-Niveau durchzufuhren, was zu einem kritischen Wert F2, 5; .025 = 8.43 fuhrt.

Mit Adjustierung wird also keiner der univariaten Tests signifikant.

Betrachtet man nun auch noch die Linearkombination U = Y1 + Y2, und fuhrt

man fur U eine einfaktorielle Varianzanalyse durch, so erhalt man den F -Wert

(24/2)/(4/5) = 15, der deutlich großer ist als der maximale F -Wert 7.5 der Origi-

nalvariablen. Dies ist ein Hinweis darauf, dass die multivariate Betrachtungsweise

womoglich mehr in den Daten finden kann als getrennte univariate Betrachtungs-

weisen nur der Originalvariablen. Charakteristisch multivariat ist ja die Einbezie-

hung beliebiger Linearkombinationen der Originalvariablen in die Untersuchung.

Hatte man allerdings schon vor der Datenerhebung die begrundete Vermutung

gehabt, dass sich der Effekt in der Variable U besonders deutlich zeigt, so ware

ein einziger univariater Test mit U naturlich eine bessere Strategie gewesen, da


man bei ausschließlicher Durchfuhrung dieses Tests sich auch keine Gedanken

uber Adjustierung zu machen braucht. Es ist ja generell besser, nach Moglichkeit

spezifische Fragen zu stellen und angemessen zu beantworten. In vielen Fallen

konnen sich dann sowohl die multivariate Varianzanalyse als auch die univariaten

erubrigen.

Diskriminanzfunktionen. Im Anschluss an die bisherige Diskussion, die die ele-

mentareren Aspekte der multivariaten Varianzanalyse behandelte, soll nun noch

eine spezielle Frage behandelt werden, die schon auf die komplexeren Aspek-

te dieses Verfahrens verweist, namlich die Frage, in welcher Linearkombination

oder, geometrisch gesprochen, in welcher Richtung die Unterschiede zwischen den

Gruppen besonders groß sind.

Naturlich ist bei dieser Frage auch das Streuungsverhalten innerhalb der Gruppen

zu berucksichtigen. Daher liegt es nahe, die Frage so zu prazisieren, dass eine

Linearkombination der Originalvariablen gesucht wird, fur die eine univariate

Varianzanalyse einen moglichst großen F -Bruch liefert.

Es sei also irgendeine Linearkombination U =∑aiYi + b der Originalvariablen

gegeben, deren Koeffizienten wie ublich zu einem Koeffizientenvektor a zusam-

mengefasst seien. Die Verwendung von Großbuchstaben bei der Bezeichnung soll

darauf hinweisen, dass jetzt die Variablen als Variablen im informellen Sinn auf-

gefasst werden (und nicht etwa als Zufallsvariablen).

Es geht nun zunachst darum, den zugehorigen F -Bruch zu bestimmen. Ist Y die

Datenmatrix, so erhalt man den Datenvektor der neuen Variable U als Ya + 1b.

Da die Projektion Pb den Vektor 1 auf 0 abbildet, erhalt man wie bei den Un-

tersuchungen zur Invarianz

SSb = (Ya)′Pb(Ya) = a′(Y′PbY)a = a′Ba ,

wobei SSb naturlich die zu der neuen Variable U gehorende Quadratsumme zwi-

schen den Gruppen bezeichnet.

Ganz analog bestimmt man SSw zu a′Wa. Der F -Bruch zum Testen der Nullhy-

pothese, dass die Zellen-Erwartungswerte von U ubereinstimmen, ist dann

F =SSb/(J − 1)

SSw/(N − J)=N − JJ − 1

SSbSSw

.


Da der Vorfaktor (N − J)/(J − 1) immer der gleiche ist, ist nun

SSbSSw

=a′Ba

a′Wa

zu maximieren.

Hierfur ist die Losung jedoch bekannt: Das Maximum existiert und ist gleich

dem großten Eigenwert λ1 von W−1B, wobei fur a ein zugehoriger Eigenvektor

zu wahlen ist.

Der gesuchte maximale F -Bruch ist dann gleich (N − J)/(J − 1)λ1.

Wie man sieht, besteht also eine enge Beziehung zwischen dem großten Eigenwert

und dem maximalen F -Bruch bei der Untersuchung von Linearkombinationen.

Dies sollte die oben gemachten Andeutungen uber die Vorteile der Maximalwurzel

als Teststatistik im Zusammenhang mit post-hoc-Fragestellungen etwas plausi-

bler machen; so wie der F -Bruch der univariaten Varianzanalyse eng mit der

maximalen Kontrastatistik zusammenhangt, so hangt hier der großte Eigenwert

eng mit dem großten F -Bruch zusammen, den man bei Linearkombinationen er-

halten kann. Ein wesentliches Argument auf dem Weg zu einem entsprechenden

UI-Test ist damit bereits geliefert.

Fur die Daten des einleitenden Beispiels war

W−1B =

(6 0

5 1

).

Der großte Eigenwert wurde schon zu λ1 = 6 bestimmt, und ein zugehoriger

Eigenvektor ist der Vektor (1, 1)′.

Eine Linearkombination der y-Variablen mit maximalem F -Bruch ist also bei-

spielsweise U = Y1 + Y2. Der F -Bruch der univariaten Varianzanalyse mit dieser

Variable ist dann

F =N − JJ − 1

λ1 =8− 3

3− 16 = 15 .

Zum Vergleich ist F2, 5; .05 = 5.79. Weiter oben waren auch schon die F -Bruche

fur die Originalvariablen Y1 und Y2 zu 7.5 und 2.5 bestimmt worden – in der Tat

ist der hier gefundene F -Bruch großer.

Man kann nun auch die Linearkombination in der Darstellung der Daten als

die durch den Koeffizientenvektor erzeugte Gerade reprasentieren. Die Werte der


einzelnen Personen in der Linearkombination U erhalt man dann einfach durch

Projektion der zugehorigen Punkte auf die Gerade, die noch mit einem geeigneten

Koordinatensystem zu versehen ist.

Hier ist zunachst die Datensituation mit Zentroiden und der Gerade, die die

optimale Linearkombination reprasentiert; die Ellipsen deuten dabei das Streu-

ungsverhalten innerhalb der einzelnen Gruppen an.

1

1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................

...................

y1

y2

rrrb

bue

............................................................................................................

.....................

..........................

.....................................................................................................

............................................................................................................

.....................

..........................

.....................................................................................................

............................................................................................................

.....................

..........................

.....................................................................................................

.......................................................................................................................................................................................................................................................................................................................................................................................................................................

In der nachsten Abbildung sind die Ellipsen auf die Gerade projiziert; man er-

kennt, dass sich nun in der Tat die Gruppen deutlich voneinander unterschei-

den (jedenfalls eine Gruppe von den beiden andern). Wesentlich ist dabei das

’Uberlappungsverhalten‘ der

’Streuungsintervalle‘: Hier ist eines dieser Intervalle

deutlich von den andern beiden getrennt.

1

1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................

...................

y1

y2

............................................................................................................

.....................

..........................

.....................................................................................................

r............................................................................................................

.....................

..........................

.....................................................................................................

r ............................................................................................................

.....................

..........................

.....................................................................................................

r.........

..................

..................

..................

..................

..................

..................

..................

..................

..................

..

..................

..................

..................

..................

..................

..................

..................

....

.............................................................

..................

..................

................

.........

.........................................................................................................................................................................................................................................................................................................................................................................................................

rr rrr

r.........

..................

..................

..................

..................

..................

..................

..................

................

...............................

..................

.............

Zum Vergleich folgt die entsprechende Zeichnung fur die Linearkombination Y2(also die Betrachtung der zweiten Variable fur sich genommen). In diesem Fall

hat man eine deutliche Uberlappung der drei’Streuungsintervalle‘, was auch an-

schaulich erwarten lasst, dass der F -Bruch fur diese Linearkombination wohl nicht

so hoch ausfallen wird.


1

1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................

...................

y1

y2

............................................................................................................

.....................

..........................

.....................................................................................................

r............................................................................................................

.....................

..........................

.....................................................................................................

r ............................................................................................................

.....................

..........................

.....................................................................................................

r......................................................................................................................................................................................................................................................................

................................................................................................................................................................................................................................................................................................................................................

.................................................

...........................................................................................................................

.................................................................................................................................................................................

...........................................................................................................................................................................................................................................................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

....

rr rrrr

...........................................................................................................................................................................................................................................................................................................

......................................................................................

......................................................................................................................................................................................................................

Die Frage nach der Linearkombination mit dem maximalen F -Bruch hat vie-

le Losungen, da alle Eigenvektoren zum großten Eigenwert λ1 von W−1B eine

Losung liefern. Insbesondere ist jede lineare Transformation cU + d einer Losung

U mit c 6= 0 wieder eine Losung, da der neue Koeffizientenvektor gerade das

c-fache des alten und damit wieder Eigenvektor zu λ1 ist.

Es ist daher naheliegend, eine Art Standardisierung durch eine Zusatzforderung

vorzunehmen.

Da man solche Standardisierungen nicht nur in dieser Situation durchfuhrt, son-

dern auch bei anderen Linearkombinationen, soll dies nun auch allgemein be-

sprochen werden. Es sei also irgendeine Linearkombination U =∑aiYi + b der

Originalvariablen gegeben, deren Koeffizienten wie ublich zu einem Koeffizien-

tenvektor a zusammengefasst seien.

Im Einstichprobenfall ist die ubliche Standardisierung gerade die z-Transforma-

tion, die bewirkt, dass der Mittelwert zu 0 wird und die Varianz zu 1. Analog

soll hier eine Standardisierung eine lineare Transformation cU +d von U sein, die

ahnliche Eigenschaften besitzt.

Was den Mittelwert angeht, wird man fordern, dass der Mittelwert aller Daten

nach der Standardisierung 0 ist. Hingegen hat man bei der Verallgemeinerung der

Varianz-Bedingung zwei Optionen. Einerseits konnte man fordern, dass die Vari-

anz aller Daten nach der Standardisierung 1 sein soll, andererseits aber auch, dass

die Varianz innerhalb zu 1 werden soll. Hier entscheidet man sich ublicherweise

fur die zweite Alternative, was auch sinnvoll erscheint, da die Auswahl der Ver-

suchsbedingungen, die ja die Gesamtvarianz beeinflusst, oft willkurlich sein wird,

wahrend die Varianzen innerhalb der Gruppen in vielen Fallen als naturliche

Schwankung interpretierbar sind.

Dabei ist zunachst zu klaren, was unter der Varianz innerhalb der Gruppen zu

verstehen ist. Fur die Variable U , deren Koeffizientenvektor a ist, ist die (theore-


tische) Varianz innerhalb jeder Gruppe gleich a′Σa, da ja Σ die Kovarianzmatrix

der Werte in jeder Gruppe ist. Es liegt daher nahe, als (empirische) Varianz inner-

halb der Gruppen einen erwartungstreuen Schatzer dieser theoretischen Varianz

zu wahlen.

Aus der bekannten Tatsache, dass W/(N − J) die theoretische Kovarianzmatrix

Σ erwartungstreu schatzt, folgt nun, dass fur alle p-Vektoren a und b die Statistik

a′(W/(N − J))b = a′Wb/(N − J) ein erwartungstreuer Schatzer fur a′Σb ist,

denn bezeichnen σij und wij die Elemente von Σ und W, so gilt fur alle i und j

die Beziehung E(wij/(N − J)) = σij und daher

E(a′(W/(N − J))b) = E(∑

aibjwij/(N − J))

=∑

aibjE(wij/(N − J)) =∑

aibjσij = a′Σb .

Insbesondere gilt fur den Koeffizientenvektor a von U , dass a′Wa/(N − J) die

Varianz a′Σa von U innerhalb der Gruppen erwartungstreu schatzt, weshalb

a′Wa/(N − J) nun die Rolle der empirischen Varianz innerhalb der Gruppen

spielen soll. Dies steht im Einklang damit, dass es sich dabei ja gerade um

MSw = SSw/(N − J) der Variable U handelt und damit um den bekannten

erwartungstreuen Schatzer der Fehlervarianz aus der univariaten Varianzanalyse.

Spater wird auch die Kovarianz und die Korrelation von zwei Variablen innerhalb

der Gruppen gebraucht werden. Haben diese beiden Variablen die Koeffizienten-

vektoren a und b, so ist die (theoretische) Kovarianz innerhalb jeder Gruppe

gleich a′Σb, was von a′Wb/(N − J) erwartungstreu geschatzt wird. Daher soll

a′Wb/(N − J) auch als (empirische) Kovarianz der gegebenen Variablen inner-

halb der Gruppen bezeichnet werden.

Als Korrelation dieser Variablen innerhalb der Gruppen bezeichnet man dann

naheliegenderweise die Zahl

a′Wb/(N − J)√a′Wa/(N − J)

√b′Wb/(N − J)

=a′Wb√

(a′Wa)(b′Wb).

Ersetzt man links (N − J) uberall durch N , so bleibt das Ergebnis gleich, die

linke Seite ist dann jedoch eine Korrelation im ublichen Sinn, namlich die der

Daten, die entstehen, wenn man in beiden Variablen alle Werte durch ihre Ab-

weichung von den Gruppenmittelwerten ersetzt. Dies erkennt man unmittelbar

daran, dass die entsprechenden Datenvektoren gleich PwYa bzw. PwYb sind

und die Kovarianz folglich gleich (1/N)(PwYa)′(PwYb) = (1/N)a′Wb (fur den


Nenner argumentiert man analog). Da also der als Korrelation bezeichnete Aus-

druck auch tatsachlich eine Korrelation ist, besitzt er auch die Eigenschaften einer

Korrelation, kann also beispielsweise nur Werte zwischen −1 und 1 annehmen.

Die so definierten Korrelationen innerhalb der Gruppen sollen auch kurz Inner-

gruppen-Korrelationen heißen.

Die Forderung, dass die Innergruppenkorrelation von zwei von Variablen mit von

0 verschiedenen Koeffizientenvektoren a und b gleich 0 ist, ist offenbar aquivalent

zur Forderung, dass

a′Wb = 0

gelten soll.

Man pruft ubrigens leicht nach, dass die Innergruppenkorrelation von zwei Line-

arkombinationen U und V der Variablen Yi sich nicht andert, wenn wenn man U

und V durch lineare Transformationen aU + b und cV + d ersetzt, sofern a und

c großer als 0 sind.

Nun soll die Linearkombination U =∑aiYi + b der Originalvariablen stan-

dardisiert werden in dem gerade prazisierten Sinn. Mittelwert und SSw von U

sind a′y + b und a′Wa, woraus sich Mittelwert und SSw von cU + d bestim-

men als c(a′y + b) + d und c2a′Wa, letzteres, da ca der Koeffizientenvektor

von cU + d bezuglich der Originalvariablen ist. Die Forderung, dass die Vari-

anz SSw/(N−J) innerhalb der Gruppen zu 1 werden soll, ist genau dann erfullt,

wenn c = ±√

(N − J)/a′Wa gilt, die Forderung fur den Mittelwert genau dann,

wenn d = −c(a′y + b) ist. Es ergeben sich also genau zwei mogliche Standar-

disierungen, die durch Multiplikation mit (−1) auseinander hervorgehen. Am

einfachsten nimmt man hier die positive Losung fur c (man kann naturlich auch

die andere nehmen, wenn irgendwelche Grunde dafur sprechen, wie beispielsweise

eine zwanglosere’Interpretierbarkeit‘).

Die standardisierte Variable ist dann insgesamt

cU + d = c(∑

aiYi + b)− c(a′y + b) =

√N − Ja′Wa

(∑aiYi − a′y

),

was man auch noch als √N − Ja′Wa

∑ai(Yi − Yi)

schreiben kann, wobei Yi den Mittelwert aller Daten in der Variable Yi bezeichnet.


Der Koeffizient von Yi nach der Standardisierung ist also√

(N − J)/(a′Wa) aiund der neue Koeffizientenvektor folglich

√(N − J)/(a′Wa) a; er ist also ein

Vielfaches des alten. Die additive Konstante ist dann −√

(N − J)/(a′Wa) a′y.

Im Sonderfall der Standardisierung der i-ten Originalvariablen ist a der i-te Ein-

heitsvektor und folglich a′Wa gerade das i-te Diagonalelement von W.

Zur Illustration sollen nun die beiden Originalvariablen des Beispiels in diesem

Sinne standardisiert werden. Hier galt

y =

(5

3

)und W =

(10 −6

−6 6

).

Fur N − J ergibt sich 8 − 3 = 5. Nennt man die standardisierten Variablen

naheliegenderweise Zi (womit naturlich jetzt nicht die z-Transformierten gemeint

sind), so erhalt man

Z1 =√

5/10 (Y1 − 5) = .707Y1 − 3.535

und

Z2 =√

5/6 (Y2 − 3) = .913Y2 − 2.739 .

Ausgangspunkt der gerade angestellten Uberlegungen war der Wunsch nach ei-

ner Art Standardisierung der Losung der Frage nach der Linearkombination mit

maximalem F -Bruch. Dies kann nun prazisiert werden durch die Forderung, dass

eine Losung zusatzlich standardisiert sein soll im gerade definierten Sinn, dass

das zugehorige MSw also 1 sein soll und der zugehorige Gesamtmittelwert 0.

Erfullt eine Losung diese Forderung (wobei die Teilforderung hinsichtlich des

Mittelwerts gelegentlich auch wegfallt), so nennt man sie eine erste Diskrimi-

nanzfunktion.

Man findet eine solche erste Diskriminanzfunktion nach dem bisher Gesagten ein-

fach dadurch, dass man irgendeine Losung des Maximierungsproblems standar-

disiert; den Koeffizientenvektor erhalt man also ausgehend von einem beliebigen

Eigenvektor a von W−1B zum großten Eigenwert λ1 als√

(N − J)/(a′Wa) a;

dieser neue Koeffizientenvektor soll auch d1 heißen – er ist ein Vielfaches von a.

Die additive Konstante ist dann −√

(N − J)/(a′Wa) a′y.

Im Beispiel war

W =

(10 −6

−6 6

),


so dass fur den schon gefundenen Eigenvektor (1, 1)′ der Ausdruck a′Wa gleich

4 wird. Der Eigenvektor ist daher noch mit dem Faktor√

5/4 = 1.118 zu multi-

plizieren mit dem Ergebnis d1 = (1.118, 1.118)′. Die additive Konstante ist dann

−√

5/4 a′y, wegen y = (5, 3)′ also −√

5/4 · 8 = −8.944

Die erste Diskriminanzfunktion, die D1 genannt werden soll, ist folglich

D1 = 1.118Y1 + 1.118Y2 − 8.944 .

Man rechnet unschwer nach, dass die drei Gruppenmittelwerte in dieser neuen

Variable gleich 1.118, −3.354 und 1.118 sind, wahrend der Gesamtmittelwert

naturlich 0 ist.

Naturlich stellt sich als erstes die Frage nach der Eindeutigkeit der ersten Diskri-

minanzfunktion. Da eine solche definitionsgemaß den F -Bruch maximieren muss,

muss ihr Koeffizientenvektor ein Eigenvektor von W−1B zum großten Eigenwert

λ1 sein. Hier sind nun zwei Falle zu unterscheiden, namlich der, dass die Multi-

plizitat dieses Eigenwerts 1 ist und der, dass sie großer als 1 ist.

Ist die Multiplizitat von λ1 gleich 1, so hat man Eindeutigkeit bis auf das Vor-

zeichen. Da namlich die Koeffizientenvektoren von zwei moglichen ersten Diskri-

minanzfunktionen U1 und U2 Eigenvektoren zu λ1 sein mussen, ist der eine ein

Vielfaches des andern. Daher ist U2 eine lineare Transformation von U1. Es hat

sich aber gezeigt, dass nur zwei lineare Transformationen einer Linearkombina-

tion der Originalvariablen standardisiert sind, und dass diese sich dann nur im

Vorzeichen unterscheiden. Da definitionsgemaß U1 und U2 standardisiert sind,

muss U2 = U1 oder U2 = −U1 gelten. Naturlich ist andererseits das (−1)-fache

einer ersten Diskriminanzfunktion wieder eine solche.

In dem Fall, dass die Multiplizitat von λ1 gleich 1 ist, gibt es also genau zwei

erste Diskriminanzfunktionen, die sich nur im Vorzeichen unterscheiden.

In dem Fall, dass die Multiplizitat von λ1 großer als 1 ist, gibt es hingegen un-

endlich viele mogliche erste Diskriminanzfunktionen, da man ja aus jedem Ei-

genvektor zwei herstellen kann, und da sich dann unendlich viele Eigenvektoren

finden lassen, von denen keiner ein Vielfaches eines andern ist (weshalb dann auch

die zugehorigen Diskriminanzfunktionen nicht gleich sein konnen). Dieser Fall ist

allerdings die Ausnahme.

Wenn in Zukunft von der ersten Diskriminanzfunktion gesprochen wird, ist dies

also streng genommen nicht korrekt. Vielmehr ist eine solche erst auszuwahlen.


Genau wie bei den (ebenfalls nicht eindeutigen) Hauptkomponenten ist diese

Sprechweise jedoch nicht schadlich und vermeidet umstandliche Formulierungen.

Hat man das Bedurfnis, die erste Diskriminanzfunktion auch inhaltlich zu inter-

pretieren, so wird man einerseits die Koeffizienten heranziehen, mit denen sie sich

als Linearkombinationen der Yi ergeben, andererseits die Korrelationen mit den

Yi. Diese beiden Moglichkeiten sollen nun genauer beleuchtet werden.

Die Koeffizienten waren im Beispiel 1.118 und 1.118. Wie in vielen anderen Fallen

auch (beispielsweise bei den β-Gewichten in der Regression) wird man es jedoch

vielleicht vorziehen, die’standardisierten‘ Koeffizienten zu verwenden, mit denen

sich die Diskriminanzfunktion aus den standardisierten Variablen Zi berechnet.

Zur Bestimmung dieser Koeffizienten hat man nur die schon berechnete Linear-

kombination der Yi in der bekannten Weise zu einer Linearkombination der Ziumzuschreiben. Dabei erhalt man die neuen Koeffizienten, indem man die alten

Koeffizienten durch diejenigen Koeffizienten dividiert, die zur Berechnung der Ziaus den Yi dienen.

Da die Zi bereits standardisiert sind, ist ihr Mittelwert gleich 0. Der Mittelwert

irgendeiner Linearkombination der Zi ist daher gleich der additiven Konstante

dieser Linearkombination. Damit dieser Mittelwert gleich 0 ist, muss also die

additive Konstante 0 sein. Da der Mittelwert der Diskriminanzfunktion gleich 0

ist, muss insbesondere die additive Konstante bei ihrer Darstellung durch die Zigleich 0 sein und kann daher wegfallen.

Im Beispiel ergeben sich die neuen Koeffizienten also zu 1.118/.707 = 1.581 und

1.118/.913 = 1.225. Die erste Diskriminanzfunktion ausgedruckt mit standardi-

sierten Variablen ist daher

D1 = 1.581Z1 + 1.225Z2 .

Will man diese standardisierten Koeffizienten direkt aus einem Eigenvektor a

von W−1B zu λ1 erhalten, so sieht man leicht, dass sie gleich√wii/a′Wa ai

sind, wo wii das i-te Diagonalelement von W ist; fur konkrete Rechnungen mag

die Darstellung√wiiai/

√a′Wa oft praktischer sein.

Die standardisierten Koeffizienten sind so eine mogliche Grundlage fur eine In-

terpretation der ersten Diskriminanzfunktion. Eine weitere mogliche Grundlage

bilden die Korrelationen mit den Originalvariablen (vgl. die entsprechenden Dis-

kussionen bei der Faktorenanalyse).


Allerdings ist hier nicht klar, welche’Korrelationen‘ zu nehmen sind – man hat ja

einerseits die Korrelationen insgesamt (ohne Berucksichtigung der Gruppen) und

andererseits die Innergruppen-Korrelationen. Die Argumente im Zusammenhang

mit der Standardisierung von Linearkombinationen der Yi sprechen womoglich oft

dafur, die Korrelationen innerhalb der Gruppen zu verwenden, die ja in vielen

Fallen eher eine naturliche Interpretation besitzen.

Nach den weiter oben angestellten Uberlegungen ist die Innergruppen-Korrelation

von D1 und irgendeiner weiteren Linearkombination mit Koeffizientenvektor b

gleichd′1Wb√

(N − J)b′Wb,

da nach Konstruktion d1′Wd1/(N−J) = 1, also d1

′Wd1 = N−J gilt. Auch hier

ist es praktisch, eine Formel mit dem Eigenvektor a von W−1B zu besitzen, der

zu d1 gefuhrt hat. Wegen d1 =√

(N − J)/(a′Wa) a erhalt man durch Einsetzen

d′1Wb√(N − J)b′Wb

=a′Wb√

(a′Wa)(b′Wb).

Die Form rechts erhalt man auch unmittelbar: Ist U die mit dem Koeffizienten-

vektor a gebildete Linearkombination, so steht rechts die Innergruppenkorrelation

von der zu b gehorenden Linearkombination V mit U ; diese Korrelation ist je-

doch die gleiche wie die von V mit D1, da D1 ja nur eine lineare Transformation

von U ist.

Die womoglich zur Interpretation nutzlichen Innergruppen-Korrelationen von D1

und den Variablen Yi erhalt man nun leicht, indem man fur b jeweils den i-ten

Einheitsvektor ei einsetzt, wodurch aus b′Wb das i-te Diagonalelement von W

wird und aus a′Wb das i-te Element von Wa.

Im Beispiel berechnet man mit a = (1, 1)′ zunachst Wa zu (4, 0)′ und daraus die

Innergruppen-Korrelationen von D1 mit Y1 und Y2 zu

4√4 · 10

= .632 und0√4 · 6

= 0 .

Ob man bei einer Interpretation nun die standardisierten Koeffizienten benutzen

will oder die Korrelationen, ist eine inhaltlich zu beantwortende Frage; vielleicht

nimmt man aber auch bei weiterem Nachdenken davon Abstand, die Diskrimi-

nanzfunktion ernsthaft interpretieren zu wollen.


Zum Abschluss dieser Diskussion soll noch kurz auf eine varianzanalytisch moti-

vierte Deutung der Eigenwerte λ1 und θ1 hingewiesen werden.

Der Eigenwert λ1 von W−1B hat sich als der Quotient von SSb und SSw bei

der Varianzanalyse derjenigen Linearkombination D1 herausgestellt, die zu einem

maximalen F -Bruch fuhrt. Diesen Quotienten kann man auch noch erweitern:

λ1 =SSbSSw

=SSb/N

SSw/N.

Im Ausdruck rechts kann man nun Zahler und Nenner deuten als (empirische)

Varianzen zwischen den Gruppen und innerhalb der Gruppen. Auf theoretischer

Ebene entspricht SSw/N in gewisser Weise σ2, wahrend SSb/N eine Entsprechung

in∑

(nj/N)α2j besitzt (αj ist hier die j-te Effektgroße µj − µ bei der univariaten

Varianzanalyse der VariablenD1). Dem Quotienten (SSb/N)/(SSw/N) entspricht

damit auf theoretischer Ebene der Quotient∑

(nj/N)α2j/σ

2, der bekanntlich auch

als Effektstarke f 2 bezeichnet wird.

So gesehen gibt also λ1 einen Hinweis auf die Effektstarke der Varianzanalyse mit

D1, die ja zum maximalen F -Bruch fuhrt. Als Schatzer dieser Effektstarke ist λ1nicht die beste Wahl, daher die vorsichtige Formulierung. Immerhin erhalt man

mit(J − 1)F

N=

(N − J)SSbN SSw

=(N − J)

Nλ1

einen eher gebrauchlichen Schatzer der Effektstarke – man bringt dabei bei λ1nur einen

’Korrekturfaktor‘ (N − J)/N an. Ob man hiermit eine befriedigende

Schatzung erhalt, sei dahingestellt (erwartungstreu ist sie offenbar nicht, was man

beispielsweise im Fall der Gultigkeit der Nullhypothese leicht sieht). Bekanntlich

ist ubrigens in der univariaten Varianzanalyse der Ausdruck (J − 1)F ein oft

verwendeter Schatzer des Nonzentralitatsparameters δ2, was wegen δ2 = Nf 2

gut zu der gerade angegebenen Schatzung von f 2 passt.

Als alternative Moglichkeit der Beschreibung der Große des Effekts im Sinne der

’aufgeklarten Varianz‘ dient in der univariaten Varianzanalyse auch der Kennwert

ω2 =∑

(nj/N)α2j/(σ

2 +∑

(nj/N)α2j ), der ja oft durch

R2 =SSbSSt

=(J − 1)F

(J − 1)F + (N − J)

geschatzt wird (gelegentlich wird auch hier noch eine’Adjustierung‘ angebracht,

mit der eine Verbesserung der Schatzung angestrebt wird). Hier ist von Interesse,


dass das zur Varianzanalyse von D1 gehorende R2 sich zu

SSbSSb + SSw

=SSb/SSw

SSb/SSw + 1=

λ1λ1 + 1

= θ1

errechnet. Auf diese Weise bekommt θ1 also die Deutung als das R2 der Varian-

zanalyse von D1.

Da das R2 fur unterschiedliche Linearkombinationen hier eine monotone Funktion

des zugehorigen F ist, kann die erste Diskriminanzfunktion auch als diejenige

Linearkombination gekennzeichnet werden, die zu einem maximalen R2 fuhrt;

dieses maximale R2 ist dann der erste Eigenwert θ1 von T−1B.

Die Wurzel aus θ1 wird manchmal auch als erste kanonische Korrelation bezeich-

net. Der Hintergrund sei nur kurz angedeutet: Bei der kanonischen Korrelation

versucht man, aus zwei Variablengruppen jeweils eine Linearkombination so zu

bilden, dass die beiden Linearkombinationen maximale Korrelation besitzen (da-

nach geht es um weitere Linearkombinationen mit maximalen Korrelationen unter

entsprechenden Nebenbedingungen). Im Fall der multivariaten Varianzanalyse ist

die eine Variablengruppe die mehrdimensionale abhangige Variable und die an-

dere besteht aus den Einzelvariablen, die jeweils in einer Gruppe den Wert 1

annehmen und in den anderen den Wert 0. Die maximale Korrelation (dies ist

dann√θ1) wird erzielt mit der ersten Diskriminanzfunktion einerseits und einer

Linearkombionation der anderen Variablen, die in gewisser Weise dem aus der

univariaten Varianzanalyse bekannten Maximalkontrast entspricht.

Die erste Diskriminanzfunktion ist damit ausreichend behandelt; sie ist diejenige

Linearkombination D1 der abhangigen Variablen, fur die bei einer univariaten

Varianzanalyse ein maximaler F -Bruch erzielt wird (wie sich gerade gezeigt hat,

auch ein maximales R2). Dem Schema der Hauptkomponentenanalyse folgend

liegt nun die Frage nahe, bei welcher weiteren Linearkombination der F -Bruch

am zweitgroßten wird. Wie bei der Hauptkomponentenanalyse wird diese Frage

allerdings erst dann sinnvoll, wenn eine geeignete Nebenbedingung eingefuhrt

wird.

Der Ubersichtlichkeit halber sollen die bisher benutzten Bezeichnungen oben et-

was modifiziert werden. Die Linearkombination U , die oben zum maximalen F -

Bruch gefuhrt hatte soll nun den Namen U1 bekommen, ebenso soll der zugehorige

Koeffizientenvektor nun nicht mehr a sondern a1 heißen (genauer musste man sa-

gen’die oben gewahlte Linearkombination‘ etc., da ja alle linearen Transformatio-

nen ebenso gut sind). Die aus U1 entstehende standardisierte Linearkombination


D1 hat, ebenso wie ihr Koeffizientenvektor d1 den Index 1 gleich von Anfang an

bekommen.

Gesucht ist nun also eine Linearkombination U2, die wiederum einen maximalen

F -Bruch besitzt, wobei die Nebenbedingung die ist, dass die Innergruppenkor-

relation zur bereits gefundenen ersten Diskriminanzfunktion D1 (oder auch –

gleichbedeutend – zu U1) gleich 0 sein soll.

Dass diese Nebenbedingung in vielen Fallen auch inhaltlich sinnvoll sein wird,

wurde oben schon diskutiert.

Die Bedingung dafur, dass die Innergruppenkorrelation von U2 zu D1 gleich 0 ist,

wurde oben schon gefunden: sie lautet a′2Wd1 = 0. Die Forderung nach einem

maximalen F -Bruch ubersetzt sich wie oben in die Forderung, dass

a′2Ba2

a′2Wa2

maximal werden soll – jetzt eben unter der gerade formulierten Nebenbedingung.

Da d1 mit a1 ein Eigenvektor von W−1B zum großten Eigenwert λ1 ist, ist die

Losung dieser Aufgabe bekannt: fur a2 kann ein beliebiger Eigenvektor von W−1B

zum zweiten Eigenwert λ2 gewahlt werden, wobei das gesuchte Maximum gerade

λ2 ist. Es gibt hier einen Sonderfall zu beachten, namlich den, dass λ2 = λ1gilt, dass also mit anderen Worten die Multiplizitat von λ1 großer als 1 ist (zur

Erinnerung: Eigenwerte sind vereinbarungsgemaß so oft aufzufuhren, wie ihre

Multiplizitat angibt). In diesem Fall muss bei dem gewahlten zweiten Eigenvektor

die Bedingung a′2Wd1 = 0 eigens beachtet werden, sie ist dann namlich nicht wie

im Fall λ1 6= λ2 automatisch erfullt.

Der F -Bruch, der zu der gefundenen Linearkombination gehort, ist dann

F =N − JJ − 1

λ2 .

Naheliegenderweise wird man auch diese Linearkombination standardisieren. Das

Ergebnis ist die zweite Diskriminanzfunktion, die hier D2 heißen soll; ihr Koeffi-

zientenvektor soll entsprechend d2 heißen.

Dieses d2 erhalt man aus a2 wie oben als√

(N − J)/(a′2Wa2) a2; es ist naturlich

wieder ein Vielfaches von a2 und damit ebenfalls ein Eigenvektor zu λ2. Die addi-

tive Konstante ist entsprechend −√

(N − J)/(a′2Wa2) a′2y. Bei der Standardisie-

rung andert sich offenbar weder der F -Bruch noch die Innergruppenkorrelation

von 0 mit der ersten Diskriminanzfunktion.


Die zweite Diskriminanzfunktion ist dann eine – im geschilderten Sinne stan-

dardisierte – Linearkombination der abhangigen Variablen, fur die eine univaria-

te Varianzanalyse einen maximalen F -Bruch liefert unter der Nebenbedingung,

dass die Innergruppenkorrelation mit der ersten Diskriminanzfunktion gleich 0

sein soll.

Was die Frage der Eindeutigkeit angeht, so gelten die bei der ersten Diskrimi-

nanzfunktion gemachten Bemerkungen sinngemaß.

Auch die weiteren Ausfuhrungen zur ersten Diskriminanzfunktion lassen sich

sinngemaß ubertragen. So kann kann man die zweite Diskriminanzfunktion auch

mit Hilfe der standardisierten Variablen ausdrucken, und man kann die Inner-

gruppenkorrelationen mit den Originalvariablen bestimmen und womoglich zur

Interpretation benutzen.

Man kann nun auch λ2 als Hinweis auf die Effektstarke verwenden und erhalt mit

θ2 das R2 der Varianzanalyse mit D2. Alternativ kann man die zweite Diskrimi-

nanzfunktion dann auch dadurch charakterisieren, dass die zugehorige Varianz-

analyse ein maximales R2 besitzt unter der Nebenbedingung, dass die Innergrup-

penkorrelation zur ersten Diskriminanzfunktion gleich 0 sein soll.

Die Wurzel aus θ2 nennt man ubrigens auch die zweite kanonische Korrelation;

die genaue Herkunft dieser Bezeichnung ist an dieser Stelle jedoch nicht wichtig.

Im Beispiel mit den drei Gruppen war der zweite Eigenwert von W−1B gleich

1, ein Eigenvektor dazu ist (0, 1)′. Damit ist die zweite Diskriminanzfunktion in

diesem Fall die standardisierte zweite Variable Y2. Die zugehorigen Berechnungen

wurden oben schon durchgefuhrt, die Ergebnisse konnen nun einfach ubertragen

werden.

Es gilt also

D2 = .913Y2 − 2.739 ,

in standardisierten Variablen ausgedruckt noch einfacher

D2 = Z2 .

Die Innergruppenkorrelation dieser Diskriminanzfunktion mit der ersten Variable

Y1 errechnet sich hier zu −6/√

10 · 6 = −.775, wahrend die Innergruppenkorrela-

tion mit der zweiten Variable Y2 naturlich 1 ist. Beim Versuch, die Funktion D2

zu interpretieren, gerat man also auch hier in Schwierigkeiten, wenn man sowohl


die Koeffizienten berucksichtigen will, mit denen die Funktion aus den Variablen

Y1 und Y2 gebildet wird, als auch die Innergruppenkorrelationen. Im Fall von

Y1 ist der Koeffizient namlich 0, wahrend die entsprechende Korrelation −.775

deutlich negativ ist.

Die Veranschaulichung zu dieser Diskriminanzfunktion kann ebenfalls von oben

ubernommen werden; zum Vergleich links noch einmal die Veranschaulichung der

ersten Diskriminanzfunktion:

1

1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................

...................

y1

y2

............................................................................................................

.....................

..........................

.....................................................................................................

r............................................................................................................

.....................

..........................

.....................................................................................................

r ............................................................................................................

.....................

..........................

.....................................................................................................

r.........

..................

..................

..................

..................

..................

..................

..................

..................

..................

..

..................

..................

..................

..................

..................

..................

..................

....

.............................................................

..................

..................

................

.........

.........................................................................................................................................................................................................................................................................................................................................................................................................

rr rrr

r.........

..................

..................

..................

..................

..................

..................

..................

................

...............................

..................

.............

1

1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................

...................

y1

y2

............................................................................................................

.....................

..........................

.....................................................................................................

r............................................................................................................

.....................

..........................

.....................................................................................................

r ............................................................................................................

.....................

..........................

.....................................................................................................

r......................................................................................................................................................................................................................................................................

................................................................................................................................................................................................................................................................................................................................................

.................................................

...........................................................................................................................

.................................................................................................................................................................................

...........................................................................................................................................................................................................................................................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

....

rr rrrr

...........................................................................................................................................................................................................................................................................................................

......................................................................................

......................................................................................................................................................................................................................

Es ist vielleicht nicht unwichtig, darauf hinzuweisen, dass die Geraden, auf die

bei der ersten und zweiten Diskriminanzfunktion projiziert wird, nicht senkrecht

sind (was man womoglich etwas voreilig aus der Tatsache, dass die Innergrup-

penkorrelation 0 ist,’schließen‘ konnte). Die Assoziation senkrecht-unkorreliert

ist also nicht in allen Situationen angebracht.

Schließlich ist in diesem Beispiel der Eigenwert 1 nicht nur der zweitgroßte, son-

dern auch der kleinste Eigenwert. Mit ganz analogen Argumentationen wie bei

der ersten Diskriminanzfunktion erkennt man, dass die zweite Diskriminanzfunk-

tion daher in diesem Fall gleichzeitig eine Linearkombination ist, die die Gruppen

am schlechtesten trennt.

Es ist klar, dass der Prozess nun so weitergehen kann; nach der zweiten Diskrimi-

nanzfunktion sucht man nach einer dritten, wiederum mit maximalem F -Bruch,

diesmal unter der Nebenbedingung, dass die Innergruppenkorrelation mit den er-

sten beiden (schon gefundenen) Diskriminanzfunktionen gleich 0 sein soll. Eine

solche Funktion findet man wie oben: man nimmt einen geeigneten Eigenvektor

a3 zum dritten Eigenwert λ3 von W−1B als vorlaufigen Koeffizientenvektor und

standardisiert diesen dann. Den maximalen F -Bruch erhalt man aus λ3 genau

wie oben.

Die Formulierung, dass ein’geeigneter‘ Eigenvektor zu wahlen ist, ist nur fur

multiple Eigenwerte von Bedeutung; in diesem Fall ist analog zu verfahren, wie


oben bei der zweiten Diskriminanzfunktion beschrieben.

Nach der dritten Diskriminanzfunktion kann man eine vierte bestimmen, danach

eine funfte und so weiter.

Es fragt sich, wann dieser Prozess abzubrechen ist. Diese Frage kann man unter-

schiedlich stellen; einerseits kann man fragen, wie lange der Prozess uberhaupt

weitergetrieben werden kann, andererseits, wie lange die Fortsetzung sinnvoll ist.

Ein Ende ist auf alle Falle dann erreicht, wenn man soviele Diskriminanzfunktio-

nen gefunden hat, wie Variablen vorhanden sind, also p solche Funktionen. Die

Bedingung, dass fur die Koeffizientenvektoren di die Bedingung d′iWdj = 0 gel-

ten muss fur i 6= j, hat namlich zur Folge, dass die di linear unabhangig sind (die

Vektoren W1/2di sind namlich offenbar orthogonal und 6= 0 und damit linear un-

abhangig, weshalb auch die di als Bilder dieser Vektoren unter der invertierbaren

linearen Abbildung W−1/2 linear unabhangig sein mussen). Da alle di Vektoren

des Rp sind, folgt, dass ihre Zahl hochstens gleich p sein kann.

Dass der Prozess tatsachlich solange fortgesetzt werden kann, bis man p Diskri-

minanzfunktionen besitzt, ist aus der linearen Algebra bekannt.

In vielen Fallen sind allerdings die letzten Diskriminanzfunktionen ziemlich unin-

teressant, da sie oft zu einem F -Bruch von 0 fuhren, also zwischen den Gruppen

uberhaupt nicht mehr unterscheiden.

In der Tat sind ja die sukzessiven maximalen F -Bruche bis auf einen Vorfaktor

gerade die Eigenwerte von W−1B, und da diese Matrix p reelle Eigenwerte besitzt,

ist die Anzahl der von 0 verschiedenen Eigenwerte gleich dem Rang von W−1B.

Der Kern dieser Matrix ist namlich genau dann von {0} verschieden, wenn 0

ein Eigenwert ist, und in diesem Fall ist der Kern gerade der Eigenraum zu 0,

seine Dimension also die Multiplizitat m von 0. Falls 0 kein Eigenwert ist, ist der

Rang von W−1B folglich gleich p, und im anderen Fall ist er gleich p − m. In

jedem Fall ist er gleichzeitig die Zahl der von 0 verschiedenen Eigenwerte (mit

Berucksichtigung der Multiplizitat).

Falls also der Rang r von W−1B kleiner als p ist, so folgt, dass die letzten p− rDiskriminanzfunktionen zu einem F -Bruch von 0 fuhren.

Da W−1 invertierbar ist, ist der Rang r von W−1B gleich dem von B, so dass man

die bisherigen Ergebnisse folgendermaßen zusammenfassen kann: Ist r der Rang

von B, so fuhren die letzten p−r Diskriminanzfunktionen zu einem F -Bruch von


0 und sind in diesem Sinne uninteressant.

Wenn man also die Frage nach der sinnvollen Anzahl der Diskriminanzfunktio-

nen so beantwortet, dass der zugehorige F -Bruch von 0 verschieden sein soll, so

ist diese Anzahl gerade gleich dem Rang von B, der ja bekanntlich seinerseits

hochstens gleich J − 1 ist.

In diesem Zusammenhang bemerkt man ubrigens auch unmittelbar, dass alle Li-

nearkombinationen der Yi, deren Koeffizientenvektoren a im Kern von B liegen,

zu einem F -Bruch von 0 fuhren (genauer: genau diese Linearkombinationen, wo-

bei naturlich a = 0 auszunehmen ist). Der zu einer derartigen Linearkombination

gehorende F -Bruch ist namlich genau dann gleich 0, wenn der Faktor a′Ba im

Zahler 0 ist. Wegen der positiven Semidefinitheit von B ist dies aber genau dann

der Fall, wenn Ba = 0 gilt, wenn also a im Kern von B liegt.

Der Rang von B hat auch eine geometrische Bedeutung: er ist gleich der Di-

mension der affinen Hulle der Mittelwertvektoren yj, also des kleinsten affinen

Unterraums, der die yj enthalt; dabei ist der zugehorige lineare Unterraum gerade

das Bild von B. Dies hatte sich schon oben bei der Einfuhrung von B gezeigt.

Eine weitere mogliche Antwort auf die Frage nach der sinnvollen Anzahl der Dis-

kriminanzfunktionen kann auch auf die Große des zugehorigen F -Bruchs Bezug

nehmen und nur solche Diskriminanzfunktionen zulassen, die zu einem hinrei-

chend großen F -Bruch fuhren, oder alternativ, da die F -Bruche sich von den

Eigenwerten λi nur um einen festen Faktor unterscheiden, zu einem hinreichend

großen Eigenwert gehoren. Wie groß dieser Eigenwert sein soll, ware dann auf

Grund inhaltlicher Kriterien zu beantworten.

Ein solches Vorgehen findet sich beispielsweise bei der Diskriminanzanalyse. Dort

werden Funktionen gesucht, die gut zwischen den Gruppen unterscheiden, auch

mit dem Ziel, neue Falle spater einer der Gruppen zuzuordnen. Das Verfahren

soll nun erganzend oberflachlich skizziert werden.

Beipielsweise konnte es sein, dass verschiedene klinische Gruppen (gekennzeich-

net durch unterschiedliche Krankheitsbilder) mit mehreren Diagnoseverfahren

(die den Variablen Yi entsprechen) untersucht werden. Man mochte dann die

Einzeldiagnosen in geeigneter Weise zu Linearkombinationen zusammenfassen,

die besonders gut zwischen den Gruppen unterscheiden. Als Losung erhalt man

naturlich die Diskriminanzfunktionen.

Nachdem man diese Funktionen gewonnen hat, mochte man oft weitere neue


Patienten den klinischen Gruppen zuordnen. Dazu werden diese neuen Patienten

den Diagnoseverfahren unterworfen, aus deren Ergebnissen dann die Werte der

neuen Patienten auf den Diskriminanzfunktionen berechnet werden konnen. Die

Zuordnung zu einem Krankheitsbild geschieht danach auf Grund dieser Werte

mit Hilfe einer geeigneten Entscheidungsregel.

Naturlich konnen dabei Fehler gemacht werden, und eine zentrale Aufgabe ist

es dann, diese Fehler oder deren Kosten durch eine optimale Wahl der Entschei-

dungsregel zu minimieren.

In diesem Zusammenhang zeigt sich bei geeigneten Voraussetzungen, dass die

Anzahl der benotigten Diskriminanzfunktionen gleich der Dimension der affi-

nen Hulle der Erwartungswertvektoren µj ist. Obwohl die Mittelwertvektoren

yj Schatzer dieser Erwartungswertvektoren sind, mussen die Dimensionen der

affinen Hullen keineswegs ubereinstimmen.

Um zu einer Vorstellung uber die Dimension der affinen Hulle der µj zu kommen,

kann man geeignete Tests verwenden, bei denen die Nullhpyothese jeweils die ist,

dass diese Dimension gleich einer gegebenen Zahl k ist, und die Alternativhypo-

these die, dass die Dimension großer als k ist.

Insgesamt fallt jedenfalls die Entscheidung uber die Zahl sinnvoller Diskriminanz-

funktionen dann auf der Basis derartiger Tests, die sich auf die Dimension der

affinen Hulle der µj beziehen.

Es folgen nun noch zwei erganzende Anmerkungen zu den Diskriminanzfunktio-

nen. Bei der Konstruktion der Diskriminanzfunktionen wurde als einschrankende

Bedingung die verwendet, dass die Innergruppenkorrelationen von je zwei Dis-

kriminanzfunktionen alle 0 sein sollen. Nun kann man naturlich auch die Korre-

lation von je zwei Diskriminanzfunktionen bilden, wenn man die Originaldaten

zugrundelegt und die Gruppeneinteilung nicht berucksichtigt. Interessanterwei-

se ist dann auch diese Korrelation zwischen jeweils zwei Diskriminanzfunktionen

gleich 0, was aus der Linearen Algebra bekannt ist, da die Diskriminanzfunktionen

ja mit Hilfe von Eigenvektoren von W−1B konstruiert wurden.

Dass dies ein Sonderfall ist, dass also aus dem Verschwinden der Innergruppen-

korrelation allgemein keineswegs folgt, dass die’globale‘ Korrelation gleich 0 ist,

macht man sich leicht an Beispielen klar. So rechnet man leicht nach, dass in

dem gerade verwendeten Beispiel die Innergruppenkorrelation der beiden Line-

arkombinationen Y1 und 3Y1 + 5Y2 (mit Koeffizientenvektoren a = (1, 0)′ und


b = (3, 5)′) gleich 0 ist, die Gesamtkorrelation jedoch nicht, da sich ja die (un-

korrigierte) Kovarianz dieser beiden Linearkombinationen sofort zu

1

Na′Tb =

1

8

(1 0

)( 40 −12

−12 12

)(3

5

)= 7.5

berechnet.

Die nachste Anmerkung betrifft die Bestimmung der Diskriminanzfunktion im

Fall von zwei Gruppen. Hier ist hochstens der erste Eigenwert von W−1B ungleich

0, so dass in der Tat nur die erste Diskriminanzfunktion interessant ist, die daher

hier auch kurz als die Diskriminanzfunktion bezeichnet werden soll.

Aus der besonders einfachen Datenlage ergibt sich eine Vereinfachung in der

Berechnung dieser Diskriminanzfunktion. Das Ergebnis soll mit Hilfe der hier

angemesseneren Matrix Su und der beiden Zentroide y1 und y2 formuliert werden;

fur die Differenz y2 − y1 soll kurz v geschrieben werden.

Der Zusammenhang mit den Matrizen W und B wurde oben schon hergestellt;

es ergab sich

W = (n1 + n2 − 2) Su

und

B =n1n2

n1 + n2

vv′ .

Hieraus folgt sofort

W−1B =n1n2

(n1 + n2 − 2) (n1 + n2)S−1u vv′ .

Fur Matrizen dieser Art sind – wie aus der Linearen Algebra bekannt ist – Ei-

genwerte und Eigenvektoren besonders einfach zu bestimmen. Falls die Zahl

λ1 =n1n2

(n1 + n2 − 2) (n1 + n2)v′S−1u v

ungleich 0 ist, so hat die Matrix genau einen Eigenwert 6= 0, namlich dies λ1.

Ist hingegen λ1 = 0, so gibt es keinen Eigenwert 6= 0; dann muss aber auch

W−1B = 0 gelten, was wegen der vorausgesetzten positiven Definitheit von Sunur dann der Fall ist, wenn v = 0 gilt, wenn also die beiden Mittelwertvekto-

ren ubereinstimmen – dieser uninteressante Fall soll im Folgenden nicht mehr

berucksichtigt werden, denn hier ist dann mit Linearkombinationen auch keine

Unterscheidung zwischen den Gruppen moglich.


Der zugehorige F -Bruch ist dann

F =N − JJ − 1

λ1 =N − 2

1λ1 =

n1n2

(n1 + n2)v′S−1u v ,

also Hotellings T 2.

Ein Eigenvektor zu dem Eigenwert λ1 ist dann bekanntlich beispielsweise S−1u v.

Insgesamt erhalt man damit das Ergebnis, dass im Falle J = 2 der großte Eigen-

wert λ1 von W−1B gleich

λ1 =n1n2

(n1 + n2 − 2) (n1 + n2)v′S−1u v

ist, wobei im Falle λ1 6= 0 alle Eigenvektoren dazu Vielfache von S−1u v sind (der

Vektor v ist hierbei die Differenz y2 − y1 der Zentroide).

Will man den Eigenvektor standardisieren, so hatte man allgemein den gefunde-

nen Eigenvektor mit√

(N − J)/a′Wa zu multiplizieren, was sich hier zu√N − 2

(S−1u v)′(N − 2) Su(S−1u v)=

√1

v′S−1u v

vereinfacht. Der Koeffizientenvektor ist dann

d1 =√

1/ (v′S−1u v) S−1u v ,

wahrend sich als additive Konstante

−√

1/ (v′S−1u v) v′S−1u y

ergibt.

Die Standardisierung der Variablen selber lasst sich hier auch mit Hilfe von Suausdrucken; dazu mogen die Diagonalelemente dieser Matrix naheliegenderweise

s2i heißen (in der Tat sind diese Elemente ja gerade die Fehlervarianzschatzungen,

die man bei univariaten t-Tests der Einzelvariablen benutzen wurde). Der Zusam-

menhang mit den weiter oben wii genannten Diagonalelementen von W ist dann

naturlich s2i = wii/(N − 2). Die standardisierten Variablen Zi erhalt man dann

aus den Variablen Yi, indem man sie durch si(=√s2i ) teilt und davon noch yi/si

abzieht, also als

Zi =1

si(Yi − yi) =

1

siYi −

yisi.


Damit erhalt man schließlich die Koeffizienten der mit Hilfe von standardisierten

Variablen ausgedruckten standardisierten Diskriminanzfunktion, indem man die

Komponenten von d1 mit dem jeweils zugehorigen si multipliziert.

In dem weiter oben behandelten Beispiel mit zwei Gruppen waren die Zentroide

y1 = (7, 2)′ und y2 = (5, 4)′ und

Su =

(2 −1

−1 1

),

woraus sich

S−1u =

(1 1

1 2

)ergab. Hier ist dann v = y2− y1 = (−2, 2)′ und wegen der gleichen Zellbesetzung

y = (6, 3)′.

Damit sind zunachst die standardisierten Variablen

Z1 = Y1/√

2− 6/√

2 = .707Y1 − 4.243

und

Z2 = Y2/√

1− 3/√

1 = Y2 − 3 .

Zur Bestimmung des großten Eigenwerts ist zunachst v′S−1u v = 4, woraus sich

wegen n1 = n2 = 3 der großte Eigenwert λ1 zu

3 · 3(3 + 3− 2)(3 + 3)

· 4 =3

2= 1.5

errechnet. Das (N − 2)-fache dieser Zahl, also 6, ist dann in der Tat der schon

errechnete Wert von Hotellings T 2.

Als zugehorigen Eigenvektor bestimmt man zunachst

S−1u v =

(0

2

),

was nur noch durch√

4 = 2 zu teilen ist, um den standardisierten Koeffizi-

entenvektor d1 = (0, 1)′ zu liefern. Die additive Konstante errechnet sich zu

−√

1/4 · 6 = −3, so dass schließlich die erste Diskriminanzfunktion

D1 = Y2 − 3


ist und hier interessanterweise bis auf eine additive Konstante mit der zweiten

Variable ubereinstimmt. Das heißt ubrigens naturlich nicht, dass die erste Va-

riable nicht zwischen den beiden Gruppen unterscheidet, vielmehr ist die zweite

Diskriminanzfunktion hier eine lineare Transformation der Summe der beiden

Variablen (und nicht etwa die erste Variable); in der Summe zeigt sich ja auch in

der Tat kein Unterschied zwischen den Mittelwerten der Gruppen.

Will man die erste Diskriminanzfunktion mit Hilfe der standardisierten Variablen

ausdrucken, so hat man ihre Koeffizienten 0 und 1 noch mit den Wurzeln der

entsprechenden Diagonalelemente von Su multipliziert, also mit√

2 und√

1. Das

Ergebnis ist

D1 = Z2 .

Die folgende Graphik veranschaulicht die Daten mit den beiden Zentroiden:

1

1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................

...................

y1

y2

rrr b

bbu

e

....

....

....

....

....

....

....

....

....

....

....

....

.

....

....

....

....

....

....

.

In dieser Graphik ist auch die Verbindung der beiden Zentroide eingezeichnet.

Ohne die vorangehenden Uberlegungen wurde man vielleicht vermuten, dass eine

optimale Trennung dann vorliegt, wenn auf die zu dieser Strecke parallele Gerade

projiziert wird, die ebenfalls dargestellt ist.

Diese Projektion ist in der folgenden Graphik veranschaulicht, in der die Variation

innerhalb der Gruppen wie schon fruher durch die zu W/N gehorenden Ellipsen

charakterisiert wird.


1

1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................

...................

y1

y2

rrr b

bbu

e..................................................................

.......

..................................

.......................

................................

................................................................................................

r...........................................................................................................................................................................................................................................................................................................................................................................................................................................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.....

...........................................................................................................................................................................................................................................................................................

.....................................................................................................................................................................................................................................................................

...........................................................................................................................................................................................................................................................................................................................................................................

r

r

................................................................................................................................................................................................................................................................................

...........................................................................................................

.......................

................................

................................................................................................

r

...........................................................................................................................................................................................................................................................................................................................................................................................................................................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.....

...........................................................................................................................................................................................................................................................................................

.....................................................................................................................................................................................................................................................................

...........................................................................................................................................................................................................................................................................................................................................................................

r

r

................................................................................................................................................................................................................................................................................

....

....

....

....

....

....

.

Wie die vorangehende Rechnung zeigt, gehort jedoch zur ersten Diskriminanz-

funktion nicht diese Gerade, sondern vielmehr die zweite Achse; hier ist das zu-

gehorige Bild:

1

1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................

...................

y1

y2

rrr b

bbu

e..................................................................

.......

..................................

.......................

................................

................................................................................................

r

...........................................................................................................................................................................................................................................................................................................................................................................................................................................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.....

...................................................................................................................................................................................

.........................................................................................................................................................................................................................................................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.... rr ......................................................................................................................................................................................................................

...........................................................................................................

.......................

................................

................................................................................................

r...........................................................................................................................................................................................................................................................................................................................................................................................................................................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.....

........................................................................................................................................................................................................................................................................

..............................................................................................................................................................................................................................................................................................................................................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

....

rr ...........................................................................................................................................................................................................................................................................................................

In der Tat ist der Abstand der projizierten Ellipsen hier großer – wenn man ihn

an ihrer Ausdehnung relativiert.

Ensprechend wird allgemein nur in sehr wenigen Fallen die die Diskriminanz-

funktion veranschaulichende Gerade parallel zur Verbindung der Zentroide sein.

Der Grund liegt darin, dass in den meisten Fallen die Variablen nicht die gleichen

Streuungen besitzen und untereinander zusatzlich korrelieren werden.

Interessant ist auch noch die Abbildung zur zweiten Diskriminanzfunktion; hier

stimmen die Bilder der beiden Ellipsen sogar uberein, was der Tatsache ent-

spricht, dass die Mittelwerte dieser Linearkombination sich nicht unterscheiden.

Zu bemerken ist ferner, dass die Geraden, auf die beim Bilden der Diskriminanz-

funktionen projiziert wird, auch in diesem Beispiel nicht senkrecht sind.


1

1.................................................................................................................................................................................................................................................................................................................................................................................................................... .......................................................................................................................................................................................................................................................................................................

...................

y1

y2

rrr b

bbu

e..................................................................

.......

..................................

.......................

................................

................................................................................................

r...........................................................................................................................................................................................................................................................................................................................................................................................................................................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.....

..................

..................

..................

..................

..................

..................

..................

..................

..................

..............

..................

..................

..................

..................

..................

..................

..................

.

.......................................................................................................................................................................................................................................................................................................................................................................................................................................

rr

..................

..................

..................

..................

..................

..................

..................

..................

.......

...........................................................................................................

.......................

................................

................................................................................................

r

...........................................................................................................................................................................................................................................................................................................................................................................................................................................

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.......

.....

..................

..................

..................

.

......

.......................................................................................................................................................................................................................................................................................................................................................................................................................................

rr.........

..................

....

2 Multivariate Statistik

Documents