NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020...

MUSTERERKENNUNG

Vorlesung im Sommersemester 2020

Prof. E.G. Schukat-Talamazzini

Stand: 28. April 2020

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Teil VII

Normalverteilungsklassifikatoren


Multivariate Normalverteilungsdichte


Maximum-Likelihood Parameterschätzung

Maximum-a posteriori- und Bayesschätzung

Graphische Gaußsche Modelle

Mathematische Hilfsmittel


Univariate Normalverteilungsdichte

N (x | µ, σ2)def=

1σ√2π· exp

−(x − µ)2

2σ2

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

-4 -2 0 2 4 6 8 10 12

N(x|3,1)N(x|3,4)N(x|3,9) Definition

Eine stetige Zufallsvariable X heißt(univariat) normalverteilt mitMittelwert µ ∈ IR und Varianzσ2 6= 0, wenn gilt:

fX(x) = N (x | µ, σ2)

BemerkungUnter der Annahme klassenweise statistisch unabhängiger und normalverteilterMerkmale läßt sich die (naive!) Bayesregel mit Hilfe von K ·D univariaten NV-Dichtenrealisieren.


Bivariat unkorrelierte Normalverteilungsdichte

N (x | µ, σ21, σ22)def=

12πσ1σ2

·exp

−12·(

(x1 − µ1)2

σ21+

(x2 − µ2)2

σ22

)

-20

24

68 -2

0

2

4

6

8

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

N(x|(3,3),(3,5)) DefinitionEine stetiger ZufallsvektorX = (X1,X2) heißt bivariatunkorreliert normalverteilt mitMittelwertvektor µ ∈ IR2 undVarianzen σ2

1 , σ22 > 0, wenn gilt:

fX(x1, x2) = N (x | µ, σ21 , σ

22)

BemerkungFür Normalverteilungen sind Unkorreliertheit und Unabhängigkeit äquivalent.Obige Dichte entspricht also dem Produkt N (x1 | µ1, σ21) · N (x2 | µ2, σ22) derunivariaten NV-Dichten (Randverteilungen).



DefinitionEin Zufallsvektor X = (X1, . . . ,XD)> heißt multivariatnormalverteilt, falls er der D-dimensionalenVerteilungsdichtefunktion

N (x | µ,S)def=

1√det(2πS)

· exp

−12· (x − µ)>S−1(x − µ)

gehorcht. Es ist µ ∈ IRD der Erwartungswertvektor derVerteilung; die positiv-definite, symmetrische Matrix S ∈ IRD×D

heißt Kovarianzmatrix der Normalverteilung.

Bemerkungen1. Die Isolinien (Hyperebenen gleicher Dichtewerte) der multivariaten NV-Dichte

besitzen die Form von Hyperellipsoiden.

2. Die Richtungen und Radien ihrer Achsen entnehmen wir den Eigenvektoren undEigenwerten der Diagonalisierung S = UDU>.


Parameterreduzierte Normalverteilungsdichten

µ

Normalverteilung

µ

Unabhängige Merkmale

µ

Euklidischer Abstand

Symmetrischpositiv-definit

Diagonalmatrix Einheitsmatrixskaliert

σ11 σ12 . . . σ1Dσ21 σ22 . . . σ2D...

. . ....

σD1 σD2 . . . σDD

σ2

1 0 . . . 00 σ2

2 . . . 0...

. . ....

0 0 . . . σ2D

σ2 0 . . . 00 σ2 . . . 0...

. . ....

0 0 . . . σ2

allgemeinesHyperellipsoid

Trägheitsachsenparallel zuKoordinatenachsen

skalierteHypersphäre

(D + 1) · D/2 Parameter D Parameter 1 Parameter


Ist N (µ,S) ein gutes Verteilungsmodell ?Das kommt ganz auf die Anwendung & den Lerndatenvorrat an

Das NV-Modell ist zu simpel für unsere Daten

• Unimodale Dichtelandschaft ? Löwe/Löwin

• Elliptische Symmetrie ? nichtnegative Merkmale

• Exponentielles Abklingverhalten ? Ausreißer

Das NV-Modell ist zu komplex für unseren Klassifikator

• Speicheraufwand O(D2 · K ) ? Bilder, Microarrays

• Rechenaufwand O(D2 · K ) ? Echtzeitanwendungen

• Robustheit der Schätzung S = S(ω) ? Rang und Inversenbildung









Normalverteilungsklassifikator

DefinitionEinen Klassifikator mit den Prüfgrößen

uκ(x) = P(x ,Ωκ) = pκ · N (x | µκ,Sκ) , x ∈ IRD

für κ = 1, . . . ,K bezeichnet man als D-dimensionalenNormalverteilungsklassifikator mit den Verteilungsparametern[pκ,µκ,Sκ]κ=1..K .

BemerkungIn der Praxis verwendet man einfachheitshalber die dazu antitonen Prüfgrößen

uκ(x) = −2 · log (P(x ,Ωκ)) ,

die quadratische Funktionen der Mustermerkmale sind.

Entscheidungsregel: Prüfgröße minimieren (Minuszeichen)


Prüfgrößen der NV-BayesregelNormalverteilungsklassifikator mit uneingeschränkten Kovarianzmatrizen Sκ

uκ(x) = −2 log pκ + log |2πSκ|︸︷︷︸γκ

+ (x − µκ)> · S−1κ · (x − µκ)︸︷︷︸Mahalanobisabstand ‖x−µκ‖

2Sκ

Bemerkungen1. Je Klasse 1 + D +

(D+12

)Parameter O(D2K )

2. Je Muster und Klasse 3D2 Addit./Multiplik. O(D2K )

x>S−1κ x =

D∑i=1

D∑j=1

xicκij xj , Cκ = S−1κ

3. Für den Abstandsausdruck lohnt sich die folgende Betrachtung:

(x − µκ)>S−1κ (x − µκ) = x>S−1κ x︸︷︷︸spur

(S−1κ ·xx>

)− 2µ>κ S−1κ︸︷︷︸a>κ

x + µ>κ S−1κ µκ︸︷︷︸cκ


Prüfgrößen der naiven NV-BayesregelNormalverteilungsklassifikator mit diagonalen Kovarianzmatrizen Sκ

uκ(x) = γκ +D∑

d=1

(xd − µκ,dσκ,d

)2

mit der Konstanten

γκ = −2 log pκ + D · log(2π) +∑d

log σ2κ,d

Bemerkungen1. Je Klasse 1 + D + D Parameter O(DK )

2. Je Muster und Klasse 4D Addit./Multipl./Divis. O(DK )

3. Keine Merkmalkorrelationen — keine „schrägen“ Klassengebiete!


Prüfgrößen der sphärischen NV-BayesregelNormalverteilungsklassifikator mit skalierter Einheitskovarianz Sκ = σ2κE

uκ(x) = γκ + ‖x − µκ‖2 / σ2κ

mit der Konstanten

γκ = −2 log pκ + D · log(2π) + 2D · log σκ

Bemerkungen1. Je Klasse 1 + D + 1 Parameter O(DK )


3. Klassengebiete = Hyperkugeln unterschiedlicher Radien


Prüfgrößen des Minimum-Abstand-KlassifikatorsNormalverteilungsklassifikator mit Einheitskovarianz Sκ = E

uκ(x) = γκ + ‖x − µκ‖2

mit der Konstantenγκ = −2 log pκ + D · log(2π)

Bemerkungen1. Je Klasse 1 + D + 0 Parameter O(DK )


3. Klassengebiete = Hyperkugeln identischer Radien

4. Modifizierter MAK — incl. Klassengewicht γκ

5. Gewöhnlicher MAK — excl. Klassengewicht γκ


Prüfgrößen des Mahalanobis-KlassifikatorsNormalverteilungsklassifikator mit klassenunabhängiger Kovarianz Sκ = S0

uκ(x) = γκ + (x − µκ)> · S−10 · (x − µκ)︸︷︷︸Mahalanobisabstand ‖x−µκ‖

2S0

mit der Konstanten

γκ = −2 log pκ + D · log(2π) + log |S0|

Bemerkungen1. Je Klasse 1 + D Parameter zzgl. S0 O(DK + D2)

2. Je Klasse 2D Addit./Multiplik. zzgl. quadr. Form O(DK + D2)


(x − µκ)>S−10 (x − µκ) = x>S−10 x︸︷︷︸spur(S−1

0 ·xx>)

− 2µ>κ S−10︸︷︷︸a>κ

x + µ>κ S−10 µκ︸︷︷︸cκ


Prüfgrößen des Richter-KlassifikatorsNormalverteilungsklassifikator mit isotrop skalierter Kovarianz Sκ = ακS0

uκ(x) = γκ + α−1κ · (x − µκ)> · S−10 · (x − µκ)︸︷︷︸α−1κ ·‖x−µκ‖

2S0

mit der Konstanten

γκ = −2 log pκ + D · log(2π) + D · logακ + log |S0|

Bemerkungen1. Je Klasse 1 + D + 1 Parameter zzgl. S0 O(DK + D2)

2. Je Klasse 2D Addit./Multiplik. zzgl. quadr. Form O(DK + D2)


x>S−1κ x = α−1κ · spur(S−10 · xx>

)︸︷︷︸

Cx


Prüfgrößen des EigenraumklassifikatorsNormalverteilungsklassifikator mit achsenparallelen Kovarianzen Sκ = UDκU>

uκ(x) = γκ + (U>(x − µκ))> ·D−1κ · (U>(x − µκ))︸︷︷︸‖U>(x−µκ)‖2Dκ

mit der Konstanten

γκ = −2 log pκ + D · log(2π) +∑d

log λκd

Bemerkungen1. Je Klasse 1 + D + D Parameter zzgl. U O(DK + D2)

2. Je Klasse 4D Operationen für ‖·‖2Dκ zzgl. D2 für U>x O(DK + D2)


x>S−1κ x = x>UD−1κ U>x = (U>x)>D−1κ (U>x) =D∑

d=1

(u>d x)2 / λκd

4. Es kommt auch eine unvollständige Entwicklung in Betracht, bei derTrägheitsachsen mit kleinen Eigenwerten ignoriert werden ...









Parameterschätzung für WahrscheinlichkeitsmodelleVerteilungsmodell Lerndaten Parameterschätzwert

Parametrische VerteilungsdichtefamilieDie Wertetupel x ∈ IRD eines Zufallsvektors X seien gemäß

f(x |θ) | θ ∈M

verteilt; jede Verteilungsdichte der Familie ist durch ein Feld θ vonParametern aus einer MannigfaltigkeitM charakterisiert.

Repräsentative LernstichprobeDie unbekannte Verteilung von X ist durch eine Stichprobe ωrepräsentiert, deren Elemente x1, . . . , xT unabhängig und identischgemäß f(·|θ) verteilt gezogen wurden.

ProblemWie lautet der beste Schätzwert θ für die unbekannten Parameter θ∗ ?


Maximum-Likelihood SchätzungLemmaDie (logarithmierte) Ziehungswahrscheinlichkeit für den unabhängig undidentisch mittels f(·|θ) gezogenen Datensatz ω beträgt

`θ(ω) = log∏x∈ω

f(x |θ) =∑x∈ω

log f(x |θ) .

Die Größe `θ(ω) heißt Likelihoodfunktion von θ.

DefinitionDie Maximum-Likelihood-Schätzung (MLS) der Parameter einerDichtefamilie [f(x |θ)] maximiert die parameterbedingteStichprobenwahrscheinlichkeit, d.h. es gilt

θML = argmaxθ

∏x∈ω

f(x |θ) = argmaxθ

∑x∈ω

log f(x |θ) .

BemerkungDer ML-Schätzwert θML ist von allen Parameterwerten derjenige, zu dem dievorliegenden Daten ω am besten passen.


Maximum-Likelihood Schätzung

SatzDer ML-Schätzer ist erwartungstreu, d.h.: ist eine Zufallsvariable Xgemäß f(x |θ?) verteilt, so ist der Erwartungswert des ML-Schätzers füreine Stichprobe unabhängiger Realisierungen von X gleich θ?.

Bemerkungen1. Für eine repräsentative Lernstichprobe zunehmenden Umfangs strebt der

ML-Schätzwert gegen den wahren Parametervektor.

2. Über das Verhalten des ML-Schätzwertes bei Verwendung einerindividuellen, endlichen Probe trifft der Satz keinerlei verbindlicheAussage.

3. Gehorcht der Datenerzeugungsprozeß nicht tatsächlich für irgendeinenfesten Parameterwert θ ∈M dem postulierten Verteilungsgesetz f(x |θ),so besitzen selbst die asymptotischen ML-Parameter θML keineAussagekraft.


ML-Schätzung für den NV-Klassifikator

Erzeugungswahrscheinlichkeiteiner unabhängig und identisch verteilten, etikettierten Stichprobe

P(⋃κ

ωκ) =K∏κ=1

P(ωκ) =K∏κ=1

∏x∈ωκ

P(Ωκ) · P(x |Ωκ)

Logarithmierte ML-ZielgrößeParametrisiert durch (pκ,θκ), κ = 1, . . . ,K

logK∏κ=1

∏x∈ωκ

pκ · f(x |θκ) =K∑κ=1

Tκ log pκ +K∑κ=1

(∑x∈ωκ

log f(x |θκ)

)

zerfällt in (K + 1) voneinander unabhängige Optimierungsprobleme


ML-Schätzung für den NV-Klassifikatormit vollbesetzten klassenabhängigen Kovarianzmatrizen

SatzDie Maximum-Likelihood-Parameter einesNormalverteilungsklassifikators bezüglich einer etikettiertenStichprobe [ωκ] lauten

pκ = Tκ

/K∑λ=1

Tλ

µκ =1Tκ

∑x∈ωκ

x

Sκ =1Tκ

∑x∈ωκ

(x − µκ)(x − µκ)>

=1Tκ

∑x∈ωκ

xx> − µκµ>κ

Beweis.[Diskrete Verteilung (p1, . . . , pK ) der Musterklassen]

Die ML-Zielfunktion lautet zunächst

`′p(ω) = log

K∏κ=1

pTκκ =

K∑κ=1

Tκ log pκ

und ist aber unter Berücksichtung der Normierungsbedingung∑κ pκ = 1 zu maximieren; die Bedingung

wird mit einem Lagrange-Multiplikator inkorporiert:

`p(ω) =K∑κ=1

Tκ log pκ − λ · (∑κ

pκ − 1)

Wir bilden nun die partiellen Ableitungen

∂`p(ω)

∂pκ= Tκ

1

pκ− λ und

∂`p(ω)

∂λ= 1−

∑κ

pκ

Nullsetzen der Ableitungen ergibt

Tκpκ

= λ ⇒ pκ =Tκλ

und wegen

1 =∑κ

pκ =∑κ

Tκλ

=1

λ

∑κ

Tκ =1

λ· T

folgt λ = T und daher pκ = Tκ/T für alle κ = 1, . . . ,K .

Beweis.[Parameter µ einer univariaten Gaußdichte]

fX(x) = N (x | µ, σ2) =1

σ√2π· exp

(−

(x − µ)2

2σ2

)

Die ML-Zielfunktion `µ,σ2 (ω) = −2 · log

∏x∈ω N (x | µ, σ2) lautet

`µ,σ2 (ω) = −2 ·

∑x∈ω

(−1

2log(2πσ2)−

1

2

(x − µ)2

σ2

)= T · log(2πσ2) +

1

σ2

∑x∈ω

(x − µ)2

Partielle Ableitung nach µ:

∂`(ω)

∂µ=

1

σ2

∑x∈ω

2 · (x − µ) · (−1) = −2

σ2

∑x∈ω

x −∑x∈ω

µ

Nullsetzen ergibt ∑

x∈ωx =

∑x∈ω

µ = T · µ ⇒ µ =1

T

∑x∈ω

x

Beweis.[Parameter σ2 einer univariaten Gaußdichte bei bekanntem Wert µ]

fX(x) = N (x | µ, σ2) =1

σ√2π· exp

(−

(x − µ)2

2σ2

)

Die ML-Zielfunktion `µ,σ2 (ω) = −2 · log

∏x∈ω N (x | µ, σ2) lautet

`µ,σ2 (ω) = −2 ·

∑x∈ω

(−1

2log(2πσ2)−

1

2

(x − µ)2

σ2

)= T · log(2πσ2) +

1

σ2

∑x∈ω

(x − µ)2

Partielle Ableitung nach σ2:

∂`(ω)

∂σ2= T ·

1

2πσ2· 2π −

1

σ4

∑x∈ω

(x − µ)2 =1

σ2

T −1

σ2

∑x∈ω

(x − µ)2

Nullsetzen ergibt

T =1

σ2

∑x∈ω

(x − µ)2 ⇒ σ2 =

1

T

∑x∈ω

(x − µ)2

BemerkungIn der Praxis ist mit σ2 natürlich auch µ unbekannt und es muß unter Zuhilfenahme desML-Schätzwertes µ optimiert werden. Eine Rechnung ähnlich der obigen ergibt die Varianzschätzformel

σ2 =

1

T − 1

∑x∈ω

(x − µ)2 .

Beweis.[Parameter µ einer multivariaten Gaußdichte]

N (x | µ, S) = |2πS|−1/2 · exp(−1/2(x − µ)>S−1(x − µ)

)Die ML-Zielfunktion lautet

`µ,S (ω) = −2 · log∏x∈ωN (x | µ, S) = −2

∑x∈ω

(−1

2log |2πS| −

1

2(x − µ)>S−1(x − µ)

)= T log |2πS| +

∑x∈ω

(x − µ)>S−1(x − µ)

= T log |2πS| +∑x∈ω

(x>S−1x − 2x>S−1

µ + µ>S−1

µ)

Partielle Ableitung nach µ (Gradientenvektor):

∇µ`µ,S (ω) = 0− 0 +∑x∈ω∇µ

(x>S−1x − 2x>S−1

µ + µ>S−1

µ)

=∑x∈ω

(0− 2 · S−1x + 2 · S−1

µ)

= 2 · S−1 ∑x∈ω

(µ− x) = 2 · S−1

Tµ−∑x∈ω

x

Nullsetzen und Multiplikation mit 1/2 · S ergibt

Tµ =∑x∈ω

x ⇒ µ = 1/T

∑x∈ω

x

Beweis.[Parameter S einer multivariaten Gaußdichte]

Die ML-Zielfunktion lautet

`µ,S (ω) = T log |2πS| +∑x∈ω

(x − µ)>S−1(x − µ)

= TD log(2π)− T log |S−1| +∑x∈ω

spur(S−1(x − µ)(x − µ)>

)

= TD log(2π)− T log |S−1| + spur

S−1 ·∑x∈ω

(x − µ)(x − µ)>

︸︷︷︸

T·spur(S−1·S

)

Wir reformulieren die Zielgröße unter Verwendung der inversen Kovarianzmatrix Q = S−1:

`µ,Q (ω) = TD log(2π)− T log |Q| + T · spur(Q · S

)Und nun leiten wir partiell nach der inversen Kovarianzmatrix ab:

∇Q`µ,Q (ω) = 0− T · Q−1 + T · S = T ·(S − Q−1

)= T ·

(S − S

)Nach dem Nullsetzen ergibt sich folglich

S = S =1

T

∑x∈ω

(x − µ)(x − µ)>


ML-Schätzung für den NV-KlassifikatorDiagonale Kovarianzmatrizen & Mahalanobis-Klassifikator

Diagonale KovarianzenDie ML-Zielgröße zerfällt auf Grund der Unabhängigkeitsannahme in(1 + K · D) unabhängige Optimierungsterme.

σ2κ,d =

1Tκ

∑x∈ωκ

(xd − µκ,d)2

Mahalanobis-KlassifikatorBei klassenübergreifenden Kovarianzstatistiken zerfällt `θ(·) nicht mehrvollständig in klassenspezifische Optimierungsausdrücke!

S0 = SW ([ωκ]) =1T

K∑κ=1

∑x∈ωκ

(x − µκ)(x − µκ)>

Einphasige Berechnung von S0 ist möglich: SW = S − SB


ML-Schätzung für den NV-KlassifikatorRichter-Modell: ähnliche Klassenkovarianzen Sκ = ακS0

IterationsanfangBerechne Probenstatistiken und initiale Skalierungsfaktoren:

pκ =TκT

µκ =1Tκ

∑x∈ωκ

x

α(0)κ = 1 Sκ =

1Tκ

∑x∈ωκ

xx> − µκµ>κ

IterationsschrittBerechne Kovarianzprototyp und Skalierungsfaktoren für i = 1, 2, . . .:

S(i)0 =

K∑κ=1

pκ · (α(i−1)κ )−1 · Sκ

α(i)κ =

1D· spur

(Sκ · (S(i)

0 )−1)


Geteilte Parametrisierung von NV-DichtenDas -Paket ’mclust’ zur Clusteranalyse

N (x | µκ,Sκ) mit Sκ := sκ ·UκDκU>κ und

sκ VolumenDκ GestaltUκ Orientierung

Modell Kovarianz Geometrie Volumen Gestalt OrientierungEII sE sphärisch konstant (std.) (std.)VII sκE sphärisch variabel (std.) (std.)EEI sD diagonal konstant konstant (std.)VEI sκD diagonal variabel konstant (std.)EVI sDκ diagonal konstant variabel (std.)VVI sκDκ diagonal variabel variabel (std.)EEE sUDU> elliptisch konstant konstant konstantEVE sUDκU> elliptisch konstant variabel konstantVEE sκUDU> elliptisch variabel konstant konstantVVE sκUDκU> elliptisch variabel variabel konstantEEV sUκDU>κ schräg konstant konstant variabelVEV sκUκDU>κ schräg variabel konstant variabelEVV sUκDκU>κ schräg konstant variabel variabelVVV sκUκDκU>κ schräg variabel variabel variabel


Geteilte Parametrisierung von NV-Dichten

Scrucca, Fop, Murphy & Raftery, ’R’ Journal, Volume 8/1 (2016)


ML-Schätzung und Lernstichprobenumfang

ProblemIn der NVK-Prüfgröße treten die Inversen und die reziprokenDeterminanten aller Sκ auf!

1. Der Varianz-MLS σκ,d wird Null, sobald |ωκ| ≤ 1 ist.

2. Der Kovarianz-MLS Sκ wird singulär, sobald |ωκ| ≤ D ist.

3. Selbst für Klassen mit |ωκ| > D besitzt Sκ häufig schlechte Kondition.

Schwierigkeiten für kleine T , große D, große K.

LösungVerringerung der Modellkapazität (Anzahl freier Parameter)

1. Fixierung und/oder Verklebung von Parametern

2. Strukturierung von Variablenabhängigkeiten

3. Wissensbasierte Engführung des Parameterraums









Maximum-a posteriori SchätzungVerteilungsparameter θ als Werte einer Zufallsvariablen Θ

Bayesscher DenkansatzDie wahren Verteilungsparameter θ∗ des Prozesses sind nicht nurunbekannt, sie sind sogar stochastisch.

Ihre Verteilungsdichte fΘ(·) repräsentiert unser Vorwissen über ihremöglichen Werte(kombinationen).

LemmaSind die Parameter der Verteilungsfamilie fX(·|θ)θ∈M selbst gemäßa priori Dichte fΘ(θ) verteilt, so lautet — für den unabhängig undidentisch gezogenen Datensatz ω — die datenbedingte a posterioriDichte der Parameter

P(θ|ω) =P(θ) · P(ω|θ)

P(ω)=

fΘ(θ) ·∏x∈ω

fX(x |θ)

P(ω).


Maximum-a posteriori SchätzungDie im Lichte der Datenprobe wahrscheinlichsten Verteilungsparameter

DefinitionDie Maximum-a posteriori-Schätzung (MAP) der Parameter einerDichtefamilie [f(x |θ)] unter Annahme der a priori-VerteilungsdichtefΘ(θ) für θ maximiert die stichprobenbedingte Wahrscheinlichkeit desgesuchten Parameterfeldes, d.h. es gilt:

θMAP = argmaxθ

(fΘ(θ) ·

∏x∈ω

fX(x |θ)

)

Bemerkungen

1. Der MAP-Schätzwert θMAP ist von allen Parameterwerten derjenige, der zu denvorliegenden Daten ω am besten paßt.

2. Hand aufs Herz — niemand (außer dem Capo di tutti capi) kennt diesemysteriöse Dichte fΘ(·).


Wissenswertes über die Maximum-a posteriori SchätzungSpezialfall Maximum-LikelihoodUnter Gleichverteilungsannahme für fΘ(·) mutiert die MAP-Schätzung ineine ML-Schätzung.

Asymptotisches SchätzverhaltenFür große Stichproben (|ω| → ∞) strebt θMAP gegen θML.

Methode der konjugierten DichtefamilienDie analytische Optimierung der MAP-Zielfunktion erfordert einegeeignete Form der a priori-Dichte:

fΘ(θ) = C ·∏

z∈ωprior

fX(z |θ)

Mit dieser Wahl gilt nämlich

θMAP(ω) = θML(ω∪ωprior)

und das Problem der fΘ(·)-Findung ist auf elegante Art gelöst!


MAP-Schätzung für diskrete VerteilungenWahrscheinlichkeitsparameter p1 + p2 + . . .+ pK = 1 für K Ereignisse

DefinitionDer Zufallsvektor Θ = (Θ1, . . . ,ΘK )> ∈ [0, 1]K mit

∑` Θ` = 1 heißt

Dirichlet-verteilt mit den Hyperparametern r1, . . . , rK > −1 genaudann, wenn gilt:

fΘ(p) = D(p|r) = C ·K∏`=1

pr``

Bemerkungen1. Für r = 0 ist D(p|r) eine Gleichverteilung.

2. Für r = 1 nimmt D(p|r) ihr Dichtemaximum bei der Gleichverteilungp` ≡ 1/K an.

3. Allgemein nimmt D(p|r) ihr Dichtemaximum bei der Verteilung p ∝ r an,also für die Wahrscheinlichkeiten p` = r`/R, R =

∑i ri .

4. Der Dichtegipfel ist umso steiler, je größer der Skalenfaktor R ist.


MAP-Schätzung für diskrete VerteilungenSatzGehorchen die kanonischen Parameter p1, . . . , pK einer diskretenWahrscheinlichkeitsverteilung der Dirichletverteilung mitHyperparametern r ∈ IRK , so lautet der MAP-Schätzwert für eineStichprobe mit den absoluten EreignishäufigkeitenT1 + T2 + . . .+ TK = T

p` =T` + r`T + R

, R =K∑`=1

r` .

Bemerkungen

1. Eine MAP-Schätzung mit Vorwissen D(·|r) bewirkt die Aufstockung derLerndaten ω um eine virtuelle Datenprobe ωprior mit den Ereignishäufigkeitenr`; diese Werte müssen allerdings nicht unbedingt ganzzahlig sein.

2. Der Spezialfall einer gleichverteilten oder uninformativen Dirichletdichte(r` ≡ r0) ergibt die MAP-Schätzwerte (Laplaceschätzformel im Fall r0 = 1)

p` = (T`+r0)/(T+K ·r0) , ` = 1, 2, . . . ,K .

Beweis.Es beträgt die Stichprobenwahrscheinlichkeit

P(ω|p) =K∏κ=1

pTκκ

und die a posteriori Parameterwahrscheinlichkeit (bei festen Hyperparametern)

P(p|ω) ∝ P(ω|p) · fΘ(p) ∝K∏κ=1

pTκκ ·

K∏κ=1

prκκ ∝

K∏κ=1

p(Tκ+rκ)κ

Das Maximum nimmt P(p|ω) bekanntlich für diejenige Verteilung an, die proportional zu denExponenten ist:

pκ =Tκ + rκT + R

, R =∑κ

rκ

Der MAP-Schätzwert ist ein gewichtetes Mittel („Konvexkombination“) aus ML-Schätzwert und demModus

ρκ = rκ/R , κ = 1, . . . ,K

der a priori-Dichte:

pκ =Tκ + rκT + R

=Tκ

T + R+

rκT + R

=TκT︸︷︷︸

pMLκ

·T

T + R︸︷︷︸λ

+rκR︸︷︷︸ρκ

·R

T + R︸︷︷︸(1−λ)


MAP-Schätzung für die multivariate NV-Dichte

DefinitionEine Zufallsmatrix S über der Mannigfaltigkeit aller symmetrischen,positiv-definiten (D × D)-Matrizen heißt Wishart-verteilt genau denn,wenn

fS(S) = W(S | α,V ) =1

2αD2 |V |

α2 ΓD(α2 )

·|S |α−D−1

2 ·exp(−1/2 · spur

(V−1S

))gilt mit den Hyperparametern α > D − 1 und V ∈ IRD×D positiv-definit.

LemmaFür die multivariate NV-Dichte N (µ,S) bildet das Produkt

fΘ(µ,S) = N (µ | m, τ−1S) · W(S−1 | α,V )

eine konjugierte Dichtefamilie mit den Hyperparametern m ∈ IRD , τ > 0,α > D − 1 und positiv-definiter Matrix V ∈ IRD×D .


MAP-Schätzung für den NV-KlassifikatorSatzDie Lerndaten ω1, . . . , ωK ⊂ IRD eines numerischenKlassifikationsproblems seien klassenweise normalverteilt mit denunbekannten Parametern (pκ,µκ,Sκ), κ = 1, . . . ,K. Die a prioriVerteilung der Parameter sei definiert durch

fΘ(θ) = D(p|r) ·K∏κ=1

N (µκ | mκ, τ−1κ Sκ) ·

K∏κ=1W(S−1

κ | ακ,V κ) .

Dann lauten die Maximum-a posteriori-Parameter:

pκ =rκ + TκR + T

, R =∑κ

rκ

µκ =1

τκ + Tκ

(τκmκ +

∑x∈ωκ

x

)

Sκ =V κ + τκ(µκ −mκ)(µκ −mκ)> +

∑x∈ωκ xx> − Tκµκµ

>κ

(ακ − D) + Tκ


„Plug-in“-SchätzverfahrenDie Suche nach den unbekannten, aber wahren Parametern

Traditionelles InduktionsparadigmaDie Verteilungsannahme ω ∼ fX(·|θ) ist korrekt.Es existiert eine wahre Parameterkonfiguration θ∗ — wir müssen sienur finden!

ML-Schätzung

θML = argmaxθ

P(ω|θ)

MAP-Schätzung

θMAP = argmaxθ

P(θ|ω)

Posterior-Mean-Schätzung

θPM = E[Θ|ω] =

∫θ · P(θ|ω)dθ

Bayespunkt-Schätzung

θ(ρ)BP = argmax

θ

∫Uρ(θ)

P(ϑ|ω)dϑ


„Plug-in“-SchätzverfahrenAnalyse der a posteriori Parameterdichte

θ ω

θ

MAP PM BP

P( | )

MAP Wo liegt der Gipfel der Posteriordichte?

PM Wo liegt der Durchschnitt der Posteriordichte?

BP Wo liegt das kleinste Intervall mit Wahrscheinlichkeitsmasse ρ > 0?


Bayes-SchätzungDer Abschied von der Idee „wahrer“ Verteilungsparameter

Bayessches InduktionsparadigmaDie Verteilungsannahme ω ∼ fX(·|θ) ist korrekt.Aber jedes x ∈ ω wird unter Verwendung eines eigenen, zufälligausgewürfelten Modellparameters θ gezogen!

P(x |ω) =

∫M

P(x ,θ | ω)dθ

=

∫M

P(x | θ, ω) · P(θ | ω)dθ

=

∫M

fX(x |θ)︸︷︷︸Modelldichte

· fX(ω|θ) · fΘ(θ)

fX(ω)︸︷︷︸a posteriori

dθ

Analytisch extrem schwer lösbar — bestenfalls wenn fΘ(·) ≡ c


BayesapproximationAsymptotisch korrekte Näherung unter Gleichverteilungsannahme für fΘ(·)

Praktikable Näherungslösung für den BayesschätzerUnwissen um fΘ(·) Gleichverteilung HerauskürzenSimultan in Zähler und Nenner: Integralbildung Maximumbildung

P(x |ω) =P(x , ω)

P(ω)=

∫fX(ω, x |θ) · fΘ(θ)dθ∫fX(ω|θ) · fΘ(θ)dθ

≈ maxθfX(ω, x |θ)

maxθfX(ω|θ)=

∏z∈ω,x

fX(z | θML(ω, x))∏z∈ω

fX(z | θML(ω))

Achtung:Die Bayesapproximation PBA(x |ω) ist i.a. keine Dichtefunktion(Normierungseigenschaft)!









Graphische Gaußsche ModelleDie Bias-Varianz-Problematik

Dichtemodell mit vielen ParameternNV-Dichten mit voll besetzter KovarianzmatrixAlle paarweisen Merkmalabhängigkeiten O(KD2)Kleiner Bias — große Varianz

Dichtemodell mit wenigen ParameternNV-Dichten mit diagonal besetzter KovarianzmatrixAlle Merkmale paarweise unabhängig O(KD)Großer Bias — kleine Varianz

LösungsideeNicht alle, sondern nur die wichtigen Merkmalabhängigkeiten werdenexplizit modelliert.


Gaußsche Bayesnetze

Kettenregel der Wahrscheinlichkeitstheorie

P(x1, . . . , xD) = P(x1) · P(x2|x1) ·D∏

d=3

P(xd | x1, . . . , xd−1)

Das d -te Merkmal ist explizit von (d − 1) anderen abhängig.

Beispiel: baumförmige Bayesnetze

P(x1, . . . , xD) ≈D∏

d=1

P(xd | xπ(d))

Jedes Merkmal xd ist explizit nur von genau einem anderen abhängig.

ProblemFinde diejenige Abhängigkeitsstruktur, welche die exakteste Näherung derDatenverteilung gewährleistet!


Gaußsche BayesnetzeDatensatz letter.lern (16 Merkmale, Klassen ’A’, ’B’, ’C’, ’D’)

X1

X3 X13

X4

X2

X5

X15 X9

X10

X6 X12

X14

X7

X8 X16

X11

X1

X2 X3

X4 X5

X15 X13

X8

X6 X9 X10

X7 X16 X11

X14

X12

X1

X2

X4

X3

X5

X13

X16

X6

X11

X7 X10

X9

X8 X12

X15

X14

X1

X2 X3 X13

X4 X5

X11

X6

X8 X10

X12

X7 X14

X16

X9

X15


Gaußsche Markovnetze

Parametrische Struktur der multivariaten NV-Dichte

−2·logN (x | µ,S) = |2πS |+D∑

i=1

D∑j=1

(xi−µi )·Cij ·(xj−µj) , C := S−1

Modellkomplexität = Anzahl nicht verschwindender Einträge von S−1

Aufgabenstellung der KovarianzselektionSuche eine Näherungsmatrix S ≈ S , deren Inverse möglich vieleNulleinträge aufweist!

Bedingte statistische UnabhängigkeitÜber normalverteilte Daten wissen wir, daß Cij = 0 genau dann gilt, wenndie beiden Merkmale xi und xj statistisch unabhängig sind, sofern wirdie Kenntnis der restlichen Merkmale x1, . . . , xD \ xi , xj voraussetzen.


Gaußsche MarkovnetzeDempsters Kovarianzselektion c©

5 10 15

510

15

Kovarianzmatrix1:n

1:n

5 10 15

510

15

Inverse Kovarianzmatrix1:n

1:n

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Verbotsmuster

5 10 15

510

15

Kovarianzmatrix1:n

1:n

5 10 15

510

15


1:n

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Verbotsmuster

5 10 15

510

15

Kovarianzmatrix1:n

1:n

5 10 15

510

15


1:n

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Verbotsmuster

5 10 15

510

15

Kovarianzmatrix1:n

1:n

5 10 15

510

15


1:n

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Verbotsmuster

BeispielDatensatzletter16 Merkmalealle Klassen

oben:KovarianzS = C−1

Mitte:KonzentrationC erfüllt A

unten:Adjazenz AAbhängigkeits-muster(gegeben)


Gaußsche MarkovnetzeLasso (regularisierte ‖·‖1-Norm Matrixinvertierung) c©

5 10 15

510

15

Lasso: 0.05

Inverse L1−Kovarianzmatrix1:n

1:n

5 10 15

510

15

Lasso: 0.2


1:n

5 10 15

510

15

Lasso: 0.45


1:n

5 10 15

510

15

Lasso: 0.8


1:n

5 10 15

510

15

Lasso: 1.25


1:n

5 10 15

510

15

Lasso: 1.8


1:n

5 10 15

510

15

Lasso: 2.45


1:n

5 10 15

510

15

Lasso: 3.2


1:n

5 10 15

510

15

Lasso: 4.05


1:n

5 10 15

510

15

Lasso: 5


1:n

5 10 15

510

15

Lasso: 6.05


1:n

5 10 15

510

15

Lasso: 7.2


1:n

BeispielDatensatzletter16 Merkmalealle Klassen

Konzentrations-matrizen fürunterschiedlicheRegularisierungs-parameter

ρ =120· n2

n = 1, 2, . . . , 12









Zufallsvariable eines Wahrscheinlichkeitsraumesund ihre kumulative Verteilungsfunktion

DefinitionSei (f,E,P) ein Wahrscheinlichkeitsraum. Eine Abbildung

X : f → IR

heißt Zufallsvariable genau dann wenn gilt:

Ar = ε ∈ f | X(ε) ≤ r ∈ E für alle r ∈ IR

DefinitionDie Abbildung

FX :

IR → [0, 1]r 7→ P(Ar )

, Ar = ε ∈ f | X(ε) ≤ r

heißt kumulative Verteilungsfunktion der Zufallsvariablen X. Für P(Ar )schreiben wir üblicherweise

P(X ≤ r).


Diskrete Zufallsvariable

DefinitionEine Zufallsvariable X heißt diskret, falls der Wertebereich von Xabzählbar ist.

BemerkungIn diesem Falle gilt dann

f =⋃

n∈INε | X(ε) = xn =

⋃n∈IN

X = xn

für den abzählbaren Wertebereich x1, x2, x3, . . . sowie auch P(f) = 1.Für die Wahrscheinlichkeit P(X = xn) schreiben wir auch kürzer pn .

DefinitionIst X eine diskrete Zufallsvariable mit dem Wertebereich xn|n ∈ IN, dannheißt

pX :

IR → [0, 1]

x 7→

P(X = xn) (∃n) x = xn

0 sonst

diskrete Wahrscheinlichkeitsdichtefunktion von X. Die Werte xn heißenMassenpunkte von X.


Stetige Zufallsvariable

DefinitionEine Zufallsvariable X heißt kontinuierlich, falls der Wertebereich von Xnicht abzählbar ist.

Bemerkung

1. Für eine kontinuierliche Zufallsvariable X sei die Wahrscheinlichkeit dafür, daßsie einen bestimmten Wert x ∈ IR annimmt, gleich 0.

2. Wir betrachten daher stattdessen die Wahrscheinlichkeit dafür, daß X in einemendlichen Intervall [a, b] oder einem unendlichen Anfangsstück (−∞, r ] von IRliegt.

xxx x

1

1 2 3 4

F(x)

x x

f(x)

F(x)

a bx

f(x)

F(x)

r

kontinuierliche (stetige) Zufallsvariable


WahrscheinlichkeitsverteilungsdichtefunktionDie Dichte ist die Ableitung der Verteilung

DefinitionIst X eine (kontinuierliche) Zufallsvariable mit der Eigenschaft

FX(r) = P(X ≤ r) =

∫ r

−∞fX(ξ)dξ für alle r ∈ IR

so heißt die Funktion fX : IR→ IR die Wahrscheinlichkeitsdichte derstetigen Zufallsvariable X.

LemmaFür eine stetige Zufallsvariable X mit der Dichtefunktion fX und derVerteilungsfunktion FX gilt für alle a, b ∈ IR mit a < b die Aussage

P(a < X ≤ b) = FX(b)− FX(a) =

∫ b

afX(ξ)dξ .


ErwartungswerteZufallsvariable · Funktion einer Zufallsvariablen

DefinitionFür eine Funktion g : IR→ IR ist mit X auch g(X) eine Zufallsvariable.Die Summe bzw. das Integral

E[g(X)] =∑

n

g(xn) · P(X = xn)

E[g(X)] =

∫ +∞

−∞g(x) · fX(x)dx

heißt — im Falle der Konvergenz — der Erwartungwert der Zufallsgrößeg(X).


(Zentrale) Momente einer VerteilungMittel und (quadratische) Standardabweichung ( Varianz)

DefinitionFür eine stetige Zufallsvariable X mit der Dichtefunktion fX bezeichnenwir

µX = E[X] =

∫ +∞

−∞x · fX(x)dx

als den Erwartungswert der Zufallsvariablen X selbst,

Var[X] = σ2X = E[(X− µX)2] =

∫ +∞

−∞(x − µX)2 · fX(x)dx

als die Varianz (Streuung, Dispersion), σX als die Standardabweichungund

E[XN ] bzw. E[(X− µX)N ]

als das (zentrale) N-te Moment von X.


Eigenschaften der Verteilungsmomente

LemmaFür die Erwartungswerte von Funktionen diskreter oder stetigerZufallsvariablen gelten die Aussagen:

1. Für alle a ∈ IR ist E[a] = a.

2. Homogenität: E[a · g(X)] = a · E[g(X)]

3. Additivität: E[g1(X) + g2(X)] = E[g1(X)] + E[g2(X)]

4. Monotonie: g1(x) ≤ g2(x) ⇒ E[g1(X)] ≤ E[g2(X)]

5. Falls E[X2] existiert, so gilt Var[X] = E[X2]− E[X]2


Ungleichungen für WahrscheinlichkeitenVerteilungsunabhängige Abschätzungen

Satz (Tschebyscheff-Ungleichung)Ist die Abbildung g : IR→ IR nichtnegativ, so gilt für jedes λ > 0:

P(g(X) ≥ λ) ≤ E[g(X)]

λ

Im Falle endlicher Varianz von X gilt die bekannte Form:

P(|X− µX| ≥ c · σX) ≤ 1c2

Satz (Jensen-Ungleichung)Für eine Zufallsvariable X und eine konvexe Abbildung g : IR→ IR gilt:

E[g(X)] ≥ g (E[X])

FolgerungWeil bekanntlich g(x) = x2 konvex (g ′′ ≥ 0) ist, folgtVar[X] = E[X2]− E[X]2 ≥ 0 .


ZufallsvektorenMultivariate Wahrscheinlichkeitsverteilungen

DefinitionIst X ein Vektor von Zufallsvariablen X1, . . . ,XD , so heißt

FX(x) = FX(x1, . . . , xD) = P(X1 ≤ x1, . . . ,XD ≤ xD)

die multivariate Verteilungsfunktion von X.

Sie heißt stetig, falls eine Funktion fX : IRD → IR existiert mit derEigenschaft

FX(x1, . . . , xD) =

∫ x1

−∞· · ·∫ xD

−∞fX(x1, . . . , xD)dx1 . . . dxD

fX heißt dann multivariate Verteilungsdichte von X.


Momente multivariater VerteilungenErwartungswertvektor und Kovarianzmatrix

DefinitionFür einen stetigen Vektor X von Zufallsvariablen X1, . . . ,XD mit dermultivariaten Verteilungsdichte fX definieren wir

µX = E[X] =

∫IRD

x · fX(x)dx

als den Erwartungswertvektor und

SX =

σX1X1 . . . σX1XD...

. . ....

σXDX1 . . . σXDXD

als die Kovarianzmatrix von X. Dabei bezeichne für alle j = 1, . . . ,D:

σXiXj = Cov[Xi ,Xj ] = E[(Xi − µXi )(Xj − µXj )]

=

∫IR

∫IR

(xi − µXi )(xj − µXj ) · fXiXj (xi , xj )dxi dxj


Statistische UnabhängigkeitStatistische Unkorreliertheit

DefinitionDie Zufallsvariablen X1, . . . ,XD heißen unabhängig, wenn gilt

fX(x1, . . . , xD) =D∏

d=1

fXd (xd) = fX1(x1) · . . . · fXD (xD)

Die Zufallsvariablen heißen unkorreliert, wenn gilt

E[D∏

d=1

Xd ] =D∏

d=1

E[Xd ]


Unabhängigkeit & UnkorreliertheitEinige wichtige Eigenschaften

1. Aus der Unabhängigkeit folgt die Unkorreliertheit.

2. Aus der Unkorreliertheit folgt i.a. nicht die Unabhängigkeit.

3. Zwei Zufallsvariablen X,Y sind unkorreliert, wenn E[XY] = µXµYgilt, also gdw. gilt Cov[X,Y] = 0.

4. Sind die Zufallsvariablen X1, . . . ,XD unabhängig, so sind sie auchpaarweise unabhängig und natürlich auch paarweise unkorreliert.Folglich gilt für ihre Kovarianzmatrix

SX = diag(σ2X1, . . . , σ2

XD) =

σ2X1

0 . . . 00 σ2

X2. . . 0

... . . .. . .

...0 0 . . . σ2

XD

mit σ2

Xd= σXdXd , d = 1, . . . ,D.


Zusammenfassung (7)

1. Die multivariate Normalverteilung beschreibt eine unimodale (Zentrumµ), exponentiell abklingende Dichte mit elliptisch-symmetrischen(Trägheitsachsen von S) Isolinien.

2. Die Prüfgrößen der NV-Bayesregel sind quadratische Polynome in denMerkmalen x1, . . . , xD .

3. Die Maximum-Likelihood-Schätzung sucht die Modellparameter mit dergrößten Datenerzeugungswahrscheinlichkeit.

4. Die ML-Zielgröße ist nach allen Parametern partiell abzuleiten; nachNullsetzen der Gradienten ergibt sich günstigenfalls eine geschlosseneLösung (LGS) oder wenigstens eine rasch konvergierende Iterationsformel.

5. Die Maximum-a posteriori-Schätzung verwendet a priori-Wissen über dieDichteparameter und ist robuster bei (zu) kleinen Lernenstichproben.

6. Praktikable MAP-Schätzer bedienen sich der Methode der konjugiertenParameterdichtefamilien.

7. Verteilungsmodelle werden robuster, wenn die Abhängigkeitsstruktur derMerkmale sachgemäß ausgedünnt wird.

NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020...

Documents