This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Eine stetige Zufallsvariable X heißt(univariat) normalverteilt mitMittelwert µ ∈ IR und Varianzσ2 6= 0, wenn gilt:
fX(x) = N (x | µ, σ2)
BemerkungUnter der Annahme klassenweise statistisch unabhängiger und normalverteilterMerkmale läßt sich die (naive!) Bayesregel mit Hilfe von K ·D univariaten NV-Dichtenrealisieren.
BemerkungFür Normalverteilungen sind Unkorreliertheit und Unabhängigkeit äquivalent.Obige Dichte entspricht also dem Produkt N (x1 | µ1, σ21) · N (x2 | µ2, σ22) derunivariaten NV-Dichten (Randverteilungen).
Parameterschätzung für WahrscheinlichkeitsmodelleVerteilungsmodell Lerndaten Parameterschätzwert
Parametrische VerteilungsdichtefamilieDie Wertetupel x ∈ IRD eines Zufallsvektors X seien gemäß
f(x |θ) | θ ∈M
verteilt; jede Verteilungsdichte der Familie ist durch ein Feld θ vonParametern aus einer MannigfaltigkeitM charakterisiert.
Repräsentative LernstichprobeDie unbekannte Verteilung von X ist durch eine Stichprobe ωrepräsentiert, deren Elemente x1, . . . , xT unabhängig und identischgemäß f(·|θ) verteilt gezogen wurden.
ProblemWie lautet der beste Schätzwert θ für die unbekannten Parameter θ∗ ?
Maximum-Likelihood SchätzungLemmaDie (logarithmierte) Ziehungswahrscheinlichkeit für den unabhängig undidentisch mittels f(·|θ) gezogenen Datensatz ω beträgt
`θ(ω) = log∏x∈ω
f(x |θ) =∑x∈ω
log f(x |θ) .
Die Größe `θ(ω) heißt Likelihoodfunktion von θ.
DefinitionDie Maximum-Likelihood-Schätzung (MLS) der Parameter einerDichtefamilie [f(x |θ)] maximiert die parameterbedingteStichprobenwahrscheinlichkeit, d.h. es gilt
θML = argmaxθ
∏x∈ω
f(x |θ) = argmaxθ
∑x∈ω
log f(x |θ) .
BemerkungDer ML-Schätzwert θML ist von allen Parameterwerten derjenige, zu dem dievorliegenden Daten ω am besten passen.
SatzDer ML-Schätzer ist erwartungstreu, d.h.: ist eine Zufallsvariable Xgemäß f(x |θ?) verteilt, so ist der Erwartungswert des ML-Schätzers füreine Stichprobe unabhängiger Realisierungen von X gleich θ?.
Bemerkungen1. Für eine repräsentative Lernstichprobe zunehmenden Umfangs strebt der
ML-Schätzwert gegen den wahren Parametervektor.
2. Über das Verhalten des ML-Schätzwertes bei Verwendung einerindividuellen, endlichen Probe trifft der Satz keinerlei verbindlicheAussage.
3. Gehorcht der Datenerzeugungsprozeß nicht tatsächlich für irgendeinenfesten Parameterwert θ ∈M dem postulierten Verteilungsgesetz f(x |θ),so besitzen selbst die asymptotischen ML-Parameter θML keineAussagekraft.
und ist aber unter Berücksichtung der Normierungsbedingung∑κ pκ = 1 zu maximieren; die Bedingung
wird mit einem Lagrange-Multiplikator inkorporiert:
`p(ω) =K∑κ=1
Tκ log pκ − λ · (∑κ
pκ − 1)
Wir bilden nun die partiellen Ableitungen
∂`p(ω)
∂pκ= Tκ
1
pκ− λ und
∂`p(ω)
∂λ= 1−
∑κ
pκ
Nullsetzen der Ableitungen ergibt
Tκpκ
= λ ⇒ pκ =Tκλ
und wegen
1 =∑κ
pκ =∑κ
Tκλ
=1
λ
∑κ
Tκ =1
λ· T
folgt λ = T und daher pκ = Tκ/T für alle κ = 1, . . . ,K .
Beweis.[Parameter µ einer univariaten Gaußdichte]
fX(x) = N (x | µ, σ2) =1
σ√2π· exp
(−
(x − µ)2
2σ2
)
Die ML-Zielfunktion `µ,σ2 (ω) = −2 · log
∏x∈ω N (x | µ, σ2) lautet
`µ,σ2 (ω) = −2 ·
∑x∈ω
(−1
2log(2πσ2)−
1
2
(x − µ)2
σ2
)= T · log(2πσ2) +
1
σ2
∑x∈ω
(x − µ)2
Partielle Ableitung nach µ:
∂`(ω)
∂µ=
1
σ2
∑x∈ω
2 · (x − µ) · (−1) = −2
σ2
∑x∈ω
x −∑x∈ω
µ
Nullsetzen ergibt ∑
x∈ωx =
∑x∈ω
µ = T · µ ⇒ µ =1
T
∑x∈ω
x
Beweis.[Parameter σ2 einer univariaten Gaußdichte bei bekanntem Wert µ]
fX(x) = N (x | µ, σ2) =1
σ√2π· exp
(−
(x − µ)2
2σ2
)
Die ML-Zielfunktion `µ,σ2 (ω) = −2 · log
∏x∈ω N (x | µ, σ2) lautet
`µ,σ2 (ω) = −2 ·
∑x∈ω
(−1
2log(2πσ2)−
1
2
(x − µ)2
σ2
)= T · log(2πσ2) +
1
σ2
∑x∈ω
(x − µ)2
Partielle Ableitung nach σ2:
∂`(ω)
∂σ2= T ·
1
2πσ2· 2π −
1
σ4
∑x∈ω
(x − µ)2 =1
σ2
T −1
σ2
∑x∈ω
(x − µ)2
Nullsetzen ergibt
T =1
σ2
∑x∈ω
(x − µ)2 ⇒ σ2 =
1
T
∑x∈ω
(x − µ)2
BemerkungIn der Praxis ist mit σ2 natürlich auch µ unbekannt und es muß unter Zuhilfenahme desML-Schätzwertes µ optimiert werden. Eine Rechnung ähnlich der obigen ergibt die Varianzschätzformel
σ2 =
1
T − 1
∑x∈ω
(x − µ)2 .
Beweis.[Parameter µ einer multivariaten Gaußdichte]
ML-Schätzung für den NV-KlassifikatorDiagonale Kovarianzmatrizen & Mahalanobis-Klassifikator
Diagonale KovarianzenDie ML-Zielgröße zerfällt auf Grund der Unabhängigkeitsannahme in(1 + K · D) unabhängige Optimierungsterme.
σ2κ,d =
1Tκ
∑x∈ωκ
(xd − µκ,d)2
Mahalanobis-KlassifikatorBei klassenübergreifenden Kovarianzstatistiken zerfällt `θ(·) nicht mehrvollständig in klassenspezifische Optimierungsausdrücke!
S0 = SW ([ωκ]) =1T
K∑κ=1
∑x∈ωκ
(x − µκ)(x − µκ)>
Einphasige Berechnung von S0 ist möglich: SW = S − SB
Geteilte Parametrisierung von NV-DichtenDas -Paket ’mclust’ zur Clusteranalyse
N (x | µκ,Sκ) mit Sκ := sκ ·UκDκU>κ und
sκ VolumenDκ GestaltUκ Orientierung
Modell Kovarianz Geometrie Volumen Gestalt OrientierungEII sE sphärisch konstant (std.) (std.)VII sκE sphärisch variabel (std.) (std.)EEI sD diagonal konstant konstant (std.)VEI sκD diagonal variabel konstant (std.)EVI sDκ diagonal konstant variabel (std.)VVI sκDκ diagonal variabel variabel (std.)EEE sUDU> elliptisch konstant konstant konstantEVE sUDκU> elliptisch konstant variabel konstantVEE sκUDU> elliptisch variabel konstant konstantVVE sκUDκU> elliptisch variabel variabel konstantEEV sUκDU>κ schräg konstant konstant variabelVEV sκUκDU>κ schräg variabel konstant variabelEVV sUκDκU>κ schräg konstant variabel variabelVVV sκUκDκU>κ schräg variabel variabel variabel
Maximum-a posteriori SchätzungVerteilungsparameter θ als Werte einer Zufallsvariablen Θ
Bayesscher DenkansatzDie wahren Verteilungsparameter θ∗ des Prozesses sind nicht nurunbekannt, sie sind sogar stochastisch.
Ihre Verteilungsdichte fΘ(·) repräsentiert unser Vorwissen über ihremöglichen Werte(kombinationen).
LemmaSind die Parameter der Verteilungsfamilie fX(·|θ)θ∈M selbst gemäßa priori Dichte fΘ(θ) verteilt, so lautet — für den unabhängig undidentisch gezogenen Datensatz ω — die datenbedingte a posterioriDichte der Parameter
Maximum-a posteriori SchätzungDie im Lichte der Datenprobe wahrscheinlichsten Verteilungsparameter
DefinitionDie Maximum-a posteriori-Schätzung (MAP) der Parameter einerDichtefamilie [f(x |θ)] unter Annahme der a priori-VerteilungsdichtefΘ(θ) für θ maximiert die stichprobenbedingte Wahrscheinlichkeit desgesuchten Parameterfeldes, d.h. es gilt:
θMAP = argmaxθ
(fΘ(θ) ·
∏x∈ω
fX(x |θ)
)
Bemerkungen
1. Der MAP-Schätzwert θMAP ist von allen Parameterwerten derjenige, der zu denvorliegenden Daten ω am besten paßt.
2. Hand aufs Herz — niemand (außer dem Capo di tutti capi) kennt diesemysteriöse Dichte fΘ(·).
Wissenswertes über die Maximum-a posteriori SchätzungSpezialfall Maximum-LikelihoodUnter Gleichverteilungsannahme für fΘ(·) mutiert die MAP-Schätzung ineine ML-Schätzung.
Asymptotisches SchätzverhaltenFür große Stichproben (|ω| → ∞) strebt θMAP gegen θML.
Methode der konjugierten DichtefamilienDie analytische Optimierung der MAP-Zielfunktion erfordert einegeeignete Form der a priori-Dichte:
fΘ(θ) = C ·∏
z∈ωprior
fX(z |θ)
Mit dieser Wahl gilt nämlich
θMAP(ω) = θML(ω∪ωprior)
und das Problem der fΘ(·)-Findung ist auf elegante Art gelöst!
MAP-Schätzung für diskrete VerteilungenSatzGehorchen die kanonischen Parameter p1, . . . , pK einer diskretenWahrscheinlichkeitsverteilung der Dirichletverteilung mitHyperparametern r ∈ IRK , so lautet der MAP-Schätzwert für eineStichprobe mit den absoluten EreignishäufigkeitenT1 + T2 + . . .+ TK = T
p` =T` + r`T + R
, R =K∑`=1
r` .
Bemerkungen
1. Eine MAP-Schätzung mit Vorwissen D(·|r) bewirkt die Aufstockung derLerndaten ω um eine virtuelle Datenprobe ωprior mit den Ereignishäufigkeitenr`; diese Werte müssen allerdings nicht unbedingt ganzzahlig sein.
2. Der Spezialfall einer gleichverteilten oder uninformativen Dirichletdichte(r` ≡ r0) ergibt die MAP-Schätzwerte (Laplaceschätzformel im Fall r0 = 1)
p` = (T`+r0)/(T+K ·r0) , ` = 1, 2, . . . ,K .
Beweis.Es beträgt die Stichprobenwahrscheinlichkeit
P(ω|p) =K∏κ=1
pTκκ
und die a posteriori Parameterwahrscheinlichkeit (bei festen Hyperparametern)
P(p|ω) ∝ P(ω|p) · fΘ(p) ∝K∏κ=1
pTκκ ·
K∏κ=1
prκκ ∝
K∏κ=1
p(Tκ+rκ)κ
Das Maximum nimmt P(p|ω) bekanntlich für diejenige Verteilung an, die proportional zu denExponenten ist:
pκ =Tκ + rκT + R
, R =∑κ
rκ
Der MAP-Schätzwert ist ein gewichtetes Mittel („Konvexkombination“) aus ML-Schätzwert und demModus
MAP-Schätzung für den NV-KlassifikatorSatzDie Lerndaten ω1, . . . , ωK ⊂ IRD eines numerischenKlassifikationsproblems seien klassenweise normalverteilt mit denunbekannten Parametern (pκ,µκ,Sκ), κ = 1, . . . ,K. Die a prioriVerteilung der Parameter sei definiert durch
Bayes-SchätzungDer Abschied von der Idee „wahrer“ Verteilungsparameter
Bayessches InduktionsparadigmaDie Verteilungsannahme ω ∼ fX(·|θ) ist korrekt.Aber jedes x ∈ ω wird unter Verwendung eines eigenen, zufälligausgewürfelten Modellparameters θ gezogen!
P(x |ω) =
∫M
P(x ,θ | ω)dθ
=
∫M
P(x | θ, ω) · P(θ | ω)dθ
=
∫M
fX(x |θ)︸ ︷︷ ︸Modelldichte
· fX(ω|θ) · fΘ(θ)
fX(ω)︸ ︷︷ ︸a posteriori
dθ
Analytisch extrem schwer lösbar — bestenfalls wenn fΘ(·) ≡ c
BayesapproximationAsymptotisch korrekte Näherung unter Gleichverteilungsannahme für fΘ(·)
Praktikable Näherungslösung für den BayesschätzerUnwissen um fΘ(·) Gleichverteilung HerauskürzenSimultan in Zähler und Nenner: Integralbildung Maximumbildung
P(x |ω) =P(x , ω)
P(ω)=
∫fX(ω, x |θ) · fΘ(θ)dθ∫fX(ω|θ) · fΘ(θ)dθ
≈ maxθfX(ω, x |θ)
maxθfX(ω|θ)=
∏z∈ω,x
fX(z | θML(ω, x))∏z∈ω
fX(z | θML(ω))
Achtung:Die Bayesapproximation PBA(x |ω) ist i.a. keine Dichtefunktion(Normierungseigenschaft)!
Dichtemodell mit vielen ParameternNV-Dichten mit voll besetzter KovarianzmatrixAlle paarweisen Merkmalabhängigkeiten O(KD2)Kleiner Bias — große Varianz
Dichtemodell mit wenigen ParameternNV-Dichten mit diagonal besetzter KovarianzmatrixAlle Merkmale paarweise unabhängig O(KD)Großer Bias — kleine Varianz
LösungsideeNicht alle, sondern nur die wichtigen Merkmalabhängigkeiten werdenexplizit modelliert.
DefinitionEine Zufallsvariable X heißt kontinuierlich, falls der Wertebereich von Xnicht abzählbar ist.
Bemerkung
1. Für eine kontinuierliche Zufallsvariable X sei die Wahrscheinlichkeit dafür, daßsie einen bestimmten Wert x ∈ IR annimmt, gleich 0.
2. Wir betrachten daher stattdessen die Wahrscheinlichkeit dafür, daß X in einemendlichen Intervall [a, b] oder einem unendlichen Anfangsstück (−∞, r ] von IRliegt.
1. Aus der Unabhängigkeit folgt die Unkorreliertheit.
2. Aus der Unkorreliertheit folgt i.a. nicht die Unabhängigkeit.
3. Zwei Zufallsvariablen X,Y sind unkorreliert, wenn E[XY] = µXµYgilt, also gdw. gilt Cov[X,Y] = 0.
4. Sind die Zufallsvariablen X1, . . . ,XD unabhängig, so sind sie auchpaarweise unabhängig und natürlich auch paarweise unkorreliert.Folglich gilt für ihre Kovarianzmatrix
1. Die multivariate Normalverteilung beschreibt eine unimodale (Zentrumµ), exponentiell abklingende Dichte mit elliptisch-symmetrischen(Trägheitsachsen von S) Isolinien.
2. Die Prüfgrößen der NV-Bayesregel sind quadratische Polynome in denMerkmalen x1, . . . , xD .
3. Die Maximum-Likelihood-Schätzung sucht die Modellparameter mit dergrößten Datenerzeugungswahrscheinlichkeit.
4. Die ML-Zielgröße ist nach allen Parametern partiell abzuleiten; nachNullsetzen der Gradienten ergibt sich günstigenfalls eine geschlosseneLösung (LGS) oder wenigstens eine rasch konvergierende Iterationsformel.
5. Die Maximum-a posteriori-Schätzung verwendet a priori-Wissen über dieDichteparameter und ist robuster bei (zu) kleinen Lernenstichproben.
6. Praktikable MAP-Schätzer bedienen sich der Methode der konjugiertenParameterdichtefamilien.
7. Verteilungsmodelle werden robuster, wenn die Abhängigkeitsstruktur derMerkmale sachgemäß ausgedünnt wird.