-
1. Zu welchen Folgen L von Beispielen aus AxB gibt es keinen
Entscheidungsbaum H, so dass
errorL(H) = 0?
Wenn es widerspruchliche Beispiele in L gibt. Ein a element von
A zeigt auf zwei verschiedene b.
2. Fr welche Wahrscheinlichkeitsverteilungen fr Lernbeispiele
(Trainings- und Testbeispiele) ist der
wahre Fehler stets grer 0.
Fr Mehrdeutigkeiten: Wenn A auf B und auf C abbildet.
3. Was kann man von einem Lernalgorithmus erwarten, der nach
Mglichkeit zu jeder Liste L einen
Entscheidungsbaum H mit errorL(H) = 0 erzeugt. Welche Methoden
zur Vermeidung dieses
Problems gibt es?
Vermutlich overfitting, d.h. wahre Fehler viel hher als der
empirische. Vermeidung Pruning
4. Betrachten Sie eine Liste L von Trainingsbeispielen, welche
gem eines
Wahrscheinlichkeitsmaes P aus einer Menge X x Y gezogen wurde.
Was genau ist eine
Hypothese und was ein Lernalgorithmus fr dieses Lernproblem?
Alternativ: Definieren Sie genau die Begriffe Hypothese und
Lernalgorithmus.
Hypothese: H: X Y Zuweisung von Eingabebeispielen zu
Ausgabebeispielen
Lernalgorithmus: A: (X x Y) H Auswahl einer Hypothese aus einer
Hypothesenklasse anhand von Trainingsbeispielen
5. Geben Sie die analytische Lsung fr ein lineares
Regressionsproblem mit MSE Fehlerkriterium an.
Definieren Sie alle in der Formel verwendeten Symbole.
w Optimale Gewichte X Input in Matrix-Form Y Target Vektor
6. Geben Sie ein Beispiel fr ein Klassifikationsproblem mit 2
Klassen und Trainingsbeispielen mit 2
Attributen, welches nicht von einem linearen Klassifikator
jedoch von einem Neuronalen Netz
bestehend aus Schwellwertgattern und einem hidden layer exakt
gelst werden kann.
Zeigen Sie wie.
XOR-Klassifizierung
-
7. Nennen Sie drei hufig verwendete Aktivierungsfunktionen. Mit
welcher kann backprogation
nicht durchgefhrt werden? Erklren Sie warum (2 Grnde)
Voraussetzungen fr Backpropagation:
Allgemeine feed-forward Architektur; Differenzierbare
Aktivierungsfunktionen (e.g. sigmoide Gatter)
Lineare Aktivierungsfunktion ja, da stetig ableitbar Sigmoide
Funktion ja, da stetig ableitbar Schwellenwertfunktion nein, da
nicht stetig und daher nicht ableitbar.
8. Definieren Sie den Impulsterm bei gradient descent. Wozu wird
der verwendet?
Alternative Formulierung: Wozu dient der Impulsterm beim
backprogation Algorithmus?
Impulsterm = B (Walt Wuralt) Schnelleres Lernen auf flachen
Plateaus
Gewichtsnderungen werden verstrkt
9. Beschreiben Sie k-fold Crossvalidation und im Speziellen
Leave-One-Out Crossvalidation.
Wann werden diese Methoden angewendet?
Spezieller Fall: k = n (Anzahl der folds gleich Anzahl der
Trainingsbeispiele)
Leave-One-Out cross-validation jedes Beispiel wird einmal zum
validieren benutzt.
-
10. Weshalb mssen beim Nearest-neighbor-Algorithmus input
Attribute geeignet skaliert werden?
Geben Sie ein graphischen Beispiel, welches die Problematik
veranschaulicht.
11.
12. Welche Probleme mit der Lernrate knnen bei backpropagation
auftreten? Welche
automatisierte Abhilfe gibt es?
Bei zu groer Lernrate tritt Oszillation auf, globales Minimum
kann bersprungen werden
Bei zu kleiner Lernrate dauert die Iteration lange.
Lsung: adaptive Lernrate mit Impulsterm
13. Wodurch unterscheiden sich Modelle der Prdikatenlogik von
Modellen der Aussagenlogik?
Aussagenlogik: Wahrheit von Aussagen / Fakten
Prdikatenlogik: Wahrheit von Beziehungen zwischen Objekten
14. Nennen und definieren Sie drei Inferenzregeln der
Aussagenlogik.
1. Modus ponens: A => B; A; dann kann man B als gegeben
annehmen.
2. Alle logischen quivalenzen: A => B; B =>A; dann A B
3. Und-Eliminierung: A und B. A alleine auch wahr.
-
15. Wie wird fr fr Entscheidungsbume beim Lernalgorithmus C4.5
ausgewhlt, welches Attribut an
einem Knoten abgefragt wird?
Die Entropie wird berechnet.
Allgemein: Attribut wird ausgewhlt, dass den meisten
InformationGain hat.
beim C4.5: Attribut, das den besten GainRatio hat.
16. Was besagt das Resolutionstheorem der Aussagenlogik?
Aussage ist unerfllbar, wenn Resolution zu leeren Menge
fhrt.
17. Aus welchem Grund teilt man einen bestehenden Datensatz in
Trainings-, Test- und
Validierungsdaten auf? Wozu wird jeder dieser Datenstze
verwendet?
Grund: um ein Trainieren (auswendig lernen) auf bestimmte Daten
zu vermeiden.
18. Fr welche Trainingsdatenstze gibt es keinen fehlerfreien
Entscheidungsbaum?
wenn es Doppeldeutigkeiten gibt
BSP: (X1 = 1, Y = -1); (X1 = 1, Y = +1)
19. Welche Funktionen knnen von Neuronalen Netze berechnet bzw.
approximiert werden (welche
Theoreme gibt es)?
Theorem 1: Jede Boolsche Funktion kann durch ein NN aus
Schwellengattern mit einem hidden layer
berechnet werden.
Theorem 2: Jede kontinuierliche Funktion kann von einem NN aus
sigmoiden Gattern mit einem
hidden layer bis zu einer gewissen Genauigkeit approximiert
werden.
20. Aus welchem Grund verwendet man bei backpropagation eine
adaptive Lernrate?
Wie wird die Adaption durchgefhrt?
Um aus flachen Plateaus zu kommen (zu kleine LR) oder
Oszillation zu vermeiden (zu gro).
Bei jedem iterativem Schritt wird der Fehler auf den Testdaten
mit dem vorhergehenden Schritt
verglichen. Wird er wieder grer, wird die Lernrate gesenkt da
ein Tal berspungen wurde.
Wird er kleiner, wird die Lernrate erhht da man auf dem
richtigen Weg ist.
21. Was ist underfitting und overfitting? Wann tritt es auf?
Overfitting: Hypo zu komplex, Trainingsfehler minimal, echter
Fehler gro.
Underfitting: Hypo zu einfach, zu wenig Anpassung an
Trainingsdaten.
-
22. Welches Fehlerkriterium (alternativ: Fehlerma) verwendet man
typischerweise fr
Klassifikationsprobleme und welches fr Regressionprobleme?
23. Woran wird jeweils die Qualitt eines Lernalgorithmus und
einer Hypothese gemessen?
Hypothese : am geringen wahren Fehler errorp(H) = { : H(a) !=
b}
Lernalgo : a) ob es in der Hypothesenklasse eine Hypothese mit
niedrigem wahren Fehler gibt,
b) wie gro die Chance ist, dass der Lernalgorithmus schon mit
kurzer Liste an
Trainingsbeispielen eine Hypothese HL in Hypothesenklasse
ausgibt, deren wahrer Fehler nicht viel grer ist als der empirische
Fehler. (errorp = errorL)
24. Was ist das dem backpropagation Algorithmus zu Grunde
liegende Optimierungsprinzip?
Geben Sie fr diese allgemeine Optimierungsprinzip die Formel fr
einen update Schritt an.
Alternativ: Findet der backprogation Algorithmus immer ein
globales Minimum der Fehlerfunktion?
25. Unter welchen Bedingungen / Wann liegt der empirische Fehler
stets nahe am wahren Fehler?
Bei einer groen (unendlichen) Anzahl von Trainingsbeispielen
lim errorL = errorP
n
26. Welche Information wird beim backpropagation Algorithmus
jeweils vorwrts und rckwrts
propagiert? Wie geht diese Information in die update Regel fr
ein Gewicht des Neuronalen
Netze ein?
Vorwrts-bertragung von Information d.h. , um den output aller
Neuronen und des
gesamten Netzwerkes zu bestimmen.
Berechnung des Outputs des Gatters j
Rckwrts-bertragung der Fehlerzuweisung jedes Gatters, d.h.
Berechnung des Fehlers des Gatters k
-
27. Beschreiben Sie zwei praktisch Methoden zur Vermeidung von
overfitting fr Neuronale Netze und
erklren Sie genau deren zu Grunde liegende Idee (Wieso
funktionieren diese Methoden?)
Weight decay: zustzlicher Regulierungsterm, der die Gewichte
klein hlt. Wenn die Gewichte klein
sind -> linearer Bereich des NN -> kein overfitting.
Die Gewichte werden mit sehr kleinen Werten (> 0)
initialisiert.
Early stopping: beim Anstieg des Fehlers wird abgebrochen. Man
treibt das NN in den nichtlinearen
Bereich, davor wird abgebrochen
28. Nennen Sie jeweils fr Nearest Neighbor Algorithmus,
Entscheidungsbume und Support Vector
Machines mindestens einen inhrenten (im Lernalgorithmus
implementierten) Mechanismus der
overfitting vermeidet.
Nearest Neighbor: Auswahl eines geeigneten ks Entscheidungsbume:
Pruning SVM: Transformieren in den kernel-Raum und dort margin
mglichst gro werden (margin = Abstand zwischen Trainingsbeispielen
und der Klassifikationsebene des Klassifikators)
29. Woraus bestehen Modelle fr die Prdikatenlogik (Wie sind
Modelle definiert)?
Die Modelle der Prdikatenlogik bestehen aus
- Objekte (zB Menschen, Huser,..)
- Relationen zwischen den Objekten (z.B. ist grer als, rot,
rund)
- Funktionen (zB ist Vater von, ist bester Freund von)
Definition:
Prdikatenlogik: Wahrheit von Beziehungen zwischen Objekten
30. Wie setzt man das Minimum Description Length Principle in
der Praxis um?
37. Formulieren Sie das minimum description length
principle.
Whle eine Hypothese H, sodass die folgende Summe klein ist:
(Beschreibung von H) + (Beschreibung der Abweichung der
Vorhersage von H)
31. Definieren Sie wenn ein Satz der Aussagenlogik in
konjuktiver Normalform ist.
Wenn innen ODER und aussen UND ist. (A v B v C) ^ (D v E v
F)...
32. Definieren Sie wenn ein Satz der Aussagenlogik in
disjunktiver Normalform ist.
Wenn innen UND und aussen ODER ist. (A ^ B ^ C) v (D ^ E ^
F)...
33. Erklaren Sie die Kriterien, welche jeweils bei der PCA
(Hauptkomponententransformation) und
der LDA (Linear Discriminant Analysis) optimiert werden!
- Suche nach optimalen Linearkombinationen von Variablen, die
die Daten erklaren
- Minimierung der Abstande zwischen (Hauptkomponenten-)Gerade
und Datenpunkten
- Maximierung der Varianz (Informationsgehalt)
-
35. Erlautern Sie den Unterschied zwischen der maximum
likelihood (ML) und die maximum a-
posteriori (MAP) Schatzmethode. Unter welcher Bedingung liefern
beide Schatzverfahren das gleiche
Resultat? Welche Anforderungen gibt es an Glattungskern?
ML schtzt ohne Vorwissen. Bei der maximum Likelihood Methode
werden die Parameter so
geschatzt, dass die Likelihood Funktion maximal wird.
MAP ist ein Spezialfall des Bayes Schtzer. Im Unterschied zum
ML-Schtzer wird bei m Bayes Schtzer
als Zufallsvariable modellier. D.h. fr existiert eine
Wahrscheinlichkeitsdichtefunktion, die so genannte a-priori
Verteilung. Beim MAP werden jene Parameter genommen, die die
posterior Wahrscheinlichkeit maximieren.
36. Definieren Sie exakt was das Lernziel ist.
Lernziel ist die Minimierung des wahren Fehlers und mit einer
minimalen Anzahl an Trainingsdaten
einen moglichst geringen Fehler auf die Validierungsdaten zu
erreichen.
-
1. Was besagt die Markov-Annahme 1. Ordnung?
Das Verhalten des Systems nur vom aktuellen Zustand und nicht
von den vorigen Zustnden
abhngt. Diese Eigenschaft bezeichnet man als Gedchtnislosigkeit
oder auch Markow-Eigenschaft.
2. Erklren Sie den Unterschied zwischen Markov Modell (MM) und
Hidden Markov Modell (HMM)?
MM: Deterministisch, d.h Zustnde knnen direkt beobachtet
werden.
HMM: Nicht deterministisch, d.h. Zustnde knnen nicht direkt
erfasst werden (sondern nur
ber Beobachtungen). Die Zustnde der Kette sind von auen whrend
der
Ausfhrung nicht direkt sichtbar (sie sind hidden,
verborgen).
3. Welche Parameter hat das Markov Model (MM) und das Hidden
Markov Model (HMM)?
MM: bergangsmatrix (Anzahl Zustnde, bergangswahrscheinlichkeit);
Wahrscheinlichkeit der
Anfangszustnde;
HMM: bergangsmatrix (Anzahl Zustnde,
bergangswahrscheinlichkeit); Wahrscheinlichkeit der
Anfangszustnde; Beobachtungswahrscheinlichkeiten, dass ein
bestimmter Zustand bei einer
bestimmten Beobachtung auftritt;
4. Welche Eigenschaften hat der k-means Algorithmus
(Initialisierung, Entscheidungsgrenze). Welches
Kriterium wird optimiert?
1) minimiert bzw optimiert J (kumlative Distanz) 2) konvergieren
gegen lokales Optimum (abhngig von der initialisierung)
3) J wird mit jeder Iteration besser
Entscheidung fllt immer zum nchsten Cluster-Mittelpunkt
5. Was ist ein typisches Einsatzgebiet fr HMMs (Erklren Sie
warum?)
Spracherkennung:
Die Laute werden als States abgebildet, der Input ist nicht auf
eine Lnge beschrnkt, da man z.B.
lnger im gleichen State verweilen kann. Es werden left-to-right
HMMs verwendet.
6. (Bezglich Grammatikmodelle:) Zeigen Sie ein kurzes Beispiel
fr jedes Modell?
n-gram, uni-gram: P(ich gehe einkaufen) = P(einkaufen gehe
ich)
7. Welche Gramatikmodelle fr die Verarbeitung von natrlicher
Sprache kennen Sie? Erklren Sie
diese kurz.
n-gram Modelle
uni-gram: hngen von keinem State ab.
Bi-gram: hngen vom Vorgnger-State ab.
Tri-gram: hngen vom Vorgnger- und Vorvorgnger-State ab.
8. Erklren Sie den Viterbi-Algorithmus / Wozu wird er
verwendet?
Der Algorithmus befindet sich immer in einem State. Es gibt eine
endliche Anzahl von States.
Es gibt von einem State zu einem anderen immer eine
Wahrscheinlichkeit, dass dieser bergang
gewhlt wird. (Hchste Wahrscheinlichkeit: Survivor Path).
Der Algorithmus behlt immer nur den wahrscheinlichsten Pfad zu
einem State im Gedchtnis.
Verwendung: zB Sequenzklassifikation, Bsp Bestimmung von
Musikgenre
-
9. Wir haben einen Datensatz mit folgender Kovarianzmatrix:
Zeile 1: a 0 0 Zeile 2: 0 b 0 Zeile 3: 0 0 c,
wobei c > a > b. Bestimmen Sie die Richtung der
Hauptkomponente, die zum grten Eigenwert
gehrt.
Hauptkomponente zeigt in Richtung in hchsten Eigenwert.
(Spalten-)Vektor: [0 0 1]
10. Erlutern Sie die 'kernbasierte' Schtzung von
Wahrscheinlichkeitsverteilungen (inbesondere
empirische und geglttete Dichtefunktion).
Kernbasierte Schtzungen gehren zu den nichtparametrischen
Modellen. Nichtparametrische
Modelle versuchen mit mglichst wenigen Annahmen ber die
funktionale Form der Verteilung
auszukommen und sind somit generisch einsetzbar. Der Preis dafr
ist, dass das so gewonnene Modell
sehr hohe Komplexitt aufweist, da seine Reprsentation genauso
viele Freiheitsgrade aufweisen
kann wie die ursprnglich beobachtete Datenfolge selbst.
Man hat eine Liste von Datenpunkten gegeben der Lnge l und
schreibt jeden Punkt die gleiche
Wahrscheinlichkeitsmasse zu. Dazu verwendet man die
Delta-Distribution, die einen unendlich hohen
Impuls an einer Stelle beschreibt. Integriert man ber diesen
Punkt, ergibt sich 1. Genau dieses
Verhalten bentigt man in einer Dichtefunktion.
Dadurch erhlt man die empirische Dichte.
Diese Dichte ist jedoch sehr "rau", deswegen legt man einen
Glttungskern darber, ber den man
auf integriert. Die delta - Distribution fllt mit dem Integral
weg, brig bleibt eine Summe ber den
Glttungskern.
11. Erlutern Sie kurz den Begriff "independent and identically
distributed". Wrden Sie Daten mit
dieser Eigenschaft mit einem MM modellieren (Begrndung)?
Man geht von unabhngigen und identisch verteilten
Zufallsvariablen aus.
Nein, da independent dem Prinzip des MM widerspricht.
12. Erlutern Sie die Gauschen Mischverteilung. Welche Parameter
sind notwendig.
13. Erklren Sie den k-means Algorithmus.
1. Initialisierung: (zufllige) Auswahl von k Cluster Zentren
2. Zuordnung: Jeder Datenvektor wird demjenigen Cluster
zugeordnet, zu dessen Clusterzentrum
der Abstand minimal ist
3. Die Clusterzentren werden in ihren jeweilig neuen Mittelpunkt
verschoben
4. Sollte sich die Zuordnung der Datenvektoren ndern, weiter mit
2. sonst fertig.
-
14. Fensterfunktion Welche Verfahren zum Schtzen von
Wahrscheinlichkeitsdichtefunktionen aus
gegebenen Daten kennen Sie? Beschreiben Sie diese kurz.
parametrische (zB Gau): Methoden zB ML-Schtzer (likelihood),
Bayes'sche Schtzung (a priori Ws.)
nicht parametrische (zB Histogramm): Ws., dass X' in R (Breite d
Abschnitts) fllt,
15. Erklren Sie, wann und warum es besser sein kann, ein GMM
anstatt einer einfachen
Gauverteilung zur Modellierung gegebener Daten zu benutzen. Was
sind dabei jeweils Vor- und
Nachteile?
Wenn die Verteilung einer Zufallsvariablen mehr als ein
signifikantes Maximum aufweist (es sich also
um eine multimodale Verteilung handelt), ist eine einzelne
Gauverteilung ein ungeeignetes Modell
und man kann auf die berlagerung mehrerer Gauverteilungen
bergehen.
Vorteil GMM: bessere Modellierung ?
Nachteile GMM: 1. Die Anzahl k der gaufrmigen Komponenten sollte
der Anzahl der lokalen
Maxima (der Moden) der Verteilung entsprechen, die aber a priori
oft unbekannt ist.
2. Die additive berlagerung mehrerer Exponentialfunktionen macht
die Anwendung des Maximum
Likelihood Verfahrens mathematisch unhandhabbar, da die
Parameter der einzelnen
Exponentialfunktionen nicht mehr direkt bestimmt werden
knnen.
Vorteil GV: einfachere Modellierung
Nachteile GV: bei mehreren Maximas keine glatte Modellierung
16. Bei der statistischen Klassifikation verwendet man oft die
logarithmierte Likelihood-Funktion.
Kann die Verwendung des Logarithmus das Klassifikationsergebnis
ndern (Begrndung)?
Nein, da es nur eine monotone Funktion ist.
17. Erlutern Sie die Reduktion der Dimension von Daten mittels
der PCA!
Die Reduktion der Dimension bedeutet, dass nur relevante Daten
(relevante Eigenvektoren)
bercksichtigt werden. Die Relevanz der Eigenvektoren , wird
durch ihre Eigenwert bestimmt.
Hohe Eigenwert hohe Relevanz.
18. Frage: Wie bestimmt/bekommt man die Transformationsmatrix
der PCA?
Es werden die Eigenwerte/Eigenvektoren der Kovarianzmatrix
bestimmt.
19. Welche Eigenschaft erfllen die Daten nach Anwendung der
PCA?
Dekorrelation, Die Kovarianzmatrix hat nur Werte in der
Diagonale, sonst ist alles 0 (symmetrisch)
20. Welche Eigenschaften erfllt die Kovarianzmatrix von
dekorrelierten Daten?
Sie hat nur Werte in der Diagonale, sonst ist alles 0
(symmetrisch)
21. Erklren Sie den EM Algorithmus zum Lernen der Parameter von
Gauschen Mischverteilung!
1. INITIALISIERUNG - Initialisierung der Parameter
2. E(xpectation)-STEP - Zugehrigkeitswahrscheinlichkeiten
berechnen:
Es wird die Ws fr alle Daten berechnet, dass zur Verteilung
gehren
3. M(aximization)-STEP - Parameter werden neu berechnet
4. EVALUIERUNG - Evaluiere log p (X| ) => wenn konvergiert,
Abbruch, ansonsten springe zu Schritt 2
22. Welche Vereinfachungen mssen beim EM-Algorithmus zum Lernen
von Gauschen
Mischverteilungen getroffen werden, um den k-means Algorithmus
zu bekommen?
m wird weglassen
m = *I (es werden nur Distanzen gemessen) Klassifikation, harte
Entscheidung (jeder Punkt kann nur zu einer Verteilung gehren)
-
23. Welche 3 Problemstellungen treten beim Hidden Markov Model
(HMM) auf? Erklren Sie diese
kurz (u.a. Algorithmus, Einsatzgebiet,...) 3/6
1. Evaluierungsproblem - Algorithmus: Forward/Backward
Algorithmus
2. Dekodierungsproblem - Algorithmus: Viterbi-Algo
3. Lernproblem / Schtzproblem - Algorithmus: EM-Algo oder
Baum-Welch-Algo
24. Welches Problem ergibt sich wenn die Wortsequenz eines
Satzes als i.i.d ("independent and
identically distributed") Prozess modelliert wird?
Die Daten liegen unabhangig voneinander und gleich-verteilt vor.
Somit ist die Sequenzerkennung
nicht moglich, da eben bei Sequenzerkennung mit
Ubergangswahrsch. gearbeitet wird.
25. Zeigen Sie ein Klassifikationsbeispiel in R2 bei dem die
Dimensionsreduktion mit PCA
(Hauptkomponententransformation) negative Folgen fur die
Klassifikation hat (+ Erklarung?). Warum
kann die Linear Discriminant Analysis (LDA) dafur verwendet
werden?
26. Erklaren Sie kurz ein Markov Netzwerk (d.h. ein
ungerichtetes graphisches Modell). Wie werden
damit Wahrscheinlichkeitsverteilung modelliert?
- undirected graph G = (Z,E) which represents factorization
properties of the distribution.
- represents a joint distribution P over some set of random
variables.
- Joint distribution is a product of potential functions C(ZC)
over maximal cliques of G
P(Z) = 1W*CC(ZC)
27. Erklren Sie ein Bayessches Netzwerk (d.h. ein gerichtetes
graphisches Model). Wie werden damit
Wahrscheinlichkeitsverteilungen modeliert?
Knoten: Zufllig ausgewhlte Variablen
Kanten: Die bedingten Abhngigkeiten
Knoten die nicht verbunden sind -> voneinander unabhngig
Jedem Knoten ist eine Wahrscheinlichkeitsfunktion
zugeordnet.
Jedem Knoten des Netzes ist eine bedingte
Wahrscheinlichkeitsverteiung der durch ihn
reprsentierten Zufallsvariable gegeben, die Zufallsvariablen an
den Elternknoten zuordnet.
28. Was versteht man unter Inferenz bei einem graphischen
Modell?
Jeder Punkt gehort also zu einem bestimmen Haufungspunkt. Wir
wollen bei einem gegebenen Punkt
bestimmen zu welchem Haufungspunkt dieser gehort. Dazu mussen
wir alle Parameter unseres
Modells kennen. Das wird als Inferenzproblem bezeichnet. Jeder
Haufungspunkt ist eine eigene
Gauverteilung.
-
29. Zeigen Sie ein GMM als graphisches Model (+ Erklarung
und
Verbundwahrscheinlichkeitsverteilung). Welche bedingten
statistischen Unabhangigkeiten von
Variablen (conditional independence) impliziert der Graph?
30. Was versteht man unter links-rechts HMM und ergodischem
HMM?
- Links-Rechts Modelle: System geht mit jedem Schritt entweder
zu gleichem Zustand oder zu einem
bisher noch nicht besuchten uber. Zustandsubergangsmatrix darf
an keiner Stelle 0 sein.
- Ergodische Modelle: Alle Zustande konnen von jedem Zustand aus
innerhalb von 1 Schritt mit p > 0
erreicht werden. Ubergangsmatrix = Obere Dreiecksmatrix.
31. Sie wollen aus einer Liste von N i.i.d. Samples die
Parameter einer Gauverteilung nach der
Maximum-Likelihood-Methode schatzen. Wie gehen Sie vor? Was ist
dabei die Likelihood-Funktion?
-> maximiren der log likelihood funktion
arg max ( ) -> Ableitung + 0 setzen der log likelihood
funktion
Problem falls nicht i.i.d.: Falls die Daten nicht unabhngig
sind, knnen wir den Schritt in der zweiten
Zeile (Summierung der logarithmischen Wahrscheinlichkeiten
einzelner Samples ergibt
Gesamtwahrscheinlichkeit) NICHT durchfhren.
32. Welches Cliques and Maximal Cliques beinhaltet das folgende
graphische Modell?
Clicques:
z1 - z2 z1 - z3 z2 - z3 z2 - z4 z3 - z4 z1 - z2 - z3 z2 - z3-
z4
Maximal Cliques:
z1 - z2 - z3 z2 - z3 - z4
33. Sie haben mehrere HMMs mit Parametern sowie eine
Beobachtungssequenz .
Wie kann man entscheiden, von welchem HMM die Sequenz erzeugt
wurde? Nennen Sie eine
Answendung! Kann man den Viterbi-Algorithmus hierzu
benutzen?
Wir haben ein Evaluierungsproblem/Klassifizierungsproblem ->
Forward/Backward Algorithmus.
Man berechnet von jedem HMM mittels Forward/Backward Algorithmus
die Wahrscheinlichkeit, dass
X von diesem HMM erzeugt wurde. Das HMM mit der hchsten
Wahrscheinlichkeit hat die Sequenz
erzeugt.
Viterbi kann nicht verwendet werden, da Viterbi einen hidden
State Sequenz erzeugt ,die die
Beobachtungssequenz am besten erklrt.
-
34. Was kann bei einem gerichteten graphischen Modell gelernt
werden?
Struktur und Paramater
35. Beschreiben Sie die statistische Klassifikation! Wie kann
das Bayes-Theorem dafur verwendet
werden? Erklaren Sie die einzelnen Terme und Variablen!
Verfahren basieren auf Dichteberechnungen und
Wahrscheinlichkeiten. Bayes-Theorem gehort zu
uberwachtem Lernen. Eine a-priori-Wahrscheinlichkeit wird durch
Erfahrungen ver andert und in eine
aposteriori-Wahrsch. uberfuhrt
Seite 50, 51, 53, 54