EW Ausarbeitung Old

1. Zu welchen Folgen L von Beispielen aus AxB gibt es keinen Entscheidungsbaum H, so dass

errorL(H) = 0?

Wenn es widerspruchliche Beispiele in L gibt. Ein a element von A zeigt auf zwei verschiedene b.

2. Fr welche Wahrscheinlichkeitsverteilungen fr Lernbeispiele (Trainings- und Testbeispiele) ist der

wahre Fehler stets grer 0.

Fr Mehrdeutigkeiten: Wenn A auf B und auf C abbildet.

3. Was kann man von einem Lernalgorithmus erwarten, der nach Mglichkeit zu jeder Liste L einen

Entscheidungsbaum H mit errorL(H) = 0 erzeugt. Welche Methoden zur Vermeidung dieses

Problems gibt es?

Vermutlich overfitting, d.h. wahre Fehler viel hher als der empirische. Vermeidung Pruning

4. Betrachten Sie eine Liste L von Trainingsbeispielen, welche gem eines

Wahrscheinlichkeitsmaes P aus einer Menge X x Y gezogen wurde. Was genau ist eine

Hypothese und was ein Lernalgorithmus fr dieses Lernproblem?

Alternativ: Definieren Sie genau die Begriffe Hypothese und Lernalgorithmus.

Hypothese: H: X Y Zuweisung von Eingabebeispielen zu Ausgabebeispielen

Lernalgorithmus: A: (X x Y) H Auswahl einer Hypothese aus einer Hypothesenklasse anhand von Trainingsbeispielen

5. Geben Sie die analytische Lsung fr ein lineares Regressionsproblem mit MSE Fehlerkriterium an.

Definieren Sie alle in der Formel verwendeten Symbole.

w Optimale Gewichte X Input in Matrix-Form Y Target Vektor

6. Geben Sie ein Beispiel fr ein Klassifikationsproblem mit 2 Klassen und Trainingsbeispielen mit 2

Attributen, welches nicht von einem linearen Klassifikator jedoch von einem Neuronalen Netz

bestehend aus Schwellwertgattern und einem hidden layer exakt gelst werden kann.

Zeigen Sie wie.

XOR-Klassifizierung

7. Nennen Sie drei hufig verwendete Aktivierungsfunktionen. Mit welcher kann backprogation

nicht durchgefhrt werden? Erklren Sie warum (2 Grnde)

Voraussetzungen fr Backpropagation:

Allgemeine feed-forward Architektur; Differenzierbare Aktivierungsfunktionen (e.g. sigmoide Gatter)

Lineare Aktivierungsfunktion ja, da stetig ableitbar Sigmoide Funktion ja, da stetig ableitbar Schwellenwertfunktion nein, da nicht stetig und daher nicht ableitbar.

8. Definieren Sie den Impulsterm bei gradient descent. Wozu wird der verwendet?

Alternative Formulierung: Wozu dient der Impulsterm beim backprogation Algorithmus?

Impulsterm = B (Walt Wuralt) Schnelleres Lernen auf flachen Plateaus

Gewichtsnderungen werden verstrkt

9. Beschreiben Sie k-fold Crossvalidation und im Speziellen Leave-One-Out Crossvalidation.

Wann werden diese Methoden angewendet?

Spezieller Fall: k = n (Anzahl der folds gleich Anzahl der Trainingsbeispiele)

Leave-One-Out cross-validation jedes Beispiel wird einmal zum validieren benutzt.

10. Weshalb mssen beim Nearest-neighbor-Algorithmus input Attribute geeignet skaliert werden?

Geben Sie ein graphischen Beispiel, welches die Problematik veranschaulicht.

11.

12. Welche Probleme mit der Lernrate knnen bei backpropagation auftreten? Welche

automatisierte Abhilfe gibt es?

Bei zu groer Lernrate tritt Oszillation auf, globales Minimum kann bersprungen werden

Bei zu kleiner Lernrate dauert die Iteration lange.

Lsung: adaptive Lernrate mit Impulsterm

13. Wodurch unterscheiden sich Modelle der Prdikatenlogik von Modellen der Aussagenlogik?

Aussagenlogik: Wahrheit von Aussagen / Fakten

Prdikatenlogik: Wahrheit von Beziehungen zwischen Objekten

14. Nennen und definieren Sie drei Inferenzregeln der Aussagenlogik.

1. Modus ponens: A => B; A; dann kann man B als gegeben annehmen.

2. Alle logischen quivalenzen: A => B; B =>A; dann A B

3. Und-Eliminierung: A und B. A alleine auch wahr.

15. Wie wird fr fr Entscheidungsbume beim Lernalgorithmus C4.5 ausgewhlt, welches Attribut an

einem Knoten abgefragt wird?

Die Entropie wird berechnet.

Allgemein: Attribut wird ausgewhlt, dass den meisten InformationGain hat.

beim C4.5: Attribut, das den besten GainRatio hat.

16. Was besagt das Resolutionstheorem der Aussagenlogik?

Aussage ist unerfllbar, wenn Resolution zu leeren Menge fhrt.

17. Aus welchem Grund teilt man einen bestehenden Datensatz in Trainings-, Test- und

Validierungsdaten auf? Wozu wird jeder dieser Datenstze verwendet?

Grund: um ein Trainieren (auswendig lernen) auf bestimmte Daten zu vermeiden.

18. Fr welche Trainingsdatenstze gibt es keinen fehlerfreien Entscheidungsbaum?

wenn es Doppeldeutigkeiten gibt

BSP: (X1 = 1, Y = -1); (X1 = 1, Y = +1)

19. Welche Funktionen knnen von Neuronalen Netze berechnet bzw. approximiert werden (welche

Theoreme gibt es)?

Theorem 1: Jede Boolsche Funktion kann durch ein NN aus Schwellengattern mit einem hidden layer

berechnet werden.

Theorem 2: Jede kontinuierliche Funktion kann von einem NN aus sigmoiden Gattern mit einem

hidden layer bis zu einer gewissen Genauigkeit approximiert werden.

20. Aus welchem Grund verwendet man bei backpropagation eine adaptive Lernrate?

Wie wird die Adaption durchgefhrt?

Um aus flachen Plateaus zu kommen (zu kleine LR) oder Oszillation zu vermeiden (zu gro).

Bei jedem iterativem Schritt wird der Fehler auf den Testdaten mit dem vorhergehenden Schritt

verglichen. Wird er wieder grer, wird die Lernrate gesenkt da ein Tal berspungen wurde.

Wird er kleiner, wird die Lernrate erhht da man auf dem richtigen Weg ist.

21. Was ist underfitting und overfitting? Wann tritt es auf?

Overfitting: Hypo zu komplex, Trainingsfehler minimal, echter Fehler gro.

Underfitting: Hypo zu einfach, zu wenig Anpassung an Trainingsdaten.

22. Welches Fehlerkriterium (alternativ: Fehlerma) verwendet man typischerweise fr

Klassifikationsprobleme und welches fr Regressionprobleme?

23. Woran wird jeweils die Qualitt eines Lernalgorithmus und einer Hypothese gemessen?

Hypothese : am geringen wahren Fehler errorp(H) = { : H(a) != b}

Lernalgo : a) ob es in der Hypothesenklasse eine Hypothese mit niedrigem wahren Fehler gibt,

b) wie gro die Chance ist, dass der Lernalgorithmus schon mit kurzer Liste an

Trainingsbeispielen eine Hypothese HL in Hypothesenklasse ausgibt, deren wahrer Fehler nicht viel grer ist als der empirische Fehler. (errorp = errorL)

24. Was ist das dem backpropagation Algorithmus zu Grunde liegende Optimierungsprinzip?

Geben Sie fr diese allgemeine Optimierungsprinzip die Formel fr einen update Schritt an.

Alternativ: Findet der backprogation Algorithmus immer ein globales Minimum der Fehlerfunktion?

25. Unter welchen Bedingungen / Wann liegt der empirische Fehler stets nahe am wahren Fehler?

Bei einer groen (unendlichen) Anzahl von Trainingsbeispielen

lim errorL = errorP

n

26. Welche Information wird beim backpropagation Algorithmus jeweils vorwrts und rckwrts

propagiert? Wie geht diese Information in die update Regel fr ein Gewicht des Neuronalen

Netze ein?

Vorwrts-bertragung von Information d.h. , um den output aller Neuronen und des

gesamten Netzwerkes zu bestimmen.

Berechnung des Outputs des Gatters j

Rckwrts-bertragung der Fehlerzuweisung jedes Gatters, d.h.

Berechnung des Fehlers des Gatters k

27. Beschreiben Sie zwei praktisch Methoden zur Vermeidung von overfitting fr Neuronale Netze und

erklren Sie genau deren zu Grunde liegende Idee (Wieso funktionieren diese Methoden?)

Weight decay: zustzlicher Regulierungsterm, der die Gewichte klein hlt. Wenn die Gewichte klein

sind -> linearer Bereich des NN -> kein overfitting.

Die Gewichte werden mit sehr kleinen Werten (> 0) initialisiert.

Early stopping: beim Anstieg des Fehlers wird abgebrochen. Man treibt das NN in den nichtlinearen

Bereich, davor wird abgebrochen

28. Nennen Sie jeweils fr Nearest Neighbor Algorithmus, Entscheidungsbume und Support Vector

Machines mindestens einen inhrenten (im Lernalgorithmus implementierten) Mechanismus der

overfitting vermeidet.

Nearest Neighbor: Auswahl eines geeigneten ks Entscheidungsbume: Pruning SVM: Transformieren in den kernel-Raum und dort margin mglichst gro werden (margin = Abstand zwischen Trainingsbeispielen und der Klassifikationsebene des Klassifikators)

29. Woraus bestehen Modelle fr die Prdikatenlogik (Wie sind Modelle definiert)?

Die Modelle der Prdikatenlogik bestehen aus

- Objekte (zB Menschen, Huser,..)

- Relationen zwischen den Objekten (z.B. ist grer als, rot, rund)

- Funktionen (zB ist Vater von, ist bester Freund von)

Definition:

Prdikatenlogik: Wahrheit von Beziehungen zwischen Objekten

30. Wie setzt man das Minimum Description Length Principle in der Praxis um?

37. Formulieren Sie das minimum description length principle.

Whle eine Hypothese H, sodass die folgende Summe klein ist:

(Beschreibung von H) + (Beschreibung der Abweichung der Vorhersage von H)

31. Definieren Sie wenn ein Satz der Aussagenlogik in konjuktiver Normalform ist.

Wenn innen ODER und aussen UND ist. (A v B v C) ^ (D v E v F)...

32. Definieren Sie wenn ein Satz der Aussagenlogik in disjunktiver Normalform ist.

Wenn innen UND und aussen ODER ist. (A ^ B ^ C) v (D ^ E ^ F)...

33. Erklaren Sie die Kriterien, welche jeweils bei der PCA (Hauptkomponententransformation) und

der LDA (Linear Discriminant Analysis) optimiert werden!

- Suche nach optimalen Linearkombinationen von Variablen, die die Daten erklaren

- Minimierung der Abstande zwischen (Hauptkomponenten-)Gerade und Datenpunkten

- Maximierung der Varianz (Informationsgehalt)

35. Erlautern Sie den Unterschied zwischen der maximum likelihood (ML) und die maximum a-

posteriori (MAP) Schatzmethode. Unter welcher Bedingung liefern beide Schatzverfahren das gleiche

Resultat? Welche Anforderungen gibt es an Glattungskern?

ML schtzt ohne Vorwissen. Bei der maximum Likelihood Methode werden die Parameter so

geschatzt, dass die Likelihood Funktion maximal wird.

MAP ist ein Spezialfall des Bayes Schtzer. Im Unterschied zum ML-Schtzer wird bei m Bayes Schtzer

als Zufallsvariable modellier. D.h. fr existiert eine Wahrscheinlichkeitsdichtefunktion, die so genannte a-priori Verteilung. Beim MAP werden jene Parameter genommen, die die posterior Wahrscheinlichkeit maximieren.

36. Definieren Sie exakt was das Lernziel ist.

Lernziel ist die Minimierung des wahren Fehlers und mit einer minimalen Anzahl an Trainingsdaten

einen moglichst geringen Fehler auf die Validierungsdaten zu erreichen.

1. Was besagt die Markov-Annahme 1. Ordnung?

Das Verhalten des Systems nur vom aktuellen Zustand und nicht von den vorigen Zustnden

abhngt. Diese Eigenschaft bezeichnet man als Gedchtnislosigkeit oder auch Markow-Eigenschaft.

2. Erklren Sie den Unterschied zwischen Markov Modell (MM) und Hidden Markov Modell (HMM)?

MM: Deterministisch, d.h Zustnde knnen direkt beobachtet werden.

HMM: Nicht deterministisch, d.h. Zustnde knnen nicht direkt erfasst werden (sondern nur

ber Beobachtungen). Die Zustnde der Kette sind von auen whrend der

Ausfhrung nicht direkt sichtbar (sie sind hidden, verborgen).

3. Welche Parameter hat das Markov Model (MM) und das Hidden Markov Model (HMM)?

MM: bergangsmatrix (Anzahl Zustnde, bergangswahrscheinlichkeit); Wahrscheinlichkeit der

Anfangszustnde;

HMM: bergangsmatrix (Anzahl Zustnde, bergangswahrscheinlichkeit); Wahrscheinlichkeit der

Anfangszustnde; Beobachtungswahrscheinlichkeiten, dass ein bestimmter Zustand bei einer

bestimmten Beobachtung auftritt;

4. Welche Eigenschaften hat der k-means Algorithmus (Initialisierung, Entscheidungsgrenze). Welches

Kriterium wird optimiert?

1) minimiert bzw optimiert J (kumlative Distanz) 2) konvergieren gegen lokales Optimum (abhngig von der initialisierung)

3) J wird mit jeder Iteration besser

Entscheidung fllt immer zum nchsten Cluster-Mittelpunkt

5. Was ist ein typisches Einsatzgebiet fr HMMs (Erklren Sie warum?)

Spracherkennung:

Die Laute werden als States abgebildet, der Input ist nicht auf eine Lnge beschrnkt, da man z.B.

lnger im gleichen State verweilen kann. Es werden left-to-right HMMs verwendet.

6. (Bezglich Grammatikmodelle:) Zeigen Sie ein kurzes Beispiel fr jedes Modell?

n-gram, uni-gram: P(ich gehe einkaufen) = P(einkaufen gehe ich)

7. Welche Gramatikmodelle fr die Verarbeitung von natrlicher Sprache kennen Sie? Erklren Sie

diese kurz.

n-gram Modelle

uni-gram: hngen von keinem State ab.

Bi-gram: hngen vom Vorgnger-State ab.

Tri-gram: hngen vom Vorgnger- und Vorvorgnger-State ab.

8. Erklren Sie den Viterbi-Algorithmus / Wozu wird er verwendet?

Der Algorithmus befindet sich immer in einem State. Es gibt eine endliche Anzahl von States.

Es gibt von einem State zu einem anderen immer eine Wahrscheinlichkeit, dass dieser bergang

gewhlt wird. (Hchste Wahrscheinlichkeit: Survivor Path).

Der Algorithmus behlt immer nur den wahrscheinlichsten Pfad zu einem State im Gedchtnis.

Verwendung: zB Sequenzklassifikation, Bsp Bestimmung von Musikgenre

9. Wir haben einen Datensatz mit folgender Kovarianzmatrix: Zeile 1: a 0 0 Zeile 2: 0 b 0 Zeile 3: 0 0 c,

wobei c > a > b. Bestimmen Sie die Richtung der Hauptkomponente, die zum grten Eigenwert

gehrt.

Hauptkomponente zeigt in Richtung in hchsten Eigenwert. (Spalten-)Vektor: [0 0 1]

10. Erlutern Sie die 'kernbasierte' Schtzung von Wahrscheinlichkeitsverteilungen (inbesondere

empirische und geglttete Dichtefunktion).

Kernbasierte Schtzungen gehren zu den nichtparametrischen Modellen. Nichtparametrische

Modelle versuchen mit mglichst wenigen Annahmen ber die funktionale Form der Verteilung

auszukommen und sind somit generisch einsetzbar. Der Preis dafr ist, dass das so gewonnene Modell

sehr hohe Komplexitt aufweist, da seine Reprsentation genauso viele Freiheitsgrade aufweisen

kann wie die ursprnglich beobachtete Datenfolge selbst.

Man hat eine Liste von Datenpunkten gegeben der Lnge l und schreibt jeden Punkt die gleiche

Wahrscheinlichkeitsmasse zu. Dazu verwendet man die Delta-Distribution, die einen unendlich hohen

Impuls an einer Stelle beschreibt. Integriert man ber diesen Punkt, ergibt sich 1. Genau dieses

Verhalten bentigt man in einer Dichtefunktion.

Dadurch erhlt man die empirische Dichte.

Diese Dichte ist jedoch sehr "rau", deswegen legt man einen Glttungskern darber, ber den man

auf integriert. Die delta - Distribution fllt mit dem Integral weg, brig bleibt eine Summe ber den

Glttungskern.

11. Erlutern Sie kurz den Begriff "independent and identically distributed". Wrden Sie Daten mit

dieser Eigenschaft mit einem MM modellieren (Begrndung)?

Man geht von unabhngigen und identisch verteilten Zufallsvariablen aus.

Nein, da independent dem Prinzip des MM widerspricht.

12. Erlutern Sie die Gauschen Mischverteilung. Welche Parameter sind notwendig.

13. Erklren Sie den k-means Algorithmus.

1. Initialisierung: (zufllige) Auswahl von k Cluster Zentren

2. Zuordnung: Jeder Datenvektor wird demjenigen Cluster zugeordnet, zu dessen Clusterzentrum

der Abstand minimal ist

3. Die Clusterzentren werden in ihren jeweilig neuen Mittelpunkt verschoben

4. Sollte sich die Zuordnung der Datenvektoren ndern, weiter mit 2. sonst fertig.

14. Fensterfunktion Welche Verfahren zum Schtzen von Wahrscheinlichkeitsdichtefunktionen aus

gegebenen Daten kennen Sie? Beschreiben Sie diese kurz.

parametrische (zB Gau): Methoden zB ML-Schtzer (likelihood), Bayes'sche Schtzung (a priori Ws.)

nicht parametrische (zB Histogramm): Ws., dass X' in R (Breite d Abschnitts) fllt,

15. Erklren Sie, wann und warum es besser sein kann, ein GMM anstatt einer einfachen

Gauverteilung zur Modellierung gegebener Daten zu benutzen. Was sind dabei jeweils Vor- und

Nachteile?

Wenn die Verteilung einer Zufallsvariablen mehr als ein signifikantes Maximum aufweist (es sich also

um eine multimodale Verteilung handelt), ist eine einzelne Gauverteilung ein ungeeignetes Modell

und man kann auf die berlagerung mehrerer Gauverteilungen bergehen.

Vorteil GMM: bessere Modellierung ?

Nachteile GMM: 1. Die Anzahl k der gaufrmigen Komponenten sollte der Anzahl der lokalen

Maxima (der Moden) der Verteilung entsprechen, die aber a priori oft unbekannt ist.

2. Die additive berlagerung mehrerer Exponentialfunktionen macht die Anwendung des Maximum

Likelihood Verfahrens mathematisch unhandhabbar, da die Parameter der einzelnen

Exponentialfunktionen nicht mehr direkt bestimmt werden knnen.

Vorteil GV: einfachere Modellierung

Nachteile GV: bei mehreren Maximas keine glatte Modellierung

16. Bei der statistischen Klassifikation verwendet man oft die logarithmierte Likelihood-Funktion.

Kann die Verwendung des Logarithmus das Klassifikationsergebnis ndern (Begrndung)?

Nein, da es nur eine monotone Funktion ist.

17. Erlutern Sie die Reduktion der Dimension von Daten mittels der PCA!

Die Reduktion der Dimension bedeutet, dass nur relevante Daten (relevante Eigenvektoren)

bercksichtigt werden. Die Relevanz der Eigenvektoren , wird durch ihre Eigenwert bestimmt.

Hohe Eigenwert hohe Relevanz.

18. Frage: Wie bestimmt/bekommt man die Transformationsmatrix der PCA?

Es werden die Eigenwerte/Eigenvektoren der Kovarianzmatrix bestimmt.

19. Welche Eigenschaft erfllen die Daten nach Anwendung der PCA?

Dekorrelation, Die Kovarianzmatrix hat nur Werte in der Diagonale, sonst ist alles 0 (symmetrisch)

20. Welche Eigenschaften erfllt die Kovarianzmatrix von dekorrelierten Daten?

Sie hat nur Werte in der Diagonale, sonst ist alles 0 (symmetrisch)

21. Erklren Sie den EM Algorithmus zum Lernen der Parameter von Gauschen Mischverteilung!

1. INITIALISIERUNG - Initialisierung der Parameter

2. E(xpectation)-STEP - Zugehrigkeitswahrscheinlichkeiten berechnen:

Es wird die Ws fr alle Daten berechnet, dass zur Verteilung gehren

3. M(aximization)-STEP - Parameter werden neu berechnet

4. EVALUIERUNG - Evaluiere log p (X| ) => wenn konvergiert, Abbruch, ansonsten springe zu Schritt 2

22. Welche Vereinfachungen mssen beim EM-Algorithmus zum Lernen von Gauschen

Mischverteilungen getroffen werden, um den k-means Algorithmus zu bekommen?

m wird weglassen

m = *I (es werden nur Distanzen gemessen) Klassifikation, harte Entscheidung (jeder Punkt kann nur zu einer Verteilung gehren)

23. Welche 3 Problemstellungen treten beim Hidden Markov Model (HMM) auf? Erklren Sie diese

kurz (u.a. Algorithmus, Einsatzgebiet,...) 3/6

1. Evaluierungsproblem - Algorithmus: Forward/Backward Algorithmus

2. Dekodierungsproblem - Algorithmus: Viterbi-Algo

3. Lernproblem / Schtzproblem - Algorithmus: EM-Algo oder Baum-Welch-Algo

24. Welches Problem ergibt sich wenn die Wortsequenz eines Satzes als i.i.d ("independent and

identically distributed") Prozess modelliert wird?

Die Daten liegen unabhangig voneinander und gleich-verteilt vor. Somit ist die Sequenzerkennung

nicht moglich, da eben bei Sequenzerkennung mit Ubergangswahrsch. gearbeitet wird.

25. Zeigen Sie ein Klassifikationsbeispiel in R2 bei dem die Dimensionsreduktion mit PCA

(Hauptkomponententransformation) negative Folgen fur die Klassifikation hat (+ Erklarung?). Warum

kann die Linear Discriminant Analysis (LDA) dafur verwendet werden?

26. Erklaren Sie kurz ein Markov Netzwerk (d.h. ein ungerichtetes graphisches Modell). Wie werden

damit Wahrscheinlichkeitsverteilung modelliert?

- undirected graph G = (Z,E) which represents factorization properties of the distribution.

- represents a joint distribution P over some set of random variables.

- Joint distribution is a product of potential functions C(ZC) over maximal cliques of G

P(Z) = 1W*CC(ZC)

27. Erklren Sie ein Bayessches Netzwerk (d.h. ein gerichtetes graphisches Model). Wie werden damit Wahrscheinlichkeitsverteilungen modeliert?

Knoten: Zufllig ausgewhlte Variablen

Kanten: Die bedingten Abhngigkeiten

Knoten die nicht verbunden sind -> voneinander unabhngig

Jedem Knoten ist eine Wahrscheinlichkeitsfunktion zugeordnet.

Jedem Knoten des Netzes ist eine bedingte Wahrscheinlichkeitsverteiung der durch ihn

reprsentierten Zufallsvariable gegeben, die Zufallsvariablen an den Elternknoten zuordnet.

28. Was versteht man unter Inferenz bei einem graphischen Modell?

Jeder Punkt gehort also zu einem bestimmen Haufungspunkt. Wir wollen bei einem gegebenen Punkt

bestimmen zu welchem Haufungspunkt dieser gehort. Dazu mussen wir alle Parameter unseres

Modells kennen. Das wird als Inferenzproblem bezeichnet. Jeder Haufungspunkt ist eine eigene

Gauverteilung.

29. Zeigen Sie ein GMM als graphisches Model (+ Erklarung und

Verbundwahrscheinlichkeitsverteilung). Welche bedingten statistischen Unabhangigkeiten von

Variablen (conditional independence) impliziert der Graph?

30. Was versteht man unter links-rechts HMM und ergodischem HMM?

- Links-Rechts Modelle: System geht mit jedem Schritt entweder zu gleichem Zustand oder zu einem

bisher noch nicht besuchten uber. Zustandsubergangsmatrix darf an keiner Stelle 0 sein.

- Ergodische Modelle: Alle Zustande konnen von jedem Zustand aus innerhalb von 1 Schritt mit p > 0

erreicht werden. Ubergangsmatrix = Obere Dreiecksmatrix.

31. Sie wollen aus einer Liste von N i.i.d. Samples die Parameter einer Gauverteilung nach der

Maximum-Likelihood-Methode schatzen. Wie gehen Sie vor? Was ist dabei die Likelihood-Funktion?

-> maximiren der log likelihood funktion

arg max ( ) -> Ableitung + 0 setzen der log likelihood funktion

Problem falls nicht i.i.d.: Falls die Daten nicht unabhngig sind, knnen wir den Schritt in der zweiten

Zeile (Summierung der logarithmischen Wahrscheinlichkeiten einzelner Samples ergibt

Gesamtwahrscheinlichkeit) NICHT durchfhren.

32. Welches Cliques and Maximal Cliques beinhaltet das folgende graphische Modell?

Clicques:

z1 - z2 z1 - z3 z2 - z3 z2 - z4 z3 - z4 z1 - z2 - z3 z2 - z3- z4

Maximal Cliques:

z1 - z2 - z3 z2 - z3 - z4

33. Sie haben mehrere HMMs mit Parametern sowie eine Beobachtungssequenz .

Wie kann man entscheiden, von welchem HMM die Sequenz erzeugt wurde? Nennen Sie eine

Answendung! Kann man den Viterbi-Algorithmus hierzu benutzen?

Wir haben ein Evaluierungsproblem/Klassifizierungsproblem -> Forward/Backward Algorithmus.

Man berechnet von jedem HMM mittels Forward/Backward Algorithmus die Wahrscheinlichkeit, dass

X von diesem HMM erzeugt wurde. Das HMM mit der hchsten Wahrscheinlichkeit hat die Sequenz

erzeugt.

Viterbi kann nicht verwendet werden, da Viterbi einen hidden State Sequenz erzeugt ,die die

Beobachtungssequenz am besten erklrt.

34. Was kann bei einem gerichteten graphischen Modell gelernt werden?

Struktur und Paramater

35. Beschreiben Sie die statistische Klassifikation! Wie kann das Bayes-Theorem dafur verwendet

werden? Erklaren Sie die einzelnen Terme und Variablen!

Verfahren basieren auf Dichteberechnungen und Wahrscheinlichkeiten. Bayes-Theorem gehort zu

uberwachtem Lernen. Eine a-priori-Wahrscheinlichkeit wird durch Erfahrungen ver andert und in eine

aposteriori-Wahrsch. uberfuhrt

Seite 50, 51, 53, 54

EW Ausarbeitung Old

Documents