Wo stehen wir? Lernverfahren: Top Down Induction of Decision Trees Begriffslernen kNN “ SVM “ Least general generalization “ Generalisierte -Subsumtion “ – RDT, RDT/dm Regellernen – STT Lernen eines Verbands Apriori Finden häufiger Mengen FPgrowth “ Winepi(zeitlich) “ K-Means Clustering
152
Embed
Wo stehen wir? Lernverfahren: Top Down Induction of Decision Trees Begriffslernen kNN SVM Least general generalization Generalisierte -Subsumtion –RDT,
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Wo stehen wir?
Lernverfahren: Top Down Induction of Decision Trees Begriffslernen kNN “ SVM “ Least general generalization “ Generalisierte -Subsumtion “– RDT, RDT/dm Regellernen– STT Lernen eines Verbands Apriori Finden häufiger Mengen FPgrowth “ Winepi (zeitlich) “ K-Means Clustering
Induktive Logische Programmierung
Bisher nur (gewichtete) Attribute – zur Beschreibung der
Beispiele (LE)– zur Beschreibung der
Begriffe (LH) Ausführbar ist das
Lernergebnis nur als Entscheidungsfunktion für das Erkennen.
Hintergrundwissen kann nur in der Vorverarbeitung z.B. durch gezieltes Sampling einbezogen werden.
Relationen und Beziehungen zwischen Relationen können nicht durch Attribute ausgedrückt werden.
Logische Programme können Entscheidungsfunktionen ausdrücken und mehr.
Auch Hintergrundwissen kann in logischen Programmen ausgedrückt werden.
Formulieren mit Attributen
Prinzipiell können Relationen bei einem endlichen Universum als Attribute formuliert werden, aber– unübersichtlich, schwer zu lesen– man kann dann nicht auf Relationen Bezug nehmen.
Gegeben positive und negative Beispiele E=E+ E- in einer Sprache LE, Hintergrundwissen B in einer Sprache LB, wobei B H nicht widersprüchlich ist,
Finde eine Hypothese H in einer Sprache LH, so dass– B, H, E sind widerspruchsfrei (Konsistenz)– B,H |= E+ (Vollständigkeit)– für kein e in E- gilt: B,H |= e (Korrektheit)
LH ist (eingeschränkte) Prädikatenlogik.
Logik
Deduktion: logische Folgerung durch Ableitung modelliert.
Hornlogik Eine Formel C ist eine Hornformel, wenn C in konjunktiver
Normalform ist und jedes Disjunktionsglied (Klausel) höchstens ein positives Literal enthält.C= (A v ¬B) (D v ¬A v ¬C) (¬A v ¬B) D ¬E (BA) (A C D) (A B f) (wD) (Ef) {A , ¬B} {D, ¬ A, ¬ C} {¬ A, ¬ B} {D} {¬E}
Eine Methode für die Ableitung in Hornlogik ist die Resolution.
Resolution Seien C1, C2 Klauseln. R ist Resolvent von C1 und
C2, wenn es ein Literal L in C1 gibt, dessen Negation in C2 ist. R=(C1-{L}) (C2-{L}).
Widerspruchsbeweis einer Aussage A durch Hinzufügen von deren Negation zu den bekannten Aussagen und Ableitung der leeren Aussage per Resolution.
C1= {A v B} C2= {B v C} C3={C}
L= B, L=B
R= {A v C} {C}
{A} {A}
Unifikation
Wenn das Literal, das herausgeschnitten werden soll, noch Variablen enthält, müssen diese erst so substituiert werden, dass L und ¬L bis auf das Vorzeichen gleich sind.
Unifikationssatz (Robinson): Jede unifizierbare Menge von Literalen besitzt auch einen allgemeinsten Unifikator.
Allgemeinster Unifikator (mgu)
Eine Substitution ist ein Unifikator einer endlichen Menge von Literalen L={L1, L2,...,Lk} gdw. L1=L2=...=Lk.
Ein Unifikator heißt allgemeinster Unifikator von L, wenn für jeden anderen Unifikator 1 von L gilt, dass es eine Substitution 2 gibt, so dass L2 = L1
{p(X), ¬q(g(X))} {¬p(f(Y))} = {X\f(Y)}
{¬q(g(f(Y)))} 1 ={X\f(Y), Y\a}
{¬q(g(f(a)))} 2 ={Y\a}
Unifikatoren
Die Unifikatoren sind nach Allgemeinheit geordnet. Dadurch sind auch unifizierbare Literale nach
Allgemeinheit geordnet:Das größte gemeinsame Unterelement (Infimum) von L1 und L2 ist L1 = L2 , wobei der mgu ist.
{L1, L2}
= j= i
L1 =L2
j
i
Unifikationsalgorithmus
Gegeben eine Menge L von Literalen.:={}while |L|>1 do
Suche in den Literalen in L von links nach rechts nach der ersten Position, an der zwei Literale sich unterscheiden.Wenn an der Position keine Variable steht, stop “nicht unifizierbar”. SonstWenn X die Variable und t der im anderen Literal beginnende Term ist,
Verband der Atome bzgl. Allgemeinheit1.Schritt: Unifikation
Sei A eine Menge von Atomen, dann gibt es für alle A, B in A ein größtes gemeinsames Unterelement G(A,B).
Wenn A oder B {} sind, ist G(A,B)={}. Wenn A all ist, ist G(A,B)=B, wenn B {} ist, ist G(A,B)=A.
Wenn A und B nicht unifizierbar sind, ist G(A,B)={}. Wenn A und B unifizierbar sind durch mgu , dann ist
G(A,B)=A=B.Nienhuys-Cheng, de Wolf (1997)
“Foundations of Inductive Logic Programmming”, Springer
Was wissen wir jetzt?
Ausdruckskraft: ILP hat als Hypothesensprache LH eine eingeschränkte Prädikatenlogik (logisches Programm).
Ausführbarkeit: Logische Programme sind ausführbar und nicht auf eine Erkennungsfunktion beschränkt. Lernergebnis kann in andere Klauseln eines Programms direkt eingebettet werden.
Die Lernaufgabe des Begriffslernens beinhaltet Hintergrundwissen.
Unifikation spezialisiert, der mgu liefert das Infimum im Verband der Atome.
Generalisierung
Wir suchen eine Hypothese, so dass H |= E+, verwenden also zum Prüfen die logische Folgerung.
Die Suche soll in einem nach Allgemeinheit geordneten Raum erfolgen.
Wann ist eine Formel allgemeiner als eine andere?– Implikation
– Subsumtion
Generalisierung: Implikation
Genereller als:Eine Hornklausel D ist genereller als eine andere, C, gdw.D C
D ist genereller als C bezüglich B, gdw.
B, D C Äquivalenz:
Sei B eine Konjunktion von Hornklauseln, dann sind die Klauseln D und C logisch äquivalent bzgl. B gdw.
B, D C und B, C D Redundanz :
Ein Literal L ist redundant in einer Klausel C bzgl. B gdw.
B: {member( X, [ X| Y])} C: {member ( X, [ Y|Z]), ¬member (X, Z), ¬member( Y, (Y |Z]). C': C \ {¬member( Y, (Y | Z])} ist äquivalent zu C bzgl. B.
B, C C' und B, C' C B beschreibt den Fall, dass das Element am Anfang
der Liste steht. C' beschreibt den Fall, dass das Element im Rest der
Liste steht. C beschreibt beide Fälle.
Nachteile
Um für eine Menge von Beispielen die Generalisierung zu finden, müssen wir die Klausel(n) finden, die alle Beispiele impliziert!Dies ist zu aufwendig! (Semi-Entscheidbarkeit der logischen Folgerung in der Prädikatenlogik.)
Der Hypothesenraum ist nicht so strukturiert, dass bei jedem Generalisierungsschritt der Ausschnitt der erreichbaren Hypothesen kleiner wird.
Also ist die Implikation als Generalisierungsbeziehung nicht geeignet.
Generalisierung: Subsumtion
Eine Hornklausel D ist genereller als eine andere, C, gdw.D subsumiert C.– Ein Literal L1 subsumiert ein Literal L2 gdw.
L1 = L2.– Eine Klausel D subsumiert eine andere, C, gdw.
D C
Die Subsumtion ist eine korrekte, aber nicht vollständige Ableitung, d.h.„C1 subsumiert C2“ |= „C1 impliziert C2“, aber nicht umgekehrt.
Nicht alles, was unter der Implikation eine Generalisierung ist,ist es auch unter der Subsumtion!B: {append ([ ], C, C)}D: {append( [A | B], C, [A | E]), append (B, C, E)}C: {append ([1,2], [3], [1,2,3])}B, D C aberD subsumiert nicht C, denn hier kann Generelleres nicht länger sein
als Generalisiertes. Die Subsumtion berücksichtigt B nicht.
echt genereller
Zwei Klauseln D und C sind äquivalent, wenn gilt:
D subsumiert C und C subsumiert D.
Eine Klausel D ist echt genereller als eine andere, C, gdw.
D subsumiert C und D ist nicht äquivalent C.
Redundanz
Ein Literal L in der Klausel C ist redundant, wenn gilt:C subsumiert C \ {L}.
Eine Klausel heißt reduziert, wenn sie keine redundanten Literale enthält.
Algorithmus, der eine Klausel C reduziert (Plotkin):1. Initialisiere D mit C.2. Finde ein Literal in D und eine Substitution , so dass
D D \{L}.Gelingt dies nicht, STOP.
3. D:= D, gehe zu 2. Die reduzierte Form einer Klausel ist eindeutig.
Beispiel Redundanz
C1: {member(X, [Y | Z ]), member(X, Z), member (X, U)}
={U/Z}
C1 C1' \ { member (X, U) }
C1 : {member(X, [Y | Z ]), member(X, Z)} =
C1 \ { member (X, U)}: {member(X, [Y | Z ]), member(X, Z)}
Vor-/ Nachteile
Vorteil:Der Hypothesenraum wird schrittweise eingeschränkt.
Nachteile:– Hintergrundwissen wird nicht berücksichtigt.
– Die Reduktion ist exponentiell in der Anzahl der Literale (alle möglichen Teilmengen der Klausel müssen gebildet werden).
Least General GeneralizationGordon Plotkin
LGG (C1, C2): Für alle Paare von Literalen L1i C1, L2i C2,
suche die mit gleichem Prädikatensymbol und gleichem Vorzeichen heraus --
bilde LGG ( L1i , L2i )
Die Generalisierung von C1 und C2 ist die Vereinigung aller generalisierten Literale.
Aus dieser Generalisierung werden alle redundanten Literale entfernt.
Generalisierung von LiteralenAnti-Unifikation
Zwei Literale mit demselben Prädikatsymbol und Vorzeichen
p(s1, ..., sn) p (t1, ...., tn) von links nach rechts durchgehen
LGG (si, ti) = X, falls si, ti konstante Terme oder Variablen ungleich X sind;
LGG (C1, C2) = {m( A, [B, C|D]), ¬m (A, [C|D]), ¬m (A, [A]).Bei jedem Literal probieren, ob es weggelassen werden kann, ohne zu generalisieren. Dieser Schritt ist leider NP-schwierig, weil der Subsumtionstest NP-schwierig ist.
und eindeutig. In einem Verband von Äquivalenzklassen von Klauseln
ist das Supremum zweier Klauseln ihr LGG.
Aufwand
Die gute Nachricht: Die Länge des LGG ist linear in der Anzahl der Selektionen. Der Aufwand der Generalisierung ist linear in der Anzahl der
Selektionen.
Die schlechte Nachricht: Hat die längste Klausel in den Beispielen m Literale und
gibt es n Klauseln als positive Beispiele, dann gibt es höchstens mn Selektionen.
Es werden also exponentiell viele Selektionen in linearer Zeit bearbeitet.
Und dann kommt die Reduktion, die für jedes Literal noch einmal den aufwändigen Subsumtionstest braucht...
Was wissen wir jetzt?
Wir wollten eine Allgemeinheitsordnung zwischen Klauseln, um Lernen als Suche zu modellieren.– Über die Implikation war die Ordnung zu aufwändig.– Über die Subsumtion ist die Allgemeinheitsordnung
gegeben. Wir haben den Verband über den Literalen (bzw.
Atomen) vervollständigt:– das Infimum zweier Atome ist über die Unifikation
gegeben– das Supremum zweier Atome ist über die Anti-
Unifikation gegeben. Der lgg ist ein Operator, der die Subsumtion für die
Generalisierung ausnutzt.
Hintergrundwissen
Einer der Vorteile von ILP sollte die Berücksichtigung von Hintergrundwissen sein.
Bisher haben wir – aus zwei positiven Beispielen deren Generalisierung
gelernt,
– entschieden, ob eine Klausel genereller als eine andere ist.
Jetzt wollen wir entscheiden, ob eine Klausel bzgl. Hinergrundwissen allgemeiner ist als eine andere.
Gegeben zwei Mengen von funktionsfreien Hornklauseln.
Zu zeigen ist, dass eine Menge genereller als die andere ist.
Vergleich aller einzelnen Klauseln der Mengen. D ist genereller als C, wenn D zu C gemacht werden
kann durch:– Variable in D durch Konstante oder andere Terme
ersetzen,– Atome dem Körper von D hinzufügen– Atom aus dem Körper von D mit B resolvieren.
Vorteile der generalisierten Subsumtion
Nicht nur Literale zählen – wer mehr hat, ist spezieller.
Berücksichtien der Verbindung zwischen Literalen durch das Hintergrundwissen.
Substitutionen sorgen dafür, dass keine unzusammenhängenden Objekte einbezogen werden.
Nachteile der generalisierten Subsumtion
Es gibt unendlich viele Generalisierungen zu einer Klausel bezüglich des Hintergrundwissens.
Es gibt auch viele für die -Subsumtion. Dort hat man aber die Reduktion, die alle diese Generalisierungen auf eine Klausel zurückführt. Ein entsprechender Schritt fehlt bei der generalisierten Subsumtion.
Wenn wirklich die logische Folgerung zwischen den Klauselkörpern geprüft werden muss, ist dies nur semi-entscheidbar.
Wenn man Rekursion verbietet und die Länge der generalisierten Klausel beschränkt, können nicht mehr unendlich viele Generalisierungen erzeugt werden.
Hintergrundwissen in Beispiele hineinrechnen und dann LGG bilden
LE: Grundfakten LB: Grundfakten Beispiele werden saturiert:
– eneu = {e, K}, wobei K die Konjunktion aller (negierten) Fakten aus dem Hintergrundwissen ist.
– ggf. werden die neuen Beispiele auf verbundene Klauseln beschränkt.
Eine Klausel heißt verbunden, wenn alle ihre Literale verbunden sind.
Ein Literal heißt verbunden, wenn mindestens einer seiner Terme verbunden ist.
Tiefe von Termen
Ein Term heißt verbunden mit der Tiefe 0, wenn er im Kopf der Klausel vorkommt. Ein Term heißt verbunden mit der Tiefe d+1, wenn ein anderer Term desselben Literals mit der Länge d verbunden ist.
oma (X, Z) :- mutter (X,Y), vater (Y, Z). X, Z haben die Tiefe 0, Y die Tiefe 1.
LH: funktionsfreie, nicht rekursive KlauselnDann ist die -Subsumtion eine korrekte und vollständige Ableitung!
Beispiel
Beispiele neu:
oma(anna, christof):- mutter (anna, bernd), vater(bernd,christof).
oma(anita, cecilie):- mutter (anita, bruno), vater (bruno, cecilie).
LGG:
oma (A, C) :- mutter (A, B), vater (B, C).
Beispiele:
oma(anna, christof).
oma(anita, cecilie).
Hintergrundwissen:
mutter(anna, bernd). vater (bernd, christof).
mutter (anita, bruno). vater (bruno, cecilie).
= generalisierte Subsumtion?
Dkopf = Ckopf
={A/anna, C/christof}
B: mutter(anna, bernd). vater (bernd, christof).
|=
¬ Ckörper : mutter(anna, bernd). vater (bernd, christof).
Ist
D: oma (A, C) :- mutter (A, B), vater (B, C).
Generalisierung von
C: oma(anna, christof).
bzgl.
B: mutter(anna, bernd). vater (bernd, christof).
? Trivialerweise: JA.
Und wenn LB Klauseln sind?
Funktionsfreie Klauseln:Jedes Argument eines Prädikats ist entweder einer Variable oder eine Konstante -- Funktionen sind ausgeschlossen.
Generative Klauseln (bereichsbeschränkt):Jede Variable im Klauselkopf kommt auch im Körper vor.oma ( X,Z) :- mutter (X,Y), vater (Y, Z).
Wenn man alle Variablen im Hintergrundwissen durch die in den Beispielen vorkommenden Konstanten ersetzt, so wird das Hintergrundwissen variablenfrei.
Wenn LB auf funktionsfreie, generative Klauseln beschränkt ist, so kann man durch einen (tiefenbeschränkten) Ableitungsprozess ebenfalls variablenfreies Hintergrundwissen herstellen.
Und dann kann man das Hintergrundwissen in die Beispiele hineinrechnen und den LGG bilden.
Beispiel
Beispiele neu:
oma(anna, christof):- mutter (anna, bernd), vater(bernd,christof).
oma(anita, cecilie) :- mutter (anita, bruno), vater (bruno, cecilie).
Beispiele:
oma(anna, christof).
oma(anita, cecilie).
Hintergrundwissen:
vater(Y,Z) :- kind (Z, Y), mann (Y).
kind(christof, bernd). mann(bernd).
kind(cecilie, bruno). mann (bruno).
SaturierungRouveirol
Sei C1 die Klausel {H1, B1} undC2 die Klausel {H2,B2}, wobei B2 subsumiert B1.
Dann ist die elementare Saturierung von C1 durch C2
Dkopf: H1 Dkörper: B1, H2
C1: oma(anna, christof):- mutter(anna, bernd), kind (christof, bernd), mann (bernd).
C2: vater(Y,Z) :- kind (Z, Y), mann (Y).
D: oma(anna, christof):- mutter (anna, bernd), kind (christof,bernd), mann(bernd), vater(bernd,christof).
Was wissen wir jetzt?
Wir kennen verschiedene Methoden, Hintergrundwissen zu berücksichtigen:– Plotkins relative Subsumtion
– Buntines generalisierte Subsumtion
– Erweiterung der Beispiele durch Hintergrund, das als Grundfakten vorliegt
– Rouveirols Saturierung Die Frage ist, ob dadurch das Lernen leichter oder
schwieriger wird?
Sprachbeschränkungen
Deterministische Klauseln (bzgl. des Hintergrundwissens):jede Variable in jedem Literal hat eine eindeutige Substitution durch das Hintergrundwissen.
Hintergrundwissen: mutter(anna, bernd). vater (bernd, christof).
hier: nur {X/ bernd, Z/christof}
Aber wenn Hintergundwissen:
mutter(anna, bernd). vater(bernd, christof). vater (bernd, christiane).
dann ist die Klausel indeterministisch, weil es zwei Substitutionen für Z gibt.
ij-deterministisch Ein Term aus dem Klauselkopf K ist mit einer Kette 0
deterministisch verbunden. Für den Klauselkörper nehmen wir an, daß die Literale nach
Verbundenheit mit dem Klauselkopf geordnet sind:
{ ¬ L1, ..., ¬ Lm, ¬ Lm+1, ..., ¬ Ln } Ein Term t aus Lm+1 ist genau dann durch eine deterministische
Kette der Länge d+1 verbunden, wenn– alle Terme im Klauselkopf und in {¬ L1, ..., ¬ Lm } verbunden
sind durch deterministische Ketten, die höchstens d lang sind,– es für jede Substitution , die K mit einem Beispiel und die
ersten Literale mit dem Hintergrundwissen unifiziert (K E+ und { {L1}, ..., {¬ Lm}} B ) höchstens eine Substitution gibt, so dass Lm+1 B.
Die minimale Länge der deterministisch verbindenden Ketten ist die deterministische Tiefe eines Terms.
Eine Klausel mit maximaler deterministischer Tiefe i und maximaler Stelligkeit j heißt ij-deterministisch.
Beispiel
oma(X, Z) :- mutter (Y, Z) , mutter (X, Y)
oma(X, Z) :- vater (Y, Z), mutter (X, Y)
oma(X, Z) :- mutter (X, Y), elternteil (Y, Z)
tante(X1, Z) :- geschwister (X1, Liste),
member (X2, Liste),
elternteil (X2, Z).
tante(X, Z) :- mutter (Y, Z), schwester (X, Y)
tante(X, Z) :- vater (Y, Z), schwester (X, Y)
12-deterministisch
indeterministisch, insofern eine Mutter mehrere Kinder haben kann und ein Kind 2 Elternteile hat.
indeterministisch, insofern als die Liste mehr als ein Element enthalten kann und X2 nicht im Kopf gebunden ist.
12-deterministisch
Lernbarkeit
Sei – LE Grundfakten mit höchstens t Termen,– LB Grundfakten mit m verschiedenen Prädikaten, die
höchstens f Terme enthalten,– LH ij-deterministische Klauseln, mit festen i und j,
so werden Hypothesen mit höchstens O( (t f m)ij) Literalen gelernt.
Wegen der Tiefenbeschränkung ist die Länge der Klauseln also nicht mehr exponentiell.
Indeterministische Klauseln sind auch bei Tiefenbeschränkung nicht polynomiell lernbar.
Beschränkte Klauseln
Eine Klausel ist beschränkt, wenn alle Variablen aus dem Klauselkörper auch im Klauselkopf vorkommen.
Spezialfall der ij-deterministischen Klauseln mit i = 0. Polynomiell lernbar, PAC-lernbar. Nicht ausdrucksstärker als Aussagenlogik.
k- lokale Klauseln
Bestehe eine Klausel D aus einem deterministischen Teil DDET und einem indeterministischen Teil DNONDET. Kopf D0 .Sei vars eine Funktion, die alle Variablen einer Klausel findet.
Als lokalen Teil LOC einer Klausel bezeichnen wir die Literale aus DNONDET, für die gilt: (vars (LOC) \ vars({D0, DDET })) vars (DNONDET \LOC) = { }
Minimaler lokaler Teil für eine Konstante kk-vlokal gdw. k ≥ | vars(LOC) \ vars({ D0, DDET }) | nicht lernbark-llokal gdw. k ≥ | LOC | lernbar
Aufwand von subsumes(D,C): O(|D|*|DDET|*|C|+|LOC1,...,LOC n|2 + n(kk*|C|))
Kietz 1997
Beispiel
geschwister(X, Z) :- mutter (Y1, X), mutter (Y1, Z),
mutter (Y1, Y2),
elter (Y2, Y3).
vars ( {D0, DDET }): X, Y1, Z
vars ( DNONDET ): Y1, Y2, Y3
LOC 1: mutter (Y1, Y2)
LOC 2: elter (Y2, Y3)
LOC 3: mutter (Y1, Y2), elter (Y2, Y3)
Geschwister, deren Mutter Oma ist:
(vars (LOC) \ vars ( {D0, DDET })) vars ( DNONDET \LOC) = { }
• selbst wenn es kein Hintergrundwissen gibt oder LE und LB Grundfakten sind.
Die Konsistenzprobleme(subsumes, k-llokal, funktionsfrei, kein B) und(subsumes, k-llokal, Grundfakten, Grundfakten)sind polynomiell lösbar.
Auch die entsprechenden Begrifflernprobleme sind polynomiell lösbar.
Das ist die maximale Erweiterung der Ausagenlogik, die wir noch effizient lernen können. Kietz 1997
Was wissen wir jetzt?
Lernen in Prädikatenlogik ist zu schwierig, insbesondere mit Hintergrundwissen. Deshalb wird der Formalismus eingeschränkt:– LH als ij-deterministische Klauseln macht das in
polynomiellem Aufwand (hoch i hoch j!) lernbar.
– LH als k-llokale (indeterministische) Klauseln macht das Lernen in polynomiellem Aufwand lernbar.
Der Haken ist das Testen der Hypothesen, also der deduktive Teil...
ILP Lernaufgabe Regellernen
Gegeben eine Menge von Beobachtungen E in LE und Hintergrundwissen B in LB
gesucht wird eine Menge von Regeln H in LH, für die gilt:
1. Gültigkeit: M+(B E) M(H) H gilt in allen minimalen Modellen von E und B.
2. Notwendigkeit: für alle h in H gibt es ein e in E, so dass B,E\{e} |=/= e und B, E\{e}, h |= e.
3. Vollständigkeit: falls h in LH Bedingungen 1. und 2. erfüllt, so gilt H |= h
4. Minimalität: es gibt keine echte Teilmenge in H, die die Bedingungen 1.-3. erfüllt.
(minimales) Modell
Gegeben eine Interpretation I für eine Menge von Formeln F.
I ist ein Modell von F, M (F), wenn alle Formeln von F in I wahr sind.
Wenn es keine Interpretation I' gibt, mit I' I und I' ist ein Modell von F,
ist I ein minimales Modell für F, geschrieben M+(F).
Deklarative Beschränkung von LH
Da wir wissen, dass die Lernbarkeit durch die Hypothesensprache LH gegeben ist, können wir diese auch anwendungsspezifisch einschränken.
Das System RDT (Kietz, Wrobel 1991, aufbauend auf Emde, Habel, Rollinger 1983) verwendet Regelschemata, deren Instanzen Regeln sind – und die werden auf Gültigkeit in den Beobachtungen (eingeschänkt auf Grundfakten) geprüft.Q(X)P1(X,Y) wird mit ={Q\q,P1\p} zuq(X)p(X,Y) und mit ={X\a, Y\b} zuq(a)p(a,b)
Ordnung der Regelschemata
Wenn es eine Instanziierung R eines Regelschemas R gibt und R ist genereller als R’, dann gibt es eine Instanziierung R’ und subsumes(R, R’). Dabei darf keine unterschiedlichen Prädikate zusammenfallen lassen!
kann generalisieren ( nur spezialisieren): P1(X,Y), P2(X,Y)=P1(X,Y) bei ={P2\p, P1\p}
Ordnung der Literale im Regelschema über die Tiefe der Terme.
Suche in der Hierarchie der Regelschemata
Testen:gilt für alle Grundfakten, die -Instanzen eines -instanziierten Regelschemas sind, – dass die Konklusion (Kopf) nicht negiert vorkommt?– dass für alle Prämissen das dem Kopf entsprechende
– Wenn es negierte Konklusionen gibt, wird das Regelschema spezialisiert.
– Wenn nicht hinreichend viele -Instanzen gefunden werden (Benutzerkriterium) wird nicht spezialisiert.
RDT Algorithmus
rdt(q/arity)
RS:={ }, aktuell:={ }
für alle Regelschemata R
if Kopf C von R unifizierbar ist mit q/arity,
RS:= RS R, ={C\q}
while RS =/= {}
nimm generellstes R aus RS
instanziiere und teste R: “R gilt” v “R zu allgemein”
entferne alle Spezialisierungen für “R gilt” aus RS,
füge alle echt verschiedenen Spezialisierungen von “R zu allgemein” RS hinzu
Kietz 1997
RDT Regeln lernen
Regeln Fakten
Sortenverbandabstrahierter Regelgraph
Regelmodelle
r(a,b)p (b)q (a)
r(X,Y) & p(Y) --> q(X)
--> Q(X)P(X) --> Q(X) R(X,Y)--> Q(X)
R(X,Y) & P(Y) --> Q(X)
{R/r,P/p,Q/q}
{X/a, Y/b}
(Emde, Kietz, Klingspor, Morik, Wrobel)
Eigenschaften von RDT
Durch die Regelschemata wird der Hypothesenraum drastisch verringert (z.B. von 1040 auf 105).
Dabei kann der Benutzer angeben, welche Art von Regeln ihn interessieren.
Durch die Allgemeinheitsordnung können große Teile es Hypothesenraums sicher herausgeschnitten werden.
Innerhalb des gegebenen Hypothesenraums ist RDT vollständig: es findet alle generellsten gültigen Regeln!
KDD mit ILP und direktem Datenbankzugriff
Rule Discovery Tool (Kietz, Wrobel 1992) RDT/dm (Brockhausen,Morik 1997) Gültigkeit von Regeln wird mithilfe von SQL-Anfragen
über der Datenbank getestet. Akzeptanzkriterium wird vom Benutzer gegeben. Abbildung der Datenbankrelationen und –attribute auf
Prädikate wird unter Einbeziehung des Benutzers halbautomatisch durchgeführt.
Akzeptanzkriterien
Bausteine:
pos(H): Prämisse und Konklusion kommen gemeinsam vor
neg(H): Prämisse und Negation der Konklusion kommen gemeinsam vor
concl(H): Konklusion kommt vor
pred(H): Konklusionsprädikat ist anwendbar, kommt aber nicht vor
unc(H): Instanzen der Konklusion, die von Prämisse nicht abgedeckt sind
total(H): pos(H) neg(H) pred(H)
absolut
Bayes: a posteriori > a priori
8,0)(
)(
)(
)( Hconcl
Hneg
Hconcl
Hpos
)()(
)(
)()(
)(
HpredHconcl
Hconcl
HnegHpos
Hpos
Abbildungen von Datenbank auf Prädikate (alternativ)
Jede Datenbanktabelle ist ein Prädikat, ihre Attribute sind die Argumente.customer (Person, Income, Customer)
Auswahl interessanter Attribute:Vorauswahl bei sehr vielen Datenbankattributen– Jedes Datenbank-Attribut wird ein Prädikat, der Schlüssel
und der Attributwert die Argumente.income (Person, Income), ..., wife (Husband, Wife )
– Jeder Wert eines Datenbankattributs wird Prädikat, Schlüssel das Argumentcustomer (Person), inc_10_20 (Person)Sinnvolle Intervalle in Attributwerten vorher finden!
Größe des Hypothesenraums
r Anzahl der Regelschemata
p Anzahl der Prädikate
k max. Anzahl von Literalen in einem Regelschema
Bei Konstantenlernen:
c Anzahl der zu lernenden Konstanten
i max. Anzahl von Werten für eine Konstante
Je nach gewählter Abbildung ist die Größe des Hypothesenraums sehr unterschiedlich.
r p ic k
Experimente
Daimler Benz AG
2,6 Gigabyte Datenbank: alle Fahrzeuge und ihre Garantiefälle
40 Tabellen mit je bis zu 40 Attributen
1. Unterschiedlich großer Hypothesenraum:
4913 ≤ Größe ≥ 2,8 E 41
2. Unterschiedlich großer Datenbankauszug:
max. 23 Tabellen
max. 750 000 Tupel
3. Verwendung von Hintergrundwissen
4. Vergleich mit anderen ILP-Verfahren
Verwendung von Hintergrundwissen
Gegeben:elektronisch verfügbares Werkstattbuch für PKW mit allen Fahrzeugteilen
Finde:Gruppen von Teilen, die räumlich, funktional oder bzgl. ihrer Schadensart zusammenhängen
Umformen der Datei in einstellige Fakten, wobei das Fahrzeugteil als Argument, der Zusammenhang als Prädikat ausgedrückt ist
Verwendung von STT (Kietz 1989) zum Finden einer Subsumtionshierachie
Klassen von Fahrzeugteilen der Datenbank hinzufügen
Hinreichende Bedingungen für einen Begriff:z.B. für verkehrsSuende(E)autoGeparkt(E,P),parkverbot(P)verkehrsSuende(E)autoGeparkt(E,P),parkuhr(P),unbezahlt(E) verkehrsSuende(E)
11 der 15 Filme abgedeckt durch 6 Regeln.Übrig bleiben: Das Boot, Lord of the rings, Shrek, Det Sjunde inseglet.
Finden lokaler Muster in 1 Schritt
Akzeptanzkriterium a la Binomialtest
Größe von ext(h) bzgl. Gesamtgröße der Beispiele gewichtet das Verhältnis zwischen der Verteilung in h und der Gesamtverteilung.
Wieder wurden h6 und h7 gefunden -- und die „Amerikanischen Regeln“(h1 – h5).
Aber es wurden auch noch viel mehr Regeln gefunden, die dieselben Beispiele abdecken.
Verschärft man das Kriterium hat man nur h1 – h5.
05.0)()(
)()()(
negconclconcl
concl
hneghpos
hpos
negconclconcl
hneghpos
2-stufiges Vorgehen sinnvoll
Globales Muster lernen, bezüglich dessen die interessanten Beispiele bestimmen
Lokale Muster an Hand der interessanten Beispiele finden.
Analoges Vorgehen auch für SVM erfolgreich (Rüping 2006)
Was wissen wir jetzt?
Der Hypothesenraum kann vom Benutzer auf Schemata für Regeln eingeschränkt werden.
RDT ordnet Regelschemata nach Allgemeinheit. Daher ist bei Breitensuche sicheres Pruning möglich. Innerhalb des Hypothesenraums findet RDT alle allgemeinsten
gültigen Regeln. Sie können den Algorithmus skizzieren. Die Regellernaufgabe kann zur Begriffslernaufabe spezialisiert
werden: ein Prädikat in der Konklusion, entsprechendes Akzeptanzkriterium.
Sie kennen einige Anwendungen und wissen, was lokale Modelle sind.
Verband der Sorten lernen
Jede Argumentstelle eines Prädikats hat bestimmte -Instanzen in der Menge der Grundfakten. Dies ist die Extension der Sorte dieses Arguments.
Logik mit Sorten schließt schon in der Signatur der Logik unsinnige Belegungen aus.– Üblich für die Unterstützung von Benutzern bei der Eingabe
neuer Fakten, z.B. geldstrafe(<Ereignis>,<Betrag>)– RDT verendet die Sorten, um keine Instaniierung einer
Prädikatsvariable zu versuchen, die nicht kompatibel mit den Sorten ist.
STT lernt die Sorten aus vorhandenen Fakten!
Kietz 1988
Deklaration von Sorten
hinweis(<symptom>,<krankheit>)
ursache(<krankheit>,<symptom>)
lindern(<wirkstoff>,<symptom>)
enthalten(<pille>,<wirkstoff>)
Verband der Sorten
Extension der Sorten für Argumente Äquivalenzklassen der Sorten Extension der Äquivalenzklassen Partielle Ordnung zwischen Äquivalenzklassen der
Sorten Schnittsorten Verband der Äquivalenzklassen
Extension der Sorten
Sei SN eine Menge verschiedener Sortennamen und T die Menge aller Terme in der Menge F der Grundfakten, dann istext: SN Pot(T) mit ti ext(arg_sort(i,p)) gdw.
(p(t1 ,..., ti ,...,tn) F v p(t1 ,..., ti ,...,tn) F)
Zwei Sortennamen sind äquivalent, wenn ihre Extension gleich ist:
Sei SN/ die Menge aller Klasse von Sorten gleicher Extension und CN eine Menge eindeutiger Klassennamen. Dann seicn: SN/ CN die bijektive Funktion, die den Äquivalenzklassen eindeutige Namen zuordnet.
Die Funktion class: SN CN gibt für jede Sorte ihre Klasse an.
212121 )(:, sextsextssSNss
212121 )(:, sssclasssclassSNss
Extension der Äquivalenzklassen
Die Funktion cext: CNPot(T) ordnet den Klassen die Extension zu, so dass cext(class(s))=ext(s).
SN/ all
[A,B] [D]
[C] {}
CN
C1
C2 C3
C4 C6
{a,b,c,d}
{a,b,c} {a,b,d} {a,c,d} {b,c,d}
{a,b} {a,c} {a,d} {b,c} {b,d} {c,d}
{a} {b} {c} {d}
{ }
SOR Pot(T)
cn cext
Hierarchie
Die Teilmengenbeziehung von Pot(T) wird durch cext an CN weitergegeben.
c1 c2 cext(c1) cext(c2)
– supers: CN Pot(CN) mitsupers(c1):={c CN | c1 c c c1 }
– subs: CN Pot(CN)subs(c1):={c CN | c c1 c c1 }
Supremum (c, c1): Infimum(supers(c1) supers(c))
Das Infimum gibt es evtl. nicht. Es kann aber durch Schnittmengen gebildet werden.
Schnittsorten
Schnittsorten IS sind alle Paare von Klassen, die sich extensional überschneiden, aber nicht in Teilmengenbeziehung stehen. IS=
Die Extension von IS ist iext: IS Pot(T)
Aufwändig: bei n Klassen gibt es womöglich 2n IS. ISN := SN IS
21122121, ccextccextccccCNcc
212121 ,:, ccextccextcciextIScc
Verband der Äquivalenzklassen
Jetzt haben wir einen Ausschnitt aus T, der selbst wieder ein Verband ist!
SOR Pot(T) mit– {} SOR, T SOR, s SN: ext(s) SOR
– m1, m2 SOR m1 m2 SOR
– es gibt keine anderen m SOR.
Infimum m1,m2: m1 m2
Supremum von m1,m2: Infimum(supers(m1) supers(m2))
MOBAL: Werkbank für Erwerb, Verarbeitung und Revision von Wissen beinhaltet RDT, CLT, STT, KRT und eine Inferenzmaschine mit 4wertiger Logik.Katharina Morik, Stefan Wrobel, Jörg-Uwe Kietz, Werner Emde (1993) “Knowledge Acquisition nd Machine Learning”, Academic Press
STT ist fast schon das Erlernen von Description Logic aus Grundfakten – entsprechend weiterentwickelt zu Kluster.Katharina Morik, Jörg-Uwe Kietz (1994) “A Polynomial Approach to the Constructive Induction of Structural Knowledge”, Machine Learning Journal
Was wissen wir jetzt?
STT lernt aus Grundfakten einen Verband von Sorten. Damit es ein Verband wird müssen – Äquivalenzklassen für Sorten gleicher Extension und
– Schnittsorten zwischen Äquivlenzklassen
gebildet werden. STT zeigt zugrunde liegende Begriffstrukturen. Das
ist günstig für Benutzer – und für RDT. STT entspricht einem inkrementellen,
beschreibenden Begriffslerner, kann zum Lernen von Ontologien (DL) leicht erweitert werden.
Repräsentation Lernen Planung und Planausführung Experimente
Repräsentation
Lernen
Planung Wahrnehmung
Repräsentation
Relationale Repräsentation
Nähe zu menschlicher Kommunikation Zeitrelationen Kombination verschiedener Sensoren Integration von Hintergrundwissen Integration von Wahrnehmung und Handlung Hierarchie von Repräsentationen
Zeitrelationen
Zeitpunkt: Eintreffen eines Sensorwertes Zeitintervall: Gültigkeit des Sensormerkmals Relationen zwischen, direkt nach, während... abstrakte Zeitpunkte -- Flexibilität keine zusätzliche Kontrollschleife bei der
Notwendig, wenn nicht mehr abgeleitet werden kann, dass man am Tag die Sonne sieht, nicht aber in der Nacht .
Ausgelöst durch Widersprüche zwischen Eingaben und Modell.
Behandelt durch Stefan Wrobels minimale Basisrevision (Wrobel 1994).
Die revidierten Modelle werden klassifiziert – welchem kindlichen Erklärungstyp entsprechen sie?
Mögliche Theorieentwicklungen
FaktenModell 1
FaktenModell 2
FaktenModell 3
FaktenModell 4
FaktenModell 5
FaktenModell 6
FaktenModell 7
FaktenModell 8
FaktenModell 9
Kosten der Übergänge
FaktenModell 1
FaktenModell 2
FaktenModell 3
FaktenModell 4
FaktenModell 9
Mehr als 4 Eingaben(6 – 9)
Jede Eingabe erfordert gleich viel Aktionen (Fakten löschen bzw. neu ableiten).
Nie mehr als 4 Eingaben erforderlich
FaktenModell 1
FaktenModell 2
FaktenModell 3
FaktenModell 4
FaktenModell 5
FaktenModell 6
FaktenModell 7
FaktenModell 8
FaktenModell 9
Moral von der Geschicht’
Magic number 4? Falsche Zwischenmodelle erleichtern das Lernen. Die Wahl eines günstigen (falschen)
Ausgangsmodells erleichtert das Lernen. Kognitionswissenschaft und Komplexitätstheorie
haben mehr gemeinsam, als man denkt!
Was wissen Sie jetzt?
Lernverfahren: Top Down Induction of Decision Trees Begriffslernen kNN “ SVM “ Least general generalization “ Generalisierte -Subsumtion “ RDT, RDT/dm Regellernen STT Lernen eines Verbands Apriori Finden häufiger Mengen FPgrowth “ Winepi (zeitlich) “ K-Means Clustering
Paradigmen der Lernbarkeit (Lerntheorie) Lernen als Suche Induktive Logische Programmierung PAC-learning Statistische Lerntheorie
Zu jedem Punkt gibt es noch viel mehr!
Was wissen Sie jetzt? cont’ed
AnwendungenBodeneignung für PflanzenAbverkauf von Artikeln Therapie in der Intensivmedizin (on-line monitoring) TextklassifikationGarantiefälle von Autos FilmbewertungenMobile RoboterKognitionswissenschaft