94 3. Klassifikation Inhalt dieses Kapitels 3.1 Einleitung Das Klassifikationsproblem, Bewertung von Klassifikatoren 3.2 Bayes-Klassifikatoren Optimaler.

1

3. Klassifikation

Inhalt dieses Kapitels3.1 Einleitung

Das Klassifikationsproblem, Bewertung von Klassifikatoren

3.2 Bayes-Klassifikatoren

Optimaler Bayes-Klassifikator, Naiver Bayes-Klassifikator, Anwendungen

3.3 Nächste-Nachbarn-KlassifikatorenGrundbegriffe, Parameterwahl, Anwendungen

3.4 Entscheidungsbaum-Klassifikatoren

Grundbegriffe, Splitstrategien, Overfitting, Pruning von Entscheidungsbäumen

3.5 Support Vector Machinesmaximal trennende Hyperebenen, strukturelle Risiko Minierung,

Kernel Maschienen

2

3.1 Einleitung

Das Klassifikationsproblem

• Gegeben: eine Menge O von Objekten des Formats (o1, . . ., od)

mit Attributen Ai, 1 i d, und Klassenzugehörigkeit ciciC = c1 ck}

• Gesucht: die Klassenzugehörigkeit für Objekte aus D \ O

ein Klassifikator K : D C

• Abgrenzung zum Clustering

Klassifikation: Klassen apriori bekannt Clustering: Klassen werden erst gesucht

• Verwandtes Problem: Vorhersage (Prediction)

gesucht ist der Wert für ein numerisches Attribut

Methode z.B. Regression

3

Einleitung

Beispiel

Einfacher Klassifikator

if Alter > 50 then Risikoklasse = Niedrig;if Alter 50 and Autotyp=LKW then Risikoklasse=Niedrig;if Alter 50 and Autotyp LKW

then Risikoklasse = Hoch.

ID Alter Autotyp Risiko1 23 Familie hoch2 17 Sport hoch3 43 Sport hoch4 68 Familie niedrig5 32 LKW niedrig

4

Der Prozess der Klassifikation

Konstruktion des Modells

Trainings-daten

NAME RANK YEARS TENURED

Mike Assistant Prof 3 noMary Assistant Prof 7 yesBill Professor 2 yesJim Associate Prof 7 yesDave Assistant Prof 6 noAnne Associate Prof 3 no

Klassifikations-Algorithmus

if rank = ‘professor’ or years > 6

then tenured = ‘yes’

Klassifikator

5

Der Prozess der Klassifikation

Anwendung des Modells

manchmal: keine Klassifikation unbekannter Daten sondern „nur“ besseres Verständnis der Daten

KlassifikatorUnbekannte Daten

(Jeff, Professor, 4)

Tenured?

yes

6

Bewertung von Klassifikatoren

GrundbegriffeSei K ein Klassifikator und sei TR O die Trainingsmenge. O D ist die Menge der Objekte, bei denen die Klassenzugehörigkeit bereits bekannt ist .

Problem der Bewertung:

• gewünscht ist gute Performanz auf ganz D.

• Klassifikator ist für TR optimiert.

• Test auf TR erzeugt in der Regel viel bessere Ergebnisse, als auf D\TR.

Daher kein realistisches Bild der Performanz auf D.

Overfitting

7


Train-and-Test

Bewertung ohne Overfitting durch Aufteilen von O in :

• Trainingsmenge TR

zum Lernen des Klassifikators (Konstruktion des Modells)

• Testmenge TE

zum Bewerten des Klassifikators

8


Grundbegriffe

• Train-and-Test nicht anwendbar, wenn nur wenige Objekte mit bekannter

Klassenzugehörigkeit

• Stattdessen: m-fache Überkreuz-Validierung (m-fold Cross-Validation)

• m-fache Überkreuz-Validierung

- teile die Menge O in m gleich große Teilmengen

- verwende jeweils m1 Teilmengen zum Training

und die verbleibende Teilmenge zur Bewertung

- kombiniere die erhaltenen m Klassifikationsfehler

(und die m gefundenen Modelle!)

9

1 fold:1 a2 b

3 cTestmenge

Klassifikator

Trainingsmenge

Modell und Klassifikationsfehler

1 a2 3 b cSei n = 3 : Menge aller Daten mit Klasseniformation die zur Verfügung stehen

2 fold:1 a3 c

2 bTestmenge

Klassifikator

Trainingsmenge


3 fold:2 b3 c

1 aTestmenge

Klassifikator

Trainingsmenge


Gesamtklassifikations-fehler


10


Ergebnis des Tests : Konfusionsmatrix (confusion matrix)

Klasse1 Klasse 2 Klasse 3 Klasse 4 other

Klasse 1

Klasse 2

Klasse 3

Klasse 4

other

35 1 1

0

3

1

3

31

1

1

50

10

1 9

1 4

1

1

5

2

210

15 13

klassifiziert als ...

tats

ächl

iche

Kla

sse

...

Aus der Konfusionsmatrix lassen sich folgende Kennzahlen berechnen :Accuracy, Classification Error, Precision und Recall.

korrekt klassifizierte Objekte

11


Gütemaße für Klassifikatoren• Sei K ein Klassifikator, TR O die Trainingsmenge, TE O die Testmenge. Bezeichne C(o) die tatsächliche Klasse eines Objekts o.

• Klassifikationsgenauigkeit (classification accuracy) von K auf TE:

• Tatsächlicher Klassifikationsfehler (true classification error)

• Beobachteter Klassifikationsfehler (apparent classification error)

G Ko TE K o C o

TETE ( )|{ | ( ) ( )}|

| |

F Ko TE K o C o

TETE ( )|{ | ( ) ( )}|

| |

F Ko TR K o C o

TRTR ( )|{ | ( ) ( )}|

| |

12


Gütemaße für Klassifikatoren• Precision : Anzahl der Objekte aus einer Klasse, die richtig erkannt wurden. Sei Ti= {o TE| C(o) = i}, dann ist

||

|)}()(|{|),(Re

i

iTE C

oCoKCoiKcall

||

|)}()(|{|),(Pr

i

iTE T

oCoKToiKecision

• Recall : Anzahl der zu einer Klasse zugeordneten Objekte, die richtig erkannt wurden. Sei Ci= {o TE| K(o) = i}, dann ist

13


weitere Gütemaße für Klassifikatoren

•Kompaktheit des Modells

z.B. Größe eines Entscheidungsbaums

• Interpretierbarkeit des Modells

wieviel Einsichten vermittelt das Modell dem Benutzer?

• Effizienz

der Konstruktion des Modells

der Anwendung des Modells

• Skalierbarkeit für große Datenmengenfür sekundärspeicherresidente Daten

• Robustheit

gegenüber Rauschen und fehlenden Werten

14

3.2 Bayes-Klassifikatoren

Was sind Bayes-Klassifikatoren?

• Statistische Klassifikatoren• Vorhersage der Class-Membership-Probability für verschiedene Klassen

• Beruht auf dem Satz von Bayes

• Verschiedene Verfahren:• Naiver Bayes-Klassifikator:

Relativ einfach zu implementierendes Verfahren, beruhend auf Annahme der Unabhängigkeit zwischen den einzelnen Merkmalen (deshalb naiv)

• Bayes-Netzwerk (Bayesian Belief Network):Mögliche Abhängigkeiten zwischen Merkmalen werden in Form eines Graphen modelliert, der entweder durch den Benutzer vorgegeben wird oder durch das System selbst „gelernt“ wird.

15

Bayes-Klassifikatoren

Grundlagen• Regeln und Fakten zur Klassifikation werden mit Hilfe des Satzes

von Bayes als bedingte Wahrscheinlichkeiten formuliert

• A-Priori-Wahrscheinlichkeiten modellieren Faktenwissen über die Häufigkeit einer Klasse und das Auftreten von Merkmalen, z.B.

• 20% der Objekte sind Äpfel

• 30% sind Orangen

• 50% der Objekte sind rund

• 40% haben Farbe orange

• Bedingte Wahrscheinlichkeiten („A-Posteriori“) modellieren Zusammenhänge zwischen Klassen und Merkmalen:

• 100% der Orangen sind rund: P (rund | Orange) = 100%

• 100% der Äpfel sind rund: P (rund | Apfel) = 100%

• 90% der Orangen sind orange: P (orange | Orange) = 90%

A-Priori Wahrsch. f. Klassenzugehörigk.

A-Priori Merkmalshäufigkeit

16


• Bei einem gegebenen Merkmals-Vektor M lässt sich die Wahrscheinlichkeit der Klassenzugehörigkeit zu Klasse C mit dem Satz von Bayes ermitteln:

• Im Beispiel: Wahrscheinlichkeit, dass ein oranges Objekt eine Orange ist:

Die entsprechenden Wahrscheinlichkeiten werden aus den Trainingsdaten geschätzt

)(

)()|()|(

MP

CPCMPMCP

675.04.0

3.09.0

)orange(

)Orange()Orange|orange()orange|Orange(

P

PPP

17


• Kontinuierliche metrische Merkmale können……diskret approximiert werden:

P ( 9.0 < Durchmesser 9.5 | Orange) = 10% P ( 9.5 < Durchmesser 10.0 | Orange) = 30% P (10.0 < Durchmesser 10.5 | Orange) = 30% P (10.5 < Durchmesser 11.0 | Orange) = 10% P (11.0 < Durchmesser 11.5 | Orange) = 5%

…oder als Wahrscheinlichkeits-Dichtefunktion definiert werden: Orangen haben einen Durchmesser von 10±1 cm: p (Durchmesser | Orange) = N (10, 1)

(meist unter Annahme der Normalverteilung)

12

34

5

R1

0

5

10

15

20

25

30

18

Bayes-Klassifikation

• Der Bayes-Klassifikator schätzt die Wahrscheinlichkeit der Klassenzugehörigkeit eines Merkmalsvektors

• Zur eindeutigen Zuordnung eines Klassen-Labels geht man meist nach dem Prinzip „Maximum Likelihood“ vor:

• Da P(M) bei allen Ci gleich ist, ist nur das Produkt zu optimieren

• Beispiel:• P(Apfel | M) = 32%

• P(Orange | M) = 32% C = Kiwi

• P(Kiwi | M) = 36%

)()|(argmax)(

)()|(argmax)|( argmax ii

C

ii

Ci

CCPCMP

MP

CPCMPMCPC

iii

19

Naive Bayes-Klassifikation

MotivationBei hochdimensionalen Merkmalsvektoren schwierige Schätzung der bedingten Wahrscheinlichkeiten P(M | C) und damit P(C | M):

• M besteht aus vielen einzelnen Komponenten, die UND-verknüpft sind:

• Bei d verschiedenen Merkmalen und jeweils r verschiedenen Werten ergeben sich rd verschiedene Merkmalskombinationen

Probleme:• Die Wahrscheinlichkeiten lassen sich nicht mehr abspeichern

• Man bräuchte >> rd Trainingsdatensätze, um die Wahrscheinlichkeit der einzelnen Merkmalskombinationen überhaupt ermitteln zu können

...)(

)()|...(...)|(

21

2121

MMP

CPCMMPMMCP

20


Lösung dieses Problems beim naiven Bayes-Klassifikator:

Annahme der Bedingten Unabhängigkeitd.h. bei jeder einzelnen Klasse werden die Merkmale so behandelt als wären sie voneinander statistisch unabhängig:

P (M1 M2 | C) = P (M1 | C) P (M2 | C)

Was bedeutet dies?

Klasse=Orange:

M1 = Durchmesser

M2 =

Gew

icht

• Annahme kann falsch sein• Dies führt nicht unbedingt dazu,

dass die Klassifikation versagt• Aber schlechte Leistung, wenn…

• alle Merkmale bei mehrerenKlassen etwa gleich verteilt sind

• Unterschiede nur in „Relationen“der Merkmale zueinander

21


Damit ist die Wahrscheinlichkeit der Zugehörigkeit zu Klasse Ci:

Auch hier ist der Nenner für alle Klassen gleich, so dass nur der Zähler zu maximieren ist:

...)(

)|...()(...)|(

21

2121

MMP

CMMPCPMMCP ii

i

k jkj

jiji

CMP

CMPCP

)|(

)|()(

j

ijiC

CMPCPCi

)}|()({argmax

22

Bayes-Netzwerke

Grundbegriffe

• Graph mit Knoten = Zufallsvariable und Kante = bedingte Abhängigkeit

• Jede Zufallsvariable ist bei gegebenen Werten für die Vorgänger-Variablen

bedingt unabhängig von allen Zufallsvariablen, die keine Nachfolger sind.

• Für jeden Knoten (Zufallsvariable): Tabelle der bedingten Wahrscheinlichkeiten

• Trainieren eines Bayes-Netzwerkes

– bei gegebener Netzwerk-Struktur und allen bekannten Zufallsvariablen

– bei gegebener Netzwerk-Struktur und teilweise unbekannten

Zufallsvariablen

– bei apriori unbekannter Netzwerk-Struktur

23

Bayes-Netzwerke

Beispiel

bei gegebenen Werten für FamilyHistory und Smoker liefert der Wert für Emhysema keine zusätzliche Information über LungCancer

FamilyHistory

LungCancer

PositiveXRay

Smoker

Emphysema

Dyspnea

FH

,S

FH

, S

F

H,S

F

H,

S

LC

~LC

0.8

0.2

0.5

0.5

0.7

0.3

0.1

0.9

bedingte Wahrscheinlichkeiten für LungCancer

24

Klassifikation von Texten

Grundlagen

• Anwendungen (z.B. [Craven et al. 1999], [Chakrabarti, Dom & Indyk 1998]) Filterung von Emails Klassifikation von Webseiten

• Vokabular T = {t1, . . ., td} von relevanten Termen

• Repräsentation eines Textdokuments o = (o1, . . ., od)

• oi: Häufigkeit des Auftretens von ti in o

• Methode

– Auswahl der relevanten Terme– Berechnung der Termhäufigkeiten– Konstruktion des Modells– Anwendung des Modells zur Klassifikation neuer Dokumente

25


Auswahl der Terme

• Reduktion der auftretenden Worte auf Grundformen

Stemming

Abhängigkeit von der Sprache der Texte

• Einwort- oder Mehrwort-Terme?

• Elimination von Stoppwörtern

• weitere Reduktion der Anzahl der Terme

bis zu 100 000 Terme

26


Reduktion der Anzahl der Terme

• optimaler Ansatz

O(2AnzahlTerme) Teilmengen

optimale Teilmenge läßt sich nicht effizient bestimmen

• Greedy-Ansatz

bewerte jeden Terms einzeln

welchen „Informationsgewinn“ liefert er in Bezug auf die Separation

der gegebenen Klassen?

sortiere die Terme nach dieser Maßzahl absteigend

wähle die ersten d Terme als Attribute aus

27



• Anwendung des naiven Bayes-Klassifikators

aber: Häufigkeiten der verschiedenen Terme typischerweise korreliert

• wichtigste Aufgabe: Schätzung der P(oi| c) aus den Trainingsdokumenten

• Generierung eines Dokuments o der Klasse c mit n Termen

Bernoulli-Experiment:

n mal eine Münze werfen,

die für jeden Term ti eine Seite besitzt

• Wahrscheinlichkeit, daß ti nach oben kommt

f(ti, c): relative Häufigkeit des Terms ti in der Klasse c

28



• Dokument als „Bag of Words“

Reihenfolge der Terme spielt keine Rolle

• Bestimmung der P(oi| c) mit Hilfe der Bimonialverteilung

• Problem

– Term ti tritt in keinem Trainingsdokument der Klasse c auf

– ti tritt in einem zu klassifizierenden Dokument o auf

– in o treten aber auch „wichtige“ Terme der Klasse c auf

vermeide P(oi| c) = 0

Glättung der beobachteten Häufigkeiten

29


Experimentelle Untersuchung [Craven et al. 1999]

• Trainingsmenge: 4127 Webseiten von Informatik-Instituten

• Klassen: department, faculty, staff, student, research project, course, other

• 4-fache Überkreuz-Validierung

drei der Universitäten zum Training, vierte Universität zum Test

• Zusammenfassung der Ergebnisse

- Klassifikationsgenauigkeit 70% bis 80 % für die meisten Klassen

- Klassifikationsgenauigkeit 9% für Klasse staff

aber 80% korrekt in Oberklasse person

- schlechte Klassifikationsgenauigkeit für Klasse other

große Varianz der Dokumente dieser Klasse

30

Interpretation von Rasterbildern

Motivation

• automatische Interpretation von d Rasterbildern eines bestimmten Gebiets

für jedes Pixel ein d-dimensionaler Grauwertvektor (o1, . . ., od)

• verschiedene Oberflächenbeschaffenheiten der Erde besitzen jeweils ein

charakteristisches Reflexions- und Emissionsverhalten

• • • •• • • •• • • •• • • •

• • • •• • • •• • • •• • • •

Erdoberfläche Feature-Raum

Band 1

Band 216.5 22.020.018.0

8

12

10

•

(12),(17.5)

(8.5),(18.7)

•• •

•

••• •

••

••••1 1 1 21 1 2 23 2 3 23 3 3 3

Cluster 1 Cluster 2

Cluster 3

Ackerland

Wasser

Stadt

31


Grundlagen

• Anwendung des optimalen Bayes-Klassifikators

• Schätzung der P(o | c) ohne Annahme der bedingten Unabhängigkeit

• Annahme einer d-dimensionalen Normalverteilung für die Grauwertvektoren

einer Klasse

Entscheidungsflächen

Wasser

Stadt

Ackerland

Wahrscheinlichkeitder Klassen-zugehörigkeit

32


Methode

• Zu schätzen aus den Trainingsdaten

i: d-dimensionaler Mittelwertvektor aller Feature-Vektoren der Klasse ci

i: Kovarianzmatrix der Klasse ci

• Probleme der Entscheidungsregel

- Likelihood für die gewählte

Klasse sehr klein

- Likelihood für mehrere

Klassen ähnlich

d d

unklassifizierte Regionen

Grenzwert

33


Diskussion

+ hohe Klassifikationsgenauigkeit in vielen Anwendungen

+ Inkrementalität Klassifikator kann einfach an neue Trainingsobjekte adaptiert werden

+ Einbezug von Anwendungswissen

- Anwendbarkeit

die erforderlichen bedingten Wahrscheinlichkeiten sind oft unbekannt

- Ineffizienz bei sehr vielen Attributen insbesondere Bayes-Netzwerke

94 3. Klassifikation Inhalt dieses Kapitels 3.1 Einleitung Das Klassifikationsproblem, Bewertung von Klassifikatoren 3.2 Bayes-Klassifikatoren Optimaler.

Documents