Vorlesung Data Mining Data Mining mit KXEN Überblick und Übungsvorbereitung Gunar Fiedler CAU Kiel, Institut für Informatik Arbeitsgruppe Technologie der Informationssysteme Kontakt: [email protected]
Vorlesung Data MiningData Mining mit KXEN
Überblick und Übungsvorbereitung
Gunar FiedlerCAU Kiel, Institut für InformatikArbeitsgruppe Technologie der InformationssystemeKontakt: [email protected]
Data Mining 2
Übersicht
• Motivationsbeispiel• Der Data-Mining-Prozess• KXEN Analytic Framework
–Komponenten–Nutzung
Data Mining 3
Motivationsbeispiel - Zensusdaten
…
1Female2042divorcedSome-college
Private31
1Male0separatedDoctoratePrivate25
0Female5178marriedBachelorsFederal-gov
40
1Female14084neverMastersPrivate38
1Male0marries-civ-spouse
HS-gradSelf-emp-not-inc
50
0Male2174neverBachelorsState-gov39
class…sexcaptial-gain
martial-statuseducationworkclassage
insgesamt 14 Merkmale und ca. 50.000 Beobachtungen
Data Mining 4
Motivationsbeispiel
Terminologie:
Wert Ausprägung, Wert
AttributVariable, Merkmal
TupelBeobachtung (observation)
TabelleData Set, Tabelle
im Vergleich zu Datenbankenim Data Mining
Typischerweise werden nur Daten in einer einzelnen „flachen“ Tabelle bearbeitet
Data Mining 5
Motivationsbeispiel
Typische Problemstellungen
- Kann man unbekannte Werte von Variablen aus den Werten der anderen Variablen bestimmen?
?Female5178marriedBachelorsFederal-gov
40
1Male14084neverMastersPrivate38
1Male0narries-civ-spouse
HS-gradSelf-emp-not-inc
50
0Male2174neverBachelorsState-gov39
class…sexcaptial-gain
martial-status
educationworkclassage
Data Mining 6
Motivationsbeispiel
Typische Problemstellungen
- Kann man unbekannte Werte von Variablen aus den Werten der anderen Variablen bestimmen? Klassifikation
?Female5178marriedBachelorsFederal-gov
40
1Female14084neverMastersPrivate38
1Male0marries-civ-spouse
HS-gradSelf-emp-not-inc
50
0Male2174neverBachelorsState-gov39
class…sexcaptial-gain
martial-status
educationworkclassage
Data Mining 7
Motivationsbeispiel
Typische Problemstellungen
- Lassen sich „ähnliche“ Beobachtungen in Gruppen einteilen? Wenn ja,was heißt in diesem Zusammenhang „ähnlich“?
0Female5178marriedBachelorsFederal-gov
40
1Female14084neverMastersPrivate38
1Male0marries-civ-spouse
HS-gradSelf-emp-not-inc
50
0Male2174neverBachelorsState-gov39
class…sexcaptial-gain
martial-status
educationworkclassage
Data Mining 8
Motivationsbeispiel
Typische Problemstellungen
- Lassen sich „ähnliche“ Beobachtungen in Gruppen einteilen? Wenn ja,was heißt in diesem Zusammenhang „ähnlich“? Clusterbildung
0Female5178marriedBachelorsFederal-gov
40
1Female14084neverMastersPrivate38
1Male0marries-civ-spouse
HS-gradSelf-emp-not-inc
50
0Male2174neverBachelorsState-gov39
class…sexcaptial-gain
martial-status
educationworkclassage
Data Mining 9
Motivationsbeispiel
Typische Problemstellungen
- Gibt es Zusammenhänge zwischen den Variablen, z.B. „martial-status = never captial-gain > 0“ ?
0Female5178marriedBachelorsFederal-gov
40
1Male14084neverMastersPrivate38
1Male0marries-civ-spouse
HS-gradSelf-emp-not-inc
50
0Male2174neverBachelorsState-gov39
class…sexcaptial-gain
martial-status
educationworkclassage
Data Mining 10
Motivationsbeispiel
Typische Problemstellungen
- Gibt es Zusammenhänge zwischen den Variablen, z.B. „martial-status = never captial-gain > 0“ ?
Assoziationsregeln
0Female5178marriedBachelorsFederal-gov
40
1Male14084neverMastersPrivate38
1Male0marries-civ-spouse
HS-gradSelf-emp-not-inc
50
0Male2174neverBachelorsState-gov39
class…sexcaptial-gain
martial-status
educationworkclassage
Data Mining 11
Motivationsbeispiel
Typische Problemstellungen
- Wie werden sich die Werte entwickeln, z.B.„Ist die Person hinter Beobachtung 4 in 5 Jahren immer noch verheiratet?“
0Female5178marriedBachelorsFederal-gov
40
1Male14084neverMastersPrivate38
1Male0marries-civ-spouse
HS-gradSelf-emp-not-inc
50
0Male2174neverBachelorsState-gov39
class…sexcaptial-gain
martial-status
educationworkclassage
Data Mining 12
Motivationsbeispiel
Typische Problemstellungen
- Wie werden sich die Werte entwickeln, z.B.„Ist die Person hinter Beobachtung 4 in 5 Jahren immer noch verheiratet?“ Zeitreihenanalysen
0Female5178marriedBachelorsFederal-gov
40
1Male14084neverMastersPrivate38
1Male0marries-civ-spouse
HS-gradSelf-emp-not-inc
50
0Male2174neverBachelorsState-gov39
class…sexcaptial-gain
martial-status
educationworkclassage
Data Mining 13
Motivationsbeispiel
„Ist die Person hinter Beobachtung 4 in 5 Jahren immer noch verheiratet?“
Datenbasis „Zielaussage“
Data Mining 14
Motivationsbeispiel
„Ist die Person hinter Beobachtung 4 in 5 Jahren immer noch verheiratet?“
?
Datenbasis „Zielaussage“
Data Mining 15
Übersicht
• Motivationsbeispiel• Der Data-Mining-Prozess• KXEN Analytic Framework
–Komponenten–Nutzung
Data Mining 16
Der Data-Mining-Prozess
Datenvorbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Data Mining 17
Der Data-Mining-Prozess
Datenvorbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Data Mining 18
Der Data-Mining-Prozess
Datenvorbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Datenzugriff
Datenmanipulation
Datenvorbereitung
Data Mining 19
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Datenzugriff
Datenmanipulation
Datenvorbereitung
- physischer Zugriff (relationale Datenbank, CSV,XML, SAS, …)
ODBC
Data Mining 20
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Datenzugriff
Datenmanipulation
Datenvorbereitung
-physischer Zugriff (relationale Datenbank, CSV,XML, SAS, …)
- Sichtenbildung
ODBC
Data Mining 21
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Datenzugriff
Datenmanipulation
Datenvorbereitung
- Zusammenfassen von Tupelnin Beobachtungen(Aggregation)
- Zusammenführen von Datenquellen
- Schemabereinigung- irreführende Beziehungen- triviale Beziehungen
- Schema-Annotation- Datentypen- Speicherformate- Variablen-Rollen
Data Mining 22
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Datenzugriff
Datenmanipulation
Datenvorbereitung
- Datenbereinigung- fehlende Werte- falsche Werte- konsistente Kodierung- Normierung,
Skalentransformation
Data Mining 23
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Der generelle Ablauf
- Aufteilung der Daten in- Trainingsdaten- Validierungsdaten- Testdaten
Data Mining 24
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Der generelle Ablauf
- Aufteilung der Daten in- Trainingsdaten- Validierungsdaten- Testdaten
- Algorithmus-Auswahl
Data Mining 25
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Der generelle Ablauf
- Aufteilung der Daten in- Trainingsdaten- Validierungsdaten- Testdaten
- Algorithmus-Auswahl- Erstellung einer Menge von Modellen aus den
Trainingsdaten
Data Mining 26
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Der generelle Ablauf
- Aufteilung der Daten in- Trainingsdaten- Validierungsdaten- Testdaten
- Algorithmus-Auswahl- Erstellung einer Menge von Modellen aus den
Trainingsdaten- Validierung der Modelle gegen die
Validierungsdaten und Auswahl des besten Modells
Data Mining 27
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Der generelle Ablauf
- Aufteilung der Daten in- Trainingsdaten- Validierungsdaten- Testdaten
- Algorithmus-Auswahl- Erstellung einer Menge von Modellen aus den
Trainingsdaten- Validierung der Modelle gegen die
Validierungsdaten und Auswahl des besten Modells- Test der „Performanz“ mit Hilfe der Testdaten und
ggf. Wiederholung des Prozesses
Data Mining 28
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Der generelle Ablauf
- Aufteilung der Daten in- Trainingsdaten- Validierungsdaten- Testdaten
- Algorithmus-Auswahl- Erstellung einer Menge von Modellen aus den
Trainingsdaten- Validierung der Modelle gegen die
Validierungsdaten und Auswahl des besten Modells- Test der „Performanz“ mit Hilfe der Testdaten und
ggf. Wiederholung des Prozesses
Modell?Welche Algorithmen?Performanz eines Modells?
Data Mining 29
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
„Modelle“ im Data Mining:
Im Data Mining beschreibt ein Modell die Zusammenhänge zwischen Eingabedaten („explanatory variables“) und Ausgabedaten („target variables“). Modelle dienen der Vorhersage oder der Beschreibung von Phänomenen.
“All models are wrong but some are useful”(George E.P. Box)
Data Mining 30
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Einige Algorithmen(-Klassen):
-Klassifikation- Regression
Data Mining 31
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Einige Algorithmen(-Klassen):
-Klassifikation- Regression- Entscheidungsbäume
martial-status = never
education = bachelor
j
j n
class=0 class=1
Workclass = Federal-gov
n
class=0 class=1
j n
Data Mining 32
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Einige Algorithmen(-Klassen):
-Klassifikation- Regression- Entscheidungsbäume- Entscheidungsregeln
Data Mining 33
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Einige Algorithmen(-Klassen):
-Klassifikation- Regression- Entscheidungsbäume- Entscheidungsregeln- Neuronale Netze (Perzeptrone,
Backpropagation-Netze)
Data Mining 34
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Einige Algorithmen(-Klassen):
-Klassifikation- Regression- Entscheidungsbäume - Entscheidungsregeln- Neuronale Netze (Perzeptrone,
Backpropagation-Netze)- Clusterbildung
Data Mining 35
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Einige Algorithmen(-Klassen):
-Klassifikation- Regression- Entscheidungsbäume (z.B. ID3, C4.5)- Entscheidungsregeln- Neuronale Netze (Perzeptrone,
Backpropagation-Netze)- Clusterbildung
- z.B. k-Means, neuronale Netze (SOMs)- Assoziationsregeln
- z.B A-priori- …
Data Mining 36
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Performanz eines Modells:
- Aussagekraft, d.h. gute Vorhersage bzw. Beschreibung der Zielvariablen( KXEN: Quality Indicator)
- Robustheit, d.h. gleich gute Ergebnisse auf neuen Datenmengen(KXEN: Robustness Indicator)
Data Mining 37
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Modellbereitstellung:
- Überprüfen der Performanz eines Modells durch Modellkurven,z.B. Gains Chart
Data Mining 38
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Modellbereitstellung:
- Überprüfen der Performanz eines Modells durch Modellkurven
- Extraktion von Modellparametern- Simulation des Modells
Data Mining 39
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Modellbereitstellung:
- Überprüfen der Performanz eines Modells durch Modellkurven,
- Extraktion von Modellparametern- Simulation des Modells- Generierung von Code (z.B. Klassifikatoren)
Data Mining 40
Der Data-Mining-Prozess
Datenaufbereitung
Modellbildung
Modell-bereitstellung
Anwendung
Anwendung:
- Nutzung des Modells im Geschäftsbetrieb,- Kreditwürdigkeit neuer Kunden- Einblendung adaptiver Werbung- …
Data Mining 41
Übersicht
• Motivationsbeispiel• Der Data-Mining-Prozess• KXEN Analytic Framework
–Komponenten–Nutzung
Data Mining 42
KXEN
- Kommerzielle Data Mining Suite- Klassifikation auf der Basis eines
proprietären Regressionsalgorithmus- Clusterbildung- Zeitreihenanalysen- Assoziationsregeln („Warenkorbanalysen“)
Data Mining 43
KXEN
Data Mining 44
KXEN
Demonstration:
- „Gezielte Werbung“: Klassifikation von Personen