1
Datenbanksysteme SS 2007
Frank Köster(Oliver Vornberger)
Institut für InformatikUniversität Osnabrück
Kapitel 16:Data Warehousing und
Knowledge Discovery in Databases
Folie 31
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
DEFINITIONEN & BEGRIFFEKlassische Definition – Data Warehouse (DWH)
"A Data Warehouse is a subject-oriented, integrated, non-volatile, and time-variant collection of data in support of managements decisions“(W.H. Inmon, 1996)
Definition – Data-Warehouse-System (DWS)
“Data-Warehouse-System: Informationssystem, bestehend aus allenfür den Data-Warehouse-Prozess notwendigen Komponenten. Dies sinddie Komponenten des Datenbeschaffungsbereichs und der Analyse, der Metadatenmanager, der Data-Warehouse-Manager und die Daten-banken Basisdatenbank, Data Warehouse und Repositorium.“(Bauer und Günzel, 2001 – Seite 516)
Weitere Begriffe im DWS-Kontext
Data Warehousing bezeichnet den Data-Warehouse-Prozess … d.h. einen Prozess, der alle Schritte der Datenbewirtschaftung und Daten-nutzung im DWS-Kontext umfasst.
Folie 41
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur(vgl. Bauer und Günzel, 2001)
Daten-quelle(n)
Arbeits-bereich
Basis-datenbank
DataWarehouse
Extraktion Laden Laden Analyse
Transformation
Monitor
Data-Warehouse-Manager
Metadaten-Manager
RepositoryDatenflussKontrollfluss Data-Warehouse-System
Bereich der Datenbeschaffung
Folie 51
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Phasen des Data Warehousing I/II (vgl. Bauer und Günzel, 2001)
Daten-quelle(n)
Arbeits-bereich
Basis-datenbank
DataWarehouse
Extraktion Laden Laden Analyse
Transformation
Monitor
Data-Warehouse-Manager
Metadaten-Manager
RepositoryDatenflussKontrollfluss Data-Warehouse-System
Bereich der Datenbeschaffung
1
2
3
4 5 6
Folie 61
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Phasen des Data Warehousing II/II(vgl. Bauer und Günzel, 2001)
→ Phasen des Data Warehousing
1. Überwachung der Quellen auf Änderungen durch Monitore
2. Kopieren der relevanten Daten mittels Extraktion in (temporären)Arbeitsbereich
3. Transformation der Daten im Arbeitsbereich (Datenbereinigung bzw. Qualitässicherung und Datenintegration)
4. Kopieren der Daten in integrierte Basisdatenbank als Grundlage für verschiedene Analysen und Quelle für DWH(s)
5. Laden der Daten in DWH(s)
6. Analyse – Operationen auf Daten des DWH
Data-Warehouse-Manager… zur Steuerung …
Folie 71
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Data-Warehouse-Manager I/II(vgl. Bauer und Günzel, 2001)
→ Zentrale Komponente eines Data-Warehouse-Systems
→ Initiierung, Steuerung und Überwachung der einzelnen Prozesse –Kontrolle des Data-Warehouse-Prozesses
→ Initiierung des Datenbeschaffungsprozesses→ in regelm. Zeitabständen – jede Nacht, am Wochenende …→ bei Änderung einer Quelle→ auf explizites Verlangen eines Nutzers (Administrators)
Starten der Datenextraktion aus Quellen und Übertragung in Arbeitsbereich des DWS – später mehr hierzu
→ Nach Auslösen des Ladeprozesses→ Überwachung der weiteren Schritte (Bereinigung, Integration …)→ Koordination der Verarbeitungsreihenfolge
Folie 81
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Data-Warehouse-Manager II/II(vgl. Bauer und Günzel, 2001)
→ Im Fehlerfall→ Dokumentation von Fehlern→ Wiederanlaufmechanismen
→ Zugriff auf Metadaten aus dem Repository zur …→ Steuerung der Abläufe → insbesondere Parametrisierung involvierter Komponenten
Daten-quelle(n)
Arbeits-bereich
Basis-datenbank
DataWarehouse
Extraktion Laden Laden Analyse
Transformation
Monitor
Data-Warehouse-Manager
Bereich der Datenbeschaffung
Folie 91
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Datenquellen I/III(vgl. Bauer und Günzel, 2001)
→ Lieferanten der Daten und Metadaten für das DWH
→ gehören selbst nicht zum DWS
→ können intern (z.B. die Daten eines Unternehmens selbst) oder extern (z.B. Internet) sein
→ heterogen bzgl. Struktur, Inhalt und Schnittstellen – DBen, Dateien, Internet-Seiten ...)
→ Auswahl der Quellen und die Qualität der Daten ist von besonderer Bedeutung
→ Faktoren bei der Quellenauswahl (siehe hierzu auch Folien 11 und 12)
→ Zweck des DWH bzw. DWS
→ Qualität der Quelldaten ...
→ Verfügbarkeit – rechtlich, organisatorisch, technisch, zeitlich
→ Preis für Erwerb der Daten – speziell bei externen Quellen
Folie 101
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Datenquellen II/III(vgl. Bauer und Günzel, 2001)
→ Kriterien zur Klassifikation von Datenquellen
→ Herkunft – intern, extern
→ Zeit – aktuell, historisch
→ Nutzungsebene – Primärdaten, Metadaten
→ Inhalt – Zahl, Zeichenkette, Grafik, Dokument …
→ Darstellung – numerisch, alphanumerisch, BLOB
→ Kodierung – Sprache und Zeichensatz
→ Vertrauen – Grad der Vertrauens- bzw. Glaubwürdigkeit
→ Qualität (siehe folgende Folie)
Folie 111
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Datenquellen III/III(vgl. Bauer und Günzel, 2001)
→ Kriterien zur Einschätzung der Datenqualität einer Quelle
→ Konsistenz – Widerspruchsfreiheit
→ Korrektheit – Übereinstimmung mit der Realität
→ Vollständigkeit – z.B. keine fehlenden Werte oder Attribute
→ Genauigkeit – z.B. Anzahl der Nachkommastellen
→ Granularität – z.B. tages- oder monatsgenaue Daten
→ Zuverlässigkeit & Glaubwürdigkeit – wie etwa Nachvollziehbar-keit der Entstehung der Daten oder die Vertrauenswürdigkeit eines Datenlieferanten
→ Verständlichkeit – insbesondere inhaltliche und technische bzw.strukturelle Adäquatheit für jeweilige Zielgruppe
→ Verwendbarkeit/Relevanz – z.B. geeignetes Format oder Zweckdienlichkeit
Folie 121
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Monitor I/I(vgl. Bauer und Günzel, 2001)
→ Beobachtung der Datenquellen
→ Ziel: Entdecken von Veränderungen in einer Datenquelle
→ i.Allg. existiert ein Monitor pro Quelle
Folie 131
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Arbeitsbereich I/I(vgl. Bauer und Günzel, 2001)
→ Der Arbeitsbereich ist die zentrale Datenhaltungskomponente des Datenbeschaffungsbereichs (engl. staging area)
→ Temporärer Zwischenspeicher zur Datentransformation
→ „Schnittstelle“ zwischen Quellen und Basisdatenbank bzw. DWH
→ Ausführung von (zeitaufwändigen) Transformationen direkt im Arbeitsbereich – bspw. Transformationenen zur Datenbereinigung und -Integration etc.
→ Laden der transformierten Daten in das DWH bzw. die Basis-datenbank erst nach erfolgreichem Abschluss ihrer Trans-formation
→ Vorteile für Quellen und DWH
→ keine Beeinflussung der Quellen oder des DWH→ keine Übernahme fehlerbehafteter Daten in das DWH
Folie 141
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Extraktion I/I(vgl. Bauer und Günzel, 2001)
→ Übertragen der gewünschten Quelldaten in den Arbeitsbereich des DWS
→ Aktivierung ist abhängig von Monitoring-Strategie
→ periodisch→ Ereignisgesteuert – z.B. nach gewisser Anzahl von Änderungen→ auf Anfrage eines Nutzers (Administrators) ⇒ sofortige Extraktion
→ Technische Grundlage
→ Nutzung von Standardschnittstellen zu operativen Systemen – z.B. vielfach ODBC oder JDBC
→ Berücksichtigt i.Allg. Ausnahmebehandlung zur Fortsetzung im Fehlerfall
Folie 151
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Transformation I/I(vgl. Bauer und Günzel, 2001)
→ Vorbereitung und Anpassung der Daten für das Laden in dieBasisdatenbank bzw. das DWH
→ inhaltlich: Daten-/Instanzintegration und Bereinigung→ strukturell: Schemaintegration
→ Überführung aller Daten in ein einheitliches Format
→ Datentypen, Datumsangaben, Maßeinheiten, Kodierungen, Kombination bzw. Separierung von Attributwerten etc.
→ Beseitigung von Verunreinigungen (engl. Data Cleaning bzw. Data Cleansing)
→ fehlerhafte oder fehlende Werte, Redundanzen und veraltete Werte identifizieren und handhaben
Qualitätsanforderungen
Schemaanforderungen
Datenmigration
Datenbereinigung
Folie 161
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Laden I/I(vgl. Bauer und Günzel, 2001)
→ Übertragung der transformierten Daten in die Basisdatenbank bzw. das DWH
→ Technische Grundlage
→ Nutzung spezieller Ladewerkzeuge –z.B. SQL*Loader von Oralce) → Bulk-Laden
→ Historisierung beachten! → Änderung in Quellen dürfen DWH-Daten nicht überschreiben – stattdessen zusätzliches Abspeichern
⇒ Schnelles Laden großer Datenmengen.
Folie 171
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Basisdatenbank I/I(vgl. Bauer und Günzel, 2001)
→ Integrierte (physische) Datenbasis für verschiedene Analysen und Quelle für DWH(s); Basisdatenbank ist i.d.R. allgemeiner als DWH(s)
→ unabhängig von konkreten Analysen – d.h. insbesondere zu-meist noch keine analysespezifische Datenaufbereitung
→ Versorgung des DWH (auch mehrerer DWHs) mit qualitätsge-sicherten Daten
Anmerkung: Die Basisdatenbank …→ wird in der Praxis oft weggelassen→ entspricht Operational Data Store (ODS) nach W.H. Inmon
Folie 181
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Data Warehouse I/I(vgl. Bauer und Günzel, 2001)
→ DB für Analysezwecke – orientiert sich in Struktur und Inhalt an Analysebedürfnissen
→ Grundlage sind oft (relationale) DBen
→ Besonderheiten:→ Unterstützung des Ladeprozesses in das DWH
→ Schnelles Laden großer Datenmengen → Massenlader (bulk loader) unter Umgehung von Mehrbenutzerkoordination und Konsistenzprüfung
→ Unterstützung des Analyseprozesses→ Effiziente Anfrageverarbeitung durch spezielle Indexstrukturen
und Caching
Folie 191
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Analyse I/I(vgl. Bauer und Günzel, 2001)
→ Nutzung der gesammelten Daten in Datenanalysewerkzeugen. Hier-bei kommen i.d.R. verschiedene Werkzeuge zur Navigation/Sichtungund Analyse mit verschiedenen Techniken zum Einsatz.
→ Analysemöglichkeiten sind vielfältig
→ „einfache“ Operationen (z.B. Aggregation, Visualisierung) ... oder auch
→ Online Analytical Processing … oder
→ komplexe statistische Untersuchungen ... bis hin zu
→ Knowledge Discovery in Databases → Data Mining
→ Aufbereitung der Ergebnisse für Weiterverarbeitung bzw. Weitergabe
→ Grundlage für Entscheidungen – praktische Umsetzung
Folie 201
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Analyse – Data Marts I/II (vgl. Bauer und Günzel, 2001)
Daten-quelle(n)
Arbeits-bereich
Basis-datenbank
DataWarehouse
Extraktion Laden Laden Analyse
Transformation
Monitor
Data-Warehouse-Manager
Metadaten-Manager
RepositoryDatenflussKontrollfluss Data-Warehouse-System
Bereich der DatenbeschaffungData Marts
Folie 211
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Analyse – Data Marts II/II(vgl. Bauer und Günzel, 2001)
→ Konzept zur Bereitstellung einer inhaltlich beschränkten Sicht auf das DWH – z.B. für eine spezielle Abteilung
→ Zweck der Data Marts?
→ Eigenständigkeit, Datenschutz, Lastverteilung, Datenvolumen etc.
Folie 221
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Repository I/I(vgl. Bauer und Günzel, 2001)
→ Speicherung der Metadaten des DWS erfolgt in Repository des DWS
→ Metadaten
→ Informationen, die Aufbau, Wartung und Administration des DWS vereinfachen/ermöglichen und eine wichtige Grund-lage zur Informationsgewinnung darstellen
→ Beispiele
→ Datenbankschemata→ Zugriffsrechte, → Prozessinformationen (Verarbeitungsschritte & Parameter) → ...
Folie 231
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur – Metadaten Manager I/I(vgl. Bauer und Günzel, 2001)
→ Der Metadatenmanager ist die zentrale Instanz im Kontext des Meta-datenmanagements
→ Steuerung der Metadatenverwaltung→ Zugriff, Anfrage und Navigation→ Versions- und Konfigurationsverwaltung
→ Varianten
→ allgemein einsetzbar: erweiterbares Basisschema→ werkzeugspezifisch: fester Teil von Werkzeugen→ Beobachtung in der Praxis: Häufig Integration von bzw. Aus-
tausch zwischen dezentralen Metadatenmanagementsystemen notwendig
Folie 241
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTURDWS-Referenzarchitektur(vgl. Bauer und Günzel, 2001)
Daten-quelle(n)
Arbeits-bereich
Basis-datenbank
DataWarehouse
Extraktion Laden Laden Analyse
Transformation
Monitor
Data-Warehouse-Manager
Metadaten-Manager
RepositoryDatenflussKontrollfluss Data-Warehouse-System
Bereich der Datenbeschaffung
… Wie sieht der Weg zur Instantiierung eines solchen Systems aus?Bleibt die Frage …
Folie 251
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
REFERENZARCHITEKTUR
DWS-Entwurf – … natürlich ein Prozess
sieht vertraut aus
Niemals unterschätzen!
Folie 261
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
KDD & DATA MININGBegriffe – KDD & Data Mining
→ Knowledge Discovery in Databases
„KDD is the nontrivial process of identifying valid, novel, potentiallyuseful, and ultimately understandable patterns in data.“(Fayyad et al., 1996)
→ KDD ist ein interaktiver, mehrstufiger und iterativer Prozess. Ein zentraler Prozessschritt ist dabei das Data Mining.
„[...] data mining – the automatic creation of a model that identifies rele-vant trends and patterns in source data [...]“(Woods & Kyral, 1997)
→ Was sind essentielle Aspekte des Data Mining?→ automatische Verfahren (Interaktion → KDD) → Algorithmen “erkunden“ große/komplexe Datenmengen
→ Data Mining
Folie 271
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
KDD & DATA MININGDer Prozess des KDD – Was passiert bei der Exploration von Daten?
„Exploratory data analysis is detective
work – numerical detec-tive work – or counting
detective work – orgraphical detective
work“(Tukey, 1977)
Folie 281
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
KDD & DATA MININGDer Prozess des KDD – Was passiert bei der Exploration von Daten?
→ Frage • Design • Erhebung • Analyse • Antwort→ Routine-Erhebungen→ Ungeplante Erhebungen
→ Frage • Design • Erhebung • Analyse • Antwort→ Routine-Erhebungen→ Ungeplante Erhebungen
A
D
I
M
W
Folie 291
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
KDD & DATA MININGDer Prozess des KDD – Was passiert bei der Exploration von Daten?
→ Frage • Design • Erhebung • Analyse • Antwort→ Routine-Erhebungen→ Ungeplante Erhebungen
→ Frage • Design • Erhebung • Analyse • Antwort→ Routine-Erhebungen→ Ungeplante Erhebungen
Unterstützung durch Data Mining …⇒ Möglichkeiten …⇒ Limitierungen … !
A
D
I
M
W
Folie 301
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
KDD & DATA MININGDer Prozess des KDD
(vgl. Fayyad et al., 1996)
Folie 311
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
KDD & DATA MINING Der Prozess des KDD – nach Fayyad (1996) I/II
→ Selection
In dieser Phase wird in Abhängigkeit vom Anwendungsgebiet und der dort untersuchten Fragestellung der im weiteren Verlauf betrachtete Datenausschnitt definiert.
→ Preprocessing
Die zuvor selektierten Daten werden bspw. bzgl. ihrer Konsistenz geprüft und ggf. die Konsistenz innerhalb der Daten hergestellt. Hierbei werden z.B. uneinheitliche Dar-stellungen gleicher Inhalte von Datenfeldern auf eine für die weitere Analyse verbind-liche Darstellung vereinheitlicht.
→ Transformation
Die in den vorangegangenen Phasen selektierten und vorverarbeiteten Daten werden in dieser Phase nach Bedarf, d.h. insbesondere unter Berücksichtigung der untersuchten Fragestellung, aggregiert/verdichtet oder in anderer Form transformiert. Hierdurch wird das im anschließenden Data-Mining-Schritt zu verarbeitende Datenvolumen i.d.R. re-duziert und vor dem Hintergrund eines Anwendungsgebiets oder einer anzuwendenden Data-Mining-Technik notwendig erscheinende Transformationsschritte müssen nicht erst während der automatischen Analyse berechnet werden.
Folie 321
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
KDD & DATA MINING Der Prozess des KDD – nach Fayyad (1996) II/II
→ Data Mining
Die transformierten Daten werden durch eine adäquat erscheinende Data-Mining-Technik automatisch nach Mustern, charakteristischen Phänomenen oder Zusam-menhängen durchsucht.
→ Interpretation
Die Resultate des Data Mining werden in dieser Phase vor dem Hintergrund des Anwendungsgebiets und der hierin untersuchten Fragestellung ausgewertet und bzgl. ihrer Qualität bewertet. Hierbei sind insbesondere Triviale oder bzgl. ihrer Plausibilität bzw. Validität fragwürdige Resultate zu identifizieren, wie sie etwa aufgrund von Artefakten oder Fehlern innerhalb der Daten (i.Allg. mangelhafteDatenqualität) entstehen können. Hierbei ist größte Sorgfalt geboten, um Arte-fakte oder Datenfehler nicht etwa fälschlicherweise als Phänomene anzusehen.
Folie 331
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
KDD – PROZESSMODELLE KDD – verschiedene Prozessmodelle (Übersicht)
Task Analysis Preprocessing Data Mining Postprocessing Deployment
Business Understanding
DataUnderstand-
ingModelling Evaluation DeploymentCRISP-DM Data
Preparation
Selection Pre-processing Data Mining Interpretation/
Evaluationnach Fayyad Trans-formation
Task Discovery DataDiscovery Model Development Data
Analysisnach Brachman &
AnandData
CleaningOutput
Generation
AufgabendefinitionAuswahl
derDM-Verf.
Interpretation/Evaluation
nach Hippner &Wilde
Daten-aufbereitung
Anwendung derErgebnisse
Auswahlder
Daten
Anwend.der
DM-Verf.
AssessSEMMA Modify/ManageExplore ModelSample
Ergebnisverarbeitungnach Wrobel et al. Extraktion/Integration
Verfahrensan-wendung
Anwendungverstehen
DM-Verfahren wählen
Analysedaten erzeugenUmsetzung
IBM IntelligentMiner Auswählen Data Mining InterpretierenUmsetzen
Folie 341
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
KDD – PROZESSMODELLE KDD – verschiedene Prozessmodelle (grundlegende Phasen)
→ Task Analysis
→ Ziel-/Aufgabendefinition und Festlegung des Analyserahmens
→ Preprocessing
→ Datensammlung, -aufbereitung und -transformation
→ Data Mining
→ Kern-Phase der Datenanalyse (⇒ „Modellextraktion“)
→ Postprocessing
→ Ergebnissaufbereitung und Evaluation
→ Deployment
→ Umsetzung/Anwendung der Ergebnisse
Task Analysis, Preprocessing und Postprocessing sind in der Praxis i.d.R. sehr Zeitaufwändig!
Folie 351
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
DATA MINING – BEISPIEL I/IIAssoziationsanalyse I/III
→ Ziel der Assoziationsanalyse ist die Analyse sachlicher Verbundbe-ziehungen in Transaktionen – z.B. beim Produkterwerb im Super-markt
→ Resultat sind Aussagen der folgenden Form …
In 40% der Fälle, in denen Zahnbürsten gekauft werden, wird auch Zahnpasta gekauft. Beide Produkte kommen in 0,8% aller Transaktionen vor.
→ Praktische Fragestellung: Welche Produkte werden oft zusammen gekauft.
→ Cross-Selling: Wer A kauft, kauft vielfach auch B …
⇒ Anhaltspunkte zur Optimierung der Präsentation bzw. Platzierung von Produkten in Werbematerialien oder Supermarktregalen.
⇒ Gezieltes Bewerben von Käufern bestimmter Produkte.
Folie 361
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
DATA MINING – BEISPIEL I/II Assoziationsanalyse II/III
→ Schema einer Assoziationsregel …
Prämisse(unabhängige Variable)
„wenn A“
Konsequenz(abhängige Variable)
„dann B“Konfidenz Support
strukturelle Komponenten Gütekriterien
wenn Zahnbürste, dann Zahnpasta Konfidenz = 40%; Support = 0,8%; Lift = 20
Assoziationsregel
Lift
Support := Anteil an gesamten TransaktionenKonfidenz := Quotient aus Anzahl der Transaktionen die im wenn-dann-Part enthalten sind
und der Anzahl der Transaktionen aus der wenn-BedingungLift := Konfidenz / „erwartete Konfidenz“
(siehe nächste Folie)
Folie 371
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
DATA MINING – BEISPIEL I/II Assoziationsanalyse III/III
→ Vollständiges Beispiel …
→ Eine Supermarkt habe 100.000 Transaktionen an den Kassen, wobei 2.000 davon das Produkt Zahnbürste enthiel-ten, darunter 800, die ebenfalls das Produkt Zahnpasta ent-hielten.
→ Assoziationsregel (ohne Einschätzung der Güte): Wenn Zahnbürste gekauft wird, dann wird auch Zahnpasta ge-kauft.
→ Support: 800/100.000 = 0,008 (also 0,8%)→ Konfidenz: 800/2.000 = 0,4 (also 40%)→ Produkt Zahnpasta taucht in insgesamt 2.000 Transaktionen
auf. Somit ist die erwartete Konfidenz: 2.000/100.000 = 0.02→ Lift: 0,4 / 0,02 = 20
Folie 381
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
DATA MINING – BEISPIEL II/II Klassifikation I/V
→ Ziel der Klassifikation ist es, Objekte einer Eingabedatenmenge zu(vorgegebenen) Klassen zuzuordnen. Die Merkmale der Objekte müssen hierzu bei der Klassifikation derart in einen „funktionalen Zusammenhang“ gebracht werden, sodass deren Abbildung auf eine Klasse möglich wird.
→ Die der Klassifikation zugrunde liegenden Kriterien und ihr „funk-tionaler Zusammenhang“ wird beim Data Mining anhand von Datengelernt.
→ Anwendungssituationen …
Welche (zukünftigen) Kunden bedeuten für eine Versicherung ein hohes Risiko?
Welche (zukünftigen) Kunden eines Kreditinstituts erscheinenKreditwürdig?
Folie 391
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
DATA MINING – BEISPIEL II/IIKlassifikation II/V
→ Training – Lernen der Kriterien zur Zuordnung von Objekten zu Klassen …
Gegeben: Menge von Trainingsobjekten, die durch Merkmale (unabhängige Variablen) cha-rakterisiert sind. Information über Klassen-zugehörigkeit (abhängige Variable).
Resultat: Klassendefinitionen
→ Anwendung – Zuordnung von Objekten zu Klassen …
Gegeben: Objektbeschreibungen durch Angabe derMerkmale.
Resultat: Klassenzuordnung
Folie 401
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
DATA MINING – BEISPIEL II/IIKlassifikation III/V
→ Beispiel I/III
Gegeben ist eine Menge von Daten (Bilanzdaten/Kennzahlen) über verschiedene Firmen:
U = UmsatzG = GewinnE = EigenkapitalF = Fremdkapital
UG = Gewinnanteil am UmsatzFE = Fremdkapital/Eigenkapital
Jeder Datensatz ist einer von zwei Klassen zugeordnet:
kw = kreditwürdig nkw = nicht-kreditwürdig
Welche Attributwerte bestimmen, ob eine Firma kreditwürdig ist?
BilanzdatenKennzahlen
Folie 411
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
DATA MINING – BEISPIEL II/IIKlassifikation IV/V
→ Beispiel II/III
U < 5 Mio U > 50 Mio
5 Mio ≤ U ≤ 50 Mio
UG > 20UG ≤ 20
UG > 5UG ≤ 5
UG > 5UG ≤ 5
FE > 5FE ≤ 5
kw
kw
kw
kwnkw
nkw
nkw
Folie 421
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
DATA MINING – BEISPIEL II/IIKlassifikation V/V
→ Beispiel III/III
Ein Entscheidungsbaum ist offenbar eine grafische Darstellung von Regeln:
– die Knoten des Baums entsprechen Entscheidungen– an den Wurzel sind die Klassen notiert
Beispiel: U < 5 Mio und UG ≤ 20 ⇒ nkw
– „Wenn der Umsatz kleiner als 5 Mio ist und der Gewinnweniger als (bzw. gleich) 20% des Umsatzes beträgt, dann ist die Firma nicht kreditwürdig.“
Folie 431
Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12
LITERATURA. Bauer & H. Günzel (Hrsg.) (2001). Data Warehouse Systeme – Architektur,
Entwicklung, Anwendung. dpunkt.Verlag.M. Ester & J. Sander (2000). Knowledge Discovery in Databases – Techniken
und Anwendungen. Springer-Verlag.U.M. Fayyad, G. Piatetsky-Shapiro & P. Smyth (1996). Knowledge Discovery
and Data Mining: Towards a Unifying Framework. In E. Simoudis, J.W. Han & U. Fayyad (Hrsg.), Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining, AAAI Press, Seiten 82-88.
U.M. Fayyad, G. Piatetsky-Shapiro & P. Smyth (1996). From data mining to knowledge discovery in databases. AI Magazine 17, Fall 1996, Seiten 37-54.
F. Köster (2002). Analyse von Simulationsmodellen mit Methoden des Knowledge Discovery in Databases. Dissertation, Carl von Ossietzky Universität Oldenburg (Fachbereich Informatik). Oldenburger Satz & Einband.
F. Köster & K. Mehl (2003). A Data-Driven Approach to Support the Development of Agents Assisting the Assessment and Diagnosis of Man/Machine Inter-actions. 12th International Symposium on Aviation Psychology, Dayton (OH), USA – Proceedings, Seiten 674-679.
E. Woods & E. Kyral (1997). Ovum Evaluates: Data Mining. Ovum Evaluates, Ovum Ltd.
Ende von Kapitel 16:Data Warehousing und
Knowledge Discovery in Databases