Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

1

Datenbanksysteme SS 2007

Frank Köster(Oliver Vornberger)

Institut für InformatikUniversität Osnabrück

Kapitel 16:Data Warehousing und

Knowledge Discovery in Databases

Folie 31

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

DEFINITIONEN & BEGRIFFEKlassische Definition – Data Warehouse (DWH)

"A Data Warehouse is a subject-oriented, integrated, non-volatile, and time-variant collection of data in support of managements decisions“(W.H. Inmon, 1996)

Definition – Data-Warehouse-System (DWS)

“Data-Warehouse-System: Informationssystem, bestehend aus allenfür den Data-Warehouse-Prozess notwendigen Komponenten. Dies sinddie Komponenten des Datenbeschaffungsbereichs und der Analyse, der Metadatenmanager, der Data-Warehouse-Manager und die Daten-banken Basisdatenbank, Data Warehouse und Repositorium.“(Bauer und Günzel, 2001 – Seite 516)

Weitere Begriffe im DWS-Kontext

Data Warehousing bezeichnet den Data-Warehouse-Prozess … d.h. einen Prozess, der alle Schritte der Datenbewirtschaftung und Daten-nutzung im DWS-Kontext umfasst.

Folie 41


REFERENZARCHITEKTURDWS-Referenzarchitektur(vgl. Bauer und Günzel, 2001)

Daten-quelle(n)

Arbeits-bereich

Basis-datenbank

DataWarehouse

Extraktion Laden Laden Analyse

Transformation

Monitor

Data-Warehouse-Manager

Metadaten-Manager

RepositoryDatenflussKontrollfluss Data-Warehouse-System

Bereich der Datenbeschaffung

Folie 51


REFERENZARCHITEKTURDWS-Referenzarchitektur – Phasen des Data Warehousing I/II (vgl. Bauer und Günzel, 2001)

Daten-quelle(n)

Arbeits-bereich

Basis-datenbank

DataWarehouse


Transformation

Monitor


Metadaten-Manager



1

2

3

4 5 6

Folie 61


REFERENZARCHITEKTURDWS-Referenzarchitektur – Phasen des Data Warehousing II/II(vgl. Bauer und Günzel, 2001)

→ Phasen des Data Warehousing

1. Überwachung der Quellen auf Änderungen durch Monitore

2. Kopieren der relevanten Daten mittels Extraktion in (temporären)Arbeitsbereich

3. Transformation der Daten im Arbeitsbereich (Datenbereinigung bzw. Qualitässicherung und Datenintegration)

4. Kopieren der Daten in integrierte Basisdatenbank als Grundlage für verschiedene Analysen und Quelle für DWH(s)

5. Laden der Daten in DWH(s)

6. Analyse – Operationen auf Daten des DWH

Data-Warehouse-Manager… zur Steuerung …

Folie 71


REFERENZARCHITEKTURDWS-Referenzarchitektur – Data-Warehouse-Manager I/II(vgl. Bauer und Günzel, 2001)

→ Zentrale Komponente eines Data-Warehouse-Systems

→ Initiierung, Steuerung und Überwachung der einzelnen Prozesse –Kontrolle des Data-Warehouse-Prozesses

→ Initiierung des Datenbeschaffungsprozesses→ in regelm. Zeitabständen – jede Nacht, am Wochenende …→ bei Änderung einer Quelle→ auf explizites Verlangen eines Nutzers (Administrators)

Starten der Datenextraktion aus Quellen und Übertragung in Arbeitsbereich des DWS – später mehr hierzu

→ Nach Auslösen des Ladeprozesses→ Überwachung der weiteren Schritte (Bereinigung, Integration …)→ Koordination der Verarbeitungsreihenfolge

Folie 81


REFERENZARCHITEKTURDWS-Referenzarchitektur – Data-Warehouse-Manager II/II(vgl. Bauer und Günzel, 2001)

→ Im Fehlerfall→ Dokumentation von Fehlern→ Wiederanlaufmechanismen

→ Zugriff auf Metadaten aus dem Repository zur …→ Steuerung der Abläufe → insbesondere Parametrisierung involvierter Komponenten

Daten-quelle(n)

Arbeits-bereich

Basis-datenbank

DataWarehouse


Transformation

Monitor



Folie 91


REFERENZARCHITEKTURDWS-Referenzarchitektur – Datenquellen I/III(vgl. Bauer und Günzel, 2001)

→ Lieferanten der Daten und Metadaten für das DWH

→ gehören selbst nicht zum DWS

→ können intern (z.B. die Daten eines Unternehmens selbst) oder extern (z.B. Internet) sein

→ heterogen bzgl. Struktur, Inhalt und Schnittstellen – DBen, Dateien, Internet-Seiten ...)

→ Auswahl der Quellen und die Qualität der Daten ist von besonderer Bedeutung

→ Faktoren bei der Quellenauswahl (siehe hierzu auch Folien 11 und 12)

→ Zweck des DWH bzw. DWS

→ Qualität der Quelldaten ...

→ Verfügbarkeit – rechtlich, organisatorisch, technisch, zeitlich

→ Preis für Erwerb der Daten – speziell bei externen Quellen

Folie 101


REFERENZARCHITEKTURDWS-Referenzarchitektur – Datenquellen II/III(vgl. Bauer und Günzel, 2001)

→ Kriterien zur Klassifikation von Datenquellen

→ Herkunft – intern, extern

→ Zeit – aktuell, historisch

→ Nutzungsebene – Primärdaten, Metadaten

→ Inhalt – Zahl, Zeichenkette, Grafik, Dokument …

→ Darstellung – numerisch, alphanumerisch, BLOB

→ Kodierung – Sprache und Zeichensatz

→ Vertrauen – Grad der Vertrauens- bzw. Glaubwürdigkeit

→ Qualität (siehe folgende Folie)

Folie 111


REFERENZARCHITEKTURDWS-Referenzarchitektur – Datenquellen III/III(vgl. Bauer und Günzel, 2001)

→ Kriterien zur Einschätzung der Datenqualität einer Quelle

→ Konsistenz – Widerspruchsfreiheit

→ Korrektheit – Übereinstimmung mit der Realität

→ Vollständigkeit – z.B. keine fehlenden Werte oder Attribute

→ Genauigkeit – z.B. Anzahl der Nachkommastellen

→ Granularität – z.B. tages- oder monatsgenaue Daten

→ Zuverlässigkeit & Glaubwürdigkeit – wie etwa Nachvollziehbar-keit der Entstehung der Daten oder die Vertrauenswürdigkeit eines Datenlieferanten

→ Verständlichkeit – insbesondere inhaltliche und technische bzw.strukturelle Adäquatheit für jeweilige Zielgruppe

→ Verwendbarkeit/Relevanz – z.B. geeignetes Format oder Zweckdienlichkeit

Folie 121


REFERENZARCHITEKTURDWS-Referenzarchitektur – Monitor I/I(vgl. Bauer und Günzel, 2001)

→ Beobachtung der Datenquellen

→ Ziel: Entdecken von Veränderungen in einer Datenquelle

→ i.Allg. existiert ein Monitor pro Quelle

Folie 131


REFERENZARCHITEKTURDWS-Referenzarchitektur – Arbeitsbereich I/I(vgl. Bauer und Günzel, 2001)

→ Der Arbeitsbereich ist die zentrale Datenhaltungskomponente des Datenbeschaffungsbereichs (engl. staging area)

→ Temporärer Zwischenspeicher zur Datentransformation

→ „Schnittstelle“ zwischen Quellen und Basisdatenbank bzw. DWH

→ Ausführung von (zeitaufwändigen) Transformationen direkt im Arbeitsbereich – bspw. Transformationenen zur Datenbereinigung und -Integration etc.

→ Laden der transformierten Daten in das DWH bzw. die Basis-datenbank erst nach erfolgreichem Abschluss ihrer Trans-formation

→ Vorteile für Quellen und DWH

→ keine Beeinflussung der Quellen oder des DWH→ keine Übernahme fehlerbehafteter Daten in das DWH

Folie 141


REFERENZARCHITEKTURDWS-Referenzarchitektur – Extraktion I/I(vgl. Bauer und Günzel, 2001)

→ Übertragen der gewünschten Quelldaten in den Arbeitsbereich des DWS

→ Aktivierung ist abhängig von Monitoring-Strategie

→ periodisch→ Ereignisgesteuert – z.B. nach gewisser Anzahl von Änderungen→ auf Anfrage eines Nutzers (Administrators) ⇒ sofortige Extraktion

→ Technische Grundlage

→ Nutzung von Standardschnittstellen zu operativen Systemen – z.B. vielfach ODBC oder JDBC

→ Berücksichtigt i.Allg. Ausnahmebehandlung zur Fortsetzung im Fehlerfall

Folie 151


REFERENZARCHITEKTURDWS-Referenzarchitektur – Transformation I/I(vgl. Bauer und Günzel, 2001)

→ Vorbereitung und Anpassung der Daten für das Laden in dieBasisdatenbank bzw. das DWH

→ inhaltlich: Daten-/Instanzintegration und Bereinigung→ strukturell: Schemaintegration

→ Überführung aller Daten in ein einheitliches Format

→ Datentypen, Datumsangaben, Maßeinheiten, Kodierungen, Kombination bzw. Separierung von Attributwerten etc.

→ Beseitigung von Verunreinigungen (engl. Data Cleaning bzw. Data Cleansing)

→ fehlerhafte oder fehlende Werte, Redundanzen und veraltete Werte identifizieren und handhaben

Qualitätsanforderungen

Schemaanforderungen

Datenmigration

Datenbereinigung

Folie 161


REFERENZARCHITEKTURDWS-Referenzarchitektur – Laden I/I(vgl. Bauer und Günzel, 2001)

→ Übertragung der transformierten Daten in die Basisdatenbank bzw. das DWH

→ Technische Grundlage

→ Nutzung spezieller Ladewerkzeuge –z.B. SQL*Loader von Oralce) → Bulk-Laden

→ Historisierung beachten! → Änderung in Quellen dürfen DWH-Daten nicht überschreiben – stattdessen zusätzliches Abspeichern

⇒ Schnelles Laden großer Datenmengen.

Folie 171


REFERENZARCHITEKTURDWS-Referenzarchitektur – Basisdatenbank I/I(vgl. Bauer und Günzel, 2001)

→ Integrierte (physische) Datenbasis für verschiedene Analysen und Quelle für DWH(s); Basisdatenbank ist i.d.R. allgemeiner als DWH(s)

→ unabhängig von konkreten Analysen – d.h. insbesondere zu-meist noch keine analysespezifische Datenaufbereitung

→ Versorgung des DWH (auch mehrerer DWHs) mit qualitätsge-sicherten Daten

Anmerkung: Die Basisdatenbank …→ wird in der Praxis oft weggelassen→ entspricht Operational Data Store (ODS) nach W.H. Inmon

Folie 181


REFERENZARCHITEKTURDWS-Referenzarchitektur – Data Warehouse I/I(vgl. Bauer und Günzel, 2001)

→ DB für Analysezwecke – orientiert sich in Struktur und Inhalt an Analysebedürfnissen

→ Grundlage sind oft (relationale) DBen

→ Besonderheiten:→ Unterstützung des Ladeprozesses in das DWH

→ Schnelles Laden großer Datenmengen → Massenlader (bulk loader) unter Umgehung von Mehrbenutzerkoordination und Konsistenzprüfung

→ Unterstützung des Analyseprozesses→ Effiziente Anfrageverarbeitung durch spezielle Indexstrukturen

und Caching

Folie 191


REFERENZARCHITEKTURDWS-Referenzarchitektur – Analyse I/I(vgl. Bauer und Günzel, 2001)

→ Nutzung der gesammelten Daten in Datenanalysewerkzeugen. Hier-bei kommen i.d.R. verschiedene Werkzeuge zur Navigation/Sichtungund Analyse mit verschiedenen Techniken zum Einsatz.

→ Analysemöglichkeiten sind vielfältig

→ „einfache“ Operationen (z.B. Aggregation, Visualisierung) ... oder auch

→ Online Analytical Processing … oder

→ komplexe statistische Untersuchungen ... bis hin zu

→ Knowledge Discovery in Databases → Data Mining

→ Aufbereitung der Ergebnisse für Weiterverarbeitung bzw. Weitergabe

→ Grundlage für Entscheidungen – praktische Umsetzung

Folie 201


REFERENZARCHITEKTURDWS-Referenzarchitektur – Analyse – Data Marts I/II (vgl. Bauer und Günzel, 2001)

Daten-quelle(n)

Arbeits-bereich

Basis-datenbank

DataWarehouse


Transformation

Monitor


Metadaten-Manager


Bereich der DatenbeschaffungData Marts

Folie 211


REFERENZARCHITEKTURDWS-Referenzarchitektur – Analyse – Data Marts II/II(vgl. Bauer und Günzel, 2001)

→ Konzept zur Bereitstellung einer inhaltlich beschränkten Sicht auf das DWH – z.B. für eine spezielle Abteilung

→ Zweck der Data Marts?

→ Eigenständigkeit, Datenschutz, Lastverteilung, Datenvolumen etc.

Folie 221


REFERENZARCHITEKTURDWS-Referenzarchitektur – Repository I/I(vgl. Bauer und Günzel, 2001)

→ Speicherung der Metadaten des DWS erfolgt in Repository des DWS

→ Metadaten

→ Informationen, die Aufbau, Wartung und Administration des DWS vereinfachen/ermöglichen und eine wichtige Grund-lage zur Informationsgewinnung darstellen

→ Beispiele

→ Datenbankschemata→ Zugriffsrechte, → Prozessinformationen (Verarbeitungsschritte & Parameter) → ...

Folie 231


REFERENZARCHITEKTURDWS-Referenzarchitektur – Metadaten Manager I/I(vgl. Bauer und Günzel, 2001)

→ Der Metadatenmanager ist die zentrale Instanz im Kontext des Meta-datenmanagements

→ Steuerung der Metadatenverwaltung→ Zugriff, Anfrage und Navigation→ Versions- und Konfigurationsverwaltung

→ Varianten

→ allgemein einsetzbar: erweiterbares Basisschema→ werkzeugspezifisch: fester Teil von Werkzeugen→ Beobachtung in der Praxis: Häufig Integration von bzw. Aus-

tausch zwischen dezentralen Metadatenmanagementsystemen notwendig

Folie 241


REFERENZARCHITEKTURDWS-Referenzarchitektur(vgl. Bauer und Günzel, 2001)

Daten-quelle(n)

Arbeits-bereich

Basis-datenbank

DataWarehouse


Transformation

Monitor


Metadaten-Manager



… Wie sieht der Weg zur Instantiierung eines solchen Systems aus?Bleibt die Frage …

Folie 251


REFERENZARCHITEKTUR

DWS-Entwurf – … natürlich ein Prozess

sieht vertraut aus

Niemals unterschätzen!

Folie 261


KDD & DATA MININGBegriffe – KDD & Data Mining

→ Knowledge Discovery in Databases

„KDD is the nontrivial process of identifying valid, novel, potentiallyuseful, and ultimately understandable patterns in data.“(Fayyad et al., 1996)

→ KDD ist ein interaktiver, mehrstufiger und iterativer Prozess. Ein zentraler Prozessschritt ist dabei das Data Mining.

„[...] data mining – the automatic creation of a model that identifies rele-vant trends and patterns in source data [...]“(Woods & Kyral, 1997)

→ Was sind essentielle Aspekte des Data Mining?→ automatische Verfahren (Interaktion → KDD) → Algorithmen “erkunden“ große/komplexe Datenmengen

→ Data Mining

Folie 271


KDD & DATA MININGDer Prozess des KDD – Was passiert bei der Exploration von Daten?

„Exploratory data analysis is detective

work – numerical detec-tive work – or counting

detective work – orgraphical detective

work“(Tukey, 1977)

Folie 281



→ Frage • Design • Erhebung • Analyse • Antwort→ Routine-Erhebungen→ Ungeplante Erhebungen


A

D

I

M

W

Folie 291





Unterstützung durch Data Mining …⇒ Möglichkeiten …⇒ Limitierungen … !

A

D

I

M

W

Folie 301


KDD & DATA MININGDer Prozess des KDD

(vgl. Fayyad et al., 1996)

Folie 311


KDD & DATA MINING Der Prozess des KDD – nach Fayyad (1996) I/II

→ Selection

In dieser Phase wird in Abhängigkeit vom Anwendungsgebiet und der dort untersuchten Fragestellung der im weiteren Verlauf betrachtete Datenausschnitt definiert.

→ Preprocessing

Die zuvor selektierten Daten werden bspw. bzgl. ihrer Konsistenz geprüft und ggf. die Konsistenz innerhalb der Daten hergestellt. Hierbei werden z.B. uneinheitliche Dar-stellungen gleicher Inhalte von Datenfeldern auf eine für die weitere Analyse verbind-liche Darstellung vereinheitlicht.

→ Transformation

Die in den vorangegangenen Phasen selektierten und vorverarbeiteten Daten werden in dieser Phase nach Bedarf, d.h. insbesondere unter Berücksichtigung der untersuchten Fragestellung, aggregiert/verdichtet oder in anderer Form transformiert. Hierdurch wird das im anschließenden Data-Mining-Schritt zu verarbeitende Datenvolumen i.d.R. re-duziert und vor dem Hintergrund eines Anwendungsgebiets oder einer anzuwendenden Data-Mining-Technik notwendig erscheinende Transformationsschritte müssen nicht erst während der automatischen Analyse berechnet werden.

Folie 321


KDD & DATA MINING Der Prozess des KDD – nach Fayyad (1996) II/II

→ Data Mining

Die transformierten Daten werden durch eine adäquat erscheinende Data-Mining-Technik automatisch nach Mustern, charakteristischen Phänomenen oder Zusam-menhängen durchsucht.

→ Interpretation

Die Resultate des Data Mining werden in dieser Phase vor dem Hintergrund des Anwendungsgebiets und der hierin untersuchten Fragestellung ausgewertet und bzgl. ihrer Qualität bewertet. Hierbei sind insbesondere Triviale oder bzgl. ihrer Plausibilität bzw. Validität fragwürdige Resultate zu identifizieren, wie sie etwa aufgrund von Artefakten oder Fehlern innerhalb der Daten (i.Allg. mangelhafteDatenqualität) entstehen können. Hierbei ist größte Sorgfalt geboten, um Arte-fakte oder Datenfehler nicht etwa fälschlicherweise als Phänomene anzusehen.

Folie 331


KDD – PROZESSMODELLE KDD – verschiedene Prozessmodelle (Übersicht)

Task Analysis Preprocessing Data Mining Postprocessing Deployment

Business Understanding

DataUnderstand-

ingModelling Evaluation DeploymentCRISP-DM Data

Preparation

Selection Pre-processing Data Mining Interpretation/

Evaluationnach Fayyad Trans-formation

Task Discovery DataDiscovery Model Development Data

Analysisnach Brachman &

AnandData

CleaningOutput

Generation

AufgabendefinitionAuswahl

derDM-Verf.

Interpretation/Evaluation

nach Hippner &Wilde

Daten-aufbereitung

Anwendung derErgebnisse

Auswahlder

Daten

Anwend.der

DM-Verf.

AssessSEMMA Modify/ManageExplore ModelSample

Ergebnisverarbeitungnach Wrobel et al. Extraktion/Integration

Verfahrensan-wendung

Anwendungverstehen

DM-Verfahren wählen

Analysedaten erzeugenUmsetzung

IBM IntelligentMiner Auswählen Data Mining InterpretierenUmsetzen

Folie 341


KDD – PROZESSMODELLE KDD – verschiedene Prozessmodelle (grundlegende Phasen)

→ Task Analysis

→ Ziel-/Aufgabendefinition und Festlegung des Analyserahmens

→ Preprocessing

→ Datensammlung, -aufbereitung und -transformation

→ Data Mining

→ Kern-Phase der Datenanalyse (⇒ „Modellextraktion“)

→ Postprocessing

→ Ergebnissaufbereitung und Evaluation

→ Deployment

→ Umsetzung/Anwendung der Ergebnisse

Task Analysis, Preprocessing und Postprocessing sind in der Praxis i.d.R. sehr Zeitaufwändig!

Folie 351


DATA MINING – BEISPIEL I/IIAssoziationsanalyse I/III

→ Ziel der Assoziationsanalyse ist die Analyse sachlicher Verbundbe-ziehungen in Transaktionen – z.B. beim Produkterwerb im Super-markt

→ Resultat sind Aussagen der folgenden Form …

In 40% der Fälle, in denen Zahnbürsten gekauft werden, wird auch Zahnpasta gekauft. Beide Produkte kommen in 0,8% aller Transaktionen vor.

→ Praktische Fragestellung: Welche Produkte werden oft zusammen gekauft.

→ Cross-Selling: Wer A kauft, kauft vielfach auch B …

⇒ Anhaltspunkte zur Optimierung der Präsentation bzw. Platzierung von Produkten in Werbematerialien oder Supermarktregalen.

⇒ Gezieltes Bewerben von Käufern bestimmter Produkte.

Folie 361


DATA MINING – BEISPIEL I/II Assoziationsanalyse II/III

→ Schema einer Assoziationsregel …

Prämisse(unabhängige Variable)

„wenn A“

Konsequenz(abhängige Variable)

„dann B“Konfidenz Support

strukturelle Komponenten Gütekriterien

wenn Zahnbürste, dann Zahnpasta Konfidenz = 40%; Support = 0,8%; Lift = 20

Assoziationsregel

Lift

Support := Anteil an gesamten TransaktionenKonfidenz := Quotient aus Anzahl der Transaktionen die im wenn-dann-Part enthalten sind

und der Anzahl der Transaktionen aus der wenn-BedingungLift := Konfidenz / „erwartete Konfidenz“

(siehe nächste Folie)

Folie 371


DATA MINING – BEISPIEL I/II Assoziationsanalyse III/III

→ Vollständiges Beispiel …

→ Eine Supermarkt habe 100.000 Transaktionen an den Kassen, wobei 2.000 davon das Produkt Zahnbürste enthiel-ten, darunter 800, die ebenfalls das Produkt Zahnpasta ent-hielten.

→ Assoziationsregel (ohne Einschätzung der Güte): Wenn Zahnbürste gekauft wird, dann wird auch Zahnpasta ge-kauft.

→ Support: 800/100.000 = 0,008 (also 0,8%)→ Konfidenz: 800/2.000 = 0,4 (also 40%)→ Produkt Zahnpasta taucht in insgesamt 2.000 Transaktionen

auf. Somit ist die erwartete Konfidenz: 2.000/100.000 = 0.02→ Lift: 0,4 / 0,02 = 20

Folie 381


DATA MINING – BEISPIEL II/II Klassifikation I/V

→ Ziel der Klassifikation ist es, Objekte einer Eingabedatenmenge zu(vorgegebenen) Klassen zuzuordnen. Die Merkmale der Objekte müssen hierzu bei der Klassifikation derart in einen „funktionalen Zusammenhang“ gebracht werden, sodass deren Abbildung auf eine Klasse möglich wird.

→ Die der Klassifikation zugrunde liegenden Kriterien und ihr „funk-tionaler Zusammenhang“ wird beim Data Mining anhand von Datengelernt.

→ Anwendungssituationen …

Welche (zukünftigen) Kunden bedeuten für eine Versicherung ein hohes Risiko?

Welche (zukünftigen) Kunden eines Kreditinstituts erscheinenKreditwürdig?

Folie 391


DATA MINING – BEISPIEL II/IIKlassifikation II/V

→ Training – Lernen der Kriterien zur Zuordnung von Objekten zu Klassen …

Gegeben: Menge von Trainingsobjekten, die durch Merkmale (unabhängige Variablen) cha-rakterisiert sind. Information über Klassen-zugehörigkeit (abhängige Variable).

Resultat: Klassendefinitionen

→ Anwendung – Zuordnung von Objekten zu Klassen …

Gegeben: Objektbeschreibungen durch Angabe derMerkmale.

Resultat: Klassenzuordnung

Folie 401


DATA MINING – BEISPIEL II/IIKlassifikation III/V

→ Beispiel I/III

Gegeben ist eine Menge von Daten (Bilanzdaten/Kennzahlen) über verschiedene Firmen:

U = UmsatzG = GewinnE = EigenkapitalF = Fremdkapital

UG = Gewinnanteil am UmsatzFE = Fremdkapital/Eigenkapital

Jeder Datensatz ist einer von zwei Klassen zugeordnet:

kw = kreditwürdig nkw = nicht-kreditwürdig

Welche Attributwerte bestimmen, ob eine Firma kreditwürdig ist?

BilanzdatenKennzahlen

Folie 411


DATA MINING – BEISPIEL II/IIKlassifikation IV/V

→ Beispiel II/III

U < 5 Mio U > 50 Mio

5 Mio ≤ U ≤ 50 Mio

UG > 20UG ≤ 20

UG > 5UG ≤ 5

UG > 5UG ≤ 5

FE > 5FE ≤ 5

kw

kw

kw

kwnkw

nkw

nkw

Folie 421


DATA MINING – BEISPIEL II/IIKlassifikation V/V

→ Beispiel III/III

Ein Entscheidungsbaum ist offenbar eine grafische Darstellung von Regeln:

– die Knoten des Baums entsprechen Entscheidungen– an den Wurzel sind die Klassen notiert

Beispiel: U < 5 Mio und UG ≤ 20 ⇒ nkw

– „Wenn der Umsatz kleiner als 5 Mio ist und der Gewinnweniger als (bzw. gleich) 20% des Umsatzes beträgt, dann ist die Firma nicht kreditwürdig.“

Folie 431


LITERATURA. Bauer & H. Günzel (Hrsg.) (2001). Data Warehouse Systeme – Architektur,

Entwicklung, Anwendung. dpunkt.Verlag.M. Ester & J. Sander (2000). Knowledge Discovery in Databases – Techniken

und Anwendungen. Springer-Verlag.U.M. Fayyad, G. Piatetsky-Shapiro & P. Smyth (1996). Knowledge Discovery

and Data Mining: Towards a Unifying Framework. In E. Simoudis, J.W. Han & U. Fayyad (Hrsg.), Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining, AAAI Press, Seiten 82-88.

U.M. Fayyad, G. Piatetsky-Shapiro & P. Smyth (1996). From data mining to knowledge discovery in databases. AI Magazine 17, Fall 1996, Seiten 37-54.

F. Köster (2002). Analyse von Simulationsmodellen mit Methoden des Knowledge Discovery in Databases. Dissertation, Carl von Ossietzky Universität Oldenburg (Fachbereich Informatik). Oldenburger Satz & Einband.

F. Köster & K. Mehl (2003). A Data-Driven Approach to Support the Development of Agents Assisting the Assessment and Diagnosis of Man/Machine Inter-actions. 12th International Symposium on Aviation Psychology, Dayton (OH), USA – Proceedings, Seiten 674-679.

E. Woods & E. Kyral (1997). Ovum Evaluates: Data Mining. Ovum Evaluates, Ovum Ltd.

Ende von Kapitel 16:Data Warehousing und

Knowledge Discovery in Databases

Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Documents

Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für