Top Banner
PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE WS 09/10 DATA MINING ALS EXPERIMENT VORTRAG: CHRISTOPH NÖLLENHEIDT 26.01.10
21

PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Oct 30, 2019

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTEWS 09/10

DATA MINING ALS EXPERIMENT

VORTRAG: CHRISTOPH NÖLLENHEIDT

26.01.10

Page 2: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Ablauf

� Das CRISP-DM-Modell

� Zwei verschiedene Standpunkte über die Theoriebildung im Prozess

� Ein verändertes CRISP-DM-Modell� Ein verändertes CRISP-DM-Modell

� Die Idee des „anything goes“ für das Data Mining

� Wie sieht das Experiment in RapidMiner aus?

� Literatur

Page 3: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

CRISP-DM („Cross Industry Standard Process for Data Mining“)

� Inhaltliche Ausprägung vollständig aus Projekterfahrungen zum Data Mining abgeleitet

� Beteiligt an der Entwicklung seit 1996:� Beteiligt an der Entwicklung seit 1996:

- DaimlerChrysler (damals Daimler-Benz)

- Integral Solutions Ltd. (seit 1999 Teil von SPSS)

- NCR („National Cash Register“)

� Ziel: Etablierung eines Standards zur Vorgehensweise bei Data Mining Projekten

Page 4: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

CRISP-DM-Modell

Projekt-Verständnis

Daten-Verständnis

AnwendungKDD

Datenvorverarbeitung

Modellbildung

Bewertung

Data Mining

Daten

Page 5: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Die Phasen des CRISP-DM

1. Projekt-Verständnis

� Ziel: Eckpunkte eines Data Mining Projektes festlegenfestlegen

Teilschritte:

� Situationsanalyse und Aufgabendefinition

� Formulierung der Data Mining Ziele

� Erstellung des Projektplans

Page 6: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Die Phasen des CRISP-DM

2. Verständnis der Daten erreichen

� Datenbeschaffung

Erste Einblicke in die Daten� Erste Einblicke in die Daten

� Probleme mit der Qualität der Daten ausfindig machen

� Hinzunahme externer Daten?

Page 7: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Die Phasen des CRISP-DM

3. Datenvorverarbeitung

� schließt alle Aktivitäten ein, um den für die Modellbildung verwendeten Datensatz aus den Modellbildung verwendeten Datensatz aus den Rohdaten zu erhalten

� für den Projekterfolg von großer Bedeutung

� enthält bereits Verfahren des maschinellen Lernens

Page 8: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Die Phasen des CRISP-DM

3. Datenvorverarbeitung

� Aufgaben sind z.B. Merkmalsauswahl, Transformation als auch DatenbereinigungTransformation als auch Datenbereinigung

� Fehlerkorrektur: Fehlende Werte ersetzen

� Wie gehe ich mit Ausreißern um?

� Stichproben ziehen

Page 9: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Die Phasen des CRISP-DM

4. Modellbildung

� Anwendung der Data Mining Verfahren

Ziel: hohe Aussage- bzw. Interpretationsfähigkeit des � Ziel: hohe Aussage- bzw. Interpretationsfähigkeit des Analyseergebnisses

� Einige Verfahren haben spezielle Anforderungen an die Form der Daten, zur Vorverarbeitung zurückzukehren ist daher oftmals nötig

Page 10: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Die Phasen des CRISP-DM

5. Bewertung

� Bevor das gefundene Modell zur abschließenden Analyse verwendet wird, muss es bewertet werden

� Einzelne Schritte, die ausgeführt wurden, um das Modell zu bilden, werden überprüft

� Wurden die Data Mining Ziele erreicht?

Page 11: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Die Phasen des CRISP-DM

6. Anwendung� Wissen für den Kunden darstellen

Phase kann enthalten:� Phase kann enthalten:

- Bericht

- wiederholbaren Data Mining Prozess implementieren

� Wichtig für den Kunden: Welche Aktionen müssen ausgeführt werden, um das Modell zu verwenden?

Page 12: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Experiment

� Experiment setzt zwingend Theorie voraus

� Messung macht ohne Theorie keinen Sinn (Kuhn)

� Bateson: „Theorien können sich im Laufe der Untersuchung ändern“

� 2 verschiedene Sichtweisen über die Bildung einer Theorie im Data Mining Prozess

Page 13: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Theoriebildung im Data Mining Prozess

Projekt-Verständnis

Daten-Verständnis

Anwendung

Theoriebildung

A)

Datenvorverarbeitung

Modellbildung

Bewertung

Daten

Theoriebildung

B)

Page 14: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

CRISP-DM

� Im CRISP-DM gibt es keinen datengenerierenden Prozess

� Informatik: „Ihr gebt uns die Daten, ob wir damit die � Informatik: „Ihr gebt uns die Daten, ob wir damit die Realität abbilden, wissen wir nicht“

⇒ Erkenntnisse aufgrund der Daten

� Statistik: betont datengenerierenden Prozess

Page 15: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Was macht Wissenschaft aus?

Projekt-Verständnis

Daten-Verständnis

Anwendung

Datengenerierende Prozess

Datenvorverarbeitung

Modellbildung

Bewertung

Page 16: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Paul Feyerabend

� „anything goes“

� Wir müssen nicht ab einem gewissen Punkt anfangen und an einem gewissen Punkt ankommenund an einem gewissen Punkt ankommen

� Wissenschaft sollte nicht „durch Zwänge eingeschränkt werden“

Page 17: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Idee des „anything goes“

Bedeutung im Data Mining:

� Kreativität

� Vielleicht erhalten wir durch neue Betrachtungen bessere Ergebnisse

Page 18: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Idee des „anything goes“

Projekt-Verständnis

Daten-Verständnis

Anwendung

Theorie

Verständnis

Datenvorverarbeitung

Modellbildung

Bewertung

Daten

Theorie

Page 19: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

RapidMiner (vormals YALE)

� Open-Source Umgebung für Data Mining

� Rapid-I (http://www.rapid-i.com)

� Mittlerweile meist genutzte open-source Umgebung für Data Mining

� Anwendungen in Forschung und Praxis

Page 20: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

RapidMiner

� Wichtigste Eigenschaft: Prozesse des Data Mining als Operator-Bäume modellieren

� Operator in RapidMiner bedeutet: einzelne Methode, � Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens

� Experimente können auf der Grundlage einer großen Anzahl von beliebig ineinander verschachtelbaren Operatoren durchgeführt werden

Page 21: PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE …€¦Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens Experimente können auf der Grundlage

Literatur

� Mierswa, I. et al., YALE: Rapid Prototyping for

Complex Data Mining Tasks, In: Proceedings of theACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2006), 2006.2006), 2006.

� Gabriel, R. et al.: Data Warehouse & Data Mining

(2009), W3L-Verlag, Herdecke, Witten.

� Für das CRISP-DM-Modell:

http://www.crisp-dm.org