Top Banner
Ground Truth – ohne Datenqualität kein Machine Learning. Erfolgsfaktoren für Predictive Analytics, BI und Data Mining Prof. Dr.-Ing. Peter Lehmann – Hochschule der Medien Stuttgart
15

Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

Aug 08, 2019

Download

Documents

nguyendang
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

Ground Truth – ohne Datenqualität kein Machine Learning. Erfolgsfaktoren für

Predictive Analytics, BI und Data Mining

Prof. Dr.-Ing. Peter Lehmann – Hochschule der Medien Stuttgart

Page 2: Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

208.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning

GLIEDERUNG

› Etwas über Machine Learning

› Etwas über Vorgehensweisen

› Etwas über wie man’s falsch macht

› Etwas über wie man’s richtig macht

› Etwas über ein spannendes Projekt

› Etwas über den Ground Truth

› Etwas über Data Science

Prof. Dr.-Ing.

Peter Lehmann

Hochschule der Medien

Studiengang Wirtschaftsinformatik und Digitale Medien

Studiengang Data Science and Business Analytics

Nobelstrasse 10

70569 Stuttgart

Page 3: Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

308.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning

PREDICTION IST TEIL VON MACHINE LEARNING

› Traditionelles Reporting

› Ziel ist präzise vorgegeben, z.B.

› Ich möchte wissen, wieviel …. pro … sortiert nach …

› Datenmodelle und deren Attribute sind bekannt

› Machine Learning (ML)

› Ziel ist wage vorgegeben, z.B.

› Ich möchte wissen, was den Kauf eines Projektesausmacht.

› Ich möchte wissen, welche Kundensegmente es gibt.

› Datenmodelle und deren Attribute sind “vermutlich” bekannt

› ML gibt dann Antworten auf Fragen, die ich noch gar nicht

gestellt habe

Page 4: Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

408.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning

WICHTIGE TYPEN VON MACHINE LEARNING(BEISPIELE)

KlassifizierungCluster bilden

Regression

Recommender Systeme

?

Page 5: Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

508.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning

LERNEN MIT BEISPIELEN

› Disziplin in Informatik -Künstliche Intelligenz

› Supervised learning› Ein Lernalgorithmus versucht, eine Abbildung zu finden, die jedem

Eingabewert den vermuteten Ausgabewert zuordnet.

› Der Ausgabewert ist bekannt.

› Herausforderung Ground Truth: Qualität der Trainingsmenge und Testmenge

› Nach diesem Trainingsollte das System in der Lage sein, zu einer unbekannten Eingabe eine korrekte Ausgabe zu liefern

Page 6: Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

608.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning

VORGEHENSMODELLE SIND ITERATIV!

› Knowledge Discovery and Data Mining (1996)

› Cross Industry Standard Process for Data Mining (2000)

www.kde.org www.crisp-data.com

Page 7: Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

708.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning

WIR MACHEN EINFACH MAL… OHNE GROUND TRUTH

› Beispiel:

› Fahrradhersteller, analysiert seinenOnline-Shop

› Wir wollen wissen: welches Profil habenKunden, die Mountain Bikes kaufen?

› 50.000 Datensätze, los geht‘s…

› Kundenstammdaten + Transaktionsdaten + Sozio-demografische Datenüber PLZ

Page 8: Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

808.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning

WIR MACHEN EINFACH MAL… OHNE GROUND TRUTH

Besonders interessant sind

Kunden, die weder männlich noch weiblich sind

15% unserer Kunden wohnen

in Afghanistan

8% unserer Kunden, die unsere App nutzen, und

aus Stuttgart kommen, fahren am

Wochenende in Japan Fahrrad

Besonders viele

Kunden kommen aus

11111

Wir haben keine Kunden in

Ostdeutschland, dafür

viele in CH und Österreich!

Page 9: Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

908.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning

LESSONS LEARNED

› Mining Model macht nur 10% aus!

› Auswahl der Attribute ist wichtig!

› Aber: Datenqualität ist entscheidend!!!

› Algorithmen lernen schnell, auch Mist!

› “Microsoft deletes 'teen girl' Artificial Intelligence after it became a Hitler-loving sex robot within 24 hours” – Daily Telegraph 24.3.2016

› Top-Datenqualität für das Anlernen der Software erforderlich Bedeutung desGround Truth Prozesses erkennen!

http://www.telegraph.co.uk/technology/2016/03/24/

microsofts-teen-girl-ai-turns-into-a-hitler-loving-sex-robot-wit/

Page 10: Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

1008.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning

PROBLEM IN DEN DATEN

› PLZ passen nicht zum Ort

› Ort passt nicht zur PLZ

› Nullwerte

› Ausreiser

› Dubletten

› Falsche Schreibweisen

› Mehrere Sprachen

› Falsche Bezeichner

› Semantische Probleme

› ….

Page 11: Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

1108.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning

08.06.2016© UNISERV GmbH, Pforzheim

Predictive Analytics Marketing Campaign Business Intelligence

32

44

360°VIEW

Golden Profile

CRM Service Web Shop ERP

1

SmartCustomer

MDM

Golden Record

n-Systeme

Transaction Data3

Interaction Data2

Transformation Source IDto Golden Record ID4

Customer Master Data ‚bidirektional‘ - ETL

1

Golden Profile5

5

GROUND TRUTH –SOLIDES FUNDAMENT FÜR ENTSCHEIDUNGEN

Page 12: Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

1208.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning

GEMEINSAMES FORSCHUNGSPROJEKT MIT UNISERVLEAD GENERATION

Ground Truth for ML

Prediction

Train 70% Test 30%

Kaufwahrscheinlichkeit %

Close the loop

Sozio-Demografische

Daten

Microsoft

Azure ML

ERP

CRM

CRM

Page 13: Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

1308.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning

UNISERV UNTERSTÜTZT DEN NEUEN BERUFSBEGLEITENDENMASTER “DATA SCIENCE AND BUSINESS ANALYTICS”

› Warum der 70%-Online Weiterbildungsstudiengang?

› Jobs, Jobs, Jobs (Roche, Daimler, …)

› Industrie 4.0, Internet of Things

› Hängen uns ab: USA, Asien

› Big Data und Open Data überall

› Cloud-Computing ist wichtiger Treiber

› Unterstützung durch

› Sponsoring

› Bilaterale Projekte

› Lehrauftrag

› Site visits

› In Vorbereitung Chief Digital Officer - Inner Circle

› Ground Truth

› Bestandteil des Studiengangs

Page 14: Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

1408.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning

FAZIT

› ML liefert wichtige Erkenntnisse über neueGeschäftsmodelle, Kunden und Produkte

› ML mit supervised learning bringt die besten Ergebnisse

› Datenqualität ist entscheidend für supervised learning

› Ground Truth ist ein wichtiger Datentransformationsprozess

› “Etwas falsch ist auch irgendwie richtig”

› 80% richtig reicht uns

› Ohne Ground Truth kein erfolgreiches Machine Learning

› … und keine erfolgreiche Customer Journey

› Datenintegration muss extrem schnell und agil gehen

› Hier hilft Golden Profile und Golden Record

Page 15: Ground Truth Machine Learning. Erfolgsfaktoren für ... · 08.06.2016 Ground Truth –ohne Datenqualität kein Machine Learning 3 PREDICTION IST TEIL VON MACHINE LEARNING › Traditionelles

1508.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning

KONTAKT

› STUDIENGANG DATA SCIENCE AND BUSINESS ANALYTICS

Prof. Dr.-Ing. Peter LehmannHochschule der MedienNobelstrasse 1070569 Stuttgart

› MEHR ZUM PROJEKTGROUND TRUTH

Holger StelzUniserv GmbHRastatter Straße 1375179 Pforzheim

www.hdm-stuttgart.de/ds

[email protected]

Projektleiter Ground Truth (HdM)

www.uniserv.com

[email protected]

GastdozentBetreuung Wissenschaftl. Arbeiten