Ground Truth – ohne Datenqualität kein Machine Learning. Erfolgsfaktoren für Predictive Analytics, BI und Data Mining Prof. Dr.-Ing. Peter Lehmann – Hochschule der Medien Stuttgart
Ground Truth – ohne Datenqualität kein Machine Learning. Erfolgsfaktoren für
Predictive Analytics, BI und Data Mining
Prof. Dr.-Ing. Peter Lehmann – Hochschule der Medien Stuttgart
208.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning
GLIEDERUNG
› Etwas über Machine Learning
› Etwas über Vorgehensweisen
› Etwas über wie man’s falsch macht
› Etwas über wie man’s richtig macht
› Etwas über ein spannendes Projekt
› Etwas über den Ground Truth
› Etwas über Data Science
Prof. Dr.-Ing.
Peter Lehmann
Hochschule der Medien
Studiengang Wirtschaftsinformatik und Digitale Medien
Studiengang Data Science and Business Analytics
Nobelstrasse 10
70569 Stuttgart
308.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning
PREDICTION IST TEIL VON MACHINE LEARNING
› Traditionelles Reporting
› Ziel ist präzise vorgegeben, z.B.
› Ich möchte wissen, wieviel …. pro … sortiert nach …
› Datenmodelle und deren Attribute sind bekannt
› Machine Learning (ML)
› Ziel ist wage vorgegeben, z.B.
› Ich möchte wissen, was den Kauf eines Projektesausmacht.
› Ich möchte wissen, welche Kundensegmente es gibt.
› Datenmodelle und deren Attribute sind “vermutlich” bekannt
› ML gibt dann Antworten auf Fragen, die ich noch gar nicht
gestellt habe
408.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning
WICHTIGE TYPEN VON MACHINE LEARNING(BEISPIELE)
KlassifizierungCluster bilden
Regression
Recommender Systeme
?
508.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning
LERNEN MIT BEISPIELEN
› Disziplin in Informatik -Künstliche Intelligenz
› Supervised learning› Ein Lernalgorithmus versucht, eine Abbildung zu finden, die jedem
Eingabewert den vermuteten Ausgabewert zuordnet.
› Der Ausgabewert ist bekannt.
› Herausforderung Ground Truth: Qualität der Trainingsmenge und Testmenge
› Nach diesem Trainingsollte das System in der Lage sein, zu einer unbekannten Eingabe eine korrekte Ausgabe zu liefern
608.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning
VORGEHENSMODELLE SIND ITERATIV!
› Knowledge Discovery and Data Mining (1996)
› Cross Industry Standard Process for Data Mining (2000)
www.kde.org www.crisp-data.com
708.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning
WIR MACHEN EINFACH MAL… OHNE GROUND TRUTH
› Beispiel:
› Fahrradhersteller, analysiert seinenOnline-Shop
› Wir wollen wissen: welches Profil habenKunden, die Mountain Bikes kaufen?
› 50.000 Datensätze, los geht‘s…
› Kundenstammdaten + Transaktionsdaten + Sozio-demografische Datenüber PLZ
808.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning
WIR MACHEN EINFACH MAL… OHNE GROUND TRUTH
Besonders interessant sind
Kunden, die weder männlich noch weiblich sind
15% unserer Kunden wohnen
in Afghanistan
8% unserer Kunden, die unsere App nutzen, und
aus Stuttgart kommen, fahren am
Wochenende in Japan Fahrrad
Besonders viele
Kunden kommen aus
11111
Wir haben keine Kunden in
Ostdeutschland, dafür
viele in CH und Österreich!
908.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning
LESSONS LEARNED
› Mining Model macht nur 10% aus!
› Auswahl der Attribute ist wichtig!
› Aber: Datenqualität ist entscheidend!!!
› Algorithmen lernen schnell, auch Mist!
› “Microsoft deletes 'teen girl' Artificial Intelligence after it became a Hitler-loving sex robot within 24 hours” – Daily Telegraph 24.3.2016
› Top-Datenqualität für das Anlernen der Software erforderlich Bedeutung desGround Truth Prozesses erkennen!
http://www.telegraph.co.uk/technology/2016/03/24/
microsofts-teen-girl-ai-turns-into-a-hitler-loving-sex-robot-wit/
1008.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning
PROBLEM IN DEN DATEN
› PLZ passen nicht zum Ort
› Ort passt nicht zur PLZ
› Nullwerte
› Ausreiser
› Dubletten
› Falsche Schreibweisen
› Mehrere Sprachen
› Falsche Bezeichner
› Semantische Probleme
› ….
1108.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning
08.06.2016© UNISERV GmbH, Pforzheim
Predictive Analytics Marketing Campaign Business Intelligence
32
44
360°VIEW
Golden Profile
CRM Service Web Shop ERP
1
SmartCustomer
MDM
Golden Record
n-Systeme
Transaction Data3
Interaction Data2
Transformation Source IDto Golden Record ID4
Customer Master Data ‚bidirektional‘ - ETL
1
Golden Profile5
5
GROUND TRUTH –SOLIDES FUNDAMENT FÜR ENTSCHEIDUNGEN
1208.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning
GEMEINSAMES FORSCHUNGSPROJEKT MIT UNISERVLEAD GENERATION
Ground Truth for ML
Prediction
Train 70% Test 30%
Kaufwahrscheinlichkeit %
Close the loop
Sozio-Demografische
Daten
Microsoft
Azure ML
ERP
CRM
CRM
1308.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning
UNISERV UNTERSTÜTZT DEN NEUEN BERUFSBEGLEITENDENMASTER “DATA SCIENCE AND BUSINESS ANALYTICS”
› Warum der 70%-Online Weiterbildungsstudiengang?
› Jobs, Jobs, Jobs (Roche, Daimler, …)
› Industrie 4.0, Internet of Things
› Hängen uns ab: USA, Asien
› Big Data und Open Data überall
› Cloud-Computing ist wichtiger Treiber
› Unterstützung durch
› Sponsoring
› Bilaterale Projekte
› Lehrauftrag
› Site visits
› In Vorbereitung Chief Digital Officer - Inner Circle
› Ground Truth
› Bestandteil des Studiengangs
1408.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning
FAZIT
› ML liefert wichtige Erkenntnisse über neueGeschäftsmodelle, Kunden und Produkte
› ML mit supervised learning bringt die besten Ergebnisse
› Datenqualität ist entscheidend für supervised learning
› Ground Truth ist ein wichtiger Datentransformationsprozess
› “Etwas falsch ist auch irgendwie richtig”
› 80% richtig reicht uns
› Ohne Ground Truth kein erfolgreiches Machine Learning
› … und keine erfolgreiche Customer Journey
› Datenintegration muss extrem schnell und agil gehen
› Hier hilft Golden Profile und Golden Record
1508.06.2016 Ground Truth – ohne Datenqualität kein Machine Learning
KONTAKT
› STUDIENGANG DATA SCIENCE AND BUSINESS ANALYTICS
Prof. Dr.-Ing. Peter LehmannHochschule der MedienNobelstrasse 1070569 Stuttgart
› MEHR ZUM PROJEKTGROUND TRUTH
Holger StelzUniserv GmbHRastatter Straße 1375179 Pforzheim
www.hdm-stuttgart.de/ds
Projektleiter Ground Truth (HdM)
www.uniserv.com
GastdozentBetreuung Wissenschaftl. Arbeiten