Statistik Data Mining Maschinelles Lernen Simulation fileStatistik Data Mining Maschinelles Lernen Simulation Software Mag. Helmut Grillenberger - über 25 Jahre Kompetenz im analytischen

Statistik ● Data Mining ● Maschinelles Lernen ● Simulation ● Software

www.usedata.com

Mag. Helmut Grillenberger - über 25 Jahre Kompetenz im analytischen Bereich

Foto: WKS UBIT / Kolarik Fotografie

3 PagenBrau Union

Breuninger, StuttgartDoc Morris

Deutsche PostDonauuniversität Krems

Institut für Bildung imGesundheitsdienst

Institut f. höhere StudienJelmoli Versand

Klingel, PforzheimLa Redoute

Landesstatistik OÖLandesstatistik SBG

Landesstatistik STMKLandesstatistik VBGMagistrat SalzburgÖsterr. Institut für

KH BetriebsführungPeter Hahn GmbH.

Ulla PopkenUniversal Versand

Universitätsklinik GrazVamed, Wien

Voest, LinzWEKA Verlag Augsburg

Wiener Kranken-anstaltenverbund

Yves Rocher Deutschland

Kundenliste

Seminarreihe 2017 © USEDATA – www.usedata.com

Am Anfang …

C H O L E S K Y D E C O M P O S I T I O N 3

Axiome werden nicht hinterfragt. Es handelt sich um Aussagen, die dem Hausverstand nicht widersprechen.Die Wahrscheinlichkeitsrechnung ist eine Wissenschaft, die auf klaren Regeln aufbaut.

0 ≤ ≤ 10 ≤ ≤ 1Axiom 1:

= ( )= ( )Axiom 4:

Volladditivität

∅ = 0∅ = 0Axiom 2:

Zu Beginn des 20 Jahrhunderts legte der Russe Andrei Kolmogorov mit nur viereinfachen Axiomen den Grundstein für die heutige Wahrscheinlichkeitsrechnung.

Wikipedia: Andrei Kolmogorov

Axiom 3: = 1= 1

Jede Abbildung die dem Ereignis A einen Wert P(A) zuordnet unddabei die Axiome 1 bis 4 erfüllt ist eine Wahrscheinlichkeitsverteilung. → ( )


Diskrete Wahrscheinlichkeitsverteilung

S T A T I S T I S C H E G R U N D B E G R I F F E 5

1 2 3 4 5 6

1 2 3 4 5 6 72 3 4 5 6 7 8

3 4 5 6 7 8 9

4 5 6 7 8 9 105 6 7 8 9 10 11

6 7 8 9 10 11 12

2 3 4 5 6 7 8 9 10 11 12

p =

X = Summe aus beiden Würfen

Population, Stichprobenraum, Grundgesamtheit

random variable

Wahrscheinlichkeitsverteilung

X =


Stetige Wahrscheinlichkeitsverteilung


180 cm75 kg150 €

168 cm64 kg670 €

178 cm84 kg220 €

164 cm59 kg

1.040 €

182 cm85 kg300 €

164 cm58 kg720 €

176 cm70 kg820 €

174 cm65 kg680 €

182 cm74 kg410 €

Körpergröße: 192 cmGewicht 94 kgUmsatz 400 €

Population, Stichprobenraum, Grundgesamtheit

random variables


Wahrscheinlichkeitsverteilungen in R


• Beta Verteilung• Binomialverteilung• Cauchy Verteilung• ꭙ² Verteilung• Exponentialverteilung• Poissonverteilung• F-Verteilung• Γ-Verteilung• Geometrische Verteilung• Hypergeometrische Verteilung• Log-Normal Verteilung• Multinomiale Verteilung• Negative Binomial Verteilung (Pascal, NB2)• Normalverteilung• Poisson Verteilung• t-Verteilung• Gleichverteilung• Weibull Verteilung• diverse Testverteilungen• …

Binomial Verteilung

(eindimensionale) Normalverteilung

bivariate Normalverteilung


Normalverteilung in R


dnorm(x, mean = 0, sd = 1, log = FALSE)pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)

rnorm(n, mean = 0, sd = 1)

d→ Dichte (density)p→ Wahrscheinlichkeit (probability)q→ Quantil (quantile)r→ Zufall (random)


Multivariate Normalverteilung


=1

(2 ) / /( ) ( )/=

1(2 ) / /

( ) ( )/

am Beispiel einer dreidimensionalen Normalverteilung:

= =

am Beispiel einer zweidimensionalen Normalverteilung:

= =

usw.

~ℕ ,

=1

2

( )=

12

( )


Fragestellung


Versandkunden kaufen Produkte aus unterschiedlichen Sortimenten:

• Damenoberbekleidung• Heimtextilien• Wäsche

Die Merkmale DOB, Heimtex und Wäsche genügen einermultivariaten Normalverteilung mit den Parametern und .

=91,9593,5062,16

Σ =1669,08 317,16 170,33317,16 1819,09 140,05170,33 140,05 1041,41

die Verteilung (das Kaufverhalten)dieser Merkmale soll nun simuliert werden.

Mittelwertsvektor Varianz-K Σ


Lösung: Cholesky Decomposition


= =1669,08 317,16 170,33317,16 1819,09 140,05170,33 140,05 1041,41

0 00

00 0

positive definite Matrix Aℝ, symetrisch, > 0

obere Dreiecksmatrix U

untere Dreiecksmatrix Varianz-Kovarianzmatrix ∑

U = chol(Σ) U' = t(chol(Σ))

= ΣCholesky Decomposition


Ablauf der Simulation


data ΣΣ

Z X

rnorm()scale()

chol()cov()U

′′t()mean()

Ausgangsdaten

Simulationsergebnis

1 = 1 % ∗ %

Matrix mitstandardnormalverteilten

Zufallszahlen


Zahlenbeispiel


dob = rnorm(10000)htx = rnorm(10000)wae = rnorm(10000)

Mittelwertsvektor

Cholesky Faktorobere Dreiecksmatrix

standardnormalverteilte Zufallszahlen Simulationsergebnis

U

XMultiplikations-Operator in R

1 Z

Dummy-Vektor

%*%= ′

v1 = rep(1, 10000)

scale()μ'


Kontrolle


=91,9593,5062,16

Σ =1669,08 317,16 170,33317,16 1819,09 140,05170,33 140,05 1041,41

Mittelwertsvektor Varianz-K Σ

=91,9593,5062,16

Σ =1669,08 322,79 175,78322,79 1821,24 134,09175,78 134,09 1041,60

Ausgangsdaten

Simulationsergebnis


R-Code Teil 1



R-Code Teil 2



R-Code Helper Funktions



Woher weiß man, welche Verteilungen man für eine Simulation nutzen soll?


Für diese Frage gibt es mehrere Antworten:

Zunächst gibt es Verteilungen, die sich aus theoretischen Überlegungen ergeben. So genügen die Mittelwerteeiner Stichprobe - auf Grund des zentralen Grenzwertsatzes – einer Normalverteilung. Diese Aussage gilt, wenndie Population normalverteilt ist. Mit zunehmender Größe der Stichprobe (> 30) gilt die Aussage aber auch fürandere Verteilungen.

Ich habe in meinem Vortrag die negative Binomialverteilung beschrieben. Sie ergibt sich, wenn man z. B. eineMünze solange wirft, bis das erste Mal Kopf erscheint. Die Anzahl der dafür benötigten Versuche unterliegt einernegativen Binomialverteilung. Diese Verteilung ist auch unter dem Begriff Pascal Verteilung bekannt.

Man schätzt, dass es rund 13 Formen der negativen Binomialverteilung gibt (Boswell and Patil, 1970, Chancemechanisms generating negative binomial distributions in Random Counts in Models and Structures, Volume 1).Die bekannteste ist die Verteilung mit der Bezeichnung NB2. Sie ist eine Mischung aus einer Poisson- und einerGammaverteilung.

Die NB2 wird heute genutzt, um die Anzahl Besucher auf einer Webseite in einem Onlineshop zu simulieren. Dasses beim Besuch dieser Webseite zu einem Kauf kommt, kann mittels Binomialverteilung beschrieben werden. MitHilfe der Exponentialverteilung lässt sich z. B. die Distanz eines Kunden zum Geschäft beschreiben.

Fachspezifische Bücher zu bestimmten Themen enthalten ebenfalls Hinweise zu Verteilungstypen. Letztendlich istes aber die Erfahrung, die erste Hinweise dazu gibt. Vermutet man eine Verteilung, kann man zumindest mittelsstatistischen Tests prüfen, ob diese auch tatsächlich vorliegt.


Warum sind häufig Tests in der Werbung ihre Kosten nicht wert?


Betrachten wir dazu eine Werbemaßnahme um den Umsatz steigern: Mittels eines Tests (dieser Test enthält dieWerbemaßnahme) und einer Vergleichsgruppe können wir nach Ablauf des Testzeitraums für beide Gruppen dendurchschnittlich erreichten Umsatz und damit die Differenz zwischen den beiden Gruppen berechnen. Es stelltsich nun die Frage, ob diese Differenz ausreicht, um die Wirkung der Werbemaßnahme zu bestätigen.

Um Mittelwerte zu vergleichen, können wir Gebrauch vom zentralen Grenzwertsatz machen. Dieser besagt, dassdie Stichprobenmittelwerte einer Normalverteilung genügen und dass die Streuung der Stichprobenmittelwerte mitzunehmender Stichprobengöße abnimmt ( ̅ = ⁄ ).

Ist die Stichprobengröße zu klein, dann ist die Treffsicherheit des Tests gering. Der vorhandene Unterschied in denStichprobenmittelwerten verschwindet im Rauschen beider Verteilungen. Die Streuungen in den Verteilungenmachen einen vorhandenen Unterschied unsichtbar. Mit zunehmender Stichprobengröße nimmt die Streuungbeiden Mittelwerte jedoch ab und auch noch so kleine Differenzen in den Stichprobenmittelwerten werdensichtbar. In der Statistik wird diese Eigenschaft mittels einer Powerfunktion (Gütefunktion) beschrieben.

In der Praxis werden aber oft – bewusst oder unbewusst - trennschwache Tests durchgeführt. Die vorhandenenUnterschiede werden dabei nicht erkannt. Es ist also wichtig, dass im Vorfeld von Tests über die Relevanz einerWerbemaßnahme gesprochen wird. Erst dann kann die mindestens erforderliche Stichprobengröße ermitteltwerden, um mögliche Differenzen zu erkennen. Eine Kosten/Nutzen-Analyse entscheidet dann über den Einsatz.

Mit Hilfe der heute vorgestellten Simulation könnte man einen Parameter (z. B. den Mittelwert für DOB) erhöhen.Dann könnte man auf einfache Weise prüfen, ob diese Manipulation erkannt wird. Auch einem nicht mit derStatistik Vertrauten kann so anschaulich die Wirkung einer Werbemaßnahme näher gebracht werden.


Blog zur R-Initiative


• Helmut's R-InitiativeEinführung der Begriffe Statistik, Informatik, Data Mining,maschinelles Lernen, Big Data und Data Science.

• Kredit Scoring, Teil 1mit Hilfe der logistischen Regression

• Kredit Scoring, Teil 2mit Hilfe von Entscheidungsbäumen

Mit Hilfe der R-Initiative biete ich Unternehmendie Möglichkeit die Programmiersprache Runter realen Aufgabestellungen zu testen.


Dienstleistungen

• Aufbau und Weiterentwicklung eines Analyseteams

• Einrichtung und Nutzung eines Data Warehouse

• Zugriff auf Unternehmenskennzahlen mittels Excel AddIn

• Erstellen von Scoringmodellen.

• Implementierung von Data Mining Algorithmen

• Workshops zum maschinellen Lernen

• Workshops zur Programmiersprache R

• Blog zur R-Initiative auf usedata.com und LinkedIn

3 PagenBrau Union

Breuninger, StuttgartDoc Morris

Deutsche PostDonauuniversität Krems

Institut für Bildung imGesundheitsdienst

Institut f. höhere StudienJelmoli Versand

Klingel, PforzheimLa Redoute

Landesstatistik OÖLandesstatistik SBG

Landesstatistik STMKLandesstatistik VBGMagistrat SalzburgÖsterr. Institut für

KH BetriebsführungPeter Hahn GmbH.

Ulla PopkenUniversal Versand

Universitätsklinik GrazVamed, Wien

Voest, LinzWEKA Verlag Augsburg

Wiener Kranken-anstaltenverbund

Yves Rocher Deutschland

Kundenliste [email protected]

+43 6274 20804Mag. Helmut Grillenbergerüber 25 Jahre Kompetenzim analytischen Bereich

Vielen Dankfür Ihre Aufmerksamkeit!

B I G D A T A , S T A T I S T I K , D A T A M I N I N G , M A S C H I N E L L E S L E R N E N 23

Statistik Data Mining Maschinelles Lernen Simulation fileStatistik Data Mining Maschinelles Lernen Simulation Software Mag. Helmut Grillenberger - über 25 Jahre Kompetenz im analytischen

Documents