Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler <[email protected]> Mainz, 4. Mai 2017 Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation SS 2017 1 / 25
27
Embed
Statistics, Data Analysis, and Simulation SS 2017 · Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler...
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Ziel ist die Berechnung der Wahrscheinlichkeitsdichte f (t) fürdie Zeitdifferenz t zwischen zwei Ereignissen, wobei dieEreignisse zufällig mit einer mittleren Rate λ auftreten. AlsBeispiel kann der radioaktive Zerfall mit einer mittlerenZerfallsrate λ dienen.Die Wahrscheinlichkeitsdichte der Gammaverteilung istgegeben durch
f (x ; k) =xk−1e−x
Γ(k)mit Γ(z) =
∫ ∞0
tz−1e−tdt ; Γ(z+1) = z!
und gibt die Verteilung der Wartezeit t = x vom ersten bis zumk -ten Ereignis in einem Poisson-verteilten Prozess mitMittelwert µ = 1 an. Die Verallgemeinerung für andere Wertevon µ ist
f (x ; k , µ) =xk−1µke−µx
Γ(k)
Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation SS 2017 3 / 25
Ist x eine reelle Zufallsvariable mit der Verteilungsfunktion F (x)und der Wahrscheinlichkeitsdichte f (x), so bezeichnet man alsihre charakteristische Funktion den Erwartungswert der Größeexp(ıtx):
ϕ(t) = E [exp(ıtx)]
also im Fall einer kontinuierlichen Variablen ein Fourier-Integralmit seinen bekannten Transformationseigenschaften:
ϕ(t) =
∫ ∞−∞
exp(ıtx) f (x)dx ⇔ f (x) =1
2π
∫ ∞−∞
exp(−ıtx)ϕ(t)dt
Insbesondere gilt für die zentralen Momente:
µn = E [xn] =
∫ ∞−∞
xn f (x)dx
ϕ(n)(t) =dnϕ(t)
dtn = ın∫ ∞−∞
xn exp(ıtx) f (x)dx
ϕ(n)(0) = ınµn
Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation SS 2017 5 / 25
Das Gesetz der großen Zahl (the law of large numbers) ist einTheorem, das das Ergebnis beschreibt, sollte ein Experimenthäufig wiederholt werden.Angenommen, dass in n statistisch unabhängigenExperimenten das Ereignis j insgesamt nj mal aufgetreten ist.Die Zahlen nj folgen einer Binomialverteilung, und dasVerhältnis hj = nj/n ist die entsprechende Zufallsvariable. DerErwartungswert E [hj ] ist die Wahrscheinlichkeit pj für dasEreignis j : pj = E [hj ] = E [nj/n]Für die Varianz gilt dann (Binomialverteilung!):
V [hj ] = σ2(hj) = σ2(nj/n) =1n2 · σ
2(nj) =1n2 · npj(1− pj)
Da das Produkt pj(1− pj) immer ≤ 14 ist, gilt die Ungleichung
σ2(hj) < 1/n
bekannt als das Gesetz der großen Zahl.Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation SS 2017 6 / 25
Der Zentrale Grenzwertsatz - The central limit theorem
Der zentrale Grenzwertsatz (ZGS) ist der wichtigste Satz in derStatistik. Unter anderem erklärt er die zentrale Bedeutung derGauß-Verteilung.Die Wahrscheinlichkeitsdichte der Summe w =
∑ni=1 xi einer
Stichprobe aus n unabhängigen Zufallsvariablen xi mit einerbeliebigen Wahrscheinlichkeitsdichte mit Mittelwert 〈x〉 undVarianz σ2 geht in der Grenze n→∞ gegen eineGauß-Wahrscheinlichkeitsdichte mit Mittelwert 〈w〉 = n〈x〉 undVarianz V [w ] = nσ2.
Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation SS 2017 7 / 25
Numerische Berechnung von Stichprobenmittel und -varianz
Bekannte Formeln: x =1n
n∑i=1
xi s2 =1
n − 1
n∑i=1
(xi − x)2.
Die Berechnung erfordert jedoch, dass die Daten zweimal eingelesenwerden müssen. Allerdings lässt sich die Berechnung - wichtig fürgroße Stichproben - auch in einer Schleife durchführen:
s2 =1
n − 1
n∑i=1
(xi − x)2 =1
n − 1
n∑i=1
x2i −
1n
(n∑
i=1
xi
)2 .
Zwei Summen müssen berechnet werden:
Sx =n∑
i=1
xi Sxx =n∑
i=1
x2i
Mittelwert und Varianz ergeben sich gemäß:
x =1n
Sx s2 =1
n − 1
(Sxx −
1n
S2x
).
Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation SS 2017 11 / 25
Numerische Berechnung von Stichprobenmittel und -varianz
Unter Umständen müssen dabei große Zahlen voneinanderabgezogen werden. Je nach Darstellung von Zahlen auf demComputer kann dies zu numerischen Problemen führen. Daherist es besser eine grobe Schätzung des Mittelwertes xe (etwader erste Messwert) zu verwenden:
Tx =n∑
i=1
(xi − xe) Txx =n∑
i=1
(xi − xe)2
Damit erhält man:
x = xe +1n
Tx s2 =1
n − 1
(Txx −
1n
T 2x
).
Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation SS 2017 12 / 25
1.7.1 Zufallsvariable in zwei DimensionenDie mehrdimensionale Wahrscheinlichkeitsdichte f (x , y) derzwei Zufallszahlen x und y ist definiert durch dieWahrscheinlichkeit, das Variablenpaar (x , y) in den Intervallena ≤ x < b und c ≤ y < d zu finden
P(a ≤ x < b, c ≤ y < d) =
∫ d
c
∫ b
af (x , y) dx dy
Normierung: ∫ ∞−∞
∫ ∞−∞
f (x , y) dx dy = 1
Gilt:f (x , y) = h(x) · g(y)
dann sind die zwei Zufallsvariablen unabhängig.
Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation SS 2017 13 / 25
Die Funktion einer Zufallsvariablen ist selbst wieder eineZufallsvariable. Die Wahrscheinlichkeitsdichte fx (x) derVariablen x soll vermöge y = y(x) in eine andere Variable ytransformiert werden:
fx (x)y = y(x)
−→fy (y)
Betrachte: Intervall (x , x + dx)→ (y , y + dx)Bedenke: Die Flächen unter den Wahrscheinlichkeitsdichten inden jeweiligen Intervallen müssen gleich sein.
fx (x)dx = fy (y)dy ↪→ fy (y) = fx (x(y))
∣∣∣∣dxdy
∣∣∣∣
Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation SS 2017 22 / 25
Zwei Zufallsvariablen x und y seien durch ihreWahrscheinlichkeiten fx (x) und fy (y) gegeben. Offensichtlichist ihre Summe w = x + y ebenfalls eine Zufallsvariable. DieWahrscheinlichkeitsdichte der Summe w sei fw (w). Sie wirddurch erhalten durch eine Faltung von x mit y .