Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014 Inhaltsverzeichnis 2 Univariate Deskription und Exploration von Daten 2 3 Bivariate Deskription und Exploration von Daten 9 4 Zeitreihenanalyse 16 5 Indexzahlen 17 6 Wahrscheinlichkeitsrechnung 20
23
Embed
Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Formelsammlungfür die Vorlesung
Statistik A
Univ.-Prof. Dr. Kneip
Universität BonnStatistische Abteilung
Wintersemester 2013/2014
Inhaltsverzeichnis2 Univariate Deskription und Exploration von Daten 2
3 Bivariate Deskription und Exploration von Daten 9
4 Zeitreihenanalyse 16
5 Indexzahlen 17
6 Wahrscheinlichkeitsrechnung 20
Formelsammlung Statistik A Seite 2
2 Univariate Deskription und Exploration vonDaten
Gegeben seien Daten x1, . . . , xn eines MerkmalsX mit Ausprägungen a1, . . . , ak.
Häufigkeiten und ihre graphischen DarstellungenFormel/Notation Erläuterung
Absolute Häufigkeit h(aj) = hj Anzahl der Werte mit xi = ajRelative Häufigkeit f(aj) = fj =
hjn
Anteil der Werte mit xi = ajAbs. Häufigkeitsverteilung h1, . . . , hk Menge der abs. HäufigkeitenRel. Häufigkeitsverteilung f1, . . . , fk Menge der rel. Häufigkeiten
Diagramm BeschreibungStrichliste Für jedes ak jeweils hk Striche
Stabdiagramm Über a1, . . . , ak jeweils zur x-Achse senkrechter Strichmit Höhe h1, . . . , hk (oder f1, . . . , fk)
Säulendiagramm wie Stabdiagramm, jedoch mit Rechtecken anstattStrichen
Balkendiagramm wie Säulendiagramm, jedoch mit a1, . . . , ak auf der y-Achse
Kreisdiagramm Kreissektoren mit Winkeln αj = fj · 360, so daß Flä-che proportional zu den Häufigkeiten
Histogramm
Über den Klassen [c0, c1], . . . , (ck−1, ck] Rechtecke mitBreite δj = cj − cj−1 und Höhe gleich (oder propor-tional zu) hj/δj bzw. fj/δj. Damit ist die Fläche derRechtecke gleich (oder proportinal zu) hj bzw. fj.
• Analog zum Median kann man für ganzzahliges np ein p-Quantil aucheindeutig als den Mittelwert xp = 1
2
(x(np) + x(np+1)
)definieren.
• In Statistikprogrammen werden empirische p-Quantile gewöhnlich durchlineare Näherung aus der empirischen Verteilungsfunktion gewonnen.
Graphische Darstellung
• 5-Punkte Zusammenfassung einer Verteilung:Angabe von xmin, x0.25, xmed, x0.75, xmax.
• Boxplot:
1. x0.25 = Anfang der Box2. x0.75 = Ende der Box3. xmed durch senkr. Strich in der Box markieren4. Berechnung der „Zäune“ zu = x0.25 − 1.5 QA und zo = x0.75 +
1.5 QA
5. Zwei Linien („whiskers“) gehen von der Box aus zum kleinsten undgrößten Beobachtungswert innerhalb des Bereichs [zu, zo] der Zäu-ne. (Üblicherweise werden die Endpunkte durch senkrechte Strichemarkiert.)
6. Beobachtungen außerhalb der Zäune zu, zo werden einzeln mar-kiert.
Gegeben seien zwei Merkmale X und Y mit den möglichen Ausprägungena1, . . . , ak für X und b1, . . . , bm für Y .Die Urliste enthält für jedes Objekt die gemeinsamen Messwerte (x1, y1), . . . , (xn, yn).
Kontingenztabelle der absoluten Häufigkeiten
Eine (k×m)–Kontingenztabelle der absoluten Häufigkeiten besitzt die Form
Randverteilung des Merkmals X f1•, . . . , fk•Randverteilung des Merkmals Y f•1, . . . , f•mBedingte Häufigkeitsverteilungvon X unter der BedingungY = bj, kurz X|Y = bj
fX(a1|Y = bj) =f1jf•j
, . . . , fX(ak|Y = bj) =fkjf•j
Bedingte Häufigkeitsverteilungvon Y unter der BedingungX = ai, kurz Y |X = ai
• Rang von xi: rang(xi) = Position des i-ten Messwertes in der aufstei-gend sortierten Urliste x(1) ≤ x(2) ≤ . . . ≤ x(n) mit der Zusatzregel,dass gleichen Messwerten (sog. Bindungen, „ties“) jeweils das Mittelihrer Ränge zugewiesen wird.
• Mittel aller Ränge: rangX = 1n
n∑i=1
rang(xi) = 1n
n∑i=1
i = n+12
• Spearmans Korrelationskoeffizient :
rSP =
n∑i=1
(rang(xi)− rangX)(rang(yi)− rangY )√n∑i=1
(rang(xi)− rangX)2n∑i=1
(rang(yi)− rangY )2
• Wertebereich: rSP ∈ [−1, 1]
• Rechentechnisch günstige Version:Unter der Voraussetzung, dass keine Bindungen („ties“) auftreten(d.h., xi 6= xj, yi 6= yj für alle i, j), gilt:
rSP = 1−6
n∑i=1
D2i
n(n2 − 1)
mit den Rangdifferenzen Di = rang(xi)− rang(yi), 1 ≤ i ≤ n.
Lineare Einfachregression
Gegeben seien n Beobachtungen der Merkmale Y undX: (y1, x1), . . . , (yn, xn).
• Lineare Einfachregression:
yi = α + βxi + εi, i = 1, . . . , n
• Parameter α, β: α bezeichnet den Achsenabschnitt, β die Steigung.
• Fehlerterme εi. (Annahme: Unsystematische Schwankung um 0.)
4 ZeitreihenanalyseGegeben sei eine zeitlich geordnete Folge von n Beobachtungen eines Merk-mals X: x1, x2, . . . , xn
Graphische Darstellung
• Zeitreihenpolygon: Darstellung der Werte xt1≤t≤n in Abhängigkeitvon t mit anschließender linearer Interpolation.
• Alternativ: Darstellung von xt in Abhängigkeit vom Datum der t-tenMessung mit anschließender linearer Interpolation.
Komponentenmodelle
• Additives Komponentenmodell:Modellierung der Zeitreihe als: xt = gt︸︷︷︸
Trend
+ st︸︷︷︸Saison
+ zt︸︷︷︸Rest
• Multiplikatives Komponentenmodell:Modellierung der Zeitreihe als: xt = gt · st · zt.Durch Logarithmieren kann ein multiplikatives Modell auf ein additivesKomponentenmodell zurückgeführt werden: lnxt︸︷︷︸
(Bemerkung: Falls n = m · l, dann mj = m für alle j)
• Geschätzte Saisonkomponente: st = sj falls t = j, l+ j, 2l+ j, 3l+ j, . . .
• Prognose (von xn+h, h ≥ 1):xn+h = gn+h + sn+h (additiv) bzw. xn+h = gn+h · sn+h (multiplikativ)
5 Indexzahlen
Klassifikation der Verhältniszahlen
• Gliederungszahl
• Beziehungszahl
• Meßzahl (einfache/zusammengesetzte Indexzahl)
Preis-, Mengen und Wertindizes
Bezeichnungen
• Bezeichnungen (Warenkorb mit m Gütern.)q0i, p0i: Menge und Preis des i-ten Gutes in der „Basisperiode 0“qti, pti: Menge und Preis des i-ten Gutes in der „Berichtsperiode t“
• Wertindex: (auch: Umsatz- oder Ausgabenindex) W0t =
m∑i=1qtipti
m∑i=1q0ip0i
• Preisindex nach Fisher: P F0t =
√P P
0tPL0t
Indexumrechnungen
• Umbasierung:Gegeben sei eine Zeitreihe von Indexzahlen (zu einer festgelegten Ba-sisperiode 0): I00 = 1, I01, I02, . . . , I0k, . . . , I0n
I?kt = I0t/I0k ergibt die auf die neue Basisperiode k umbasierte Zeitrei-he.
• Verknüpfung:Gegeben seien zwei Zeitreihen von Indexzahlen, die sich in einer Periode(hier in t) überlappen: I01, I02, . . . , I0t und Ikt, Ik,t+1, . . .
Wahrscheinlichkeiten: P (A) =Anzahl ωi in AAnzahl ωi in Ω
=#A
#Ω=
#A
N
Bedingte WahrscheinlichkeitBedingte Wahrscheinlichkeit von A gegeben B
P (A|B) =P (A ∩B)
P (B)für A,B ⊂ Ω mit P (B) > 0
Unabhängigkeit von Ereignissen• Zwei Ereignisse A und B heißen stochastisch unabhängig, wennP (A ∩B) = P (A) · P (B)
• Ereignisse A1, . . . , An heißen stochastisch unabhängig, wenn für jede Aus-wahl Ai1 , . . . , Aik mit k ≤ n gilt:P (Ai1 ∩ . . . ∩Aik) = P (Ai1) · P (Ai2) · · ·P (Aik)
Multiplikationssatz• Für Ereignisse A1, . . . , An gilt:
P (A1∩. . .∩An) = P (A1)·P (A2|A1)·P (A3|A1∩A2) · · ·P (An|A1∩. . .∩An−1)
• Falls die Ereignisse A1, . . . , An unabhängig sind, gilt:P (A1 ∩A2 ∩ . . . ∩An) = P (A1) · P (A2) · · ·P (An)
Totale Wahrscheinlichkeit und Satz von BayesSeien A1, . . . , An Ereignisse, die eine Zerlegung von Ω bilden (d.h. Ω ist disjunkteVereinigung der Ai; es gilt: Ai 6= ∅, Ai∩Aj = ∅, i 6= j, und A1∪A2∪ . . .∪An = Ω).