WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 11.06.2013 Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013 Zweidimensionale Datensätze (Fortsetzung) 3. Regressionsanalyse: lineare Regression, Methode der kleinsten Quadrate Grundlagen der Zeitreihenanalyse 1. Komponentenzerlegung von Zeitreihen 2. Trendbestimmung von Zeitreihen 3. Glätten von Zeitreihen Literatur: Degen, Horst / Lorscheid, Peter: Statistik-Lehrbuch, 2. Aufl., München-Wien 2002, S. 62–86, 87–98. Mosler, Karl und Schmid, Friedrich: Beschreibende Statistik und Wirtschaftsstatistik, 4. Aufl., Berlin-Heidelberg-New York 2009, S. 153–201, 203–221. von der Lippe, Peter: Deskriptive Statistik, Stuttgart 1993, Online-Ausgabe, S. 259 – 301, S. 393 – 420. Wewel, Max C.: Statistik im Bachelor-Studium der BWL und VWL, 2. erw. Aufl., München 2011, S. 97 – 123. Übungsaufgaben: SS 08 A4. WS 08/09 A4. SS 10 A5. WS 10/11 A4. WS 11/12 A2. SS 12 A5.
28
Embed
Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
WISTAWIRTSCHAFTSSTATISTIK
PROF. DR. ROLF HÜPEN
FAKULTÄT FÜR
WIRTSCHAFTSWISSENSCHAFT
Seminar für Theoretische Wirtschaftslehre
Vorlesungsprogramm 11.06.2013
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zweidimensionale Datensätze (Fortsetzung)
3. Regressionsanalyse: lineare Regression, Methode der kleinsten Quadrate
Es wird unterstellt, das eine metrische Merkmal (die unabhängige Variable, im Folgenden immer mit 𝑥bezeichnet) beeinflusse das andere metrische Merkmal (die abhängige Variable, im Folgenden immer mit 𝑦bezeichnet). Gesucht ist also die Funktion
𝑦 = 𝑓 𝑥 ,
durch welche die gegebenen 𝑛 Wertepaare 𝑥𝑖 , 𝑦𝑖 generiert werden.
Bei der linearen Regression wird angenommen, die gesuchte Funktion sei linear von der Form
𝑦 = 𝑎 + 𝑏 ⋅ 𝑥
Die vorliegenden Wertepaare erfüllen diese Beziehung in der Regel nicht exakt, d. h. es gibt Abweichungen
𝑢𝑖 = 𝑦𝑖 − 𝑎 + 𝑏 ⋅ 𝑥𝑖 , 𝑖 = 1, … , 𝑛
Die lineare Einfachregression läuft also darauf hinaus, die durch den Datensatz gegebene Punktwolke im
Streudiagramm durch eine Gerade so anzunähern, dass die Abweichungen 𝑢𝑖 möglichst gering sind.
3Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
12Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Begriff der Zeitreihe
Zeitreihen entstehen bei statistischen Längsschnittanalysen. Ein Merkmal X wird zu
verschiedenen, aufeinander folgenden Zeitpunkten oder Zeitintervallen erhoben.
Dadurch erhält man eine zeitlich geordnete Abfolge von Beobachtungswerten.
Der Gegenbegriff ist die statistische Querschnittanalyse, bei der sich die
Beobachtungswerte verschiedener statistischer Einheiten alle auf ein- und denselben
Zeitpunkt oder Zeitraum beziehen.
Definition: Eine Folge von Beobachtungswerten
Zeitreihenanalyse
welche in der Reihenfolge 𝑥1, 𝑥2, … , 𝑥𝑛 zeitlich nacheinander beobachtet wurden, heißt
Zeitreihe. 𝑡 = 1,2, … , 𝑛 heißt Zeitindex.
𝑥𝑡 mit 𝑡 = 1,2, … , 𝑛
13Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Begriff der Zeitreihe
Bei Zeitreihen ist Folgendes zu beachten:
● Handelt es sich bei den Beobachtungswerten um Bestandsgrößen, so ist der
Zeitindex 𝑡 als aufeinander folgende Reihe äquidistanter Zeitpunkte zu
interpretieren. 𝑥𝑡 ist dann der Wert der Bestandsgröße zum Zeitpunkt 𝑡, also z. B.
die Einwohnerzahl Deutschlands am 9.5.2011.
● Handelt es sich bei den Beobachtungswerten um Stromgrößen, so ist der
Zeitindex 𝑡 als aufeinander folgende Reihe von Zeitperioden einheitlicher Dauer
zu interpretieren.1 In diesem Fall bezeichnet 𝑥𝑡 den während der Dauer der Periode
𝑡 kumulierten Wert der betrachteten Stromgröße, z. B. das Bruttoinlandsprodukt im
zweiten Quartal 2010.
● Empirisch gehaltvolle Aussagen erfordern, dass der im Zeitindex ausgedrückten
Modellzeit eindeutig Kalenderzeiteinheiten zugeordnet werden können.
● Der Graph einer Zeitreihe mit 𝑡 an der Abszisse und 𝑥𝑡 an der Ordinate heißt
Zeitreihendiagramm (Plot).
1) Liegen 𝑛 aufeinander folgende Zeitperioden 𝑇1, … , 𝑇𝑛 vor, so gibt es 𝑛 Stromgrößen 𝑥1, … 𝑥𝑛. Betrachtet man die damit korrespondierenden Anfangs- und
Endzeitpunkte der Perioden, so gibt es 𝑛 + 1 solcher Zeitpunkte, nämlich 𝑡0, 𝑡1, … , 𝑡𝑛 mit 𝑇𝑖 = 𝑡𝑖 − 𝑡𝑖−1. Der Zeitindex für die Bestandsgrößen ist dann 𝑡 =0,1,… , 𝑛. So gehören z. B. zu 𝑛 + 1 aufeinander folgende äquidistante Bestandsgrößen genau 𝑛 aufeinander folgende Wachstumsraten.
14Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Zeitreihendiagramm
Registrierte Arbeitslose im alten Bundesgebiet, Monatswerte
0
500 000
1 000 000
1 500 000
2 000 000
2 500 000
3 000 000
3 500 000
4 000 000
19
50
19
51
19
52
19
53
19
54
19
55
19
56
19
57
19
58
19
59
19
60
19
61
19
62
19
63
19
64
19
65
19
66
19
67
19
68
19
69
19
70
19
71
19
72
19
73
19
74
19
75
19
76
19
77
19
78
19
79
19
80
19
81
19
82
19
83
19
84
19
85
19
86
19
87
19
88
19
89
19
90
19
91
19
92
19
93
19
94
19
95
19
96
19
97
19
98
19
99
20
00
20
01
20
02
20
03
20
04
20
05
20
06
20
07
15Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Zeitreihendiagramm
Registrierte Arbeitslose in Deutschland, Monatswerte
0
1 000 000
2 000 000
3 000 000
4 000 000
5 000 000
6 000 000
19
91
19
92
19
93
19
94
19
95
19
96
19
97
19
98
19
99
20
00
20
01
20
02
20
03
20
04
20
05
20
06
20
07
16Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Komponentenzerlegung von Zeitreihen
Komponentenzerlegung von Zeitreihen
Bewegungskomponenten beschreiben charakteristische Veränderungen der Beobachtungswerte im Zeitablauf:
23Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Trendkomponente Methode der kleinsten Quadrate
Bruttoinlandsprodukt, preisbereinigt
(verkettet, 1991 = 100)
40,00
50,00
60,00
70,00
80,00
90,00
100,00
110,00
120,00
130,00
140,00
1970 1975 1980 1985 1990 1995 2000 2005 2010
Kett
en
ind
ex,
1991 =
100
Ursprungswerte
Trend, RH
Trend, KQ
24Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Glatte Komponente Methode der gleitenden Durchschnitte
Reihenglättung mit der Methode der gleitenden Durchschnitte
Version 1:
● Zum Beobachtungswert 𝑥𝑡 zu einem Zeitpunkt (oder einer Zeitperiode) 𝑡 werden 𝑚 Vorgänger- und 𝑚Nachfolgewerte hinzugezogen. 𝑥𝑡 und die hinzugezogenen Werte bilden zusammen den „Stützbereich“.
Dieser umfasst also immer eine ungerade Anzahl von Werten, nämlich 2𝑚 + 1 Werte.
● Dem Zeitpunkt (oder –intervall) 𝑡 wird sodann der Durchschnitt 𝑥𝑡 dieser 2𝑚 + 1 Werte zugeordnet.
𝑥𝑡 = 𝑡−𝑚𝑡+𝑚 𝑥𝑡
2𝑚 + 1=𝑥𝑡−𝑚 + 𝑥𝑡−𝑚+1 +⋯+ 𝑥𝑡 +⋯+ 𝑥𝑡+𝑚−1 + 𝑥𝑡+𝑚
2𝑚 + 1
Version 2:
● Der erste und der letzte Wert des Stützbereichs gehen nur mit halbem Gewicht in die Berechnung ein.
● Diese Version ist relevant, wenn eine gerade Anzahl (2𝑚) unterjähriger, saisonbehafteter Daten geglättet
werden soll, z. B. Monatsdaten (2𝑚 = 12 Monate) oder Quartalsdaten (2𝑚 = 4 Quartale). Die Saisonfigur
wird dadurch eliminiert.
𝑥𝑡 =12∙ 𝑥𝑡−𝑚 + 𝑥𝑡−𝑚+1 +⋯+ 𝑥𝑡 +⋯+ 𝑥𝑡+𝑚−1 +
12∙𝑥𝑡+𝑚
2𝑚
Für beide Versionen gilt:
● Für die ersten 𝑚 Werte und die letzten 𝑚 Werte der Zeitreihe kann der gleitende Durchschnitt 𝑥𝑡 nicht
berechnet werden, weil der Stützbereich zu klein ist.
25Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Glatte Komponente Methode der gleitenden Durchschnitte
Registrierte Arbeitslose in Deutschland 1991 - 2010
Jahr Monat ArbeitsloseGleitender
Durchschnitt m = 6Jahr Monat Arbeitslose
Gleitender Durchschnitt m = 6
⁞ ⁞ ⁞ ⁞
1991 Januar 2 631 151 2009 Januar 3 488 801 3 314 963
Februar 2 655 847 Februar 3 551 911 3 336 975
Maerz 2 539 308 März 3 585 784 3 359 535
April 2 488 886 April 3 584 798 3 380 258
Mai 2 445 961 Mai 3 458 104 3 399 371
Juni 2 435 115 Juni 3 410 036 3 416 056
Juli 2 762 324 2 640 951 Juli 3 462 446 3 428 645
August 2 735 455 2 686 174 August 3 471 513 3 437 818
September 2 638 271 2 725 618 September 3 346 459 3 440 886
Oktober 2 647 486 2 763 237 Oktober 3 228 625 3 432 707
November 2 648 999 2 799 146 November 3 215 393 3 416 247
Dezember 2 768 927 2 832 946 Dezember 3 275 526 3 396 526
1992 Januar 3 218 526 2 860 329 2010 Januar 3 617 485 3 374 552
Februar 3 153 811 2 881 518 Februar 3 643 381 3 351 467