This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1.1
Kapitel 1: Einführung
1.1 Technische Vorbemerkungen
1.2 Inhaltliche Gliederung und Ziele der Veranstaltung
1.2
1.1 Technische Vorbemerkungen
• Vorlesung 2 SWS, Übung 1 SWS
- Vorlesung (Riphahn): Mo. und Mi. 8:00-09:30
- Übung (Eschelbach): Do. 15:00-16:30 (LG 0.224) Beginn: 16.12.10, oder
Fr. 11:30-13.00 (Raum 4.109), Beginn: 17.12.2010
- Details und Aktuelles auf der Webseite des Lehrstuhls
• Sprechstunden:
- Riphahn: vor / nach Vorlesung o. nach Vereinbarung (Mittwoch 11-12)
- Eschelbach: vor / nach Übung, oder Montag 14-15 Uhr
ist asymptotisch χ2-verteilt mit R – K Freiheitsgraden (R = Anzahl der
Momentenbedingungen, K = Anzahl der geschätzten Parameter). Dieser
Test wird als Sargan Test oder als Test der überidentifizierenden Bedin-
gungen (overidentifying restrictions test) bezeichnet.
• ξ kann vereinfacht bestimmt werden als N ⋅ R2 einer Regression der IV-
Residuen iε auf alle Instrumente zi. Die Nullhypothese besagt, dass die Da-
ten mit den R Momentenbedingungen übereinstimmen. Wird sie verworfen,
bleibt jedoch ungeklärt, welche der Bedingungen problematisch ist.
• Weiß man vorher, dass ein Teil der R Bedingungen, z.B. R1 gilt, so lassen
sich die übrigen R – R1 Bedingungen testen, wenn das Modell mit R1 identi-
2.69
fiziert ist, d.h. 1R K≥ . Man bestimmt zunächst ξ für alle R Bedingungen und
anschließend ξ1 für die R1 gültigen Bedingungen. Die Teststatistik für die R –
R1 unsicheren Bedingungen lautet dann ξ – ξ1. Sie ist unter H0 approximativ
χ2-verteilt mit R – R1 Freiheitsgraden. Dieser Test ist mit dem Sargan-Test
identisch, wenn R1 = K.
2.70
2.5.4 Schwache Instrumente
• Wenn die Instrumentvariablen nur schwach mit den endogenen Variablen
korrelieren, kann der IV-Schätzer stark verzerrt und inkonsistent sein. Seine
Verteilung kann sich stark von der Normalverteilung unterscheiden.
• Wenn das Instrument gültig ist, ist der Schätzer konsistent und konvergiert
gegen
i i
2
i i
cov z ,y
cov z ,xβ = .
Ist das Instrument nicht mit xi korreliert, konvergiert der Nenner gegen 0. 2,IVβ
ist inkonsistent und der Schätzer konvergiert nicht gegen die Normalvertei-
lung.
2.71
• Um zu prüfen, ob ein Instrument gültig ist, betrachtet man die Erklärungs-
kraft der Instrumente einer Hilfsregression. Im Modell mit der endogenen Va-
riable x2i i 1i 1 2i 2 iy x ' x= β + β + ε
mit exogenem x1i, 1i iE x 0ε = und mit dem Instrument z2 mit 2i iE z 0ε =
schätzt man
2i 1i 1 2i 2 ix x ' z '= π + π + υ .
Wenn π2 = 0, sind die Instrumente nicht gültig und der IV-Schätzer ist inkon-
sistent. Ist π2 nahe bei Null, sind die Instrumente schwach. Als Daumenregel
sagt man, dass man auf die Instrumente vertrauen kann, wenn die F-
Statistik für H0: π2 = 0 größer als 10 ist. Bei F-Werten kleiner als 5 ist mit fini-
te sample bias im IV-Schätzer zu rechnen. Daher werden die F-Statistiken
2.72
der Schätzung der reduzierten Form bei IV-Schätzern in der Regel mit an-
gegeben.
• Bei schwachen Instrumenten ist deren Exogenität besonders wichtig, da sich
andernfalls Inkonsistenzen der IV-Schätzung ergeben, die weit größer sind
als das Ausgangsproblem der KQ-Schätzung. Für das einfache Regressi-
onsmodell y x u= β + mit Instrument z gilt
( )( ) ( )
IV
KQ
ˆ Cor z,uplim 1ˆ Cor x,u Cor z,xplim
β − β= ×
β − β
Wenn bspw. Cor (z, x) = 0,1, dann ist der IV-Schätzer schlechter als der KQ-
Schätzer sobald Cor (z, u) / Cor (x, u) > 0,1.
• Eine weitere Konsequenz schwacher Instrumente ist die geringe Präzision von IV-Schätzern. Im einfachen Modell gilt: ( ) ( ) 2
IV KQ xzˆ ˆVar Var / rβ = β , wobei 2
xzr
2.73
der quadrierte Stichprobenkorrelationskoeffizient für x und z ist. Somit zeigt
ein im Vergleich zum KQ-Standardfehler großer Standardfehler der instru-
mentierten endogenen erklärenden Variablen ein schwaches Instrument z.
• Beispiel: Uni-Nähe wird als Instrument der Schulbildung (s) in einer Lohnre-
gression verwendet. Das Polynom zweiter Ordnung für potentielle Arbeits-
markerfahrung (e) wird durch ein Alterspolynom ersetzt. Das Lohnmodell
lautet:
2
i 1 i 2 i 3 i 2 i ilnw s e e x ' u= α + β + β + β + γ + .
x2 ist ein Vektor exogener Kontrollvariablen.
2.74
Ist Alter ein gutes Instrument? ja, da hoch korreliert mit Erfahrung; nein wenn
korreliert mit unbeobachteten Größen (z.B. soziale Fähigkeiten), die auch
Löhne beeinflussen können.
2.75
Tabelle 4.5. Returns to Schooling: Instrumental Variables Estimatesa
OLS IV
Schooling (s) 0.073 0.132 (0.004) (0.049)
R2 0.304 0.207
Shea's partial R2 - 0.0064
First-stage F-statistic for s - 8.07 a Sample of 3,010 young males. Dependent variable is log hourly wage. Coefficient and standard error for schooling given; estimates for experience, experience squared, 26 control variables, and an intercept are not reported. For the three endo-genous regressors - schooling (s), experience (e), and experience squared (e2) – the three instruments are an indicator for whether a four-year college (col) is nearby, age, and age squared. The partial R2 and first-stage F-statistic are weak instruments di-agnostics explained in the test.
Quelle: Cameron und Trivedi, 2005, S.111.
2.76
Der KQ-Schätzer von 0,073 ist inkonsistent, wenn unbeobachtete Größen
eine Rolle spielen. Der IV-Schätzer ergibt 0,132 aber mit deutlich größerem
Standardfehler. Im Modell mit mehreren endogenen erklärenden Variablen
gilt
( ) ( )1,2SLS 1,KQ pˆ ˆse se /Rβ = β
wobei 2
pR das partielle R2 der Regression der um den Effekt anderer erklä-
render Variablen bereinigten endogenen Variable auf das ebenso bereinigte
Instrument ist:
( ) ( )1 1x x z z '− = − γ + υ
1x und z sind vorhergesagte Größen.
2.77
Das partielle 2
pR der schooling-Variable beträgt hier 0,0064 = 0,082. Tatsäch-
lich ist der IV-Standardfehler nicht um p
1 112,5
R 0,08= = sondern um den
Faktor ( )( )
1,2SLS
1,KQ
ˆse β 0,04912,25
ˆ 0,004se β= = größer, fast exakt wie erwartet. Das In-
strument scheint keine enge Korrelation mit s zu haben, der t-Wert von 1β
fällt von 19,64 im KQ-Fall auf 2,68 im IV-Fall. Schon eine kleine Korrelation
des Instruments mit u kann zu Inkonsistenz von IV
1β führen.
Der F-Wert für die gemeinsame Signifikanz der drei Instrumente in Bezug
auf s beträgt 8,07.
(s. Cameron & Trivedi 2005, Kapitel 4.9.6)
2.78
2.5.5 Indirect Least Squares
• Ein gelegentlich verwendetes Schätzverfahren verfährt wie folgt:
( ) ( )U'' C U' C− ), der die intertemporale Substitutionselastizität für den Kon-
sum in verschiedenen Perioden misst. Im Beispiel kann eine Konsumreduk-
tion in Periode t um 1% nur durch eine Erhöhung des Konsums in Periode
2.103
t+1 um 91 bzw. 57% ausgeglichen werden, wenn der Nutzen gleich bleiben
soll. Die Individuen sind extrem risikoscheu.
• Mit einem „overidentifying restrictions“-Test lässt sich prüfen, ob alle R = 11
Momentenbedingungen zutreffen. Die Ergebnisse in Tabelle 5.4 ergeben,
dass diese Nullhypothese nicht verworfen werden kann. Bei R – K = 11 – 2
= 9 Freiheitsgraden beträgt der kritische χ2-Wert am 5%-Niveau 16,92. Sta-
tistisch ist das Modell nicht zu verwerfen, inhaltlich sind die Schätzergebnis-
se wenig plausibel.
2.104
Literatur
Verbeek, 2004, 5. Kapitel
Angrist, Joshua A. und Jörn-Steffen Pischke, 2009, Mostly Harmless Econome-trics, Chapter 4: Instrumental Variables in Action.
Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel Data, MIT Press, Chapter 5: Instrumental Variables Estimation of Single-Equation Linear Models.
Cameron, Colin A. und Pravin K. Trivedi, 2005, Microeconometrics. Methods and Applications, Cambridge Univ. Press, Chapter 4.8 und 4.9.
Pischke, Jörn-Steffen und Till von Wachter, 2008, Zero Returns to Compulsory Schooling in Germany: Evidence and Interpretation, Review of Economics and Statistics 90 (3), 592 - 598.
3.1
Kapitel 3: Paneldatenmodelle
3.1 Einführung
3.2 Das statische lineare Modell
3.3 Illustration: Modelle für individuelle Löhne
3.4 Dynamische lineare Modelle
3.5 Illustration: Lohnelastizität der Arbeisnachfrage
3.6 Illustration: Kapitalstruktur von Unternehmen
3.2
3.1 Einführung
• Paneldaten bestehen aus wiederholten Beobachtungen für gegebene Einhei-
ten. Daher sind einzelne Beobachtungen nicht wie bei Querschnittsdaten un-
abhängig voneinander.
• Qualität von Paneldaten häufig durch fehlende Beobachtungen einge-
schränkt: Panelausfall (Panelattrition, Panelmortalität); balanced vs.
unbalanced panels (vollständige und unvollständige Datensätze).
• Vorteil von Paneldaten: Verhaltensänderungen von Beobachtungseinheiten
messbar. Paneldaten erlauben, Beobachtungseinheiten mit sich selbst in ei-
ner anderen Periode zu vergleichen.
3.3
• Beispiel: Es lässt sich feststellen, ob ein mittlerer Konsumanstieg um 2% da-
rauf zurückzuführen ist, ob alle um 2% mehr konsumieren oder z.B. ein Teil
um 4% und der andere um 0%.
• Indices: Beobachtungseinheit i = 1,2,…,N, Periode t = 1,2,…,T. Im linearen
Modell
it 0 it ity x '= β + β + ε (3.1)
wird unterstellt, dass Steigungsparameter konstant sind für alle i und t. Unter
herkömmlichen Annahmen ist KQ unverzerrt, konsistent und effizient. Aller-
dings sind bei Paneldaten oft i-spezifische Störterme über Perioden hinweg
korreliert. Dann ist KQ ineffizient.
• Bei Paneldaten wird häufig unterstellt
3.4
it i ituε = α + . (3.2)
Für uit wird Homoskedastie angenommen. αi ist konstant unbeobachtet, i-
spezifisch und über die Individuen hinweg homoskedastisch. Das Modell wird
als error components oder random effects Modell bezeichnet. Eine FGLS-
Schätzung wäre effizienter als KQ.
• Die Annahme Exit εit = 0 besagt, dass die Regressoren weder mit uit noch
mit αi korreliert und exogen sind. Exit αi = 0 ist oft unzutreffend.
• Frage: Kennen Sie ein Beispiel, bei dem Exit αi ≠ 0?
• Bei Querschnittsdaten verwendet man in dieser Situation IV, bei Paneldaten
gibt es andere Möglichkeiten.
• Im fixed effects Modell
3.5
it i it ity x ' u= α + β + (3.3)
sind αi (i = 1, 2, …, N) unbekannte Konstanten, die gemeinsam mit β ge-
schätzt werden können. Die Konstante β0 entfällt und wird durch die αi aufge-
fangen. Durch αi wird zugelassen, dass sich das Niveau von y systematisch
von Beobachtung zu Beobachtung, z.B. wegen unbeobachteter Variablen,
unterscheiden kann (Mittelwertunterschiede).
• Für uit wird Unabhängigkeit und identische Verteilung über alle i und t mit
itE u 0= und konstanter Varianz 2
uσ unterstellt. Wenn die iα als unbekannte
Parameter betrachtet werden, spricht man vom fixed effects Modell. Dann
ist die Annahme Exit αi = 0 des random effects Modells für konsistente
Schätzung nicht erforderlich.
3.6
3.1.1 Vorteile von Paneldaten
• Weil Paneldatensätze typischerweise groß sind und die erklärenden Variab-
len sowohl über „i“ als auch über „t“ variieren, sind die Schätzer in der Regel
effizienter als bei Querschnittsverfahren. Das kann sogar gelten, wenn die
gleiche Zahl von Beobachtungen vorliegt.
• Identifikation individueller Dynamik: Häufig haben Individuen, die ein Ereignis
erleben (z.B. Arbeitslosigkeit), eine höhere Wahrscheinlichkeit, dieses noch
mal zu erleben als andere. 2 mögliche Erklärungen: (a) Durch das Erlebnis
werden die Präferenzen oder Restriktionen so beeinflusst, dass ein erneutes
Ereignis wahrscheinlicher wird (state dependence, Zustandsabhängigkeit).
(b) Die Individuen werden nicht durch das Erlebnis beeinflusst, sondern un-
terscheiden sich grundsätzlich in ihrer Wahrscheinlichkeit, das Ereignis zu er-
3.7
leben (spurious state dependence). Mit Paneldaten lässt sich überprüfen,
welche der beiden Erklärungen zutrifft.
• Verzerrung aufgrund ausgelassener Variablen: Verzerrte Parameterschätzer
ergeben sich, wenn die berücksichtigten Variablen mit den ausgelassenen
korreliert sind. So ist beispielsweise der Output yit eines Unternehmens nicht
nur von den Inputs xit, sondern auch von der unbeobachteten Qualität des
Managements mi abhängig. Da bessere Manager weniger Inputs benötigen,
sind mi und xi korreliert. Schätzt man eine Produktionsfunktion
it 0 it 1 i 2 ity x ' m u= β + β + β + (3.5)
ohne mi, so ergeben sich verzerrte Werte für β0 und β1. Wenn Paneldaten
vorliegen, lässt sich das Problem lösen, da unternehmensspezifische Effekte
i 0 i 2mα = β + β als fixe Effekte mitgeschätzt werden können:
3.8
it i it 1 ity x ' u= α + β + (3.5a)
• Durch Berücksichtigung von Zeitindikatoren (Periodendummies) kann man al-
le periodenspezifischen Effekte herausrechnen, die für alle Beobachtungen
gleich sind (z.B. Konjunktureffekte). Auch dadurch lassen sich potentielle
Verzerrungen durch ausgelassene erklärende Variablen abfangen.
• Eine fixed effects Schätzung eliminiert konstante unbeobachtbare Größen
aus dem Störterm und löst dadurch verursachte Endogenitätsprobleme.
• Interne Instrumente: Besonders hilfreich können Paneldaten sein, wenn
Instrumentvariablen für endogene Regressoren oder bei Messfehlern erfor-
derlich sind. Da Transformationen der Originalvariablen (z.B. it it iw = x - x ) mit
dem zeitkonstanten unbeobachteten Störterm des Modells unkorreliert, aber
mit den erklärenden Variablen korreliert sind, eignen sie sich als Instrumente.
3.9
3.2 Das statische lineare Modell
3.2.1 Das fixed effects Modell
• Unterstellt wird ein lineares Modell mit einer von i abhängigen Konstante und
exogenen xit:
( )2
it i it it it uy x ' u , u ~ i.i.d. 0,= α + β + σ (3.6)
Die individuelle Heterogenität (αi) ist additiv verknüpft und wird als konstant
angenommen.
Das Modell kann ebenfalls mit Hilfe von N Dummyvariablen dij für jede Be-
obachtung i dargestellt werden:
N
it j ij it itj 1
y d x ' u=
= α + β +∑ (3.7)
3.10
Wenn i = j, nimmt dij den Wert 1 an, sonst 0. In diesem Modell sind neben den
Parametern für β N verschiedene α Parameter zu schätzen. Man spricht vom
„Least Squares Dummy Variables“ (LSDV) Schätzer.
• Frage: Was ist der Wert von N
i ijj 1
k d=
= ∑ ?
• Wenn N groß ist, ist ein anderes Verfahren günstiger. Dabei werden die fixen
Effekte αi durch Transformation der Daten eliminiert; zunächst schreiben wir
die Gleichung in Mittelwerten, mit ∑=t
iti yT
1y
i i i iy x ' u= α + β + (3.8)
Dann ergibt sich für ein Modell in Abweichungen von individuellen Durch-
schnitten
3.11
( ) ( )it i it i it iy y x x ' u u− = − β + − , (3.9)
dass sich die αi-Werte heraus kürzen. Diese Transformation bezeichnet man
als within-Transformation, den KQ-Schätzer für β aus diesem Modell als
within-Schätzer oder fixed effects-Schätzer. Er ist exakt identisch mit dem
LSDV-Schätzer aus (3.7):
( ) ( )( ) ( ) ( )-1N T N T
FE it i it i it i it ii=1 t=1 i=1 t=1
β = x - x x - x ' x - x y - y∑∑ ∑∑
(3.10)
• Wenn alle xit von allen uit unabhängig sind (vgl. Annahme A2), dann ist der fi-
xed effects-Schätzer für β unverzerrt. Er ist normalverteilt, wenn uit normalver-
teilt ist. Die Voraussetzung für Konsistenz ist
( ) it i itE x x u 0− = (3.11)
3.12
• Hinreichend für diese Voraussetzung ist, dass xit und uit unkorreliert sind und
dass ix nicht mit dem Störterm korreliert ist. Beide Bedingungen werden
durch
it isE x u 0= für alle s,t (3.12)
impliziert. Wenn (3.12) gilt, nennen wir xit strikt exogen. Strikt exogene Reg-
ressoren sind weder mit vergangenen, kontemporären noch mit zukünftigen
Störtermen korreliert. Dies schließt sowohl verzögerte endogene Variablen
als Regressoren (z.B. yi,t-1) aus (warum?), als auch solche xit, die mit vergan-
genen Werten von yit korreliert sind.
• Beispiel: Strikte Exogenität schließt aus, dass man in einer Arbeitsangebots-
gleichung Arbeitsmarkterfahrung berücksichtigt, weil diese dem Arbeitsange-
bot der vergangenen Perioden entspricht.
3.13
• Die N Achsenabschnitte ergeben sich bei Unabhängigkeit von xit und uit aus:
i i i FEˆα = y - x' β , i = 1,2,…,N.
• Sie sind konsistent nur für T → ∞; eine hohe Anzahl von Beobachtungseinhei-
ten N verbessert nicht die Konsistenz der einzelnen Schätzer von αi. iy und ix
bleiben unverändert.
• Die Varianz-Kovarianz-Matrix von FEβ lautet hier:
( ) ( )1N T
2
FE u it i it ii 1 t 1
ˆV x x x x '−
= =
⎛ ⎞β = σ − −⎜ ⎟⎝ ⎠∑∑ . (3.13)
• Der KQ-Schätzer auf Basis der within Regression (3.9) unterschätzt die wah-
re Varianz, es sei denn, dass T sehr groß ist. Der Grund dafür ist, dass die
individuellen, transformierten Residuen sich zu Null addieren und die
3.14
Störterm-Kovarianz-Matrix singulär ist. Die Varianz von ( )it iu u− ist nicht 2
uσ ,
sondern 2
u
T 1
T
−σ .
• Wenn ( )it it i it FE it i it i FEˆ ˆˆ ˆu y x ' y y x x '= − α − β = − − − β , dann lautet ein konsistenter
Schätzer für 2
uσ :
( )N T
2 2
u iti 1 t 1
1ˆˆ u
N T 1 = =
σ =− ∑∑ (3.14)
Für Unverzerrtheit ist noch eine Korrektur für die Freiheitsgrade erforderlich,
also ( ) .K1TN
1
−−
• Im LSDV-Modell werden die Freiheitsgrade der Varianz automatisch korri-
giert.
3.15
• Unter schwachen Annahmen ist der fixed effects-Schätzer asymptotisch nor-
malverteilt, so dass herkömmliche Inferenzverfahren genutzt werden können
(z.B. t- und Wald-Tests).
• Der fixed effects-Schätzer nutzt Informationen für gegebene Individuen. Es
wird erklärt, warum yit sich von iy unterscheidet, während bei
Querschnittsverfahren erklärt wird, warum sich yi und yj unterscheiden.
• Gleichzeitig wird durch die Formulierung des Modells unterstellt, dass eine
Änderung in x zwischen Periode t und s für Beobachtung i den gleichen Effekt
hat wie zwischen zwei verschiedenen Beobachtungen i und j. Dabei stammt
die Information zur Schätzung der β nicht aus dem Vergleich von Beobach-
tungen i und j, sondern aus dem Vergleich der verschiedenen Ausprägungen
für gegebene Beobachtungen.
3.16
3.2.2 Der First Difference Schätzer
• Eine andere Möglichkeit, αi zu eliminieren, besteht darin, erste Differenzen zu
betrachten:
( ) ( )it it 1 it it 1 it it 1
it it it
y y x x ' u u
y x ' u t 2,3,...,T− − −− = − β + −
⇔ Δ = Δ β + Δ = (3.15)
• Wie zuvor beim within-Schätzer können zeitkonstante Variablen nicht berück-
sichtigt werden.
• Der KQ-Schätzer für dieses Modell ist der first difference Schätzer:
1N T N T
FD it it it iti 1 t 2 i 1 t 2
ˆ x x ' x y−
= = = =
⎛ ⎞β = Δ Δ Δ Δ⎜ ⎟⎝ ⎠∑ ∑ ∑ ∑ . (3.16)
• Der Schätzer ist konsistent, wenn gilt
3.17
( )( ) it it it it 1 it it 1E x u E x x u u 0− −Δ Δ = − − = (3.17)
• Diese Bedingung ist schwächer als die Bedingung strikter Exogenität in
(3.12), bspw. lässt sie zu, dass Exit uit-2 ≠ 0.
• Der first difference Schätzer ist weniger effizient als der within Schätzer, falls
die Störterme homoskedastisch und seriell unkorreliert sind.
• Unterstellt man statt seriell unkorrelierten uit seriell unkorrelierte Δuit, d.h. eit =
Δuit = uit - uit-1, und bspw. einen random walk für uit mit uit = uit-1 + eit, so ist der
first difference Schätzer effizienter als der within Schätzer.
• Serielle Unkorreliertheit von eit = Δuit lässt sich mittels t-Test überprüfen:
it i t 1 itˆ ˆe e t 3,4,...,T i 1,2,...,N.−= ρ + υ = =
3.18
• Wenn uit seriell unkorreliert ist, muss eit autokorreliert sein mit
corr(eit, eit-1) = -0,5.
• Wenn T = 2, sind within und first difference Schätzer identisch, vorausgesetzt,
dass der first difference Schätzer eine Regressionskonstante enthält und im
within Schätzer ein Dummy für Periode 2 berücksichtigt ist. Unterscheiden
sich die Schätzergebnisse stark, gilt u.U. Annahme (3.12) nicht.
• Der difference-in-differences Schätzer ist eine Anwendung des first difference
Schätzers. Das fixed effects Modell für yit laute
it it t i ity r u= δ + μ + α +
mit rit = 1 für die i, die in Periode t das treatment erhielten (sonst rit = 0), μ ist
ein Zeiteffekt, weitere Regressoren werden vernachlässigt.
3.19
• Mit Paneldaten können wir Personen mit und ohne treatment vorher und
nachher vergleichen. Durch first difference-Transformationen werden fixe Ef-
fekte αi eliminiert:
it it t ity r uΔ = δΔ + Δμ + Δ (3.18)
• δ kann mit KQ konsistent geschätzt werden, wenn EΔrit Δuit = 0. Es ist dabei
zulässig, dass αi mit rit und uit korreliert ist.
• Gibt es nur 2 Zeitperioden, so ergibt sich für die treated mit ri2 = 1 und die
nontreated mit ri2 = 0:
treated nontreated
i2 i2ˆ y yδ = Δ − Δ , da
3.20
treated
i2 t it
nontreated
i2 t it
treated nontreated
i2 i2
ˆy 1 u
y u
ˆy y
Δ = δ ⋅ + Δμ + Δ
Δ = Δμ + Δ
Δ − Δ = δ
• Dabei wird unterstellt, dass der Zeiteffekt Δμt für beide Gruppen identisch ist.
• Das Verfahren wird oft im Zusammenhang mit natürlichen Experimenten an-
gewendet.
3.21
3.2.3 Das random effects-Modell
• Es wird unterstellt, dass αi Zufallsfaktoren sind, die unabhängig und identisch
über die Beobachtungseinheiten verteilt sind. Das Modell lautet
( ) ( )2 2
it it i it it u iy x ' u , u ~ i.i.d. 0, ; ~ i.i.d. 0, α= μ + β + α + σ α σ (3.19)
• Der Störterm ist αi + uit und besteht aus einer i-spezifischen Komponente, die
über die Zeit konstant ist, und einem Residualterm, der über die Zeit
unkorreliert ist. Es wird unterstellt, dass αi und uit unabhängig voneinander
und von allen xjs (für alle j und s) sind.
• Das Modell wird auch als one way error component Modell bezeichnet.
3.22
• Die Struktur des Störterms impliziert Autokorrelation (wegen 2ασ ). Dadurch
sind die KQ-Standardfehler nicht korrekt und ein effizienterer GLS-Schätzer
kann verwendet werden.
• Für Beobachtung i lassen sich alle T beobachteten Störterme als αi jT + ui
übereinanderschreiben, wobei jT = (1,1,..,1)' und ui = (ui1,…,uiT)' die Dimensi-
on T × 1 haben. Die Varianz-Kovarianz-Matrix für diesen Vektor ist
2 2
i t i α T T u TV α j + u =Ω = σ j j' +σ I
wobei IT die T-dimensionale Einheitsmatrix ist. Für z.B. T = 3 ergibt sich für
Der äußere Erwartungswert bezieht sich dabei auf die Verteilung des
Propensity Scores.
• Gemeinsam werden die CIA und overlap-Bedingung als "strong ignorability"
Annahmen bezeichnet. Wenn sie zutreffen, wird der ATE identifiziert.
• Gilt hingegen statt CIA nur
( )y 0 D |x= ,
genannt "unconfoundedness for controls", und statt overlap nur die weak
overlap Bedingung
4–26
P (Di = 1| xi) < 1,
so identifiziert der matching Schätzer den ATT.
• In diesem Fall wird Selektion ins Treatment auf Basis der Ausprägungen von
y(0) ausgeschlossen, nicht aber auf Basis heterogener Treatmenteffekte. Für
alle Beobachtungen der Treatmentgruppe gibt es eine Vergleichsbeobach-
tung, aber nicht zwingend für alle Vergleichsbeobachtungen ein Treatment.
4–27
4.2.2 Verschiedene Matching-Schätzer
• Angenommen wir haben eine Treatmentgruppe (T) mit i = 1, …, NT Personen,
und für die potentielle Kontrollgruppe ohne Treatment (K) j = 1, …, NK Perso-
nen. Ferner definieren wir die absolute Distanz zwischen dem Propensity Sco-
re P(x) einer Person i aus der Treatmentgruppe und einer Person j aus der
Vergleichsgruppe:
( ) ( )i, j i jd P x P x= − .
• Nearest-Neighbour-Matching wählt für Person i die Vergleichsperson j wie
folgt aus:
( ) i, jj
K i min d=
4–28
K(i) ist die Vergleichsperson j, deren Propensity Score den geringsten absolu-
ten Abstand zu dem von i aufweist, also der nächste Nachbar.
• Dabei sind mehrere Variationen möglich, die auch kombiniert werden können:
- Nearest-Neighbour-Matching mit n Nachbarn: Es werden jedem Treated, als
nächste Nachbarn n Vergleichspersonen mit den kleinsten Werten von di,j
zugewiesen. K(i) stellt nun eine Gruppe von n Vergleichspersonen dar.
- Nearest-Neighbour-Matching ohne Zurücklegen: Jede Vergleichsperson
kann nur einer Person mit Treatment zugewiesen werden.
- Nearest-Neighbour-Matching mit Zurücklegen: Jede Vergleichsperson kann
mehreren Personen mit Treatment zugewiesen werden.
- Nearest-Neighbour-Matching mit Caliper r:
4–29
( ) i, j i, jj
K i min d |d r= <
Hierbei werden Paare mit einer Distanz, die r übersteigt, nicht zugelassen.
Damit wird verhindert, dass Vergleichspersonen einem Treated i zugewiesen
werden, die sich zu stark von i unterscheiden. Dies bewirkt oft, dass einige
Treated aus der Analyse ausgeschlossen werden, weil sich für sie keine Ver-
gleichspersonen finden, mit di,j < r.
• Radius-Caliper Matching wählt für Person i alle Personen aus der Kontroll-
gruppe als Partner aus, für die gilt:
( ) i, jK i d r= <
wobei r wieder den Caliper darstellt. Im Gegensatz zum Nearest-Neighbour-
4–30
Matching ist hierbei die Anzahl der Vergleichspersonen, die einem Treated
zugewiesen sind, variabel.
• Der Matching-Algorithmus führt für jede Treatmentbeobachtung einen Ver-
gleich zu jeder möglichen Kontrollbeobachtung durch und bestimmt anhand
der vorgegebenen Kriterien, ob eine Zuweisung einer Vergleichsbeobachtung
zur Treatmentbeobachtung erfolgt.
• Der Matching-Schätzer des ATT beruht nun nur noch auf einem Mittelwert-
vergleich. Definieren wir zunächst noch Gewichte für die Vergleichspersonen
in der Menge K(i) mit i, j
K (i)
1w
N= , wobei NK(i) die Anzahl der Vergleichsperso-
nen in K(i) darstellt.
• Unser Schätzer für den ATT ist dann:
4–31
( )
( )
T K
ATT i i, j ji T j K iT
T K
i i, j ji T i T j K iT
T K
i j ji T j KT T
1y w y
N
1y w y
N
1 1y w y
N N
∈ ∈
∈ ∈ ∈
∈ ∈
⎡ ⎤Δ = − ⋅⎢ ⎥
⎣ ⎦⎡ ⎤
= − ⋅⎢ ⎥⎣ ⎦
= − ⋅
∑ ∑
∑ ∑ ∑
∑ ∑
mit j i, ji T
w w∈
= ∑ . Dabei entspricht wj der Anzahl der Treatmentbeobachtungen,
denen die Vergleichsperson j als statistischer Zwilling zugewiesen wurde.
• Der Schätzer unterstellt keinen festen funktionalen Zusammenhang zwischen
Regressoren und Ergebnisvariable y. Ebenso wenig unterstellt der Schätzer,
dass die Treatmenteffekte für unterschiedliche Personen konstant sind.
4–32
• Die Varianz des Schätzers lautet
( ) ( ) ( )
( ) ( )
( ) ( )
T 2 K
ATT 2 ji T j KT
T 2 K
T2 jj KT
2
jj KT K
2
T T
1ˆV V y w V yN
1n V y w V y
N
w1
V y V yN N
∈ ∈
∈
∈
⎡ ⎤Δ = − ⋅⎢ ⎥
⎣ ⎦⎡ ⎤
= ⋅ − ⋅⎢ ⎥⎣ ⎦
= −
∑ ∑
∑
∑
• Analytische Varianzen können nur konsistent geschätzt werden, wenn der
Propensity Score a priori bekannt ist. Da der Propensity Score allerdings
selbst geschätzt wird, wird von vielen Autoren eine Schätzung der Varianzen
mit Hilfe von Bootstrap-Methoden vorgezogen.
• Dabei werden aus der Gesamtstichprobe mit N Beobachtungen zufällig N Be-
4–33
obachtungen mit Zurücklegen gezogen und damit erneut ATTΔ geschätzt. Dies
wird l-Mal wiederholt, so dass wir l unterschiedliche Beobachtungen für den
Schätzer erhalten und damit Varianz und Standardfehler von ATTΔ mit einer
simplen Varianzformel schätzen können. Bei Nearest-Neighbour-Matching-
Schätzern führt diese Methode allerdings nicht zu konsistenten Schätzern der
Varianzen.
• Bei kleinen Stichproben ist auch beim Matching-Schätzer davon auszugehen,
dass Treatmenteffekte verzerrt geschätzt werden. Die Wahl des Matching-
Algorithmus beeinflusst Verzerrung und Varianz:
- Nutzt man viele Nachbarn, dann kann dies zu einem höheren Bias führen,
da die ausgewählten Nachbarn im Schnitt eine höhere Distanz vom
Propensity Score der Treated aufweisen als wenn wir z.B. nur einen Nach-
4–34
barn zuordnen. Dafür wird die Varianz des Schätzers gesenkt.
- Entscheiden wir uns für Matching mit statt ohne Zurücklegen, reduziert dies
den Bias, da wir dadurch sicherstellen können, dass ähnlichere Vergleichs-
personen für die Treated gefunden werden. Dafür steigt aber die Varianz
des Schätzers.
- Nutzen wir Nearest-Neighbour-Matching mit statt ohne Caliper, senkt das
den Bias, erhöht aber die Varianz des Schätzers, weil wir weniger Beobach-
tungen verwenden.
• Neben diesen Schätzern gibt es noch einige andere Matching-Algorithmen
(z.B. Stratification Matching, Kernel Matching, Local Linear Matching).
4–35
4.2.3 Implementation von Matching-Schätzern
• Schritt 1: Auswahl einer potentiellen Vergleichsgruppe für die Treated
• Common Support-Bedingung muss gelten und ähnliche Rahmenbedingungen
für beide Gruppen vorliegen. Potentielle Vergleichsbeobachtungen sollten
über den gleichen Zeitraum beobachtet werden wie die Treatments und fak-
tisch ein Treatment erhalten können.
• Beispiel: Treatment sei eine Fortbildung für Arbeitslose, die von Arbeitsagen-
turen finanziert wird. Wenn gesetzlich geregelt ist, dass Fortbildungen für Ar-
beitslose mit Universitätsabschluss nicht finanziert werden und Arbeitslose in
bestimmten Regionen faktisch nie ein Treatment erhalten, dann würden wir
diese Personengruppen von vornherein nicht in die potentielle Vergleichs-
4–36
gruppe aufnehmen.
• Schritt 2: Entscheidung für exaktes oder Propensity Score Matching
Exaktes Matching bezüglich eines Vektors x ist praktikabel, wenn x aus einer
kleinen Anzahl von Regressoren besteht und/oder wenn wir in der Stichprobe
pro Treatmentbeobachtung viele potentielle Vergleichspersonen haben. Ande-
renfalls werden wir eher Propensity Score Matching anwenden.
• Schritt 3: Wahl der Regressoren, Schätzung des Propensity Score, Common
Support, Overlap
- Bei der Auswahl von x ist darauf zu achten, dass es sich um Determinanten
von Propensity Score P(Di = 1 | xi) und Outcome y handelt.
- Alle wichtigen Determinanten müssen vorliegen. Sonst sind die Matching-
4–37
Schätzer des Treatmenteffekts stark verzerrt, weil sich die Outcomes von
Treatments und Kontrollpersonen aufgrund der vernachlässigten Faktoren
und nicht aufgrund des Treatments unterscheiden.
• Common Support/Overlap: Nach der Schätzung von P(Di = 1 | xi) werden für
alle Beobachtungen die Treatmentwahrscheinlichkeiten vorhergesagt. Wir
prüfen, ob es möglich ist, für alle Treatments Vergleichspersonen mit ähnli-
chem Propensity Score zu finden. Durch einen Vergleich zwischen der Vertei-
lung der Propensity Scores der Treatments und der potentiellen Vergleichs-
beobachtungen ist dies erkennbar:
4–38
4–39
4–40
• Schritt 4: Wahl des Matching-Algorithmus
Entscheidung situationsabhängig (siehe Beispiel unter Schritt 5), trade-offs
zwischen Bias und Varianz. Bei wenigen Treatmentbeobachtungen mit hohen
Standardfehlern des Schätzers könnten wir uns für einen Matching-
Algorithmus mit möglichst niedriger Varianz entscheiden, z.B. Nearest-
Neighbour-Matching mit mehreren Nachbarn.
• Schritt 5: Überprüfung der Qualität des Matchings
Durch Matching haben wir eine Stichprobe generiert, die nur aus den Treated
und den zugewiesenen Vergleichsbeobachtungen besteht. Dadurch sollte das
Treatment in dieser Stichprobe nicht mehr von x abhängen und die Durch-
schnittswerte einzelner Regressoren der Treatment- und Vergleichsgruppe
4–41
nahezu gleich sein. Das lässt sich prüfen:
0
4–42
• Die standardisierte Bias wird dem t-Test vorgezogen, weil sie von der Stich-
probengröße unabhängig ist.
• Ergebnis dieser Analyse könnte sein, dass nach Matching für einige Regres-
soren weiterhin Unterschiede zwischen Treatments und Vergleichspersonen
vorliegen. Der geschätzte Treatment-Effekt könnte dann nicht allein auf das
Treatment, sondern auch auf diese Unterschiede zurückzuführen sein. Um
diese Verzerrung zu vermeiden, kann der Zuordnungsmechanismus verbes-
sert werden:
• Entweder gehen wir zurück zu Schritt 3 und wählen x neu, z.B. indem wir für
die Regressoren, bei denen sich auch nach dem Matching Unterschiede zwi-
schen Treatment- und Kontrollpersonen finden, nicht-lineare Terme oder In-
teraktionen mit anderen Regressoren in die Probit- oder Logitmodelle auf-
4–43
nehmen. Dann wird Schritt 3 bis Schritt 5 wiederholt.
• Alternativ wählen wir einen anderen Matching-Algorithmus, z.B. statt Nearest-
Neighbour-Matching mit einem Nachbarn und ohne Zurücklegen, erlauben wir
das Zurücklegen. Dadurch können Vergleichsbeobachtungen, die sich von
vielen Treatments kaum in ihrem Propensity Score unterscheiden, mehreren
Treatmentbeobachtungen zugeordnet werden. Dafür fallen einige Vergleichs-
beobachtungen, für die das Gegenteil zutrifft, weg. Danach überprüfen wir er-
neut die Matchqualität.
• Schritt 6: Robustheit der Resultate
• Schätzung des ATT mit weiteren Matching-Algorithmen und Vergleich der Er-
gebnisse.
4–44
• Prüfen, ob die Conditional Independence Annahme plausibel ist (s. Imbens
und Wooldridge, 2009, Abschnitt 5.11), z.B. Vergleich von zwei verschiede-
nen Kontrollgruppen zum Test, ob tatsächlich kein Effekt vorliegt, oder kausa-
len Effekt auf eine Outcomegröße bestimmen, die durch das Treatment nicht
beeinflusst worden sein kann (bspw. aus der Vorperiode).
4–45
4.3 Beispielstudien
4.3.1 Beispielstudie 1
• Gesucht ist der kausale Effekt von Fortbildung arbeitsloser koreanischer
Frauen auf die logarithmierte Gesamtdauer der Arbeitslosigkeit.
• Die Frauen wurden zwischen Jan. 1999 und März 2000 arbeitslos. N=973 er-
hielten Treatment (T), N=9312 sind in der Kontrollgruppe (C). Folgende Vari-
ablen stehen zur Verfügung:
C-Group T-Group mean SD mean SD ln (unemployment days) 5.39 0.68 5.51 0.37 age in years 34.9 10.8 27.8 5.57 employment days at ex-firm 901.5 481.1 653.9 806.6 education years 12.13 2.5 13.07 1.76
4–46
• Im Mittel ist die Arbeitslosigkeitsdauer der Treatmentgruppe deutlich länger.
• Überprüfung der Qualität von sequentiellem Nearest Neighbour Matching oh-
ne (greedy) und mit Zurücklegen (non-greedy):
Balance of covariates with pair matching
After sequential pair matching Before matching
Greedy Non-greedy
T C t-value T C t-value T C t-value
age 27.7 28.4 -6.1 27.8 28.1 -2.9 27.8 34.9 -76.8
job experience
(yrs)
1.8 1.9 -1.4 1.8 1.8 0.9 1.8 2.5 -21.4
last unemp. dur.
(days)
65.1 53.3 11.0 65.0 58.1 7.1 65.1 33.6 41.1
4–47
• Ergebnisse mit Zurücklegen günstiger als ohne (vgl. t-Werte). Insgesamt hat
Matching die Unterschiede zwischen den Gruppen (T, C) deutlich reduziert.
• Uns liegen die geschätzten Treatmenteffekte nach Nearest-Neighbour-
Matching ohne Zurücklegen mit Caliper vor:
Greedy pair matching with calipered propensity score
Caliper: 0.00001 Caliper: 0.0001
effect on treated (t-value) 0.248 (5.94) 0.326 (11.38)
% treated used 39% 91%
• Die Schätzer unterscheiden sich darin, dass bei einem kleinen Caliper deut-
lich weniger Beobachtungen der Treatment Group verwendet werden (39 statt
4–48
91%). Der Treatmenteffekt selbst ist in beiden Fällen ähnlich und besagt, dass
die logarithmierte Arbeitslosigkeitsdauer bei Fortbildung zwischen 0,248 und
0,326 also grob 25-33% länger ist. Beide Schätzer sind signifikant. (Quelle:
Lee, 2005, S. 90, 97)
4–49
4.3.2 Beispielstudie 2 (Girma und Paton, 2006)
• Gesucht ist der kausale Effekt der Verfügbarkeit der „Pille danach“ auf
Schwangerschaften von Teenagern in England. Dort wird seit 2000 die Ver-
fügbarkeit von Emergency Birth Control (EBC) regional ausgeweitet.
• Die abhängige Variable beschreibt die Änderung regionaler Teenager-
Schwangerschafts-Raten über die Zeit:
it s it s it 1ˆ ˆ ˆy y y+ + −Δ = −
• Die Treatmentgruppe enthält Regionen i, die EBC verfügbar gemacht haben,
die Kontrollgruppe enthält Regionen i, die EBC nicht bereit stellen.
• Gesucht ist der ATT:
4–50
1 0 1 0
i t s i t s it i t s it i t s itE y y | EBC 1 E y | EBC 1 E y | EBC 1+ + + +Δ − Δ = = Δ = − Δ =
Es handelt sich um einen Difference-in-Differences Matching Schätzer.
• 147 Regionen werden über 8 Quartale beobachtet, 59 haben EBC angeboten.
• Es wird ein Propensity Score Matching verwendet, das die Wahrscheinlichkeit
des Treatments (EBCit = 1) mittels erklärender Variablen vorhersagt.
• Propensity Score Matching generiert verlässliche Ergebnisse, wenn die Ver-
teilung der Kovariaten gemessen vor dem Treatment und bedingt auf den
Propensity Score von der Programmteilnahme unabhängig sind. Diese
balancing condition muss geprüft werden, bspw. mittels standardisierter
Bias-Maße.
• Tabelle 2 zeigt, dass bei einigen Kovariaten (z.B. target 2004, contallr,
4–51
practicer) die standardisierten Bias-Maße ebenso wie die p-Werte des Mittel-
wertvergleichs in der gematchten Stichprobe günstiger ausfallen, als in der
nicht gematchten Stichprobe:
4–52
Mean t-test for equality
of means
Variable Sample Treated Control Bias (%) Bias re-duction
• Die nächste Tabelle gibt Treatment-Effekte in Abhängigkeit vom Zeitpunkt der
Programmeinführung bei unterschiedlichen Matching-Verfahren an.
Nearest neighbour Nearest 3 neighbours
Time period Effect t-stat Effect t-stat
Year 1 0.167 0.111 -1.209 -0.845
Year 2 2.928 1.512 1.870 0.732
Quarter 1 -0.322 -0.590 -0.474 -0.925
Quarter 2 -0.159 -0.291 -0.003 -0.005
...
• Die Effekte sind klein und insignifikant. Entweder die Maßnahmen haben kei-
ne Wirkung, oder die Wirkungen sind zu klein um messbar zu sein, oder Ju-
4–54
gendliche haben bei Einführung von EBC ihr Verhalten gegenläufig ange-
passt.
4–55
4.4 Evaluation bei "selection on unobservables"
• Wir betrachten 4 Verfahren, die ohne die CIA Annahme arbeiten.
4–56
4.4.1 Natürliche Experimente und Diff-in-Diff
• Natürliche Experimente liegen vor, wenn aus exogenen Gründen für eine
Gruppe von Beobachtungen die Rahmenbedingungen geändert werden und
deren Outcomes mit denjenigen einer Gruppe ohne Änderung der Rahmen-
bedingungen verglichen werden können. Exogen bestimmte Treatment- und
Kontrollgruppe können verglichen werden.
• Das Difference-in-Differences Verfahren vergleicht vorher-nachher Ände-
rungen für beide Gruppen. Durch Differenzenbildung werden systematische
Unterschiede zwischen den Gruppen in beobachtbaren und unbeobachtbaren
Größen ausdifferenziert. Konstante individuelle unbeobachtbare Größen sind
zulässig und unproblematisch, zeitlich variable nicht.
4–57
• Beispiel 1: Erwerbstätigkeit von ursprünglich erwerbstätigen Müttern, die ihre
Kinder unmittelbar vor und nach der Elterngeldreform bekamen. Unterschiede
können kausale Effekte der Reform sein.
• Beispiel 2: Führt punktuelle Zuwanderung geringqualifizierter Arbeiter zu ei-
nem Anstieg der Arbeitslosigkeit? Vergleich vor und nach "1980 Mariel
Boatlift" von Miami und Vergleichsstädten, die ähnliche Arbeitslosigkeitsent-
wicklung hatten:
vorher
1979
nachher
1981
Differenz
Miami (T) 5,1 3,9 -1,2
Vergleichsstädte (NT) 4,4 4,3 -0,1
Differenz 0,7 -0,4 -1,1
4–58
Die Differenz der Differenzen (DID) zeigt eine Senkung der Arbeitslosigkeit
durch den Boatlift. Formal:
y0i = i's Beschäftigung ohne Zuwanderung
y1i = i's Beschäftigung mit Zuwanderung
E (y0i | c,t) = Arbeitslosigkeit in Stadt c in Jahr t ohne Zuwanderung
E (y1i | c,t) = Arbeitslosigkeit in Stadt c in Jahr t mit Zuwanderung
Unterstellt wird: E (y0i | c,t) = βt + γc, fixe Zeit-(β)- und Ort-(γ)-Effekte
E (y1i | c,t) = E (y0i | c,t) + δ, konstanter Anstieg.
Auf Individualebene:
yi = βt + γc + δ Mi + ui,
4–59
wobei: E (ui | c,t) = 0,
Mi = 1 Interaktionsterm: i lebt in Miami nach 1980, sonst Mi = 0.
Der DID-Schätzer ergibt sich durch Differenzenbildung:
E (yi | c = Miami, t = 1981) - E (yi | c = Vergleich, t = 1981)
- E (yi | c = Miami, t = 1979) - E (yi | c = Vergleich, t = 1979) = δ
Zusätzlich können Kontrollvariablen (x) berücksichtigt werden
yi = Xi' β0 + βt + γc + δ Mi + ui.
• Annahme 1: Zeiteffekte sind für beide Gruppen gleich, d.h. ohne Intervention
keine signifikanten Unterschiede. Dies ist durch Vergleich der Zeittrends in T
(Treatment) und NT (Non-Treatment) Gruppe vor und nach dem Ereignis
4–60
überprüfbar.
• Annahme 2: Die Zusammensetzung der Gruppen ändert sich nicht.
• Allgemeine Darstellung für Querschnittsdaten:
i gehört zu einer Gruppe Gi ∈ (T, NT) und ist in Periode Pi ∈ (0, 1) beobachet.
Standardmodell für Ergebnis Y ohne Treatment mit Parametern α, β, γ:
Yi (0) = α + β Pi + γ Gi + ui
Für ui wird unterstellt ( ) ( )i i i iu G ,P , und E u 0= .
Outcome Yi(1) bei treatment: Yi (1) = Yi (0) + τDID
τDID ist die Differenz der Differenzen der Erwartungswerte bei Gi = T und
Gi = NT über die Zeit und im linearen Modell schätzbar:
4–61
Yi = α + β1 Pi + γ1 Gi + τDID (Pi ⋅ Gi) + ui
Somit ( ) ( )DID 11 10 01 00ˆ Y Y Y Yτ = − − − .
• DIDτ vergleicht die Änderung im outcome der Treatmentgruppe mit dem der
Kontrollgruppe. Dies identifiziert den ATT.
• Die Vorgehensweise lässt sich auch bei weiteren Gruppen und Perioden
durch Bildung relevanter Interaktionsterme anwenden.
• Die Standardfehler des linearen Modells sind falsch, wenn Outcomes inner-
halb von Gruppen und Perioden korrelieren, bspw. wenn ui = ηGi,Pi + υi. Insbe-
sondere Autokorrelationsmuster der Form ηg, t = ηg, t-1 + ωg, t werden in der Li-
teratur diskutiert, wobei g die Gruppe G und t bzw. t-1 die Periode P indiziert.
• Schwächen des D-i-D Ansatzes:
4–62
− Keine Kontrolle für zeitlich variable unbeobachtete Effekte möglich. Klassi-
sche Wirkung Ashenfelter's Dip: Treatmentwahrscheinlichkeit hängt von
Ausprägung des Outcomes vor Treatment ab. Bei negativem Zufallsaus-
schlag erhöhte Treatmentwahrscheinlichkeit und überschätzte Treatment-
effekte.
− Voraussetzung identischer Trends (=Zeiteffekte) für Treatment- und Kont-
rollgruppe nicht immer gegeben. Beispiel 1: T und NT sind in unterschiedli-
chen Arbeitsmärkten tätig. Beispiel 2: Bevölkerungsgruppen sind von zykli-
schen Arbeitslosigkeitsschwankungen unterschiedlich stark betroffen (z.B.
Jugendarbeitslosigkeit ist volatiler).
− Zusammensetzung von T und NT Gruppen darf sich nicht ändern, sonst ver-
fälschte vorher-nachher Vergleiche.
4–63
− Typischerweise wird ein additiv separabler und homogener kausaler Effekt
unterstellt. Neuere Verfahren lockern diese Form der Modellierung.
4–64
4.4.2 Instrumentvariablen (IV) und heterogene Treatmenteffekte
(B&D, 2009, VI)
• IV-Verfahren sind anwendbar bei selection on unobservables. Es wird unter-
stellt, dass mindestens eine Determinante des assignment Mechanismus (das
Instrument z) keinen direkten Effekt auf y hat.
• Potentielle Outcomes sind von z unabhängig, Outcome-Unterschiede entlang
der Ausprägungen von z gehen auf Unterschiede in der Treatment-
wahrscheinlichkeit zurück.
• Bei homogenem Treatmenteffekt gilt αATE = αATT = αi = α.
• Unter 3 Bedingungen kann ein Instrument z α identifizieren:
4–65
(IV1) αi = α für alle i
(IV2) P (d = 1 | z) ≠ P (d = 1)
(IV3) E (u | z) = E (u)
wobei d ein Treatmentindikator ist und u das Residuum in yi = β + αi di + ui.
Schreibt man zur Abkürzung P (z) = P (d = 1 | z), so folgt
E (yi | zi) = β + α E (di | zi) + E (ui | zi)
= β + α P (zi) + E (ui)
= E (yi | P (zi)).
Unterschiedliche Ausprägungen von z (z*, z**) generieren Variation in P(z), so
dass der Standard IV-Schätzer resultiert:
4–66
( ) ( )
( ) ( )i i i iE y |z z * E y |z z * *
P z * P z * *
= − =α =
− für diskrete z,
bzw. bei kontinuierlichen z: ( )( )
cov y,z
cov d,zα = .
• Problem: IV3 ist oft nicht erfüllt, oder zi hat wenig Erklärungskraft für d (weak
instrument). In dem Fall wird α nur unpräzise geschätzt.
• Wenn IV1, die Homogenitätsannahme, nicht zutrifft, dann gilt auch die
exclusion restriction nicht mehr, da nun zi mit dem Störterm der Outcome-
Gleichung korreliert ist:
yi = β + αATE di + [ui + di (αi - αATE)]
Nur wenn di und (αi - αATE), d.h. die individuellen Vorteile aus dem Treatment,
4–67
unkorreliert sind, kann IV den ATE noch identifizieren. Andernfalls kann weder
ATE noch ATT identifiziert werden.
• Stattdessen lässt sich bei heterogenen Treatmenteffekten αLATE identifizieren,
d.h. die Wirkung von "lokalen" Unterschieden im Wert von z. Gemessen wird
der Treatmenteffekt für diejenigen Beobachtungen, für die die unterschiedli-
chen Ausprägungen von z den Treatment-Status bestimmen. Dies ist weder
ATE noch ATT. LATE ist der mittlere Effekt für solche Beobachtungen, die
aufgrund der Ausprägung von z den Treatment-Status ändern.
• Folgende Annahmen sind erforderlich:
(LATE 1) P (d = 1 | z) ≠ P (d = 1)
(LATE 2) E (u | z) = E (u)
4–68
(LATE 3) (α, ε) ⊥ z
Die ersten beiden entsprechen IV2 und IV3. LATE 3 besagt, dass das Instru-
ment weder mit dem Treatmenteffekt noch mit dem Störterm der Partizipati-
onsgleichung ε korreliert sein darf:
i
i
1 wenn d * 0d
0 sonst
≥⎧= ⎨⎩
( ) ( ) ( )( )i iiwobei d * g z , , d z 1 g z, 0= ε = ε > . 1(...) beschreibt die Indikatorfunkti-
on, die für wahre Aussagen den Wert 1, sonst 0 annimmt.
Wäre z mit ε korreliert wenn gleichzeitig ε mit u korreliert ist, so wäre z kein
gültiges Instrument mehr.
• Für yi ergibt sich
4–69
E (yi | zi) = β + P(di (z) = 1) ⋅ E(αi | di (z) = 1).
• Unter der zusätzlichen Annahme
(LATE 4) d(z) ist eine monotone Funktion von z
lässt sich der Effekt des Treatments für diejenigen Individuen ableiten, die
vom Status Nontreatment zum Status Treatment wechseln, wenn z den Wert
z** statt z* annimmt:
( ) ( ) ( )( ) ( )
i iLATEE y | z * * E y |z *
z*,z * *P z * * P z *
−α =
−
• Beispiel: In der Lohngleichung wird Bildung durch Nähe zum College (z) in-
strumentiert. αLATE misst den Lohneffekt der Bildung für diejenigen, deren
Tertiärbildungsentscheidung tatsächlich von z abhängt.
4–70
• Man findet folgende Aufteilung von Personengruppen, vereinfacht bei einem
binären Instrument, z.B. zi = 1 für College ist nah, zi = 0 für College ist weit:
zi = 0
di(0) = 0 di(0) = 1
zi = 1 di(1) = 0 Never taker Defier
di(1) = 1 Complier Always-taker
• αLATE ist der Effekt für die compliers. Der Effekt hängt davon ab, welches In-
strument gewählt wurde, da verschiedene Instrumente verschiedene Gruppen
4–71
von compliers generieren. Diese können unterschiedlich umfassend, typisch
oder politikrelevant sein.
4–72
4.4.3 Regression Discontinuity Design (RDD)
• Im Experiment ist die Treatmententscheidung zufällig. RDD stellt eine quasi-
experimentelle Situation dadurch her, dass die Treatmententscheidung von
einer kontinuierlichen, beobachtbaren Größe abhängt.
• Beispiel 1: Maimonides Rule, gesucht ist der Effekt der Klassengröße auf den
Lernerfolg von Schülern. Ab Klassenstärke 40 (80) werden diskontinuierlich 2
(3) Schulklassen gebildet. Die Gesamtschülerzahl kann als Instrument für die
Klassenstärke genutzt werden, oder man vergleicht die Leistung von Schülern
in Schulen mit z.B. ± 5 Schülern um den Schwellenwert.
• Beispiel 2: Gesucht ist der Effekt der Förderung durch Stipendien auf den
Studienerfolg. Stipendien erhalten diejenigen High School Schüler, deren
4–73
Testergebnis über einem Schwellenwert liegt. Man vergleicht die Schüler mit
Ergebnissen knapp über und knapp unter dem Schwellenwert.
4–74
• Der RDD Schätzer identifiziert einen local average treatment Effekt. Treat-
ment hängt in diskontinuierlicher Form von einer Variable z ab. Man unter-
scheidet zwei RDD Formen: sharp und fuzzy.
• Sharp RD-Design: Ausschließlich die Ausprägung von z (relativ zu einem
Schwellenwert z*) determiniert das Treatment für alle i. Es gibt keine individu-
ellen unbeobachtbaren Effekte, sondern selection on observables. Da kein
"overlap" von treatment und nontreatment vorliegt, ist matching nicht möglich.
• Man benötigt ausschließlich die Annahme, dass der erwartete Störterm der
outcome Gleichung auf beiden Seiten des Schwellenwertes (z*-, z*+) gleich
ausfällt:
E (ui | z*-) = E (ui | z*+)
4–75
dann folgt αRDD (z*) = E (yi | z*+) - E (yi | z*-)
• Beispiel: Elterngeldregime hängt von der Geburt des Kindes am 31.12.2006
vs. 01.01.2007 ab.
• Fuzzy RD-Design: Andere Faktoren als z (auch unbeobachtete) beeinflussen
den Treatment-Status. Auf beiden Seiten von z* finden Teilnahme und Nicht-
teilnahme statt.
4–76
4–77
• Beispiel: Einige israelische Schulen teilen Klassen bereits bevor oder nach-
dem 40 Schüler erreicht sind.
• Neues Problem: Die treatment Entscheidung kann nun wieder endogen sein,
nur ein Teil der Beobachtungen gehört wirklich zu exogen bestimmten
"compliers".
• Als zusätzliche Annahme muss unterstellt werden, dass in der Umgebung von
z* der Treatmenteffekt konstant und unabhängig vom Treatment-Status ist:
E (αi | d, z) = E (α | z) für z in der Nähe von z*.
• Dies ist eine starke Annahme, da es ausschließt, dass über Treatment in Ab-
hängigkeit von seinem individuellen Effekt entschieden wird. αRDD wird wieder
als local average treatment Effekt geschätzt:
4–78
( ) ( ) ( )
( ) ( ) ( )i iRDD
i
E y | z * E y |z *z * E | z z *
P z * P z *
+ −
+ −
−α = = α =
−
der mittlere Effekt des Treatments für eine zufällig gezogene Beobachtung mit
Merkmal z = z*.
• Unter der zusätzlichen Annahme gilt αRDD = ATE = ATT.
• Nachteile des RDD:
- nur ein lokaler Effekt ist identifizierbar
- z* könnte manipulierbar sein
- Individuen ändern wegen z* ihr Verhalten (z.B. Numerus clausus, Einleitung
von Geburten etc.)
- durch enge Fenster um z* sind die Stichprobengrößen klein
4–79
• Beispiel 1: Maimonides-Rule - OLS and fuzzy RD estimates of the effect of class size on fifth-grade math scores (Quelle: Angrist u. Pischke, 2009, S.266) OLS 2SLS
• Vorgehensweise: Bestimme ( )p x , sortiere Treatment- und Kontrollbeobach-
tungen in Strata s gemäß ( )p x . Prüfe, ob innerhalb jedes s die Mittelwerte der
Charakteristika von Kontroll- und Treatmentgruppe signifikant verschieden
sind. Wenn ja, engeres Stratum wählen. Wenn viele Unterschiede, dann
Interaktionsterme in Gleichung zur Vorhersage von p (x).
• Verwende nur Beobachtungen, für deren ( )p x sowohl Treatment- als auch
Kontrollbeobachtungen vorliegen.
• Im Beispiel verbleiben bei Spezifikation (a) des Logitmodells von 2490 nur
1086 Beobachtungen in der Kontrollgruppe.
Wählt man Spezifikation (b), verbleiben 1146 Kontrollgruppen-
Beobachtungen.
4–98
4–99
• Die Schätzergebnisse variieren stark mit der gewählten Vorgehensweise und
liegen zwischen 2385 $ und 560 $. Dies zeigt, wie sensibel Matchingschätzer
auf die Annahmen reagieren können.
• In Tabelle 25.6 wird 1794 $ als Benchmark verwendet. Dies ist ein Regressi-
onsschätzer für den Dummykoeffizienten in der gematchten Stichprobe nach
Dehija und Wahba (2002).
4–100
4–101
Literatur:
Angrist, J.D. und A.B. Krueger, 1999, Empirical Strategies in Labor Economics, Chapter 23 in Ashenfelter & Card (Hrsg.), Handbook of Labor Economics 3A, 1277-1366.
Battistin, Erich, Agar Brugiavini, Enrico Rettore und Guglielmo Weber, 2009, The Retirement Consumption Puzzle: Evidence from a Regression Discontinuity Approach, American Economic Review 99(5), 2209-2226.
Blundell, Richard und Monica Costa Dias, 2009, Alternative Approaches to Evaluation in Empirical Microeconomics, Journal of Human Resources 44(3), 565-640.
Caliendo, Marco, 2008, Some Practical Guidance for the Implementation of Pro-pensity Score Matching, Journal of Economic Surveys 22(1), 31-72.
Cameron Colin A. und P.K. Trivedi, 2005, Microceconometrics. Methods and Applications, Cambridge: Cambridge University Press. Kapitel 25
Cameron Colin A. und P.K. Trivedi, 2009, Microceconometrics Using Stata, Sta-ta Press. Kapitel 10
4–102
Girma, Souravel und David Paton, 2006, Matching Estimates of the Impact of over the counter emergency birth control on teenage pregnancy, Health Economics 15, 1021-32.
Heckman, James J., 2010, Building Bridges between Structural and Program Evaluation Approaches to Evaluating Policy, Journal of Economic Literature 48(2), 356-398.
Imbens, G.W. und J.M. Wooldridge, 2009, Recent Developments in the Econo-metrics of Program Evaluation, Journal of Economic Literature, 47(1), 5-86.
Imbens, G.W., 2010, Better LATE than nothing, Journal of Economic Literature 48(2), 399-423.
Lee, Myoung-Jae, 2005, Micro-Econometrics for Policy, Program, and Treat-ment Effects, Oxford Univ. Press, Oxford.
Lee, David S. und Thomas Lemieux, 2010, Regression Discontinuity Designs in Economics, Journal of Economic Literature 48(2), 281-355.
4–103
Rosenbaum, P.B. und D.B. Rubin, 1983, The central role of the propensity score in observational studies for causal effects, Biometrica 70, 41-55.
Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley & Sons, 3. Auflage. Kapitel 7.7
Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer Verlag, Heidelberg, Kapitel 7.4.
Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel Data, Cambridge: The MIT Press. Kapitel 18
5.1
Kapitel 5: LAD- und Quantilsregression
5.1 Begriffe und Motivation
5.2 Schätzverfahren
5.3 Beispiele
5.4 Eigenschaften und Interpretation
5.5 Erweiterungen
5.2
5.1 Begriffe und Motivation
• Quantil und Perzentil sind synonym. Das Quantil q einer Zufallsvariable y,
mit q ∈ (0,1), ist der Wert von y, unterhalb dessen q und oberhalb dessen 1-
q Prozent der Verteilung von y liegen:
F(yq) = q und yq = F-1(q) (5.1)
F ist die kumulative Dichtefunktion von y und F-1 ihre Umkehrfunktion.
• Beispiel: Wenn y0,99 = 200 dann ist die Wahrscheinlichkeit ein y zu finden,
das nicht größer als 200 ist, 99 Prozent.
• Das lineare Regressionsmodell beschreibt den mittleren Zusammenhang
zwischen einer abhängigen Variablen y und Regressoren x: E( y | x ). Es
5.3
wird nur das erste zentrale Moment der auf x bedingten Verteilung von y und
der mittlere Zusammenhang zwischen x und y betrachtet.
• Quantilsregressionen erweitern die Perspektive auf die Betrachtung des
Zusammenhangs an verschiedenen Stellen der auf x bedingten Verteilung
von y.
• Quantilsregressionen modellieren die auf x bedingten Quantile von y, man
schreibt Qq(y|x) = F-1(q|x). Betrachtet man q = 0,5 so spricht man auch von
Medianregression. Während der Standardfall der Quantilsregression linear
in Parametern ist, gibt es auch nicht lineare Ansätze.
• Beispiel: Wie hoch sind die Renditen auf Schulbildung und unterscheiden
sie sich über die Perzentile der Lohnverteilung hinweg? Der KQ-Schätzer
5.4
bestimmt die mittlere Bildungsrendite für die gesamte Stichprobe.
Quantilsregressionen bestimmen die Bildungsrendite getrennt für
unterschiedliche Quantile. Sie beschreiben marginale Effekte der Kovariaten
an unterschiedlichen Perzentilen der Verteilung der abhängigen Variablen.
5.5
Quelle: Andini, Corrado, 2008, The Total Impact of Schooling on Within-Groups Wage Inequality in Portugal, Applied Economics Letters 15(1-3), 85-90
5.6
Die Schätzergebnisse zeigen, dass der Renditeunterschied zwischen dem
1. und dem 9. Dezil der auf x bedingten Verteilung von y erheblich ist.
• Formal lassen sich alternative Regressionsmodelle durch die Bestimmung
einer Verlustfunktion motivieren. Dazu definieren wir den Vorhersagefehler e
als Differenz zwischen dem beobachteten Wert y und dem als Funktion von
x vorher gesagten y : e ≡ y – y .
• Die Verlustfunktion entspricht in diesem Fall
( ) ( )ˆL e L y y= − . (5.2)
• Je größer der Betrag von Vorhersagefehler e, umso größer L. E[L(e)] ist zu
minimieren. Insofern y von x abhängt, lässt sich schreiben
5.7
( )( )ˆE L y y |x⎡ ⎤−⎣ ⎦ . (5.3)
• Der optimale Vorhersagewert für y erfüllt nun
( )( )
y
ˆmin E L y y |x⎡ ⎤−⎣ ⎦ (5.4)
• Für die Spezifikation von L gibt es verschiedene Alternativen. Am häufigsten
wird eine quadratische Verlustfunktion unterstellt: L(e) = e2. Hier minimiert
der optimale Vorhersagewert E[L(e|x)] = E[e2|x].
• Wir betrachten drei Verlustfunktionen
5.8
Tab. 4.1. Loss Functions and Corresponding Optimal Predictors
Type of Loss Function Definition Optimal Predictor
Squared error loss ( ) 2L e e= E [y | x]
Absolute error loss ( )L e e= med [y | x]
Asymmetric absolute loss ( )( )1 e if e 0
L ee if e 0
⎧ − α <⎪= ⎨α ≥⎪⎩
qα [y | x]
Quelle: Cameron & Trivedi, 2005, S. 67
• Die typische Vorgehensweise bei der Verwendung der quadratischen
Verlustfunktion besteht darin, für den optimal predictor eine lineare oder
5.9
nicht-lineare Funktion E[y|x] = g(x, β) zu spezifizieren, wobei β einen Vektor
von zu bestimmenden Parametern darstellt.
• Die optimale Vorhersage: y = g(x, β) wird bestimmt, in dem die Stichproben-
verlustfunktion über die Wahl von β minimiert wird:
( ) ( )( )
N N N22
i i i ii 1 i 1 i 1
L e e y g x ,= = =
= = − β∑ ∑ ∑ . (5.5)
• Je nachdem, ob g linear oder nichtlinear in β ist, verwendet man lineare oder
nichtlineare Kleinstquadrateschätzer.
• Wenn die Verlustfunktion aus dem Absolutwert des Vorhersagefehlers
besteht, so ist der optimale Prediktor der Median von y gegeben x. Ist die
bedingte Medianfunktion linear, so kann man den least absolute deviation
5.10
(LAD) Schätzer verwenden, der die Summe der Beträge der
Vorhersagefehler minimiert:
i i iy x '− β∑ . (5.6)
• In diesen Fällen ist die Verlustfunktion symmetrisch, Abweichungen nach
oben und unten werden gleich gewichtet. Bei asymmetrischen absoluten
Verlustfunktionen finden Gewichte (1-α) Berücksichtigung. α liegt im
Intervall (0,1), Symmetrie ergibt sich, wenn α = 0,5. Als optimaler
Vorhersagewert ergibt sich das bedingte Quantil, qα[y|x]. Wenn α = 0,5 ist
dies der Median, andernfalls das bedingte α-Quantil.
• Insgesamt muss der Prediktor für y gemäß der Verlustfunktion geschätzt
werden. Das lineare Regressionsmodell impliziert eine quadratische
5.11
Verlustfunktion und unterstellt, dass der bedingte Mittelwert E[y|x] linear ist.
Jede Verlustfunktion erfordert einen anderen der grundsätzlich gleich-
wertigen Regressionsansätze.
5.12
5.2 Schätzverfahren
• Die Schätzung von Quantilsregressionen nutzt zur Minimierung der
Verlustfunktion lineare Optimierungsverfahren.
• Die Intuition des Verfahrens lässt sich wie folgt erläutern:
Wir unterstellen eine univariat verteilte Zufallsvariable y, mit N
Beobachtungen. Quantil q lässt sich bestimmen, in dem man zunächst die
Ausprägungen ordnet und dann die (N*q). Beobachtung (auf die nächst
höhere Zahl aufgerundet) herausnimmt.
• Beispiel: N = 97, q = 0,25. N*q = 97*0,25 = 24,25 – hier beschreibt der Wert
der 25. Beobachtung die Obergrenze des unteren Quartils (25. Perzentil).
5.13
• Koenker und Bassett haben 1978 gezeigt, dass das q. Stichproben-Quantil
durch Minimierung nach β bestimmt werden kann:
( )
N N
i ii: y i: yi i
q y 1 q y≥β <β
− β + − − β∑ ∑ . (5.7)
• Beispiel 1: Wenn q = 0,5 ergibt sich daraus bei N=99
( )i
i
y − β∑ . (5.8)
Wenn der wahre Wert der 50. Beobachtung 10 beträgt, würde β = 10 diesen
Ausdruck minimieren. Würde stattdessen β = 11 gewählt, so wäre für die
ersten 50 Beobachtungen die Differenz um 1 größer und für die letzten 49
Beobachtungen die Differenz um 1 geringer. Insgesamt steigt die absolute
5.14
Summe um 1, so dass die Verwendung des wahren Medianwertes
tatsächlich den Ausdruck minimiert.
yi = ... 8 9 10 11 12 ... Summe
|yi - β| bei β = 10 2 1 0 1 2 6
|yi - β| bei β = 11 3 2 1 0 1 7
• Beispiel 2: Wenn q = 0,25 ergibt sich daraus bei N = 7
( )i i
i ii: y i: y
0,25 y 1 0,25 y .≥β <β
− β + − − β∑ ∑
Wenn die 7 Ausprägungen 0, 0, 1, 1, 2, 3, 4 sind, ist der Wert des 0,25.
Quantils 7⋅0,25 = 1,75, d.h. aufgerundet der Wert der zweiten Beobachtung
5.15
der Ausprägungen, hier 0. Es lässt sich einfach zeigen, dass β = 0 den
Ausdruck minimiert:
yi = 0 0 1 1 2 3 4 Summe
bei β = 0 0 0 0,25 0,25 0,5 0,75 1 2,75
bei β = 1 0,75 0,75 0 0 0,25 0,5 0,75 3,00
• Die Zielfunktion wird zur Regression, indem der bislang konstante Wert β
parametrisiert wird:
( ) ( )
N N
N q i i q i i qi: y x ' i: y x 'i i i i
Q q y x ' 1 q y x '≥ β < β
β = − β + − − β∑ ∑ (5.9)
5.16
Zusätzlich erhält der Koeffizientenvektor einen Index q, der anzeigt, dass er
für jedes Quantil einen anderen Wert annehmen kann. Für den Fall dass q =
0,5 spricht man von der Medianregression, bzw. dem Least Absolute
Deviation (LAD) Schätzer.
• Grundsätzlich lässt sich der Standardfehler der βq berechnen, einfacher ist
jedoch die Verwendung von Bootstrapverfahren.
5.17
5.3 Beispiele
5.3.1 Bildungsrenditen (Quelle: Angrist und Pischke, 2009, Kapitel 7.1)
• In den 80er und 90er Jahren stieg in USA die Lohnungleichheit zwischen
verschiedenen Bildungsgruppen.
• Unklar ist, ob die Lohnungleichheit auch innerhalb der Gruppen von
Arbeitnehmern mit gleicher Bildung stieg. Dies lässt sich mit
Quantilsregressionen untersuchen.
5.18
Tab. 7.1.1 Quantile regression coefficients for schooling
Notes: The table reports quantile regression estimates of the returns to schooling in a model for log wages, with OLS estimates shown at the right for comparison. The sample includes U.S.-born white and black man aged 40-49. The sample size and the mean and standard deviation of log wages
5.19
in each census extract are shown at the left. Standard errors are reported in parentheses. All models control for race and potential experience.
Quelle: Angrist und Pischke, 2009, S. 273
• Die Tabelle zeigt Quantilsgressions- und KQ-Koeffizienten der
Bildungsvariable im Lohnmodell getrennt für die Jahre 1980, 1990 und 2000.
Die beschreibende Statistik zeigt, dass die Streuung der Löhne über die Zeit
gestiegen ist.
• Wäre die bedingte Verteilung der Log-Löhne symmetrisch, sollten sich für
Medianregression und Kleinstquadrateschätzer die gleichen Koeffizienten
ergeben. Die Werte unterscheiden sich nicht stark.
5.20
• 1980 sind die Koeffizienten an allen Lohnquantilen ähnlich. Egal wo man
sich in der Verteilung der auf die erklärenden Variablen bedingten Löhne
befindet, ist der Zusammenhang mit der Bildung ähnlich: Ein weiteres Jahr
Bildung erhöht die Löhne um ca. 7 Prozent.
• 2000 ergeben sich deutliche Unterschiede der Bildungsrenditen über die
bedingte log-Lohn-Verteilung. Da die höchsten Renditen bei den höchsten
Lohnquantilen zu finden sind, hat die Ungleichverteilung also auch innerhalb
der Bildungsgruppen über die Zeit zugenommen.
• Frage: Wie interpretieren wir Änderungen der geschätzten Koeffizienten
über die Zeit? Wie interpretieren wir Unterschiede in den geschätzten
Koeffizienten zwischen den Quantilen?
5.21
5.22
5.3.2 Engelkurven (Quelle: Cameron und Trivedi, 2005, Kapitel 4.6.4)
• Fragestellung: Zusammenhang zwischen Haushaltseinkommen und
Ausgaben für medizinische Versorgung in Vietnam 1997. Es werden
Elastizitäten der Ausgaben in Bezug auf Einkommen geschätzt.
• Daten: Vietnam Living Standards Survey (Weltbank), N=5006 Haushalte mit
positiven Ausgaben für medizinische Versorgung (meist für Medikamente).
Gesamte Haushaltsausgaben als einzige erklärende Variable und als
Approximation der Haushaltseinkommen.
• KQ ergibt eine Elastizität von 0,57 (Standardfehler 0,032), was als
einkommensunelastisch interpretiert wird.
5.23
• Die Quantilsregression wurde für 19 Quantile durchgeführt mit q = 0,05; 0,1;
0,15; …; 0,95. Die Standardfehler der Koeffizienten wurden mit 50
Replikationen durch Bootstrap bestimmt.
5.24
Quelle: Cameron & Trivedi, 2005, S. 89.
5.25
• Abb. 4.1 zeigt die Elastizitäten und ihr Konfidenzintervall über die Quantile
der Ausgabenverteilung hinweg. Die Ausprägungen variieren deutlich und
statistisch signifikant zwischen 0,15 und 0,80.
• Hier ergibt der konstante KQ-Parameter nur ein unvollständiges Bild des
Zusammenhangs.
• Abb. 4.2 zeigt, dass sich die Regressionsgraden der Ausgabenquantile
unterscheiden. Die KQ-Regressionsgerade ähnelt der des Medians.
Ursprünglich wurde die Quantilsregression von Koenker und Bassett (1982)
zum Test für Heteroskedastie entwickelt. Verlaufen die Linien nicht parallel,
liegt im einfachen linearen Modell Heteroskedastie nahe.
5.26
Quelle: Cameron & Trivedi, 2005, S. 90.
5.27
5.4 Eigenschaften und Interpretation
• Bei der Interpretation von Koeffizienten der Quantilsregression ist stets zu
beachten, dass sie nicht Individuen, sondern die bedingte Verteilung der
abhängigen Variable beschreiben.
• Beispiel: Positiver Effekt von Weiterbildung auf das erste Dezil der
Lohnverteilung. Dies bedeutet, dass die Löhne im untersten Dezil bei
Weiterbildung höher ausfallen, nicht dass eine Person im untersten Dezil
durch Weiterbildung besser verdient. Die Interpretation trifft für einzelne
Beobachtungen nur unter der Bedingung zu, dass sie bei Änderung der
erklärenden Variablen im gleichen Quantil bleiben.
5.28
• Da erklärende Variablen auf alle Quantile gleichzeitig wirken, ist es nicht
trivial, ihre marginalen Effekte zu bestimmen. Die Ausprägung der
erklärenden Variable bestimmt nicht nur die abhängige Variable am
betrachteten Quantil sondern auch die Verteilung der Beobachtungen über
die Quantile.
• Es lassen sich quantils-spezifische marginale Effekte wie folgt bestimmen:
( ) ( )q i i
q i i i q q j
j
Q y |xWenn Q y |x x ' , dann .
x
∂= β = β
∂
• Eine Quantilsregression bringt gegenüber KQ nur dann zusätzliche
Information, wenn das betrachtete Modell heteroskedastisch ist. Sonst gilt
βq = β = const für alle q ∈ (0, 1). Dies muss auch bei der Berechnung der
5.29
Standardfehler berücksichtigt werden (in der Regel wird Bootstrap
verwendet).
• Um kausale Effekte zu identifizieren, wurden in den letzten Jahren auch für
Quantilsregressionen IV- und 2SLS-Verfahren entwickelt.
• Quantils- und LAD-Schätzer sind im Gegensatz zu Kleinstquadrateverfahren
nicht von Ausreisserbeobachtungen beeinflusst.
• Auch bei von oben zensierten abhängigen Variablen lassen sich mit
Quantilsregressionen die Effekte der Kovariaten unverzerrt schätzen.
• Da die Zielfunktion der Quantilsregression nicht überall differenzierbar ist,
kann nicht nach den Schätzwerten abgeleitet werden. Stattdessen muss ein
rechenaufwändiges lineares Optimierungsproblem formuliert werden.
5.30
• Der Ansatz der Quantilsregressionen ist semiparametrisch, da keine
Verteilungsannahmen an den Störterm erforderlich sind.
• Die Quantilsregression erlaubt es, den Effekt einer erklärenden Variable an
verschiedenen Stellen der Verteilung zu bewerten.
• Es gibt Panelverfahren für Quantilsregressionen.
• Ein wichtiger Beitrag ist Machado und Mata (2005), die die Oaxaca-Blinder-
Dekomposition auf Quantilsregressionen übertragen.
5.31
Literatur
Andini, Corrado, 2008, The total impact of schooling in within-groups wage inequality in Portugal, Applied Economics Letters, 15, 85-90.
Angrist, Joshua D. und Jörn-Steffen Pischke, 2009, Mostly Harmless Econometrics. An Empiricists Companion, Princeton Univ. Press, Kapitel 7.
Cameron, Colin A. und Pravin K. Trivedi, 2005, Microeconometrics. Methods and Applications, Cambridge Univ. Press, Kapitel 4.6
Cameron, Colin A. und Pravin K. Trivedi, 2009, Microeconometrics using Stata, Stata Press, Kapitel 7.
Koenker, Roger und Gilbert Bassett, 1978, Regression Quantiles, Econometrica 46, 33-50.
Koenker, Roger und Gilbert Bassett, 1982, Robust Tests for Heteroscedasticity Based on Regression Quantiles, Econometrica 50, 43-62.
Machado, Jose A.F. und Jose Mata, 2005, Counterfactual Decomposition of Changes in Wage Distributions using Quantile Regression, Journal of Applied Econometrics 20, 445-465.
5.32
Weitere Beispiele
Bechtel, Stephan, 2006, Verdienststrukturen in Baden-Württemberg: Eine empirische Analyse mit Hilfe von Quantilsregressionen, Wirtschaft und Statistik 3, 316-328.