Banco Central de Reserva del Perú Curso de Actualización para Economistas Econometría Prof. Juan F. Castro Primera Sesión: Estimación e inferencia en el Modelo Lineal General 1. Introducción 1.1. ¿Qué es la econometría? Aplicación de técnicas matemáticas y estadísticas para el análisis (medición empírica) de las relaciones postuladas por la teoría económica (modelos). Modelo: representación simplificada de un fenómeno real (un sistema o proceso). Representamos este fenómeno a través de un modelo con el objetivo de: (i) explicarlo (entender qué está detrás de su ocurrencia); (ii) predecirlo (aproximar cómo ocurrirá bajo determinadas circunstancias); y/o (iii) controlarlo (saber qué se puede hacer para que ocurra de manera consistente con algún objetivo de política). Trabajamos con modelos debido a que los sistemas o procesos reales son, en general, demasiado complejos (en especial aquellos asociados a las ciencias sociales).
Econometria Primera Sesion AE2015 Curso de Actualizacion del BCRP
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Banco Central de Reserva del Perú
Curso de Actualización para Economistas
Econometría
Prof. Juan F. Castro
Primera Sesión: Estimación e inferencia en el
Modelo Lineal General
1. Introducción
1.1. ¿Qué es la econometría?
Aplicación de técnicas matemáticas y estadísticas para
el análisis (medición empírica) de las relaciones
postuladas por la teoría económica (modelos).
Modelo: representación simplificada de un fenómeno
real (un sistema o proceso).
Representamos este fenómeno a través de un modelo
con el objetivo de: (i) explicarlo (entender qué está
detrás de su ocurrencia); (ii) predecirlo (aproximar
cómo ocurrirá bajo determinadas circunstancias); y/o
(iii) controlarlo (saber qué se puede hacer para que
ocurra de manera consistente con algún objetivo de
política).
Trabajamos con modelos debido a que los sistemas o
procesos reales son, en general, demasiado complejos
(en especial aquellos asociados a las ciencias sociales).
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
2
Por lo mismo, buscamos representarlo de manera
realista y, a la vez, manejable.
o Realista: debe incorporar los principales elementos
del fenómeno (o sistema) representado,
especificando (de manera explícita) las relaciones
existentes entre las partes que lo conforman.
o Manejable: debe dejar de lado influencias (o
relaciones) de menor importancia > debemos
introducir supuestos y hacerlos explícitos.
1.2. ¿Para qué la econometría?
¿Para qué introducimos supuestos y aprendemos
técnicas de estimación distintas?... ¿es posible
distinguir algún objetivo primordial?
o Confrontar la teoría con los datos.
o “Escuchar” lo que data nos quiere decir respecto a
las ideas que tenemos sobre la manera como
ocurren las cosas.
o Aislar los efectos de una variable de interés
sobre el fenómeno bajo análisis.
Recordemos cómo hacíamos esto en el colegio >
queremos medir el efecto que tiene sobre la temperatura
de la sustancia A, el hecho de mezclarla con la
sustancia B.
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
3
¿Qué estamos suponiendo para que el experimento nos
permita recobrar el efecto de interés?
Un ejemplo más…un “experimento natural” para medir
los efectos de la protección policial
o 18 de Julio de 1994 > ataque terrorista destruye el
principal Centro Judío de la ciudad de Buenos
Aires.
o 25 Julio de 1994 > Protección policial las 24 horas
a instituciones Judías y Musulmanas.
o Se cuenta con información sobre la locación exacta
de robos de autos en tres distritos de BBAA antes y
después del ataque.
La protección policial en las instituciones Judías y
Musulmanas es exógena respecto a la distribución
del crimen
AA BB
¿Cómo hacíamos este experimento?
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
4
Di Tella, Rafael, and Ernesto Schargrodsky. 2004. "Do
Police Reduce Crime? Estimates Using the Allocation
of Police Forces After a Terrorist Attack." American
Economic Review, 94(1): 115-133.
o Grupo de control: manzanas que se encuentran a
más de 2 cuadras de distancia de un centro judío o
musulmán.
> Tienen una incidencia de crimen promedio antes
de la intervención.
o Grupo de estudio (tratamiento): manzanas que se
encuentran a 2 o menos cuadras de distancia de un
centro judío o musulmán.
> Tienen una incidencia de crimen promedio antes
de la intervención.
> Tienen mayor protección policial a raíz del
ataque.
o Resultado: grupo de estudio exhibió 75% menos de
incidencia de robos de auto que el grupo de control.
Refinando un poco mejor nuestro objetivo:
> Aislar los efectos de una variable de interés sobre el
fenómeno bajo análisis…tratado de aproximarnos, lo
mejor posible, a una situación de experimento
controlado
En ciencias sociales, tenemos menos control sobre las
cosas que pasan en nuestro “laboratorio”.
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
5
La posibilidad de que determinada técnica nos permita
recobrar el efecto de interés depende de un conjunto de
supuestos sobre la manera como han sido generados los
datos.
Técnicas “inadecuadas” tienen detrás supuestos poco
plausibles.
Hacemos supuestos sobre:
o La forma funcional que relaciona al fenómeno con
sus determinantes.
o La existencia de otros determinantes del fenómeno.
o La relación entre la variable de interés y aquellos
determinantes que no he podido observar.
No creo que algo más afecte el cambio de
temperatura y, si fuera el caso, no creo que esté
correlacionado con el hecho de que haga o no la mezcla
No creo que algo más afecte el salario de la
persona y, si fuera el caso, no creo que esté
correlacionado con el número de años de estudio
Vs.
No creo que algo más afecte el cambio de
temperatura y, si fuera el caso, no creo que esté
correlacionado con el hecho de que haga o no la mezcla
No creo que algo más afecte el salario de la
persona y, si fuera el caso, no creo que esté
correlacionado con el número de años de estudio
Vs.
En nuestro laboratorio
Relación entre el salario y los años de estudio
Quiero aislar el efecto de una variable sobre otra
Quiero medir el impacto de cambios en una variable sobre otra, ceteris paribus.
¿Depende el fenómeno bajo análisis de alguna(s) otra(s) variable(s) además de la(s) de interés?
¿Puedo observar /medir estas otras variables?
¿Está(n) correlacionada(s) con las variables que sí observo?
Sí
No Sí
No
Diferencia “simple”
Regresión multivariada por MICO
Regresión multivariada por MICO
Sí
No
Datos de panel / DiD
Regresión por VI
Diseño experimental (aleatorización)
Correcta especificación del modelo
E(/X) = 0 Estimador insesgado
Exogeneidad de los regresores
E(txt) = 0 Estimador consistente
1.3. La media condicional y el concepto de regresión
¿Cómo tornamos operativa la estimación de la relación
que existe entre un conjunto de variables de interés?
En general, podemos partir de la existencia de un vector
de resultados ( ) que contiene el valor registrado por
la(s) variable(s) cuyo comportamiento se busca explicar
/ modelar) y un vector de insumos ( ), que contiene el
valor registrado por las variables a partir de las cuales
se busca explicar el comportamiento de ).
La “realidad” puede ser representada por la función de
probabilidad conjunta que gobierna la ocurrencia de las
observaciones contenidas en y (el proceso que
genera estos datos): ( ).
Esta función de probabilidad conjunta puede expresarse
como el producto de la función de probabilidad
condicional y marginal:
( ) ( | ) ( )
En el trabajo econométrico clásico nuestro interés se
centra en el primer momento de la función de
probabilidad condicional. Es decir, la esperanza de
condicionada a los valores (realizaciones) de :
( | ).
Suponemos que los insumos (o variables explicativas)
influyen sobre la esperanza condicional a través de una
relación lineal. Esto configura lo que se conoce como el
Modelo Lineal General (MLG).
( | )
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
8
Nuestro interés se centra en estimar esta esperanza
condicional. Por lo mismo, la pregunta que buscamos
responder es: ¿cuál es el valor más probable para
dados los valores realizados de las ?
Esta esperanza es la que buscamos capture los
principales elementos del fenómeno bajo análisis. Por
lo mismo, es cierto que nos equivocaremos, pero (y en
la medida en que logremos una adecuada
caracterización de esta media condicional) no nos
equivocaremos sistemáticamente.
Para motivar lo anterior, partamos de la especificación
más sencilla (un modelo univariado) y veamos a qué
nos referimos con el concepto de “regresión”.
20
21
22
23
4.8 5.0 5.2 5.4 5.6
X
EY_DADO_X
Y_OBS
-
-
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
9
Condicionado al valor de , la esperanza del error es
igual a cero: ( | ) . En promedio, el valor
observado de está “encima” de la recta de regresión
poblacional ( | ).
Veamos un programita para animar esta discusión.
1.4. Parámetros, estimadores y estimados
“Modelo teórico” vs. “modelo empírico”.
Propiedades deseables para nuestros estimadores; la
importancia de los supuestos que haremos sobre la
manera como son generados los datos.
Representación matricial del modelo teórico.
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
10
2. Los supuestos del Modelo Lineal General
¿Por qué nos interesa hacer supuestos sobre la manera
como han sido generados los datos? ¿Cuáles son estos
supuestos?
S1. El modelo puede representarse:
( )
S2. Las variables explicativas “no están relacionadas” o
“son exógenas” respecto al error.
S2F. { } no son
estocásticas.
S2Ei. { } son
estocásticas e independientes de .
S2Eim. { } son
estocásticas y son independientes en media de
: ( | ) , por el S1. Este supuesto es
suficiente para garantizar el insesgamiento de .
S2Enc. { } son
estocásticas y no presentan correlación con (no
presentan correlación con el error de la misma
observación): ( ) ( )
por el S1. Este supuesto es suficiente para garantizar
la consistencia de .
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
11
S3. El error presenta una matriz de varianzas-covarianzas
condicional escalar: ( | ) . Este supuesto es
necesario para garantizar que el estimador MICO sea el de
mínima varianza dentro del conjunto de estimadores
insesgados.
S4N. El error se distribuye normal: ( ).
“S0”. es una matriz ( ) de rango completo.
dim Col(X) dimensión del espacio conformado por
todas las combinaciones lineales de los vectores en X
(X) dim Col(X)
(X) k
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
12
3. El estimador de Mínimos Cuadrados
Ordinarios y sus propiedades
3.1. ¿Cómo computar el estimador MICO?
( )
{( ) ( )}
3.2. Propiedades para muestras pequeñas
(i) Insesgamiento
(ii) Varianza mínima
3.3. Propiedades para muestras grandes
(i) Algunos elementos útiles de teoría asintótica
Consideremos la secuencia de variables aleatorias T T 1Y
.
Tipos de convergencia
Convergencia en ECM
ECMT
T TT T
Y q si:
lim E Y q , lim Var Y 0
Convergencia en probabilidad
P
T T
TT
Y q plimY q si:
lim Pr Y q 0
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
13
Convergencia en distribución
dT
TT
Y W si:
lim Pr Y x Pr W x x
Leyes de grandes números
T
T ii 1
ECM 2T x
PT
1Y x
T
Chebyshev: Y ; E(x) , Var(x)
Khinchine: Y ; E(x)
Teorema del Límite Central
Teorema de Lindeberg-Levy. Para una muestra i.i.d. 1 2 Tx ,x ,...x
con media ( ) y varianza ( 2 ) finitas:
dxW T N(0,1)
Lo que implica que:
T
di
i 1
x1N(0,1)
T
Algunos teoremas más
Teorema de Slutsky
Dados XT, YT: T T T Tplim g X ,Y g plimX ,plimY
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
14
T T T T
T T T T
T T T T T
plim(X Y ) plimX plimY
plim(X Y ) plimX .plimY
plim(X / Y ) plimX / plimY ; plimY 0
Teorema de Cramer
Dados d P
T TX X, Y q : d
T T
dT T
dT T
X Y X q
X Y qX
X / Y X / q
(ii) Propiedades asintóticas de MICO
Dados:
( ) [ ( )
( )
]
( )
podemos expresar la variable aleatoria de la forma:
( ) ( )
(∑
)
∑
De lo anterior, y en ausencia de correlación entre el error y
el conjunto de regresores, es posible demostrar que:
( ( ) ) sin importar .
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
15
4. La geometría y el álgebra de Mínimos
Cuadrados Ordinarios
4.1. Nuestro setting
En adelante, cada vector representará todas las
observaciones para determinada variable. De modo que los
ejes corresponderán a las observaciones en lugar de a las
variables mismas.
Gráfico 1: Tres observaciones de la variable dependiente (y)
El siguiente gráfico muestra la manera como
representaremos los datos contenidos en y como
vectores. Cada columna de es un vector. En el gráfico,
la matriz tiene dos columnas representadas por los
vectores y .
El plano que contiene todos los vectores en se denota
como ( ). Formalmente: ( ) subespacio
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
16
conformado por todas las combinaciones lineales de los
vectores en .
Gráfico 2: Representación vectorial de los datos
4.2. De regreso a Mínimos Cuadrados Ordinarios
Todos sabemos que Mínimos Cuadrados Ordinarios
(MICO) resuelve:
( ) ( )
En palabras, es el valor de que minimiza el
cuadrado de la distancia entre y los posibles .
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
17
Es posible explicar la solución al problema planteado
como un proceso en dos etapas.
(i) En la primera etapa se halla el vector en ( )
más cercano a . Denotamos a este vector como
. Formalmente:
( )
‖ ‖
Este vector ( ) viene dado por la proyección
ortogonal de sobre ( ).
Gráfico 3: Etapa 1. La proyección ortogonal
Si es la proyección ortogonal de y sobre
Col(X) y es cualquier otro vector en Col(X),
se cumple que ˆ ˆ( ) '(y ) 0 .
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
18
Tarea: A partir de la relación anterior y el
teorema de Pitágoras
2 2 2
1 2 1 2 1 2z z z z z z es posible
demostrar que 2 2
ˆy y . Es decir, que
es, por lo menos, tan cercano a y como
cualquier otro Col(X) .
(ii) En la segunda etapa se descompone como la
suma de los vectores obtenidos de multiplicar las
columnas de X por los coeficientes estimados
(). Formalmente, encontramos como la
solución a: ˆˆ X .
Gráfico 4: Etapa 2. La descomposición de
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
19
Es importante tomar en cuenta que la solución asociada a
la primera etapa es única mientras que pueden existir
diversas soluciones para la segunda.
Tarea: Es posible probar la unicidad de a partir de las
relaciones de la primera tarea.
Con estas nociones en mente, es posible resumir la
naturaleza geométrica de MICO de la siguiente manera:
(i) El vector de valores predichos es la
proyección ortogonal (única) de y sobre Col(X).
(ii) El vector de errores (residuos) predichos ˆy
es ortogonal a Col(X).
(iii) Si dim[Col(X)] = k entonces
( ) ( )
tiene una solución única dada por:
( )
Podemos partir de la condición de ortogonalidad dada en
(ii) ˆX'(y ) 0 (primera etapa) y hallar como la
solución a ˆˆ X (segunda etapa).
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
20
ˆX'(y ) 0
ˆX'(y X ) 0
ˆX'X X'y
El sistema anterior tiene una solución única ( ˆˆ X es
una combinación lineal única de las columnas de X) si y
sólo si los vectores en X son linealmente independientes.
La independencia lineal de los vectores en X implica que
el espacio que éstos conforman tiene una dimensión igual
al número de vectores: dim[Col(X)] = k. Esto garantiza
que la matriz X'Xsea invertible.
Por contradicción > si X no tiene rango completo,
entonces existe un vector (k x 1) ( ) tal que:
( )
Un ejemplo:
N = 3, k = 2, 12
1 2 22
32
1 x
X X X 1 x
1 x
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
21
Gráfico 5: La proyección ortogonal en tres dimensiones
¿Pueden identificar al vector de residuos ˆy ?
¿Cómo representarían la regresión de y sobre un conjunto
de variables que la contiene? ¿y la regresión de una
identidad?
Nótese que en este caso dim[Col(X)] = k = 2. ¿Qué pasaría
si incluimos un tercer vector en X de tal forma que la
dimensión de Col(X) siga siendo igual a 2? Es decir,
dim[Col(X)] = 2 < k = 3.
- ¿Es única la proyección ortogonal?
- ¿Es única la descomposición del vector ?
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
22
Gráfico 6: Una variable más, pero el mismo Col(X)
4.3. Las protagonistas: el “hacedor de estimados” y el
“hacedor de residuos”
Con todas estas nociones en mente, es ahora posible
presentar formalmente a dos matrices muy importantes.
(i) El proyector ortogonal sobre el espacio de las X (el
“hacedor de estimados”) > si X tiene rango completo,
la transformación lineal de y sobre Col(X) que genera
es: 1
X
X
P X(X'X) X'
ˆ P y
X3
gorro1
gorro3
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
23
> XP no modifica vectores Col(X) .
Para cada Z Col(X) existe un vector a tal que
Xa Z . Por lo mismo: 1
X XP Z P Xa X(X'X) X'Xa Xa Z
> XP transforma vectores Col(X) al vector nulo.
Para un vector:
XZ Col(X) X'Z 0 X Col(X) P Z 0
(ii) El proyector ortogonal sobre el espacio de los errores
(el “hacedor de residuos”):
X
X
X
X X
ˆe y M y
ˆy X y P y
(I P )y
M I P
Estas matrices son ortogonales entre sí, simétricas e
idempotentes.
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
24
Gráfico 7: El “hacedor de estimados” y el
“hacedor de residuos”
X1
X2
e = MXy
= PXy
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
25
4.4. ¿Qué nos dice la regresión particionada?
1 1 2 2
y X
X X
El sistema de ecuaciones normales:
1 1 1 2 1 1
2 1 2 2 22
ˆX 'X X 'X X 'y
ˆX 'X X 'X X 'y
( )
(
)
¿Qué nos dice esta expresión para ?
Si reemplazamos y agrupamos términos, obtenemos:
( )
¿Qué nos dice esta expresión para 2 ?
¿Qué ocurre cuando el modelo incluye intercepto?
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
26
MICO utiliza la información en el área azul para
estimar el beta de Edad y la información en el área
verde para estimar el beta de Educación.
BetaEducación: área verde (variación en Y que responde
únicamente a la variación en educación)
Blanco + verde = IngresoMEdad
Celeste + verde = EducaciónMEdad
¿Qué ocurriría si no controlamos por Edad? Tendríamos
una estimación sesgada del efecto de Educación. Este
coeficiente recogería también el efecto de Edad.
Educación
Edad
Ingreso
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
27
4.5. Multicolinelidad
Recordemos el diagrama de Venn > ¿qué ocurre cuando el
área (variaciones) que comparten Edad y Educación crece?
Teorema de Gauss-Markov no nos asegura que MICO
tenga una varianza reducida en un sentido absoluto.
Problema que enfrentamos en el trabajo empírico > NO es
el problema de identificación asociado a la
multicolinealidad exacta. Es la presencia de regresores
altamente (aunque no perfectamente) correlacionados > es
un problema de grado.
(i) Síntomas
- Pequeños cambios en la muestra generan cambios
pronunciados en los estimados (modelo poco
robusto).
- Coeficientes registran desviaciones estándar altas y,
por consiguiente, bajos niveles de significancia a
pesar de ser significativos en conjunto (t’s bajos y un
R2 alto)
> no se afecta el ajuste global del modelo pero no es
posible identificar el aporte marginal de cada
regresor.
- Coeficientes pueden registrar signos distintos a los
esperados o magnitudes poco plausibles.
(ii) La varianza del k-ésimo regresor
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
28
5. Breve repaso del concepto de inferencia
¿Se acuerdan de la prueba de diferencia de medias?
¿Cómo es que evaluamos la hipótesis nula?
Para poblaciones normales, varianzas desconocidas pero
iguales, nuestra estrategia es como sigue:
1 2
1 2
2 21 2 1 2 1 2
2 22 1 1 2 2
1 2
2
1 2 1 21 2
1 2
Ho :
Ha :
Dos muestras: n ,n ,x ,x ,S ,S
S (n 1) S (n 1)S
n n 2
Recordemos que: x ~ N( , /n)
(x x ) ( )Bajo la Ho: ~ t(n n 2)
S 1/ n 1/ n
Dado lo anterior, necesitamos un criterio de decisión para
determinar cuando el estadístico en cuestión NO se
distribuye como sabemos lo hace bajo la Ho.
¿Por qué nos interesa buscar evidencia en contra de
que se distribuya como sabemos lo hace bajo la Ho.?
¿Cuál es este criterio de decisión? ¿Cómo se
relaciona con el concepto de significancia o tamaño
de una prueba?... ¡veamos un programita para
motivar la discusión!
¿Y la potencia de la prueba?
BCRP - Curso de Actualización para Economistas Econometría
Prof. Juan F. Castro
29
Recordemos ahora la prueba más general en el contexto
del MLG (la prueba F para un conjunto de j restricciones
lineales) partiendo de que 2 1MICO
ˆ ~N , (X'X)
y
recordando que 2
2
e'e~ (N k)
.
¿Qué hemos supuesto para llegar hasta la expresión que