01 Econometria Primera Sesion AE2015

Banco Central de Reserva del Perú

Curso de Actualización para Economistas

Econometría

Prof. Juan F. Castro

Primera Sesión: Estimación e inferencia en el

Modelo Lineal General

1. Introducción

1.1. ¿Qué es la econometría?

Aplicación de técnicas matemáticas y estadísticas para

el análisis (medición empírica) de las relaciones

postuladas por la teoría económica (modelos).

Modelo: representación simplificada de un fenómeno

real (un sistema o proceso).

Representamos este fenómeno a través de un modelo

con el objetivo de: (i) explicarlo (entender qué está

detrás de su ocurrencia); (ii) predecirlo (aproximar

cómo ocurrirá bajo determinadas circunstancias); y/o

(iii) controlarlo (saber qué se puede hacer para que

ocurra de manera consistente con algún objetivo de

política).

Trabajamos con modelos debido a que los sistemas o

procesos reales son, en general, demasiado complejos

(en especial aquellos asociados a las ciencias sociales).

BCRP - Curso de Actualización para Economistas Econometría


2

Por lo mismo, buscamos representarlo de manera

realista y, a la vez, manejable.

o Realista: debe incorporar los principales elementos

del fenómeno (o sistema) representado,

especificando (de manera explícita) las relaciones

existentes entre las partes que lo conforman.

o Manejable: debe dejar de lado influencias (o

relaciones) de menor importancia > debemos

introducir supuestos y hacerlos explícitos.

1.2. ¿Para qué la econometría?

¿Para qué introducimos supuestos y aprendemos

técnicas de estimación distintas?... ¿es posible

distinguir algún objetivo primordial?

o Confrontar la teoría con los datos.

o “Escuchar” lo que data nos quiere decir respecto a

las ideas que tenemos sobre la manera como

ocurren las cosas.

o Aislar los efectos de una variable de interés

sobre el fenómeno bajo análisis.

Recordemos cómo hacíamos esto en el colegio >

queremos medir el efecto que tiene sobre la temperatura

de la sustancia A, el hecho de mezclarla con la

sustancia B.



3

¿Qué estamos suponiendo para que el experimento nos

permita recobrar el efecto de interés?

Un ejemplo más…un “experimento natural” para medir

los efectos de la protección policial

o 18 de Julio de 1994 > ataque terrorista destruye el

principal Centro Judío de la ciudad de Buenos

Aires.

o 25 Julio de 1994 > Protección policial las 24 horas

a instituciones Judías y Musulmanas.

o Se cuenta con información sobre la locación exacta

de robos de autos en tres distritos de BBAA antes y

después del ataque.

La protección policial en las instituciones Judías y

Musulmanas es exógena respecto a la distribución

del crimen

AA BB

¿Cómo hacíamos este experimento?



4

Di Tella, Rafael, and Ernesto Schargrodsky. 2004. "Do

Police Reduce Crime? Estimates Using the Allocation

of Police Forces After a Terrorist Attack." American

Economic Review, 94(1): 115-133.

o Grupo de control: manzanas que se encuentran a

más de 2 cuadras de distancia de un centro judío o

musulmán.

> Tienen una incidencia de crimen promedio antes

de la intervención.

o Grupo de estudio (tratamiento): manzanas que se

encuentran a 2 o menos cuadras de distancia de un

centro judío o musulmán.

> Tienen una incidencia de crimen promedio antes

de la intervención.

> Tienen mayor protección policial a raíz del

ataque.

o Resultado: grupo de estudio exhibió 75% menos de

incidencia de robos de auto que el grupo de control.

Refinando un poco mejor nuestro objetivo:

> Aislar los efectos de una variable de interés sobre el

fenómeno bajo análisis…tratado de aproximarnos, lo

mejor posible, a una situación de experimento

controlado

En ciencias sociales, tenemos menos control sobre las

cosas que pasan en nuestro “laboratorio”.



5

La posibilidad de que determinada técnica nos permita

recobrar el efecto de interés depende de un conjunto de

supuestos sobre la manera como han sido generados los

datos.

Técnicas “inadecuadas” tienen detrás supuestos poco

plausibles.

Hacemos supuestos sobre:

o La forma funcional que relaciona al fenómeno con

sus determinantes.

o La existencia de otros determinantes del fenómeno.

o La relación entre la variable de interés y aquellos

determinantes que no he podido observar.

No creo que algo más afecte el cambio de

temperatura y, si fuera el caso, no creo que esté

correlacionado con el hecho de que haga o no la mezcla

No creo que algo más afecte el salario de la

persona y, si fuera el caso, no creo que esté

correlacionado con el número de años de estudio

Vs.

No creo que algo más afecte el cambio de

temperatura y, si fuera el caso, no creo que esté

correlacionado con el hecho de que haga o no la mezcla

No creo que algo más afecte el salario de la

persona y, si fuera el caso, no creo que esté

correlacionado con el número de años de estudio

Vs.

En nuestro laboratorio

Relación entre el salario y los años de estudio

Quiero aislar el efecto de una variable sobre otra

Quiero medir el impacto de cambios en una variable sobre otra, ceteris paribus.

¿Depende el fenómeno bajo análisis de alguna(s) otra(s) variable(s) además de la(s) de interés?

¿Puedo observar /medir estas otras variables?

¿Está(n) correlacionada(s) con las variables que sí observo?

Sí

No Sí

No

Diferencia “simple”

Regresión multivariada por MICO

Regresión multivariada por MICO

Sí

No

Datos de panel / DiD

Regresión por VI

Diseño experimental (aleatorización)

Correcta especificación del modelo

E(/X) = 0 Estimador insesgado

Exogeneidad de los regresores

E(txt) = 0 Estimador consistente

1.3. La media condicional y el concepto de regresión

¿Cómo tornamos operativa la estimación de la relación

que existe entre un conjunto de variables de interés?

En general, podemos partir de la existencia de un vector

de resultados ( ) que contiene el valor registrado por

la(s) variable(s) cuyo comportamiento se busca explicar

/ modelar) y un vector de insumos ( ), que contiene el

valor registrado por las variables a partir de las cuales

se busca explicar el comportamiento de ).

La “realidad” puede ser representada por la función de

probabilidad conjunta que gobierna la ocurrencia de las

observaciones contenidas en y (el proceso que

genera estos datos): ( ).

Esta función de probabilidad conjunta puede expresarse

como el producto de la función de probabilidad

condicional y marginal:

( ) ( | ) ( )

En el trabajo econométrico clásico nuestro interés se

centra en el primer momento de la función de

probabilidad condicional. Es decir, la esperanza de

condicionada a los valores (realizaciones) de :

( | ).

Suponemos que los insumos (o variables explicativas)

influyen sobre la esperanza condicional a través de una

relación lineal. Esto configura lo que se conoce como el

Modelo Lineal General (MLG).

( | )



8

Nuestro interés se centra en estimar esta esperanza

condicional. Por lo mismo, la pregunta que buscamos

responder es: ¿cuál es el valor más probable para

dados los valores realizados de las ?

Esta esperanza es la que buscamos capture los

principales elementos del fenómeno bajo análisis. Por

lo mismo, es cierto que nos equivocaremos, pero (y en

la medida en que logremos una adecuada

caracterización de esta media condicional) no nos

equivocaremos sistemáticamente.

Para motivar lo anterior, partamos de la especificación

más sencilla (un modelo univariado) y veamos a qué

nos referimos con el concepto de “regresión”.

20

21

22

23

4.8 5.0 5.2 5.4 5.6

X

EY_DADO_X

Y_OBS

-

-



9

Condicionado al valor de , la esperanza del error es

igual a cero: ( | ) . En promedio, el valor

observado de está “encima” de la recta de regresión

poblacional ( | ).

Veamos un programita para animar esta discusión.

1.4. Parámetros, estimadores y estimados

“Modelo teórico” vs. “modelo empírico”.

Propiedades deseables para nuestros estimadores; la

importancia de los supuestos que haremos sobre la

manera como son generados los datos.

Representación matricial del modelo teórico.



10

2. Los supuestos del Modelo Lineal General

¿Por qué nos interesa hacer supuestos sobre la manera

como han sido generados los datos? ¿Cuáles son estos

supuestos?

S1. El modelo puede representarse:

( )

S2. Las variables explicativas “no están relacionadas” o

“son exógenas” respecto al error.

S2F. { } no son

estocásticas.

S2Ei. { } son

estocásticas e independientes de .

S2Eim. { } son

estocásticas y son independientes en media de

: ( | ) , por el S1. Este supuesto es

suficiente para garantizar el insesgamiento de .

S2Enc. { } son

estocásticas y no presentan correlación con (no

presentan correlación con el error de la misma

observación): ( ) ( )

por el S1. Este supuesto es suficiente para garantizar

la consistencia de .



11

S3. El error presenta una matriz de varianzas-covarianzas

condicional escalar: ( | ) . Este supuesto es

necesario para garantizar que el estimador MICO sea el de

mínima varianza dentro del conjunto de estimadores

insesgados.

S4N. El error se distribuye normal: ( ).

“S0”. es una matriz ( ) de rango completo.

dim Col(X) dimensión del espacio conformado por

todas las combinaciones lineales de los vectores en X

(X) dim Col(X)

(X) k



12

3. El estimador de Mínimos Cuadrados

Ordinarios y sus propiedades

3.1. ¿Cómo computar el estimador MICO?

( )

{( ) ( )}

3.2. Propiedades para muestras pequeñas

(i) Insesgamiento

(ii) Varianza mínima

3.3. Propiedades para muestras grandes

(i) Algunos elementos útiles de teoría asintótica

Consideremos la secuencia de variables aleatorias T T 1Y

.

Tipos de convergencia

Convergencia en ECM

ECMT

T TT T

Y q si:

lim E Y q , lim Var Y 0

Convergencia en probabilidad

P

T T

TT

Y q plimY q si:

lim Pr Y q 0



13

Convergencia en distribución

dT

TT

Y W si:

lim Pr Y x Pr W x x

Leyes de grandes números

T

T ii 1

ECM 2T x

PT

1Y x

T

Chebyshev: Y ; E(x) , Var(x)

Khinchine: Y ; E(x)

Teorema del Límite Central

Teorema de Lindeberg-Levy. Para una muestra i.i.d. 1 2 Tx ,x ,...x

con media ( ) y varianza ( 2 ) finitas:

dxW T N(0,1)

Lo que implica que:

T

di

i 1

x1N(0,1)

T

Algunos teoremas más

Teorema de Slutsky

Dados XT, YT: T T T Tplim g X ,Y g plimX ,plimY



14

T T T T

T T T T

T T T T T

plim(X Y ) plimX plimY

plim(X Y ) plimX .plimY

plim(X / Y ) plimX / plimY ; plimY 0

Teorema de Cramer

Dados d P

T TX X, Y q : d

T T

dT T

dT T

X Y X q

X Y qX

X / Y X / q

(ii) Propiedades asintóticas de MICO

Dados:

( ) [ ( )

( )

]

( )

podemos expresar la variable aleatoria de la forma:

( ) ( )

(∑

)

∑

De lo anterior, y en ausencia de correlación entre el error y

el conjunto de regresores, es posible demostrar que:

( ( ) ) sin importar .



15

4. La geometría y el álgebra de Mínimos

Cuadrados Ordinarios

4.1. Nuestro setting

En adelante, cada vector representará todas las

observaciones para determinada variable. De modo que los

ejes corresponderán a las observaciones en lugar de a las

variables mismas.

Gráfico 1: Tres observaciones de la variable dependiente (y)

El siguiente gráfico muestra la manera como

representaremos los datos contenidos en y como

vectores. Cada columna de es un vector. En el gráfico,

la matriz tiene dos columnas representadas por los

vectores y .

El plano que contiene todos los vectores en se denota

como ( ). Formalmente: ( ) subespacio



16

conformado por todas las combinaciones lineales de los

vectores en .

Gráfico 2: Representación vectorial de los datos

4.2. De regreso a Mínimos Cuadrados Ordinarios

Todos sabemos que Mínimos Cuadrados Ordinarios

(MICO) resuelve:

( ) ( )

En palabras, es el valor de que minimiza el

cuadrado de la distancia entre y los posibles .



17

Es posible explicar la solución al problema planteado

como un proceso en dos etapas.

(i) En la primera etapa se halla el vector en ( )

más cercano a . Denotamos a este vector como

. Formalmente:

( )

‖ ‖

Este vector ( ) viene dado por la proyección

ortogonal de sobre ( ).

Gráfico 3: Etapa 1. La proyección ortogonal

Si es la proyección ortogonal de y sobre

Col(X) y es cualquier otro vector en Col(X),

se cumple que ˆ ˆ( ) '(y ) 0 .



18

Tarea: A partir de la relación anterior y el

teorema de Pitágoras

2 2 2

1 2 1 2 1 2z z z z z z es posible

demostrar que 2 2

ˆy y . Es decir, que

es, por lo menos, tan cercano a y como

cualquier otro Col(X) .

(ii) En la segunda etapa se descompone como la

suma de los vectores obtenidos de multiplicar las

columnas de X por los coeficientes estimados

(). Formalmente, encontramos como la

solución a: ˆˆ X .

Gráfico 4: Etapa 2. La descomposición de



19

Es importante tomar en cuenta que la solución asociada a

la primera etapa es única mientras que pueden existir

diversas soluciones para la segunda.

Tarea: Es posible probar la unicidad de a partir de las

relaciones de la primera tarea.

Con estas nociones en mente, es posible resumir la

naturaleza geométrica de MICO de la siguiente manera:

(i) El vector de valores predichos es la

proyección ortogonal (única) de y sobre Col(X).

(ii) El vector de errores (residuos) predichos ˆy

es ortogonal a Col(X).

(iii) Si dim[Col(X)] = k entonces

( ) ( )

tiene una solución única dada por:

( )

Podemos partir de la condición de ortogonalidad dada en

(ii) ˆX'(y ) 0 (primera etapa) y hallar como la

solución a ˆˆ X (segunda etapa).



20

ˆX'(y ) 0

ˆX'(y X ) 0

ˆX'X X'y

El sistema anterior tiene una solución única ( ˆˆ X es

una combinación lineal única de las columnas de X) si y

sólo si los vectores en X son linealmente independientes.

La independencia lineal de los vectores en X implica que

el espacio que éstos conforman tiene una dimensión igual

al número de vectores: dim[Col(X)] = k. Esto garantiza

que la matriz X'Xsea invertible.

Por contradicción > si X no tiene rango completo,

entonces existe un vector (k x 1) ( ) tal que:

( )

Un ejemplo:

N = 3, k = 2, 12

1 2 22

32

1 x

X X X 1 x

1 x



21

Gráfico 5: La proyección ortogonal en tres dimensiones

¿Pueden identificar al vector de residuos ˆy ?

¿Cómo representarían la regresión de y sobre un conjunto

de variables que la contiene? ¿y la regresión de una

identidad?

Nótese que en este caso dim[Col(X)] = k = 2. ¿Qué pasaría

si incluimos un tercer vector en X de tal forma que la

dimensión de Col(X) siga siendo igual a 2? Es decir,

dim[Col(X)] = 2 < k = 3.

- ¿Es única la proyección ortogonal?

- ¿Es única la descomposición del vector ?



22

Gráfico 6: Una variable más, pero el mismo Col(X)

4.3. Las protagonistas: el “hacedor de estimados” y el

“hacedor de residuos”

Con todas estas nociones en mente, es ahora posible

presentar formalmente a dos matrices muy importantes.

(i) El proyector ortogonal sobre el espacio de las X (el

“hacedor de estimados”) > si X tiene rango completo,

la transformación lineal de y sobre Col(X) que genera

es: 1

X

X

P X(X'X) X'

ˆ P y

X3

gorro1

gorro3



23

> XP no modifica vectores Col(X) .

Para cada Z Col(X) existe un vector a tal que

Xa Z . Por lo mismo: 1

X XP Z P Xa X(X'X) X'Xa Xa Z

> XP transforma vectores Col(X) al vector nulo.

Para un vector:

XZ Col(X) X'Z 0 X Col(X) P Z 0

(ii) El proyector ortogonal sobre el espacio de los errores

(el “hacedor de residuos”):

X

X

X

X X

ˆe y M y

ˆy X y P y

(I P )y

M I P

Estas matrices son ortogonales entre sí, simétricas e

idempotentes.



24

Gráfico 7: El “hacedor de estimados” y el

“hacedor de residuos”

X1

X2

e = MXy

= PXy



25

4.4. ¿Qué nos dice la regresión particionada?

1 1 2 2

y X

X X

El sistema de ecuaciones normales:

1 1 1 2 1 1

2 1 2 2 22

ˆX 'X X 'X X 'y

ˆX 'X X 'X X 'y

( )

(

)

¿Qué nos dice esta expresión para ?

Si reemplazamos y agrupamos términos, obtenemos:

( )

¿Qué nos dice esta expresión para 2 ?

¿Qué ocurre cuando el modelo incluye intercepto?



26

MICO utiliza la información en el área azul para

estimar el beta de Edad y la información en el área

verde para estimar el beta de Educación.

BetaEducación: área verde (variación en Y que responde

únicamente a la variación en educación)

Blanco + verde = IngresoMEdad

Celeste + verde = EducaciónMEdad

¿Qué ocurriría si no controlamos por Edad? Tendríamos

una estimación sesgada del efecto de Educación. Este

coeficiente recogería también el efecto de Edad.

Educación

Edad

Ingreso



27

4.5. Multicolinelidad

Recordemos el diagrama de Venn > ¿qué ocurre cuando el

área (variaciones) que comparten Edad y Educación crece?

Teorema de Gauss-Markov no nos asegura que MICO

tenga una varianza reducida en un sentido absoluto.

Problema que enfrentamos en el trabajo empírico > NO es

el problema de identificación asociado a la

multicolinealidad exacta. Es la presencia de regresores

altamente (aunque no perfectamente) correlacionados > es

un problema de grado.

(i) Síntomas

- Pequeños cambios en la muestra generan cambios

pronunciados en los estimados (modelo poco

robusto).

- Coeficientes registran desviaciones estándar altas y,

por consiguiente, bajos niveles de significancia a

pesar de ser significativos en conjunto (t’s bajos y un

R2 alto)

> no se afecta el ajuste global del modelo pero no es

posible identificar el aporte marginal de cada

regresor.

- Coeficientes pueden registrar signos distintos a los

esperados o magnitudes poco plausibles.

(ii) La varianza del k-ésimo regresor



28

5. Breve repaso del concepto de inferencia

¿Se acuerdan de la prueba de diferencia de medias?

¿Cómo es que evaluamos la hipótesis nula?

Para poblaciones normales, varianzas desconocidas pero

iguales, nuestra estrategia es como sigue:

1 2

1 2

2 21 2 1 2 1 2

2 22 1 1 2 2

1 2

2

1 2 1 21 2

1 2

Ho :

Ha :

Dos muestras: n ,n ,x ,x ,S ,S

S (n 1) S (n 1)S

n n 2

Recordemos que: x ~ N( , /n)

(x x ) ( )Bajo la Ho: ~ t(n n 2)

S 1/ n 1/ n

Dado lo anterior, necesitamos un criterio de decisión para

determinar cuando el estadístico en cuestión NO se

distribuye como sabemos lo hace bajo la Ho.

¿Por qué nos interesa buscar evidencia en contra de

que se distribuya como sabemos lo hace bajo la Ho.?

¿Cuál es este criterio de decisión? ¿Cómo se

relaciona con el concepto de significancia o tamaño

de una prueba?... ¡veamos un programita para

motivar la discusión!

¿Y la potencia de la prueba?



29

Recordemos ahora la prueba más general en el contexto

del MLG (la prueba F para un conjunto de j restricciones

lineales) partiendo de que 2 1MICO

ˆ ~N , (X'X)

y

recordando que 2

2

e'e~ (N k)

.

¿Qué hemos supuesto para llegar hasta la expresión que

todos conocemos?

01 Econometria Primera Sesion AE2015

Documents