Top Banner

of 101

50870564-econometria-libro

Jul 19, 2015

Download

Documents

ramses2m
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript

APUNTES DE CLASE

CEDE

ISSN 1909-4442

INTRODUCCIN A LA ECONOMETRA

Ramn Antonio Rosales lvarez Jorge Alexander Bonilla Londoo

3OCTUBRE

2006

DE

Centro de Estudios sobre Desarrollo Econmico Facultad de Economa Universidad de los Andes

CEDE

APUNTES DE CLASE

CEDE

ISSN 1909-4442

INTRODUCCIN A LA ECONOMETRA

Ramn Antonio Rosales lvarez Jorge Alexander Bonilla Londoo

3OCTUBRE

2006

DE

CEDE

Serie Apuntes de clase Cede ISSN: 1909-4442 Octubre de 2006 2006, Universidad de los Andes Facultad de Economa Cede Carrera 1 No. 18 A 10, Bloque C Bogot, D. C., Colombia Telfonos: 3394949- 3394999, ext. 2400, 2049, 2474. [email protected] http://economia.uniandes.edu.co Ediciones Uniandes Carrera 1 No. 19 27, edificio Aulas 6, A. A. 4976 Bogot, D. C., Colombia Telfonos: 3394949- 3394999, ext. 2133, Fax: ext. 2158. [email protected] http//ediciones.uniandes.edu.co Edicin, diseo de cubierta, preprensa y prensa digital Proceditor Ltda. Calle 1 No. 27 A 05. Bogot, D. C. Colombia Telfonos: 2204275, 220 4276, Fax: ext. 102 [email protected] Impreso en Colombia Printed in ColombiaEl contenido de la presente publicacin se encuentra protegido por las normas internacionales y nacionales vigentes sobre propiedad intelectual, por tanto su utilizacin, reproduccin, comunicacin pblica, transformacin, distribucin, alquiler, prstamo pblico e importacin, total o parcial, en todo o en parte, en formato impreso, digital o en cualquier formato conocido o por conocer, se encuentran prohibidos, y slo sern lcitos en la medida en que se cuente con la autorizacin previa y expresa por escrito del autor o titular. Las limitaciones y excepciones al Derecho de Autor, slo sern aplicables en la medida en que se den dentro de los denominados Usos Honrados (Fair use), estn previa y expresamente establecidas; no causen un grave e injustificado perjuicio a los intereses legtimos del autor o titular, y no atenten contra la normal explotacin de la obra.

INTRODUCCIN A LA ECONOMETRA

*

RAMN ANTONIO ROSALES LVAREZ ** JORGE ALEXANDER BONILLA LONDOO ***

Resumen La econometra es una de las importantes aplicaciones de la estadstica matemtica, y una herramienta fundamental en la investigacin econmica, el diseo y anlisis de poltica. El presente documento desarrolla para aquellos que inician el estudio de la economa, los elementos tericos bsicos sobre la modelacin economtrica. Se aborda el modelo clsico de regresin lineal y sus supuestos, y la manera de efectuar hiptesis. Este documento se considera un desarrollo preliminar para la posterior iniciacin en temas ms avanzados de econometra. Palabras claves: anlisis de correlacin, mnimos cuadrados ordinarios, modelo economtrico, pruebas de hiptesis. Clasificacin JEL: C01, C10 y C20.

Este documento hace parte de las notas de clase del curso Mtodos Cuantitativos para las especializaciones de Economa, Economa Social, Economa del Riesgo y la Informacin, y de Evaluacin Social de Proyectos de la Facultad de Economa Universidad de Los Andes. ** Ph. D. en Economa Agrcola, Profesor Asociado de la Facultad de Economa de la Universidad de Los Andes. Bogot, Colombia. Correo electrnico: [email protected]. *** Magster en Economa y Magster en Economa del Medio Ambiente y de los Recursos Naturales, Profesor Instructor de la Facultad de Economa. Universidad de Los Andes. Bogot, Colombia. Correo electrnico: [email protected].

*

INTRODUCTION TO ECONOMETRICS

Abstract Econometrics is one of the most important applications to the mathematical statistics and a fundamental tool in the economic research and in the design and analysis of economic policy. The present document develops the basic theory concepts of the econometric modeling for those that begin the study of economics. The specification, assumptions, estimation, hypothesis testing and predictions for the classical regression model are the principal topics presented in this text. The concepts, the tools and their applications developed in this document are relevant for tackling many practical problems in todays world and for the introduction in advanced econometric courses. Key words: correlation analysis, least squares estimation, econometric model, hypothesis tests. JEL classification: C01, C10 y C20

2

TABLA DE CONTENIDO1. LA MODELACIN Y LA ECONOMETRA ........................................................................................... 5 1.1. Mtodos Cuantitativos de la Economa...................................................................................... 5 1.2. Definiciones de la Econometra.................................................................................................. 6 1.3. Objetivo de la Econometra ........................................................................................................ 7 1.4. El Procedimiento Economtrico................................................................................................. 7 1.5. El Modelo ................................................................................................................................... 8 1.6. El Modelo Econmico ................................................................................................................ 8 1.7. El Modelo Economtrico .......................................................................................................... 10 1.8. Elementos que componen el Modelo ........................................................................................ 12 1.9. Clasificacin de las Variables .................................................................................................. 13 1.10. Clasificacin de las Ecuaciones ............................................................................................... 13 1.11. Clasificacin de los Modelos.................................................................................................... 14 2. ORGANIZACIN DE DATOS Y ESTADSTICA DESCRIPTIVA ...................................................... 15 2.1. Objetivos de la Estadstica.............................................................................................................. 15 2.2. Divisiones de la Estadstica ............................................................................................................. 16 2.4. Poblacin y Muestra ........................................................................................................................ 17 2.5. Parmetros Poblacionales y Estadsticos Muestrales ..................................................................... 18 2.6. Medidas de Tendencia Central y de Dispersin .............................................................................. 18 2.7. Mtodos y Diagnsticos Grficos. ................................................................................................... 18 2.8 Ejercicios de computador ................................................................................................................. 21 3. ANALISIS DE CORRELACION ............................................................................................................ 22 3.1. Diagrama de Dispersin.................................................................................................................. 22 3.2. Coeficiente de Correlacin Lineal................................................................................................... 23 3.3. Pruebas de Hiptesis ....................................................................................................................... 25 3.4. Ejercicios de computador ................................................................................................................ 28 4. REGRESION SIMPLE LINEAL Y NO LINEAL.................................................................................... 29 4.1. Objetivo del anlisis de regresin ................................................................................................... 29 4.2. Funcin de regresin muestral y poblacional ................................................................................. 30 4.3. Supuestos del modelo de regresin .................................................................................................. 32 4.4. Mtodo de estimacin de mnimos cuadrados ordinarios................................................................ 35 4.5. Varianzas y errores estndar de los estimadores ............................................................................ 36 4.6. Intervalos de confianza .................................................................................................................... 37 4.7. Pruebas de hiptesis ........................................................................................................................ 37 4.8. Prediccin........................................................................................................................................ 40 4.9. El Coeficiente de Determinacin ..................................................................................................... 40 4.10. Modelos de regresin simple no lineal en las variables ................................................................ 41 4.11. Ejercicios de Computador ............................................................................................................. 42 5. REGRESION MULTIPLE LINEAL Y NO LINEAL .............................................................................. 45 5.1. Expresin del modelo en forma matricial........................................................................................ 45 5.2. Supuestos del modelo....................................................................................................................... 46 5.3. Mtodo de estimacin de mnimos cuadrados ordinarios................................................................ 46 5.4. Matriz de varianzas y covarianzas de los estimadores .................................................................... 46 5.5. Pruebas de hiptesis ........................................................................................................................ 47 5.6. Coeficiente de determinacin ajustado R 2 .................................................................................. 48 5.7. Intervalos de confianza. ................................................................................................................... 49 5.8. Modelos de regresin mltiple no lineal en las variables................................................................ 49 5.9. Ejercicios de Computador. .............................................................................................................. 50 6. INCUMPLIMIENTO DE LOS SUPUESTOS DEL MODELO............................................................... 56 6.1. Multicolinealidad............................................................................................................................. 56

( )

3

6.2. Heteroscedasticidad......................................................................................................................... 61 6.3. Autocorrelacin ............................................................................................................................... 66 6.4. Error de especificacin.................................................................................................................... 70 6.5. No Normalidad de los errores ......................................................................................................... 73 6.6. Ejercicios de computador. ............................................................................................................... 75 7. INTRODUCCIN A VARIABLES CUALITATIVAS .......................................................................... 83 7.1. Regresin con variables independientes cualitativas ...................................................................... 83 7.2. Regresin con variable dependiente cualitativa .............................................................................. 89

4

INTRODUCCIN El curso de Econometra hace parte del rea de mtodos cuantitativos en economa y se constituye en una herramienta importante en la investigacin econmica, el diseo y anlisis de poltica. El contenido y el desarrollo del curso son a nivel introductorio y su inters es la aplicacin de los conceptos tericos. El curso busca proporcionarle al estudiante las bases iniciales para el manejo de los mtodos y modelos economtricos, los elementos necesarios para el manejo de la informacin, anlisis de resultados e interpretacin de las salidas del computador, y familiarizarlo en sus aplicaciones, tales como la investigacin y la evaluacin de medidas de poltica. El documento se encuentra dividido en siete secciones. La primera presenta la definicin de la econometra, sus objetivos, el concepto del modelo y su caracterizacin. La segunda trata de la organizacin de datos y la estadstica descriptiva. La seccin tres aborda los aspectos bsicos del anlisis de correlacin. La seccin cuatro presenta el modelo formal de regresin lineal simple. La quinta seccin muestra el modelo de regresin lineal mltiple. La sexta seccin presenta la teora relacionada con el incumplimiento de los supuestos del modelo. La seccin siete efecta una introduccin al anlisis transversal de regresin con variables independientes cualitativas y de variable dependiente cualitativa. Al final del documento se incluye un anexo que desarrolla el procedimiento general de manipulacin de datos en el paquete economtrico Eviews 4.1.

1. LA MODELACIN Y LA ECONOMETRA 1.1. Mtodos Cuantitativos de la Economa.

Los mtodos cuantitativos de la economa comprenden tres reas: a) Anlisis Matemtico y lgebra Lineal; b) Programacin Lineal y Anlisis de InsumoProducto y c) Econometra.

5

La investigacin economtrica se inici con el anlisis estadstico de la Demanda por Cournout (1838) y Marshall (1890). Posteriormente Tinbergen en 1939 hizo su aporte a la econometra mediante el estudio del anlisis de los ciclos econmicos. Sin embargo, en el periodo de 1943-1950 la econometra comienza su desarrollo con los trabajos de la Comisin Cowles. La hiptesis bsica es: "los datos econmicos se generan por sistemas de relaciones que son, en general estocsticos, dinmicos y simultneos".

La econometra hoy en da es una herramienta muy importante para el anlisis y comportamiento de los fenmenos econmicos. Su desarrollo ha sido acelerado debido a la dinmica que han mostrado los adelantos en el anlisis matemtico, en mtodos estadsticos y de computacin. 1.2. Definiciones de la Econometra

Dado que en la econometra se asocian la Teora Econmica, las Matemticas y la Estadstica, diferentes definiciones han sido planteadas por los autores, en las que se tratan de relacionar estas tres reas del conocimiento.

G. Tintner: la econometra consiste en la aplicacin de la teora econmica matemtica y de los mtodos estadsticos a los datos econmicos para establecer resultados numricos y verificar los teoremas.

W.C. Hood y T.C. Koopmans: la econometra es una rama de la economa donde la teora econmica y los mtodos estadsticos se fusionan en el anlisis de los datos numricos e institucionales.

T. Havellmo: el mtodo de la investigacin economtrica intenta, esencialmente, unir la teora econmica y las mediciones reales, empleando la teora y la tcnica de la inferencia estadstica como un puente.

6

Estas tres definiciones nos indican que la econometra es cuantitativa y que est en estrecho contacto con la realidad.

R. Frisch: la econometra a pesar de nutrirse de la Teora Econmica, de las Matemticas y de la Teora Estadstica, no es ni "Estadstica Econmica", ni "Teora Econmica", ni "Economa Matemtica".

O. Lange: la econometra es la ciencia que trata de la determinacin, por mtodos estadsticos, de leyes cuantitativas concretas que rigen la vida econmica. Esta combina la Teora Econmica con la Estadstica Econmica y trata de dar, por mtodos matemticos y de inferencia, una expresin concreta a las leyes generales establecidas por la teora. 1.3. Objetivo de la Econometra

El objetivo de la econometra es expresar la teora econmica en trminos matemticos, verificar dicha teora por mtodos estadsticos, medir el impacto de una variable sobre otra, predecir los sucesos futuros, o proveer recomendaciones de la poltica econmica. 1.4. El Procedimiento Economtrico

El anlisis economtrico involucra las siguientes etapas principales:

1. Especificacin del modelo: consiste en usar la teora, leyes o hiptesis particulares econmicas, para investigar las relaciones entre variables y agentes de la economa. 2. Estimacin del modelo: trata de la utilizacin de instrumentos auxiliares como las matemticas y la estadstica para estimar el modelo objetivo. 3. Verificacin del modelo: en esta etapa se efecta la interpretacin econmica del modelo estimado y se realizan pruebas estadsticas. La fase de

7

verificacin tiene un papel muy importante dado que examina si la expresin cuantificada puede utilizarse adecuadamente con base en la teora econmica. 4. Prediccin: el modelo obtenido puede ser utilizado para la prediccin y el desarrollo de muchas aplicaciones. Pueden surgir nuevos resultados tericos, y generarse implicaciones de poltica econmica a partir de las conclusiones del modelo. 1.5. El Modelo

Un modelo es una representacin simplificada de la realidad. Los investigadores y los profesionales de diversas reas del conocimiento trabajan con stos esquemas, los cuales les permiten estudiar el comportamiento de un fenmeno de inters.

A. Rosenblueth se refiri a los modelos cientficos de la siguiente manera: "la construccin de modelos para los fenmenos naturales es una de las tareas esenciales de la labor cientfica. Mas an, se puede decir que toda la ciencia no es sino la elaboracin de un modelo de la naturaleza. La intencin de la ciencia y el resultado de la investigacin cientfica, es obtener conocimiento y el control de alguna parte del Universo". 1.6. El Modelo Econmico

Se denomina modelo econmico a cualquier conjunto de supuestos que describen una economa o parte de una economa. En este sentido, la teora econmica puede entenderse como la formulacin y anlisis de modelos cuantitativos. Esta esquematizacin requiere un planteamiento particular de las interrelaciones entre las variables que intervienen en el fenmeno de estudio. Las caractersticas mnimas que debe satisfacer un modelo econmico son las siguientes: 1. Que represente un fenmeno econmico real.

8

2. Que la representacin sea simplificada, y 3. Que se haga en forma matemtica.

Al definir un modelo econmico como un conjunto de relaciones matemticas (usualmente ecuaciones) que expresan una teora econmica, no se exige necesariamente la especificacin concreta del tipo de funcin que relaciona las variables involucradas. Un ejemplo de un modelo econmico es: Y = f ( X 1 , X 2 ,K, X k )

(1)

donde Y = cantidad producida; Xi = cantidad del i-esimo insumo, i=1,2,,k. Aunque esta ecuacin, denominada funcin de produccin, no presenta una estructura muy particular del arreglo de las variables X sobre Y, expresa de forma general la relacin entre el producto y los insumos, y que son las cantidades utilizadas de factores las que determinan la magnitud producida, y no lo contrario.

Para establecer una forma concreta de la especificacin de un modelo se debe precisar el tipo de relacin que existe entre las variables econmicas. Un ejemplo de ello es una representacin lineal: Y = 0 + 1 X 1 + 2 X 2 + L + k X k

(2)

Est relacin puede ser correcta. Sin embargo, cuando no se conoce si el insumo X2 es determinante en forma lineal sobre Y, puede ocurrir error de especificacin. Tambin se debe resaltar que este modelo hace nfasis en un nmero relativamente pequeo de variables importantes cuya interrelacin se puede expresar

adecuadamente en un modelo matemtico.

9

1.7.

El Modelo Economtrico

El modelo economtrico es el modelo econmico que contiene las especificaciones necesarias para su validacin emprica. Es usual concebir el modelo economtrico como un modelo conformado por una parte determinstica y una parte aleatoria o trmino de error. El modelo economtrico para el ejemplo expuesto en la ecuacin (2) tomara la forma: Y = 0 + 1 X 1 + 2 X 2 + L + k X k +

(3)

donde 0 + 1 X 1 + 2 X 2 + L + k X k es la parte determinstica y es el termino de error o componente estocstico. Los modelos economtricos por considerar un trmino aleatorio en su estructura, hacen parte de los modelos probabilsticos. Una diferencia fundamental entre los modelos econmicos y los modelos economtricos, es que los primeros son siempre validos, dado que han sido establecidos por la teora econmica y solo persiguen la expresin general de ella. Por otro lado, los modelos economtricos, reflejan el estado de las cosas o de una situacin especfica y aunque tiene sus bases en la teora econmica sus resultados pueden cambiar de un estudio a otro.

Los modelos economtricos se prueban a travs del uso sistemtico de la informacin estadstica. Un modelo economtrico permite la inferencia estadstica a partir de los datos recopilados, por lo cual ste debe incorporar los elementos aleatorios que se suponen intervienen en la determinacin de las observaciones. Estas ltimas pueden constituyen una muestra si la aleatoriedad de los datos es garantizada.

10

Existen diferentes razones por las cuales los modelos economtricos deben considerar el trmino de error, destacndose como las ms importantes las siguientes: a) Datos: en muchos casos el grado de control que se puede tener sobre las variables de inters es bajo. Adicionalmente, aunque se desea obtener los verdaderos valores de las variables, se debe aceptar que puede existir cierto error en la medicin.

Un ejemplo tpico ocurre cuando las personas encuestadas por diferentes motivos revelan un ingreso diferente al real y dicha variable se incorpora al modelo. Otro caso semejante sucede cuando se le pregunta al agricultor sobre la cantidad de fertilizante que aplic por hectrea a su cultivo en la cosecha pasada; ste dado que no se acuerda de dicha magnitud, provee un dato que diverge del real.

b) Nmero de variables: el investigador siempre tiene restricciones para incluir todas las variables que explican un fenmeno. Por un lado, no cuenta con completa informacin, y por otro, aunque disponga de demasiada informacin su formulacin es extremadamente compleja que dificulta su interpretacin. Por lo tanto, el procedimiento se basa en incluir aquellas variables ms relevantes, dejando fuera del modelo aquellas poco significativas. No obstante, el

investigador es consciente de que al no poder incluir todas las variables incurre en cierto margen de error al efectuar la estimacin.

c) Disponibilidad de informacin: muchas veces cuando el investigador quiere incluir una variable importante en el modelo se encuentra con la limitacin de cmo cuantificarla. Un ejemplo de ello es la variable habilidad; se conoce que sta tericamente afecta el salario; sin embargo el investigador tiene que conformarse con incluir otra variable o informacin adicional que sea semejante y la describa de manera aproximada.

11

d) Forma funcional: un investigador puede postular que la relacin entre las variables de un modelo es de tipo lineal; no obstante, otro investigador podra formular una especificacin funcional distinta, por ejemplo cuadrtica. Esta es otra fuente de error en la elaboracin del modelo, pues no se puede tener total certeza sobre su forma funcional an cuando la teora seale algunas directrices para corregirlo.

De acuerdo con lo anterior un procedimiento sugerido para llevar a cabo la formulacin de un modelo economtrico es el siguiente: 1) Delimitar el fenmeno de estudio; 2) Tener claridad sobre el objetivo del modelo; 3) Seleccionar las variables relevantes; 4) Establecer las relaciones entre las variables, y 5) Con base en el objetivo planteado, estructurar una especificacin y estimar el modelo usando la informacin y base de datos de las variables. 1.8. Elementos que componen el Modelo

Los elementos que componen el modelo son: las variables, las ecuaciones y los parmetros.

Una variable es una caracterstica de una poblacin que puede tomar diferentes valores. Solo son de inters aquellos valores de la variable que tienen un significado econmico. Por ejemplo las variables: precio, produccin, ingreso, y cantidad de insumo utilizado tienen regin econmicamente factible en los nmeros reales positivos.

Una ecuacin es una igualdad conformada por una expresin matemtica que establece relaciones entre variables. La ecuacin contiene no solo las variables de inters sino tambin los coeficientes que afectan estas mismas. A estas ltimas magnitudes se les denomina parmetros desde el enfoque estadstico, los cuales en un modelo lineal actan como factores de ponderacin de cada variable explicativa y

12

miden el efecto de las fluctuaciones de estas variables sobre la variable dependiente. Los parmetros cumplen un papel muy importante en el modelo, ya que sobre estos el investigador formula pruebas de hiptesis. Al observar la ecuacin (3), el coeficiente que no acompaa ninguna variable independiente se le conoce como constante paramtrica o intercepto; en algunos casos su magnitud no tiene interpretacin econmica. 1.9. Clasificacin de las Variables

Desde el punto de vista econmico las variables se pueden clasificar como variables endgenas y exgenas. Las variables endgenas son aquellas cuyos valores se determinan o calculan dentro del modelo. En contraste, las variables exgenas se caracterizan por que sus valores estn determinados fuera del modelo.

Tambin existen otras clasificaciones de las variables; desde el enfoque de inferencia estadstica: variables aleatorias discretas y continuas, y de acuerdo con su rol en expresin matemtica: variables dependientes e independientes, explicadas o explicativas. Otro grupo de variables lo constituyen las variables predeterminadas. A este pertenecen las variables exgenas con o sin rezago (o retardo) y las endgenas rezagadas. Una denominacin adicional son las variables esperadas o de expectativas, las cuales son gran utilidad en la formulacin de modelos dinmicos. 1.10. Clasificacin de las Ecuaciones

Bajo la perspectiva econmica las ecuaciones se pueden clasificar de la siguiente forma:

a) Ecuaciones de comportamiento: Son aquellas que reflejan el comportamiento de los distintos agentes econmicos (consumidores, productores, inversionistas, etc.). Las ecuaciones de comportamiento son las que mayor aporte terico le

13

hacen a los modelos.

Ejemplos de ecuaciones de comportamiento son: la

demanda, la oferta, la inversin, el consumo, el ahorro, etc.

b) Ecuaciones tecnolgicas: El ejemplo tpico de una ecuacin tecnolgica es la funcin de produccin, la cual refleja el estado de la tecnologa de un sector de un pas.

c) Ecuaciones institucionales: Reflejan un mandato o voluntad del gobierno o de los estamentos que toman las decisiones en un pas. Ejemplo de ecuaciones institucionales son: oferta monetaria, impuestos, subsidios, etc.

d) Ecuaciones de definicin: Son ecuaciones o identidades matemticas y econmicas vlidas por definicin. Generalmente son relaciones contables y la mayora de los ejemplos de este tipo de ecuaciones se encuentran en las cuentas macroeconmicas. Una ecuacin de definicin es activo = pasivo + capital, o la ecuacin de identidad macroeconmica del Producto Nacional Bruto para una economa con tres sectores.

e) Ecuaciones de equilibrio: Estas garantizan que el modelo tenga solucin. Ejemplos de estas ecuaciones son: oferta igual a demanda, o ahorro igual a inversin. 1.11. Clasificacin de los Modelos Segn la cobertura econmica o subdisciplina, los modelos pueden ser microeconmicos o macroeconmicos. De acuerdo con el nmero de variables independientes, los modelos se dividen en simples y mltiples. Si se considera el nmero de ecuaciones se tienen modelos uniecuacionales y multiecuacionales. Con base en el periodo de tiempo, los modelos pueden ser estticos o dinmicos. Al relacionar el nmero de variables endgenas con el nmero de ecuaciones, los modelos se dividen en completos o incompletos.

14

2. ORGANIZACIN DE DATOS Y ESTADSTICA DESCRIPTIVA

2.1. Objetivos de la Estadstica La estadstica es el lenguaje universal de la ciencia, tanto en sus ramas fsicas como sociales. La estadstica es un instrumento formal que utilizado de manera rigurosa y con precisin, permite describir resultados y adoptar decisiones respecto a lo que estos evidencian empricamente. La estadstica en su aplicacin sigue el mtodo cientfico y se define como la ciencia de recolectar, clasificar, describir e interpretar datos numricos, es el lenguaje universal de la ciencia y el estudio de los fenmenos aleatorios. Dentro de sus objetivos fundamentales se encuentra la estimacin de una o ms caractersticas desconocidas de una poblacin, la realizacin de inferencias y pruebas de hiptesis.

Se considera fundador de la estadstica a Godofredo Achenwall, economista alemn (1719-1772), quien siendo profesor de la universidad de Leipzig, escribi sobre el descubrimiento de una nueva ciencia que llam estadstica (palabra derivada de Staat que significa gobierno) y que defini como el conocimiento profundo de la situacin respectiva y comparativa de cada estado. Desde su aparicin la estadstica se ha enriquecido continuamente con los aportes de matemticos, filsofos y cientficos.

La teora general de la estadstica es aplicable a cualquier campo cientfico del cual se toman observaciones. El estudio y aplicacin de los mtodos estadsticos son necesarios en todos los campos del saber, sean estos de nivel tcnico o cientfico. Las primeras aplicaciones de la estadstica fueron los temas de gobierno, luego las utilizaron las compaas de seguros y los empresarios de juegos de azar; posteriormente los comerciantes, los industriales, los educadores, etc. En la actualidad resulta difcil indicar profesiones que no utilicen la estadstica.

15

2.2. Divisiones de la Estadstica La estadstica puede dividirse ampliamente en dos reas: estadstica descriptiva o deductiva y estadstica inferencial o inductiva. La estadstica descriptiva es aquella en la que la mayora de la personas piensan cuando escuchan la palabra "estadstica". Esta es el rea de la estadstica dedicada a la recoleccin, presentacin, y descripcin de datos numricos, cuyas conclusiones sobre los mismos no van ms all de la informacin que estos proporcionan. Por otro lado, la inferencia estadstica es el mtodo y conjunto de tcnicas que se utilizan para obtener conclusiones ms all de los lmites del conocimiento aportado por los datos; en otras palabras, busca obtener la informacin que describe y caracteriza una poblacin a partir de los datos de una muestra.

2.3. Tipos de Variables En estadstica cuando se recopila informacin, los datos se registran por medio de la observacin o medicin de una variable aleatoria que proviene de la realizacin de un experimento. La variable se llama aleatoria, debido a la existencia de distintos resultados posibles del experimento y que no hay certeza total de que al efectuarlo uno de los resultados se obtenga siempre con una probabilidad del 100%. Por lo tanto, el hecho que una variable tome un valor particular es considerado un evento aleatorio.

An, cuando las observaciones resultantes no siempre son numricas en algunos experimentos, estas pueden cuantificarse asignndoles nmeros que indiquen o representen una categorizacin. Por esta razn, el inters se centra generalmente en variables que pueden representarse numricamente.

Existen dos tipos de variables aleatorias: discretas y continuas. Las primeras son aquellas cuyo nmero de valores que pueden tomar es contable (ya sea finito o

16

infinito) y pueden arreglarse en una secuencia que corresponde uno a uno con los enteros positivos; mientras las segundas toman valores dentro de un intervalo de recta de los nmeros reales. Si se tienen dos variables aleatorias, por ejemplo: el nmero de hijos por familia y el consumo de energa elctrica; la primera, se encuentra dentro del grupo de variables aleatorias discretas, y la segunda, dentro del conjunto de variables aleatorias continuas.

2.4. Poblacin y Muestra El concepto de poblacin y muestra es muy importante en la inferencia estadstica, por lo que es conveniente presentar su definicin:

Poblacin: Es la coleccin completa de individuos, objetos o medidas que tienen una caracterstica en comn. La poblacin debe definirse

cuidadosamente en cada estudio cientfico de acuerdo con el inters y objetivo de la investigacin.

Muestra: Es un subconjunto de la poblacin; es decir, ella se compone de algunos de los individuos, objetos o medidas de una poblacin. La muestra es obtenida con el propsito de investigar, a partir del conocimiento de sus caractersticas particulares, las propiedades de toda la poblacin. Por ello, es primordial la seleccin de una muestra representativa de la poblacin. Es necesario formalmente enfatizar en la aleatoriedad de la muestra, es decir sobre la manera de seleccionar los elementos de la poblacin que conformarn la muestra. La palabra aleatoriedad para este caso consiste en garantizar que cada elemento de la poblacin tenga la misma probabilidad de ser elegido. Se considera que una muestra es ms eficiente, cuando proporciona la mayor informacin til al menor costo.

Los conceptos anteriores pueden tratarse en el siguiente ejemplo: Suponga que se desea conocer el consumo promedio por hogar de energa elctrica en la ciudad de

17

Bogot. Para este caso, la poblacin corresponde a todos los hogares de la ciudad, mientras que la muestra estar constituida por aquellos hogares que pueden ser seleccionados de manera aleatoria, como un grupo representativo de todos los que habitan en Bogot.

2.5. Parmetros Poblacionales y Estadsticos Muestrales El trmino parmetro es utilizado para referirse a una caracterstica desconocida de la poblacin, que desea estimarse o evaluarse a travs de una prueba de hiptesis, y que describe total o parcialmente su funcin de probabilidad o funcin de densidad de probabilidad. Por otro lado, el estadstico es una medida numrica de una caracterstica poblacional obtenida a partir de una muestra. Cabe anotar que los estadsticos son fundamentales en la realizacin de inferencias. El valor promedio y la varianza son ejemplos de tales medidas.

2.6. Medidas de Tendencia Central y de Dispersin Las medidas de tendencia central se encuentran dentro de las medidas numricas que se emplean comnmente para describir conjuntos de datos. La tendencia central de un conjunto de datos es la disposicin de stos para agruparse, ya sea alrededor del centro o de ciertos valores numricos. A este grupo de medidas pertenecen la media, la mediana y la moda.

Existen otro tipo de medidas numricas denominadas medidas de dispersin, cuyo objetivo es explorar la variabilidad de los datos, es decir qu tan dispersas son las observaciones en un conjunto de datos. Dentro de estas medidas se encuentran: la varianza, la desviacin estndar, el recorrido o rango, entre otras.

2.7. Mtodos y Diagnsticos Grficos. Los datos en los experimentos son recopilados inicialmente sin agrupar, para

18

luego, segn el inters del investigador presentarlos agrupados, en forma de clases o intervalos. Es importante tener en cuenta que las fuentes de informacin primaria y secundaria pueden almacenar sus datos sin agrupar o como datos agrupados. Con base en lo anterior, es relevante conocer el procedimiento de clculo de las medidas numricas para ambos casos. Las expresiones algebraicas que describen la forma de obtener las medidas de tendencia central y de dispersin se muestran en la Tabla No. 1.

Con los datos agrupados de una variable aleatoria es posible construir histogramas de frecuencias, los cuales pueden ser comparados con las representaciones grficas de distribuciones de probabilidad ya conocidas de variables aleatorias. En la mayora de los casos, estos histogramas se comparan con la distribucin normal, donde por inspeccin es posible identificar sesgos o apuntamientos en la distribucin.

19

TABLA No. 1. MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIN.Medida Numrica Datos sin agruparn

Datos agrupados

Media

x=

xi

i =1

n

x=i =1

k

f i xi

n

, donde n =

fii =1

k

Donde fi es la frecuencia absoluta de la clase i, para todo i = 1,2,,k clases o intervalos.

Mediana

Valor central de la distribucin (el 50% de los datos se encuentran por encima de este valor).

Mediana = L + c( j f m )Donde L es el lmite inferior de la clase donde se encuentra la mediana, fm es la frecuencia de esa clase, c es la longitud de ese intervalo y j es el nmero de observaciones en esta clase necesarias para completar un total de n/2. Casos: Punto medio de la clase con frecuencia ms alta. El promedio de los puntos medios de las clases consecutivas con frecuencias iguales ms altas. Puntos medios de las clases no consecutivas con frecuencias iguales ms altas.

Moda

Valor ms frecuente

Medida Numrica Varianza2

Datos sin agrupars = ( x i x ) ( n 1)2 i =1 n

Datos agrupadosk

n xi n xi2 i =1n 2 s = i =1 n 1

2

s2 =

i =1

k f i xi f i xi2 i =1 n n 1

2

Desviacin Estndar

s=

s2 =

(x x)i i =1

n

2

(n 1)2

s = s2 =

i =1

k

xi i =1 x n s = s 2 = i =1 n 1n n 2 i

k f i xi f i xi2 i =1 n n 1

2

Recorrido o Rango

Max-min.

20

2.8 Ejercicios de computador Considrese el siguiente conjunto de datos hipotticos de un estudio de demanda:TABLA No. 2. DATOS HIPOTTICOS EN EL ESTUDIO DE DEMANDA DEL BIEN X.No. de Obs. 1 2 3 4 5 6 7 8 9 10 11 12 13 DX 37 38 18 50 22 55 42 29 63 13 60 62 36 PX 7 6 10 4 9 2 8 8 2 12 3 3 6 PZ 5 7 3 9 3 12 5 5 18 2 9 10 5 PW 7 5 13 4 11 3 8 9 3 15 5 5 6 I 6 8 3 18 3 21 2 19 20 6 12 5 26

Donde: DX: es la demanda del bien X PX: es el precio del bien X PZ: es el precio del bien Z PW: es el precio del bien W I: es el ingresoESTADSTICAS DESCRIPTIVAS MEDIDAS DE TENDENCIA CENTRAL, DE DISPERSION Y NORMALIDAD DX 40.38462 38.00000 63.00000 13.00000 16.89940 525.0000 13 PX 6.153846 6.000000 12.00000 2.000000 3.210560 80.00000 13 PZ 7.153846 5.000000 18.00000 2.000000 4.431820 93.00000 13 PW 7.230769 6.000000 15.00000 3.000000 3.811252 94.00000 13 I 11.46154 8.000000 26.00000 2.000000 8.272599 149.0000 13

Mean Median Maximum Minimum Std. Dev. Sum Observations

21

3. ANALISIS DE CORRELACION

3.1. Diagrama de Dispersin Una primera aproximacin con el fin de detectar algn tipo de relacin entre dos variables (X y Y), consiste en ubicar los pares de valores de en un plano cartesiano hasta conformar la nube de puntos. Un diagrama de dispersin es la representacin grfica de todos los pares de valores en sistema de ejes de coordenadas.

El diagrama de dispersin no es un mtodo estadstico como tal, ms bien estara dentro de los llamados mtodos de "inspeccin preliminar", sin embargo, es una manera simple de visualizar si existe alguna posible relacin entre las variables. El diagrama de dispersin puede presentar diferentes formas, tales como las que se presentan en las figuras siguientes:

La figura a) muestra una posible relacin lineal directa entre las variables; mientras,

22

la figura b) seala una relacin lineal de tipo inversa. Las figura c) y d) revelaran posibles relaciones cuadrticas entre las variables, exhibiendo un mximo y un mnimo para la primera y segunda de estas figuras, respectivamente. La figura e) mostrara una tendencia de tipo cbico entre las variables. La figura f) es un ejemplo en el cul no puede identificarse por inspeccin algn tipo de relacin entre las variables, pues aparentemente ella no existe. 3.2. Coeficiente de Correlacin Lineal Si bien es cierto que el diagrama de dispersin permite visualizar la existencia o no de una posible relacin lineal entre las variables, el investigador debe soportar sus conclusiones en trminos de alguna medida estadstica. El coeficiente de correlacin lineal es un estadstico que mide el tipo de relacin (signo) y la fuerza (magnitud del coeficiente) de asociacin lineal entre dos variables. Usualmente el coeficiente de correlacin lineal, representado por la letra r, bajo las condiciones de un muestreo aleatorio ideal se considera una buena representacin del coeficiente de correlacin poblacional ( ). La frmula para calcular r es la siguiente:

rXYrXY =

Cov( X , Y ) = S X SYi i

^

(x x )( y y ) (x x ) ( y y )2 i ii

2

rXY =

x i 2

x y ( x )i i i

( x )( y )i 2

n

( yi ) 2 2 y i n

n

=

[ x

x yi 2 i

i 2

n( x y )

n(x )

][ y

2 i

n( y )

2

]

El coeficiente de correlacin no tiene unidades y puede tomar valores entre -1 y +1

( 1 rXY

1) . Su interpretacin depende del signo y la magnitud que tome. El signo

es determinado solamente por el numerador de la frmula de clculo; es decir por la

23

covarianza, la cual mide la asociacin lineal absoluta entre las variables; el denominador es siempre positivo dado que en l se encuentran sumas de cuadrados.

Si r tiende a 1 como seria el caso de la figura a) estara indicando una relacin lineal positiva o directa entre las variables. Si r tiende a -1, existira una relacin lineal negativa o inversa entre las variables. Cuando r es exactamente igual a 1 o -1 la relacin lineal es perfecta, siendo posible ajustar todos los puntos a travs de una lnea recta con pendiente positiva (ver figura g) o negativa (ver figura h), respectivamente. Si r es cero no hay relacin lineal entre las variables y una lnea horizontal une todos los pares de valores localizados en el diagrama de dispersin (ver figura i).

La ventaja principal del coeficiente de correlacin lineal es su fcil clculo e interpretacin. Sin embargo, cuando las variables presentan algn tipo de relacin no lineal, r no puede medir esta clase de asociacin. As mimo, dado que r calcula la dependencia lineal solo entre pares de variables, no proporciona informacin sobre la asociacin simultnea de ms de dos variables. A continuacin se presentan las propiedades del coeficiente de correlacin:

24

1. r es de naturaleza simtrica. Esto indica que el coeficiente de correlacin entre X y Y es igual al coeficiente de correlacin entre Y y X. 2. r es independiente del origen y la escala. Si se define X*i = aXi + c y Y*i = bYi + d, donde a>0, b>0, y c y d son constantes, entonces r entre X* y Y* (variables transformadas) es igual al r entre X y Y (variables originales).

3. Si X y Y son variables estadsticamente independientes, el coeficiente de correlacin lineal entre X y Y es cero. No obstante, si r es cero, esto no implica necesariamente que X y Y sean estadsticamente independientes.

Una de las condiciones para que el coeficiente de correlacin se pueda aplicar es que las variables sean continuas y con distribucin normal. En caso de que esto no se cumpla como es el caso de variables discretas se debe buscar otra medida estadstica para evaluar la dependencia entre las variables. Una alternativa para ello son las tablas de contingencia. 3.3. Pruebas de Hiptesis La formalidad estadstica sugiere realizar pruebas de hiptesis sobre los parmetros poblacionales basndose en los estadsticos encontrados. Por ejemplo, an cuando el coeficiente de correlacin lineal estimado entre dos variables sea diferente de cero, esto no es suficiente para afirmar que el parmetro poblacional es en realidad distinto de cero, pues requiere recordarse que las inferencias se efectan con base en informacin muestral y existe un margen de error cuando se realiza este tipo de procedimiento. A continuacin se presenta el esquema de prueba de hiptesis para el coeficiente de correlacin lineal cuando el investigador desea evaluar si hay o no dependencia lineal entre un par de variables. Por lo tanto, se desea probar si el parmetro poblacional es o no diferente de cero:

25

Paso 1:

Planteamiento de la hiptesis:

Ho: Ha:

=0 0

Paso 2:

Nivel de significancia. Representa el nivel de error mximo tolerable para realizar la prueba. Este es establecido o definido por el investigador y se denota con la letra . Los valores de significancia con los cuales se trabajan pueden cambiar de una disciplina o ciencia a otra. Bajo situaciones donde los experimentos tienen una alto grado de control, usualmente se trabaja con niveles del 1% y 5%, (altamente significativo y significativo, respectivamente). En las investigaciones de las ciencias sociales, donde existe un limitado grado de control sobre las variables, pueden encontrarse significancias estadsticas del 10% y en algunas ocasiones hasta un 20%.

Paso 3:

El estadstico de prueba. Es una medida estadstica calculada a partir de informacin muestral o experimental para llevar a cabo la prueba. Para el caso de correlacin lineal simple, el estadstico de prueba se define como:

tC =

(r

n 2 1 r2

)

~ t .

2, n 2

donde r es el coeficiente de correlacin lineal muestral, n es el tamao de la muestra, n-2 los grados de libertad de la prueba y el valor del parmetro poblacional en la hiptesis nula. En este ejemplo particular, toma el valor de cero, pero en otras pruebas, de acuerdo con lo que desee evaluar el investigador corresponder a un valor distinto de cero, entre 1 y 1. puede

26

Paso 4:

Regiones de decisin. Dado que la hiptesis alterna seala el smbolo , se trabaja con los dos lados de la distribucin. La regin de rechazo estar repartida en los extremos de la funcin de probabilidad, con un valor de 2 a cada lado. Los valores de los lmites derecho e izquierdo que limitan las regiones de rechazo se determinan mediante el uso de la tabla t con sus respectivos grados de libertad. Estos valores de t se denominan estadsticos de contraste. La figura j muestra la regin de rechazo (RHo) y aceptacin (AHo) de la hiptesis nula de esta prueba:

Paso 5:

Criterio de decisin y conclusin del investigador. Se debe comparar el estadstico calculado o de prueba tabulado t

(tC )

contra el estadstico

(

2, n 2

). El criterio de decisin esta basado en: 1) si el t

calculado es mayor que el t de tablas positivo, cae en la regin de rechazo del lado derecho de la distribucin y la decisin que se debe tomar es rechazar la hiptesis nula ( 0 ); 2) si el t calculado es menor que el t de tablas negativo, el t calculado cae en la regin de rechazo del lado izquierdo y la decisin igualmente es rechazar la hiptesis nula ( 0 ); y 3) si el t calculado se encuentra entre el -t y t de las tablas, el t calculado cae en la regin de aceptacin y la decisin es no rechazar la hiptesis nula ( = 0 ). Posteriormente, el investigador basado en el criterio de decisin concluye e interpreta

27

los resultados de la prueba, y plantea las recomendaciones pertinentes. La significancia estadstica del coeficiente de correlacin en la prueba de hiptesis se afecta por el tamao de la muestra (n) o mejor an por los grados de libertad, lgicamente a mayor tamao de la muestra el valor de r tiene mayor confiabilidad. Si se encuentra un valor de r relativamente bajo y n es grande, es posible que ste sea significativo al comparar el estadstico de prueba con el de contraste o de tablas; alternativamente se puede encontrar un r alto pero no significativo estadsticamente debido a que n es muy pequeo y por consiguiente el nmero de grados de libertad es bajo. 3.4. Ejercicios de computador Usando los mismos datos del ejemplo hipottico de demanda planteado en el captulo anterior, a continuacin se presenta el diagrama de dispersin, y la matriz de covarianzas y de correlacin de las variables:DIAGRAMAS DE DISPERSIN

28

MATRIZ DE COVARIANZAS

VARIABLE DX PX PZ PW I

DX 263.6213 -47.98225 60.01775 -53.78107 47.89941

PX -47.98225 9.514793 -11.63905 10.73373 -12.99408

PZ 60.01775 -11.63905 18.13018 -12.65089 16.69822

PW -53.78107 10.73373 -12.65089 13.40828 -16.18343

I 47.89941 -12.99408 16.69822 -16.18343 63.17160

MATRIZ DE CORRELACION VARIABLE DX PX PZ PW I DX 1.000000 -0.958056 0.868137 -0.904592 0.371175 PX -0.958056 1.000000 -0.886170 0.950308 -0.530011 PZ 0.868137 -0.886170 1.000000 -0.811397 0.493410 PW -0.904592 0.950308 -0.811397 1.000000 -0.556062 I 0.371175 -0.530011 0.493410 -0.556062 1.000000

4. REGRESION SIMPLE LINEAL Y NO LINEAL

4.1. Objetivo del anlisis de regresin El objetivo fundamental del anlisis de regresin es el estudio de la dependencia de una variable, llamada explicada, de una o ms variables llamadas explicativas. El anlisis de regresin se apoya en el concepto matemtico de funcin, en el que se tiene una variable dependiente (variable explicada) y un conjunto de variables independientes (variables explicativas) con el fin de estimar los coeficientes o parmetros de dicha funcin y efectuar predicciones (encontrar el valor esperado de la variable dependiente cuando se construyen escenarios reflejados en los valores que toman las variables independientes).

Todo procedimiento economtrico sigue los siguientes pasos: la especificacin, la estimacin, la verificacin y la prediccin. A continuacin se presenta una breve descripcin de cada etapa:

29

1.

Especificacin: corresponde a la etapa en que el investigador define la forma funcional del modelo que desea utilizar para explicar la variable dependiente siguiendo los lineamientos de la teora econmica.

2.

Estimacin: durante esta se calculan los valores numricos de los coeficientes o parmetros del modelo; para ello es necesario apoyarse en los mtodos de estimacin y la aplicacin de rutinas de computador usando paquetes estadsticos (Eviews).

3.

Verificacin: consiste en corroborar la validez terica y estadstica del modelo, es decir, evaluar si los signos obtenidos para los coeficientes estimados son los esperados y si el modelo cuenta con propiedades estadsticas adecuadas (buen ajuste, alta relevancia y dependencia).

4.

Prediccin: muchas veces los modelos elaborados por los economistas no tienen solo como objeto mostrar la relacin entre variables y la magnitud de dicha relacin entre estas a travs de una forma funcional, sino que adems los modelos tienen implicaciones en trminos de prediccin. En este sentido puede encontrarse el efecto esperado sobre la variable dependiente para diversos valores de las variables independientes fuera del rango muestral. En este procedimiento la inferencia estadstica juega un papel importante.

4.2. Funcin de regresin muestral y poblacional

La lnea de regresin E (Y / X i ) = 1 + 2 X i es la unin de los puntos que representan los valores esperados de variable dependiente Y dado los valores de las variables independientes Xs. Esta lnea se puede construir a partir del diagrama de dispersin conformado por los datos poblaciones; en este caso la lnea de regresin se conoce como la funcin de regresin poblacional. A continuacin se presenta una

30

grfica de la lnea de regresin poblacional cuando el gasto en consumo de un hogar se desea explicar por el ingreso.

Por otro lado, cuando la lnea de regresin es construida con los datos muestrales recibe el nombre de funcin de regresin muestral. Como todo procedimiento de inferencia estadstica, lo que se pretende es que la muestra sea una buena representacin de la poblacin. En este sentido, la funcin de regresin muestral constituye una representacin de la funcin de regresin poblacional. A s mismo, en la prctica, las muestras de variables aleatorias son usadas para inferir sobre las caractersticas de la poblacin. La siguiente grfica presenta un ejemplo de dos lneas de regresin muestral para el gasto en consumo semanal de un hogar versus el ingreso.

31

4.3. Supuestos del modelo de regresin Los supuestos del modelo junto con los mtodos de estimacin caracterizan los resultados obtenidos de la regresin (coeficientes, pruebas de hiptesis, intervalos de confianza, prediccin, etc.). En particular, los supuestos ms importantes del modelo recaen sobre el trmino del error. Teniendo en cuenta que la funcin de regresin poblacional puede expresarse tambin de la forma Yi = 1 + 2 X i+ ui , el modelo de regresin lineal cuenta con los siguientes supuestos:

Supuesto 1: El modelo de regresin es lineal en los parmetros: Yi = 1 + 2 X i + ui

Supuesto 2: Los valores de X son fijos en muestreos repetitivos. Tcnicamente esto consiste en que X se supone no estocstica. Supuesto 3: El valor medio de la perturbacin ui es igual a cero. E[ui / X i ] = 0

32

Por lo tanto los factores que no estn incluidos en el modelo y que por consiguiente, estn incorporados en ui , no afectan sistemticamente el valor de la media de Y.

Supuesto 4: Homoscedasticidad o varianza constante de ui . Dado el valor de X , la varianza de ui es constante para todas las observaciones. Esto es, las varianzas condicionales de ui son idnticas.

Var[u i / X i ] = E[u i E[u i ] / X i ] 2 Var[u i / X i ] = E[u i2 / X i ] Var[u i / X i ] = 2

La anterior ecuacin, establece que la varianza de ui para cada X i , es algn nmero positivo constante igual a 2 . Ntese que el supuesto 4 implica que las varianzas condicionales deVar[Yi / X i ] = 2 .

Yi

tambin son homoscedsticas. Esto es:

En contraste, si la varianza condicional de la poblacin Y varia con X , esta situacin se conoce como Heteroscedasticidad, lo cual puede escribirse como:Var[u i / X i ] = i2

Obsrvese el subndice sobre 2 en esta expresin indica que la varianza de la poblacin Y ahora no es constante.

Supuesto 5: No auto correlacin entre las perturbaciones. Dados dos valores cualquiera de X , por ejemplo X i y X j (i j ) , la correlacin entre ui y u j para todo i j es cero.

33

Cov (u i , u j / X i , X j ) = E[u i E[u i ] / X i ][u j E[u j ] / X j ] Cov (u i , u j / X i , X j ) = E[u i / X i ][u j / X j ] Cov (u i , u j / X i , X j ) = 0

donde i y j son dos observaciones diferentes. Este es tambin llamado supuesto de no correlacin serial. Supngase que en la funcin de regresin poblacional Yt = 1 + 2 X t + ut , ut y ut 1 estn correlacionados positivamente. Entonces Yt depende no solamente de X t sino tambin de ut 1 , puesto que ut 1 determina en cierta medida a u t . Supuesto 6: La covarianza entre ui y X i es cero, o E[ui , X i ] = 0 . Cov[u i , X i ] = E[u i E[u i ]][ X i E[ X i ]] Cov[u i , X i ] = E[u i ( X i E[ X i ])] Cov[u i , X i ] = E[u i X i ] E[ X i ]E[u i ] Cov[u i , X i ] = E[u i X i ], Cov[u i , X i ] = 0 E[u i ] = 0 E[u i ] = 0 E[ X i ] _ no _ estocastica

Supuesto7: El nmero de observaciones n debe ser mayor que el nmero de parmetros por estimar. Supuesto 8: Variabilidad en los valores de X . Se requiere que no todos los valores de X en una muestra dada sean iguales. As la Var[ X ] es un nmero finito positivo.

Supuesto 9: El modelo de regresin esta correctamente especificado. La omisin de variables importantes del modelo o la escogencia de una forma funcional equivocada afectan la validez de la interpretacin de la regresin estimada.

Supuesto 10: No hay correlacin lineal perfecta entre variables explicativas.

34

Cuando el modelo de regresin cumple con los anteriores supuestos se le conoce como modelo de regresin clsico y tiene las siguientes propiedades: los estimadores son MELI (mejores estimadores lineales insesgados). Si se agrega el supuesto de normalidad de los errores, los estimadores son MEI (mejores estimadores insesgados) y por lo tanto seguirn distribucin normal. Con ello, los intervalos de confianza, las predicciones y las pruebas de hiptesis tienen validez estadstica.

4.4. Mtodo de estimacin de mnimos cuadrados ordinarios El objetivo principal de la etapa de estimacin es encontrar los valores de los parmetros muestrales. El mtodo de estimacin ms popular recibe el nombre de mnimos cuadrados ordinarios (MCO). El criterio de este mtodo consiste en proporcionar estimadores de los parmetros que minimicen la suma de los cuadrados de los errores. Operativamente el proceso es construir una funcin objetivo en trminos de la suma de los cuadrados de los errores y mediante optimizacin (condiciones de primer orden - C.P.O., y condiciones de segundo orden - C.S.O.) obtener las frmulas de clculo de los estimadores.

Debido a que la funcin de regresin poblacional no se puede observar directamente, los estimadores de mnimos cuadrados ordinarios se obtienen a partir de la funcin de regresin muestral (FRM). La FRM es:

Yi = 1 + 2 X i + e i Yi = Yi + e i

La suma del cuadrado de los errores puede expresarse como sigue: e i2 = (Y i Yi ) = (Y i 1 2 X i )2 2

35

De acuerdo con el principio de mnimos cuadrados ordinarios:min

e i2 = min (Y i 1 2 X i )

2

Derivando la anterior expresin con respecto a 1 y 2 e igualando a cero,

respectivamente, y resolviendo las ecuaciones normales, se encuentran los estimadores de los parmetros de la regresin:n X i Yi ( X i )( Yi ) n X i ( X i )2 2

2 =

=

Cov ( X , Y ) Var ( X )

1 = Y 2 X

4.5. Varianzas y errores estndar de los estimadores As como existen medidas de dispersin para las variables tambin las hay para los estimadores, por lo tanto, es necesario siempre presentar una medida de precisin de los estimadores de los parmetros del modelo. Esta medida es el error estndar e indica la confiabilidad de las estimaciones (si son pequeas dejan ver que los parmetros muestrales van a ser muy parecidos a los poblacionales). La principal utilidad de los errores estndar de los estimadores es la construccin de intervalos de confianza y la prueba de hiptesis. A continuacin se presenta la forma de calcular la varianza y error estndar de cada estimador del modelo de regresin lineal simple:

Var 1 =

( )

X i2 2 2 n (X i X )y

X i2 = se 1 2 n (X i X )

( )

Var 2 =

( )

(X i X )

2 2

se 2 =

( )

(X i X )

2

36

4.6. Intervalos de confianza En estadstica es comn efectuar inferencias basadas en estimaciones puntuales y en intervalos. Estas ltimas son menos riesgosas debido a que se encuentran dentro de un rango con cierto margen de confiabilidad. En particular, pueden construirse intervalos de confianza para los parmetros del modelo de regresin as como para las predicciones. Un intervalo de confianza para el parmetro 2 puede presentarse como sigue: Pr 2 t 2 se 2 2 2 + t 2 se 2 = 1 donde es el nivel de significancia estadstica y se 2 es el error estndar de 2 .

[

( )

( )]

( )

100(1 ) es el nivel porcentual de confianza del intervalo. Una versin abreviada de esta expresin es: 2 t Pr 1 t 2

se 2 . De la misma forma para 1 :

( )

[

2

se 1 1 1 + t 1 t 2 se 1

( )

2

se 1 = 1

( )

( )]

Si por ejemplo es 0.05, la interpretacin del intervalo de confianza para 2 es: dado un nivel de confianza del 95% (en 95 de cada 100 casos) en el largo plazo, el intervalo 2 t 2 se 2 , 2 + t 2 se 2

[

( )

( )] contendr el verdadero valor de

2.

4.7. Pruebas de hiptesis En todo modelo de regresin se deben probar hiptesis para evaluar la validez estadstica de los resultados. Entre la variedad de pruebas de hiptesis que se pueden efectuar, las pruebas de dependencia y relevancia son las ms importantes.

37

Prueba

de

relevancia:

la

prueba

de

relevancia

consiste

en

evaluar

estadsticamente qu tan significativo es un parmetro del modelo, de esta manera puede identificarse si la variable independiente importante al modelo de regresin.

(X )

aporta informacin

Siguiendo la estructura presentada en el

captulo 2, para cada estimador i , i= 1, 2:

Paso 1:

Planteamiento de la hiptesis. Ho: Ha:

i = 0 i 0

Paso 2:

Nivel de significancia ( ) : El estadstico de prueba. Para la prueba de relevancia en el modelo de regresin, el estadstico de prueba se define como:

Paso 3:

tC =

i ~ t . se ( i )

2, n 2

Paso 4:

Regiones de decisin: La siguiente grfica muestra la regiones de rechazo y aceptacin de la hiptesis nula.

38

Paso 5:

Criterio de decisin y conclusin del investigador: Si t C > t

2, n 2

se

rechaza la hiptesis nula. Si la prueba de hiptesis es realizada para

1 y se rechaza Ho se concluye que el intercepto del modelo essignificativo al nivel . Si la prueba se efecta para 2 y se rechaza Ho se concluye que X i es estadsticamente relevante al nivel de significancia. Por otro lado, cuando no sea posible rechazar la hiptesis nula, se puede decir que no existe evidencia estadstica para afirmar que X i sea relevante al nivel de significancia.

Prueba de dependencia: esta prueba se lleva a cabo para evaluar si en un modelo de regresin las variables independientes explican estadsticamente en su conjunto la variable dependiente. Se desea que en un modelo de regresin exista una alta dependencia ocasionada por las variables explicativas. Esta prueba de hiptesis como cualquier otra debe seguir una estructura similar a la presentada en el captulo 2. La hiptesis nula de esta prueba hace referencia a la no existencia de dependencia en el modelo (para el caso de regresin simple como solo hay una variable independiente se desea probar si 2 = 0 ). La hiptesis alternativa argumenta lo contrario, sealando que al menos uno de los coeficientes que acompaan las variables independientes es distinto de cero (en regresin simple esto es equivalente a 2 0 ).

El estadstico de prueba para el caso de un modelo de regresin lineal simple es2 FC = (t n 2 ) ~ F1, n 2 , donde FC es el estadstico calculado, que sigue una .

distribucin F con un grado de libertad en el numerador y n-2 grados de libertad en el denominador; y t es el estadstico t calculado en la prueba de relevancia para

2 . Finalmente, la hiptesis nula es rechazada cuando FC > F1, n 2 .

39

4.8. Prediccin Una aplicacin del modelo de regresin es la prediccin o el pronstico de la variable dependiente, de acuerdo con valores dados de las variables independientes. Hay dos tipos de predicciones: la prediccin media y la prediccin individual. A continuacin se presentan estos dos casos: Prediccin media: es la prediccin del valor medio condicional de Y, correspondiente a un determinado valor de X, denotado como X0, el cual representa un punto sobre la lnea de regresin poblacional. Si se desea predecir E (Y / X 0 ) , la estimacin puntual de la prediccin media es2 = + X y la varianza de Y : Var Y = 2 1 + (X 0 X ) . Y0 0 1 2 0 0 2 n (X i X )

( )

Prediccin individual: es la prediccin de un valor individual de Y, correspondiente a un determinado valor de X. Si se desea predecir Y0 / X 0 , de igual forma que en

la prediccin media, la estimacin puntual es Y0 = 1 + 2 X 0 , sin embargo lamanera de calcular la varianza de Y0 es: 1 (X 0 X )2 Var (Y0 ) = 2 1 + + 2 n (X i X )

4.9. El Coeficiente de Determinacin Es importante mencionar que cuando un modelo de regresin es construido con el objeto de predecir, al investigador le interesa encontrar una medida de la bondad de ajuste de los resultados del modelo. Una medida muy comn de esta bondad de ajuste es el coeficiente de determinacin o R 2 , la cual proporciona informacin

40

respecto a que tan bien la lnea de regresin muestral se ajusta a los datos. Para el caso de un modelo de regresin lineal simple se denota como r 2 y se calcula:

r 2 = (r ) , donde r es el coeficiente de correlacin lineal entre las variables Y y2

X . Debido a que el r 2 bajo los supuestos de modelo de regresin clsico se

encuentra entre 0 y 1, la manera de interpretarlo es en porcentaje, argumentndose que dicho valor refleja la magnitud porcentual de la variacin de la variable Y explicada por la variable X.

4.10. Modelos de regresin simple no lineal en las variables En algunos casos el investigador requiere estimar otro tipo de modelos en los que las variables independientes no sean lineales, como por ejemplo variables transformadas en trminos logartmicos, cuadrticos, raz cuadrada, cbicos, etc. Las razones para estimar estos nuevos modelos pueden ser: mejorar los resultados en trminos de bondad de ajuste, obtener elasticidades directamente de la regresin, o en algunos casos porque la teora econmica lo sugiere. Un ejemplo del modelo no lineal es el conocido como Cobb-Douglas, cuya forma funcional es la siguiente: Y i = AX i2

e ui

Para estimar el modelo se efecta una linealizacin del modelo original transformndolo en logaritmos. De esta manera: Log Yi = LogA + 2 Log X i+ u i

Puede notarse que las variables dependiente e independiente se encuentran transformadas en logaritmos y el trmino Log A es el intercepto de la regresin. As, con el deseo de obtener los coeficientes de la regresin puede efectuarse la siguiente sustitucin:

41

Sea YT = Log Yi , 1 = Log A y XTi = Log X i , luego el modelo a estimar toma la forma: YTi = 1 + 2 XTi + u i , y los coeficientes del modelo transformado pueden ser obtenidos por el mtodo de mnimos cuadrados ordinarios usando las ecuaciones para los estimadores 1 y 2 presentadas en el numeral 4.4.

Tericamente un modelo Cobb-Douglas es una funcin con elasticidad constante a lo largo de todo su dominio, siendo diferente de una funcin lineal, donde la elasticidad depende especialmente de la observacin X i . En este sentido, el modelo Cobb-Douglas permite obtener directamente las elasticidades: el coeficiente 2 representa la elasticidad de Y respecto a X, y se interpreta como el

aumento (cuando el valor de la elasticidad es mayor que cero) o disminucin (cuando el valor de la elasticidad es menor que cero) porcentual en la variable Y, ocasionada por el incremento en un 1% de la variable X.

4.11. Ejercicios de Computador Continuando con el ejemplo de datos hipotticos de demanda presentado en los captulos anteriores, las siguientes salidas de computador muestran los resultados del modelo de regresin lineal simple de demanda y el modelo no lineal en las variables (doblemente logartmico) con las respectivas matrices de varianza covarianza de los coeficientes:

42

MODELO DE REGRESION LINEAL SIMPLE

Dependent Variable: DX Method: Least Squares Date: 10/03/06 Time: 16:38 Sample: 1 13 Included observations: 13 Variable C PX R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient 71.41791 -5.042910 0.917870 0.910404 5.058427 281.4646 -38.43407 2.267643 Std. Error 3.130854 0.454825 t-Statistic 22.81100 -11.08759 Prob. 0.0000 0.0000 40.38462 16.89940 6.220627 6.307542 122.9346 0.000000

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

Los resultados del modelo lineal muestran que la variable precio cuenta con el signo esperado y es relevante al 1%, 5% y 10% de significancia. El valor del R2 es 0.918, es decir, el 92% de la variacin de la demanda del bien X esta explicada por la variable precio. Adicionalmente se observa la existencia de dependencia conjunta en el modelo al 1%, 5% y 10% de significancia (Fc=122.935). El coeficiente de la variable PX es interpretado como un efecto marginal, por lo tanto, un incremento en una unidad del precio de X disminuye en promedio su demanda en 5.04 unidades, manteniendo todos los dems factores constantes.

MATRIZ DE VARIANZA COVARIANZA DE LOS COEFICIENTES DEL MODELO DE REGRESIN SIMPLE COEFICIENTE C PX C 9.802248 -1.273019 PX -1.273019 0.206866

43

MODELO DE REGRESION SIMPLE NO LINEAL EN LAS VARIABLES (DOBLEMENTE LOGARITMICO)

Dependent Variable: LOG(DX) Method: Least Squares Date: 10/03/06 Time: 16:48 Sample: 1 13 Included observations: 13 Variable C LOG(PX) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient 4.799536 -0.722024 0.771676 0.750919 0.249094 0.682526 0.708676 2.124425 Std. Error 0.208899 0.118417 t-Statistic 22.97538 -6.097307 Prob. 0.0000 0.0001 3.597486 0.499106 0.198665 0.285581 37.17715 0.000078

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

Los resultados del modelo doblemente logartmico indican que la variable logaritmo del precio es significativa (al 1%, 5% y 10%) y exhibe el signo terico. El R2 es 0.772, por lo tanto, el 77% de la variacin del logaritmo de la demanda del bien X es explicada por el logaritmo de su precio. Adicionalmente existe dependencia conjunta en el modelo (1%, 5% y 10% de significancia). El coeficiente de la variable LOG(PX) es interpretado como una elasticidad, por lo tanto, un incremento en un 1% del precio de X disminuye en promedio su demanda en 0.72%, manteniendo todos los dems factores constantes.

MATRIZ DE VARIANZA COVARIANZA DE LOS COEFICIENTES DEL MODELO NO LINEAL EN LAS VARIABLES (DOBLEMENTE LOGARITMICO)

COEFICIENTE C LOG(PX)

C 0.043639 -0.023345

LOG(PX) -0.023345 0.014023

44

5. REGRESION MULTIPLE LINEAL Y NO LINEAL 5.1. Expresin del modelo en forma matricial En regresin mltiple se supone que las variaciones de Yi que se pretenden explicar son debidas a K variables independientes, es decir X1, X2, .., XK y como en la realidad no pueden presentarse relaciones determinsticas por completo se considera la inclusin del trmino de perturbacin . Resulta conveniente analizar el modelo clsico de regresin lineal usando el enfoque matricial. Supngase un modelo lineal de la forma: Y = 1 + 2 x2 + 3 x3 + L + k xk + Si se tienen n observaciones independientes y1 , y2 ,K , yn de Y, podemos escribir y i como:yi = 1 + 2 xi 2 + 3 xi 3 + L + k xi k + i

Donde x i j es el valor de la j-sima variable independiente para la i-sima observacin, i = 1,2,3, K , n . Ahora defnanse las siguientes matrices, con x1 = 1 :

y1 y Y = 2 M yn

x11 x , X = 21 M xn1

x12 L x1k x22 L x2 k M xn 2 L xnk

1 , = 2 M k

,

1 = 2 M n

Por lo tanto las n ecuaciones que representan y i como funcin de las x i j , los y

i se pueden escribir simultneamente y de forma compacta como:Y = X +

45

5.2. Supuestos del modelo Los supuestos del modelo son los siguientes:Y = X +

1. 2. 3. 4. 5. 6.

(Linealidad en los parmetros).

X es de tamao n x k con rango k.

E ( X) = 0

E (Y / X) = X

E (' ) = 2 I Cov( i j ) = 0 , i j .X es no estocstica.

( X )

~ N (0, 2 I) .

5.3. Mtodo de estimacin de mnimos cuadrados ordinarios Se desea obtener un estimador de un vector de parmetros desconocido que minimiza la suma del cuadrado de los errores S, donde:

S = 2 = ' = (Y X ) ' (Y X )Al minimizar S con respecto a se encuentra el estimador de mnimos cuadrados ordinarios de regresin mltiple: MCO = (X ' X ) 1

(X ' Y )

5.4. Matriz de varianzas y covarianzas de los estimadores La matriz de varianza-covarianza de los estimadores es relevante en la determinacin de los errores estndar de los coeficientes y en la ejecucin de pruebas de hiptesis. Para obtener la matriz de varianza-covarianza de los estimadores es necesario calcular previamente la suma de cuadrados de los errores y la varianza del modelo:

46

1. Suma

de

cuadrados

de

los

errores.

Puede

ser

calculada

as:

SCE = Y' Y ' X' Y .

2. Varianza del modelo. Dado que en la mayora de los casos la varianza es desconocida, se utiliza la informacin de la muestra para obtener un estimador de la misma: 2 = (Y' Y ' X' Y) (n k ) = SCE (n k ) .

Usando la informacin anterior, la matriz de varianza covarianza de los coeficientes se puede calcular con la siguiente frmula: Matriz var cov . = 2 ( X' X ) 1

5.5. Pruebas de hiptesis Para efectuar pruebas de hiptesis es necesario obtener el error estndar de cada uno de los estimadores. Esta medida de dispersin corresponde a la raz cuadrada de cada uno de los elementos de la diagonal principal de la matriz de varianza covarianza. A continuacin se presentan los aspectos ms importantes para efectuar las pruebas de relevancia y dependencia en un modelo de regresin mltiple:

Pruebas de relevancia: En estas pruebas se utilizan los t estadsticos calculados de los estimadores con su respectivo p-valor. A continuacin se presenta la forma de obtenerlos: 1. t estadsticos. Los valores de t son calculados efectuando el cociente entre el coeficiente estimado y el error estndar respectivo. 2. p-valores. Arroja la probabilidad exacta de obtener un valor de t mayor que el valor absoluto de t obtenido para cada coeficiente. Tambin es conocido como el nivel mnimo de significancia para rechazar la hiptesis nula. Para

47

obtener dicha probabilidad es necesario el valor del estadstico t calculado, el nmero de grados de libertad (n k ) y el nmero de colas de la prueba (en este caso dos colas dado que es una prueba de significancia individual).

Prueba de dependencia: Como se mencion en el captulo anterior el estadstico utilizado para realizar la prueba es el F.

1. F estadstico. Mide la dependencia conjunta en el modelo respecto a las variables explicativas. Puede ser obtenido en la forma matricial de la siguiente manera: F = (' X' Y nY 2 )(n k ) [(Y' Y ' X' Y)(k 1)] . 2. p valor. Arroja el nivel mnimo de significancia para rechazar la hiptesis nula. En el procedimiento se requiere el valor obtenido de F, los grados de libertad del numerador (k 1) y grados de libertad del denominador (n k ) . 5.6. Coeficiente de determinacin ajustado (R 2 ) El trmino ajustado se refiere a que es corregido por los correspondientes grados de libertad. El R 2 mide la bondad de ajuste del modelo de regresin (porcentaje de explicacin de la variable dependiente por las variables independientes), as como lo hace el R 2 convencional, sin embargo el R 2 tiene la particularidad de que permite comparar modelos de regresin mltiple en los que se incluyen variables adicionales. No obstante, se debe considerar que la comparacin tiene validez cuando en cada modelo la variable dependiente y el tamao de la muestra sean iguales. La forma de calcular el R 2 se presenta a continuacin:R 2 = 1 1 R2

[

]

(

n 1 )n k

48

5.7. Intervalos de confianza. Un intervalo de confianza para el parmetro k , k = 1,2, K , K , tiene la forma: Pr k t 2 se k k k + t 2 se k = 1 k t 2 se k

[

( )

( )

( )]

donde es el nivel de significancia estadstica y se k es el error estndar de k . El se k se obtiene mediante la frmula: se k =

( )

( )

( )

( X ' X )1 . Puede notarse, que kk

este intervalo de confianza corresponde a una expresin matemtica similar a la presentada en el caso de regresin simple.

5.8. Modelos de regresin mltiple no lineal en las variables En este numeral, se extender el caso de la funcin tipo Cobb-Douglas desarrollado en el numeral 4.10 al caso de regresin mltiple no lineal en las variables. Considrense ms variables independientes Xs que pueden explicar la variable Y, por lo tanto, el modelo Cobb-Douglas toma la forma: Yi = AX i 2 2 X i 3 3 K X ik k e ui

Luego transformando el modelo en logaritmos: Log Yi = Log A + 2 Log X i 2+ 3 Log X i 3+ L + k Log X ik+ u i Sea YT = Log Yi , 1 = Log A , XTi 2 = Log X i 2 ,..., XTik = Log X ik , entonces el modelo a estimar es:

YTi = 1 + 2 XTi 2 + 3 XTi 3 + L + k XTik + u i

49

Bajo el esquema matricial los coeficientes del modelo transformado pueden ser obtenidos a travs del mtodo de mnimos cuadrados ordinarios usando la frmula

de clculo presentada en el numeral 5.3. El coeficiente k , k = 2,3, K , Krepresenta la elasticidad de Y respecto a Xk y tiene la misma interpretacin que en el caso del modelo de regresin simple doblemente logartmico del captulo anterior. Por lo tanto, se tendrn k 1 elasticidades en regresin mltiple al estimarse una funcin tipo Cobb-Douglas. Por otro lado, cabe destacar que ejercicios de estimacin diferentes al modelo Cobb-Douglas no permiten obtener directamente elasticidades constantes. Por ello es necesario tener en cuenta la forma que toman las variables en el modelo transformado antes de efectuar interpretaciones de los coeficientes.

5.9. Ejercicios de Computador. Ejemplo 1. Usando la misma base de datos hipotticos de demanda de captulos anteriores a continuacin se presentan los resultados de las estimaciones del modelo de regresin mltiple lineal y no lineal en las variables, las matrices de varianza covarianza de los coeficientes, as como la comparacin entre los valores observados y predichos de la demanda y sus residuos:

50

REGRESIN LINEAL MLTIPLE Dependent Variable: DX Method: Least Squares Date: 10/04/06 Time: 10:31 Sample: 1 13 Included observations: 13 Variable C PX PW PZ I R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient 72.73351 -4.588739 -0.386460 0.471929 -0.409388 0.947105 0.920657 4.760208 181.2767 -35.57419 1.436480 Std. Error 10.83288 1.778623 1.214240 0.688867 0.201019 t-Statistic 6.714142 -2.579939 -0.318273 0.685080 -2.036558 Prob. 0.0002 0.0326 0.7584 0.5127 0.0761 40.38462 16.89940 6.242183 6.459471 35.81046 0.000037

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

Los resultados del modelo lineal muestran que la variable precio cuenta con el signo esperado y es relevante al 5% y 10% de significancia. El valor del R2 es 0.947, es decir, el 95% de la variacin de la demanda del bien X esta explicada por las variables independientes. Adicionalmente se observa la existencia de dependencia conjunta en el modelo al 1%, 5% y 10% de significancia (Fc=35.810). El coeficiente de la variable PX es interpretado como un efecto marginal, por lo tanto, un incremento en una unidad del precio de X disminuye en promedio su demanda en 4.59 unidades, manteniendo todos los dems factores constantes. Vale la pena aclarar que la variable ingreso an cuando es relevante al 10% de significancia, el signo de su coeficiente no es consistente con la teora economa relacionada con un bien normal.

51

MATRIZ DE VARIANZAS Y COVARIANZAS DE LOS ESTIMADORES DEL MODELO DE REGRESIN LINEAL MULTIPLE

COEFICIENTE C PX PW PZ I

C 117.3513 -11.56233 1.349073 -6.616478 -0.600013

PX -11.56233 3.163501 -1.826424 0.777287 -0.022642

PW 1.349073 -1.826424 1.474379 -0.192430 0.052888

PZ -6.616478 0.777287 -0.192430 0.474538 -0.014848

I -0.600013 -0.022642 0.052888 -0.014848 0.040409

VALORES OBSERVADOS Y ESTIMADOS DE LA DEMANDA Y LOS RESIDUOS A PARTIR DEL MODELO DE REGRESIN LINEAL MLTIPLE

obs 1 2 3 4 5 6 7 8 9 10 11 12 13

Actual 37.0000 38.0000 18.0000 50.0000 22.0000 55.0000 42.0000 29.0000 63.0000 13.0000 60.0000 62.0000 36.0000

Fitted 37.8104 43.2972 22.0098 49.7111 27.3714 59.4627 34.4728 27.1267 62.7036 10.3593 56.3697 59.7074 34.5979

Residual -0.81044 -5.29718 -4.00977 0.28890 -5.37143 -4.46267 7.52721 1.87326 0.29637 2.64072 3.63029 2.29265 1.40211

Residual Plot | . *| . | | *. | . | | .* | . | | . * . | | *. | . | | * | . | | . | . * | . | * . | | . * . | | . | * . | | . | *. | | . | * . | | . |* . |

52

MODELO DE REGRESION MULTIPLE NO LINEAL EN LAS VARIABLES (DOBLEMENTE LOGARITMICO) Dependent Variable: LOG(DX) Method: Least Squares Date: 10/04/06 Time: 10:39 Sample: 1 13 Included observations: 13 Variable C LOG(PX) LOG(PW) LOG(PZ) LOG(I) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient 3.042978 0.115482 -0.336166 0.671764 -0.103431 0.902417 0.853626 0.190953 0.291703 6.234096 1.510399 Std. Error 1.646616 0.301528 0.436617 0.400484 0.084847 t-Statistic 1.848020 0.382991 -0.769933 1.677382 -1.219025 Prob. 0.1018 0.7117 0.4635 0.1320 0.2576 3.597486 0.499106 -0.189861 0.027427 18.49542 0.000418

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

Los resultados del modelo doblemente logaritmo no son satisfactorios, dado que ninguna de las variables incorporadas como regresores son significativas. Asimismo, las variable LOG(PX) y LOG(I) no presentan los signos esperados, limitando la validez terica del modelo.MATRIZ DE VARIANZAS Y COVARIANZAS DE LOS ESTIMADORES DEL MODELO DOBLEMMENTE LOGARTMICO

COEFICIENTE C LOG(PX) LOG(PW) LOG(PZ) LOG(I)

C 2.711343 -0.229656 -0.565544 -0.638982 -0.061003

LOG(PX) -0.229656 0.090919 -0.022785 0.064962 0.001807

LOG(PW) -0.565544 -0.022785 0.190634 0.121451 0.014976

LOG(PZ) -0.638982 0.064962 0.121451 0.160387 0.008270

LOG(I) -0.061003 0.001807 0.014976 0.008270 0.007199

53

VALORES OBSERVADOS Y ESTIMADOS DEL LOGARITMO DE LA DEMANDA Y LOS RESIDUOS A PARTIR DEL MODELO DE REGRESIN DOBLEMENTE LOGARTMICO

obs 1 2 3 4 5 6 7 8 9 10 11 12 13

Actual 3.61092 3.63759 2.89037 3.91202 3.09104 4.00733 3.73767 3.36730 4.14313 2.56495 4.09434 4.12713 3.58352

Fitted 3.50939 3.80097 3.07102 3.91411 3.11501 4.10808 3.59355 3.32110 4.38551 2.69990 3.84781 4.00914 3.39174

Residual 0.10153 -0.16339 -0.18064 -0.00209 -0.02396 -0.10075 0.14412 0.04619 -0.24237 -0.13495 0.24653 0.11799 0.19178

Residual Plot | . | * . | | .* | . | | .* | . | | . * . | | . *| . | | . * | . | | . | *. | | . |* . | |*. | . | | . * | . | | . | . * | . | * . | | . | * |

Ejemplo 2. Ahora considere la siguiente informacin de una firma sobre los costos de produccin y la cantidad producida de un bien para estimar una funcin de costos cbica:TABLA No. 3. COSTOS SEGN EL NIVEL DE PRODUCCINObs. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Q 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 CT 5 14 23 28 33 36 41 45 48 50 55 61 66 72 77 86 97 110 127 147 169

54

Donde: CT: Q: Costo total de produccin Nivel de productoESTADISTICAS DESCRIPTIVAS Q 10 10 20 0 6.204837 21 Q2 136.6667 100 400 0 128.5365 21 Q3 2100 1000 8000 0 2488.431 21 CT 66.19048 55 169 5 43.49899 21

Mean Median Maximum Minimum Std. Dev. Observations

MODELO DE REGRESION MULTIPLE NO LINEAL EN LAS VARIABLES (FUNCIN CUBICA) Dependent Variable: CT Method: Least Squares Date: 27/09/06 Time: 21:48 Sample: 1 21 Included observations: 21 Variable Coefficient C 4.586862 Q 10.450570 Q2 -0.974658 Q3 0.043001 R-squared 0.999236 Adjusted R-squared 0.999101 S.E. of regression 1.304364 Sum squared resid 28.92322 Log likelihood -33.15899 Durbin-Watson stat 0.882959

Std. Error t-Statistic 0.962089 4.767605 0.427013 24.473660 0.050336 -19.363000 0.001653 26.020450 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

Prob. 0.000200 0.000000 0.000000 0.000000 66.19048 43.49899 3.538952 3.737908 7408,618 0

MATRIZ DE VARIANZAS Y COVARIANZAS DE LOS ESTIMADORES COEFICIENTE C 0.925616 -0.336905 0.032823 -0.000934 Q -0.336905 0.182340 -0.020705 0.000640 Q2 0.032823 -0.020705 0.002534 -0.000082 Q3 -0.000934 0.000640 -0.000082 0.000003

CQ Q2 Q3

55

6. INCUMPLIMIENTO DE LOS SUPUESTOS DEL MODELO El cumplimiento de los supuestos del modelo clsico de regresin garantiza que

los k obtenidos a travs del mtodo de mnimos cuadrados ordinarios sean losmejores estimadores linePales insesgados. Cuando tales supuestos son violados, se empiezan a generar problemas en los resultados de la regresin, haciendo que los parmetros obtenidos no cumplan con algunas de las propiedades deseables de un estimador (eficiencia y consistencia). A continuacin se describen de manera general los conceptos de multicolinealidad,

heteroscedaticidad autocorrelacin, y no normalidad, la forma de detectar tales problemas en el modelo estimado y las posibles soluciones a la violacin de los supuestos de mnimos cuadrados ordinarios relacionados con estos conceptos.

6.1. Multicolinealidad La multicolinealidad tiene que ver con la relacin lineal entre algn conjunto de variables independientes en un modelo de regresin. Supngase el siguiente modelo con cuatro variables independientes:

Cualquier relacin lineal entre las variables independientes de este modelo, por ejemplo X2 con X3, o X2 con X5 y X4 puede generar problemas de multicolinealidad. Por lo general, existen dos tipos de multicolinealidad:

1. Multicolinealidad Perfecta: Para entender el concepto de multicolinealidad perfecta es necesario expresar las variables independientes del modelo en trminos de una combinacin lineal cuya suma algebraica sea igual a cero. Para el modelo presentado la combinacin lineal sera:

56

Los valores de pueden ser positivos o negativos y formar muchas combinaciones. Cuando la suma algebraica para todas las observaciones de la muestra de esta combinacin lineal es cero se dice que existe multicolinealidad perfecta. De este caso se excepta que simultneamente los valores de sean cero, pues esta es una solucin trivial de la ecuacin. En otras palabras, la multicolinealidad perfecta se presenta cuando una combinacin lineal de uno o ms vectores de variables explicativas generan de manera perfecta uno o ms vectores idnticos a cualquiera de las variables explicativas en la base de datos.

2. Multicolinealidad Alta: Esta se presenta cuando la colinealidad que existe entre variables independientes es muy fuerte aunque no perfecta.

La multicolinealidad se presenta debido a la tendencia definida de ciertas variables a lo largo de la muestra o a travs del tiempo. Tendencias o patrones de comportamiento similares de las variables independientes en un modelo de regresin sustentan la multicolinealidad. La multicolinealidad se puede presentar en datos provenientes de series de tiempo. Por ejemplo, es comn encontrarla al regresar variables que tienen que ver con la representacin de ciclos econmicos. Por ello, antes de efectuar la regresin es til elaborar diagramas de dispersin entre las variables independientes con el objetivo de analizar el comportamiento tendencial de estas.

El

problema

de

multicolinealidad

es

un

problema

ocasionado

por

las

observaciones en los datos recopilados de la muestra. La presencia de multicolinealidad afecta directamente la estimacin de los parmetros del modelo.

De acuerdo con el estimador por mnimos cuadrados ordinarios: = (X' X )1 (X' Y )

57

Si existe multicolinealidad perfecta entre las variables independientes de un modelo de regresin, ( X' X )-1 no existe. Cuando esto ocurre no es posible estimar . En presencia de alta multicolinealidad se genera una ampliacin del error

estndar de , por lo que el valor de los estadsticos "t" para cada uno de los parmetros del modelo sern mucho menores que en ausencia de

multicolinealidad, aumentndose la probabilidad de cometer error de tipo II, es decir, que acepte Ho no siendo verdadera. Por consiguiente, el modelo no tiene validez para realizar pruebas de relevancia.

6.1.1. Deteccin de MulticolinealidadLa deteccin de multicolinealidad en un modelo puede hacerse por medio de la visualizacin de contradicciones en los estadsticos que juzgan la bondad del ajuste (R2), dependencia (Fc) y los estadsticos que permiten evaluar la relevancia de las variables en el modelo (tc). Otro mtodo de deteccin es la estimacin de

X' X ; si el valor obtenido de X' X es muy cercano a cero, puede concluirse quees muy probable la existencia de multicolinealidad alta.

No obstante, se encuentran otras pruebas mucho ms formales en trminos estadsticos. Una de ellas es estimar coeficientes de correlacin entre pares de variables independientes y formular pruebas de hiptesis sobre los coeficientes de correlacin estimados para comprobar la significancia de la relacin lineal en trminos estadsticos. Por ejemplo, una vez calculado el coeficiente de correlacin lineal entre X2 y X3, puede proponerse la siguiente prueba de hiptesis cuya formulacin es idntica a la presentada en el captulo 2: Ho: X 2 , X 3 = 0 (No existe relacin lineal entre X2 y X3)

58

Ho: X 2 , X 3 0 (Si existe relacin lineal entre X2 y X3)

El estadstico de prueba es:

tC =

(r

X 2,X 3

n 2 2

1 (rX 2 , X 3 )