manualeconometriaparte2[1]

FACULTAD DE CIENCIAS ECONÓMICAS - UNIVERSIDAD NACIONAL DE RÍO CUARTO 2010

ALFREDO BARONIO - ANA VIANCO

K. Frisch, 1969 Tinbergen, 1969 Samuelson, 1970 Kuznets, 1971 Hicks, 1972 Arrow, 1972

The Bank of Sweden Prize in

Economic Sciences in Memory of Alfred Nobel Leontief, 1973 Myrdal, 1974 Hayek, 1974 Koopmans, 1975

Kantorovich, 1975 Friedman, 1976 Ohlin, 1977 Meade, 1977 Simon, 1978 Lewis, 1979

MANUAL DE ECONOMETRÍA

2°Parte Schultz, 1979 Klein, 1980

Tobin, 1981 Stigler, 1982 Debreu, 1983 Stone, 1984 Modigliani, 1985 Buchanan Jr, 1986

Solow, 1987 Allais, 1988 Haavelmo, 1989 Sharpe, 1990 Miller, 1990 Markowitz, 1990

Edición 2010

FACULTAD DE CIENCIAS ECONÓMICAS - UNIVERSIDAD NACIONAL DE RÍO CUARTO 2010

Coase, 1991 Becker, 1992 Fogel, 1993 North, 1993 Harsanyi, 1994 Nash, 1994

Selten, 1994 Lucas Jr., 1995 Mirrlees, 1996 Vickrey, 1996 Merton, 1997 Scholes, 1997

Sen, 1998 Mundell, 1999 Heckman, 2000 McFadden 2000 Akerlof 2001 Spence 2001

Stiglitz, 2001 Kahneman, 2002 Smith, 2002 Engle III, 2003 Granger, 2003 Kydland, 2004

Prescott, 2004 Aumann, 2005 Schelling, 2005 Phelps, 2006 Hurwicz, 2007 Maskin, 2007

?

Myerson, 2007 Krugman, 2008 Ostrom, 2009 Williamson, 2009 2010 MEDAL

The Bank of Sweden Prize in Economic Sciences in Memory of Alfred Nobel 1969 "for having developed and applied dynamic models for the analysis of economic processes". Ragnar Frisch ( 1/2 of the prize). Norway. University of Oslo, Oslo, Norway. b. 1895 d. 1973. Jan Tinbergen ( 1/2 of the prize). The Netherlands. The Netherlands School of Economics, Rotterdam, the Netherlands. b. 1903 d. 1994

1970 "for the scientific work through which he has developed static and dynamic economic theory and actively contributed to raising the level of analysis in economic science". Paul A. Samuelson. ( Complete prize) USA. Massachusetts Institute of Technology. (MIT). Cambridge, MA, USA. b. 1915

1971 "for his empirically founded interpretation of economic growth which has led to new and deepened insight into the economic and social structure and process of development". Simon Kuznets. ( Complete prize) USA. Harvard University. Cambridge, MA, USA. b. 1901 (in Russia). d. 1985

1972 "for their pioneering contributions to general economic equilibrium theory and welfare theory". John R. Hicks. ( 1/2 of the prize). United Kingdom. USA. All Souls Collage Oxford, United Kingdom b. 1904 d. 1989. Kenneth J. Arrow ( 1/2 of the prize). Harvard University. Cambridge, MA, USA. b. 1921

1973 "for the development of the input-output method and for its application to important economic problems". Wassily Leontief. USA. Harvard University. Cambridge, MA, USA. b. 1906 (in St. Petersburg, Russia). d. 1999

1974 "for their pioneering work in the theory of money and economic fluctuations and for their penetrating analysis of the interdependence of economic, social and institutional phenomena". Gunnar Myrdal. ( 1/2 of the prize). Sweden. b. 1898 d. 1987. Friedrich August von Hayek.( 1/2 of the prize). United Kingdom. b. 1899 (in Vienna, Austria) d. 1992

1975"for their contributions to the theory of optimum allocation of resources". Leonid Vitaliyevich Kantorovich ( 1/2 of the prize). USSR. Academy of Sciences. Moscow, USSR. b. 1912 d. 1986. Tjalling C. Koopmans. ( 1/2 of the prize) USA. Yale University. New Haven, CT, USA. b. 1910 (in 's Graveland, the Netherlands) d. 1985

1976 "for his achievements in the fields of consumption analysis, monetary history and theory and for his demonstration of the complexity of stabilization policy" Milton Friedman. ( Complete prize) USA. University of Chicago. Chicago, IL, USA. b. 1912

1977 "for their pathbreaking contribution to the theory of international trade and international capital movements" Bertil Ohlin ( 1/2 of the prize). Sweden. Stockholm School of Economics. Stockholm, Sweden. b. 1899 d. 1979. James E. Meade ( 1/2 of the prize). United Kingdom. University of Cambridge Cambridge, U. K. b. 1907 d. 1995

1978 "for his pioneering research into the decision-making process within economic organizations". Herbert A. Simon. ( Complete prize) USA. Carnegie Mellon University. Pittsburgh, PA, USA. b. 1916 d. 2001

1979 "for their pioneering research into economic development research with particular consideration of the problems of developing countries". Theodore W. Schultz ( 1/2 of the prize) USA. University of Chicago. Chicago, IL, USA. b. 1902 d. 1998. Sir Arthur Lewis ( 1/2 of the prize). United Kingdom. Princeton University. Princeton, NJ, USA. b. 1915 (in Saint Lucia) d. 1991

1980 "for the creation of econometric models and the application to the analysis of economic fluctuations and economic policies". Lawrence R. Klein. ( Complete prize) USA. University of Pennsylvania. Philadelphia, PA, USA. b. 1920

1981 "for his analysis of financial markets and their relations to expenditure decisions, employment, production and prices". James Tobin. ( Complete prize) USA. Yale University. New Haven, CT, USA. b. 1918 d. 2002

1982 "for his seminal studies of industrial structures, functioning of markets and causes and effects of public regulation". George J. Stigler. ( Complete prize) USA. University of Chicago. Chicago, IL, USA. b. 1911 d. 1991

1983 "for having incorporated new analytical methods into economic theory and for his rigorous reformulation of the theory of general equilibrium". Gerard Debreu. ( Complete prize) USA. University of California. Berkeley, CA, USA. b. 1921 (in Calais, France) d. 2004

1984 "for having made fundamental contributions to the development of systems of national accounts and hence greatly improved the basis for empirical economic analysis". Richard Stone. ( Complete prize) United Kingdom. University of Cambridge. Cambridge, U. K. b. 1913 d. 1991

1985 "for his pioneering analyses of saving and of financial markets". Franco Modigliani. ( Complete prize) USA. Massachusetts Institute of Technology (MIT). Cambridge, MA, USA. b. 1918 (in Rome, Italy) d. 2003

1986 "for his development of the contractual and constitutional bases for the theory of economic and political decision-making". James M. Buchanan Jr. ( Complete prize) USA. Center for Study of Public Choice. Fairfax, VA, USA. b. 1919

1987 "for his contributions to the theory of economic growth". Robert M. Solow. ( Complete prize) USA. Massachusetts Institute of Technology (MIT). Cambridge, MA, USA. b. 1924

1988 "for his pioneering contributions to the theory of markets and efficient utilization of resources". Maurice Allais. ( Complete prize) France. École Nationale Supérieur des Mines de Paris. Paris, France. b. 1911

1989 "for his clarification of the probability theory foundations of econometrics and his analyses of simultaneous economic structures". Trygve Haavelmo. ( Complete prize) Norway. University of Oslo. Oslo, Norway. b. 1911 d. 1999

1990 "for their pioneering work in the theory of financial economics". Harry M. Markowitz ( 1/3 of the prize). USA. City University of New Cork. New York, NY, USA. b. 1927. Merton H. Millar. ( 1/3 of the prize). USA. University of Chicago. Chicago, IL, USA. b. 1923 d. 2000. William F. Sharpe. ( 1/3 of the prize). USA. Stanford University. Stanford, CA, USA. b. 1934

1991 "for his discovery and clarification of the significance of transaction costs and property rights for the institutional structure and functioning of the economy". Ronald H. Coase. ( Complete prize) United Kingdom. University of Chicago. Chicago, IL, USA. b. 1910

The Bank of Sweden Prize in Economic Sciences in Memory of Alfred Nobel (Cont.) 1992 "for having extended the domain of microeconomic analysis to a wide range of human behaviour and interaction, including nonmarket behaviour". Gary S. Becker. ( Complete prize) USA. University of Chicago. Chicago, IL, USA. b. 1930 1993 "for having renewed research in economic history by applying economic theory and quantitative methods in order to explain economic and institutional change". Robert W. Fogel. ( 1/2 of the prize). USA. University of Chicago. Chicago, IL, USA. b. 1926. Douglass C. North ( 1/2 of the prize). USA. Washington University. St. Louis, MO, USA. b. 1920 1994 "for their pioneering analysis of equilibria in the theory of non-cooperative games". John C. Harsanyi ( 1/3 of the prize). USA. University of California. Berkeley, CA, USA. b. 1920 (in Budapest, Hungary). d. 2000. John F. Nash Jr. ( 1/3 of the prize). USA. Princeton University. Princeton, NJ, USA. b. 1928. Reinhard Selten ( 1/3 of the prize). Federal Republic of Germany. Rheinische Friedrich-Wilhelms-Universität. Bonn, Federal Republic of Germany. b. 1930 1995 "for having developed and applied the hypothesis of rational expectations, and thereby having transformed macroeconomic analysis and deepened our understanding of economic policy". Robert E. Lucas Jr. ( Complete prize) USA. University of Chicago. Chicago, IL, USA. b. 1937 1996 "for their fundamental contributions to the economic theory of incentives under asymmetric information". James A. Mirrlees ( 1/2 of the prize) United Kingdom. University of Cambridge. Cambridge, U. K. b. 1936. William Vickrey ( 1/2 of the prize). USA. Columbia University. New York, NY, USA. b. 1914 (in Victoria, BC, Canada) d. 1996 1997 "for a new method to determine the value of derivatives". Robert C. Merton. ( 1/2 of the prize). USA. Harvard University. Cambridge, MA, USA. b. 1944. Myron S. Acholes ( 1/2 of the prize). USA. Long Term Capital Management. Greenwich, CT, USA. b. 1941 (in Timmins, ON, Canada) 1998 "for his contributions to welfare economics". Amartya Sen. ( Complete prize) India. Trinity Collage. Cambridge, United Kingdom. b. 1933 1999 "for his analysis of monetary and fiscal policy under different exchange rate regimes and his analysis of optimum currency areas" Robert A. Mundell. ( Complete prize) Canada. Columbia University. New York, NY, USA. b. 1932 2000 "for his development of theory and methods for analyzing selective samples" James J. Heckman. ( 1/2 of the prize). USA. University of Chicago. Chicago, IL, USA. b. 1944. And "for his development of theory and methods for analyzing discrete choice". Daniel L. McFadden ( 1/2 of the prize). USA. University of California. Berkeley, CA, USA. b. 1937 2001 "for their analyses of markets with asymmetric information". George A. Akerlof ( 1/3 of the prize). USA. University of California. Berkeley, CA, USA. b. 1940. A. Michael Spence ( 1/3 of the prize). USA. Stanford University. Stanford, CA, USA. b. 1943. Joseph E. Stiglitz. ( 1/3 of the prize). USA. Columbia University. New York, NY, USA. b. 1943 2002 "for having integrated insights from psychological research into economic science, especially concerning human judgment and decision-making under uncertainty". Daniel Kahneman ( 1/2 of the prize). USA and Israel. Princeton University. Princeton, NJ, USA. b. 1934 (in Tel Aviv, Israel). And "for having established laboratory experiments as a tool in empirical economic analysis, especially in the study of alternative market mechanisms" Vernon L. Smith ( 1/2 of the prize) USA. George Mason University. Fairfax, VA, USA. b. 1927 2003 "for methods of analyzing economic time series with time-varying volatility (ARCH)". Robert F. Engle III ( 1/2 of the prize). USA. New Cork University. New York, NY, USA. b. 1942. And "for methods of analyzing economic time series with common trends (cointegration)". Clive W.J. Granger ( 1/2 of the prize) United Kingdom University of California. San Diego, CA, USA. b. 1934 2004 "for their contributions to dynamic macroeconomics: the time consistency of economic policy and the driving forces behind business cycles". Finn E. Kydland ( 1/2 of the prize). Norway. Carnegie Mellon University. Pittsburgh, PA, USA; University of California. Santa Barbara, CA, USA. b. 1943. Edward C. Prescott ( 1/2 of the prize). USA. Arizona State University. Tempe, AZ, USA; Federal Reserve Bank of Minneapolis. Minneapolis, MN, USA. b. 1940 2005 "for having enhanced our understanding of conflict and cooperation through game-theory analysis". Robert J. Aumann ( 1/2 of the prize) Israel and USA. Center for Rationality, Hebrew. University of Jerusalem. Jerusalem, Israel. b. 1930 (in Frankfurt-on-the-Main, Germany). Thomas C. Schelling ( 1/2 of the prize). USA. Department of Economics and School of Public Policy, University of Maryland. College Park, MD, USA. b. 1921 2006 "for his analysis of intertemporal tradeoffs in macroeconomic policy". Edmund S. Phelps, ( Complete prize) USA. Columbia University , New York, NY, USA. b. 1933. 2007 "for having laid the foundations of mechanism design theory". Leonid Hurwicz. 1/3 of the prize.USA. University of Minnesota. Minneapolis, MN, USA. b. 1917. (in Moscow, Russia).Eric S. Maskin. 1/3 of the prize. USA. Institute for Advanced Study Princeton, NJ, USA. b. 1950. Roger B. Myerson. 1/3 of the prize. USA. University of Chicago Chicago, IL, USA. b. 1951 2008 "for his analysis of trade patterns and location of economic activity". Paul Krugman. ( Complete prize) Princeton University. Princeton, NJ, USA. b. 1953. 2009 “"for her analysis of economic governance, especially the commons" Elinor Ostrom ( 1/2 of the prize) Indiana University Bloomington, IN, USA; Arizona State University Tempe, AZ, USA b. 1933; "for his analysis of economic governance, especially the boundaries of the firm" Oliver E. Williamson ( 1/2 of the prize), University of California Berkeley, CA, USA, b. 1932

INDICE GENERAL

Capítulo 12. El Modelo Lineal General 507 Capítulo 13. Inferencia estadística en el Modelo Lineal General 581 Capítulo 14. Extensiones al Modelo de Regresión Lineal 613 Capítulo 15. Modelo de Regresión Lineal Generalizado 655 Capítulo 16. Modelos Dinámicos 679 Capítulo 17. Modelos de Probabilidad 709 Capítulo 18. Sistemas de Relaciones Lineales 715

506

507

Capítulo 12. EL MODELO LINEAL GENERAL .................. 509

12.1. Introducción ............................................................... 509 12.2. Especificación del modelo ............................................. 512 12.3. Estimación ................................................................. 517 12.4. Distribuciones teóricas de probabilidad ........................... 534

Variable aleatoria discreta .................................................. 535 Variable aleatoria continua ................................................. 537 Necesidad del uso de probabilidades .................................... 540

12.5. Distribuciones multivariables ......................................... 540

Casos especiales ............................................................... 544 12.6. Formas Cuadráticas ..................................................... 551

Distribución Estadística de Formas Cuadráticas ..................... 559 12.7. Normalidad de la perturbación aleatoria ......................... 563 12.8. Criterio de máxima verosimilitud ................................... 566 12.9. Utilidad del modelo econométrico .................................. 572

CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS ............... 573 Caso 12.1: Correlación de muestras ....................................... 573 Caso 12.2: Estimación de parámetros .................................... 573 Caso 12.3: Consumo de cerveza y mortalidad infantil ............... 574 Caso 12.4: Primeros pasos en Eviews ..................................... 574

BIBLIOGRAFIA .............................................................. 579

508

509

Capítulo 12. EL MODELO LINEAL GENERAL

12.1. Introducción

Recordemos que la Econometría es la aplicación de métodos matemáticos y estadísticos al análisis de los datos económicos con el propósito de dar contenido empírico a las teorías económicas y verificarlas o refutarlas.

Para lograr estos objetivos, se utiliza como instrumento básico un modelo que denominaremos modelo econométrico, y que trata de ser una representación simplificada del mundo real. Este modelo, para ser operativo, ha de estar expresado en forma matemática.

Ejemplo 12.1 Si queremos estudiar como se determina el consumo familiar, la teoría económica modela el consumo en función de la renta, es decir:

0'fRfC R con

Para poder trabajar con este modelo hemos de suponer una forma funcional para f , por ejemplo una relación lineal, y escribirlo como:

βRαC

Donde: representa el consumo autónomo y la propensión marginal a consumir que se supone comprendida en el intervalo

]1,0[ .

En este modelo se pretende explicar el consumo por medio de una variable que determine el nivel de renta.

De acuerdo a esta especificación, se debería haber consumido una proporción de la renta, medida por βR ; la diferencia entre ambas cifras se supone constante )(α .

Este modelo de consumo se puede utilizar:

A nivel agregado, en cuyo caso las variables ct e yt serán indicadores del nivel de consumo y la renta agregados. Para este análisis se requieren observaciones numéricas de las variables durante un periodo de tiempo t. Por lo tanto, las observaciones correspondientes a cada una de las variables es una serie temporal.

A nivel desagregado, por ejemplo relacionando los gastos semanales en consumo y los ingresos de las familias. Por lo tanto, las observaciones correspondientes a cada una de las variables es

510

un dato obtenido de una muestra de un conjunto de familias y se denominan datos de sección cruzada.

Una combinación de observaciones a través de una muestra de individuos en el tiempo se denomina datos de panel.

Ejemplo 12.2 Si queremos estimar, por ejemplo, la función de producción de una empresa, la teoría económica modela la producción como una función de los factores trabajo y capital:

KL,fP

Donde

P , es la producción, L es el factor trabajo y K el capital.

Si suponemos que la función de producción de la empresa es de la forma COBB–DOUGLAS:

GKBLAP

El valor de la suma GB va a determinar si la empresa tiene rendimientos a escala constantes, crecientes o decrecientes.

El primer paso para lograr los fines que nos planteamos al realizar un trabajo econométrico, es formular un modelo que, aún siendo una representación simplificada de la realidad, permita reproducir los patrones de comportamiento entre las variables económicas. Normalmente, la teoría económica no suele dar muchas indicaciones de cuál es la forma funcional del modelo y se han de realizar supuestos al respecto.

El segundo paso es estimar los parámetros de interés del modelo a partir de los datos disponibles y contrastar aquellas hipótesis que son relevantes.

Ejemplo 12.3 si hemos estimado una función de producción COBB–DOUGLAS, nos puede interesar contrastar la hipótesis de que la empresa tiene rendimientos a escala constantes, es decir, que

1GB .

Por último, el modelo econométrico estimado y validado se puede utilizar para predecir valores futuros de las variables o tomar decisiones de política económica.

El Análisis de Regresión, es una de las técnicas más utilizadas en el trabajo econométrico.

Con el modelo de regresión tratamos de describir la relación existente entre las variables que queremos analizar: Y , que denominaremos variable endógena o dependiente y un conjunto de variables X , que reciben el nombre de variables exógenas, explicativas, independientes o regresores.

511

Estas relaciones pueden ser de carácter determinista, como las expresadas por los modelos anteriores. Este tipo de modelos no tienen en cuenta factores aleatorios que influyen en el comportamiento de los agentes económicos.

Ejemplo 12.4 El modelo de consumo supone que, dada una renta

0R , todas las familias (supongamos n familias) con esa renta

presentan un mismo nivel de consumo, lo que es poco realista.

Para modelar este comportamiento individual se introduce un término aleatorio, la perturbación :

niii

Rβi

C ,,1;21

Este tipo de relaciones se denominan Estocásticas.

Los parámetros del modelo son los coeficientes j , y los que

caracterizan la función de distribución de la perturbación aleatoria vectorial ε , es decir, su valor medio y su matriz de varianzas y covarianzas.

Vector paramétrico: ,k,1i2i

w

Desarrollaremos el modelo de regresión lineal general en sus distintas fases de:

Especificación del modelo econométrico.

Estimación de los parámetros.

Validación del modelo.

Predicción.

Observación: a los fines de ilustrar cada paso usaremos una aplicación numérica con los datos de la tabla 12.1

Ejemplo 12.5. Supongamos la siguiente información que nos proporciona una muestra para 5,2,1,iXX,Y i2ii ;3, :

Tabla 12.1

i iY iX 2 iX 3

1 4 2 1 2 7 3 3 3 3 1 5 4 9 5 1 5 17 9 2

512

12.2. Especificación del modelo

Supongamos que tenemos la siguiente tabla de datos

Períodos Y 2X 3X kX

1 1y 21x 31x 1kx

2 t ty tx2 tx3 ktx

T Ty Tx2 Tx3 kTx

Establezcamos también que existe una relación lineal entre la variable que queremos explicar tY con 1k variables independientes

kjX j ,,2,

T...,2,1,t;tktXkβ2tX2β1βtY [1]

En este modelo

la variable T,,t,Yt 1 es la variable endógena

las variables TtkjX jt ,,1;,,2, son las variables explicativas o

exógenas,

´kβ

2β

1β β , es el vector de coeficientes de regresión,

Ttt ,,1, es la perturbación aleatoria,

T es el tamaño muestral.

Es decir, el modelo se podría expresar como un sistema de ecuaciones, de la siguiente manera

TkTkTTT

kk

kk

kk

xxxy

xxxy

xxxy

xxxy

33221

3333323213

2232322212

1131321211

[2]

513

Que es un sistema de T ecuaciones con k incógnitas, por lo que el modelo tiene kT grados de libertad.

Los coeficientes de regresión kjj ,,1, se suponen constantes para

toda t y recogen el incremento promedio que experimenta la variable endógena cuando se produce un incremento unitario en la variable exógena ésimaj , permaneciendo las demás constantes.

Esta relación es lineal en los parámetros, pero no tiene por que ser lineal en las variables. El modelo se puede escribir en notación matricial en cuyo caso se representa de la siguiente forma:

εTx1kx1TxkTx1

βXy [3]

Donde cada uno de los elementos se definen según:

T

2

1

y

y

y

y

T

2

1

k

2

1

kT3T2T

k23222

k13121

β

β

β

xxx1

.

xxx1

xxx1

εβX

Ejemplo 12.5.a Con la información de la tabla 12.1:

17

9

3

7

4

y

5

4

3

2

1

2

1

ε

ε

ε

ε

ε

β

β

β

εβX

3

291

151

511

331

121

Se considera que el modelo de regresión lineal, satisface los siguientes supuestos básicos:

1) El comportamiento de la variable dependiente tY se ajusta al modelo

durante todo el período muestral, T,,t 1 .

514

Sea el vector columna kx que contiene las T observaciones de la

variable kjX j ,,2, . Agreguemos este vector columna a la matriz

X de orden Txk . La primera columna de X corresponderá a una columna de unos, por lo que 1 será el término constante del

modelo. Llamemos y a las T observaciones, Ty,,y,y 21 , y denominemos ε al vector columna que contiene las T perturbaciones. Ahora el modelo puede escribirse como

εxxy kβk2β1β 2

Esto es, εXβy

Observación. Para evitar posibles confusiones tengamos claro que

kx es la ésimak columna de X . Para referirnos a una única

observación utilizaremos la ecuación tεt'ty βx . Aquí tx es

un vector columna que es la traspuesta de la fila ésimat ( xk1 ) de X . Por lo tanto t'x es la ésimat fila de X .

2) Las variables explicativas kjX j ,,2, son no estocásticas, es decir,

las consideramos fijas en muestra repetidas, y por lo tanto, la función de distribución de la variable Y condicionada a los regresores se puede escribir como ),Y(f),X/Y(f .

3) Tk)(r X es decir, el rango de la matriz de variables explicativas es completo por columnas. Este supuesto tiene dos implicaciones. Por un lado, no es posible expresar una columna de la matriz X como una combinación lineal del resto de las columnas, y por otro, estamos suponiendo que disponemos de un mayor número de observaciones que parámetros hay en el modelo.

4) La esperanza matemática de cada una de las perturbaciones es cero:

T,2,1,t0,tE [4]

De forma matricial, se puede escribir como:

515

0ε

0

0

0

0

3

2

1

3

2

1

)T(E

)(E

)(E

)(E

T

EE

Observación. aplicar el operador esperanza matemática a una matriz o vector, significa que hay que tomar esperanza matemática de cada uno de los elementos de la matriz o vector en cuestión.

5) La matriz de varianzas y covarianzas del vector de perturbaciones ,

es escalar, TσV Iε ε2 . Con este supuesto se quiere indicar que:

La varianza es la misma para todas las perturbaciones, lo que denominaremos perturbaciones homocedásticas,

T,2,1,t,2σ2tεE

[5]

No existe autocorrelación entre las perturbaciones de diferentes períodos:

St0,sε,tεE [6]

De forma matricial, se puede escribir como:

2TεE

3ε

TεE

2ε

TεE

1ε

TεE

ε3εE2

3εE

2ε

3εE

1ε

3εE

Tε

2εE

3ε

2εE2

2εE

1ε

2εE

Tε

1εE

3ε

1εE

2ε

1εE2

1εE

2Tε

3ε

Tε

2ε

Tε

1ε

Tε

Tε

3ε2

3ε

2ε

3ε

1ε

3ε

Tε

2ε

3ε

2ε2

2ε

1ε

2ε

Tε

1ε

3ε

1ε

2ε

1ε2

1ε

E

Tε

3ε

2ε

1ε

Tε

3ε2ε1ε

EEV(

T

εε'ε)

516

TεV

3ε

TεCov

2ε

TεCov

1ε

TεCov

Tε

3εCov

3εV

2ε

3εCov

1ε

3εCov

Tε

2εCov

3ε

2εCov

2εV

1ε

2εCov

Tε

1εCov

3ε

1εCov

2ε

1εCov

1εV

2σ000

02σ00

002σ0

0002σ

ε

ε

ε

ε

[7]

6) La distribución de probabilidad del término de perturbación es normal multivariante:

TIε

σNε 2,0~ [8]

El modelo explica la variabilidad de la variable dependiente Y mediante dos componentes:

La parte sistemática: Xβ

La parte aleatoria: ε

El conjunto de supuestos 1) a 6) que hemos establecido, indican que las pautas relevantes sobre el comportamiento de la variable Y vienen dadas por la parte sistemática, “no quedando” en la parte aleatoria ningún patrón sistemático que sea aprovechable para explicar el comportamiento de la variable dependiente.

Los objetivos, entonces, se centran en hacer inferencia sobre el vector β de parámetros del modelo de regresión en base a la información que nos proporciona la muestra disponible:

T,2,1,t,ktX,,2tX,tY

Ejemplo 12.5.b La información de la tabla 12.1 que nos proporciona una muestra para 5,2,1,i

iX

2iX,

iY ;

3,

517

12.3. Estimación

Los parámetros desconocidos del modelo vienen dados por el vector de coeficientes de regresión β y la varianza de la perturbación 2σ ε .

La estimación de estos parámetros, se puede llevar a cabo por dos métodos

el método de mínimos cuadrados ordinarios

el método de máxima verosimilitud.

El criterio de estimación de mínimos cuadrados ordinarios MCO se basa

en elegir aquellos valores que minimizan la suma del cuadrado de los errores, la cual se expresa anlíticamente por la siguiente función objetivo:

2221 ktktt

T

1tˆˆXβXββYMin

ˆˆMin

ββ

βXY'

βXY [9]

De las condiciones de primer orden del problema de minimización, se obtiene un sistema de k ecuaciones, denominadas ecuaciones normales, que podemos escribir:

ktX

tY

T

1t

2kt

XT

1tk

βkt

X2t

XT

1t2

βkt

XT

1t1β

....................................................................................

2tX

tY

T

1t2t

Xkt

XT

1tk

β22t

XT

1t2

β2t

XT

1t1β

tY

T

1tkt

XT

1tk

β2t

XT

1t

ββT

21

[10]

Ejemplo 12.5.c El siguiente ejemplo ilustra la aplicación de estas técnicas a los datos de la tabla 12.1. Supongamos que estamos interesados en estimar el modelo: ii2i21i εXβXββY 33

Podemos construir la siguiente tabla de cálculos auxiliares: Continúa…

518

…continuación Tabla 12.2.

2X 3X Y YX 2 YX3 32 XX 22X 2

3X Y YYe ˆ

2 1 4 8 4 2 4 1 3,95 0,05 3 3 7 21 21 9 9 9 6,36 0,64 1 5 3 3 15 5 1 25 3,33 -0,33 5 1 9 45 9 5 25 1 9,40 -0,40 9 2 17 253 34 18 81 4 16,97 0,03

20 12 40 230 83 39 120 40 40 0

Las ecuaciones normales son:

3

3

3

40391283

39

12

βββ

ββ120β20230

ββ20β540

21

21

21

Con solución: 30082010 31 .β1.β;.β 2

Por lo tanto el modelo estimado resulta ser:

i2ii XX1.Y 330.08201.0ˆ

Las ecuaciones normales, se pueden obtener a través del algebra lineal y se pueden escribir en términos matriciales, como:

0yXβXX 'MCO

' ˆ

Para obtener estas ecuaciones debemos operar matricialmente el sistema que queremos minimizar. Para ello, planteamos el siguiente problema de mínimo:

Dado que la recta de regresión debe pasar por el centro de la nube de puntos, lo que hay que hacer es plantear la minimización de las distancias de esos puntos a la recta. A estas distancias las denominaremos residuos )MCO( y los

simbolizaremos por te . De esta forma, ttt YYe

representa la distancia de cada observación a la recta de regresión a estimar por βXy ˆˆ , siendo ésta la que se obtendrá a partir de las estimaciones del vector paramétrico:

β . Pero como te es una variable desvío,

T

tte

1

0 , por lo que

el problema de mínimo a plantear es el de minimizar la suma

519

de cuadrados de los desvíos, esto es,

T

tteMin

1

2 ; ó, lo que es

lo mismo, en términos matriciales: Mínˆˆ )y(y)'y(yee'

Planteado el problema de minimización debemos operar algebraicamente la siguiente relación:

βX)'β(Xy)'β(XβXy'yy'Minβ

βXy'

βXyβ

ˆˆˆˆˆˆMin [11]

De donde, βXX''βyX''βyy'βX)'β(Xy)'β(XβXy'yy' ˆˆˆ2ˆˆˆˆ

Debido a que y)'β(XβXy' ˆˆ

Entonces

βXX''βyX''βyy'ee' ˆˆˆ2Min)(Min [12]

Las condiciones de mínimo exigen, primero, derivar respecto a la variable, en este caso, β e igualar la primera derivada a cero. Luego, obtener la segunda derivada y demostrar que es positiva.

De esta forma,

0βXX'yX'β

ee'

ˆ

ˆ22 , de donde

0βX`XyX' ˆ [13]

Que determina las ecuaciones normales que se quería encontrar.

Por otra parte, dado que Tk)(r X , existe una solución única al sistema de ecuaciones normales: el estimador mínimo-cuadrático ordinario del vector de parámetros β :

yXXXβ '1'MCO

ˆ [14]

520

Aunque este es el resultado deseado, a partir del cual se obtienen los estimadores MCO , aún falta demostrar la condición de segundo orden del problema de minimización, esto es:

0X`Xβ

ee'

22

2

ˆ [15]

Y esto es así, debido a que la matriz XX' es definida positiva.

Para demostrar que XX' es definida positiva, especifiquemos

1Tx1TxXdc [16]

Siendo d un vector no nulo de orden 1kx . De esta forma c es de orden 1Tx . Como Tkr )(X , garantizamos que c no es nulo. La consecuencia

de no ser nulo es que cualquiera sea el signo de sus elementos el producto de su transpuesta por él mismo será siempre un escalar positivo – ya que al premultiplicarlo por su transpuesta obtenemos la suma de sus elementos elevados al cuadrado – entonces

0X)d(X'd'cc' [17]

Por lo tanto, XX' es definida positiva.

Observación: La derivada de βXX''β ˆˆ es la derivada de una forma

cuadrática, donde XX' es la matriz de dicha forma y β es el vector de la misma. Para diferenciar una forma cuadrática, cuya expresión analítica, para este caso, es

)kx(k

ˆ

ˆ

ˆ

ˆ

)kxk(

T

t ktxT

t txktxT

t txktxT

t ktx

T

t ktxtxT

t txtxT

t txT

t tx

ktxT

t txtxT

t txT

t txT

t tx

T

t ktxT

t txT

t txT

)xk(k

ˆˆˆˆ

1

3

2

1

1

2

1 31 21

1 31

2321 31 3

1 231 21

221 2

11 31 2

1321

se aplica la regla general que establece que “la derivada de una forma cuadrática respecto a cada uno de los elementos del vector de dicha forma, es igual a dos veces el producto de la matriz de la forma cuadrática por el vector de la misma”, en nuestro caso:

521

βXX'β

βX)(X''β ˆˆ

ˆˆ2

[18]

[18] es un vector columna de k elementos.

Esto se puede demostrar desarrollando la forma cuadrática y aplicando derivadas,

T

t ktxkβT

t txktxβT

t txktxβT

t ktxβ

T

t ktxtxkβT

t txβT

t txtxβT

t txβ

T

t ktxtxkβT

t txtxβT

t txβT

t txβ

T

t ktxkβT

t txβT

t txβTβ

kββββ

1

2ˆ1 33

ˆ1 22

ˆ11

ˆ

1 3ˆ

1

233

ˆ1 232

ˆ1 31

ˆ

1 2ˆ

1 323ˆ

1

222

ˆ1 21

ˆ

1ˆ

1 33ˆ

1 22ˆ

1ˆ

ˆ3

ˆ2

ˆ1

ˆ

ˆˆ

βXX''β

T

t ktxkˆ

T

t txktxˆT

t txktxˆT

t ktxˆk

ˆ

T

t ktxtxkˆ

T

t txˆT

t txtxˆT

t txˆˆ

T

t ktxtxkˆ

T

t txtxˆT

t txˆT

t txˆˆ

T

t ktxkˆ

T

t txˆT

t txˆTˆˆ

1

2

1 331 2211

1 31

2331 2321 313

1 21 3231

2221 212

11 331 2211

Reagrupando términos

T

t ktxkˆ

ktxT

t txkˆˆ

T

t txˆ

ktxT

t

T

t

T

t txkˆˆ

txtxˆˆtxˆ

T

t ktxkˆˆ

T

t txˆˆT

t txˆˆˆTˆˆ

1

22

1 3321

23

23

1 1 1 2223232222

22

1121 3312

1 221221

βXX''β

522

Podemos diferenciar parcialmente esta expresión con respecto a cada uno de los elementos de β . El resultado de las derivadas parciales se ordena en forma de vector columna. Aunque también podrían ordenarse en forma de vector fila. No obstante, el requisito importante es la consistencia del tratamiento que debe darse a los vectores y matrices de las derivadas de la función para que sean de orden apropiado para su posterior manipulación.

Derivando esta expresión respecto de 1 los primeros k términos,

respecto de 2 los segundos k términos, y así siguiendo… el vector de derivadas parciales es

T

t ktxkβT

t ktxtxβT

t ktxtxβT

t ktxβ

T

t ktxT

t txkβtxβT

t txtxβT

t txβ

T

t

T

t ktxtxkβT

t txtxβtxβT

t txβ

T

t

T

t

T

t ktxkβtxβtxββT

kβ

β

β

β

1

221 332

1 22ˆ2

11ˆ2

1 1 322332

1 322ˆ2

1 31ˆ2

1 1 2ˆ2

1 323ˆ22

22ˆ2

1 21ˆ2

1 1 1ˆ233

ˆ222ˆ21

ˆ2

ˆ

ˆˆ

3ˆ

ˆˆ2

ˆ

ˆˆ1

ˆ

ˆˆ

ˆ

ˆˆ

βX)(X''β

βX)(X''β

βX)(X''β

βX)(X''β

β

βX)(X''β

kβ

β

β

β

T

t ktxktxT

t txT

t txtxT

t tx

T

t ktxT

t txtxT

t txtxT

t tx

T

t

T

t ktxtxT

t txtxtxT

t tx

T

t

T

t

T

t ktxtxtxT

ˆ

3ˆ2

ˆ1

ˆ

1

2

1 31 321 3

1 1 3231 321 3

1 1 21 32221 2

1 1 132

2

[19]

Que es el resultado enunciado.

523

Ejemplo 12.5.d Siguiendo con el ejemplo de la tabla 12.1

17

9

3

7

41

291

151

511

331

121

21531

95132

11111

21531

95132

11111

MCOβ

3

2

1

300

821

010

83

230

40

20045660

4556332

6603323279

403912

3912020

12205

1

83

230

401

403912

3912020

12205

ˆ

ˆ

ˆ

.

.

.ˆ

MCOβ

El resultado es igual al obtenido al resolver las ecuaciones normales, en el Ejemplo 12.5.c.

De las ecuaciones normales se derivan, entre otras, las siguientes dos propiedades de la estimación mínimo – cuadrática ordinaria, la primera de las cuales se ve directamente en la tabla 12.2 del Ejemplo 12.5.c:

1. 01

t

T

t

e [20]

donde ktXkˆ

tXˆˆtYte 221 son los denominados

residuos mínimo-cuadrático ordinarios:

2. kjeX tjt

T

t

,,201

[21]

es decir, los residuos MCO , son ortogonales a todas las variables explicativas del modelo. Como se puede observar en la figura 12.1 para el caso de 2k

524

Figura 12.1. Líneas de regresión poblacional y muestral

Observación. Para demostrar estas propiedades consideremos el vector de residuos MCO

βXeyβXye ˆˆ [22]

Por [13] 0βXXyX ˆ , el que puede reexpresarse como

yX'βX)(X' ˆ

Reemplazando y por su igual en [22] )βX(eX'βX)(X' ˆˆ

Realizando los productos convenientemente

βX)(X'eX'βX)(X' ˆˆ [23] Para que la igualdad en [23] se cumpla, debe ocurrir que 0eX' ; si desarrollamos la expresión, obtenemos

0e)(X'

0

0

0

01111

1

13

12

1

3

2

1

321

3333231

2232221

T

ttkt

T

ttt

T

ttt

T

tt

TkTkkk

T

T

ex

ex

ex

e

e

e

e

e

xxxx

xxxx

xxxx

[24]

Y

X

Línea de regresión muestral

Línea de regresión poblacional

tt XˆˆY 221

tX)X/Y(E 221

ty

ty

tx

te t

Observación muestral )ty,tx(

525

Como consecuencia de esta propiedad, los residuos de la regresión MCO tienen siempre media aritmética igual a cero (siempre y cuando se incluya término independiente en la ecuación de regresión). Esto es debido a que el primer elemento del vector de orden 1tx que obtuvimos como resultado es igual a cero, es decir

00 1

1

T

e

ee

T

ttT

tt

A su vez, los demás elementos establecen que la correlación muestral entre los residuos y cada variable es cero.

Una vez estimados los coeficientes de regresión, jβ , la recta de regresión

muestral,

βX ˆˆtt

Y

permite estimar los valores de la variable endógena tY , dado los valores

de las variables exógenas itX . t

Y

es de orden Tx1, t

X es de orden Txk,

y β es de orden kx1.

Esto es,

kβ

3β2β1β

]ktX3tX2tX1[tY

Ejemplo 12.5.e En el ejemplo resulta:

3

2

1

321

ˆ

ˆˆ

]XX[Y ttt

;tX.tX..Y t 33002821010

Se obtiene, de esta manera, igual resultado que el obtenido en el Ejemplo 12.5.c.

526

Los estimadores MCO , β , bajo los supuestos 1) a 6) son lineales, insesgados y óptimos, en el sentido de tener la mínima varianza dentro de la clase de estimadores lineales e insesgados (teorema de Gauss–Markov).

La linealidad no requiere de demostración; es evidente, en el cálculo del coeficiente en [14], la relación lineal que una al vector de estimadores con la matriz que contiene los valores observados de las variables.

Para demostrar que el estimador es Insesgado se parte de [14]:

yX'X)(X'β 1ˆ

Utilizando [3]

ε)(XβX'X)(X'β 1 ˆ

Realizando los productos pertinentes

εX'X)(X'XβX'X)(X'β 1 1 ˆ

En el primer término del segundo miembro: IXX'X)(X' 1 , por lo que

εX'X)(X'ββ 1ˆ

Utilizando el operador esperanza matemática

)()ˆ( 1 εX'X)(X'ββ EE

Por [4], 0)( εE por lo que

ββ )ˆ(E [25]

Un estimador es Óptimo cuando tiene mínima varianza. Antes de demostrar esto, se debe hallar la varianza del estimador; la diferencia entre el estimador y su esperanza matemática es igual a

βεX'X)(X'βββββ 1 ˆ)ˆ(Eˆ

La varianza del estimador )βV( ˆ se define

ˆÊˆ β]'ββ][β[)βV(

527

Ahora bien, al demostrar la propiedad de insesgadez, se obtuvo que

εX'X)(X'ββ 1ˆ

De modo que,

εX'X)(X'ββ 1ˆ

Entonces:

εX'X)(X'εX'X)(X'β 11)ˆ( EV

Aplicando las propiedades de matriz trapuesta:

]'[ 11 X)X(X'εεX'X)(X' E

Introduciendo el operador esperanza matemática

11 X)X(X'εεX'X)(X' )'(E

Por lo establecido en [7], TσE Iεε ε2)'( ; al reemplazarlo en la expresión

anterior

1ε

1 X)X(X'IX'X)(X' Tσ 2

2εσ es una constante, por lo que premultiplica al resto de la expresión

11ε X)X(X'IX'X)(X' Tσ 2

Simplificando en la expresión anterior 1X)X(X'IX' T , la varianza del

estimador es el producto entre la varianza del término de perturbación y la matriz inversa de X)(X'

1ε X)(X')βV( 2ˆ σ [26]

Para demostrar que esta varianza es mínima, supongamos otro estimador

P]yX'X)[(X'β* 1 [27]

Donde P es cualquier matriz de orden (kxT) que en caso de anularse

hace que ββ* ˆ .

528

Ahora, reemplazando [3] en [27]

PεPXβεX'X)(X'βε)P](XβX'X)[(X'β* 11

Al tomar esperanza matemática

)()()( εPPXβεX'X)(X'ββ* 1 EEE

Aplicando lo establecido en [4]

PXβββ* )(E

Si 0PX

ββ* )(E

Lo que significa que *β es un estimador insesgado

El cálculo de la varianza de *β es

β]'β][β[β)V(β **E*

Donde

βPεβPXεX'X)(X'ββ*β0

1

Manteniendo la restricción 0PX

PεεX'X)(X'β*β 1

Reordenando

P]εX'X)[(X'β*β 1

Reemplazando β*β en *)V(β , se tiene que

P´X´XXεε´PX´X´XEV(β 11 *)

Introduciendo el operador esperanza

]P'X)[X(X'εε'P]X'X)[(X'V(β 11 )(*) E

Por [7], Iεε' 2)( εσE

]P'X)[X(X'IP]X'X)[(X'V(β 11 Tεσ

2*)

529

Teniendo en cuenta que 2σ es constante y realizando los productos:

]PP'P'X'X)(X'X)PX(X'X)X(X'X'X)[(X'V(β 1111 2*) εσ

Introduciendo la restricción 0PX , que da lugar a que 0PX , y operando algebraicamente, la expresión anterior se reduce a:

]PP'X)[(X'V(β 1 2*) εσ

Por lo tanto,

)βV(PP'X)(X'V(β 1ε

ˆ*) 2 [28]

La diferencia entre las varianzas de β y *β es PP' , lo que hace que

)βV(V(β ˆ*)

Observación. El siguiente resultado muestra en forma conjunta las propiedades anteriores. Sea c un vector columna de k elementos y una magnitud aleatoria escalar.

kx11xk1x1βc'ν

De tal manera que si elegimos ][' 0010 c

Entonces, 22

1

0010

k

][

De esta forma, podemos usar βc'ν para seleccionar un elemento de

β .

Pero también, si 113121 n,kn,n, XXX c'

Entonces, )Y(E n 1

Que es el valor esperado de la variable endógena Y en el período (u observación) 1n condicionado a los valores de X en ese período.

530

Consideremos una clase de estimadores lineales e insesgados de . Sea un escalar definido como combinación lineal de , tal que

a'Xβa'ya'

Donde a es un vector columna de n elementos y donde βX,y, son los vectores y matriz definidas anteriormente. será un estimador insesgado de si y solamente si c'Xa' , veamos

c'Xa'βc'

Xβa'

a'Xβa'

)(E)(E

Además,

aa'aa'

'a'a'

Xβa'a'Xβa'

)'(E'E

))((E

][E

)](E[E)(V

2

2

Por tanto,

aa'2 )(V

Entonces el problema es elegir a para minimizar aa' sujeto a las k restricciones de que c'Xa' , esto es 0c'Xa' .

Por lo que tenemos un problema de mínimo sujeto a restricciones. Utilizando los multiplicadores de Lagrange, definamos

)(kx1nx1kxn1xk1x11x1caX'λ'aa' 2

Donde λ es el vector columna de los k multiplicadores de Lagrange (orden kx1) y donde c'Xa' se ha transpuesto para ser conformable.

Diferenciamos, para obtener la primera condición,

0caX'0c)a(X'λ

0Xλa0Xλaa

2

22

De donde,

531

cX)X(X'a

cX)(X'λcXλX'Xλa1

1

De forma tal que el estimador lineal e insesgado de varianza mínima deseado de βc' es

βc'

yX'X)(X'c'

ya'1

ˆ

Es decir, los β parámetros desconocidos se reemplazan por los β estimadores mínimos cuadráticos ordinarios y como consecuencia se tiene que:

Cada i es ELIO de i

El ELIO de cualquier combinación lineal de los β parámetros es esa

misma combinación lineal de los β estimadores

El ELIO de )Y(E s es s,kks,s, XˆXˆXˆˆ 33221

La varianza de las perturbaciones 2ε , se puede estimar mediante la

expresión:

kTS

ee'2 [29]

Ejemplo 12.5.f El valor de las perturbaciones para el ejemplo que se está desarrollando:

340.2

68.0

35

030.

400.

330.

640.

050.

030.400.330.640.050.

2S

Este estimador es insesgado bajo los supuestos 1) a 6)

532

Para conocer la precisión con que se estiman los parámetros, es necesario derivar la matriz de varianzas y covarianzas de los estimadores, que bajo los supuestos habituales, es de la forma

12 X'XβV εˆ [30]

Un estimador insesgado de βV ˆ , se puede obtener sustituyendo en la expresión anterior la varianza de las perturbaciones por su estimador insesgado:

1X'XβV

2Sˆˆ [31]

Ejemplo 12.5.g El cálculo para los datos de la tabla 12.1 es

)ˆ(V)ˆˆ(Cov)ˆˆ(Cov

)ˆˆ(Cov)ˆ(V)ˆˆ(Cov

)ˆˆ(Cov)ˆˆ(Cov)ˆ(V

...

...

...

...

...

...

..ˆˆ

32313

23212

13121

040010120

010010060

120060610

110020360

020030180

360180791

340

1

403912

3912020

12205

340

)β(V

Que es la matriz de varianzas y covarianzas de los estimadores para los datos del ejemplo.

La estimación anterior es posible demostrarla a partir de la suma de cuadrado de los residuos )SCR( . Esta suma es un escalar que se puede calcular a partir de

ee'

T

tteSCR

1

2 [32]

Por [22], βXye ˆ

Utilizando el resultado de [14]

yX'X)X(X'ye 1

Reagrupando términos en torno a y

533

y]X'X)X(X'[IeM

1T

El coeficiente de y se denomina matriz M

Mye

M es una matriz de orden TxT que posee propiedades interesantes a los efectos de su posterior tratamiento; es idempotente MM2 , es

simétrica MM' y 0MX .

Reemplazando y por su igual en [3]

ε)M(XβMye [33]

resolviendo

MεMXβe

Aplicando las propiedades de la matriz M

Mεe [34]

Por lo que la suma de cuadrados de los errores será

MεM'ε'ee'

Aplicando las propiedades de simetría e idempotencia se obtiene un escalar,

εMε'ee' 2

Mεε'ee' [35]

Si al escalar definido en [35] le aplicamos el operador esperanza matemática, obtenemos

)(E)(E Mεε'ee'

si a esta igualdad le aplicamos la traza

)](tr[E)(E Mεε'ee'

Pero en general, la BAAB trtr , por lo que

)]'(tr[E)(E Mεεee'

534

Pero la traza de un escalar es igual al mismo escalar

)'(trE)(E Mεεee'

Pero M depende de X que es no estocástica; es decir, M es una constante, por lo que

)()( εε'Mee' EtrE

Nuevamente, por [7] Iεε' 2)( εσE

)I(tr)(E T2εMee'

De modo que

Mee' ε tr)(E 2 [36]

Pero la traza de la matriz M es

kT][tr][tr

][tr][tr][tr][trtr

kT

1T

1T

II

XX'X)(X'IX'X)X(X'IM

Por consiguiente, en [36]

)kT()(E 2εee' [37]

De donde se observa inmediatamente que: kT

S

ee'2 , es un estimador

insesgado de 2ε .

Con este último punto hemos concluido con la tarea de especificar y estimar un modelo por el método de mínimos cuadrados ordinarios, con todas las propiedades que hacen a esos estimadores lineales, insesgados y óptimos.

12.4. Distribuciones teóricas de probabilidad

La teoría de las Distribuciones Estadísticas es fundamental para el análisis de la información en la toma de decisiones. Es necesario distinguir entre las distribuciones experimentales y las distribuciones teóricas, teniendo

535

en cuenta que estas últimas se determinan por la teoría de la probabilidad.

La distribución de una variable aleatoria (sea teórica o no) se utiliza para calcular, a partir de una muestra, el parámetro de la población que se quiera estimar. Además, se definen distribuciones de probabilidad (o función de densidad) y distribuciones acumulativas de probabilidad (o función de distribución) que se usan para calcular la probabilidad de que ocurra determinado comportamiento de la variable.

En el módulo anterior se hizo la distinción entre variables aleatorias discretas y variables aleatorias continuas, pero nada se dijo respecto a su distribución de probabilidad.

Ejemplo 12.6. Al pronosticar las ventas de la Empresa A a los fines de establecer el gasto financiero futuro, quizás se quiera determinar la probabilidad de que la venta real sea igual a 10 unidades, 12 unidades, 15 unidades, o 18 unidades. Este tipo de información se resume en la distribución acumulativa de probabilidad de la variable aleatoria y en la distribución de probabilidad de la misma.

Variable aleatoria discreta

La distribución de probabilidad de una variable aleatoria discreta X, indicada como f(x), se define como una regla que asigna a cada número real x la probabilidad de que la variable X asuma el valor x. Es decir,

)xX(p)x(f

En cambio, la distribución acumulativa de probabilidad de X, indicada como F(x), se define como una regla que asigna a cada número real x la probabilidad de que la variable aleatoria X sea igual o menor que el valor de x. Es decir,

xX

i

i

)x(f)xX(p)x(F

536

Ejemplo 12.7. Se define una variable aleatoria X como las unidades que constituyen la demanda de los productos de la Empresa A durante el año próximo. Se suponen posibles e igualmente probables cuatro niveles de venta: 10, 12, 15 ó 18 unidades. Como las probabilidades de estos cuatro resultados posibles deben sumar 1, la distribución de probabilidades de X está dada por:

41)18(

41)15(

41)12(

41)10(

)(

XP

XP

XP

XP

xf (1)

(1) indica que la probabilidad de que la demanda sea de 10, 12, 15 ó 18 unidades es cada una igual a ¼.

La distribución acumulativa de probabilidades de X, estará dada por:

1)18(4

3)15(2

1)12(4

1)10(

)(

XP

XP

XP

XP

xF (2)

(2) dice que hay una probabilidad de ¼ que la demanda sea igual o menor a 10

unidades, una probabilidad de ½ de que la demanda real sea menor o igual a 12

unidades, una probabilidad de ¾ de que la demanda sea menor o igual a 15 unidades

y una probabilidad cierta (igual a 1) de que la demanda sea menor o igual a 18

unidades.

La Figura 12.2 representa la distribución de probabilidad dada por (1) y a la

distribución acumulativa de probabilidad dada por (2).

Figura 12.2Pronóstico de Ventas a) Distribución de Probabilidad b) Distribución acumulativa de

probabilidad

1/4

5 10 15 20 X

f(x)

1/2

5 10 15 20 X

3/4

1

1/4

0

F(x)

537

El valor esperado de una variable aleatoria discreta X, indicado como )X(E , se define:

i

ii )x(fx)X(E [38]

donde,

ix representa cualquier valor posible de X, y

)x(f i es la probabilidad de que ixX .

Es decir, )X(E es un promedio ponderado de todos los valores posibles de X, donde las ponderaciones son las respectivas probabilidades de estos valores.

La varianza de una variable aleatoria X, indicada por V(X), se define:

i

ii )x(f)X(Ex)X(V 2 [39]

donde, todos los términos responden a las definiciones anteriores. Es decir, V(X) es un promedio ponderado de las desviaciones cuadráticas de los valores observados de X con respecto al valor esperado de X, donde las ponderaciones son las respectivas probabilidades.

La desviación estándar de una variable aleatoria X, de suma utilidad práctica, se define como la raíz cuadrada de la V(X).

Variable aleatoria continua

En el campo de las variables aleatorias continuas el análisis anterior se ve ciertamente modificado. La Distribución de Probabilidad de X es:

j

i

x

xji dxxfxXxPxf )()()( donde ji xx

Es decir, f(x) es una distribución donde el área bajo la misma entre ix y

jx , es exactamente la probabilidad de que X asuma un valor entre ix y

jx . De la misma manera, la Distribución acumulativa de probabilidad,

F(x), está dada por la expresión:

xds)s(f)xX(P)x(F

donde s es una variable de integración.

538

Es decir, para determinar la probabilidad acumulativa de que X sea igual o menor que x, se calcula el área bajo la distribución de probabilidad, f(x), entre - y x. La probabilidad de que la variable aleatoria continua X sea exactamente igual a cierto valor x es cero.

El valor esperado y la varianza de variables aleatorias con distribución de probabilidad continua, se definen con las respectivas fórmulas como:

dx)x(xf)X(E [40]

dx)x(f)X(Ex)X(V 2 [41]

donde, f(x) es la distribución de probabilidad de la variable aleatoria X.

Ejemplo 12.8. Una distribución de probabilidad de una variable aleatoria continua es la distribución de probabilidad normal estándar. La distribución de probabilidad y la distribución acumulativa de probabilidad de una variable aleatoria X normal estándar son las que muestra la Figura 12.3.

Figura 12.3 Distribución normal estándar

a) Distribución de probabilidad b) Distribución acumulativa de probabilidad

-4 -3 -2 -1 0 1 2 3 4

0.40

-4 -3 -2 -1 0 1 2 3 4

1.00

0.50

No necesariamente todas las variables aleatorias bajo estudio responden a las distribuciones teóricas de probabilidad. Existen las distribuciones experimentales que, una vez obtenidas, pueden o no responder a las formas de las distribuciones teóricas. Precisamente este será tema de análisis más adelante.

En el Cuadro 12.1 se presentan algunas distribuciones teóricas de probabilidad, tanto discretas como continuas. Se han incluido en el cuadro las distribuciones de probabilidad (también llamadas funciones de densidad cuando están asociadas con variables aleatorias que responden a determinada distribución teórica de probabilidad) y los principales parámetros (media, varianza) de las distribuciones.

Es importante comentar aquí que a partir de las distribuciones muestrales se obtienen estimadores de los parámetros poblacionales. Estos estimadores, por provenir de una muestra aleatoria constituyen, en sí mismos, variables aleatorias sujetas a distribuciones de probabilidad y a

539

distribuciones acumulativas de probabilidad. Esta es la verdadera naturaleza de la Inferencia Estadística.

Cuadro 12.1: Algunas Distribuciones Teóricas de Probabilidad

Distribución de X

Distribución de Probabilidad (o Función de Densidad)

Parámetros E(X) V(X)

a. Discretas

Poisson

010

,n,,,k;

!k

e)kX(P

k

Geométrica ,,k;pq)kX(P k 211

p

1

2p

q

Binomial

n,...,k;)p(pk

n)kX(P knk 01

np npq

Pascal

,...r,rk;qpr

k)kX(P rkr 1

1

1

p

r

2p

rq

Hipergeomé-trica

...,,k;

n

N

kn

rN

k

r

)kX(P 210

np 1

N

nNnpq

Multinomial

n!n!n

pp!n)nX,...nX,nX(P

k

nn

kkk

212211

1

1

inp ii qnp

k,i 21

b. Continuas

Normal

x;e)x(f

x2

2

1

2

1

Exponencial 0 x;e)x(f x

1

2

1

Gamma 01

x;e)x(

)r()x(f xr

r

2

r

En síntesis, para estimar un parámetro de una variable aleatoria X, que posee distribución normal, se usará el estimador que va a obtenerse a partir de la distribución muestral de la variable aleatoria X. Este estimador es de suma utilidad para realizar inferencias y es una variable

540

aleatoria que posee una distribución normal, ya que proviene de una muestra tomada de una variable aleatoria con dicha distribución.

Necesidad del uso de probabilidades

Toda decisión tomada en cualquier circunstancia, en el ámbito empresario o fuera de él, tiene efecto durante un período de tiempo que se extiende hacia el futuro. Esta característica, que es común a todas las decisiones empresarias, probablemente se observe con mayor intensidad en las áreas comerciales, financieras y de producción. Sin embargo, una decisión involucra aspectos del futuro, cualquiera sea la base sobre la que sea tomada.

Teniendo en cuenta que al evaluar una propuesta se estará mirando hacia el futuro, ésta se traducirá en estimaciones de variables; por ejemplo, costos, gastos, ventas, precios, inversiones o impuestos, que estarán sujetas a cierto nivel de incertidumbre. Ante este nivel de incertidumbre en la estimación de variables importantes para la empresa, ¿es suficiente trabajar con el valor sospechado, probable o experimental?, o ¿es más conveniente trabajar con la distribución de probabilidad de cada variable?.

Hay que tener en cuenta que el riesgo es inseparable de la estimación de cualquier alternativa de decisión. Evidentemente, en el campo de la toma de decisiones, es más importante basarse en los métodos probabilísticos que en los subjetivos.

12.5. Distribuciones multivariables

En Inferencia Estadística hemos visto un tratamiento casi completo del modelo de dos variables. Para facilitar una posterior comprensión introducimos a continuación resultados estadísticos básicos en forma matricial.

Supongamos que x representa un vector de variables aleatorias

nX,,X,X 21 .

El valor esperado de cada variable es: n,,,i);X(E ii 21

Agrupando estos valores esperados en un vector μ , se obtiene

nn )X(E

)X(E

)X(E

)(E

2

1

2

1

xμ [42]

541

La aplicación del operador E (esperanza) al vector x significa que E se aplica a cada elemento de x .

La varianza de iX es, por definición ])X[(E)X(V iii2 . La covarianza

entre iX y jX es )]X)(X[(E)X,X(Cov jjiiji

Si definimos el vector x

nT μX

μX

μX

μX

:

:22

11

y tomamos ]xx[E ' , nos queda

)]X()X)(X[(

)X(

)X(

)X(

E nn

nn

2211

22

11

=

2

22

11

22

222

2211

11

1122

211

)(

))((

))((

))((

)(

))((

))((

))((

)(

nn

nn

nn

nnnn μXE

μXμXE

μXμX

μXμXE

μXE

EμXμXE

μXμXE

μXμXE

μXE

[43]

Vemos que los elementos de esta matriz son las varianzas y covarianzas de las variables iX , teniendo en cuenta las definiciones dadas, la matriz de varianzas y covarianzas que puede representarse como:

221

22212

12121

nTT

T

T

σXXCovXXCov

XXCovσXXCov

XXCovXXCovσ

Las varianzas son los elementos de la diagonal principal y las covarianzas aquellos elementos fuera de ésta diagonal. Esta matriz se conoce como matriz de covarianzas y se simboliza como

)'μxμxΣx )(()( EV [44]

542

Está claro que Σ es simétrica (esto es, Σ'Σ ). Es importante analizar si Σ es definida positiva o no lo es. Porqué es importante? Veremos más adelante que esto asegura el cumplimiento de la no dependencia lineal entre las variables exógenas lo que implica NO MULTICOLINEALIDAD, este es uno de los elementos que darán CONSISTENCIA AL MODELO.

Demostremos esto.

Proposición 12.5.1: Para que Σ sea definida positiva las X deben ser linealmente independientes.

Demostración: Definamos una variable aleatoria escalar Y como una combinación lineal de las X ,

c)'(xY μ [45]

donde c es un vector columna arbitrario de n elementos no todos nulos. Elevando [45] al cuadrado

c)')(x(xc'Y μμ 2

esto es, por ser un escalar de argumento vectorial, su cuadrado se obtiene premultiplicando por su transpuesta

y aplicando el operador esperanza, se obtiene

][E)(E c)')(x(xc'Y μμ 2 = c)')(x(xc ][E' μμ

por ser c un vector de elementos constantes y x un vector de variables aleatorias, entonces

Σcc'Y )(E 2 [46]

Puesto que Y es una variable aleatoria escalar se cumplirá que: 02 )(E Y de esta forma, 0cc'Σ y Σ es semidefinida positiva.

Como vemos, )(E 2Y puede asumir un valor nulo o un valor mayor que

cero. Si asume un valor nulo, se tiene 02 )(E Y lo que implica1 que

0Y , de esta forma 0 c)'(x μ ; pero como c no es un vector nulo la única posibilidad es que 0μ)'(x , lo cual significa que las desviaciones

de X con respecto a su media, esto es )X()X)(X( nn 2211 , son linealmente dependientes2.

1La E(Cte)=Cte => E(Cte2)=Cte2 por lo tanto si Cte=0 => E(Cte=0)=0. De esta forma E(Y2)=0 => Y2=0 por lo tanto, Y=0 2Si para un conjunto de parámetros , no todos nulos, pertenecientes a un campo numérico F tenemos que si se

cumple la siguiente combinación lineal 1 a1 + 2 a2 + ... + n an = 0 se dice que los vectores a1, a2,..., an son

LD dentro de F, salvo que la igualdad se cumpla solo y solo si todos los i (i=1, 2, ...,n) son iguales a cero.

543

Entonces, Σ es definida positiva si y solo si entre las X no existe dependencia lineal.

Las k variables aleatorias tendrán alguna función de densidad de probabilidad multivariante

)X,,X,X(p)p n21(x

La función de densidad de probabilidad más importante es la normal multivariante que, al igual que la univariante, queda especificada una vez que se conoce su media y su varianza. En este caso se puede especificar en términos del vector de medias μ y de su matriz de covarianzas Σ . De este modo la fórmula es:

μ)](x1μ)'Σ(x

2

1[

Σx

e

)()(p

//n 2122

1

[47]

donde:

Σ es una matriz simétrica, definida positiva, cuyos elementos ij son

parámetros

μ es un vector nx1, cuyos elementos iμ son parámetros.

n

2

1

Una forma compacta de escribir [47] es

);(N Σμ~x

es decir, el vector x de variables iX se distribuye según una ley normal

multivariante con vector de medias μ y matriz de covarianzas Σ .

Entonces se dice que los vectores son LI. Esta definición se aplica también cuando el número de vectores es uno, de modo tal que un único vector a1 es independiente si a1 0 y dependiente si a1=0, es decir, es el vector nulo.

En el caso que nosotros analizamos se cumple esta última condición ya que cada variable desvío es nula y

544

Casos especiales

a) Cuando n=1,

221

21111111111 ])X[(E)]X)(X[(EnΣ [48]

y [47] se transforma en

][ 222

1

212

1 μ)(x

/e

)()X(p

[49]

que es la conocida función de densidad para una normal univariante.

b) Cuando n=2,

)X,X(p)(p 21x [50]

Donde X se define como

22

11

X

XX

La matriz Σ se obtiene a partir de

221122

11 μXμXμX

μXEΣ

Realizando los productos correspondientes

22221122

22111111

XXXX

XXXXE

Que puede expresarse como

2

221122

22112

11

XXX

XXXE

Aplicando el operador esperanza

2

221122

22112

11

XEXXE

XXEXE

Σ se convierte en

conforma un vector nulo: 0μ)'(xx ; esto es,[x1, x2, ...,xn]=[(X1-µ1), (X2-µ2), ...(Xn-µn)]=[0, 0, ...,0]

donde xi es la variable desvío.

545

2221

1221

donde 2112 covarianza Teniendo en cuenta que el coeficiente de correlación entre 21 X,X es

21

2211

12/][

[51]

entonces

21

221112 σσρσ

2111 σσ y 2

222 σσ por lo que podemos distribuir la raíz

2122

2112

Lo cual significa que 1221 , por lo que la matriz Σ puede expresarse como

2221

2111Σσσρσ

σρσσ [52]

El determinante de la matriz Σ es

)1(Σ 22211 ρσσ

Donde los elementos 11σ y 22σ se demuestran al igual que en [48]

Adviértase que el 0Σ a no ser que 12 , de forma que la matriz de

covarianza es definida positiva, siempre y cuando no exista una relación lineal perfecta entre las dos variables, lo que concuerda con el resultado más general dado en la proposición 12.5.1.

Sustituyendo los resultados anteriores en [47], se obtiene:

AeXp2

122

221

22

12

1

Donde

22

11

1

2212

2121

22112

1

X

XXXA

546

Trabajemos con el exponente A ; veamos a qué es igual 1

AdjAdj

22

21

222

21

1

2212

21211 11

La matriz Adjunta de (Adj ) es la transpuesta de la matriz de cofactores de

Cof

La matriz de cofactores se construye a partir del cálculo de los menores

principales

jiji M1

2112

2122

2121

12221

MCofAdj ji

reordenando

2112

2122

222

21

1

1

1

Reemplacemos 1Σ por su igual

22

112112

2122

222

21

22111

1

2

1

X

XXXA

22

11212221112122

2211

222

21 12

1

X

XXXXX

A

2221222111

1121222211

222

21 12

1

XXX

XXXA

21

222212211

21221122

211

222

21 12

1

XXX

XXXA

21

222221121

22

21122

221

212

1

XXXXA

547

Introduciendo 22

21

1

22

21

21

222

22

21

22112122

21

22

211

2

2

12

1

XXXX

A

22

222

21

221121

211

2

2

12

1

XXXX

A

Se puede reexpresar como

2

2

22

2

22

1

11

2

1

112

212

1

XXXXA

Reemplacemos en

2

2

22

2

22

1

112

2

1

11

)21(2

1exp

21212

1),()( 21

σ

μX

σ

μX

σ

μXρ

σ

μX

ρρσπσXXpp x

[53]

que es la función de densidad para un vector de dos variables, que se distribuye normal bivariante.

c) La forma cuadrática de la normal multivariante se define como

μ)(xΣμ)'(x 1 Q [54]

Es una forma cuadrática en los elementos ii μX , y puede escribirse así:

n

1j

n

1i

(Xi

ij

jji )X)(Q

[55]

Como quedó demostrado la matriz de la forma cuadrática, Σ , es definida positiva por lo que la forma cuadrática también lo es. Un resultado

548

inmediato de esto es que 0)p(x , puesto que el determinante de una

matriz definida positiva es positivo, 0Σ . Esto basta para probar que

[47] satisface una de las propiedades que la califican como función de densidad. La otra propiedad que deberíamos probar es que 1)p(x . Cuestión que se cumple pero que no demostraremos aquí.

d) Un caso especialmente importante de [47] se da cuando todas las X tienen la misma varianza 2 y no están correlacionadas entre sí (lo que es lo mismo decir que son estadísticamente independientes). Para que esto ocurra Σ debe ser una matriz diagonal, esto es

nn

00

00

00

22

11

I2Σ [56]

donde:

n es el número de variables

22211 nn

ji,ij 0 . Esto ocurre si y solamente si el coeficiente de correlación

ij es cero cuando ji .

Esta matriz tiene las siguientes particularidades

nσ 2Σ ,

2/22/122/1 nn σσ Σ

IΣ 12

1

σ

con lo que

)](x)'(x

21[

xμμ

2

2

122

e)(

)(p/n

[57]

La ecuación [57] se puede factorizar de la siguiente forma:

549

)()()(

)(2

1exp

)2(

1),,()(

21

1

222/1221

n

n

iiin

XpXpXp

μXσπσ

XXXpp

x [58]

de modo que la densidad multivariante es el producto de cada una de las densidades marginales; es decir, las X se distribuyen independientemente unas de otras. Este resultado es de gran importancia. Si los coeficientes de correlación entre variables que se distribuyen normalmente son cero entonces las variables son estadísticamente independientes3.

Ejemplo 12.9 Dada una matriz de 3x3

33

22

11

00

00

00

B

Donde:

3 es el número de variables

2

332211 σσσσ

ji,ij 0 , lo cual indica que el coeficiente de correlación ij

es cero cuando ji . El determinante es

nσB *2 63*2222332211 σσσσσσσσB

La inversa es

Iσ

B2

1 1

Para el cálculo se utilizará el método de la matriz adjunta, por el cual

)(11 BAdjB

B

22

22

22

00

00

00

1

σ

σ

σ

MBCofBAdj Bji

ji

Continúa…

3 No se puede generalizar este resultado a cualquier tipo de distribución y deberá tenerse presente que las correlaciones que deben ser cero son las poblacionales y no las muestrales

550

continuación

Iσ

σ

σ

σ4

22

22

22

00

00

00

De modo que:

Iσ

Iσσ

B2

46

1 11

Quedan demostradas las particularidades que tiene la matriz

e) Un caso más general se obtiene de particionar la matriz Σ de la siguiente forma

22

11

Σ0

0ΣΣ [59]

donde: 11Σ es cuadrada de orden r y 22Σ es cuadrada de orden rn .

La forma de [59] significa que todas y cada una de las variables del conjunto rX,,X,X 21 están incorrelacionadas con todas y cada una de las

variables del conjunto nrr X,,X,X 21 .

Aplicando una partición similar a x y a µ, se tiene:

)(x)'(x)(x)'(x)(x)'(x 12

-1221

-111 μΣμμΣμμΣμ

2211 [60]

También se puede demostrar que

22ΣΣΣ 11 [61]

Tanto de [60] como [61] se obtienen de propiedades de partición de matrices cuadradas no singulares4.

Aplicando [60] y [61] en [47] se obtiene:

4 Matriz simétrica A=A' (sólo se cumple para matrices cuadradas: m=n). Matriz no singular es aquella que admite

inversa y esta es única si la matriz es cuadrada. Matriz idempotente A=A2=A3=...=An.

551

)(x)'(x

)(x)'(xx

221-

2222

111-

1111

μΣμ

μΣμ)

222221

222rn

111121

112r

21

2

1

21

2

1p

exp)(

x

exp)(

(

//

//

[62]

es decir,

)(p)(p(p 21 xxx ) [63]

de forma que las r primeras variables se distribuyen independientemente de las rn variables restantes.

12.6. Formas Cuadráticas

Supongamos que nuestra matriz simétrica Σ de orden nxn se combina con el vector x de n elementos de la siguiente forma:

nnnnnn

n

n

n

n

X

X

X

XXXX

2

1

321

3333231

2232221

1131211

321


n

nnnnnnn

X

X

X

XσXσXσXσXσXσXσ

2

1

22111331221111 ......

2

332333

1232232222

113113211221

2

22

222

nnn

nn

nn

nn

X

XXX

XXXXX

XXXXXXX

11Σxx'

[64]

Esta forma se conoce con el nombre de forma cuadrática, donde:

552

Σ es la matriz de la forma cuadrática, en nuestro caso la matriz de covarianzas.

ij , para todo i=1, 2, ...n y para todo j=1, 2, ...n, son los elementos

de la matriz de la forma cuadrática, en nuestro caso

ijjjii )]X)(X[(E

]X,,X,X[ n21x' , es el vector de variables aleatorias

Propiedades:

a) Si 0x0xx' Σ , se dice que la forma cuadrática es definida positiva y se dice que Σ es una matriz definida positiva. (ver proposición 12.5.1)

b) Si 0x0xx' Σ , la forma cuadrática y la matriz son semidefinidas positivas.

c) Si las desigualdades anteriores cambian de signo se dice que las matrices y las formas cuadráticas son definidas y semidefinidas negativa, respectivamente.

d) Si una forma cuadrática es positiva para algunos vectores x y para otros negativa, entonces se dice que es indefinida.

Condiciones necesarias y suficientes

a) Una condición necesaria y suficiente para que una matriz simétrica y real Σ sea definida positiva es que el determinante de cada submatriz principal sea positivo.

Las submatrices principales de Σ son un conjunto de n submatrices tales que

Σ,,

kkkjki

jkjjji

ikijii,

jjji

ijii,iiσ

Lo más común es considerar las matrices superiores

ΣΣΣΣΣ

n1 σ ,,,,

333231

232221

131211

32221

1211211

[65]

553

Cuando Σ es definida positiva, 0xx' Σ para cualquier x distinto de cero. Por lo tanto, podemos considerar un vector x cuyos primeros elementos son distintos de cero y los restantes rn elementos son nulos, es decir,

]0'[x'x' r

Entonces

rrrrr

r xΣx'0

xΣ0][x'Σxx'

donde se ha particionado en las primeras r y las últimas rn filas y columnas y los asteriscos representan a otras submatrices de Σ que serán absorbidas por los subvectores nulos dex . Puesto que

0xx' Σ

se deduce que

0xΣx' rrr

Así pues, dadas las condiciones anteriores, todas las raíces de rΣ son positivas, de forma que

0Σr

Por lo tanto, con una elección adecuada de los vectores x , la condición necesaria y suficiente para que Σ sea definida positiva se puede expresar como

0Σ,0,Σ0,Σ0,Σ 321 [66]

b) Otra condición necesaria y suficiente para que Σ sea definida positiva es que los valores característicos5 de Σ sean positivos.

Para demostrar la condición necesaria supongamos que 0xx' Σ . Para cualquier valor característico i

5Los valores característicos i de la matriz Σ , son las raíces del polinomio que se obtiene al resolver el sistema

0λI)x(Σ . Si la matriz λIΣ no es singular, la única solución es la trivial 0x . Por lo tanto, para que

una solución no trivial exista, la matriz debe ser singular o, en otras palabras, el siguiente determinante: IΣ -

debe ser cero. Este determinante se conoce como la ecuación característica de la matriz Σ . Esto da un polinomio en λ . Cada raíz o valor característico i se puede sustituir en 0λI)x(Σ , con lo que se obtendrán los

correspondientes vectores característicos.

554

iii xλΣx

premultiplicando por ix' da

iiiiii λxx'λΣxx'

puesto que se cumple que 0xx' Σ para cualquier x distinto de cero, también se cumplirá para cualquier vector característico de forma que 0i para todo i.

Para demostrar la condición suficiente suponemos que todas las i son mayores que cero y demostramos que 0xx' Σ .

Puesto que una matriz simétrica tiene un conjunto completo de n vectores característicos ortogonales6 n21 x,,x,x , cualquier vector no nulo x se puede expresar como una combinación lineal de los vectores característicos.

n21 xxxx nccc 21

Así pues,

n21

n21

xxx

xxxx

nn

n

ccc

ccc

2211

21

nn

nnn

ccc

)ccc()'ccc(

2

2221

21

221121

n21n21 xxxxxxxx'

puesto que

n,,,j,iji

jiij 21

1

0

ji xx'

Habiendo supuesto que todos los i son positivos, entonces

0xx' Σ , ya que los 2ic son siempre positivos.

TEOREMA 12.6.1. Si Σ es simétrica y definida positiva, se puede encontrar una matriz no singular P tal que:

PP'Σ [67]

6 Los vectores ortogonales cumplen con la condición que Ixx'

555

Para hallar P, primero hay que encontrar los valores característicos de Σ a partir de IΣ λ

Ejemplo 12.10 Supongamos

333231

232221

131211

Σ y hagamos el

calculo del determinante de IΣ λ

00

00

00

333231

232221

131211

Donde ij son constantes

son incógnitas, representan los valores característicos Si resolvemos la diferencia de matrices

λσσσλσσσσλσσ

σσσσσσλσλσλσ

λσσσ

σλσσ

σσλσ

112332332112312213

133221312312332211

333231

232221

131211

2332112332211233211231132213

133221312312332

22112211

Veamos que

2332

1331

1221

Entonces 133221312312 σσσσσσ

Por lo que 133221133221312312 2 σσσσσσσσσ

Si 21221121221 Entonces el determinante será

λσσσλσσσλσσσσσσ

λλσλσλσσσλλσσλσσσσσ2

32112

322

12332

122

13222

13133221

3222

211221133

233223311332211

2

Continúa…

556

continuación Agrupando de acuerdo a la potencia de

11

23233

21222

213133221332211

2211332233112

232

122

132

3322113

2

Esta última expresión es el determinante de IΣ λ

Definamos

112

32332

12222

13133221332211

2211332233112

232

122

13

332211

2 σσσσσσσσσσσσγ

σσσσσσσσσβ

σσσα

De modo que

23IΣ

Debemos encontrar ;; 21 λλ y 3λ que hacen que el polinomio se

anule 023

Cuando hallemos los iλ

32123

La primera parte, que consiste en encontrar los valores propios, está cubierta; 1λ , 2λ y 3λ son los valores propios que estábamos

buscando. La segunda parte consiste en encontrar los vectores propios (también denominados autovectores o vectores característicos). Para esto tenemos que hacer: Con 1 ; resolver el sistema 0XIΣ 11 . La incógnita es el

vector propio 1X , la resolución del sistema nos permite hallar su valor.

Con 2 ; resolver el sistema 0XIΣ 22 y hallar el segundo vector propio

Con 3 ; resolver el sistema 0XIΣ 33 y hallar el tercer vector

propio En síntesis, en el polinomio hay que encontrar los valores de que lo anulen; dicho de otro modo, las raíces características de la matriz que anulen el polinomio. Luego con cada uno de los se resuelve el sistema

0XIΣ i

donde la incógnita es el vector X.

557

Cada da lugar a un vector X distinto y cada uno de estos vectores X son los vectores característicos, vectores propios o auto vectores de la matriz Σ .

Luego, reunimos estos vectores característicos en una matriz D, que pueden utilizarse para diagonalizarla. Es decir, ),,,(diag n 21D es una matriz con los vectores característicos de Σ y tiene en su diagonal principal los valores característicos de la matriz Σ . De modo que:

DΣXX XXDΣ [69]

Cuando Σ es definida positiva, todos sus valores característicos son positivos por lo que es válido hacer

Es decir, D se puede descomponer en los factores

1/21/2DDD [70]

donde

nλ

λ

λ

00

00

00

2

1

1/2D [71]

Sustituyendo

21212121 XDXDXDXDXXDΣ

Habíamos dicho que PPΣ entonces quiere decir que 21XDP siendo P no singular

sustituyendo en [69] se obtiene:

)')(XD(XDX'DXDΣ 1/21/21/21/2

por lo tanto, como PP'Σ

se concluye que

1/2XDP [72]

y P es no singular puesto que es el producto de dos matrices no singulares.

558

TEOREMA 12.6.2. Si Σ es nxn y definida positiva y si P es nxm con rango igual a m , entonces

ΣPP' es definida positiva

Queda claro que ΣPP' es simétrica y para cualquier vector y de m elementos

Σxx'ΣP)y(P'y'

donde, Pyx

Por lo tanto, a x se le puede considerar como una combinación lineal de las m columnas LI de P, por lo que:

0x sí y solo sí 0y

Así pues, ΣPP' es definida positiva.

Proposición 12.6.2. Dadas dos matrices A y B, si A es nxm con rango nm , entonces AA' es definida positiva y AA' es semidefinida

positiva.

Ejemplo 12.11 Supongamos una matriz A de orden nxm con rango m

mAArangoAAAAmxmnxmmxn

)(

nmAArangoAAAAnxnmxnnxm

)( donde hay, m columnas

linealmente independientes y n-m columnas linealmente dependientes

Proposición 12.6.3. Si A es nxm con rango )n,mmin(k , entonces AA' y AA' son ambas semidefinidas positivas.

Proposición 12.6.4. Dadas dos matrices A y B, si ambas son definidas positivas y su resta también lo es, entonces la resta de sus respectivas inversas es definida positiva. BA definida positiva

11 AB .

559

Distribución Estadística de Formas Cuadráticas

a) Supongamos que

I)N(0~x ,

es decir, x es un vector de n elementos y cada una de las n variables en x se distribuyen normal e independiente, con media cero y

varianza 1. O sea las iX son variables aleatorias normales independientes tipificadas.

Teniendo en cuenta a 1σ , se tiene

222

21 nXXX xx'Ixx'Σxx'

o sea la suma de cuadrados de n variables aleatorias normales tipificadas. De la definición de chi-cuadrado

(n)~xx' 2 [73]

b) Supongamos que I)N(0~x 2,

Ahora, xIx'xx' )( 2Σ

O sea que la matriz de la forma cuadrática es una matriz identidad premultiplicada por un escalar 2 .

De esta forma cada variable aleatoria normal iX deberá dividirse por 2 para que su varianza sea la unidad. Así pues,

2

2

2

22

2

21

nXXX

(n)~ 2χ

es decir, (n)~xx' 2χ2

1

o lo que es lo mismo,

(n)~xIx' 212 χ)( [74]

O sea que la suma de cuadrados de variables aleatorias normales con media cero y varianza constante distinta de uno se distribuye Chi-cuadrado con n grados de libertad.

560

La ecuación [74] muestra explícitamente que la matriz de la forma cuadrática es la inversa de la matriz de covarianzas.

c) Supongamos ahora que

Σ)N(0~x ,

donde Σ es una matriz definida positiva.

La expresión equivalente a [74] sería ahora

(n)~xΣx' 21 [75]

De hecho este resultado se cumple pero la demostración no es inmediata ya que las variables aleatorias normales X ya no son estadísticamente independientes. El procedimiento consiste en transformar las X en Y , las cuales serán variables aleatorias normales independientes y tipificadas.

Puesto que Σ es definida positiva, de acuerdo a [67] existirá una matriz no singular P tal que PP'Σ , que da lugar a:

IPΣP

PPΣ11-1

11-1

)'()(

)')(( [76]

Definamos un vector y de n elementos como

xPy 1

las variables Y son normales multivariantes puesto que son combinaciones lineales de las X ,

00PxPy 11 )(E)(E porque Σ0,X N~

I)'Σ(PP)'(Pxx'Py 1111 ][(E)(V (de acuerdo a [76])

Este resultado significa que las Y son variables aleatorias normales tipificadas, de media 0 y varianza 1, por lo que:

(n)~yy' 2χ [77]

Pero, según se vió, xPy 1 ; de modo que

xP)'(Px'yy' 1-1

561

De acuerdo a [76]

xΣx'yy' 1

luego, (n)~xΣx' 21

que es el resultado que se anticipó en [75]

d) Supongamos de nuevo que I)N(0~x ,

y ahora consideremos la forma cuadrática Axx' donde A es idempotente con rango nr .

Si representamos a la matriz de vectores característicos de A por Q , entonces

DAQQ' [78]

donde D tendrá r unos y rn ceros en la diagonal principal.

0

0

1

1

1

Definamos: xQ'y , entonces, Qyx

Entonces:

QIQIQQQXXQQXXQXQXQY

0XQXQY

EEEV

EEE

Al ser Q ortogonal, es decir vectores LI, IQQQQQQ 11 Por esto

Iy )(V [79]

De esta forma las variables Y son normales tipificadas e independientes.

La forma cuadrática se puede expresar ahora usando [78] como:

r términos = rango(A)

n-r términos

562

AQyQ'y'Axx'

donde

DAQQ

xQy

De modo que

222 rYY 2

1YAQyQ'y'Axx'

Por lo tanto,

)(~Axx' 2 rχ [80]

Generalizando, si I)N(0~x 2, y A es idempotente con rango nr ,

entonces )(~Axx' 2 rχ2

1

Proposición 12.6.5. Independencia de la Forma cuadrática. Supongamos que I)N(0~x 2, y que tenemos dos formas cuadráticas x´BxAxx' y donde BA y son matrices idempotentes simétricas del mismo orden. Se distribuirán con independencia estadística si y solamente si el producto de las matrices idempotentes es la matriz nula

0BAAB [81]

Se puede demostrar diciendo que, si las matrices son idempotentes simétricas, tenemos

(Bx)(Bx)'x´Bxy(Ax)(Ax)'Axx'

Si existe correlación nula entre cada una de las variables del vector Ax y las del vector Bx entonces se distribuirán independientemente una de otra y, por lo tanto, cualquier función de un conjunto de variables, tal como Axx' se distribuirá independientemente de cualquier función del otro conjunto, tal como x´Bx . Las covarianzas entre las variables de Ax y de Bx vendrán dadas por

ABBAxx'Bx(Ax) 2 ][E])'([E

Estas covarianzas (y, por lo tanto, las correlaciones) serán todas cero siempre y cuando 0AB .

563

Puesto que A y B son simétricas, esta condición también se puede establecer como que 0BA ; una implica la otra.

Proposición 12.6.6. Del mismo modo una forma cuadrática y una función lineal L son independientes 0LA . Siendo L una

combinación lineal de las X que se distribuyen I)N(0~x 2, .

Para demostrarla, supongamos que I)N(0~x 2, . Además supongamos que Axx' sea una forma cuadrática en la que A es una matriz idempotente simétrica de orden n y supongamos que Lx es un vector de m elementos, siendo cada elemento una combinación lineal de las X . Así pues, L es de orden mxn , lo que nos dice que no necesita ser ni cuadrada ni simétrica. Si las covarianzas entre las variables de Ax y Lx son cero, estos supondrá que

0AL'L'Axx' 2][E , con lo que

0LA [82]

12.7. Normalidad de la perturbación aleatoria

Se ha admitido, aunque implícitamente, que los datos con que se trabaja provienen de muestras finitas. Esto es cierto en la mayoría de los casos, aunque para sostenerlo son necesarios supuestos bastante fuertes, tales como regresores no estocásticos y distribución normal de las perturbaciones aleatorias. Vale decir aquí que, además de MCO existen otros métodos para estimar el vector de parámetros β . Por ejemplo, se podría aplicar una regresión por cuantiles (separando los valores más altos y más pequeños de las variables explicativas) o una regresión ortogonal (minimizando la distancia ortogonal a la recta de ajuste y no la distancia ortogonal respecto a las variables explicativas). La cuestión de cuál estimador hay que elegir normalmente se basa en las propiedades estadísticas de los candidatos, tales como insesgadez, eficiencia y precisión. Estos, a su vez, dependen también de la distribución que se supone que producen los datos. Es interesante el hecho de que un buen número de propiedades deseables pueden obtenerse para el estimador MCO , incluso sin especificar una distribución particular para las perturbaciones aleatorias en la regresión. Sin embargo, se admite a los efectos de ampliar la discusión, que las perturbaciones siguen una distribución normal. Esto es, se incluye el supuesto adicional de Normalidad y se incorporan algunas propiedades asintóticas.

564

En forma alternativa se podrían calcular los estimadores máximo verosímiles, de los parámetros del modelo; es decir, aquellos que son más probables dada la distribución de los datos muestrales y su implicación sobre la función de densidad conjunta.

Para todo esto, se admite la hipótesis de normalidad en la distribución de la perturbación aleatoria dada en [6]

),(N~ TI0ε ε2

Es decir, el vector de perturbaciones aleatorias ε tiene una distribución normal multivariante, dada por la siguiente función de densidad,

]2

1exp[

)()2(

1)(

22/22/

2

1

εε'εεε σσπ

ε

ε

ε

pf TT

T

[83]

donde:

TIε2 es una matriz escalar, definida positiva, cuyos elementos 2

ε son

constantes.

Si se recuerda la definición de la distribución normal multivariante, se observa que en este caso todas las variables tienen la misma varianza

2 y no están correlacionadas entre sí (lo que es lo mismo decir que son estadísticamente independientes). Para que esto ocurra Σ debe ser una matriz diagonal, esto es

TT

00

00

00

22

11

I2Σ

Con las siguientes propiedades

2

2211 TT

ji,ij 0 . Esto ocurre si y solamente si el coeficiente de

correlación ij es cero cuando ji .

IΣΣ 12

22212212 1

y;

/T/T/TΣ , con lo que se

obtiene la función mostrada.

565

Por tanto, los elementos del vector ε , se distribuyen independiente y conjuntamente según una ley normal multivariante con vector de medias 0 y matriz de covarianzas TIε

2 .

En [83], εε'ε2

1

σ puede expresarse como εIε' ε

12 T , el cual define una

forma cuadrática cuyo resultado es

2

2

2

22

2

21

T

Es decir, una suma de variables normales tipificadas, porque 0ε .

De esta forma cada variable aleatoria normal T se divide por 2 . Así pues,

2

2

2

22

2

21

T 2

T~

es decir, la forma cuadrática εIε' ε

12 T 2

T~

La ecuación anterior muestra explícitamente que la matriz de la forma cuadrática es la inversa de la matriz de covarianzas.

Dado que las perturbaciones son no observables, puede interesar conocer la distribución de la suma de cuadrados de los residuos vista en [35]

Mεε'ee'

Y para ello se utilizan las propiedades de las matrices simétricas e idempotentes, vistas anteriormente y, en particular, que la forma cuadrática con variables aleatorias T tipificadas se distribuye como

Mεε' 2kTχ ~

Siendo kT el rango y la traza de la matriz M , matriz simétrica e idempotente. Por tanto, y en este caso con ),(N~ TI0ε ε

2 y rango igual a

la traza kT

222 kT~

εε

ee'Mεε' [84]

Resultado que será utilizado en los contrastes de validez del modelo.

566

12.8. Criterio de máxima verosimilitud

En general, las propiedades asintóticas del estimador máximo-verosímil son muy atractivas en casos en los que es imposible encontrar estimadores con buenas propiedades para muestras finitas, situación esta que se produce frecuentemente en la práctica.

Para ello, si suponemos que las perturbaciones aleatorias siguen una distribución normal multivariante como la expuesta en [83]

]2

1exp[)()()(f /T/T εε'ε

εε 2

2222

La función de verosimilitud, para los valores muestrales, expresando Xβyε y denominando MVβ al vector de estimadores máximo

verosímiles, es

])y(2

1exp[)(L

T

tt

/T

1

22

222 βX't

εε

)])'2

1exp[)(L /T Xβ(yXβ(y

εε

2222

[85]

Observación. La transformación βX'ttt yε es posible ya que el

jacobino para cada observación, tt y es igual a la unidad. Recordemos

que ante una transformación de variables se aplica la solución estadística de cambio de variable.

Mediante un cambio de variable se puede resolver, totalmente o en parte, un buen número de problemas importantes en la teoría estadística. Los cambios de variables pueden ser simples cambios de localización o escala o pueden ser transformaciones ortogonales.

En este caso tenemos una variable aleatoria ε con comportamiento aleatorio conocido, esto es, con densidad )(f ε conocida, y necesitamos determinar el comportamiento aleatorio o la densidad )(g y , de una variable aleatoria y cuya relación con ε está dada por una función conocida )(εy . En este caso en particular, esa función es

t'tt εy βX

Encontramos

567

)(Med)(fe)(M t

t

ε

βXβX

βX

't

't

't

Así, la función generatriz de momentos de y se determina en términos de la función generatriz de momentos de ε , y el problema de los momentos de y queda resuelto.

En el caso que estamos analizando, afortunadamente, se resuelve en forma sencilla, ya que

Iεε'XβyXβyyV

XβεXβεXβyE2

)(E)')([(E)(

)(E)(E)(

Que es la formula utilizada en la función de verosimilitud.

Por otra parte, ante un cambio de variable )(εy donde la función de densidad de ε es )(f ε , la función de densidad y se calcula como:

t

tt

t

t

y

)y()y(f

y)(f)y(J)(f)y(g

βX

βX't'

t

Donde )y(J es el Jacobino de la transformación, determinante definido sobre la matriz de derivadas parciales deε respecto a y . En nuestro caso

1)y(J y por lo tanto )(f)y(g .

Para maximizar la función de verosimilitud con respecto a β , sería necesario maximizar el exponente o minimizar la suma de cuadrados. Tomando logaritmos obtenemos el logaritmo de la función de verosimilitud

))'2

1ln

Tln

TLln Xβ(yXβ(y

εε

22

22

2

Aplicando las condiciones, de primer orden, de máximo respecto a los parámetros desconocidos, tenemos

0Xβ(yXβ ε

)'2

1Lln2

0))'(22

TLln

Xβ(yXβyεεε422

1

Resolviendo el sistema, obtenemos

MCO'1'

MV βyXXXβ ˆˆ

568

22 ST

ˆ MV ee'

Para ver si se trata de un máximo, apliquemos las condiciones de segundo orden,

22

2 2

εε

XX'XX'

ββ ββ

'

Lln

'

LlnE-con

02

2

42

2

εβεε

εX

β Lln'Lln

E-con

2

22

2

46422

2

ε

εεεεε

εε

T)'Lln

;2

T'

2

TLln

E(queyaEcon

Se puede demostrar que la matriz de derivadas segundas

644

42

22

2

2

2

2

2

2

2

2

1

εεε

εε

εε

εε

X'

X'XX'

β

ββ'β

'T

)(

)(

LlnLln

LlnLln

Constituyen una forma cuadrática definida negativa, condición suficiente para la existencia de un máximo. Una forma cuadrática definida negativa es aquella en que todos sus menores principales son negativos. Veamos

01

2 )( XX'

ε

02

2

12

4642

644

42

εεεε

εεε

εε εX'εε'XX'εε'εX'

εX'XX'

T)(T

)(

Por otra parte, la matriz de información es

569

4

2

2

2

1

ε

ε

ε 0

0XX'β

I

T

)(

Y su inversa

T

)(4

12

21

2 ε

ε

ε 0

0XX'βI

Los términos que están fuera de la diagonal principal son iguales a cero e indican que β y 2

ε se distribuyen independientemente.

Sustituyendo los valores estimados máximo verosímiles en la función logarítmica y tomando antilogaritmos, obtenemos el máximo de la función de verosimilitud

ee'ee'

ee'β

2

T

Tln

Tln

T)ˆ,ˆ(Lln

22

22

2

T

Tln

Tln

T)ˆ,ˆ(Lln

ee'β

22

22

22

22 2T

TT

eT

)()ˆ,ˆ(L

ee'β

222 2

TT

T)e()ˆ,ˆ(L

ee'β

222 2 TT

T

e)ˆ,ˆ(L

ee'β

22

T

constante)ˆ,ˆ(L ee'β

Donde la constante no depende de ninguno de los parámetros del modelo. La misma depende de las constantes matemáticas ey .

Cabe aclarar, entonces que el estimador de máxima verosimilitud tiene varianza sesgada, pero goza de todas las propiedades asintóticas deseables. Es consistente, posee normalidad y eficiencia asintótica, es invariante y su gradiente tiene media nula y varianza igual a la cota de Cramer – Rao para estimaciones eficientes.

570

La cota de Cramer – Rao la obtuvimos al hacer la inversa de la matriz de información

T

)(4

12

21

2 ε

ε

ε 0

0XX'βI

Ningún otro estimador con normalidad y consistencia asintótica tiene una matriz de varianzas y covarianzas menor que esta.

Dijimos que los estimadores máximos verosímiles son también invariantes. Esto significa que el estimador máximo verosímil de cualquier función continua de β es esta función del estimador máximo verosímil. Es decir, mientras que con el teorema de Gauss – Markov podíamos afirmar que el estimador lineal insesgado más eficiente de βc'

era βc' ˆ , ahora tenemos un resultado asintóticamente más significativo, ya que el estimador más eficiente de )(g β , donde )(g β es cualquier

conjunto de funciones continuas, es )ˆ(g MVβ . La distribución asintótica de un estimador fue analizada anteriormente en esta misma sección.

Por otra parte, a pesar de tener una varianza estimada sesgada, ésta

solo difiere de 2S por el factor T

k , ya que el estimador de máxima

verosimilitud esta sesgado hacia cero, como vemos a continuación

2222 1

T

k

T

)kT()ˆ(E MV

Pero el factor T

k desaparece en muestras grandes.

Asimismo, es posible verificar la equivalencia entre ambos estimadores, aunque sea asintóticamente. A partir de lo que hemos analizado, sabemos que es posible, teniendo en cuenta la inversa de la matriz de información y de que la 22 )S(E , escribir

42221 20 ,N)ˆ(T kd

MV/

Donde )ˆ(T MV/ 2221 es una variable que representa convenientemente

la diferencia de medias de los dos estimadores de la varianza y que, tomando esperanza matemática y varianza sobre la misma, cuando

T , la media tiende a cero y la varianza a 42 . Tomando esperanza matemática,

571

T

k]

T

k[T])

T

k[(T

)](E)ˆ(E[T)ˆ(ET)]ˆ(T[E

//

MV/

MV/

MV/

22212221

222122212221

1

Si tomamos varianza de la variable, tenemos

44

22222212221

22

]T

[T

)](V)ˆ(V[T)ˆ(V)T()]ˆ(T[V MVMV/

MV/

Entonces, cuando T ; 42221 20 ,N)ˆ(T kMV/

Definiendo ahora,

221

22211 /MV

/T

T

k)ˆ(T

T

kz

,

Observación. Tz representa una variable centrada y corregida por el

sesgo

T

k1 y donde hemos utilizado la deducción anterior de

esperanza matemática para centrarla.

De lo cual se puede deducir que la distribución límite de Tz es,

221

4201 /k

T

k,N

T

k

Pero, 21/T

k

T

ky

desaparecen a medida que T , por lo que la

distribución límite de Tz también es 420 ,N k .

Por otra parte, se puede demostrar que centrando convenientemente la variable 2S , obtenemos

)S(Tz /T

2221 ),(N~ k420 (demuéstrelo)

Por lo que la distribución asintótica de 2S es la misma que la del estimador de máxima verosimilitud.

572

12.9. Utilidad del modelo econométrico

Una vez que mediante los métodos econométricos de estimación se ha asignado valores numéricos a los parámetros, el modelo puede utilizarse con dos objetivos:

Descripción de la economía, de la que procede la información muestral (Familia, Región, País, etc.).

Predicción

Por supuesto que la fiabilidad de la Predicción dependerá de:

el horizonte de predicción

la constancia de los valores paramétricos estimados a lo largo del horizonte de predicción

la calidad de nuestras estimaciones de los parámetros del modelo

que el modelo utilizado sea apropiado y que, en particular, esté especificado correctamente.

Ejemplo 12.11. Un análisis de predicción es fundamental para hacer cualquier estudio de política económica. Supongamos que el Banco Central quiere hacer un análisis del posible efecto inflacionario de una expansión monetaria. En este caso se usarán predicciones de los tipos de interés (que explican los posibles gastos de consumo) y de los gastos de consumo utilizando un determinado supuesto sobre el crecimiento de la oferta monetaria.

Los valores paramétricos también son importantes para tener un conocimiento descriptivo de la economía, por ejemplo, ¿cuánto empleo se crea o se destruye si los salarios reales se mantienen constantes durante los próximos tres años?

Para responder a la pregunta sobre qué tipo de modelo especificar, se podría utilizar un modelo del tipo:

e)pW(eU ttt

donde:

tU , denota la tasa de crecimiento o destrucción del empleo

t

t

p

W, es el salario real

573

Este modelo es claramente NO LINEAL pero puede transformarse en otro lineal mediante un CAMBIO DE VARIABLES, haciendo

tt UlnY

t

tt p

WlnX

Quedando,

tt XY

Esta especificación tiene la ventaja de que el valor del coeficiente proporciona la elasticidad desempleo - salario real, puesto que:

t/ptn WVariac.% etn UVariac.% e

)t/ptd(W

tdU

tUt/ptW

t/ptdlnWtdlnU

β

CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS

Caso 12.1: Correlación de muestras

La siguiente tabla proporciona los valores de las medias y las desviaciones estándar de dos variables X e Y, y la correlación de ellas para cada una de las submuestras. Calcular la correlación entre X e Y para la muestra compuesta obtenida juntando las dos submuestras. ¿Porqué dicha correlación es menor que cualquiera de las correlaciones que pudieran existir en las submuestras?

MuestraNúmero de muestras X Y Xs Ys XYr

1 600 5 12 2 3 0.6 2 400 7 10 3 4 0.7

Caso 12.2: Estimación de parámetros

Una muestra de 20 observaciones correspondiente al modelo

XY

en el que las se hallan distribuidas normal e independientemente con media cero y

varianza constante, ofrece los siguientes datos:

574

9.21Y 9862 .)YY( 4.106))(( YYXX

2.186X 42152 .)XX(

a) Estimar y

b) Calcular sus errores estándar.

Caso 12.3: Consumo de cerveza y mortalidad infantil

Un investigador se muestra interesado en las dos series siguientes, definidas para el periodo comprendido entre 1935 y 1946. Año 35 36 37 38 39 40 41 42 43 44 45 46 X, muerte de niños menores de 1 año (000)

60 62 61 55 53 60 63 53 52 48 49 43

Y, consumo de cerveza (barriles)

23 23 25 25 26 26 29 30 30 32 33 31

a) Calcular el coeficiente de correlación entre X e Y.

b) Ajustar a X (o Y) una tendencia temporal lineal calculando una regresión MCO de X (o Y) sobre el tiempo t. El procedimiento requiere elegir un origen y una unidad de medida para la variable t. Por ejemplo, estableciendo el origen en la mitad de 1935 y tomando como unidad de medida un año, al año 1942 le corresponderá el valor t=7, y así sucesivamente para los demás años. Si el origen se sitúa a finales de 1940 (principios de 1941) y la unidad de medida es 6 meses, entonces al año 1973 le corresponderá el valor t=-7. Demostrar que cualquier tendencia calculada

mediante btaXt no queda afectada por la elección del origen y la unidad

de medida.

c) Supongamos que tXe , y tYe , indican los residuos de X e Y respecto a sus valores

tendenciales. Calcular los coeficientes de correlación entre tXe , y tYe , . Comparar

dicho valor con el obtenido en el apartado a) y comentar la justificación de tales diferencias.

Caso 12.4: Primeros pasos en Eviews

En el marco de la materia de econometría se trabajará con Eviews 6, el cual es un software de la empresa Quantitative Micro Software (http://www.eviews.com/) orientado al análisis econométrico. Es uno de los paquetes más usados y más completos disponibles en la actualidad, junto con Stata, que a diferencia de otros conocidos programas como SAS o SPSS (orientados al análisis estadístico general). Se especializa en econometría, tanto de series de tiempo, corte transversal y datos de panel. Posee la ventaja de contar con un interface gráfica de modo que resulta mucho

Icono y ventana inicial de Eviews 6

575

más intuitivo que otras alternativas, pero también cuenta con el potencial de un entorno programable para usuarios avanzados, como son S o R (versión

freeware de S). Una alternativa freeware interesante es “gretl”, un paquete econométrico con interface usuario gráfica (http://gretl.sourceforge.net/gretl_espanol.html) En el escritorio de la PC, seguramente se encuentra un icono como el de la figura, y tras abrirlo, una ventana con fondo grisáceo sin más detalles. Se comenzará utilizando datos de la Tabla 12.1 del Ejemplo 12.5.

Creando Workfile. El archivo base con el cual trabaja este programa es el workfile (fichero de trabajo) que se crea desde el menú File > New > workfile... (archivo>nuevo>fichero de trabajo). En principio se abre la ventana Worfile create donde debemos especificar la estructura del archivo. Las opciones disponibles son: (1) Unstructured / Undated (Desestructurado / No Fechado) que se utiliza en caso de datos que no se corresponden con observaciones en el tiempo regulares; por ejemplo, los existentes en tabla 12.1 no se corresponden con algún período de tiempo; (2) Dated - Regular Frecuency (Fechado – Frecuencia Regular) para tabla de datos donde las unidades de observación se corresponden con unidades regulares de tiempo, como años, trimestres, meses, etc., se debe especificar la frecuencia, start date (fecha inicial) y end date (Fecha final); y (3) Balanced Panel (Panel Balanceado) cuando para cada individuo observado se dispone de series de tiempo de igual longitud, tal que deben especificarse frecuencia, fecha inicial, fecha final y número de cross-section (secciones cruzadas). Puesto que en la Tabla 12.1 5,...,2,1i , en Data Range (Rango de datos) se indica 5 observaciones. También es posible, aunque no es necesario, indicar el nombre de archivo en WF, y el nombre de hoja (como en Excel) en Page.

Cargando datos Para cargar los datos en el archivo creado existen dos maneras diferentes: (1) importando desde una aplicación externa como puede ser Microsoft® Excel, o (2) tipeando directamente en Eviews. El primero de los métodos consiste en utilizar una planilla de cálculo para tipear los datos para luego guardarlos con

alguna de las siguientes extensiones: *.xls (Excel 97-2003), *.wks (Lotus), otros archivos de texto ASCII como *.txt y *.cvs. Una vez confeccionada la Tabla 12.1 y guardada con el nombre tabla11_1.xls, hay que asegurase de cerrarla y de que ningún programa la esté utilizando. En Eviews desde el menú File > Import > Read Text-Lotus-Excel (Archivo > Importar > Leer Texto-Lotus-Excel) se abre el cuadro de diálogo donde explorar hasta encontrar el archivo de la tabla.

Creación de un nuevo archivo

Tabla de Datos en Excel

576

Primero, hay que indicarle al programa como es el orden de los datos, estos que representan las filas de la planilla. En el caso de la tabla 12.1 las filas son las observaciones por lo que se marca la opción By Observation – series in columns. En Upper-left data cell, hay que indicar la celda a partir de la cual comienzan los datos propiamente dichos, o sea la celda B2, pues la columna A

contiene rótulos de observaciones, y la Fila 1 los rótulos para las variables. En names for series or number if named in file hay que detallar el nombre de las series de la tabla o bien indicar cuantas variables contiene la tabla, si deseamos que el programa importe los nombres originales. Para este ejercicio se puede escribir vdep vind1 vind2 para renombrar a Y, X1, X2 respectivamente. Si se han realizado bien todos los pasos, el workfile debería contener cinco observaciones y tres variables: vind1, vind2, vdep; además de reservar el

espacio para el vector de coeficientes estimados (c) y la serie de los residuos (resid). Una vez importados los datos es posible verificarlos seleccionado varios objetos y clickeando con el botón derecho del mouse elegir Open > as group.

El segundo método para incluir datos consiste en generar series mediante el menú Object > New

Object. Se debe especificar Type of Object: Series y un nombre. Una vez generados los objetos se abren en grupo o individualmente y presionando Edit +/-, es posible tipear los datos como si fuera un planilla de cálculo normal. Trabajando con los Datos Los Grupos abiertos pueden guardarse con un nombre para encontrarlos fácilmente después. Basta con seleccionar el botón Name y escribir el nombre deseado. Otras herramientas importantes con las que pueden trabajar dentro de la ventana del grupo se encuentran en el menú View. Así en Group Members obtienen el listado de variables que observan:

Edit series expressions below this line -- ' UpdateGroup' applies edits to Group. VIND1 VIND2 VDEP

Cuadro de Dialogo Crear Series

Cuadro de Dialogo para Importar datos

Cuadro de Dialogo: Grupo, editando Series

577

La opción Spreadsheet les permite volver a la planilla con los datos. La opción Graph les permite graficar los datos en un gran número de formas diferentes, pueden elegir el tipo de gráfico en la primera pestaña del cuadro de diálogo, y pueden cambiar el aspecto del gráfico en las pestañas restantes. Como ejemplo, escogen General: Basic Graph, dado que los datos no tienen estructura temporal, o al menos no lo sabemos puede ser

preferido ver los datos en forma de barras y no como curvas por eso eligen Specific: Bar, y para visualizar las tres series en un mismo gráfico eligen Multiple Series: Single Graph. Otra herramienta importante que debemos utilizar cuando comenzamos a trabajar con los datos son las estadísticas descriptivas. Haciendo View > Descriptive Stats > Common Sample (muestra común) el programa genera una tabla con las estadísticas para cada variable: Media (mean), mediana (median), máximo (máximum), mínimo (mínimum), desviación estándar (std. Dev.), asimetría (skewness), el estadístico Kurtosis, Jarque – Bera con su probabilidad, la suma y la suma de desvíos cuadráticos (sum sq. Dev).

También pueden efectuar Análisis de Covarianza (Covariance Analysis), el cual les permite visualizar la matriz de covarianzas, la matriz de correlación y asociar a estas la matriz de pruebas t para hipótesis de covarianza nula o independencia. Otro tipo de pruebas de hipótesis son los test de igualdad (test equality) para medias, medianas y varianzas a los que acceden a través del menú View. Análisis de Regresión Para realizar una explicación del comportamiento de la variable dependiente construimos el siguiente modelo

5,,2,1,21 21 iVindVindVdep iiii Se puede hallar el valor de los parámetros de la Regresión, usando Eviews en el menú Quick > Estimate Equation se abre el cuadro de diálogo en el cual se especifica la estimación escribiendo

nombredependiente c nombreexplicativa_1 nombreexplicativa_2 … nombreexplicativa_K

Graficando Series

578

El término c indica que debe calcular la constante de la regresión. En nuestro ejemplo corresponde

vdep c vind1 vind2 En Estimation settings se elige Last Square (Mínimos Cuadrados) y en Sample (muestra) se escribe 1 5, es decir desde la observación 1° a la 5°. Una vez que se acepta esta configuración se obtiene la “Salida” de la Estimación (Estimation Output).

El primer grupo de elementos de la salida indica la variable a explicar, el método empleado, la muestra considerada y la cantidad total de observaciones tenidas en cuenta, este último dato podría se menor que el tamaño de muestra pues podrían faltar datos o establecerse una especificación del modelo a estimar que imposibilitara utilizar todas las observaciones. El segundo grupo contiene la estimación de los coeficientes, sus errores estándar y la prueba t de significatividad correspondiente. El tercer grupo de información contiene estadísticos útiles para evaluar la bondad del ajuste de la regresión, la significatividad conjunta y la calidad de la estimación en cuanto al cumplimiento de los supuestos básicos del modelo lineal general. Finalmente, desde esta misma ventana de estimación pueden plotearse gráficos para la variables dependiente, los valores estimados y los errores de estimación. Para ello seleccionamos el menú View > Actual, Fitted, Residual > Actual, Fitted, Residual graph (gráfico real, estimado, y de residuos). Desde el mismo menú View se accede a los test y pruebas de hipótesis sobre el modelo estimado que estudiaremos a lo largo de la materia.

Cuadro de Dialogo: Estimar ecuación y Salida de la Regresión.

Grafico de la Variable, su estimación y los errores

579

Actividades Propuestas a) Realice todos los pasos comentados anteriormente para familiarizarse con

el manejo del software. b) Compare la información de la salida de la estimación, con los resultados

obtenidos a lo largo del Capítulo 12 en relación al ejemplo 12.5. c) Interprete con los conocimientos ya aprendidos y los que recuerda de

Inferencia Estadística el significado de la información contenida en la salida.

d) Localice en la Salida el estadístico

ee'

T

tteSCR

1

2

e) Repitiendo los pasos explicados en este caso, seleccione un modelo económico con el que haya trabajado teóricamente, especifique el modelo econométrico, busque los datos y estime un modelo de regresión lineal.

BIBLIOGRAFIA

Gujarati, D. (2004). "Econometría". 4° Edición. Mc.Graw Hill. México.

Johnston, J. Dinardo, J. (2001) "Métodos de Econometría". Editorial Vicens Vives. Barcelona.

Pyndick, R.S. y Rubinfeld. D.L. (2001) "Econometría, Modelos y Pronósticos". 4° Edición. Editorial McGraw Hill. México.

580

Capítulo 13. INFERENCIA ESTADÍSTICA EN EL MODELO LINEAL GENERAL .......................................................................................... 583

13.1. El coeficiente de determinación .................................................. 583 13.2. Inferencia ............................................................................... 586 13.3. El modelo en forma de desviaciones ............................................ 599 13.4. Predicción en el modelo lineal .................................................... 607

CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS .............................. 609

Caso 13.1: Cálculo de 2R ................................................................. 609

Caso 13.2: Modelo de Inversión de empresas españolas entre 1959-1971 609

BIBLIOGRAFIA ................................................................................. 612

582

583

Capítulo 13. INFERENCIA ESTADÍSTICA EN EL MODELO LINEAL GENERAL

13.1. El coeficiente de determinación

Una de las propiedades de la estimación MCO del modelo de regresión lineal es que, si el modelo posee término independiente, podemos realizar la siguiente descomposición de la varianza:

222

ttt

tt

tt

YYYYYY [1]

Que es lo mismo que decir: SCRSCESCT

Donde,

SCT , es la suma de cuadrados de la variable endógena o lo que es lo mismo, es el numerador de la varianza de tY y que se denominará

Suma de Cuadrados Totales;

SCE , es la Suma de Cuadrados Explicada por las variables exógenas;

SCR , es la Suma de Cuadrados de los Residuos de la regresión.

Basándonos en esta descomposición de la variabilidad de tY , se define el

coeficiente de determinación como una medida de la capacidad explicativa del modelo, es decir, de la bondad de ajuste:

SCT

SCR

YtYt

tet

YtYt

YtYtR

11

2

2

2

2

2 [2]

O lo que es lo mismo,

SCT

SCR

YTR

11

22

YY'

ee' [3]

Para demostrar esta igualdad, partimos de la suma del cuadrado de los residuos; teniendo en cuenta que, según definiciones estudiadas en el

584

capítulo anterior, el error (e) es la diferencia entre el valor observado (Y) y

el valor estimado ( βX ˆ ) se tiene

βXy'

βXyee' ˆˆ


βXX''ββXy'yX''βyy' ˆˆˆˆ

Se sabe, por demostraciones en el capítulo anterior, que eβXy ˆ ; reemplazando esta expresión en el segundo y tercer término se tiene

βXX''ββX'eβXeβXX''βyy' ˆˆˆ)ˆ()ˆ(ˆ

Aplicando la propiedad de traspuesta y eliminando paréntesis

βXX''ββXe'βXXβeX''ββXX''βyy' ˆˆˆˆˆˆˆˆ

Recordando que 0eX' , por lo que 0X' e , y simplificando la expresión

βXX''βyy'ee' ˆˆ

Pero yβX ˆˆ , por lo que

y'yyy'ee' ˆˆ [4]

eY

Y

X

Y

Restamos en ambos miembros 2YT y reordenando términos, obtenemos

SCESCRSCT

YTYT

22 ˆˆ y'yee'yy'

[5]

585

Por lo tanto,

2112

YTSCT

SCR

SCT

SCRSCT

SCT

SCER

yy'

ee' [6]

Este coeficiente mide el porcentaje de la variación de la variable endógena,

tY , que queda explicada en la regresión por la variación conjunta de las

variables exógenas, X .

Ejemplo 13.1. (datos del ejemplo 12.5)

124

5119880

124

51222 ..

.

SCT

SCER

Por lo tanto, la proporción de la variación de tY explicada por la

regresión lineal es de 0.988 ó el 98.8%.

El coeficiente 2R está comprendido entre 0 y 1.

Si 02 tt

e , entonces 12 R y el modelo estimado se ajustaría

perfectamente a los datos.

Por el contrario, si 22

tt

tt

eYY , el modelo de regresión no

explicaría nada de la variabilidad de tY 02 R .

Como conclusión, podemos decir que el modelo se ajusta mejor a los datos cuando más próximo está el coeficiente de determinación a la unidad.

El coeficiente de determinación, 2R , va a aumentar al añadir más regresores al modelo, sin que esto signifique que la nueva variable incluida, sea relevante para explicar el comportamiento de tY . Una medida que

posibilita analizar el número óptimo de variables a incorporar es el coeficiente de determinación corregido, que se define como:

11

11

22

2

2

T/YT

kT/

T/YY

kT/e

Rt

t

tt

yy'

ee' [7]

586

Donde las sumas cuadráticas (residual y total) se corrigen por los grados de libertad); éstos son los términos que penalizan la inclusión desmedida de regresores en el modelo.

La incorporación de variables en el modelo aporta el beneficio de incrementar el valor de 2R pero tiene el costo de disminuir los grados de libertad. Mientras el beneficio supere al costo, será conveniente incorporar nuevas variables; si el costo, en términos de grados de libertad, supera el beneficio de incorporar variables significa que ya no resulta conveniente la inclusión.

De esta forma, conforme aumentamos el número de regresores, no está claro cual va a ser la variación que experimente el coeficiente de determinación corregido.

Ejemplo 13.1.a Para el ejemplo

98304124

35112 .

/

/.R

Existen otros dos criterios para comparar el ajuste de varias especificaciones de acuerdo con el número de regresores utilizados:

Criterio de Schwarz: TlnT

k

TlnCS

ee' [8]

Criterio de Akaike: T

k

TlnCA

2

ee' [9]

Habitualmente se buscan especificaciones capaces de reducir la suma cuadrática de los residuos; sin embargo, todos los criterios llevan implícita una penalización que aumenta con el número de regresores.

13.2. Inferencia

Para contrastar determinadas hipótesis, sobre los parámetros del modelo de regresión, se utilizan estadísticos cuya distribución exacta, bajo la hipótesis nula, depende de la distribución de los estimadores de 2yβ .

De acuerdo a los supuestos establecidos sobre el modelo, se puede demostrar que para cualquier tamaño de muestra dado, las perturbaciones

t siguen distribuciones normales, independientemente distribuidas de

media cero y varianza constante 2 . De donde, podemos enunciar las

siguientes proposiciones.

587

Proposición 13.1. Bajo el supuesto de normalidad de las perturbaciones aleatorias t y, conociendo además, que X es una matriz no estocástica de

rango completo por columnas, k)( X , se tiene que β es un vector aleatorio con distribución normal variantek , ya que es función del vector

aleatorio normal ε . Por lo tanto, β se distribuye normal k-variante con

media β y varianza 1' XX2σ

1' XXββ 2,N~ˆ k [10]

Para demostrar esta importante proposición partamos del resultado conocido de que

εX'X)(X'ββ 1ˆ

Con lo que queda demostrada la primera parte. Pero sabemos también que

1' XXβV

ββ

2)ˆ(

)ˆ(E

Con lo cual β es estimador insesgado y óptimo.

Por lo tanto,

1' XXββ 2,N~ˆ

Tipificando, obtenemos

I0,

XX

ββ1'

N~ˆ

/ 212

[11]

Es decir, los k estimadores tienen una función de probabilidad normal multivariante

ββX)(X''ββ

X)(X'

β

1

1

ˆˆ2

1exp

2

1

)ˆ,,2ˆ,1

ˆ()ˆ(

122/122/ ε

εk

σσπ

kβββpp

[12]

588

Proposición 13.2. Sea el vector aleatorio β con distribución normal multivariante y sea R una matriz de orden qxk , con rango q)( R ,

entonces el vector βRˆ tiene una distribución normal varianteq con media

igual a Rβ y varianza igual a R'XXR1' 2

Corolario:

R'X'XR0ββR12

,qN~)ˆ( [13]

Si se tiene 1' XXββ2,~ˆ

εσN y una matriz kxqR donde qrango )(R

el producto de

RXXRRββR1' 2,~ˆ

εσN

de modo que

RXXRββR1' 2,0~ˆ

εq σN

Proposición 13.3. Si combinamos al vector de perturbaciones ε del

modelo, con distribución 2,Nt 0 , con una matriz simétrica e

idempotente M , entonces,

(a) 22 )M(gl~

Mεε'

(b) Sea N otra matriz idempotente y simétrica, las distribuciones 2

22 Nεε'Mεε'

y son independientes si y solo si 0NM

(c) Dada una matriz R de orden qxk , con rango q)( R ; el vector

aleatorio βRˆ , con distribución normal varianteq con media igual a Rβ y

589

varianza igual a R'XXR1' 2

, es independiente de 22 )M(gl~

Mεε'

, si y

solamente si 0MR

Corolarios: Así, de la parte (a) se puede decir que, sobre la base de demostraciones anteriores, Mεε'ee' , entonces,

22

2

2

22

2

21

kTt ~eee

, o bien, 22 kT~

ee' [14]

De esta última expresión y conociendo que el estimador de 2 es

kTS

ee'2 podemos establecer la importante

conclusión:

22

2

kT~S)kT(

[15]

Donde los grados de libertad se obtienen por el hecho de que MM tr)( , siendo M una matriz simétrica e idempotente con kTtr M .

Pero también, y teniendo en cuenta las tres partes de esta proposición, se tiene que

ntementeindependiendistribuyese2ee'

β yˆ .

Estas proposiciones son suficientes para establecer los procedimientos de inferencia para cualquier elemento del vector β o sobre alguna combinación lineal de los mismos. El objetivo es contrastar hipótesis sobre los coeficientes de regresión del modelo.

Nos vamos a restringir a aquellas hipótesis que se pueden expresar como combinaciones lineales de los coeficientes de regresión, β .

Las hipótesis que vamos a contrastar se pueden escribir, de forma general:

590

rRβ

rRβ

:H

:Ho

1

[16]

Donde:

R es una matriz de orden qxk , sus filas representan la cantidad de restricciones (q) y sus columnas la cantidad de parámetros (k) del modelo, siendo sus elementos los coeficientes que acompañan a los parámetros a contrastar.

qR )( , viene dado por el número de restricciones sobre los parámetros que estamos contrastando

r , vector de tamaño qx1, con 1q .

R es una matriz tal que

El estadístico de contraste se determina de acuerdo a las proposiciones anteriores. Así, por [13] sabemos que

R'X'XR0ββR12

,qN~)ˆ(

Planteando la hipótesis nula rRβ , y reemplazando en β)βR( ˆ se tiene que

rβRRββRβ)βR( ˆˆˆ

con lo cual

R'X'XR0rβR1

2,N~ˆ

q

Asimismo, por la proposición 13.3 y tipificando la variable aleatoria rβR ˆ se tiene que

21

2q~)()( ˆˆ rβRR'X'XRrβR

1

'

[17]

Es decir, se distribuye como una chi cuadrado con grados de libertad igual al número de restricciones (e igual al rango de la matriz R ).

591

El problema habitual es que 2 es desconocido; pero, utilizando la

propiedad 22 kT~

ee', se estima a partir de

kTs

ee'2

Finalmente, el estadístico que se obtiene es

kT,qF~kT/

q/ˆˆ

FH

0

ee'

rβR'RX'XR'rβR

11

[18]

Que bajo la hipótesis nula sigue una distribución F de Snedecor, cuyos grados de libertad vienen dados por el número de restricciones q , y kT , donde T , es el número de observaciones y k el número de coeficientes estimados.

A este procedimiento se lo conoce como test de restricciones lineales y permite contrastar cualquier conjunto de restricciones lineales sobre los parámetros.

Decidiremos rechazar la hipótesis nula rRβ :Ho , con un nivel de

significación , cuando el valor muestral del estadístico F , sea mayor que la ordenada de la distribución kT,qF que deja a la derecha, una

probabilidad , es decir, si:

kT,q;FF

Ejemplo 13.1.b. Con los datos del ejemplo 12.5 se va a contrastar el conjunto de las hipótesis

1,0

5,1:

3

20 β

βH

El modelo definido en el ejemplo 12.5 es

niεXβXββY iiii ,,1;33221

592

La matriz R y el vector r se construyen de la siguiente manera:

1,0

5,1

100

01012132

321

xqx

βββ

xqxk

β

rR

nesrestricciolasendeescoeficient i

De acuerdo a [16], la hipótesis nula se define

rR βH :0

esto es

1,0

5,1

100

010

3

2

1

β

β

β

El contraste de esta hipótesis se realiza con la expresión [18], para lo

cual comencemos por resolver rR β .

En el ejemplo 12.5

30,0

82,1

01,0

β

por lo que

4,0

32,0

1,0

5,1

30,0

82,1

1,0

5,1

30,0

82,1

01,0

100

010ˆ rRβ

En el ejemplo 12.5.d se tiene el resultado de 1XX

20045660

4556332

6603323279

1835

11XX

De modo que RXXR 1 será

10

01

00

20045660

4556332

6603323279

1835

1

100

0101RXXR

10899,002452,0

02452,003052,01RXXR

593

Ahora debemos calcular la inversa de RXXR 1 , para lo cual se dbee calcular el determinante y la matriz adjunta:

RXXRRXXR

RXXR

1

1

11 1Adj

resolviendo, 00273,010899,002452,0

02452,00302,01 RXXR

0302,002452,0

02452,010899,01RXXRAdj

por lo que

179487,11981685,8

981685,89231,39

0302,002452,0

02452,010899,0

00273,0

111RXXR

Entonces

577532,34,0

32,05976556,1182718,9

4,0

32,0

179487,11981685,8

981685,89231,394,032,0ˆˆ 11

rRRXXRrR ββ

De acuerdo al Ejemplo 12.5.f, 68,0ee En síntesis:

577532,3ˆˆ 11

rRRXXRrR ββ

68,0ee q=2

235 knkT El estadístico F expresado en [18] es

261076,5

268,0

2577532,3

/

/ˆˆ

kT

qF

ee'

rβR'RX'XR'rβR

11

El valor teórico de 19

95,0;2,2F ,

por lo que 95,0;2,2

FF

entonces se acepta la hipótesis nula: 5,12 β y 1,03 β .

594

Nos centraremos, a continuación, en dos casos particulares.

1- Contraste de la significación conjunta del modelo de regresión, es decir, si cambios en las variables explicativas X nos ayudan, en conjunto, a explicar la variable endógena y .

La hipótesis nula, es:

cumplesenoigualdadeslasdealguna:0:

1

320

HβββH k [19]

Y la matriz R de orden 1)xk(k y el vector r , de orden 1)(k del estadístico1, son en este caso:

0

0

0

0

10000

01000

00100

00010

.

r

.....

R

Es interesante señalar que esta hipótesis nula, no incluye el coeficiente relacionado con el término independiente de la regresión 1 . De hecho,

aunque todos los coeficientes k,,, 32 no fueran estadísticamente

distintos de cero, el término independiente 1 recogería

aproximadamente la media de la variable endógena y podría ser distinto de cero.

El conjunto de hipótesis de [19] puede contrastarse en función del coeficiente de determinación como:

k-T1,-kF0

2

2

1

1 H

~kT/R

k/RF

[20]

Si el valor del estadístico F , es superior a la ordenada k-T1,-kF ;

concluiremos que las variables k2 ,, XX , conjuntamente, tienen un efecto significativamente distinto de cero a la hora de explicar la variable dependiente.

1 k-1 es el número de restricciones (q); estas restricciones representan a las variables explicativas del modelo, dejando a un lado el término constante.

595

2.- Si la hipótesis que deseamos contrastar, se refiere al valor de un solo coeficiente, la hipótesis nula, es del tipo:

01

0

:

:0

i

i

ββH

ββH

i

i

[21]

La matriz R del estadístico sería un vector 1xk de la forma ),,,,( 010 , con el 1 ocupando la posición ésimai , mientras que el

vector r , vendría dado por el escalar 0i .

El estadístico de contraste, toma la forma:

k-T1,F

0

2

20

H

ii

ii ~aˆ

ˆF

O equivalentemente, ya que F es igual a 2t :

k-Tt0

210

H

/ii

ii ~aˆ

ˆt

Donde

iia es el elemento ésimoi de la diagonal principal de la matriz

1)X'X( ,

22

iîi Saˆ es la varianza estimada del estimador i ; y

kTt denota la distribución t de student de kT grados de libertad.

k-T

0

2/10 t~

ˆ Hii

iia

kT

ee

ββt

[22]

En el caso particular de que 00 i , se está contrastando la significación

individual de la variable explicativa tX .

La hipótesis nula del contraste, es que el efecto marginal de un cambio en tX sobre el valor medio de tY , es nulo:

596

0

0

1

0

iH

H i

El estadístico de contraste, toma la forma:

k-Tt0

21

H

/i ~ˆ

tiiaS

Rechazaremos la hipótesis nula a un nivel de significación , si:

kT

iˆSiˆ

/2;t

Donde: kT /2;t , es la ordenada de la distribución t de student de kT

grados de libertad, que deja a la derecha una probabilidad de 2/ .

Ejemplo 13.1.d Veremos ahora como comprobar la significatividad individual de las variables Las hipótesis, para el Ejemplo 12.5, son

0:

0

21

2:0

βH

βH

0:

0:

31

30

βH

βH

Teniendo en cuenta los resultados alcanzados en 12.5.d y 12.5.g, los estadísticos respectivos serán

26,1801.0

082,1 t 5,104.0

030,0 t

El valor teórico de t para 2 grados de libertad y un nivel de confianza de 0,95 es

303,495,0;2 t

2β es significativamente distinto de cero, por lo que la variable 2X

es significativa; mientras que, 3β es estadísticamente igual a cero,

por lo que la variable 3X en el modelo es irrelevante.

597

En general, y en este ejemplo en particular, podríamos armar la tabla de análisis de la varianza para definir el estadístico F . Plantea inicialmente la Tabla teórica y luego complétala con los datos del ejemplo que venimos desarrollando:

Fuente de variación

Suma de cuadrados

Grados de libertad

Media de suma de cuadrados

X SCE Residuos SCR

Total SCT Tabla 12.1. Análisis de la varianza para la regresión


Suma de cuadrados

Grados de libertad

Media de suma de cuadrados

X

Residuos Total

Tabla 13.2. Análisis de la varianza para la regresión (datos del ejemplo) Ahora calcula el estadístico F:

kTSCRkSCE

kTRkR

F/

1/

/1

1/2

2

Para ilustrar aún más la relación entre las distribuciones, recordemos que de acuerdo con la proposición 13.1. el estimador de cualquier parámetro de la relación lineal sigue una distribución normal univariante, dada por

)a,(Nîiii ~ 2

Donde, como antes, iia es el elemento ésimoi de la diagonal principal de

la matriz 1)X'X( . Así,

),(N~

iia

iiˆ

10

Y según el corolario de la proposición 13.3.

598

22

2

kT~S)kT(

Por lo que si definimos el estadístico t ,

kT

kTS:

iia

iiˆ

t

Nos queda

k,,i;kTt~

iiaS

iiˆ

t 1

Ejemplo 13.2 Para estimar el modelo 9014433221 ,,t;XXXY ttttt

Se dispone de las matrices

2

1

2

3

4340

3422

4263

0235

yX';X)(X' 1

Se conoce además que: 8090

1

2

t

tYY'Y

y que la estimación MCO del modelo de regresión lineal es

t).(

t).(

t).().(

t XXXY 441

341

27161

312711

Donde entre paréntesis se informa del desvío estándar de cada estimador. Con esta información se solicita lo siguiente: a) Calcular la SCR b) Contrastar la significatividad individual de cada una de las variables del modelo.

599

c) Contrastar la significatividad conjunta de las variables del modelo d) Contrastar la restricción lineal sobre el modelo, expresada en la siguiente hipótesis, a un nivel de confianza de 0.95, 32 230 `H

Los apartados a), b) y c) se dejan como ejercicio al lector. Para contrastar la hipótesis formulada en el apartado d) debemos definir las siguientes matrices, realizar y comprobar los cálculos correspondientes

30120 rR

52

2

1

520

15

.

)()(

kT/

q/ˆˆ

F

ee'

rβR'RX'XR'

rβR11

Para el nivel de confianza establecido ¿los coeficientes 23 ,

satisfacen la restricción lineal planteada?

13.3. El modelo en forma de desviaciones

Comencemos este tema con una observación. Algunos autores informan que el coeficiente de determinación varía en el intervalo ],[ 10 siempre y cuando el modelo lineal tenga coeficiente o término independiente. No estamos de acuerdo con esta afirmación habida cuenta de que el modelo de regresión lineal siempre tiene término independiente excepto cuando se formula en forma de desviaciones (o variables desvíos), pero aún en este caso el coeficiente 2R está comprendido entre 0 y 1.

Observación: Decimos lo anterior ya que el estimador MCO del modelo de regresión lineal es, como hemos demostrado, el mejor estimador lineal, insesgado y óptimo. La última propiedad dice que es el de menor varianza de entre todos los estimadores insesgados posibles. Esto, como vamos a ver, se mantiene si el modelo se formula en forma de desviaciones, pero es falso cuando el modelo se formula sin término independiente.

Demostremos esta cuestión utilizando la regla del absurdo. Es decir, definamos nuestro modelo sin término independiente,

T,,t;XXXY tktkttt 13322

600

En este caso, la diferencia entre este modelo y el formulado habitualmente es el término 1 , por lo que podríamos expresar el modelo sin término independiente de la siguiente forma:

T,,t;XXXXXY ttktktttt 111332211

Donde tX1 es un vector de unos, 1xT , por lo que

111 βXβ

1

1

1

Se puede demostrar que el estimador del modelo reformulado es

)ˆ(ˆ1

1 βyX'X`Xβ

Este estimador es insesgado solo si 11 ββ )ˆ(E

Partiendo de este supuesto, la varianza de este estimador es

)ˆ()ˆ(V)ˆ( βVβX`XβV 1

12

Es decir, no es un estimador óptimo y por lo tanto demás esta referirse al coeficiente de determinación del mismo como una cuestión general dentro de la teoría econométrica, que deba tenerse presente a la hora de estimar un modelo.

Por lo tanto, hasta el momento, la única forma de especificar un modelo econométrico, para su posterior estimación, es la generalmente aceptada o la presentación en forma de desviaciones de las variables con respecto a sus medias aritméticas, cuestión que analizaremos seguidamente.

Supongamos, ahora, que deseamos realizar una estimación sin término independiente, para ello especificamos el modelo en forma de desviaciones de la siguiente manera

T,,t;xxxy tktkttt 13322

601

Donde las letras minúsculas representan variables desvíos respecto a su media, es decir:

0

)(E;

k;XXx

YYy

ttt

ktkt

tt

queya

Se utiliza, generalmente, para estimar el modelo en dos etapas. En la primera se estiman los coeficientes de regresión – que coinciden con los estimados en la regresión habitual - y en la segunda etapa la ordenada al origen, término o coeficiente independiente.

Se puede escribir matricialmente como

εβAXAy 22

Donde

ii'IA

T1

; siendo A una matriz de transformación, simétrica e

idempotente, e i un vector de T unos

Ay , es el vector endógeno representado en forma de desviaciones

AX , es la matriz de variables explicativas en forma de desviaciones

2β , es el vector de los coeficientes del modelo (sin ordenada al origen)

εAε

0Ai , en general premultiplicando por A cualquier vector cuyos elementos sean idénticos, da como resulta el vector nulo

Por lo tanto,

111

111

111

1

100

010

001

1

TTii'IA

Las variables del modelo sufren una transformación, por ejemplo para el caso de la variable endógena, tenemos

602

YT

Y

Y

Y

T

yi'y12

1

Entonces,

YY

YY

YY

Y

T

2

1

iyAy

Lo mismo se puede realizar con cada una de las variables exógenas del modelo. Por lo que el modelo estimado se puede escribir como:

eβAXAy 22 ˆ

Observación: Para demostrar esta última igualdad partamos del hecho de que el estimador MCO β y el vector de residuos están ligados por

eβXy ˆ .

Si realizamos la partición de la matriz X como

]X[xX 21

Donde

1x , es un vector columna de unos

2X , es la matriz 1)Tx(k de observaciones de las variables kX,,X,X 32

Entonces podemos reescribir la relación entre el estimador y el vector de residuos de la siguiente manera

eβXxy 2211ˆβ

Con lo que,

2

βˆ

ˆˆ 1

603

Premultiplicando por A da,

eβAXAy 22 ˆ

Con lo que queda demostrado (en la última expresión, hemos usado el resultado general: cualquier vector cuyos elementos sean idénticos premultiplicado por A es igual al vector nulo).

Con este resultado a la vista podemos reescribir el modelo en forma de desviaciones como

eβXy 2ˆ

dd

Donde los subíndices nos indican que el modelo esta expresado en forma de desviaciones con respecto a la media. Como 0eX' , resulta que

0eX' d . Por lo que premultiplicando el modelo en forma de desviaciones

por dX' se obtiene

2βXX'yX' ˆ)( dddd [23]

Que son las conocidas ecuaciones normales, excepto que los datos están en forma de desviaciones y que el vector de estimadores incluye solo los coeficientes de la pendiente y excluye el término independiente. Para obtener este último, luego del proceso de estimación, podríamos

premultiplicar eβXy ˆ por i'T1

, lo que da

k

kXXXY

2

1

321

donde, kk XˆXˆXˆYˆ 33221 [24]

También podríamos expresar la descomposición de la suma de cuadrados como,

604

SCRSCESCT

ˆˆ

ee'βXX''βyy' 2dd2dd

El coeficiente de correlación múltiple, R , se define como la raíz cuadrada positiva de

dd

2dd2

yy'

βXX''β ˆˆ

SCT

SCER 2 [25]

Ejemplo 13.3 Con los siguientes datos muestrales, en forma de desviaciones, realice la estimación y obtenga los coeficientes de determinación y de correlación múltiple y los coeficientes de correlación parcial del modelo

51332211 ,,t;XXXY ttttt

11

11

12

12

00

1

1

4

3

1

dd X;y

Demuestre que las ecuaciones normales son

9

16

46

610

3

2

ˆ

ˆ

Luego obtenga la solución para el vector de estimadores. Partiendo del vector dy compruebe que la suma de cuadrados

totales es igual a 28. Obtenga la suma de cuadrado residual, la suma de cuadrados explicada, el coeficiente de determinación corregido y el coeficiente de correlación múltiple. Las correlaciones parciales cobran importancia en caso de dos o más regresores. Si trabajamos los datos en forma de desviaciones podemos calcular el residuo parcial de la regresión entre la variable dependiente y, supongamos, 3X , de la siguiente manera:

333

xyxˆyyxe ,

605

donde

23

3

3 x

xyyx ,

se denomina coeficiente de regresión parcial, en este caso entre

3XY y .

El coeficiente de correlación parcial, entre 3XY y , se define como

el cociente de correlación entre ambos conjunto de residuos. Se indica como

.r

XYX 23.

Su cálculo se realiza mediante la siguientes expresión:

22

32

23232

32

11 XXYX

XXYXYX

XYX rr

rrr

.r

De manera similar podemos calcular

.r

XYX 32.

El primero mide la asociación entre 3XY y una vez eliminada la

influencia ejercida por 2X , mientras que el segundo mide la

asociación entre 32 XX y cuando desaparece cualquier efecto que

pueda ejercer la variable endógena. Los coeficientes de correlación simple como

32,, 32 XXYXYX rrr se

suelen denominar coeficientes de orden cero, mientras que los coeficientes de correlación parcial reciben el nombre de coeficientes de primer orden. Realice el cálculo con los datos del ejemplo. ¿Podría llegarse al mismo resultado si en lugar de los coeficientes de correlación simple usáramos los residuos parciales?. Compruébelo. Con los datos del ejemplo, también podemos calcular la suma de cuadrados totales en forma secuencial. De la siguiente manera:


Suma de cuadrados


Suma de cuadrados

2X 22

2yYXr

3X 22

3yYXr

Incremento debido a 3X

22

21

23

2 yYXr.XYXr

Incremento

debido a 2X

22

31

32

2 yYXr.XYXr

2X y 3X 22 yR 2X y 3X 22 yR

Residuos 2)21( yR

Residuos 2)21( yR

606

Reemplace las fórmulas por números y obtenga el resultado correspondiente. También compruebe que las sumas de cuadrados explicada, totales y residuales coinciden con los resultados anteriores. Cuando hay dos o más variables explicativas, no existe modo de determinar la importancia relativa que cada una de las variables tiene para explicar las variaciones de Y . Kruskal (1987) considera varios métodos para evaluar la importancia de las distintas variables explicativas2. Su propuesta se centra en el interés en el promedio de los cuadrados de los coeficientes de correlación simple y parcial sobre los distintos momentos posibles de introducir las variables explicativas. En cada etapa, los coeficientes de correlación al cuadrado relevantes indican la proporción de varianza explicada por una variable X específica. Con los datos del ejemplo, tenemos Proporción media para 2

2322

2 2/.rrX XYXYX

Proporción media para 232

223 3

/.rrX XYXYX

Obtenga dichos valores y demuestre que según los coeficientes medios de Kruskal, en nuestro ejemplo, el papel de 2X es más

importante que el de 3X a la hora de determinar Y .

Una forma alternativa de ver las contribuciones individuales, fue introducida por Tinbergen en su diagrama utilizado en el estudio de los ciclos de negocios3. Trabajando con los datos del ejemplo y las variables en forma de desvíos realice cuatro gráficos. En el primero dibuje lo valores de y con los valores de y (compare estos gráficos con los que hubiera obtenido desde las relativas cíclicas e irregulares); en el segundo dibuje 22x ; en el tercero

33x y finalmente grafique los residuos de la regresión. Llega

Tinbergen a la misma conclusión que Kruskal. ¿Porqué?.

2 Kruskal, W. “Relative importante by Averagin over Orderings”. The American Statiscian, 1987. 3 Tinbergen, J. “Bussiness Cycles in the United Status of America, 1919 – 1932. League of Nations, 1939.

607

13.4. Predicción en el modelo lineal

Una vez estimado el modelo con los datos de la muestra disponible, uno de nuestros objetivos, es utilizarlo para hacer predicciones sobre los valores futuros de la variable endógena Y .

Para que el modelo estimado sea adecuado para predecir valores futuros de Y , hemos de suponer que la relación lineal entre Y y X se mantiene también en el período de predicción.

Bajo este supuesto de estabilidad y dados unos valores conocidos de las variables exógenas en el período de predicción, Px , la predicción por punto

de PY , será:

βx'p ˆYp [26]

Este predictor es lineal, ya que es una combinación lineal de las observaciones Y .

El error de predicción correspondiente, es:

pp uˆYYe ββx'ppp [27]

Este error de predicción incluye dos componentes, uno relacionado con el error en la estimación de β y otro inherente a la parte estocástica del modelo.

Bajo los supuestos habituales se tiene que el error de predicción sigue una distribución normal con media:

0uÊeE pp ββx'p [28]

Por lo que el predictor PY es insesgado.

En cuanto a su varianza:

p

1''p xXXx122 e [29]

El intervalo de confianza 1 para PY , será:

11P

212

kT

/

ˆˆp

1''p

'p xXXxβx /2t [30]

608

Este intervalo de confianza es aleatorio, ya que depende de los estimadores

β y 2 .

Si contáramos con 100 muestras diferentes, podríamos construir 100 intervalos de confianza, de los cuales 1 contendrían el verdadero valor de PY .

Ejemplo 13.1.e Supongamos, para los datos suministrados en el Ejemplo 12.5, que queremos un intervalo de confianza del 95 por

ciento para 1ˆtY dado 81,2 tX , 41,3 tX ; el intervalo sería:

4

8

1

1089,00245,03597,0

0245,00305,01869,0

3597,01869,07869,1

]481[134.0303,4

30,0

82,1

01,0

481

Calcula el valor de los límites del intervalo

A veces no estamos interesados en predecir tanto el valor futuro de la variable endógena PY como su valor )Y(E P . La predicción por punto es, operativamente, similar a la expresada en [26]:

βx'ppˆYE [31]

Y el error de predicción asociado:

ββxβxβx 'p

'p

'p

ˆˆYEYEV ppp [32]

p

1''p xXXx

22 V [33]

Este error de predicción, es debido solamente al error en la estimación de β , por lo que 22

ev y el intervalo de predicción para )Y(E P :

1P21

2kT

/

ˆˆp

1''p

'p xXXxβx /2t [34]

Va a ser más estrecho que el que correspondía a la variable endógena, PY .

609

Ejemplo 13.1.f Para los datos del Ejemplo 12.5, calcula el intervalo de confianza


Caso 13.1: Cálculo de 2R

Utilice la información que se suministra para el cálculo de 2R .

132100y322000x205500xy1110Y1700X 22

Caso 13.2: Modelo de Inversión de empresas españolas entre 1959-1971

Sobre la base de la información que se adjunta, se pide: a) Cálculo del desvío estándar de la regresión b) Cálculo del desvío de 1 c) Cálculo del coeficiente de determinación d) Contraste 554 , nivel de confianza de 0.95 e) Se supone que la utilización de la capacidad productiva en 1972 se

ubicará en sus niveles medios; mientras que se espera una reducción del 10% en los niveles de cash flow y capital, y del 5% en los niveles de renta y rendimiento de las obligaciones. En este contexto, ¿cuál es el valor esperado para la inversión?

610

Tabla de datos obs CAPITAL CASHFLOW INVER RENDOBLI RENTA UCP

1958 989.2 88.4 6.7583 964.6 1959 1032.9 82.8 87.3 6.9422 943.8 78 1960 1088.4 90.2 98.8 6.95 951.8 74.7 1961 1154.6 103.9 114.2 6.945 1059.3 80 1962 1240.4 115.3 136.6 5.9379 1161.9 83.2 1963 1345.3 115.7 159.3 6.1638 1272.1 85.21 1964 1461.3 126.6 176.2 5.9756 1355.3 84.9 1965 1611.7 138.6 220.2 5.9787 1457.9 84 1966 1778.9 155 250.3 6.2188 1569.1 83 1967 1943.6 150.9 261.2 6.3087 1639 80 1968 2111.3 178.9 271.8 6.4047 1733.2 80.5 1969 2297.4 192.6 303.6 7.1207 1849.6 83.75 1970 2484.7 210.9 317.3 7.558 1957.6 83.75 1971 2647.8 234.4 305 8.6722 2053.3 82.2

Descripción de las variables

CAPITAL CASHFLOW INVER RENDOBLI RENTA UCP Mean 1656.250 141.7286 207.8308 6.709614 1426.321 81.78538 Median 1536.500 132.6000 220.2000 6.581500 1406.600 83.00000 Maximum 2647.800 234.4000 317.3000 8.672200 2053.300 85.21000 Minimum 989.2000 82.80000 87.30000 5.937900 943.8000 74.70000 Std. Dev. 561.7621 47.73313 83.21946 0.753005 384.3025 3.031231 Skewness 0.436316 0.532956 -0.116699 1.245159 0.174604 -1.003863 Kurtosis 1.841288 2.162788 1.518098 4.252310 1.715203 3.251134

Jarque-Bera 1.227392 1.071638 1.219026 4.532479 1.034046 2.217600 Probability 0.541346 0.585190 0.543616 0.103701 0.596293 0.329955

Sum 23187.50 1984.200 2701.800 93.93460 19968.50 1063.210 Sum Sq. Dev. 4102496. 29619.87 83105.75 7.371223 1919949. 110.2603

Observations 14 14 13 14 14 13

Especificación del modelo:

t1t541t31t2t10t KROCFYCI

donde: INVERIt Inversión en miles de millones de pesetas de 1969

UCPC Utilización de la capacidad productiva del periodo en % RENTAY =Renta en miles de millones de pesetas de 1969

CASHFLOWCF Cash-flow de las empresas en miles de millones de pesetas de 1969

RENDOBLIRO Rendimiento de las obligaciones en % CAPITALK Stock de capital en miles de millones de pesetas de

1969

611

800

1200

1600

2000

2400

2800

1958 1960 1962 1964 1966 1968 1970

CAPITAL

80

120

160

200

240

1958 1960 1962 1964 1966 1968 1970

CASHFLOW

80

120

160

200

240

280

320

1958 1960 1962 1964 1966 1968 1970

INVER

5.5

6.0

6.5

7.0

7.5

8.0

8.5

9.0

1958 1960 1962 1964 1966 1968 1970

RENDOBLI

800

1000

1200

1400

1600

1800

2000

2200

1958 1960 1962 1964 1966 1968 1970

RENTA

74

76

78

80

82

84

86

1958 1960 1962 1964 1966 1968 1970

UCP

Matriz inversa de X´X

CAPITAL CASHFLOW RENDOBLI RENTA UCP 305,581292 0,02607461 0,9307289 -14,0134991 -0,12074648 -2,58732386 CAPITAL 0,02607461 5,8854E-05 -0,00012317 -0,00380121 -6,5333E-05 0,00015946 CASHFLOW 0,9307289 -0,00012317 0,0058293 -0,04112714 -0,00042482 -0,00806403 RENDOBLI -14,0134991 -0,00380121 -0,04112714 0,92270685 0,00879191 0,08866388 RENTA -0,12074648 -6,5333E-05 -0,00042482 0,00879191 0,00013049 0,00051801 UCP -2,58732386 0,00015946 -0,00806403 0,08866388 0,00051801 0,02582799

612

Estimación del modelo de inversión

Dependent Variable: INVER Method: Least Squares Date: 09/04/06 Time: 10:54 Sample(adjusted): 1959 1971 Included observations: 13 after adjusting endpoints

Variable Coefficient Std. Error t-Statistic Prob.

C 142.6521 235.0748 0.606837 0.5631 UCP -0.634780 2.161166 -0.293721 0.7775

RENTA(-1) 0.075908 0.153615 0.494142 0.6363 CASHFLOW(-1) 0.281594 1.026718 0.274267 0.7918

RENDOBLI -30.10861 12.91739 -2.330860 0.0525 CAPITAL(-1) 0.111703 0.103164 1.082771 0.3148

R-squared 0.984768 Mean dependent var 207.8308 Adjusted R-squared 0.973888 S.D. dependent var 83.21946 S.E. of regression 13.44754 Akaike info criterion 8.339507 Sum squared resid 1265.854 Schwarz criterion 8.600253 Log likelihood -48.20679 F-statistic 90.51270 Durbin-Watson stat 2.130300 Prob(F-statistic) 0.000003

Matriz de varianzas y covarianzas de los coeficientes C UCP RENTA(-1) CASHFLOW(-1) RENDOBLI CAPITAL(-1) C 55260.1809 -467.88199 -21.8353 168.30954 -2534.14890 4.71523 UCP -467.8819 4.6706 0.09367 -1.45827 16.03364 0.028837 RENTA(-1) -21.8353 0.0937 0.02359 -0.07682 1.58989 -0.011815 CASHFLOW(-1) 168.3095 -1.4583 -0.07682 1.05415 -7.437279 -0.022273 RENDOBLI -2534.1489 16.0336 1.58989 -7.437279 166.8588 -0.687395 CAPITAL(-1) 4.7152 0.0288 -0.01181 -0.02227 -0.68739 0.01064

BIBLIOGRAFIA


Kruskal, W. “Relative importante by Averagin over Orderings”. The American Statiscian, 1987.

Novales, A. (1993) "Econometría". Editorial McGraw Hill. Madrid.

Pulido, A. (1989). "Modelos Econométricos". Editorial Pirámide. Madrid.

Tinbergen, J. “Bussiness Cycles in the United Status of America, 1919 – 1932. League of Nations, 1939.

Capítulo 14. EXTENSIONES AL MODELO DE REGRESIÓN LINEAL ............................................................................................... 615

14.1 Introducción ........................................................... 615 14.2. Variables ficticias y cambio estructural ....................... 616 14.3. Multicolinealidad ..................................................... 624

Detección de la Multicolinealidad .................................... 626 Consecuencias de la multicolinealidad ............................. 627 Solución para modelos con multicolinealidad .................... 628

14.4. Error de especificación ............................................ 638

Omisión de variables relevantes ..................................... 639 Inclusión de variables irrelevantes .................................. 641 Pruebas de errores de especificación. .............................. 642

CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS ...................... 643

Problema 14.1: Componentes principales ........................... 643 Caso 14.1: Determinantes del consumo ............................. 644 Caso 14.2: Regresión en componentes principales ............... 646

BIBLIOGRAFIA ........................................................................ 654

614

615

Capítulo 14. EXTENSIONES AL MODELO DE REGRESIÓN

LINEAL

14.1 Introducción

Una vez estimado el modelo de regresión tendremos que contrastar diferentes hipótesis sobre su especificación y sobre los residuos del modelo, con la finalidad de realizar el mejor ajuste posible de acuerdo con los datos que sobre las variables involucradas fueron utilizados, en un espacio y tiempo determinado. Los problemas que pueden surgir, luego de la estimación, se pueden referir, por un lado, a cambio estructural, error de especificación y multicolinealidad y por el otro a violación de algunos de los supuestos sobre los residuos. En este capítulo nos ocuparemos de las primeras causas de problemas, en el próximo abordaremos el análisis de los residuos.

A modo de síntesis podemos decir que vamos a contrastar, por un lado, hipótesis de linealidad, cambio estructural, omisión de variables relevantes o inclusión de variables irrelevantes, multicolinealidad y por el otro, normalidad, homocedasticidad, no autocorrelación.

Los problemas en la especificación pueden deberse a:

1) Cambio estructural

La posibilidad de que los parámetros varíen entre distintos sub períodos de tiempo o entre distintos grupos de individuos, dentro de la muestra considerada. Dado que uno de los supuestos del modelo de regresión, es la constancia de los parámetros en todo el periodo de medición o para la totalidad de la muestra considerada, sería interesante contrastar la existencia de cambios en los coeficientes del modelo, es decir, de un cambio en la estructura del mismo.

La introducción como variable explicativa en el modelo de factores que, o bien no son cuantificables por naturaleza, como el sexo, la profesión, el nivel de estudios, etc. O bien de forma discreta, como, por ejemplo, la renta o la edad definida por intervalos.

616

2) Error de especificación

La elección del conjunto de variables explicativas del modelo y los efectos que puede tener sobre la estimación MCO de los parámetros una mala elección de las mismas, bien sea porque omitimos variables que son relevantes (omisión de variables relevantes) o porque incluimos variables que no lo son (inclusión de variables irrelevantes).

También puede existir la posibilidad de que la relación estimada no sea lineal, es decir, las variables incluidas en el modelo son las correctas pero la relación lineal entre ellas no es la adecuada. La presencia de no linealidades hace que los residuos muestren tendencias que indican su falta de aleatoriedad.

3) Multicolinealidad

Al especificar el modelo suponíamos que las variables exógenas eran linealmente independientes, esta hipótesis se denomina hipótesis de independencia y cuando no se cumple decimos que el modelo presenta multicolinealidad.

Problemas en la identificación de los parámetros del modelo. Estos problemas pueden provenir, por un lado, de especificar el modelo de manera tal que no se pueden estimar de forma única todos sus parámetros y, por otro, de que las características de la información muestral disponible, no permitan estimar con precisión los parámetros.

14.2. Variables ficticias y cambio estructural

Se denomina variable ficticia, en general, a una variable que se construye artificialmente para recoger en el modelo, ciertos aspectos importantes que expliquen el comportamiento de la variable dependiente y que son de carácter discreto o cualitativo.

La incorporación de estas últimas en el modelo se realiza a través de variables dicótomas, que asumen el valor 1 si esta se presenta o 0 si no se presenta.

Una variables cualitativa puede tener m categorías pero en el modelo deben definirse m-1 variables ficticias.

Si se definen tantas variables ficticias como categorías tenga la variable cualitativa a estudiar, se estaría en presencia de la trampa de

617

las variables ficticias por la cual existe una combinación lineal entre la suma de las variables ficticia (F) y la intersección.

Supongamos una variable cualitativa XCL que tiene m categorías, esto nos lleva a definir:

1

1

0

11

XCLcuando

XCLcuandoF

2

2

0

12

XCLcuando

XCLcuandoF

1

1

0

1)1(

mXCLcuando

mXCLcuandomF

Sea REG1 el conjunto de departamentos que tienen un IDHR mayor o igual a la media, y REG2, el conjunto de regiones con IDHR inferior.

Si la región i–ésima pertenece a REG1, su función de consumo sería:

1)(

11medioIDHR

IDHRiREGiNBIRC i

iiii

Mientras que, si una región pertenece a REG2, su ecuación de consumo sería:

122

)medio(IDHR

IDHRiREGiNBIRC i

iiii

De esta forma se permite que los valores de los parámetros de la función de consumo varíen de unas regiones a otras, es decir, que la estructura de la función de consumo, sea distinta para cada tipo de región.

618

Tabla 14.1. Regiones de Córdoba

Regiones PBG Población Consumo IDHR NBI F Calamuchita 466189 46870 294029.84 0.793 15.06 0

Capital 9273055 1306725 8197419 0.786 12.2 0

Colón 1271521 182028 1141909.5 0.807 16.36 0

Cruz del Eje 289040 52906 331895.61 0.518 29.16 1

General Roca 476036 33415 209621.89 0.83 15.27 0

General San Martín 1180969 118429 742937.43 0.813 9.96 0

Ischilín 205080 30471 191153.63 0.602 21.08 1

Juárez Celman 1382524 88997 558304.13 0.805 9.82 0

Marcos Juárez 1539693 100200 628579.97 0.871 8.8 0

Minas 26750 4897 30722.42 0.42 39.46 1

Pocho 26712 5147 32289.29 0.404 40.77 1

Pte. R.Sáenz Peña 505783 34677 217540.75 0.844 12.25 0

Punilla 1025037 162968 1022343 0.837 12.34 0

Río Cuarto 2208493 232175 1456491.4 0.655 11.15 1

Río Primero 688052 43516 272989.95 0.636 17.55 1

Río Seco 125958 13088 82103.79 0.496 30.95 1

Río Segundo 1163385 98264 616434.22 0.837 10.61 0

San Alberto 190839 34090 213854.35 0.67 26.26 1

San Javier 236806 50338 315782.67 0.687 22.01 0

San Justo 2530314 193000 1210739.1 0.885 9.33 0

Santa María 519539 89855 563682.45 0.757 16.11 0

Sobremonte 23529 4601 28864.16 0.045 30.37 1

Tercero Arriba 1222153 108225 678922.42 0.832 9.51 0

Totoral 403004 17068 107069.19 0.548 20.1 1

Tulumba 177644 12404 77812.27 0.413 30.86 1

Unión 1491739 101052 633925.42 0.818 10.62 0 PBG. Producto Bruto Geográfico en miles de pesos corrientes para el año 2003, en base a datos publicados por la Gerencia de Estadísticas y Censos de la Provincia de Córdoba. Población: Estimada para el año 2003 a partir del crecimiento intercensal 1991 a 2001 según datos publicados por la Gerencia de Estadísticas y Censos de la Provincia de Córdoba. Consumo: Consumo en miles de pesos corrientes para el año 2003. Elaboración propia a partir de la cantidad de habitantes y del consumo per cápita nacional del año 2003. El consumo per cápita nacional se calculó a partir de la relación entre el Consumo más IVA en pesos corrientes del año 2003 informado por el Ministerio de Economía y la cantidad de habitantes proyectados para el año 2003 por el INDEC IDHR. Indice de Desarrollo Humano Regional del año 2003, indicador resumen elaborado por el Consejo Profesional de Ciencias Económicas de Córdoba, en base a datos de la Secretaría de Energía de la Nación, EPEC y Anuario Estadístico de la Provincia de Córdoba, que mide la calidad de vida de la población a partir de los indicadores de mortalidad infantil, alfabetización y consumo de energía eléctrica; para el año 2003 el promedio provincial alcanzó el valor de 0.6773. NBI: Población que tiene NBI (en % sobre el total de personas del Departamento) según datos publicados por la Gerencia de Estadísticas y Censos de la Provincia de Córdoba. F: Variable ficticia o dummy que asume el valor 1 cuando el departamento posee un nivel de IDHR inferior a la media.

619

Ejemplo 14.1. Supongamos que se quiere estimar los parámetros de la siguiente ecuación de consumo:

26,,2,1 iNBIRC iiii

Donde C, es el consumo, R es la renta disponible, NBI es el indicador de población con necesidades básicas insatisfechas y se cuenta con observaciones para los 26 departamentos de la Provincia de Córdoba. Dada esta especificación, se supone que tanto el consumo autónomo, , como

la propensión marginal a consumir, , y el aporte marginal de NBI, , no

varían para las distintas regiones. Sin embargo, se sospecha que, al determinar el consumo agregado, puede ser relevante tener en cuenta el grado de desarrollo de cada comunidad. Un indicador plausible del grado de desarrollo, se basa en medir si el índice de desarrollo humano regional es superior a la media del grupo analizado. Los efectos del grado de desarrollo en una región, pueden introducir diferencias tanto en el consumo autónomo como en la propensión marginal a consumir. Se estudiarán ambos casos tanto en forma separada como conjunta. Para ello se utilizarán los datos de la tabla 14.1.

1. Supongamos que las diferencias en el consumo debidas al grado de desarrollo humano, se reflejan solo en el intercepto de la ecuación de consumo, es decir, en el consumo autónomo.

Este efecto diferenciador, se puede recoger en una sola ecuación definiendo una variable artificial que distinga entre los dos tipos de regiones. Sea:

casootroen0

REGiregiónlasi1iF

1

La ecuación de consumo se puede especificar como sigue:

26,,2,11 iNBIiRFC iiii

Se puede comprobar fácilmente que el coeficiente que acompaña a la variable ficticia iF recoge la diferencia en el consumo entre las regiones con IDHR IDHR (medio) y las regiones con IDHR < IDHR (medio).

El modelo estimado es:

iii NBIγiRβFδαC ˆˆˆˆˆ1

620

Cuando iF = 0:

ii NBIγiRβαC ˆˆˆˆ1

el consumo autónomo viene dado por 1 , e indica el nivel de consumo para los departamentos de REG2

Cuando iF = 1:

ii NBIγiRβδαC ˆˆˆ1

ˆˆ

el consumo autónomo viene dado por 21ˆˆˆ αδα , siendo

12ˆˆˆ ααδ y es la estimación del consumo para REG1

La utilización de variables ficticias permite recoger cambios discretos en la función de consumo.

Para contrastar este posible cambio de estructura, es decir, si existe evidencia de un cambio en el consumo autónomo de un grupo de regiones a otro dependiendo del grado de desarrollo humano, la hipótesis de contraste, sería:

0:

0:0

AH

H

Aceptar la hipótesis nula es indicativo de no influencia de los niveles de desarrollo en el consumo. Si la hipótesis nula se rechaza es porque existen diferencias significativas.

Si el modelo cumple los supuestos habituales del modelo de regresión lineal general, los estimadores MCO de los coeficientes de regresión del modelo tienen buenas propiedades y el contraste de hipótesis basados en el estadístico F , es válido.

Observación. Otra forma equivalente de recoger esta diferencia de comportamiento en el intercepto entre los dos grupos de regiones, se basa en definir dos variables ficticias:

casootroen

REGiregiónlasiF i 0

1 11

621

casootroen

REGiregiónlasiF i 0

1 22

Y especificar la ecuación de consumo como sigue:

26,,2,12211 iNBIRFFC iiiiii

En este caso los coeficientes que acompañan a las variables ficticias recogen, respectivamente, cada uno de los dos consumos autónomos.

El contraste de cambio de estructura en el consumo autónomo, se basa en contrastar la siguiente hipótesis:

21

210

:

:

AH

H

Se puede observar que los dos modelos dados son equivalentes, siendo el último modelo, únicamente una reparametrización del primer modelo.

Cuando incluimos tantas variables ficticias como grupos o categorías tiene la variable cualitativa, no se ha de incluir el término constante.

En este ejemplo, si especificamos el modelo:

26,,2,122110 iuNBIRFFC iiiiii

La primera columna de la matriz de regresores X , es la suma de la segunda y tercera columna.

Por lo tanto, el rango de la matriz X , no es completo: 43)( X

La matriz XX' es singular, por lo que 1)( XX' no existe.

El sistema de ecuaciones normales, tiene menos ecuaciones linealmente independientes que incógnitas y no se puede resolver de forma única.

2. Supongamos ahora que las regiones con un IDHR IDHR (medio), pueden tener una propensión marginal a consumir distinta de aquellas con IDHR < IDHR (medio).

622

En este caso, lo que cambia es el efecto de la variable explicativa, renta sobre el consumo, es decir:

22

11

REGiNBIRC

REGiNBIRC

iiii

iiii

Podemos recoger estas diferencias en una sola ecuación mediante la utilización de la variable ficticia iF , de forma que tenemos la ecuación:

2621iNBINBIFRFRC iiii3iii1i ,,,

Cuando iF = 0:

11 REGiNBIRC iiii

Y 1 es la propensión marginal a consumir de las regiones con desarrollo superior.

Cuando iF = 1

21 REGiNBIRC iiii

La propensión marginal a consumir es: 21 .

Es interesante señalar que el parámetro 12 recoge la diferencia en la propensión marginal al consumo entre regiones con IDHR IDHR(medio) y regiones con IDHR < IDHR(medio).

Si suponemos que el modelo, cumple los supuestos habituales del modelo de regresión, los estimadores por MCO de ,, son insesgados y eficientes y el contraste de hipótesis basado en el estadístico F , sigue siendo válido.

El contraste de cambio estructural en la propensión marginal a consumir, se basa en contrastar la siguiente hipótesis:

0:

0:0

AH

H

623

3. Para contrastar un posible cambio estructural en todos los parámetros de la ecuación de consumo, tanto en el intercepto como en la pendiente entre ambos grupos de regiones, se especifica el modelo como sigue:

26,,11211 iNBIRRFFC iiiiiii

Suponiendo que este modelo cumple las hipótesis habituales del modelo de regresión, los estimadores MCO de 1211 ,, y son insesgados y eficientes y los contrastes siguen siendo válidos.

La hipótesis nula de no existencia de cambio estructural en la función de consumo entre ambos grupos; es decir, que el grado de desarrollo humano no afecta a la función de consumo, es:

00:

00:

21

210

yH

yH

A

Que se puede contrastar con el estadístico F .

Una forma equivalente de realizar este contraste, también conocido como contraste de CHOW, se basa en el siguiente estadístico:

2k-Tk,F~

2

/ 0H

kT

kF

2'21

'1

2'21

'1R

'R

eeee

eeeeee

Donde, en nuestro ejemplo, 3k26,T .

Se rechaza la hipótesis nula de no existencia de cambio estructural, si el valor del estadístico es mayor que la ordenada 2k)-Tk,F de la

distribución F de Snedecor con 2k-Tk, grados de libertad.

Observación. Para poder llevar a cabo el contraste de cambio estructural utilizando las sumas de cuadrados de residuos de las regresiones para cada sub muestra, es necesario disponer en cada grupo de un número suficiente de observaciones para poder estimar los parámetros de la ecuación.

624

En ocasiones, especialmente con datos de series temporales, es posible que en alguno de los sub períodos, no se disponga el número de observaciones necesarias.

Supongamos, sin pérdida de generalidad, que en el segundo sub período o grupo, el número de observaciones t2, es menor o igual que el número de coeficientes de regresión, k.

El contraste de cambio estructural, se puede realizar modificando el estadístico como sigue:

k-T,TF 12

0

1

11

211 ~'

/'' HRR

kT

ee

TeeeeF

Bajo la hipótesis nula de no existencia de cambio estructural entre los dos sub períodos, este estadístico, conocido con el nombre de contraste predictivo de Chow, se distribuye como una F de Snedecor.

14.3. Multicolinealidad

La existencia de correlación entre las variables explicativas en la muestra, se denomina multicolinealidad. Por lo tanto la hipótesis nula que vamos a contrastar es

ealidadMulticolinNoH :0

Si, dada la especificación del modelo, algún o algunos regresores, se pueden expresar como una combinación lineal exacta de otros regresores, entonces se dice que existe multicolinealidad perfecta.

En este caso extremo, el rango de la matriz x, no es completo, es decir, k(X) .

Por lo tanto, la matriz X)(X' no es invertible y no existe una solución

única para β del sistema de ecuaciones normales, yX'βX)(X' ˆ .

La multicolinealidad perfecta, es un problema de identificación en el siguiente sentido. Si dada la especificación del modelo hay un problema de multicolinealidad perfecta, distintos valores de los

625

parámetros, generan el mismo valor medio de la variable dependiente, Xβy )(E .

Por lo tanto dada la muestra ),( XY , no se pueden identificar aquellos valores de los parámetros que la han generado porque la función criterio que minimizamos E(y)yE(y)y ' no discrimina entre distintos valores de β .

Ejemplo 14.2. Matriz de regresores colineales Consideramos el siguiente modelo de regresión:

niXXY iiii ,,133221

Donde se satisface que 33iX2iX .

Entonces la suma de la segunda y tercera columna de la matriz de regresores X , es igual a tres veces la primera, por lo que el rango de la matriz de regresores, 2, es menor que el número de parámetros, 3, y no existe solución única al sistema de ecuaciones normales. En este caso, para cualquier observación:

i

i

iii

X

X

XXYE

321

32321

33221

3

Podemos observar distintos valores de 321 ,, y para los que las

combinaciones lineales 2321 3 y permanecen invariantes y, por lo

tanto, nos proporciona el mismo valor de iYE .

No es posible discriminar entre todos esos valores y solamente podemos identificar o estimar de forma única 232211 3 y , es

decir, combinaciones lineales de los parámetros de interés.

Observación. Si el problema no es de multicolinealidad perfecta, sino de un alto grado de colinealidad entre las variables explicativas, los parámetros del modelo de regresión se pueden estimar de forma única por MCO, y los estimadores serán lineales, insesgados y óptimos.

Supongamos que en un modelo, la correlación entre los regresores

ii XX 32 y es muy alta, es decir, 1223 r .

Se puede demostrar que la varianza del estimador MCO de los coeficientes asociados a ii XX 32 y está directamente relacionada con

el grado de correlación existente entre los regresores:

626

2

23

222

2

21

ˆrXX

V

t

Cuanto mayor sea la correlación muestral entre los regresores, mayor será la varianza de los estimadores y menor la precisión con la que se estiman los coeficientes individualmente.

En el caso extremo, si 22

23ˆ,1 Vr lo que implica que cualquier

valor para 2β , es admisible.

Detección de la Multicolinealidad

Como síntomas más comunes de la multicolinealidad tenemos los siguientes:

Matriz de correlaciones, XXR , entre las variables explicativas en el intervalo [0.72;0.99].

Poca significatividad individual con alta significatividad conjunta y buen 2R .

Influencia en las estimaciones de la eliminación de una observación en el conjunto de datos.

Factores de inflación de la varianza

10)1(

12

jR

VIF ,

donde 2jR es el coeficiente de determinación de la regresión auxiliar

de la variable explicativa j en función de las demás variables explicativas.

Valores propios XX'dei cercanos a cero o Índice de condición

302/1

min

max

.

Entre los estadísticos para detectar la multicolinealidad se encuentra el contraste de Farrar-Glauber, donde la hipótesis a contrastar es no multicolinealidad.

627

2

2

)1(;

0

~6

)52(1ln

kk

HkTG

XXR

donde XXRln es el logaritmo natural del determinante de la matriz de

correlación de las variables explicativas incluidas en la estimación

Consecuencias de la multicolinealidad

Un alto grado de multicolinealidad, tiene consecuencias negativas sobre las estimaciones:

1- Aunque se obtenga un buen ajuste en base al 2R y, por lo tanto, evidencia de que conjuntamente las variables explicativas son estadísticamente significativas, los coeficientes estimados pueden tener grandes desviaciones típicas y pueden resultar individualmente no significativos.

2- Las estimaciones son muy inestables ante pequeños cambios en la muestra.

3- Los coeficientes estimados, pueden presentar signos incorrectos o magnitudes poco esperadas a priori.

La multicolinealidad puede afectar mucho a la estimación de unos parámetros y nada a la de otros. Los parámetros asociados a variables explicativas poco correlacionadas con las restantes, se podrán estimar con precisión.

Una vez detectado un posible problema de multicolinealidad, es difícil solucionarlo.

No es probable que obtengamos información nueva, es decir, otra muestra que no represente este problema, porque, de disponer de ella, se utilizaría.

Una posible solución, pero no buena, es eliminar del modelo alguna de las variables que crean el problema. Sin embargo, proceder de esta forma, puede introducir sesgos en la estimación y problemas en la validez de los contrastes, si las variables omitidas, son relevantes.

La multicolinealidad, no afecta a la predicción βXy 'pp

ˆ siempre que

la misma estructura de colinealidad, se mantenga fuera de la muestra.

628

Tampoco afecta al vector de residuos MCO, e , que siempre está definido, ni crea problemas en la estimación de 2

.

Solución para modelos con multicolinealidad

Las soluciones se pueden clasificar en robustas y no robustas. Las primeras son aquellas que suprimen la variable que genera la multicolinealidad con justificación estadística y económica.

Entre aquellas no robustas se encuentran las que no transforman las variables y las que si lo hacen. Entre los métodos que no transforman variables está la solución de ampliar la muestra de datos. Entre los segundos, existen varias alternativas:

Usar el modelo en diferencias vigilando la autocorrelación

Usar transformaciones de las variables exógenas usando ratios

Usar la regresión en cadena, que ofrece como estimadores de los parámetros a

yX'I)X(X'β 1 cˆ

siendo c una constante, que en la práctica suele tomarse con valores en el intervalo [0,01;01]. En este modelo, la matriz de varianzas y covarianzas es 122 ( I)XX'XX'I)X(X' cc

Usar la regresión sobre componentes principales

Supongamos que tenemos un modelo de regresión con T observaciones y k variables explicativas Este último método consiste en sustituir el conjunto de k variables explicativas por sus k componentes principales kttt CCC ,, 21 , o por un subconjunto de éstas.

Así, en el modelo lineal,

tktkttt XXXY 22110

sea

629

kTT

k

zz

zz

1

111

Z

las observaciones expresadas en forma de variables tipificadas, correspondiente a las k variables explicativas. De tal forma que,

ZZ'R1

1

T

será la matriz de correlaciones muestrales entre las k variables explicativas.

La naturaleza de las componentes principales puede enfocarse de distintas formas. Cuántas dimensiones existen en el conjunto de las k variables explicativas, es decir hay suficiente correlación entre ellas que hagan pensar que dos o más representan la misma dimensión para el análisis. Para ello plantearemos la transformación de las mismas en un nuevo conjunto de variables que tomadas de dos en dos no estén correlacionadas, que denominaremos componentes principales. Una de las características de estas nuevas variables es que la primera recogerá la mayor varianza del análisis, la segunda la mayor parte de la varianza residual y así siguiendo… A estas nuevas variables se las obtiene a partir de los vectores propios, estos son las direcciones principales de la nube de puntos.

Para calcular los vectores propios necesitamos primero calcular los valores propios y eso se obtiene diagonalizando la matriz R . Es posible demostrar que existen k números reales positivos

k 21 y k vectores asociados k,, ppp ,21 que forman una

nueva base ortonormal de k y que verifican,

kkkk ;pRp

0 kkk pRp

0 )I(Rp kkk

RIIRIR kkkkkk 00

630

La solución a este sistema genera los k valores propios buscados. A partir de ellos se calculan los k vectores propios, formando la matriz ortogonal kk x

k21 pppP

De esta forma, se tiene que

TtzpzpzpC ktkttt ,,1;12211111

Representa la primera de las nuevas variables.

En forma matricial

11 ZpC

En donde 1C es un vector de T elementos – T observaciones

transformadas – y 1p un vector de k elementos – la primera columna de la matriz de vectores propios –

Observación. La suma de cuadrados de 1C es

1111 ZpZ''pC'C (ó también 1111 p

ZZ''p

C'C

11

TT)

Se elige 1p que maximice 11 C'C , pero hay que imponer alguna

restricción, caso contrario la suma de cuadrados de 1C podrá hacerse infinitamente grande. Para ello normalicemos, haciendo

111 p'p

Ahora se trata de obtener un máximo sujeto a restricciones. Definamos

)1(1

1

1111 p'ppZZ'

'p T

En donde 1 es un multiplicador de Lagrange. De esta forma tenemos

631

11 pZpZ'p

1

1

21

2

T

Aplicando la condición de primer orden de máximo, obtenemos

11 ppZZ' 1)(1

1 T

De esta forma demostramos que 1p es un vector propio de la matriz

ZZ'R1

1

T

, correspondiente al valor propio 1 .

Además, se observa que

111

1 1111 p'pZZ '

T ¿Por qué?

Por lo que debemos elegir como 1 al mayor de los valores característicos de R que, en ausencia de multicolinealidad perfecta, será definida positiva y por lo tanto sus valores propios serán positivos, es decir

021 k .

La primera componente principal de Z es entonces 1C .

Definamos 22 ZpC

Debemos elegir 2p tal que maximice 221p

ZZ''p

T, sujeto a que

122 p'p y 02 p'p1 .

La razón de la segunda restricción es que 2C no debe estar

correlacionada con 1C .

La covarianza entre ellas viene dada por

632

0,0121 2121 p'pp'pZpZ''p quesiempre

Definamos,

)21*

22222 '()1(1

ppp'ppZZ'

'p

T

En donde *2 , son multiplicadores de Lagrange.

021

21

*222

2

ppZpZ'p

T

Premultiplicando por 'p1 , queda

0'1

2 *21

ZpZ'p

T

lo que a su vez, implica que

12**

21* '

1

2''1

2ZpZ'pZpZ'p

TT

Pero conociendo que,

11 ppZZ' 1)(1

1 T

0')('1

1212

11 pppZZ'p T

Entonces, 0*

Y tenemos que,

2221

1pZpZ'

T

Aquí se elige 2 tal que sea la segunda raíz característica más grande de ZZ' .

Se puede proceder de esta forma para cada una del las k raíces de ZZ' y con los vectores resultantes formar la matriz ortogonal k21 pppP .

633

De esta manera las k componentes principales de Z vienen dadas por la matriz C de orden kT x definida como

ZPC

Que verifican

k

TT

00

00

00

1

1

1

1 2

1

P´Z´ZPCĆ

De esta manera podemos decir que las componentes principales son centradas, no correlacionadas y sus varianzas son los valores propios.

Para obtener las coordenadas del ésimot individuo en el nuevo sistema de ejes, se procede de la siguiente forma,

TtzpzpzpC

TtzpzpzpC

TtzpzpzpC

ktkktktkkt

ktkttt

ktkttt

,,1;

,,1;

,,1;

2211

22221122

12211111

Ejemplo 14.3. La tabla 13.2 contiene información sobre 5 observaciones para

tres variables explicativas ( 1X , 2X , 3X ). Estas variables presentan alta

correlación alta correlación por lo que procedemos a calcular las componentes principales.

Tabla 14.2 Matriz de valores de X

Observaciones X2 X3 X4

1 2 3 2 2 4 3 2 3 5 4 3 4 2 2 1 5 1 2 2

De acuerdo a lo analizado teóricamente tendremos que calcular los vectores propios ortogonales de la matriz ZZ' , donde Z es la matriz de variables tipificadas de los valores originales de la matriz de variables independientes. Los elementos de ZZ' serán los siguientes, (¿por qué?)

43806.35820.2

3806.344915.3

5820.24915.34

ZZ'

634

Observación. si se divide la matriz ZZ' por 1T se obtiene la matriz de correlaciones, R , de las variables explicativas itX ¿Por qué?

Para calcular los vectores propios necesitamos primero calcular los valores propios y eso se obtiene diagonalizando la matriz ZZ' . Según los datos del ejemplo, existen 3k números reales positivos

321 y 3k vectores asociados 321 p,p,p que forman una

nueva base ortonormal de 3 y que verifican, 3,2,1; kkkk pRp

El lector deberá comprobar que la solución de este sistema genera 3 valores propios, que para nuestros datos son:

064945,03355272,02579783,21

Y que forman la matriz diagonal correspondiente a R

064945,000

0355272,00

00579783,2

Demuestre que a estos valores propios le corresponden los vectores propios

556709.0

609621.0

564302.0

1p

732187.0

039211.0

679974.0

2p

392400.0

791723.0

468186.0

3p

Observación: podemos elegir 3,2,1)( kkk ó pp

Las componentes principales serán entonces,

24,,1;556709.0609621.0564302.0 211 tzzzC ktttt

24,,1;732187.0039211.0679974.0 212 tzzzC ktttt

24,,1;392400.0791723.0468186.0 213 tzzzC ktttt

Dada la matriz Z

Observaciones 1Z 2Z 3Z

1 -0.4869 0.2390 0.0000 2 0.7303 0.2390 0.0000 3 1.3389 1.4343 1.4142 4 -0.4869 -0.9562 -1.4142 5 -1.0954 -0.9562 0.0000

635

Las coordenadas del ésimot período en el nuevo sistema de ejes son

Observaciones 1C 2C 3C

1 0.1290 -0.3217 0.4172 2 -0.5578 0.5060 -0.1527 3 -2.4172 -0.0688 -0.0462 4 1.6450 0.6669 0.0258 5 1.2011 -0.7824 -0.2442

Así, por ejemplo, la primera coordenada de la observación 3 en componentes principales, se obtuvo haciendo,

4172.2

)4142.1(556709.0)4343.1(60962.0)3389.1(564302.03,1

C

También sugerimos al lector que verifique que

0)(;0)(;0)(

)(;)(;)(

0

323121

332211

321

CCCovCCCovCCCov

CVCVCV

CCC

Las componentes principales fueron obtenidas postmultiplicando la matriz de variables explicativas tipificadas por la matriz de vectores propios.

Teniendo en cuenta que kIPP ' y que los autovectores anteriores

además de ortogonales se pueden elegir unitarios. El modelo original se puede transformar en

εCαεβZPP'εZβY

Los coeficientes de regresión βP'α están asociados a k variables explicativas no correlacionadas pues las componentes principales son ortogonales.

Este modelo auxiliar

TtCCY tktktt ,,1;110

No estará afectado de multicolinealidad pues las variables ktt CC ,1 no

están correlacionadas.

636

Si se eliminan las variables explicativas kr CC ,,1 ,que son las rk

últimas componentes cuya variabilidad es menor, se pierde poca información y el modelo resultante.

T,,t;CCY *trt

*rt

**t 1110

Será una aproximación al original, sin multicolinealidad, y a partir de sus estimaciones se obtiene el estimador ββ deˆ .

Como, ]**

*

21α

α][P[PPαβ

Donde,

1P es la matriz formada por las 1r primeras columnas de P

)'( **1

*0

*r α .

Si las últimas rk componentes principales explican una pequeña parte de la variabilidad de las variables predeterminadas del modelo original, o sea si se puede considerar 0α **

Resulta que, *αPβ 1 con lo que el estimador de β será, *ˆˆ αPβ 1

Siendo *α el estimador de los coeficientes *α en el modelo de las 1r primeras componentes principales.

Ejemplo 13.3. (continuación). Para ilustrar esta segunda parte del análisis de las componentes principales con los datos del ejemplo se incluye una estimación al final del capítulo.

Por otra parte, la variación total de las variables tipificadas Z viene dada por

)(222

21 ZZ'trzzz

tkt

tt

tt

Pero,

)()()( ZZ'ZPP'Z'ZPZ'P' trtrtr , debido a que, kIPP '

637

Quiere decir que,

kk

k

iitrtrtr

Z'ZZ'Z

ΛZZ'ZPZ'P'

11

1

)()(

Pero como hemos trabajado con la matriz de variables tipificadas y diagonalizando la matriz de correlaciones, se tiene que esta última suma, igual a la traza de la matriz lambda, es igual a k . (Comprobar)

De esta forma,

k,,, 21

Representa la proporción en que cada componente principal contribuye a la explicación de la varianza total de las Z , y puesto que las componentes son ortogonales, estas proporciones suman la unidad, (que el lector deberá comprobar).

Con frecuencia, la correlación entre los datos económicos y sociales significa que un número pequeño de componentes explicarán una gran proporción de la variación total y sería deseable poder realizar una prueba de hipótesis para evaluar cuál es el número de componentes que debe retenerse para un análisis posterior. Supongamos que hemos calculado las raíces k 21 y que las

primeras r raíces )(;21 krr , parecen ser suficientemente grandes y diferentes como para retenerlas. En este caso, la pregunta es si las restantes rk raíces son lo suficientemente parecidas entre sí como para concluir que los verdaderos valores son iguales. Es decir, la hipótesis nula a corroborar es

krrH 210 :

Un contraste de hipótesis aproximado se basa en el estadístico1

2)2)(1(2/1

21121

0

~)(ln

rkrk

Hrk

krrkrr rk

Trho

1 Kendall, M. y Stuart, A. The advanced theory of Statistics, vol. 3, Londres, 1966.

638

En las aplicaciones prácticas (ver problema al final del capítulo) se espera que el número de componentes significativamente diferentes r que han de retenerse sea sustancialmente menor que el número k a partir de las cuales se obtienen las componentes.

14.4. Error de especificación

Habitualmente se entiende por error de especificación todo error que se comete en la especificación de la parte sistemática del modelo de regresión, es decir, qué variables explicativas se incluyen, cuál es la forma funcional, etc.

A pesar de que pueden existir muchos problemas en la especificación del modelo, con el término error de especificación nos referimos solo a las relacionados con la selección del conjunto de variables explicativas, es decir, a las consecuencias de omitir variables relevantes o de incluir variables irrelevantes en el modelo. No obstante, también se puede estudiar si el modelo especificado responde a una relación lineal o no. La linealidad del modelo puede ser evaluada a partir de la prueba RESET de Ramsey. Partiendo de que cualquier función puede ser aproximada por polinomios del orden adecuado, se puede introducir en el modelo de regresión términos con las potencias sucesivas de la variable endógena. El contraste de Ramsey realiza una prueba para comprobar si los coeficientes de las potencias incluidas en el modelo son cero, en cuyo caso se podría aceptar la forma funcional lineal del mismo.

Para realizar el contraste RESET debemos decidir cuantas funciones de los valores ajustados incluiremos en la regresión ampliada. No hay una respuesta concreta a esta pregunta, pero los términos al cuadrado y el cubo suelen ser suficientes en la mayoría de los casos.

Sean tY los valores ajustados por MCO al estimar la ecuación

tktktt XXY 221

Consideremos la ecuación ampliada

639

tktktt YYXXY 33

22221

ˆˆ

Obviamente no estamos interesados en los valores estimados de esta última ecuación, solo queremos determinar la existencia de no linealidad en el modelo originalmente estimado. Debemos recordar, al respecto, que 32 ˆ,ˆ YY son funciones no lineales de las variables exógenas.

La hipótesis nula es la de linealidad. Formalmente, Ramsey establece,

0εIN(εεIN(0ε ),:);,: 21

20 HH

El estadístico RESET es una F que, bajo hipótesis nula, tiene 2,2 kT grados de libertad. ¿por qué?. En general, podríamos

expresar los grados de libertad en función de la cantidad de regresores que se añaden, pero teniendo en cuenta que debemos dejar los suficientes grados de libertad para la estimación del modelo.

Omisión de variables relevantes

Supongamos que el modelo correctamente especificado, es de la forma:

εβXβXy 2211

Donde

2211 TxkXyTxkX , son matrices de regresores no estocásticos.

TEE Ιεε0ε ' 2;)(

Sin embargo, se especifica y se estima el siguiente modelo,

*11 εβXy

Donde se han omitido 2k variables explicativas de la parte sistemática del modelo.

Dado que la perturbación del modelo es εβXε 22* , tenemos

640

221122 βX'Xε'XβXε ** EE y

Es interesante observar que si, al especificar el modelo de regresión, omitimos variables explicativas relevantes para determinar la variabilidad de y , el efecto de estas variables queda recogido en el término de error.

El comportamiento de la perturbación *ε , va a reproducir el funcionamiento de las variables 2X omitidas, por lo que, salvo casos excepcionales, no va a cumplir los supuestos exigidos en el modelo de regresión lineal general.

Este resultado lleva a cuestionar las propiedades del estimador MCO de 1β en el modelo.

En este sentido, es fácil demostrar que el valor medio del estimador, es:

22'1

1

1'11

'1

1

1'1 βXXXXβyXXXβ

EE 1

ˆ

El sesgo del estimador desaparece si: 0XX 2'1 .

Esta condición implica que las variables explicativas incluidas en el modelo y las omitidas, no están correlacionadas.

Por otro lado, el estimador habitual de la varianza de las perturbaciones:

1

2

kTS

**' ee

Será también sesgado, aunque se cumpla que 0XX 2'1 , lo que

implica que el estimador de 1βV ˆ :

11'11 XXβV

2ˆˆ S

No es insesgado y los contrastes de hipótesis habituales sobre el vector de coeficientes 1β , no son válidos porque:

641

1

112

221

1

1'111

**'

X'X,βX'XXXββ

ee

σNII

I

~ˆ)

) 22

unacomodistribuyeseno

Inclusión de variables irrelevantes

Supongamos que el modelo correctamente especificado, es:

εβXy 11

Donde 1X es una matriz kT x de regresores no estocásticos y la

perturbación, sigue una distribución normal con TEE Ιεε0ε ' 2;)( .

Sin embargo, se incluyen 2k variables en el modelo de regresión que no son relevantes, de forma que estimamos por MCO, el siguiente modelo:

εβXβXy 2211

Los estimadores MCO de los vectores de parámetros 21 ββ y obtenidos a partir del modelo, son:

ε

'X

'X

X'XX'X

X'XX'X

β

X'X

X'X

X'XX'X

X'XX'X

εβX

'X

'X

XX

'X

'X

y

'X

'X

XX

'X

'X

β

β

2

1

1

2212

2111

1

12

11

1

2212

2111

11

2

1

1

21

2

1

2

1

1

21

2

1

2

1

ˆ

ˆ

Se puede demostrar que:

2

1

k

k

1'2

1'1

1

2'2

'

'1

'1

0

I

XX

XX

XXXX

XXXX

12

21

642

Se obtiene que el valor medio de los estimadores MCO del modelo, es:

22

)(

ˆ

ˆ

12

21

k

1

'2

'1

1

2'2

'

'1

'1

k

1

2

1

0

β

ε

X

X

XXXX

XXXX

0

β

β

β

EE

Por lo que podemos concluir que son insesgados, es decir, 0ββββ 2211 ˆˆ EE y (dado que las variables 2X son

irrelevantes).

Observación. Ahora bien, hay que señalar que a la hora de estimar los parámetros de interés de 1β no estamos incorporando toda la información disponible, ya que no incluimos la restricción cierta de que 0β 2 .

Por lo tanto, estamos perdiendo eficiencia al estimar 1β en el modelo mal especificado, relativamente a estimarlo en el modelo bien especificado. El estimador de la varianza de las perturbaciones en el modelo mal especificado:

kTS

ee'2 es un estimador insesgado de 2 y se mantiene la validez

de los contrastes habituales de restricciones lineales sobre el vector de coeficientes β .

Pruebas de errores de especificación.

1) Detección de la presencia de variables innecesarias: data–mining.

Si un investigador desarrolla un modelo de k variables y va probando una a una la inclusión o no de variables, realiza lo que se conoce como regresión por etapas.

Una de las consecuencias a la que se enfrenta es que estará modificando los niveles de significación.

Lowel ha sugerido que si hay c candidatos a regresores de los cuales k son finalmente seleccionados (k < c) con base en la data–

643

mining, entonces el verdadero nivel de significación )( * está relacionado con el nivel de significación nominal )( de la siguiente manera:

)/(* kC

Por ejemplo, si c = 15, k = 5 y %,5 el verdadero valor de significación es 15%.

Por consiguiente, si un investigador extrae datos y selecciona 5 de 15 regresores y solamente informa los resultados al nivel de significación del 5% nominal y declara que estos resultados son estadísticamente significativos, esta conclusión se debe tomar con gran reserva.

2) Existen contrastes para observar si un modelo adolece de variables omitidas. El test de la razón de verosimilitud para variables omitidas permite añadir un conjunto de variables a una ecuación existente y contrastar si constituyen una contribución significativa a la explicación de la variable dependiente. Este contraste tiene como hipótesis nula que el conjunto de regresores adicionales no son conjuntamente significativos.

También se puede aplicar el test de la razón de verosimilitud para variables redundantes que permite contrastar si un subconjunto de variables de una ecuación existente son conjuntamente significativas.

El test de Wald (denominador del contraste general F para restricciones lineales) puede utilizarse para detectar cuando una variable es redundante. Basta comprobar cuando puede considerarse cero su coeficiente de modo formal a través de esta prueba.


Problema 14.1: Componentes principales

Dada la siguiente tabla de datos, obtenga las componentes principales.

644

Tabla 14.3 Observación X2 X3 X4

1 7 15 4 2 6 12 3 3 4 10 1 4 3 11 -1 5 6 14 0 6 4 10 5

Caso 14.1: Determinantes del consumo

Dada las series de datos de PIB, Consumo y Tasa de Interés de Argentina para el periodo primer trimestre de 1993 a primer trimestre de 2006,

a) pruebe si hay cambio estructural en el modelo

061,,932,931 tInterésPBIConsumo tttt

Tabla 14.4. Indicadores Macroeconómicos Periodo PIB CONSUMO F INTERES

1993 I 216370111 152148446 1 II 241871858 166025867 1 III 242645522 166667550 1 IV 245132429 169860311 1

1994 I 232945326 164965420 1 II 257476895 177234828 1 III 253467778 174510154 1 IV 257341544 177721808 1

1995 I 237968103 164321480 1 II 248093639 166567449 1 III 242214699 164276737 1 IV 244467965 168866520 1

1996 I 236566037 164311572 1 7.837 II 260751925 175591878 1 6.773 III 262166964 177726972 1 7.293 IV 267020047 183153037 1 7.523

1997 I 256387857 177490019 1 7.007 II 281769801 191310690 1 6.530 III 284092268 195505523 1 6.410 IV 287515346 199383506 1 7.920

1998 I 271702368 187196678 1 7.093 II 301207598 202675183 1 6.667 III 293315404 200922426 1 8.093 IV 286267849 199434263 1 8.393

1999 I 265024636 185463056 1 8.110 II 286412327 195463399 1 6.610 III 278472694 194457732 1 7.780 IV 283566399 199054269 1 9.687

2000 I 264555918 186315129 1 7.797 II 285275176 195338736 1 7.630 III 276767971 193972609 1 7.485 IV 278091676 193703380 1 10.439

Continúa…

645

Tabla 14.4. Indicadores Macroeconómicos Continuación Periodo PIB CONSUMO F INTERES

2001 I 259199874 182900187 1 8.678 II 284795763 191297580 1 12.750 III 263126505 181090983 1 22.867 IV 248864555 169871185 1 20.359

2002 I 216849495 148507392 0 9.394 II 246314633 158475554 0 60.913 III 237416867 156093858 0 62.071 IV 240361392 157992266 0 24.616

2003 I 228595882 153188337 0 18.277 II 265402478 169567358 0 13.874 III 261534523 172253988 0 4.578 IV 268560967 176794330 0 3.913

2004 I 254330423 171056272 0 2.360 II 284375611 183635133 0 2.330 III 284392060 187557703 0 2.744 IV 293467061 193373719 0 3.027

2005 I 274594503 200565514 0 2.782 II 313927290 219462442 0 3.535 III 310593081 218509900 0 4.125 IV 319939241 224988560 0 4.607

2006 I 298695561 218515535 0 5.626 II 338243727 238547451 0 6.518 III 337741885 237975913 0 6.874 IV 347578707 245923679 0 6.667

2007 I 322448871 236761556 0 7.189 II 367492351 256321622 0 6.874 III 367538727 254163194 0 8.331 IV 379199661 255268779 0 9.493

2008 I 349945322 240312979 0 8.256 II 396227240 200565514 0 10.237 III 393039229 219462442 0 10.938 IV 394564940 218509900 0 14.766

2009 I 357077664 224988560 0 12.515 PBI: Producto Bruto Interno a precios de mercado en miles de pesos a precios de 1993 Consumo: Consumo de los hogares con IVA en miles de pesos a precios de 1993 Interés: Tasa de interés trimestral a plazo fijo entre 30 y 59 días FUENTE: Ministerio de Economía. República Argentina.

b) analice el gráfico de residuos que surge de estimar el modelo anterior a partir de los datos de la Tabla 14.4.

646

-60,000,000

-40,000,000

-20,000,000

0

20,000,000

40,000,000

140,000,000

160,000,000

180,000,000

200,000,000

220,000,000

240,000,000

260,000,000

96 97 98 99 00 01 02 03 04 05 06 07 08

Residual Actual Fitted

Caso 14.2: Regresión en componentes principales

La tabla 14.5 contiene información sobre 24 meses correspondientes a los gastos de comercialización (Gastos) de una empresa, el nivel de ventas (Ventas), su costo de personal (Personal) y los costos de materias primas (Insumos). El objetivo es estimar el nivel de ventas a partir de las restantes variables.

Primer Paso: Especificación del modelo

PersonalInsumosGastosVentas 4321

Segundo Paso: Estimación del Modelo

La tabla se encuentra en el archivo “ventas.xls”. Esta información debe importarse en Eviews para realizar la estimación econométrica correspondiente. Los pasos a seguir consisten en

1. Generar en Eviews un archivo de trabajo (workfile) a partir de File-New, desde la ventana Workfile frecuency seleccionar Undated or irregular dates, en End date consignar la cantidad de observaciones que se tienen (en este caso 24).

2. Importar desde File-Import-Read Text_Lotus_Excel ubicando el archivo ventas.xls.

3. En la ventana de importación, en Upper-left data cell, consignar la celda donde se encuentra el primer dato. En Names series or number of series if name in file, especificar el nombre de las series o el número de series a importar.

647

Tabla 14.5 Mes Ventas Gastos Insumo Personal

1 607 197 110 173 2 590 208 107 152 3 543 181 99 150 4 558 194 102 150 5 571 192 109 163 6 615 196 114 179 7 606 203 113 169 8 593 200 113 166 9 582 198 115 159 10 646 221 119 206 11 619 218 120 181 12 651 213 123 192 13 648 207 122 191 14 694 228 131 217 15 697 249 133 190 16 707 225 135 221 17 693 237 133 189 18 680 236 128 192 19 664 231 134 193 20 747 260 135 233 21 708 254 139 196 22 702 239 138 199 23 711 248 146 202 24 778 273 153 240

4. La estimación se realiza a partir de Quick-Estimate Equation, consignando la variable dependiente (ventas) seguida de la constante (c) y de las variables explicativas (Gastos, Insumos, Personal) de la siguiente manera: ventas c gastos insumo personal. Esto da lugar a la siguiente salida:

El modelo estimado es

30.164.32398.0

)156.0()431.0()223.0()058.18(

950.0298.1923.0444.107

2

DWFR

PersonalInsumosGastosVentas

donde los valores entre paréntesis indican el desvío estándar de los coeficientes estimados.

Tercer Paso: Análisis de la bondad del ajuste

a) Nivel de explicación: El 98.02 R indica que las variaciones del conjunto de variables explicativas determinan el 98% de las variaciones de la variable dependiente.

648

Estimación 13.2.1 Dependent Variable: VENTAS Method: Least Squares Date: 08/25/06 Time: 14:58 Sample: 1 24 Included observations: 24


C 107.4435 18.05749 5.950079 0.0000 GASTOS 0.922567 0.222733 4.142030 0.0005 INSUMO 1.297786 0.430729 3.012996 0.0069

PERSONAL 0.950177 0.155845 6.096928 0.0000


b) Nivel de significación individual de las variables: La hipótesis nula es que el coeficiente que acompaña a la variable es nulo, de aceptarse esta hipótesis indica que la variable explicativa no está relacionada con la variable dependiente.

El conjunto de hipótesis a docimar es

0

0

1

0

i

i

H

H

La distribución teórica de probabilidades a utilizar para este contraste es la distribución t con (n-k) grados de libertad, con k igual al número de parámetros a estimar. Para un nivel de confianza del 95%, el valor crítico de la distribución t es de 086.2 . El valor de prueba a utilizar para docimar la significatividad de la variable Gastos es:

14.4222733.0

0922567.0ˆ

2

22

s

t

El estadístico empírico cae en la zona de rechazo de la hipótesis nula, (4.14>2.086) se concluye que la variable es significativa en el modelo.

Repitiendo el procedimiento para los demás coeficientes, se concluye que todas las variables son significativas individualmente.

649

c) Nivel de significación conjunta de las variables: La hipótesis nula es que los coeficientes que acompañan a las variables son todos nulos, de aceptarse esta hipótesis indica que el conjunto de variables explicativas utilizado no determina el comportamiento de la variable dependiente.

El conjunto de hipótesis a docimar es

0

0

4321

4320

H

H

La distribución teórica de probabilidades a utilizar para este contraste es la distribución F con k y n-k grados de libertad, con k igual al número de parámetros a estimar. Para un nivel de confianza del 95%, el valor crítico de la distribución F es de 87.2 . El valor de prueba a utilizar es:

6415.323)424/(117.1807

)14/(72601.87728

)/(

)1/(

knSCR

kSCEF

El estadístico empírico cae en la zona de rechazo de la hipótesis nula, se concluye que el conjunto de variables explicativas determinan la variable dependiente.

¿Cómo se obtienen los componentes del estadístico F?

La suma de cuadrados explicada (SCE) es la diferencia entre la suma de cuadrados totales (SCT) y la suma de cuadrados de los residuos (SCR): SCE=SCT-SCR

El desvío de la variable dependiente es

1

n

SCTsY , de modo que 84301.8953523*393.62)1(* 22 nsSCT Y

la SCR=1807.117, con lo cual

SCE=SCT-SCR=89535.84301-1807.117=87728.72601

d) Multicolinealidad. El modelo se especifica y estima bajo el supuesto de que las variables explicativas no están relacionadas entre sí. A través del cálculo de la matriz de correlaciones se observa que la asociación estadística entre las variables es alta. Los gastos de comercialización con respecto a gastos de personal y el costo de materias primas, muestran una correlación elevada 0.82 y 0.93; de igual modo costo de materias primas y personal muestran una correlación de 0.86. Esta situación indica la existencia de multicolinealidad entre todas las variables

GASTOS INSUMO PERSONAL

GASTOS 1.000000 0.931240 0.820452 INSUMO 0.931240 1.000000 0.857916

PERSONAL 0.820452 0.857916 1.000000

650

Otra manera de probar la existencia de multicolinealidad es regresionar las variables explicativas entre sí. De modo que la especificación de los modelos a estimar es

PersonalGastos

InsumosPersonal

InsumosGastos

21

21

21

Las respectivas estimaciones arrojan los siguientes resultados

74.051.153.0

67.081.030.69

867.0618.182.20

2

2

2

RInsumosPersonal

RPersonalGastos

RInsumosGastos

Los coeficientes de determinación de cada variable explicativa respecto de la otra indica nuevamente la existencia de multicolinealidad. La presencia de multicolinealidad provoca variabilidad en los coeficientes estimados. Para salvar este problema es necesario hallar las componentes principales de las variables explicativas y estimar las ventas a partir de los factores resultantes.

Cuarto paso: Análisis de Componentes Principales

Con Eviews se realiza el ACP sobre el conjunto de variables explicativas

El primer eje factorial reúne el 91.35% de la varianza (inercia) de las variables explicativas y el primer plano (los dos primeros ejes, es decir, las dos primeras componentes) el 97.84%.

Correlation of GASTOS INSUMO PERSONAL

Comp 1 Comp 2 Comp 3

Eigenvalue 2.740561 0.194568 0.064872 Variance Prop. 0.913520 0.064856 0.021624

Cumulative Prop. 0.913520 0.978376 1.000000

Eigenvectors:

Variable Vector 1 Vector 2 Vector 3

GASTOS -0.580238 -0.514175 -0.631623 INSUMO -0.588138 -0.271946 0.761669

PERSONAL -0.563399 0.813430 -0.144613

Ponderadores en la combinación lineal

651

Los ponderadores en la combinación lineal permiten calcular, para cada observación, las coordenadas sobre cada eje factorial determinando de esta manera las componentes principales.

obs C1 C2 C3

1 1.506231 0.299516 -0.037624

2 1.853441 -0.576847 -0.366855

3 2.890413 0.090451 -0.086389

4 2.449552 -0.246221 -0.262575

5 1.900217 0.092529 0.097884

6 1.221876 0.442400 0.173072

7 1.326530 -0.020977 -0.006374

8 1.468150 -0.056916 0.090149

9 1.593096 -0.286881 0.294148

10 -0.216850 0.710388 -0.368121

11 0.390405 -0.078791 -0.086172

12 0.129487 0.335922 0.144863

13 0.339721 0.450410 0.253263

14 -1.149357 0.691960 0.043003

15 -1.117047 -0.696328 -0.238097

16 -1.339299 0.810884 0.318048

17 -0.804620 -0.473284 0.082786

18 -0.637431 -0.253687 -0.183776

19 -0.794810 -0.231346 0.271555

20 -2.460332 0.463226 -0.671708

21 -1.631015 -0.720918 -0.074868

22 -1.296164 -0.280755 0.246036

23 -1.922235 -0.530122 0.432073

24 -3.699960 0.065388 -0.064320

Quinto paso: Reespecificación del modelo

El modelo inicial que presentaba multicolinealidad se reespecifica. Las ventas, ahora vienen explicadas por las componentes principales 321 C,C,C

321 CCCVentas 4321

El resultado de la estimación muestra que la primera componente que reunía el 91.35% de la varianza de las variables exógenas es la que presenta un buen ajuste.

Se reespecifica nuevamente el modelo eliminando la tercera componente y se obtienen los resultados de la estimación 14.3.3.

652



C 650.4167 1.940316 335.2117 0.0000 C1 -36.51051 1.172068 -31.15050 0.0000 C2 2.551440 4.398832 0.580027 0.5684 C3 -3.687286 7.618078 -0.484018 0.6336




C 650.4167 1.904613 341.4955 0.0000 C1 -36.51051 1.150501 -31.73444 0.0000 C2 2.551440 4.317890 0.590900 0.5609


653



C 650.4167 1.876229 346.6617 0.0000 C1 -36.51051 1.133355 -32.21453 0.0000


La segunda componente no presenta un buen ajuste por lo que se reespecifica el modelo

1CVentas 21

y se realiza la estimación 14.3.4

El modelo estimado es: 1CVentas 51051.364167.650

1C es la primer componente principal que se forma al hacer la suma ponderada, por los ponderadores de la combinación lineal, de las variables tipificadas para cada observación, es decir:

Insumos

InsumoiInsumo

Personals

PersonaliPersonal

Gastos

GastoiGasto

iC 59.056.058.01

sustituyendo los respectivos valores de medias y desvíos para las variables

1414

7917123590

9224

625187560

5824

16672215801 .

.iInsumo.

.

.iPersonal.

.

.iGasto.iC

Reemplazando el valor de 1iC en el modelo estimado tendremos

654

1414

7917123590

9224

625187560

5824

16672215805120536

4167650

.

.iI..

.iP..

.iG..

.iV

donde InsumosIPersonalPGastosGVentasV iiii ,,,

Operando matemáticamente

16535041702163402250218750236051205364167650 .iI..iP..iG...iV

El modelo definitivo es:

iiii I.P.G..V 5225182150861703298117

donde se ha eliminado la multicolinealidad

BIBLIOGRAFIA

Caridad, J.M. y Ocerin: (1998). "Econometría: Modelos Econométricos y Series Temporales". Editorial Reverté, S.A. Barcelona.

Crivisqui, E. (2002) “Iniciación a los métodos estadísticos exploratorios multivariados”. Université Libre de Bruxelles. Belgique.

Gujarati, D. (2004) "Econometría". 4°Edición. Mc.Graw Hill. México. Capítulo 13.


Perez Lopez, C. (2006). “Problemas Resueltos de Econometría”. Thomson. Madrid.


Capítulo 15. MODELO DE REGRESIÓN LINEAL GENERALIZADO ............................................................. 657

15.1. Análisis de los Residuos .................................................. 657 15.2. Perturbaciones no esféricas ............................................ 658 15.3. Mínimos Cuadrados Generalizados ................................... 660 15.4. Heterocedasticidad ........................................................ 662

Contraste de Goldfeld y Quandt (1965) .................................. 663 Contraste de White (1980) ................................................... 665 Contraste de Breusch y Pagan (1979) .................................... 666

15.5. Mínimos cuadrados generalizados o ponderados ................ 667 15.6. Mínimos Cuadrados Generalizados Factibles ...................... 669

Estimador de White ............................................................ 670 15.7. Autocorrelación ............................................................. 671

Contraste de autocorrelación de Durbin–Watson (1951) ........... 673 15.8. Estimación bajo Autocorrelación ...................................... 675

Mínimos cuadrados generalizados. ........................................ 675 Mínimos Cuadrados Generalizados Factibles ........................... 676 Método de Durbin ............................................................... 676 Método de Cochrane-Orcutt ................................................. 677

CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS ............ 678

Problema 15.1: Heterocedasticidad en series de datos de corte transversal ........................................................................... 678 Problema 15.2: Contrastes sobre la perturbación aleatoria .......... 678 Problema 15.3: Especificación y Estimación de modelos lineales ... 678

BIBLIOGRAFIA .............................................................. 678

656

657

Capítulo 15. MODELO DE REGRESIÓN LINEAL GENERALIZADO

15.1. Análisis de los Residuos

En esta unidad veremos cómo comprobar el cumplimiento de los supuestos del modelo lineal general sobre el término de perturbación y cómo estimar un modelo donde estos supuestos no se cumplen. El tema desarrollado en este capítulo se articula con el anterior al presentar los contrastes para el componente aleatorio en la construcción del modelo econométrico.

Una vez construido el modelo de regresión tendremos que contrastar, además de los supuestos sobre la parte sistemática, que ya analizamos, las hipótesis de media nula, homocedasticidad, no autocorrelación y normalidad sobre los residuos del modelo.

El análisis gráfico de los residuos va a presentar una primera información sobre estas hipótesis. Por ejemplo, si el histograma de frecuencias de los residuos no se ajusta al de una normal, pueden existir valores atípicos. Eliminando la o las unidades de observación que producen los valores atípicos se puede conseguir normalidad en los residuos. Otros gráficos interesantes son los siguientes:

El de los valores de te contra los valores de t , si detectamos una

tendencia creciente o decreciente en el gráfico, puede existir autocorrelación.

El de los valores de te contra los valores de tY , si comprobamos una

tendencia de cualquier tipo en el gráfico, puede existir autocorrelación, ya que habrá correlación entre los residuos. También puede haber en este caso heterocedasticidad o no linealidad.

El de los valores de 2te contra los valores de tY , si verificamos una

tendencia de cualquier tipo en el gráfico, puede existir heterocedasticidad.

El de los valores de te contra los valores de tX , si detectamos una

tendencia creciente o decreciente en el gráfico, puede existir autocorrelación, ya que los residuos no serán ortogonales respecto a las variables explicativas. También, en este caso, puede haber heterocedasticidad o falta de linealidad.

El de los valores de 2te contra los valores de tX , si verificamos una

tendencia de cualquier tipo en el gráfico, puede existir

658

heterocedasticidad o no linealidad (habrá relación entre la varianza del término del error y las variables explicativas).

15.2. Perturbaciones no esféricas

Recordemos que las varianzas y covarianzas de las perturbaciones

T,,j,)/(V j 12 X (Homocedasticidad)

ji,)/(Cov ji 0X (No autocorrelación)

Estos supuestos describen la información sobre las varianzas y covarianzas entre las perturbaciones que es proporcionada por las variables independientes. Es decir, las perturbaciones, por ellas mismas, no proporcionan dicha información.

Bajo los supuestos de homocedasticidad y no autocorrelación las perturbaciones mínimo cuadráticas se suelen denominar esféricas. El término describe una función normal multivariante. Si IΣ 2

en la función

de densidad normal multivariante, entonces la ecuación c)(f X es la fórmula de una esfera centrada en con radio en el espacio n – dimensional. El nombre de esférica se usa tanto si se trata de una distribución normal como si no; a veces se asume explícitamente la distribución normal esférica.

Bajo estas condiciones, la matriz de varianzas y covarianzas de la perturbación será escalar, es decir:

TE Iεε ' 2

Este supuesto “se puede relajar” para recoger situaciones más generales en donde las varianzas de las perturbaciones son distintas y/o las covarianzas no nulas. Si no imponemos ninguna restricción a priori, la forma general de la matriz de varianzas y covarianzas de las perturbaciones, es:

Ωεε '

221

22221

11221

TTT

T

T

E

Esto es, vamos a trabajar dentro del marco más general del modelo de regresión lineal con matrices de varianzas y covarianzas no escalares,

659

Ωεε 'E

que se suele denominar, en la literatura econométrica, modelo de regresión lineal generalizado.

En primer lugar, analizaremos qué consecuencias tiene sobre los estimadores MCO de los coeficientes de regresión, la relajación del supuesto de perturbaciones esféricas.

Seguidamente, introduciremos un método de estimación alternativo al MCO que tendrá en cuenta la información que recoge la matriz de covarianzas Ω . Este método se conoce con el nombre de mínimos cuadrados generalizados, MCG.

Como veremos, en el caso particular de que TIΩ 2 , ambos métodos de estimación coinciden.

Observación. Matriz de covarianzas de las perturbaciones. Sea el modelo de regresión lineal generalizado siguiente:

εβXy

Donde Ω'0 E,E y X , es una matriz no estocástica de rango k .

Bajo los supuestos del modelo, el estimador MCO de β , es lineal e insesgado con matriz de varianzas y covarianzas dada por,

11

X'XΩX'XX'XβV

ˆ

Se puede demostrar que si la matriz de covarianzas de las perturbaciones no es

escalar, el estimador habitual de la matriz de varianza 1X'XβV

2σˆ , es un estimador sesgado de la misma. Esto tiene graves consecuencias a la hora de realizar contrastes de hipótesis sobre el vector de coeficientes β , porque los estadísticos habituales, no se distribuyen

como una F de Snedecor, ni como una t de Student, de forma que si se compara el valor del estadístico muestral con el correspondiente a esas distribuciones, se puede llegar a una mala elección de la región crítica y a conclusiones erróneas. Por otro lado, el estimador MCO de β , es óptimo si se cumplen todos los supuestos

básicos del modelo de regresión lineal. Al relajar uno de los supuestos, no se puede aplicar el teorema de GAUSS-MARKOV y nada nos garantiza que el estimador MCO de β , del modelo especificado, sea el de menor varianza dentro de la clase de

estimadores lineales e insesgados. Intuitivamente, es razonable pensar que podemos obtener un estimador más eficiente incorporando la nueva información que tenemos en el modelo a través de la matriz de covarianzas no escalar

Ω'uu E y que no es tenida en cuenta por el método de MCO.

660

15.3. Mínimos Cuadrados Generalizados

El método de estimación de mínimos cuadrados generalizados, se basa en el criterio de estimación mínimo cuadrática, pero la función de distancia a minimizar es distinta a la de este criterio, ya que incorpora la información adicional, en la matriz de varianzas y covarianzas, de las perturbaciones Ω .

La función objetivo que vamos a minimizar, viene dada por

βXYΩβXY 1' ˆˆMinβ

o equivalentemente, si escribimos 2Ω , donde es conocida y 2 es un factor de escala

βXYβXY 1' ˆˆMin

A lo largo de este tema vamos a trabajar indistintamente con la matriz Ω o 2 .

El factor de escala 2 no es relevante a la hora de minimizar la suma de cuadrados ponderada con respecto a β . Lo que si es relevante, es la

información incorporada en .

En el criterio MCO, la función objetivo consta únicamente de la suma de cuadrados de las desviaciones βXY ˆ . En la “nueva” función objetivo aparece, como matriz de ponderaciones la inversa de , incluyendo de esta manera, la información existente sobre la dispersión y correlación de las desviaciones βXY ˆ .

De las condiciones de primer orden del problema de minimización, se obtiene el sistema de k ecuaciones normales:

YXβXX 1'MCG

1' ˆ

Cuya solución, es el estimador de mínimos cuadrados generalizados

YXXXβ 1'11'MCG

ˆ

Se puede demostrar que el estimador MCG de β , es lineal, insesgado y

óptimo dentro del marco del modelo de regresión lineal generalizado.

Este resultado, se conoce con el nombre de Teorema de AITKEN y es una generalización del Teorema de GAUSS-MARKOV.

661

Observación. Otra forma de derivar la función criterio y obtener el estimador MCG, se basa en transformar el modelo de forma que la matriz de varianzas y

covarianzas de sus perturbaciones, sea escalar. Dado que 1 , es una matriz

simétrica y definida positiva, existe una matriz P no singular, tal que PP'1 .

Por lo tanto TIPP' . Este resultado sugiere la siguiente transformación del modelo original:

PεβPXPy

Donde TEyE IPPεε0Pε '' 2 . El modelo transformado, satisface todas las hipótesis básicas, será ELIO. La función objetivo para el modelo es:

XβyXβyPXβPyPXβPy 1'' Min

La solución de las condiciones de primer orden de este problema de minimización es, de nuevo, el estimador de mínimos cuadrados generalizados,

yXXXPPyXXPPXβ 1'11''1''MCG

ˆ

Se puede demostrar fácilmente que si TI , el estimador MCGβ es igual

que el estimador MCOβ . ¿Por qué?

La matriz de varianzas y covarianzas del estimador MCGβ , es

11'MCG XXβV

2ˆ

Un estimador insesgado de la matriz de varianzas y covarianzas, viene dado por

11'MCG XXβV

2ˆˆˆMCG

Donde el estimador insesgado del factor de escala 2 , es

kT

ˆˆˆ MCG

MCG

1'

MCG βXyβXy2

Si suponemos que la perturbación ε , sigue una distribución normal, se puede obtener la siguiente distribución para el estimador MCG:

11'MCG XXβ~β 2,Nˆ

con lo que podemos contrastar restricciones lineales sobre los coeficientes del tipo Rβ:0H con el estadístico:

662

k-T q,F~

ˆ

q/ˆˆ

FMCG2

rβRRXXRrβR MCG

1'11''

MCG

Siguiendo las reglas de decisión habituales.

El estimador MCGβ es función de y, por lo tanto, para obtenerlo es

preciso conocer esta matriz de varianza y covarianzas.

Observación. En la práctica, es muy difícil que la matriz sea conocida. La solución a este problema pasa por obtener un estimador de la misma que tenga buenas propiedades y sustituirlo en la expresión del estimador MCG:

yXXXβ 1'11'MCGF

ˆˆˆ

Este estimador se conoce con el nombre de estimador de mínimos cuadrados generalizados factibles, MCGF.

El estimador MCGFβ es una función no lineal de e y , lo que dificulta en gran

manera la derivación analítica de sus propiedades en muestras pequeñas. Bajo ciertas condiciones de regularidad, y si el estimador de es consistente, se puede

demostrar que el estimador MCGFβ posee propiedades asintóticas deseables; es

decir, es consistente y se distribuye asintóticamente como una normal:

1MCGF G0ββ 2,NˆT d

Donde: Tlim

T

X'XG

1

La estimación de la matriz de varianzas y covarianzas, , crea muchos problemas en la práctica ya que significa tener que estimar, además de los k coeficientes de regresión, T varianzas y 21 /)T(T covarianzas, con solo T observaciones disponibles. ¿Por qué?

Además, el número de parámetros que hay que estimar crece con el número de observaciones. Para poder estimar con T observaciones, tanto la matriz , como

el vector de coeficientes β , es preciso imponer algún tipo de restricción sobre los

parámetros contenidos en . Una solución a este problema consiste en modelar las varianzas y covarianzas de las perturbaciones en función de un número pequeño de parámetros que no se incremente con el tamaño muestral.

15.4. Heterocedasticidad

Si la varianza del término de perturbación del modelo de regresión lineal no es constante para todas las observaciones se dice que es heterocedástica, o que existe heterocedasticidad en las perturbaciones.

663

La heterocedasticidad puede surgir en numerosas aplicaciones económicas, aunque es más común en el análisis de datos de sección cruzada.

Ejemplo 15.1. En los estudios que analizan el consumo o gasto familiar, es frecuente encontrar una mayor variabilidad del gasto realizado por familias de renta alta que por familias de renta baja. Esto se debe a que un mayor nivel de renta permite un mayor margen para la realización de gastos, y por lo tanto, una mayor varianza. Lo mismo ocurre en estudios sobre beneficios de las empresas, cuya varianza puede depender del tamaño de la empresa, de la diversificación de su producto, de las características del sector industrial al que pertenezca, etc., y por lo tanto, puede variar a través de las distintas empresas.

Suponiendo que no existe autocorrelación en las perturbaciones, la heterocedasticidad implica la siguiente estructura de la matriz de varianzas y covarianzas:

2

22

21

00

00

00

T

................E

Ωεε '

Normalmente, en la práctica, no sabemos de antemano si hay o no problemas de heterocedasticidad en las perturbaciones, por lo que se han desarrollado un gran número de métodos para contrastar la hipótesis nula de igualdad de varianzas u homocedasticidad.

Esta gran variedad, se debe a que la especificación de la hipótesis alternativa de heterocedasticidad, no suele ser conocida y puede ser más o menos general.

A continuación se explican someramente algunos de los contrastes más utilizados en la literatura.

Contraste de Goldfeld y Quandt (1965)

En determinados contextos, aunque no conozcamos la forma de la heterocedasticidad, tenemos sospechas de que las varianzas, T,,i;i 12 mantienen una relación monótona con los valores de alguna variable Z.

664

Ejemplo 15.2. En el análisis del gasto familiar, podemos suponer que la varianza del gasto depende del nivel de renta de cada familia, es decir, que )R(G ii

22 , donde )(G es una función creciente con la renta

familiar y 2 es un factor de escala.

En estos casos, para contrastar la hipótesis nula de homocedasticidad, esto es:

222

210 T:H

podemos proceder como sigue.

Supongamos que nuestra hipótesis alternativa es ,G iZ22

21 , donde

)(G , es una función monótona creciente en iZ que puede ser o no uno de los regresores incluidos en el modelo de regresión.

Los pasos que se siguen, son:

1.- Ordenar las observaciones correspondiendo a un ordenamiento de menor a mayor de la variable iZ .

2.- Eliminar p observaciones centrales dando lugar a dos bloques de 2/pT observaciones, 1T y 2T respectivamente; las observaciones centrales que se eliminan permiten mayor independencia entre los dos grupos. El número de observaciones en cada grupo ha de ser mayor que el número de parámetros que tenemos que estimar. Habitualmente, se suele tomar la tercera parte de la muestra disponible.

3.- Estimar el modelo de regresión separadamente para cada grupo de observaciones.

4.- Construir el siguiente estadístico de contraste que, bajo la hipótesis nula de homocedasticidad y suponiendo que la perturbación se distribuye como una normal de media cero y no está serialmente correlacionada, sigue una distribución F de Snedecor:

k2Tk,1TF

~kT

kTGQ

2

1

1'1

2'2

ee

ee

Donde, 2'2 ee es la suma de cuadrados de residuos de la regresión de Y

sobre X en el segundo grupo de observaciones, y 1'1 ee es la suma de

cuadrados de residuos de la regresión Y sobre X utilizando el primer grupo de observaciones.

665

Mientras que, bajo la hipótesis nula, las varianzas deben ser iguales, bajo la hipótesis alternativa, crecerán de un grupo a otro. Cuanto más difieran estas sumas de cuadrados, mayor será el valor del estadístico, y por lo tanto, mayor evidencia habrá en contra de la hipótesis nula.

Rechazaremos H0, a un nivel de significación , si:

kT,kGQ 2F 1T

Este contraste se puede utilizar, en principio, para detectar heterocedasticidad de forma general, aunque está “pensado” para alternativas específicas donde se supone un crecimiento de las varianzas en función de una determinada variable.

Si en realidad el problema no es ese, sino que existe otra forma de heterocedasticidad, el estadístico puede no captarla y no ser significativo.

Contraste de White (1980)

Con este método podemos contrastar la hipótesis nula de homocedasticidad frente a una alternativa general de heterocedasticidad.

Para la construcción del estadístico de contraste no se necesita una especificación concreta de la heterocedasticidad bajo la alternativa.

White, derivó este contraste comparando dos estimadores de la varianza de los estimadores MCO:

11

12

2

1

XXXXXX)ˆ(V.

XXˆˆV.

'''WHITE

'

S

Donde, S es una matriz diagonal cuyos elementos, son los residuos mínimo-cuadráticos ordinarios al cuadrado

222

21 Te,,e,ediagS

El estimador )ˆ(VWHITE es consistente independientemente de cómo sea la matriz , siempre que esta sea diagonal.

Bajo la hipótesis nula de homocedasticidad, ambos estimadores, 1 y 2, son consistentes, mientras que bajo la alternativa de heterocedasticidad, el estimador βV ˆˆ no lo es.

La forma operativa de realizar el contraste se basa en la siguiente regresión

T,,,iXXe isijijs

k

js

k

ji 21

10

2

666

Ejemplo 15.3. De este modo, si tuviéramos que contrastar a través de este test un modelo que tuviera tres regresores, procederíamos a realizar la siguiente regresión

T,,,iXXe isijijsjsj

i 2133

10

2

Esto es,

T,,,iXX

XXXXe

isiiss

siiss

siiss

i

2133

3

3

22

3

211

3

10

2

Con lo que queda finalmente el siguiente modelo a estimar,

T,,,iX

XXXXXXXXe

ii

iiiiiiiii

212333

3223222231132112

21110

2

Contrastar la hipótesis nula de homocedasticidad, es equivalente a contrastar que todos los coeficientes de esta regresión, exceptuando el intercepto, son conjuntamente cero, es decir:

s,j:H js 00

Se utiliza como estadístico de contraste 2TR , donde 2R es el coeficiente de determinación de ésta regresión.

Se puede demostrar que bajo la hipótesis nula p~a

2 , donde p es el número de regresores en la regresión sin incluir el término constante. Rechazaremos 00 js:H si el valor muestral del estadístico excede el

valor crítico de las tablas 2 , elegido un nivel de significación.

Este contraste tiene la ventaja de ser muy flexible por no tener que especificar la hipótesis alternativa; pero si se rechaza la hipótesis nula de homocedasticidad no indica cual puede ser la dirección a seguir.

El contraste de White puede recoger otro tipo de problemas de mala especificación de la parte sistemática: omisión de variables relevantes, mala forma funcional, etc. Esto es correcto si se identifica cuál es el problema; en caso contrario, la solución que se tome puede estar equivocada.

Contraste de Breusch y Pagan (1979)

667

Breusch y Pagan, derivan un contraste de heterocedasticidad donde la hipótesis alternativa es bastante general

iiA G:H Zα ' 022

Zi es un vector de variables exógenas que pueden ser las explicativas del modelo y la función )(G no se especifica.

La hipótesis nula del contraste, es la de homocedasticidad que, dada la alternativa, implica contrastar:

0α :H0

Una forma operativa de realizar el contraste, es la siguiente:

1. Utilizando los residuos MCOβXYe ˆ se construye la siguiente serie

T,,ie

r ii 1

2

ee'

2. Se obtiene la suma de cuadrados explicada (SCE) de la siguiente regresión

T,,ir iii 10 Zα '

3. Se utiliza como estadístico del contraste SCE/2, que bajo hipótesis nula se distribuye asintóticamente )S(2 , donde S son los grados de libertad igual al número de variables en Zi. Rechazaremos hipótesis nula a un nivel de significación (), si el valor muestral del estadístico excede el cuantil

S2 .

15.5. Mínimos cuadrados generalizados o ponderados

Existen casos en los que es posible conocer la estructura de la matriz de varianzas y covarianzas .

Ejemplo 15.4. En los casos de agregación de datos de sección cruzada o temporal. Si consideramos como observaciones en el modelo de regresión las medias de datos agrupados, la varianza de la perturbación en el modelo de regresión dependerá inversamente del número de

observaciones en cada grupo iT esto es 122 iTi . Si en lugar de las

medias consideramos simplemente la suma de las observaciones en cada

668

grupo, la varianza de la perturbación es proporcional al número de

observaciones en cada grupo iTi22 .

El vector de coeficientes se puede estimar por MCG resolviendo el problema de minimización que, para el problema de heterocedasticidad, toma la forma:

2

2

1 i

iT

i

YMin

βXXβYΩXβY

'i1'

En la suma de cuadrados, se ponderan más las desviaciones βX'iiY con menor varianza que las de mayor varianza, por ello, también se conoce este método como de mínimos cuadrados ponderados.

En el caso de heterocedasticidad, la matriz 1Ω es diagonal

222

21

T,,,diag 1Ω

entonces el estimador MCG se puede obtener también estimando por MCO el modelo transformado

T,,,iuXXY

i

i

i

kik

i

i

ii

i 2122

1

T,,,iuXXXY *i

*kiki

*i

*i 212211

Donde

ji,uuE

i,uE

uE

uE

*j

*i

i

i

i

i*i

*i

0

1

0

2

2

2

22

De esta forma se satisfacen todas las condiciones para que el estimador MCO del vector en el modelo sea un estimador ELIO. Ahora bien, este estimador no es más que el estimador de MCG:

YXXXYXXXYXXXˆ ''''**'**'MCG

1111111

669

15.6. Mínimos Cuadrados Generalizados Factibles

Cuando no se conocen los elementos de Ω , no es posible estimar T varianzas más k coeficientes de regresión con solo T observaciones.

Una forma de abordar el problema, es “modelar” las varianzas de las perturbaciones en función de un vector (sx1) de variables que son observables, iZ (que pueden ser parte o no del conjunto de regresores), y de un vector de parámetro θ , cuya dimensión es estimable y no crece con el tamaño muestral:

i,,ii G θZ2

de forma que Ω(θ)Ω

Una vez obtenido un estimador θ , se puede definir un estimador )θΩ(Ω ˆˆ y estimar el vector de coeficientes β por el método de mínimos cuadrados generalizados factibles.

Sabemos que, bajo ciertas condiciones de regularidad, si el estimador Ω es consistente, el estimador MCGFβ tiene buenas propiedades asintóticas.

Por lo tanto, una primera etapa para obtener el estimador MCGF de β se basa en obtener un estimador consistente de θ .

Una forma de conseguirlo, es considerar la siguiente aproximación del residuo mínimo-cuadrático con la perturbación:

errorˆXYˆYe iMCO'iiii βxβx '

iMCO'i

Dado que

θZ ,GE iii 22 ,

Se tiene que,

errorGei θ,Zi2

Si θ,ZiG es lineal en θ , por ejemplo iZθ'ˆ , se puede considerar la siguiente regresión para estimar los parámetros θ :

T,,ie ii 12 i'Zθ

En esta regresión, el término de perturbación es una combinación de los errores acumulados en las aproximaciones.

Se puede demostrar que, bajo ciertas condiciones, el estimador de θ así derivado, es consistente.

670

Una vez obtenido un estimador consistente de θ , se sustituye en la función suma de cuadrados ponderada y se minimiza con respecto a β , obteniéndose el estimador MCGF.

Estimador de White

Si estimamos los coeficientes de regresión β por MCO en presencia de heterocedasticidad, estos estimadores son insesgados, pero no eficientes.

Además, estimador de la matriz de varianza y covarianza de

1'MCO XXβ

2,ˆ , es inconsistente, por lo que los estadísticos de contraste

habituales, no son válidos para hacer inferencia sobre β , ni siquiera para muestras grandes.

Por otro lado, en los apartados anteriores hemos visto cómo, para aplicar métodos de estimación más apropiados, es preciso conocer la matriz Ω , o al menos, cuál es la estructura de la heteocedasticidad para poder especificar Ω(θ)Ω .

Dada la dificultad de conocer la forma de Ω , sería interesante poder contar con una estimación consistente de MCOβV ˆ y de esta forma derivar

estadísticos válidos, al menos asintóticamente, para contrastar hipótesis sobre el vector de coeficientes β .

White (1980), demuestra que es posible obtener un estimador consistente de la matriz de varianzas y covarianzas de MCOβ , sin tener que hacer

ningún supuesto sobre Ω , salvo que es una matriz diagonal.

Para ello, sólo es necesario obtener un estimador consistente de ΩXX' . White demuestra que, bajo ciertas condiciones de regularidad y siendo

T,,,ei 1 el residuo mínimo-cuadrático ordinario,

222

21 Te,,e,ediagSdonde

Tlimp

Tlimp

XΩXXSX ''

Por lo tanto, se puede utilizar:

1''1'WHITE XXXSXXXV

Tˆ

Como un estimador consistente de la matriz de varianzas y covarianzas asintóticas de MCOβT .

Este resultado es muy importante, ya que si estimamos por MCO en presencia de heterocedasticidad y utilizamos este estimador de la matriz de covarianzas, es posible realizar inferencia válida sobre los coeficientes β , al menos para muestras grandes, basándonos en el siguiente resultado:

671

qˆˆˆT d 2

rβRRVRrβR MCO

1'WHITE

'

MCO

Sin tener que especificar a priori la estructura de la heterocedasticidad.

15.7. Autocorrelación

En el modelo de regresión, el término de perturbación engloba todos aquellos factores determinantes de la variable endógena que no están recogidos en la parte sistemática del modelo. Estos factores pueden ser innovaciones, errores de medida de la variable endógena, variable omitida, etc.

Si estos factores están correlacionados en el tiempo o en el espacio, entonces no se satisface la hipótesis

ji,)(E ji 0

Este fenómeno, se conoce con el nombre de autocorrelación o correlación serial, en el caso de datos de series temporales, y de correlación espacial en el caso de datos de sección cruzada.

En los modelos que se especifican relaciones en el tiempo entre variables, la propia inercia de las series económicas donde el impacto de una perturbación en un período de tiempo, puede tener efectos en subsiguientes períodos, puede generar autocorrelación en el término de perturbación.

Esta dinámica, aunque no sea relevante en media, refleja un patrón sistemático de comportamiento que hemos de considerar a la hora de estimar el modelo. La matriz,

Ωεε )'(E

tiene elementos fuera de la diagonal principal, distintos de cero.

Los coeficientes de regresión, habrán de ser estimados, en consecuencia, por métodos de mínimos cuadrados generalizados.

Si no conocemos la matriz Ω , es necesario estimarla, lo que significa estimar 21 /)T(T covarianzas distintas con solo T observaciones, lo que no es factible.

Para poder estimar los elementos de Ω , es necesario especificar la autocorrelación de las perturbaciones en términos de un proceso que depende de un número pequeño y estimable de parámetros.

672

Observación. El tipo de procesos estocásticos más utilizados para especificar el comportamiento de las perturbaciones, son los denominados modelos autorregresivos y de medias móviles, ARMA (p,q). Esta clase de procesos incluye, como casos particulares, los autorregresivos de orden p, AR (p), y de medias móviles de orden q, MA (q). La forma general de un proceso AR (p), es:

tptpttt 2211

Donde t , se distribuye independientemente en el tiempo con media cero y

varianza constante 2 y p,, 1 , son parámetros constantes en el tiempo. El

proceso autorregresivo más utilizado dentro del marco del análisis de regresión, es el proceso de orden uno, AR (1):

ttt 1

Donde la perturbación en un período t , depende de la perturbación en el período anterior 1t , y un término aleatorio o innovación t que suponemos que es ruido

blanco, es decir, tiene media 0, varianza constante 2 y covarianzas nulas. Si

sustituimos repetidamente obtenemos:

iti

it

0

La perturbación t , es una combinación lineal de las innovaciones pasadas t con

ponderaciones 21 ,, que decaen geométricamente, si el valor del coeficiente

está acotado en el intervalo (-1, 1), lo que implica que las innovaciones it tienen

menor influencia en t cuanto más alejadas están en el tiempo.

Es fácil comprobar que el vector de perturbaciones ε , tiene media cero y matriz de varianzas y covarianzas:

2

321

32

2

12

2

2

1

1

1

1

1

TTT

T

T

T

E 'εε

De esta forma, dado el valor de , la matriz Ω , queda totalmente determinada, a

excepción del factor de escala 2 .

Un proceso autorregresivo utilizado con datos trimestrales para recoger efectos estacionales en la perturbación, es el siguiente AR(4):

ttt 4

El proceso de medias móviles general, MA (q), es:

673

qtqttt 11

Donde se supone que t , es ruido blanco con media cero y varianzas 2 y

q, 1 son parámetros constantes.

El proceso de medias móviles más sencillo, es el MA (1):

1 ttt

A diferencia de los procesos autorregresivos, en el proceso MA (1) la perturbación

t es una combinación lineal de solo dos innovaciones t y 1t por lo que se dice

que es un proceso de memoria corta. En este caso, el vector de perturbaciones tiene media cero y matriz de varianza y covarianza:

2

2

2

2

2

2

1000

010

01

001

'uuE

Por último, el modelo más general es el modelo autorregresivo de medias móviles, ARMA (p, q), donde la perturbación t depende de sus valores pasados y de la

innovación t y su pasado:

qtqtttttt 111211

Cuando modelamos la dependencia en el tiempo de t mediante un proceso ARMA

(p, q), estamos especificando la estructura de la matriz de varianza y covarianza

Ω en términos de los parámetros qp ,,,,,, 112 .

La elección de un proceso ARMA (p, q) concreto, depende en cada caso, de las características de los datos y del estudio que estemos realizando. A lo largo de este tema vamos a suponer, para simplificar la explicación, que las perturbaciones siguen un proceso AR (1).

Contraste de autocorrelación de Durbin–Watson (1951)

En la práctica, no se conoce a priori si existe autocorrelación ni cuál puede ser el proceso más adecuado para modelarla.

Existen varios contrastes de autocorrelación que se construyen utilizando los residuos mínimo–cuadráticos ordinarios.

Uno de estos contrastes, es el derivado de Durbin-Watson, para detectar la existencia de un proceso AR(1) en el término de perturbación.

La hipótesis nulas, es la no existencia de autocorrelación,

H0: = 0

674

El estadístico de contraste, es:

2

1

21

2

t

T

t

tt

T

t

e

ee

DW

donde te , son los residuos mínimo–cuadráticos ordinarios.

Si el número de observaciones es suficientemente grande, este estadístico se puede calcular mediante la aproximación:

DW 12

siendo el coeficiente estimado por MCO en la regresión:

T,,tee ttt 21

A partir de la relación se puede establecer el rango de valores que puede tomar el estadístico:

),(DWˆ.

),(DWˆ.

DWˆ.

02103

24012

201

Durbin y Watson tabularon los valores críticos, el máximo du y mínimo dL, que depende de la matriz de datos X. Estos valores críticos definen la zona de duda, donde no es posible afirmar o rechazar la existencia de autocorrelación, las zonas de autocorrelación positiva y negativa, y la zona de no existencia de autocorrelación. La comparación del estadístico empírico DW con la escala teórica de variabilidad 0 a 4, donde se explicitan los valores críticos, permite concluir si se acepta o rechaza la hipótesis nula.

Zona de Contraste de Autocorrelación (+)

Zona de Contraste de Autocorrelación (-)

Autocorre-lación (+)

Zona de duda

No hay Autocorrelación Zona de

duda Autocorre-lación (-)

0 dL du 2 4-du 4-dL 4

Este contraste se puede considerar también, como un contraste de mala especificación del modelo. La omisión de variables relevantes, una forma funcional poco adecuada, cambios estructurales no incluidos en el modelo, etc., pueden originar un estadístico DW significativo. Esto nos puede llevar a errores, si consideramos que hay evidencia de autocorrelación y se modela con un proceso AR (1). Por otro lado, si t sigue un proceso

675

distinto a un AR (1), puede que la significatividad del estadístico DW se vea afectada.

En resumen, el estadístico de Durbin-Watson, es útil porque nos indica la existencia de problemas en el modelo, pero no ayuda a establecer cuál es el modelo alternativo.

15.8. Estimación bajo Autocorrelación

Supongamos que las perturbaciones siguen un proceso autorregresivo de orden uno, AR (1), de forma que el modelo de regresión lineal generalizado, es:

21

221

0

1

,NID~

T,,tXXY

tttt

tktktt

Dado este modelo, vamos a explicar distintos métodos de estimación.

Mínimos cuadrados generalizados.

Si el valor de es conocido, el estimador de mínimos cuadrados generalizados de β se obtiene minimizando la función criterio. En este caso,

como Σ es una matriz simétrica y positiva definida, existe una matriz P tal

que '1 PP , y el estimador de mínimos cuadrados generalizados se puede obtener, también estimando por MCO, el modelo transformado.

En el caso de un modelo AR (1), la matriz P , es la siguiente:

1000

0010

001

0001 2

P

y el modelo transformado, se puede escribir como:

676

T,,t

XXXXYY

XXY

tktktktttt

kk

2

1

1111

1122211

112

212

22

112

Es interesante señalar que la primera observación sufre una transformación diferente a todas las demás.

La suma de cuadrados que tenemos que minimizar con respecto a β , es:

2

12

112

22211

2

1

1

jtjtj

k

jtt

T

t

ktkt

XXYY

XXYS

El primer sumando proviene de la primera observación y el segundo, no es sino la suma de cuadrados de residuos del modelo transformado para

Tt ,,2 .

Mínimos Cuadrados Generalizados Factibles

En el caso de que sea desconocido, no se puede obtener el estimador de β por MCG directamente, sino que hay que estimar conjuntamente y β .

Existen varios métodos que estiman conjuntamente y β , basándose en el modelo transformado, de lo que vamos a estudiar dos: el método Durbin y el método de Cochranne-Orcutt.

Ambos métodos de estimación se basan en que las perturbaciones siguen un proceso AR (1), por lo que el modelo transformado apropiado es

T,,t

XXXXYY tktktktttt

2

1 1122211

pero no tienen en cuenta la transformación de la primera observación.

Método de Durbin

La estimación por el método de Durbin (1960), se realiza en dos etapas:

1. Se estima por MCO en el modelo:

tt,kkktkt,ttt XXXXYY 11222211

Donde k,,i,,,T,,t ii 212 11 .

677

Dadas las propiedades de t el estimador de por MCO , es

consistente.

2. Se utiliza el estimador , para obtener el modelo transformado:

tktktktttt VXˆXXˆXˆYˆY 1122211 1

y estimamos el vector de coeficientes β por MCO en este modelo, es decir, minimizando con respecto a β , la suma de cuadrados siguientes:

2

1jtjtj

k

2j11tt

T

2t

2 XX1YYS

ˆˆˆ

Método de Cochrane-Orcutt

El método de Cochrane-Orcutt (1949), también se realiza en dos etapas:

1. Partiendo de 0 , se estima por MCO el modelo:

T,,tuXXY tktktt 1221

El estimador MCO de β , es consistente. En segundo lugar, se obtiene un estimador consistente de , esto se logra estimando por MCO la regresión:

T,,tee ttt 21

2. Se utiliza para obtener el modelo transformado:

tktktktttt XˆXXˆXˆYˆY 1122211 1

y se estima β por MCO en este modelo minimizando la suma de cuadrados

2

12

112

1

jtjtj

k

jtt

T

tXˆXˆYˆYS

Este proceso en dos etapas, se suele realizar repitiendo las regresiones hasta que las estimaciones de y β , no varíen dentro de un margen de valores.

Es preciso tener en cuenta que los dos métodos considerados minimizan la suma de cuadrados, que no tiene en cuenta la primera observación, por lo que solo son aproximaciones al estimador de mínimos cuadrados generalizados factibles. Asintóticamente, ambos son equivalentes al

678

estimador MCGF, pero para muestras pequeñas, puede haber diferencias, a veces, importantes.


Problema 15.1: Heterocedasticidad en series de datos de corte transversal

En el modelo estimado a partir de la Tabla 15.1, contraste las hipótesis de homocedasticidad.

Problema 15.2: Contrastes sobre la perturbación aleatoria

En el modelo estimado a partir de la Tabla 15.4, contraste las hipótesis de homocedasticidad, no autocorrelación y normalidad.

Problema 15.3: Especificación y Estimación de modelos lineales

Especifique un modelo para estudiar una temática económica de su interés, construya la tabla de datos, realice la estimación y contraste la validez de los supuestos.

BIBLIOGRAFIA

Gujarati, D. (2004) "Econometría". 4°Edición. Mc.Graw Hill. México.


Novales, Alfonso. (1993) "Econometría". Editorial McGraw Hill. Madrid.


Capítulo 16. MODELOS DINAMICOS ................................... 681 16.1. Características .................................................................. 681 16.2. Estimación ....................................................................... 682

Estimación ad hoc .................................................................. 682 Restricciones a priori sobre los ............................................. 683

16.3 Enfoque de Koyck ............................................................... 683

Estadístico h de Durbin ......................................................... 684 Estructura de rezagos .......................................................... 685

El Modelo de Expectativas Adaptativas....................................... 686 Modelo de ajuste de existencia o modelo de ajuste parcial ............ 688

Método de variables instrumentales ....................................... 690 16.4 Modelo de rezagos distribuidos de Almon ............................... 690

CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS ............... 694

Caso 16.1: Modelo de Rezagos Distribuidos de Almon para la función Consumo .................................................................................. 694

Prueba de Granger ................................................................. 695 Estimación del Modelo de rezagos distribuidos de Almon .............. 698 Estimación del Modelo de Almon en Eviews ................................ 701

BIBLIOGRAFIA ................................................................. 707

680

681

Capítulo 16. MODELOS DINAMICOS

16.1. Características

La característica principal de los modelos econométricos dinámicos es tener una variable rezagada. Esto indica que la influencia de una variable explicativa ( X ) sobre la dependiente ( Y ) se efectiviza en un lapso de tiempo, siendo este lapso el que se denomina rezago.

Las razones por las cuales se producen rezagos obedecen a causas sicológicas (no se cambia de hábito de manera inmediata), tecnológicas (la incorporación de la nueva tecnología disponible se realiza a lo largo del tiempo) o institucionales (por ejemplo, una buena alternativa financiera puede aprovecharse hasta que existan fondos disponibles).

Se distinguen dos tipos:

Modelo de rezagos distribuidos: donde la variable a rezagar es una variable explicativa exógena.

ttttt XXXY 22110 (1)

Los rezagos distribuidos pueden ser finitos o infinitos, de acuerdo a que se conozca el número exacto de rezagos.

Modelos autorregresivos: donde la variable a rezagar es la variable dependiente

tttt YXY 1 (2)

En un modelo de rezagos distribuidos en el tiempo

tktktttt XXXXY 22110 (3)

0 es el multiplicador o propensión que mide el impacto de corto plazo,

321 informan el impacto intermedio

682

ki 210 indica el multiplicador de rezagos distribuidos de

largo plazo o total

16.2. Estimación

A partir del modelo de rezagos distribuidos infinitos

ttttt XXXY 22110 (4)

Se pueden adoptar dos modalidades de estimación

1. estimación ad hoc

2. restricciones a priori sobre los

Estimación ad hoc

Este enfoque lo adoptaron Alt (1942) y Tinbergen (1949). Ellos sugieren que la estimación se realice secuencialmente, lo cual significa hacer:

ntesucesivame

XXXfY

XXfY

XfY

ttt

tt

t

),,(

),(

)(

21

1

El procedimiento se detiene cuando:

a. los coeficientes de la regresión comienzan a hacerse estadísticamente insignificantes, y/o

b. el coeficiente de por lo menos 1 variable cambia de signo

Las desventajas de este método radican en que

a. no está especificado qué tan largo es el rezago

b. a medida que se estiman rezagos sucesivos quedan menos grados de libertad

c. puede presentarse multicolinealidad

683

Restricciones a priori sobre los

En estos modelos se supone que los coeficientes siguen un patrón sistemático de comportamiento, se estudiarán el enfoque de Koyck y el polinomio de Almon.

16.3 Enfoque de Koyck

Se parte de un modelo de rezagos infinitos como el expresado en (4), se supone que todos los coeficientes tienen igual signo y que

kk 0 siendo 2,1,0k y 10 (5)

es la tasa de descenso o caída del rezago distribuido

1- es la velocidad de ajuste

El enfoque de Koyck (1954) postula que:

a. cada coeficiente sucesivo es inferior, lo que significa que con el paso del tiempo la influencia de la variable disminuye

b. 0 con lo que elimina la posibilidad de que los coeficientes cambien de signo

c. 1 le da menos peso a los más alejados en el tiempo

d. la suma de los coeficientes integrantes de un modelo indica el multiplicador de largo plazo finito

1

10k (6)

Como resultado, el modelo de rezagos infinitos puede escribirse como

ttttt XXXY 22

0100 (7)

684

La expresión (7) tiene parámetros no lineales, al rezagarlo un período se tiene:

132

020101 ttttt XXXY

multiplicando por

133

022

0101 ttttt XXXY (8)

Restando (8) de (7) se obtiene:

101 )1( ttttt XYY (9)

Reordenando

tttt YXY 10)1( (10)

donde t es un promedio móvil de los errores.

Este procedimiento se conoce como transformación de Koyck.

Las diferencias entre el modelo expresado en (10), respecto del expresado en (4), radica en la cantidad de parámetros a estimar. Además, (10):

a. no tiene multicolinealidad porque se reemplazó a las tX por 1tY

b. es un modelo autorregresivo derivado de un modelo de rezagos distribuidos

c. es posible que presente correlación entre la explicativa y el término de error

d. es posible la autocorrelación de errores por la construcción

e. no puede usarse el estadístico Durbin-Watson habitual, sino la h de Durbin

Estadístico h de Durbin

En estos modelos donde la variable dependiente se encuentra explicada por sus propios rezagos, la autocorrelación se mide con el estadístico h de Durbin

)ˆ(var1ˆ

n

nh

685

donde n tamaño de muestra

var varianza del coeficiente del la variable rezago

estimación de

se aproxima a partir del estadístico Durbin Watson (d)

d2

11ˆ

h se distribuye )1,0(N y la hipótesis nula es no existencia de autocorrelación.

Estructura de rezagos

La mediana de rezagos y el rezago medio son medidas que caracterizan la naturaleza de la estructura de rezagos.

Mediana de rezagos log

2log 10 (11)

Indica el tiempo que se necesita para alcanzar el 50% del cambio total en Y

Con 2.0 Mediana = 0.4306 menos de la mitad del periodo

Con 8.0 Mediana = 3.1067 más de tres periodos

Con 2/1 Mediana = 1 necesita 1 periodo

Si todos los son positivos

Rezago medio

1

(12)

Si 2/1 rezago promedio = 1

La mediana y la media de los rezagos sirven como medida resumen de la velocidad con la cual Y responde a X .

686

El Modelo de Expectativas Adaptativas

El modelo de Koyck se obtiene por un proceso puramente algebraico pero está desprovisto de cualquier soporte teórico. Esto puede suplirse si se supone el siguiente modelo

ttt XY *10 (13)

Donde Y es la demanda de dinero

*X la tasa de interés esperada a largo plazo

el término de error

La variable expectativa no es directamente observable pero se puede proponer la siguiente hipótesis:

***11 tttt XXXX (14)

Con 10 denominado coeficiente de expectativas. (14) es conocido como hipótesis de expectativas adaptativas, expectativas progresivas o de aprendizaje por error popularizadas por Cagan (1956) y Friedman (1957).

Esta hipótesis establece que las expectativas son corregidas cada periodo por una fracción de la brecha entre el valor actual y el esperado de la variable.

Otra manera de plantear la hipótesis es sumar en ambos miembros *1tX y

sacar factor común

** )( 11 ttt XXX (15)

Lo que muestra que el valor esperado de la tasa de interés en el tiempo t es un promedio ponderado del valor actual de la tasa de interés en el tiempo y su valor esperado en el periodo anterior, con ponderaciones de y )( 1

Si 1 tt XX * , las expectativas se cumplen inmediatamente

Si 0 *t

*t XX 1 , hay expectativas estáticas, las condiciones prevalecen

a lo largo del tiempo

687

Sustituyendo (15) en (13)

ttt

tttt

XX

XXY

*1110

*110

)1(

)1( (16)

Si se rezaga (13) un periodo

11101 ttt XY * (17)

Se lo multiplica por )( 1

11101 1111 ttt XY )()()()( * (18)

Restando (18) a (16)

1

11111001

1

1111

tt

ttttt XXXYY

)(

)()()()( **

tttt YXY 110 1 )( (19)

Donde 11 ttt )(

Entre los modelos expresados en (13) y (19) se observan las siguientes diferencias:

a. en (13), 1 mide el cambio en Y ante cambios en el largo plazo

b. en (19), 1 mide el cambio promedio de Y ante cambios unitarios en el valor actual u observado de X

c. si 1 , los valores actuales y de largo plazo son iguales

d. en (19), 1 se obtiene luego de conocer

El modelo de expectativas adaptativas –expresado en (19)-, y el modelo de Koyck –expresión (10)-, son similares; ambos son autorregresivos y tienen igual término de error.

688

La hipótesis de expectativas adaptativas fue muy popular hasta la llegada de las expectativas racionales difundidas por Lucas y Sargent; éstas suponen que los agentes económicos individuales utilizan información actual disponible y relevante en la formación de sus expectativas y no se apoyan únicamente en experiencia pasada.

Modelo de ajuste de existencia o modelo de ajuste parcial

Esta es otra racionalización del modelo de Koyck dada por Marc Nerlove. Partiendo del modelo de acelerador flexible de la teoría económica, se supone que hay un nivel de existencias de capital de equilibrio -u óptimo deseado o de largo plazo- requerido para generar una producción determinada bajo unas condiciones dadas de tecnología y tasa de interés, entre otras.

Si el nivel de capital deseado *Y es función lineal de la producción X

ttt XY 10* (20)

Y dado que el capital deseado no es observable, Nerlove postula la siguiente hipótesis

11 tttt YYYY * (21)

Que es la hipótesis de ajuste parcial o de ajuste de existencias, donde:

10 es el coeficiente de ajuste

1 tt YY es el cambio observado

1 tt YY * es el cambio deseado

Pero,

1tt YY inversión (22)

Entonces la expresión (21) puede escribirse como

1 tt YYI *

También, eliminando paréntesis, (21) puede escribirse como

11 tttt YYYY *

689

11 ttt YYY * (23)

Sustituyendo (20) en (23)

110 1 tttt YXY

110 1 tttt YXY

tttt YXY 110 1 (24)

(24) se denomina modelo de ajuste parcial y puede considerarse demanda de existencias de capital de corto plazo

Una vez que se estima (24) es posible estimar la existencia de capital de largo plazo (ecuación 20) a partir del término : dividiendo los coeficientes 0 y

1 , y eliminando el término rezagado de Y , se obtiene la función de largo plazo.

En resumen, se tienen tres modelos:

Koyck 110)1( ttttt YXY (25)

Expectativas adaptativas

1110 )1()1( ttttt YXY (26)

Ajuste parcial tttt YXY 110 1 (27)

Todos tienen una estructura común:

o Ordenada al origen

o Una variable X

o Una variable rezagada

Es decir, todos son autorregresivos por naturaleza

690

Estos modelos tienen:

o Variable explicativa estocástica ( 1tY )

o Correlación serial (entre 1tY y X )

Por esto existe la posibilidad de que no puedan estimarse por mínimos cuadrados ordinarios. Los modelos expresados en (25) y (26) tendrán errores autocorrelacionados por la propia construcción. En la expresión (27) pueden existir errores homocedásticos y no autocorrelacionados, en cuyo caso es posible usar mínimos cuadrados ordinarios aun cuando las estimaciones sean sesgadas.

Método de variables instrumentales

Este método sugerido por Leviatán (1963) constituye una alternativa de estimación cuando no puede aplicarse mínimos cuadrados ordinarios y consiste en encontrar una variable altamente correlacionada con 1tY pero no con t

(término de error del modelo de Koyck o el de expectativas adaptativas).

La variable sugerida es 1tX que no está relacionada con los errores lo cual

genera estimaciones consistentes pero puede haber multicolinealidad lo cual dará lugar a estimadores ineficientes.

16.4 Modelo de rezagos distribuidos de Almon

El modelo de Koyck supone que los se reducen geométricamente a medida que el rezago aumenta, esto no es aplicable cuando tenemos situaciones como las planteadas en las Figuras 1 a 3.

Shirley Almon (1965) consideró que los coeficientes de los rezagos i podían ajustarse a un polinomio en i de grado m 1:

mmi iaiaiaiaa 3

32

210 (28)

La Figura 1 se corresponde con coeficientes que se ajustan por un polinomio de grado 2; la Figura 2 con un polinomio de grado 3 y la Figura 3 con un polinomio de grado 4. En general, un polinomio de grado 2 o grado 3, ajusta bien el comportamiento de los i .

1 Esto se basa en el Teorema de Weierstrass que dice que én un intervalo cerrado finito cualquier función continua puede ser aproximada mediante un polinomio de grado apropiado´

691

Figura 1 Figura 2

Figura 3

La técnica de Almon parte de un modelo finito de rezagos distribuidos

tktktttt XXXXY 22110 (29)

expresión que puede escribirse como

t

k

iitit XY

0

(30)

A efectos de simplificar la notación se supone que los coeficientes i se ajustan por un polinomio de segundo grado

2210 iaiaai (31)

Reemplazando (31) en (30)

t

k

iit

k

iit

k

iit

t

k

iitt

XiaXiaXa

XiaiaaY

0

22

01

00

0

2210

(32)

692

Definiendo las variables instrumentales

k

iitktttt

k

iitktttt

k

iitkttttt

XiXkXXZ

iXkXXXZ

XXXXXZ

0

222

21

22

0211

0210

21

21

(33)

y reemplazado en (32)

ttttt ZaZaZaY 221100 (34)

Este modelo se estima por MCO, si los errores son homocedásticos y no autocorrelacionados y ma tendrán las propiedades estadísticas deseables.

Las variables explicativas no están correlacionadas con el término de error pero sí puede haber alta correlación entre ellas por la manera en que fueron construidas. Si ocurriera este caso se debería eliminar la multicolinealidad a través de ACP.

Ahora bien, se ha llegado al final del modelo pero se está a mitad camino de lo que realmente se quiere conocer. El objetivo son los coeficientes de la variables explicativa rezagada y, lo que se tiene, son los coeficientes de variables que en su interior tienen una combinación de variables con rezagos.

Para calcular los coeficientes i , se debe hacer uso del supuesto inicial dado en (31), donde:

2210 iaiaai

Por lo que

Si 0i , 22100 0ˆ0ˆˆˆ aaa

Si 1i , 22101 1ˆ1ˆˆˆ aaa

Si 2i , 22102 2ˆ2ˆˆˆ aaa (35)

sucesivamente

693

Si ki , 2210 ˆˆˆˆ kakaak

¿Cuál es el desvío de los i ? También se debe calcular, a partir de los desvío

de ma

m

j pjpj

pjj

ji aaiaiiaiaaVarVar

0

22210 )ˆˆcov(2)ˆvar()ˆˆˆ()ˆ( (36)

Entonces:

)ˆˆˆ()ˆ( 22100 000 aaaVarVari

)aacov()aacov()aacov(

)avar()avar()avar()aaa(Var)ˆ(Vari ***

2121

2020

1010

222

112

0022

2101

1112

111111



2121

2020

1010

222

112

0022

2102

2222

222222



2121

2020

1010

222

112

0022

2103

3332

333333

)aacov(k)aacov(k)aacov(k

)avar(k)avar(k)avar(k)kakaa(Var)ˆ(Varki ***k

2121

2020

1010

222

112

0022

210

2

¿Qué problemas se plantean con este método?

Un problema que presenta la estimación de estos modelos es la reducción de los grados de libertad, tener un número importante de rezagos conduce a estimar un alto número de coeficientes que redunda en disminuir los grados de libertad. Además es posible que exista relación entre las variables explicativas.

694

La elección del grado del polinomio y de los términos de rezago es subjetivo.

Para determinar la cantidad de rezagos se puede utilizar un correlograma o el test de causalidad de Granger, pero con el grado del polinomio es prueba y error.

El procedimiento es estimar sucesivos modelos con distinto polinomio y, el que mejor modelo estimado arroje, ese será el polinomio a adoptar finalmente. La elección del modelo final puede hacerse a través de los criterios de información de Akaike o Schwarz, cuanto menor sean estos indicadores mejor modelo.

El método es flexible para incorporar diversas estructuras, no se encuentra la variable dependiente rezagada y, si se puede ajustar un polinomio de grado bajo, se reduce el número de coeficientes a estimar.


Caso 16.1: Modelo de Rezagos Distribuidos de Almon para la función Consumo

El objetivo es aplicar la técnica de Almon a los datos de Consumo y PBI de Argentina utilizando la información existente en la Tabla 12.4.

Uno de los problemas que se presenta es el desconocimiento de la relación de causalidad, ¿el comportamiento del consumo causa un comportamiento determinado en el PBI?, o ¿las variaciones en el PBI dan lugar a cambios en el consumo?

Para aproximar una respuesta a esos interrogantes es de utilidad el Test de Granger, que mide la causalidad cuando hay relación temporal del tipo adelanto rezago entre las variables.

695

Prueba de Granger

La prueba involucra la estimación de dos regresiones

m

it

m

jjtjitit

n

it

n

jjtjitit

YXX

YXY

12

1

11

1

donde se supone que t1 y t2 no están correlacionados.

Los pasos consisten en

1. regresar Y sobre los rezagos de Y para obtener la suma de los cuadrados de los residuos restringidos ( rSCR )

2. repetir la regresión anterior pero incorporando los términos rezagados de X para obtener la suma del cuadrado de los residuos sin restringir ( nrSCR )

3. se construye el estadístico

knSCR

mSCRSCRF

nr

nrr

/

/

que se distribuye como una knmF , ; donde:

m es el número de términos rezagados de X

k es el número de parámetros estimados en la regresión no restringida

4. Bajo la hipótesis nula de que el término rezagado de X no pertenece a la regresión

0:0 iH

si el valor de F calculado excede al crítico, a un nivel de significación de , se rechaza la 0H . Esto significa que los

términos rezagados de X pertenecen a la regresión.

Granger distingue 4 casos de causalidad

1. Unidireccional de X a Y : cuando los i son estadísticamente distintos

de cero y los i estadísticamente iguales a cero

2. Unidireccional de Y a X : cuando los i son estadísticamente iguales a

cero y los i estadísticamente distintos de cero

696

3. Retroalimentación o causalidad bilateral: cuando los i , i , i y i son estadísticamente distintos de cero.

4. Independencia: cuando el conjunto de coeficientes no es significativo.

Para aplicar el test se debe, en Eviews, abrir un grupo para las variables PIB y Consumo; luego en View-Granger Casuality se debe ingresar el número de rezagos a considerar (Lags to include):

La salida del test muestra la prueba de causalidad de PBI a Consumo y de Consumo a PIB. La hipótesis nula es que los coeficientes que acompañan a los términos rezagados de la variable explicativa se anulan.

En la primera línea del test cuando dice “PBI does not Granger Cause CONSUMO” quiere decir que el comportamiento del PBI no afecta las variaciones de Consumo, por ende los coeficientes asociados a la variable explicativa PBI se anulan. Esta es la hipótesis nula, la cual es rechazada.

En la segunda línea se prueba la relación inversa bajo la hipótesis nula de que las variaciones en Consumo no determinan el nivel asumido por el PBI, por ende los coeficientes que acompañan a la variable explicativa Consumo se anulan. Esta hipótesis, al igual que la primera, se rechaza.

El resultado del test indica la presencia de retroalimentación o causalidad bilateral entre las dos variables.

697

También puede observarse el correlograma cruzado de las dos variables (Cross Correlogram of CONSUMO and PIB) que se obtiene abriendo un grupo para Consumo y PIB, haciendo en View-Cross correlation. En la gráfica, las barras que salen de las bandas de confianza alcanzan al cuarto rezago.

Estos resultados, la Prueba de Ganger con 4 rezagos y el correlograma, sugieren que el modelo a considerar es:

ttttttt PIBPIBPIBPIBPIBConsumo 443322110

Se supone que los i pueden aproximarse por un polinomio de segundo grado

2210 iaiaai

698

Estimación del Modelo de rezagos distribuidos de Almon

El modelo a estimar por variables instrumentales es:

ttttt ZaZaZaConsumo 221100

En Eviews deben construirse las variables Z

4

043210

itttttitt XXXXXXZ

4

043211 432

ittttitt XXXXiXZ

4

04

23

22

21

22 432

ittttitt XXXXXiZ

a partir del comando Genr se construyen las variables

Z0=pib+pib(-1)+pib(-2)+pib(-3)+pib(-4)

Z1=pib(-1)+2*pib(-2)+3*pib(-3)+4*pib(-4)

Z2=pib(-1)+2*2*pib(-2)+3*3*pib(-3)+4*4*pib(-4)

La estimación en Eviews se realiza desde Quick-Estimate Equation consignado en el cuadro de diálogo la expresión

consumo c Z0 Z1 Z2

Los coeficientes corresponden a 210 ,,, aaa ; para hallar el valor de

43210 ,,,, debe utilizarse la expresión

2210 iaiaai

0.464424000 002

2100 aaaai ˆ

17880

0.0614110.347033-0.464424111 21012

2101

,

ˆˆˆˆ

aaaaaai

699

0160

4*0.0614112*0.347033-0.464424

42222 21022

2102

,

ˆˆˆˆ

aaaaaai

023970

9*0.0614113*0.347033-0.464424

93333 21032

2103

,

ˆˆˆˆ

aaaaaai

058870

16*0.0614114*0.347033-0.464424

164444 21042

2104

,

ˆˆˆˆ

aaaaaai

Reconstruyendo la ecuación consumo

43

21

05887.002397.0

01600.017880.046442.03686572

tt

tttt

PIBPIB

PIBPIBPIBConsumo

Los errores estándar de los estimadores s se calculan haciendo

700

m

jpj

pj

pjj

jmmi aaiaiiaiaiaaVar

0

22210 2 )ˆˆcov()ˆvar()ˆˆˆˆvar()ˆ(

A partir de la información contenida en la matriz de covarianzas de los coeficientes a

Y teniendo en cuenta que 2210 iaiaai , el cálculo de los desvíos será

0344673800011880

0011880000

00

02

2100

,,

,)ˆvar()ˆˆˆvar()ˆ(

ˆˆ

ass

aaaaVari

0175214200003070

00030700005290000268000138602

000132000228100011880

1112

111

111

1

2121

2020

1010

222

112

002

22101

,,

,),,,

,,,

)ˆˆcov()ˆˆcov()ˆˆcov(

)ˆvar()ˆvar()ˆvar(

)ˆˆˆvar()ˆ(

ˆ

***

s

aaaaaa

aaa

aaaVari

701

023660000560

0005600005290800026804001386022

000132016002281040011880

2222

222

222

2

2121

2020

1010

222

112

002

22102

,,

,),*,*),(*

,*,*,



)ˆˆˆvar()ˆ(

ˆ

***

s

aaaaaa

aaa

aaaVari

0187300003510

000351000052902700026809001386032

000132081002281090011880

3332

333

333

3

2121

2020

1010

222

112

002

22103

,,

,),*,*),(*

,*,*,



)ˆˆˆvar()ˆ(

ˆ

***

s

aaaaaa

aaa

aaaVari

0353800012520

0012520000529064000268016001386042

00013202560022810160011880

4442

444

444

3

2121

2020

1010

222

112

002

22104

,,

,),*,*),(*

,*,*,



)ˆˆˆvar()ˆ(

ˆ

***

s

aaaaaa

aaa

aaaVari

Estimación del Modelo de Almon en Eviews

A continuación se describe cómo solicitar a Eviews la estimación de un polinomio de rezagos distribuidos (pdl), donde cada pdl equivale a una variable instrumental construida con un procedimiento de cálculo distinto al de Almon pero que arroja los mismos coeficientes de los términos rezagados.

Para un modelo del tipo

tktktttt XXXwY 110 (1)

Se construye un polinomio de orden p para los β

702

ppj jjj )()()( 1

2321 , kj 3,2,1,0 (2)

es una constante dada por

imparesksik

paresksik

2/)1(

2/ (3)

La constante no afecta la estimación de , es incluida solamente para esquivar problemas numéricos que pueden presentarse desde la colineariedad.

La especificación del modelo con k rezagos de X solo debe contener p parámetros. Se debe cumplir la restricción kp , caso contrario reporta matriz singular.

Al especificar PDL, Eviews sustituye 2 en 1, de modo que

tkt

pp

tp

p

tp

ptt

Xkkk

X

XwY

)()()(

)1()1()1(

)0()0()0(

12

321

112

321

12

321

Eliminando paréntesis

tktp

pktktkt

tp

pttt

tp

pttttt

XkXkXkX

XXXX

XXXXwY

)()()(

)1()1()1(

)0()0()0(

12

321

1112

31211

12

321

Agrupando términos

tktp

tp

tp

p

kttt

kttt

kttttt

XkXX

XkXX

XkXX

XXXwY

)()1()0(

)()1()0(

)()1()0(

11

21

223

12

11

703

El modelo con variables instrumentales se especifica:

ttpptttt ZZZZY )( 11332211 (4)

donde

ktp

tp

tp

tp

ktttt

ktttt

ktttt

XkXXZ

XkXXZ

XkXXZ

XXXZ

)()()(

)()()(

)()()(

)(

11

21

223

12

11

10

10

10

Estimar desde 4, permite calcular los y sus errores a partir de la relación 2. Este procedimiento es sencillo a partir de que es una transformación lineal de .

La especificación del polinomio de rezagos distribuidos tiene 3 elementos

Longitud del rezago k El grado del polinomio p Restricciones que se quieran emplear

La estimación en Eviews se realiza desde Quick-Estimate Equation consignado en el cuadro de diálogo la expresión

consumo c pdl(pib,4,2)

Es decir, variable dependiente – ordenada al origen – pdl términos; este último es la sentencia para que el sistema interprete que

debe rezagar términos de la variable explicativa pib, que la cantidad de rezagos tienen que ser 4, que el grado del polinomio a considerar es 2.

El soft proveerá los siguientes resultados

704

Reemplazando los coeficientes de itPDL en el polinomio de i , se obtienen los

valores de los coeficientes del PIB.

061411.0

101388.0

016004.0

3

2

1

24 K (Por lo expresado en 3)

Con esta información y dado que se ha definido un polinomio de segundo grado para j ,

2321 )()( jjj

el cálculo se realiza de la siguiente manera:

705

4644240

40614110210138800160040

20200 23210

.

*.*..

)(ˆ)(ˆˆˆ

j

1788030

10614110110138800160040

21211 23211

.

*.*..

)(ˆ)(ˆˆˆ

j

0160040

22222 23212

.

)(ˆ)(ˆˆˆ

j

0239730

10614110110138800160040

23233 23213

.

*.*..

)(ˆ)(ˆˆˆ

j

0588720

40614110210138800160040

24244 23214

.

*.*..

)(ˆ)(ˆˆˆ

j

43

21

05887200239730

0160040178803046442403686572

tt

tttt

PIBPIB

PIBPIBPIBConsumo

..

...

El resultado coincide con los coeficientes que muestra Eviews bajo el título “Lags Distribution of”

¿Cómo proceder cuando el número de rezagos es impar? Se especifica el siguiente modelo

tttttttt PIBPIBPIBPIBPIBPIBConsumo 55443322110

En Eviews se indica de la siguiente manera

consumo c pdl(pib,5,2)

y la estimación es:

706

Los coeficientes de itPDL

036707.0

120499.0

058942.0

3

2

1

22

15

k

K (por lo expresado en 3)

Deben reemplazarse en el polinomio de i , ( 2321 )()( jjj ) para

obtener los valores de los coeficientes del PIB.

707

4467680

40367070212049900589420

20200 23210

.

*.*..

)(ˆ)(ˆˆˆ

j

2161480

036707012049900589420

21211 23211

.

...

)(ˆ)(ˆˆˆ

j

0589420

22222 23212

.

)(ˆ)(ˆˆˆ

j

024850

036707012049900589420

23233 23213

.

...

)(ˆ)(ˆˆˆ

j

0352280

40367070212049900589420

24244 23214

.

*.*..

)(ˆ)(ˆˆˆ

j

0278080

90367070312049900589420

25255 23215

.

*.*..

)(ˆ)(ˆˆˆ

j

543

21

02780800352280024850

058942021614804467680-2764189

ttt

tttt

PIBPIBPIB

PIBPIBPIBConsumo

...

...

BIBLIOGRAFIA


Quantitative Micro Software (2007). “EViews 6 User’s Guide”. USA.

708

Capítulo 17. MODELOS DE PROBABILIDAD ..................... 711 17.1. Características .............................................................. 711 17.2. Modelo Lineal de Probabilidad ......................................... 711 17.3 Modelo Logit .................................................................. 714

Estimación del modelo ........................................................ 716 Estimación con datos agrupados ........................................ 717 Estimación con datos individuales ...................................... 721

17.4 Modelo Probit ................................................................. 722 17.5 Modelo Tobit .................................................................. 724


Caso 17.1: Vulnerabilidad social en los hogares de Río Cuarto ..... 725

BIBLIOGRAFIA .............................................................. 727

710

711

Capítulo 17. MODELOS DE PROBABILIDAD

17.1. Características

En los modelos de probabilidad la variable dependiente es binaria, asumiendo el valor de 1 o 0 de acuerdo a la presencia de la cualidad que se quiera medir; es decir, produce una respuesta de sí o no.

Ejemplo. Supongamos que se desea estudiar la participación de la fuerza laboral de hombres adultos en función de la tasa de desempleo, de la tasa de salarios promedio, del ingreso familiar, de la educación, etc. Una persona o bien está en la fuerza laboral o no está. Por tanto, la variable dependiente que es la participación en la fuerza laboral, solamente puede adquirir dos valores: 1 si la persona está en la fuerza laboral y 0 si no lo está.

Se considerarán los cuatro enfoques de mayor difusión

Modelo lineal de probabilidad (MPL)

Modelo Logit

Modelo Probit

Modelo Tobit

17.2. Modelo Lineal de Probabilidad

El modelo se especifica

tktktt XXY 221

donde,

Y es una variable cualitativa

kXXX ,, 32 son variables explicativas de carácter cuantitativo o cualitativo

712

Modelos de este tipo, que expresan la variable binaria como una función lineal de la o las variables independientes, se denominan MPL puesto que la ii XYE , puede ser interpretada como la probabilidad condicional de que el

evento suceda dado iX ; es decir, ii XYP 1

Ejemplo. En un estudio en los hogares, si Y mide la posesión de una casa -Y=1 cuando la familia posee casa y Y=0 cuando no posee- y X el nivel de ingresos. La ii XYE da la probabilidad de que una familia

posea una casa dado que tiene un ingreso de cierta cantidad iX

Si 0iE

ktktii XXXYE 221

Haciendo, 1)( ii YprobP es decir que el evento ocurra y

0)(1 ii YprobP es decir de que el evento no ocurra, la variable Y tiene la siguiente distribución:

iY Probabilidad

0 iP1

1 iP

Total 1

Por consiguiente, por definición de esperanza matemática se obtiene

iiii PPPYE 110

comparando con ktktii XXXYE 221 , se puede igualar

iktktii PXXXYE 221

es decir, la esperanza condicional del modelo puede ser interpretada, de hecho, como la probabilidad condicional de iY

Puesto que la probabilidad iP debe encontrarse entre 0 y 1, se tiene la restricción

10 ii XYE

es decir, la esperanza condicional o probabilidad condicional debe encontrarse entre 0 y 1.

713

En aplicaciones prácticas el MPL tiene infinidad de problemas, tales como,

No normalidad de los t

Heterocedasticidad de t

La posibilidad de que tY se encuentre fuera del rango 0 – 1

Valores generalmente bajos de 2R

Aunque estos problemas se pueden resolver, por ejemplo, se pueden utilizar mínimos cuadrados ponderados para resolver el problema de heterocedasticidad o incrementar el tamaño de la muestra y minimizar así el problema de no normalidad. También, recurriendo a las técnicas de mínimos cuadrados restringidos o de programación matemática, es posible hacer que las probabilidades estimadas se encuentren dentro del intervalo 0 – 1.

Con respecto al 2R , Aldrich y Nelson sostienen que el uso del coeficiente de determinación como estadístico resumen debe evitarse en modelos con variable dependiente cualitativa.

Aún salvando estos problemas el MPL no es un modelo muy atractivo porque supone que aumenta linealmente con X, es decir el efecto marginal o incremental de X permanece constante todo el tiempo. En realidad se esperaría que iP estuviera relacionado en forma no lineal con iX

Ejemplo. Si se aplica el modelo de propiedad de la vivienda y se encuentra que 10.0ˆ

2 significaría que a medida que X aumenta una unidad (supongamos en miles de pesos), la probabilidad de ser propietario de una vivienda aumenta en la misma cantidad constante de 0.10. Esto es así para niveles de ingreso de $ 8.000; $15.000 o $50.000. Esto no parece ser realista.

Para ingresos muy bajos una familia no poseerá una casa, pero a un nivel de ingresos suficientemente alto, por ejemplo $a es muy probable que ésta sí posea una casa. Cualquier aumento en el ingreso más allá de $a tendrá un efecto pequeño sobre la probabilidad de poseer una casa. Así a ambos extremos de la distribución de ingresos, la probabilidad de poseer una casa no se verá afectada, virtualmente, por un pequeño incremento en X .

Para solucionar estos problemas se presentan a continuación los modelos Logit y Probit (Normit).

714

17.3 Modelo Logit

Para desarrollar la metodología del modelo Logit, se trabajará con el ejemplo de propiedad de la vivienda.

Ahora se considerará la siguiente especificación

ttt XY 21

z

z

zXtie

e

eeXYEPY

t

11

1

1

11

)( 21

donde

X es el ingreso

1Y significa que la familia es propietaria de una casa

z

z

e

e

1 representa la probabilidad de que el evento se presente.

Por simplicidad, se escribe la ecuación de la siguiente manera:

izie

P

1

1; donde i21i Xz ˆˆ

Esta última ecuación representa lo que se conoce como función de distribución logística (acumulativa).

Es fácil verificar que mientras iz se encuentra dentro de un rango de a

, iP se encuentra dentro de un rango de 0 a 1 y que iP no está

linealmente relacionada con iz (es decir, con iX ), satisfaciendo así los dos requerimientos considerados anteriormente.

Obsérvese, a medida que

iz , 0 ize

iz , ize aumenta indefinidamente1.

1 Recuerde de que e=2.71828

715

Ahora bien, se consigue satisfacer los dos requerimientos, pero se crea un problema de estimación porque iP no es solamente no lineal en las X sino también en los , como puede verse a partir de la ecuación del modelo.

Esto significaría que no se puede utilizar MCO para estimar los parámetros. Pero, este problema es más aparente que real ya que el modelo es intrínsecamente lineal, lo cual puede verse de la siguiente manera.

Si el evento se presenta izi

eP

1

1

Si el evento no se presenta la probabilidad es zi

eP

1

11

La razón de probabilidad a favor del evento bajo estudio se expresa como

z

z

z

z

i

i e

e

e

e

P

P

1

11

1

Ejemplo. La razón de probabilidades a favor de poseer una casa se interpreta como la probabilidad de que una familia posea una casa a la probabilidad de que no la posea. Así si 8.0iP significa que las probabilidades son 4 a 1 a favor de la familia que posee una casa.

Tomando logaritmo natural de la razón de probabilidades

tiz

i

ii XZeIn

P

PlnL i

211

L es denominado logit, es lineal en X y lineal en los parámetros:

Si 0L a valores crecientes de X , se incrementa la probabilidad de ocurrencia del evento

Si 0L a valores crecientes de X , disminuye la probabilidad de ocurrencia del evento

A continuación se enuncian los aspectos que caracterizan al modelo Logit:

716

1. A medida que P va de 0 a 1 (cuando Z varía de a ) el Logit L va de a . Es decir, aunque las probabilidades (por necesidad) se encuentran entre 0 y 1, los Logit no están limitados en esa forma.

2. Aunque L es lineal en X, las probabilidades en sí mismas no lo son. Esta propiedad hace contraste con el MLP en donde las probabilidades aumentan linealmente con X.

3. Utilizando el cálculo, puede demostrarse que )1( PPdXdP ii , lo cual muestra que la tasa de cambio en la probabilidad con respecto a X contiene no solamente a i sino también al nivel de probabilidad a partir del cual se mide el cambio. A propósito, obsérvese que un cambio unitario en iX sobre P es máximo cuando 5.0P y mínimo cuando P está cercano a 0 o a 1.

4. La interpretación del modelo LOGIT es la siguiente: i , la pendiente,

mide el cambio en L ocasionado por un cambio unitario en iX . En el ejemplo, como el logaritmo de las probabilidades a favor de poseer una casa cambia a medida que el ingreso cambia en una unidad (supongamos, $1.000). El intercepto 1 es el valor del logaritmo de las probabilidades a favor de poseer una casa si el ingreso es cero.

5. Dado un nivel de ingreso determinado, por ejemplo $a, si realmente se desea estimar la probabilidad misma de poseer una casa, y no las probabilidades a favor de poseer una casa, esto puede hacerse directamente a partir de la primera ecuación una vez de que se disponga de las estimaciones de 1 y 2 .

6. Mientras que el MLP supone que iP está relacionado linealmente con iX , el modelo LOGIT supone que el logaritmo de la razón de probabilidades está relacionado linealmente con iX .

Estimación del modelo

A fines de la estimación el modelo se especifica

tti

ii X

P

PL

211ln

Para estimar el modelo, además de los valores de iX , se necesitan los

valores del logit iL pero se incurre en algunas dificultades. En el caso del ejemplo (y en otros similares) si existe información disponible sobre familias individuales, entonces 1iP si una familia posee una casa y 0iP si una familia no la posee. Pero si se colocan estos valores directamente en el logit iL se obtiene

717

0

1lniL si una familia posee una casa

1

0lniL si una familia no posee una casa.

Ambas expresiones carecen de sentido.

Por consiguiente, si la información disponible está a nivel micro o individual, no se puede estimar el modelo mediante la rutina del método de mínimos cuadrados ordinarios. En esta situación puede ser preciso recurrir a máxima verosimilitud.

Estimación con datos agrupados

La información se agrupa siguiendo algún criterio y se estima por mínimos cuadrados ordinarios. En el ejemplo de familias propietarias de viviendas, la información puede agruparse según el nivel de ingresos.

Obs ,iX ingreso

(miles de $)

,iN número de familias

con ingreso iX

,in número de familias

que poseen casa

1 6 40 8 2 8 50 12 3 10 60 18 4 13 80 28 5 15 100 45 6 20 70 36 7 25 65 39 8 30 50 33 9 35 40 30 10 40 25 20

Luego se deben seguir los siguientes pasos:

1. Para cada nivel de ingreso iX calcular la probabilidad estimada de

poseer una casa como

i

ii N

nP ; es decir la frecuencia relativa. Se

puede utilizar ésta como una estimación del verdadero iP

correspondiente a cada iX . Si iN es relativamente grande, iP será una

estimación razonablemente buena de iP (de la estadística elemental recuerde que la probabilidad de un evento es el límite de la frecuencia relativa a medida que el tamaño de la muestra se hace infinitamente grande).

718

2. Utilizando iP estimado, se puede obtener el Logit estimado como

ti

ii X

P

PL 21

ˆˆˆ1

ˆlnˆ

3. Por lo tanto, dada la información agrupada o replicada (observaciones repetidas), se puede obtener información sobre la variable dependiente, los Logit.

4. La interpretación se realiza de la siguiente manera:

i

ii P

PL

1ln

al tomar antilogaritmo a esta expresión se obtiene la razón de

probabilidades i

i

P

Pˆ1

ˆ

Pero z

i

i eP

P

1 esto significa que tX

i

i eP

P221 ˆˆ

ˆ1

ˆ

Al resultado de evaluar ze se le resta 1 y se lo multiplica por 100, este resultado es el cambio porcentual a favor de la ocurrencia del evento ante el cambio en algún regresor.

5. Si se quiere calcular la probabilidad P se debe hacer

z

z

iiz

iz

i

i

e

ePPePe

P

P

11

1

6. Puede demostrarse que si iN es relativamente grande y cada

observación en una clase de ingreso dado iX está distribuida en forma independiente como una variable binomial, entonces

iii

i PPNN

1

1,0

por consiguiente, como en el caso del MLP, el término de perturbación es heterocedástico y habrá que utilizar MCP. En esta situación se usará la siguiente transformación del modelo

iiiiiiii WXWWLW 1

que se escribe como: iiiii XWL 1

donde iiii PPNW ˆ1ˆ es el coeficiente que pondera

719

iL es igual a iL ponderada

iX es igual a iX ponderada

i es el término de error ponderado homocedástico

7. Estímese la ecuación transformada mediante MCO. Tenga en cuenta que en esta ecuación no hay término de intercepto introducido explícitamente, por lo que se tendrá que usar el procedimiento de regresión a través del origen.

8. Establézcanse intervalos de confianza y/o pruebas de hipótesis dentro de lo usual para MCO, cuyos resultados serán válidos sólo para muestras relativamente grandes.

Aunque paquetes tales como el EVIEWS estiman directamente estos modelos, apliquemos el razonamiento anterior para comprender algunos resultados.

La estimación por MCP sin ordenada al origen da:

Esto es,

iii XWL 0787.05932.1ˆ

El intercepto estimado es iiii PPN ˆ1ˆ

Como muestra esta regresión, el coeficiente de pendiente estimado sugiere que para un incremento unitario ($1.000) en el ingreso ponderado, el logaritmo ponderado de las probabilidades a favor de poseer una casa aumenta en alrededor de 0.08.

720

Tomando antilogaritmo de 0.0787, se obtiene aproximadamente 1.0818, lo cual significa que para un incremento unitario en los ingresos ponderados, las probabilidades ponderadas a favor de poseer una casa aumentan en 1.0818 o alrededor de 8.18%.

¿Se puede calcular la probabilidad de poseer una casa, dado el ingreso, a partir de la razón de probabilidades?

Este cálculo puede hacerse fácilmente. Supóngase que se desea estimar la probabilidad de poseer una casa para el nivel de ingreso de $20.000. Se tiene el dato observado en la Tabla 16.1 para la observación 6, donde

20ix , 70iN y 36in , y la estimación que surge de la Tabla 16.1.

*078669,0593238,1îi xwL (1)

Se debe tener en cuenta que

181592,470

34

70

3670ˆ1ˆ iii PPNw (2)

wxx ii *

Si 20x entonces 63184,83181592,420* ix (3)

Reemplazando (2) y (3) en (1) 083038,0* iL

Pero wLL ii * , por lo que 019858,0

*

w

LL i

i .

Ahora bien, i

ii P

PL

1ln

Tomando el antilogaritmo de iL

i

iP

P

i P

PeLanti i

i

1log 1

ln

(4)

Es decir, 980338,0log 019858,0 eLanti i (5).

Igualando (4) y (5) se obtiene

495036.0ˆ980338.0ˆ1ˆ iii PPP

Es decir, la probabilidad de que una familia con un ingreso de $20.000 posea una casa es de alrededor de 0,50.

721

Estimación con datos individuales

Dado el modelo

tktkti XXL 221

El modelo estimado con datos individuales por Logit será

ktkti XXL ˆˆˆˆ221

Este resultado se interpreta de la siguiente manera. En primer lugar debe tenerse en cuenta que

i

ii P

PL

ˆ1

ˆln

Al tomar antilogaritmo en la expresión anterior, tendremos la razón de probabilidades:

ktkti

i

XXz

i

iP

P

i eeP

PeLanti

221

ˆ1

ˆlog

ˆ1

ˆln

Para encontrar la probabilidad de ocurrencia del evento dado que las variables explicativas se comportan de una manera determinada, se procede de la siguiente manera:

z

z

i

iz

iz

i

i

e

eP

PePeP

P

1

11

Habitualmente, para encontrar el valor de z se le asigna a las variables cuantitativas el valor medio; con las cualitativas se trabaja asignando el valor 1 o el valor 0, de acuerdo a que se quiera encontrar la probabilidad del evento cuando la cualitativa está presente o ausente.

La tasa marginal de cambio en la probabilidad de ocurrencia del evento ante cambios en las variables explicativas cuantitativas viene dado por:

PPdX

dPi

i

ˆˆ1ˆ

722

17.4 Modelo Probit

Como se ha mencionado, para explicar el comportamiento de una variable dependiente binaria, es preciso usar una función de distribución acumulada seleccionada apropiadamente.

Para el caso del modelo Logit se usó la función logística acumulativa.

La función de distribución acumulada normal también brinda utilidad a estos efectos.

El modelo de estimación que surge de una función de distribución acumulada normal se conoce como modelo Probit o Normit.

Por ejemplo, supóngase que la decisión de la i–ésima familia de poseer una casa o de no poseerla depende de un índice de conveniencia no observable

iI , que está determinado por una o varias variables explicativas, por

ejemplo, el ingreso iX , de tal manera que cuando mayor sea el valor del índice, mayor será la probabilidad de que la familia posea vivienda.

De esta manera:

ii XI 21

¿Cómo se relaciona el iI no observable con la decisión de poseer una casa?

Igual que antes, sea 1Y si la familia posee una casa e 0Y si no la posee.

Ahora bien, es razonable suponer que para cada familia hay un nivel crítico o umbral del índice, que se puede denominar

iI , tal que si

ii II

la familia poseerá una casa, de lo contrario no lo hará.

Si se supone que el índice y el umbral se distribuyen normales con igual media y varianza, será posible estimar los parámetros del modelo y obtener alguna información adicional.

Dado el supuesto de normalidad, la probabilidad de que iI sea menor o

igual que iI puede ser calculada a partir de la FDA normal estandarizada como

ii X tI tiiii dtedteIFIIYP

21 22 2/2/

2

1

2

1Pr1Pr

723

donde t es una variable normal estandarizada, es decir t ~ N(0,1).

Ahora, para estimar el modelo, deberá tenerse en cuenta que:

i21i1

i XPFI

Al igual que el logaritmo de la razón de probabilidades (en el modelo Logit), la inversa de la FDA normal sirve para hacer lineal al modelo Probit.

De esta forma el modelo a estimar resulta de conocer las probabilidades, en este caso

ttii XPFI 21

1 ˆ

Luego, aplicar MCP.

Notas:

La perturbación i , al igual que antes, es heterocedástica. Se puede

demostrar que su varianza está dada por 22 /1 iiii fNPP donde 2if

es la función de densidad normal estándar evaluada en iPF 1 . Por lo tanto, habrá que ponderar el modelo para aplicar mco.

La variable no observable es conocida como desviación equivalente normal o simplemente normit. Puesto que normit será negativo siempre que 5.0iP , en la práctica se agrega el número 5 al normit y el resultado se denomina probit.

Los dos métodos presentados son bastante similares, generalmente por conveniencia matemática se prefiere el logit. Pero como lo sugieren algunos autores una estimación logit de un parámetro multiplicada por 0.625 proporciona una aproximación relativamente buena de la estimación probit del mismo parámetro.

También, se puede demostrar que LogitMPL 25.0 , excepto para el

intercepto. 5.025.0 LogitMPL , para el intercepto.

Todas las aproximaciones anteriores funcionan bien cuando el valor promedio de la probabilidad de que suceda el evento no este lejana de 0.5.

Se debe tener cuidado al interpretar el coeficiente de pendiente. En el mpl el coeficiente de pendiente mide directamente el cambio en la probabilidad de que ocurra un evento como resultado de un cambio unitario en el valor del regresor. En el logit la tasa de cambio en la

724

probabilidad está dada por iij PP 1 donde j es el coeficiente del j–

ésimo regresor. En el probit, la tasa de cambio en la probabilidad es algo complicada y está dada por ij z , donde es la función de

densidad de la variable normal estándar y donde

kikii XXz 221 o sea, el modelo de regresión utilizado en el análisis.

En síntesis, dado el modelo

tktktt XXY 221

la estimación por Probit es

ktttt XˆXˆÎ 221

En el modelo Probit, la probabilidad de que ocurra el evento viene dad por

ktttktttit*ii XˆXˆˆFXˆXˆˆzPIIPXYPP 2212211

z es la variable normal estándar y F es la función de distribución normal estándar

La contribución de cada variable cuantitativa viene dado por

iiktkti

zfXXfdX

dP ˆˆˆˆˆ221

17.5 Modelo Tobit

Es una extensión del modelo Probit, desarrollado por el Nobel J. Tobin.

Continuando con el ejemplo de la vivienda, supóngase ahora que se desea encontrar la cantidad de dinero que el consumidor gasta en comprar una casa en relación con su ingreso (y otras variables económicas).

Ahora se tiene un problema: si un consumidor no compra una casa, obviamente no se tiene información sobre el gasto en vivienda, se tiene tal

725

información solamente sobre los consumidores que efectivamente compran casa.

Por lo tanto se tiene dos grupos de consumidores. Unos, digamos 1n sobre quienes se posee información sobre los regresores y la variable dependiente y otros, supongamos 2n sobre quienes solamente se tiene información sobre los regresores.

Cuando en una muestra la información para la variable dependiente está disponible solamente para algunas observaciones, ésta se conoce como muestra censurada. Por consiguiente el modelo Tobit también se conoce como modelo de regresión censurada.

En términos matemáticos se puede expresar el modelo Tobit como

iii XY 2221 ; si Y tiene datos

0iY ; en los demás casos

Ante esta situación el modelo sólo se puede estimar por Máxima Verosimilitud, ya que el término de error no cumple con la propiedad de media nula. Esto se debe a que sólo se incluyen en la muestra las observaciones para las cuales ii X 222 , que puede verse si se escribe el modelo en forma de desviaciones.


Caso 17.1: Vulnerabilidad social en los hogares de Río Cuarto

El objetivo del trabajo es identificar los fenómenos de mayor impacto en la determinación de la vulnerabilidad en la ciudad de Río Cuarto

El diccionario de la Real Academia Española define vulnerable como aquel que puede ser herido o recibir una lesión física o moral

Roberto Pizarro2, consultor de la División de Estadística y Proyecciones Económicas de CEPAL, define la vulnerabilidad social como un estado de inseguridad e indefensa que experimentan los individuos en sus condiciones de vida, en el manejo de recursos y en las estrategias que utilizan para enfrentar las consecuencias del impacto provocado por algún tipo de evento económico social

2 Pizarro, Roberto (2001). La vulnerabilidad social y sus desafíos. Una mirada desde América Latina. Estudios Estadísticos y Prospectivos. Serie 6. CEPAL

726

La población estudiada consta de 1686 hogares que tienen bebés nacidos en el año 2005. Las características cualitativas medidas en estos hogares reúnen 527 modalidades.

Dado que la vulnerabilidad es un concepto multidimensional, se optó por realizar un análisis factorial de correspondencia múltiple utilizando 90 variables activas con 381 modalidades asociadas y 9 variables ilustrativas con 146 modalidades asociadas. La partición del espacio de observación y la posterior clasificación de los hogares dio lugar a la conformación de 9 grupos, tal como puede observarse en el Gráfico.

Vulnerabilidad Social

Baja-Baja14,35%

Baja-Media18,98%

Baja-Alta10,26%

Media-Baja3,14%

Media-Media4,45%

Media-Alta8,78%

Alta-Baja5,58%

Alta-Media25,62%

Alta-Alta8,84%

Los hogares que forman los grupos de vulnerabilidad alta (segmentados en los subgrupos Alta-Alta, Alta-Media y Alta-Baja) se caracterizan por tener

•Baja edad y bajo nivel educativo de la madre y situaciones de maternidad en cuasi-soledad

•Alto número de hijos, aun en madres muy jóvenes, y comienzo tardío en la atención durante el embarazo

•Hogares numerosos con alto número de menores de 15 años, bajos ingresos con pocos aportantes por hogar, no hay aportes jubilatorios del jefe de hogar y se observan jóvenes entre 15 y 24 años que no estudian ni trabajan.

•Presentan déficit en la infraestructura sanitaria de la vivienda, no cuentan con gas natural, y se proveen de energía eléctrica de manera irregular, no son propietarios, los hogares tienen hacinamiento

•Están expuestos a riesgos por accidentes con electricidad, los bebés carecen de identificación y no cuentan con cobertura de salud

•Los barrios Alberdi, Banda Norte y Santa Teodora es la ubicación geográfica de estos grupos.

Además se observó que existían variables comunes a todos los grupos, independientes del nivel de vulnerabilidad; estas eran

•Edad de la madre

727

•Edad de la madre al tener el primer hijo

•Existencia de baño en la vivienda

•Provisión de agua potable

•Cantidad de cuartos

•Número de integrantes del hogar

•Ingreso del hogar

•Ingreso per cápita mensual

•Personas que aportan ingresos

Ahora bien, ¿qué nivel de impacto tienen estos factores en los niveles de vulnerabilidad de los hogares?

Para responder a esto se provee de la Tabla 16.1 que contiene:

Unidades de observación: 1549 hogares con hijos nacidos en 2005

Características observadas

Altavul: 1 pertenencia a grupo de alta vulnerabilidad 0 no pertenencia a grupo de alta vulnerabilidad

MAD: 1 madre adolescente 0 madre adulta

Edad: edad actual de la madre (variable continua)

NBI: 1 hogar con NBI 0 hogar sin NBI

AI: cantidad de personas que aportan ingresos en el hogar (variable continua)

IM: ingreso mensual del hogar (variable continua)

IPC: ingreso per cápita diario (variable continua)

Se solicita

la estimación a través del Modelo Logit y el Modelo Probit

realizar comparaciones entre los resultados de ambos modelos

BIBLIOGRAFIA


Capítulo 18. SISTEMAS DE RELACIONES LINEALES SIMULTANEAS ............................................................... 717

18.1. Introducción ................................................................. 717 18.2. Modelo Keynesiano Simple ............................................. 717 18.3 Modelo simple de mercado .............................................. 728 18.4 Contraste de Hausman .................................................... 729


Caso 18.1: Las relaciones macroeconómicas de la responsabilidad social corporativa. ................................................................. 730

BIBLIOGRAFIA .............................................................. 734

716

717

Capítulo 18. SISTEMAS DE RELACIONES LINEALES SIMULTANEAS

18.1. Introducción

Hasta ahora nos hemos concentrado exclusivamente en la estimación de relaciones lineales únicas de variables económicas. Es de saber que la mayor parte de los estudios económicos basan sus teorías en modelos con varias ecuaciones, en forma de sistemas de relaciones económicas. Como veremos, cuando una relación es parte de un sistema, algunos regresores serán estocásticos y no serán independientes de las perturbaciones. Entonces la estimación clásica por mínimos cuadrados será inconsistente y deberemos desarrollar procedimientos especiales para estimaciones consistentes.

Tomemos el caso, por ejemplo, de los siguientes modelos:

Modelo keynesiano simple

Modelo simple de mercado

18.2. Modelo Keynesiano Simple

Quizá el modelo más familiar en los libros de economía es el sistema keynesiano simple

tt YC )1(

ttt ICY )2(

Donde,

C : Consumo;

Y : Renta;

I : Inversión

t : Unidades de observaciones (temporales o transversales), Tt ,,1

La interpretación típica de este modelo es que (1) representa la ecuación de comportamiento de los consumidores y que (2) es una condición de

equilibrio que iguala el ahorro )( CY a la inversión; y que la inversión es

718 autónoma. Esto es, dada una inversión el modelo determina los valores de equilibrio del consumo y de la renta. Se ve que tanto el consumo como la renta dependen de la inversión. Eso es, si resolvemos el sistema, sin tener en cuenta los subíndices:

IC

11

)3(,

IY

1

1

1)4(

Hasta aquí el modelo es exacto y, por tanto, obviamente incongruente con una descripción empírica de la economía. Una formulación econométrica del sistema es,

ttt YC )5(

ttt ICY )6(

Donde ε es el vector de orden 1T que representa a la perturbación aleatoria con,

tstsEEE sttt ;,0)(,)(,0)()7( 22 todopara

Para mantener la idea que la inversión es autónoma determinada fuera del sistema, se supone que,

).,,1;,,1()8( TsTtI tt ntesindependiesony

Tenemos ahora la dependencia explícita de ysobree IYC , resolviendo el sistema

ttt IC

1

1

11)9(

ttt IY

1

1

1

1

1)10(

Dada una muestra de observaciones conjuntas sobre IYC e, , nuestro interés se basa en estimar los parámetros de la función consumo (5). Ahora bien, en esa ecuación el regresor y la perturbación no son estadísticamente independientes, ni temporal ni contemporáneamente. Se puede encontrar la

covarianza de εY y multiplicando (10) por t y tomando esperanzas:

719

(8).y (7) utilizando,01

1

)(1

1)(

1

1)(

1)()11(

2

2

tttttt EIEEYE

Así para la estimación de (5) MCO no produciría estimaciones consistentes.

Vamos a considerar esto explícitamente. El estimador clásico de en (5) es

T/)YY(

T/)YY(

)YY(

)YY(

)YY(

)YY()YY([

)YY(

)YY)(YY(

)YY(

)YY)(CC(b)(

2

22

2

2212

Ahora bien, TYY /)(

es la covarianza muestral, así que bajo condiciones generales1

21)1()()()(

lim)13(

tttt YEYE

T

YYP

Similarmente, TYY /)(2 es la varianza muestral, que bajo condiciones

generales

yytt YEYEYEYET

YYP

222

)]([)]([)(

lim)14(

Entonces,

yy

bP

21)1(

lim)15(

Por lo que el estimador MCO no sería consistente. Realmente está clara la dirección del sesgo asintótico si empleamos la información económica de que la propensión marginal a consumir está entre cero y uno: con

.lim,10 bP

También es informativa una expresión distinta del sesgo. Como yI no

están correlacionados (10) implica

1 Observación 1. Ver apuntes de Distribuciones asintóticas descriptos en Inferencia Estadística.

720

)()1(

)()](([)1()]([)()16(22

222

ii

tYY EIEIEYEYEYVar

Introduciendo esto para yy en (15), encontramos

2

2

22

21

)1()()1(

)1(lim)17(

iiii

bP

Nuevamente con .lim,10 bP Más aún, bP lim será grande cuando la varianza de las perturbaciones es grande en relación con la varianza de la inversión. Una interpretación heurística del resultado es que la regresión clásica MCO del consumo sobre la renta da crédito a la renta debido al efecto de las perturbaciones puesto que éstas están correlacionadas positivamente con la renta.

Otra forma de mirar el resultado es considerando que MCO pueden suministrar estimaciones consistentes cuando los parámetros en las relaciones son los parámetros de la esperanza condicionada del regresando dados los regresores. Pero no es este el caso en (5), ya que

)|()|()18( ttttt YEYYCE

Pero, 0)()|( ttt EYE

Aunque, esta forma de mirar el resultado nos recuerda que los MCO deberían ser apropiados para resolver las relaciones (9) y (10). Esto es (9) cae bajo el modelo de regresión lineal estocástico independiente; obsérvese

t

ttttt

I

IEIICE

11

|1

1

11)|()19(

Supongamos entonces que estimamos por MCO, esto es

ttt IC 10)20(

Donde,

tt

1

1,

1,

1)21( 10

Designando las estimaciones MCO de 10 , como 10 , pp , los cuales son consistentes, ya que

1lim,

1lim)22( 1100 pPpP

721 Observación 2. Aquí hemos utilizado el resultado más general dado de la siguiente manera: En el modelo de regresión lineal, se ha expuesto hasta ahora que las variables explicativas, eran fijas o no estocásticas en muestras repetidas. Este supuesto puede ser apropiado para experimentos de laboratorio, en los que el investigador, tiene el control sobre las variables explicativas, pudiendo fijar el valor de las mismas y observar los resultados obtenidos para la variable endógena en experimentos repetidos, o en el caso de las variables que construimos artificialmente, como pueden ser las tendencias lineales o las variables ficticias. Pero en economía, las variables explicativas no están, en general, sujetas a control y tanto las variables endógenas como los regresores, son el resultado de un determinado sistema económico-social. Por lo tanto, ambos tipos de variables, son estocásticos por naturaleza. Si estamos analizando la relación entre consumo y renta y el parámetro de interés, es la propensión marginal a consumir, no podemos suponer que la variable explicativa renta, sea fija, ya que tanto el consumo como la renta vienen determinados por el mismo sistema económico-social y son aleatorias. Bajo esta nueva situación, vamos a analizar si los métodos de inferencia desarrollados se pueden aplicar todavía y, en caso contrario, de qué métodos de estimación alternativos disponemos. Sea el método de regresión lineal general en el que se cumplen los supuestos habituales, pero donde ahora la matriz de regresores X, es estocástica. Los coeficientes de regresión, se pueden estimar aplicando el criterio MCO:

XúX´XβXÝ´XXβ11

ˆ Podemos observar que este estimador ya no es una combinación lineal de las perturbaciones, sino que es una función estocástica no lineal de X y u, por lo tanto, sus propiedades dependerán de la distribución conjunta de estas. Por ejemplo, si queremos comprobar si el estimador es insesgado, hemos de calcular su valor medio: ][ˆ uX´X´XEββE

1

Para poder obtener ][ uX´X´XE1

, deberíamos conocer la distribución conjunta de las variables aleatorias X y u. Bajo el supuesto de regresores fijos, el problema se soluciona fácilmente: uEX´X´XuX´X´X

11 ][E

Y este valor medio es cero, dado que E (u) = 0. Cuando los regresores son estocásticos, esta igualdad ya no se cumple y es preciso contar con la distribución conjunta de X y u, para poder derivar propiedades de los estimadores β , así como las distribuciones de los estadísticos de contraste habituales. Una forma de enfocar este problema, es utilizar la distribución de Y condicionada a las X. La función de distribución conjunta ),;,(

2XYf , la podemos escribir como:

),(),;|(),;,(22 XfXYfXYf

Si nuestro interés se centra en los parámetros de la distribución condicionada 2,

y estos no están relacionados con los parámetros de la distribución marginal, , podemos olvidarnos de ella y considerar solo la distribución de Y condicionada a uno de los valore fijos de las variables X. El modelo de regresión lineal general condicionado a X, se puede escribir como:

uβXY Donde:

TI2σ0,NXu

TkXρTI

2σXuuÉTOXuE

|

|

|

Podemos derivar los siguientes resultados condicionados: βXuXÉX´XβXXúX´XEβXβE

11 )|()(]|)[()|ˆ()1(

2ob

722 De la misma forma, podemos demostrar que:

2

u

2

u

1121

11

11

σXσE

X´X2

σX´XXTIσX´X´X

X´XXXuuÉX´X´X

XX´XXuu´X´X´XEXβV

|ˆ

|

||ˆ)2(2ob

Un estimador insesgado de la varianza condicionada de los estimadores, viene dado por:

12X´XσXβV

ˆ|ˆˆ

El estimador β , no es un estimador lineal, sino una función estocástica no lineal en X e Y, por lo que estrictamente hablando no podemos aplicar el teorema de Gauss-Markov y decir que es ELIO. Sin embargo, si consideramos la varianza del estimador como condicional a valores dados de X, entonces el estimador es eficiente. Por otro lado, la distribución de β condicionada a los regresores X, es:

])([|ˆ 12X´Xσβ,NXβ

Y los estadísticos de contraste de la significatividad individual y conjunta, condicionados a X, siguen teniendo una distribución t de Student y F de Snedecor, respectivamente. De esta forma, aunque en principio las variables X son variables aleatorias, si condicionamos nuestro análisis a unos valores fijos de estas, los resultados dependen de los valores concretos que tomen estas variables en la muestra. El problema se plantea cuando nos encontramos con situaciones en las que los regresores son estocásticos y no tiene sentido realizar un análisis condicionado a unos valores fijos de X. Para ilustrar en que situaciones no podemos hacer este supuesto, vamos a considerar tres ejemplos:

a) Supongamos el siguiente modelo de regresión: TttuYY tt

ob,,2)3( 1

2

En este modelo aparece como regresor, la variable dependiente retardada un período. Dado que TYY ,,1 , son variables aleatorias, el regresor

1tY , es una

variable aleatoria. En esta situación, la matriz ]Y[1X 1t , es estocástica. Por

otro lado, no podemos realizar el análisis condicionado a unos valores fijos de TtY ,,21, , ya que no tendría sentido porque es el propio modelo estocástico

es el que indica cómo se generan. b) Dado el siguiente modelo de regresión:

TtttXYtob

,,1)4(*2

Supongamos que no se observa X*, ya que es una variable difícil de cuantificar o medir. En su lugar, observamos la variable X, tal que:

TtttXtX ,,1*

Donde t, es una variable aleatoria que recoge el error de medida en t. En esta situación

tX es una variable aleatoria aunque consideramos *

tX como fija. Por lo

tanto, el modelo en términos de X , sustituyendo *

tX por

tX , queda:

TttutXYtob

,,1)5(2

Donde tttu , es el término de perturbación que recoge, además de t , el

error de medida t .

El modelo (5)ob2, es equivalente al (4)ob2, pero donde el regresor TtX t ,,1, es

una variable aleatoria. Tampoco podemos hacer, en este caso, un análisis

723

condicionado a unos valores fijos de X, ya que hipótesis sobre )|()|( XuuÉXuE ,

no tendrían sentido, dado que u, es función de y X. c) Supongamos que se quiere estimar los parámetros de la siguiente

ecuación de demanda de un bien: TttutPQt

ob,,1)6(

2

Donde Q, es la cantidad de demandada y P, es el recio. Dado que en el momento t, observamos cantidad y precio de equilibrio, ambas variables se determinan simultáneamente en el mercado. Luego tanto Q como P, son variables endógenas. Si en t, se produce un shock en la demanda de este bien debido, por ejemplo, a un cambio en gustos de los consumidores, recogido por

t , se generaría un cambio en t, tanto de la cantidad demandada, tQ como el

precio. En este contexto, tanto la variable dependiente como el regresor, se determinan simultáneamente, por lo que ambas variables tt PQ , son aleatorias.

Este es otro ejemplo donde la matriz de regresores P][1X es estocástica. Por

otro lado, tampoco tiene sentido realizar el análisis condicionado a TtPt ,,1, ,

dado que Pt se determina simultáneamente a tQ .

En todos estos casos es aconsejable utilizar el Modelo de Regresión Lineal con Regresores Estocásticos, para demostrar su utilización, consideremos el modelo lineal siguiente:

TIσO,NuuβXY

2;

Donde al menos uno de los regresores, es una variable aleatoria, siendo, por lo tanto, la matriz ]XX[1X

k2 estocástica. Los estimadores y estadísticos derivados en el modelo de regresión lineal clásico, son función de las variables aleatorias X y u, por lo que será importante conocer las características estocásticas de ambos conjuntos de variables aleatorias y cómo se relacionan. Regresores independientes de la perturbación Cuando las variables aleatorias itX y t son independientes, para todo i = 1, ..., k

y t = 1, ..., T, la función de densidad marginal de ),( 1 ktt XX no depende de los

parámetros (, 2) para todo t. Bajo los supuestos habituales sobre las perturbaciones del modelo, aún podemos derivar analíticamente algunas propiedades para muestras finitas del estimador MCO de : es insesgado y su matriz de varianzas y covarianzas, alcanza la cota de Cramer-Rao, con lo que es eficiente dentro de los estimadores insesgados de . Se puede demostrar fácilmente que el estimador MCO, es insesgado y obtener su matriz de covarianzas, si tomamos esperanzas sobre X en las expresiones (1)ob2 y (2)ob2, utilizado el resultado:

1211

1

X´XEσX´XXXuu´|EX´X´XEβV

βX|uEX´X´XβEX|βEEβE

XX

XX

ˆ

ˆˆ

| baEEaE b

Donde 1X´XEX

)( es la matriz de covarianzas poblacional de los regresores calculada

en la distribución marginal de X. Sin embargo, no conocemos la distribución exacta de los estimadores MCO. En particular, no siguen una distribución normal aun suponiendo que itX siga una

distribución normal i, t. Esto se debe a que este estimador, es una combinación no lineal de las variables aleatorias X y u. Como consecuencia, los estadísticos de significación individual y conjunta, no tienen una distribución exacta conocida y en particular no se distribuirán como una t de Student y una F de Snedecor,

724 respectivamente. Ahora bien, bajo los supuestos habituales y si además se satisface que:

positiva,definidafinita,matrizunaesdonde QQX´X

,lim)7(2

Tp

ob es posible derivar las

siguientes propiedades asintóticas para los estimadores MCO, utilizando los teoremas de Mann-Wald y Cramer:

1) El estimador por MCO de es consistente, es decir: kiiip ,,1,ˆlim

2) )()ˆ(12

QσO,ββ NT

d 3) Bajo la hipótesis nula H0: R = r los estadísticos t y F usuales, se distribuyen

asintóticamente como )1,0(N y 2q , respectivamente, donde q, es el número de

restricciones. Por lo tanto, podemos utilizar estas distribuciones asintóticas para aproximar la distribución exacta de los estadísticos de significatividad individual y conjunta, si el tamaño de la muestra es grande. El supuesto de independencia entre los regresores y el término de perturbación, no se satisface en los ejemplos a), b) y c). Luego este supuesto sigue siendo bastante restrictivo, en muchas ocasiones.

Incorrelación contemporánea Si las variables aleatorias itX y t no son independientes, aunque estén

incorrelacionadas contemporáneamente, esto es, ittuitXE ,,0)( , no podemos

derivar analíticamente propiedades para muestras finitas de los estimadores: ])[()ˆ( uX´X´XEββE

1

En general, ])[( uX´X´XE1 puede ser distinto de cero, con lo cual β puede ser

sesgado. Por otro lado, el cálculo analítico de la matriz de varianzas y covarianzas, es difícil debido a la no linealidad del estimador en X y u. Finalmente, no conocemos su distribución exacta. En particular, no siguen una distribución normal aun suponiendo que itX se distribuye normal i, t. Como consecuencia, los

estadísticos, no tiene una distribución exacta conocida. Respecto a las propiedades asintóticas de los estimadores MCO, bajo los supuestos habituales más el 2

)7(ob y

aplicando los teoremas de Mann-Wald, Slutzky y Cramer, se pueden demostrar los resultados asintóticos. En este contexto, se enmarcaría el ejemplo a) si t ),0(

2N . En este caso,

11 ,, TYY no son variables aleatorias independientes de T ,,1 . Sin embargo, si

ststE 0)( , entonces se satisface que tttYE 0)1( . Por lo tanto, regresor y

perturbación, están contemporáneamente incorrelacionados. Correlación contemporánea Supongamos que algunos de los regresores están correlacionados contemporáneamente con el término de perturbación, es decir

ittuitXE algúnmenosalparay ,0)( . En este caso, por las mismas razones que en el

anterior, no es posible derivar ninguna propiedad en muestras finitas de los estimadores MCO. Además, perdemos las propiedades asintóticas deseables. No se satisface una de las condiciones del teorema de Mann-Wald, por lo que, en general, el estimador MCO no va a ser consistente, ni va a distribuirse asintóticamente como una normal. Esto nos lleva a que, bajo la hipótesis nula H0: R = r, los estadísticos t y F, no se distribuyen asintóticamente como una )1,0(N y 2

q , respectivamente. Por

725 lo tanto, no disponemos de una distribución asintótica para aproximar la distribución exacta de estos estadísticos, si el tamaño de la muestra es grande. Estas graves consecuencias, hacen necesario buscar un método de estimación alternativo al de MCO, con el que se obtengan al menos estimadores con propiedades asintóticas deseables y que permita derivar estadísticos con distribuciones asintóticas conocidas para contrastar hipótesis sobre el vector de coeficiente . Este supuesto de correlación contemporánea entre regresor y perturbación, es de gran relevancia en la estimación de muchos modelos econométricos. Por ejemplo, los casos b) y c), se enmarcan en este contexto. En el ejemplo b), el término de perturbación del modelo (5)ob2, recoge el error de medida t que está correlacionado con

tX dado que TtttXtX ,,1

* .

Luego, aun suponiendo que: 0)(0)(* ttXEyE tt

0)()])([()(* tVttttXEtutXE

En el ejemplo c), la variable tP se determina simultáneamente con tQ por lo que si

t recoge factores que afectan a tQ , estos afectarán simultáneamente a tP y

.,0)( ttutPE

Continuando con el modelo Keynesiano, (21) sugiere que llamemos a la

estimación de por , definido por )ˆ1(ˆ1 p , esto es

1

1

1ˆ)23(

p

p

En presencia de la observación 2, realmente es consistente

)1/(1

)1/(

)1lim(

limˆlim)24(1

1

pP

pPP

Igualmente (21) sugiere que llamemos a la estimación de por , definido por )ˆ1(ˆ0 p , esto es

)ˆ1(ˆ)25( 0 p

Realmente es consistente

)1(

)1()ˆ1lim(limˆlim)26( 0PpPP

Debe observarse que aunque 10 , pp son insesgados ˆ,ˆ , que son funciones

no lineales de 10 , pp , no son insesgados. Aunque sí consistentes y, por tanto, insesgados asintóticamente.

En resumen, el Modelo Keynesiano Simple demuestra que cuando una relación es una de las muchas de un sistema simultáneo, las estimaciones clásicas MCO de sus coeficientes serán generalmente inconsistentes. La

726 razón subyacente es que algunos regresores están determinados conjuntamente con el regresando y, por tanto, son dependientes de la perturbación contemporánea. Hemos visto también que podemos obtener estimaciones consistentes mediante una especie de procedimiento indirecto mínimo cuadrático. Sin embargo, se verá que esta última alternativa no es por lo general aprovechable.

Por supuesto, si es aprovechable el método de variables instrumentales.

Realmente no es difícil demostrar que nuestros estimadores ˆ,ˆ son los

estimadores de variables instrumentales de , en (5), donde I , que es independiente de las perturbaciones, se utiliza como instrumento para Y . Sin embargo, no siempre será tan simple encontrar una variable instrumental legítima.

Observación 3. El método de estimación conocido como método de variables instrumentales (VI), trata de obtener un estimador consistente de cuando existen problemas del tipo descrito en la sección anterior, es decir, cuando algunos regresores están correlacionados con el término de perturbación, haciendo que el estimador por MCO no sea consistente.

El método de variables instrumentales, se basa en buscar k variables denominadas instrumentos, Zjt, j = 1, ..., k, que estén por su lado, incorrelacionadas con la perturbación ut y por otro, muy correlacionadas con las variables para las que hacen de instrumento, es decir:

singularnoyfinitaZX

Tpb

kjttujtZEa

QX´X

lim)(

,,1,0,)(

Hay que tener en cuenta que, para aquellas variables explicativas que no están correlacionadas con el término de perturbación, los mejores instrumentos son ellas mismas. La matriz de instrumentos Z (Txk), se puede construir reemplazando las columnas de X correspondientes a las variables explicativas correlacionadas con la perturbación por las T observaciones de otras variables que satisfagan las condiciones (a) y (b), de forma que el rango de (Z´ X) sea completo, es decir, que (Z´ X) sea una matriz no singular, ya que el estimador de de variables instrumentales, se define como:

YZ´Z´XVIβ1

ˆ

En general, es difícil conocer las propiedades del estimador VIβ para muestras

finitas, dado que es un estimador no lineal en las variables aleatorias Z, X y u. Sin embargo, si se satisfacen las condiciones (a) y (b) y

positivadefinidayfinitaZZT

pc QZ´Z

lim)(

Aplicando el teorema de Mann-Wald y el teorema de Cramer, se pueden demostrar los siguientes resultados asintóticos: 1. VIβ es un estimador consistente de .

2. 112

ZXZZXZ QQQσ0,βVIβ N

dT ˆ

Un estimador consistente de la matriz de varianzas y covarianzas asintóticas, es: 11

2ˆ

TTTVI

Z´XZ´ZX´Z

727 Donde:

TVI

)ˆ()'ˆ(ˆ

2 VIβXYVIβXY

Para contrastar hipótesis del tipo H0: R = r, se utiliza el estadístico:

2

111

VIσ

)rVIβ(RR´](Z´Z)[R(X´Z)r)´VIβ(R

ˆ

ˆˆ

F

Este estadístico, se distribuye asintóticamente como una 2q , donde q, es el número

de restricciones.

Incidentalmente, podíamos haber mirado (10) y observado que:

t

ttttt

I

IEIIYE

1

1

1

|1

1

1

1

1)|()27(

Y estimando por MCO

ttt IY 10)28(

Donde

tt

1

1,

1

1,

1)29( 10

Entonces las estimaciones MCO designadas por 10 ,dd serán consistentes:

.1

lim,1

lim)30( 1100

dPdP

Entonces podríamos haber considerado los estimadores ~,~ definidos por

)~1(11 d y )~1(~0 d esto es,

1

0

1

~,1

1~)31(d

d

d

Y ver que eran consistentes;

.~lim,~lim)32( PP

Sin embargo, no hay por qué hacer esto en el presente modelo; utilizando (6) puede demostrarse que ˆ~ y que ˆ~ .

728 Ejemplo. Extraemos algunos datos de Haavelmo para la economía de Estados Unidos referidos a consumo, renta e inversión. Con esos datos se calcularon los siguientes momentos alrededor de la media:

C Y I

C 35.887 47.585 11.698

Y 64.993 17.408

I 5.710

La estimación mínimo cuadrática clásica inconsistente de en (5) es entonces

732,0993.64

585.47ˆ)33(

yym

cym

La estimación mínimo cuadrática clásica consistente para 1 en (20) es

048,2710.5

698.111)34(

iim

cimp

De esto podemos deducir una estimación consistente de a través de (23)

672,0048,3

048,2

11

1ˆ)35(

p

p

Obsérvese que ˆ para esta muestra, lo que no es sorprendente puesto que ˆlimlim PbP .

De esta forma podemos tomar la estimación mínimo cuadrática clásica de 1 en

(28):

048,3710.5

408.171)36(

iim

yimd

Y de esto deducir una estimación consistente de a través de (31)

ˆ672,0048,3

11

1

11~)37(

d

Y también para la estimación de la variable instrumental de en (5) vemos

.ˆ672,0408.17

698.11)38(

iym

icmb

18.3 Modelo simple de mercado

Para una segunda demostración, consideremos el modelo de la Oferta y Demanda para una mercancía en particular con una perturbación permitida para desplazamientos aleatorios en las curvas de oferta y demanda.

ttt

ttt

pqOferta

pqDemanda*

)40(

)39(

729

Si en la ecuación de demanda un regresor tp fuera independiente de la

perturbación t , entonces cuando la ecuación de demanda recibe una

perturbación positiva, tq en (39) debería elevarse en la cantidad de la

perturbación. Pero entonces eso haría tq en (40); cuya independencia de tp

y t implica que tt* . Aunque las perturbaciones de la demanda y de la

oferta pueden estar correlacionadas, sin embargo, es absurdo pensar que

sean idénticas. Concluimos que tp y t no son independientes, el precio está determinado conjuntamente por la cantidad y por los desplazamientos aleatorios de la ecuación de demanda.

18.4 Contraste de Hausman

Cuando en un modelo de regresión lineal general de los regresores son estocásticos, es necesario añadir la siguiente hipótesis complementaria al modelo para garantizar la consistencia de la estimación MCO de los coeficientes de regresión:

VIII) Los regresores no están correlacionados con el término de perturbación, de forma que, bajo ciertas condiciones de regularidad, se cumple que (X´ u/T) = 0.

Como hemos visto en los apartados anteriores, este supuesto nos garantiza que el estimador MCO de los coeficientes de regresión , es consistente. Existen casos en los cuales esta hipótesis no se satisface, por ejemplo, si algún regresor está medido con error, si omitimos variables relevantes, si hay problema de simultaneidad, etc.. Hausman (1978), ha desarrollado un procedimiento para contrastar el cumplimiento de esta hipótesis. Este contraste se puede interpretar también, en términos generales, como un contraste de mala especificación de la parte sistemática del modelo.

El mecanismo de contraste, es el siguiente. La hipótesis nula, es:

0´

lim:0 T

uXpH

Frente a la hipótesis alternativa:

0´

lim: T

uXpHA

En el modelo de regresión uniecuacional, el estadístico del contraste, se basa en la diferencia de los estimadores de los coeficientes de regresión:

MCO y VI . Bajo la H0 y suponiendo que se cumplen los supuestos básicos

sobre la perturbación, se puede demostrar, bajo ciertas condiciones de regularidad, que:

730

MCO y VI . son consistentes.

MCO es asintóticamente eficiente.

Las distribuciones asintóticas, son:

21 ,0ˆ,0ˆ VNTVNT dVI

dMCO

donde (V2, V1), es una matriz definida positiva.

Bajo la hipótesis alternativa solo es consistente el estimador VI . Por lo tanto, si los regresores y la perturbación están correlacionados ambos estimadores tenderán a diferir, dado que VI es consistente y converge a ,

mientras que MCO no es consistente y convergerá a un valor distinto de .

El estadístico del contraste, es:

VIMCOVIMCO VVTH ˆˆˆˆ´ˆˆ 1

12

donde 21ˆˆ VyV son estimadores consistentes de V1 y V2, respectivamente.

Bajo H0 el estadístico H, se distribuye asintóticamente como una X2 con k grados de libertad. Rechazaremos la H0 con un nivel de significación , si

kXH 2 .


Caso 18.1: Las relaciones macroeconómicas de la responsabilidad social corporativa.

En el mundo desarrollado la discusión pública, acerca de las responsabilidades empresariales, está en debate plenamente; también la sociedad en su conjunto está tomando conciencia de su importancia, especialmente por la relación que se establece entre la responsabilidad social corporativa y los problemas de exclusión, pobreza e inequidad social.

731 El concepto de desarrollo sostenible ofrece la visión de una sociedad más próspera y justa y que promete un medio ambiente más limpio, seguro y sano, por lo que es necesaria una mayor relación entre los objetivos de crecimiento económico y de progreso social, con una actitud permanente de máximo respeto al medio ambiente, estas decisiones definen un nuevo marco general de responsabilidad de las empresas.

La responsabilidad social corporativa involucra valores éticos que hasta hace unas décadas no se relacionaban con el actuar de los negocios. En general, el rol de las empresas estaba asociado a la acumulación de riquezas, proporcionar empleo y cumplir con normativas y leyes, especialmente tributarias; sin embargo, hoy se entiende la empresa como un sujeto o actor social, con un nuevo rol dentro de la sociedad.

Como lo menciona Rebolledo Moller (2004), las empresas que asumen su responsabilidad social entiende que, ser empresa ciudadana, significa poseer una cultura organizativa que otorgue coherencia al negocio, con un sistema de valores reconocidos públicamente por la organización empresarial; lo cual significa tener una ética compartida por todos sus miembros, que le otorga identidad y un sentido de trascendencia al proyecto empresarial en ejecución, el cual se inserta en un espacio mayor, que posibilita la sustentabilidad social y ambiental de la economía.

La responsabilidad social corporativa debe entenderse como una estrategia empresarial; para hacer buenos negocios se deben elevar la calidad de vida y los niveles de ingresos de la población más vulnerable, lo que permitiría superar la pobreza humana y la pobreza material a partir de un aumento en el bienestar y en el poder adquisitivo de la población.

La responsabilidad social empresarial es la contribución al desarrollo humano sostenible, a través del compromiso y confianza del empresariado con sus empleados y familia, la sociedad en general y la comunidad local, en pos de mejorar su capital social y calidad de vida.

El desarrollo humano postula que la persona es el sujeto, el fin, y al mismo tiempo el beneficiario del desarrollo. A esta afirmación, enunciada por Mahbub ul Haq y Amartya Sen, y citada por Ortega (2002), le sucede la que considera que no se puede seguir con la idea de que el desarrollo es el crecimiento material; el desarrollo tiene un fin, tiene una orientación, tiene un sentido, el desarrollo se orienta a que el ser humano sea centro, actor, sujeto y beneficiario de los esfuerzos sociales por expandir la demanda material y espiritual de las personas.

La responsabilidad social y el desarrollo humano deben lograr expresarse en los desafíos de la realidad de las familias, en las empresas, en el entorno social de éstas, en la manera de establecer relaciones laborales, en la manera en que los distintos actores viven y valoran la existencia de los otros. La valoración del otro es una actitud y un comportamiento indispensable para la propia realización. Así se va creando un tejido de solidaridad y reciprocidad, de justicia y de dignidad, que enriquece toda la vida social.

732 Se comparte la visión de que la responsabilidad social corporativa implica a todos los agentes, sean públicos y privados, en virtudes cívicas que respeten la ética de la transparencia y de la probidad. Ello es una condición para crear un clima de confianza en una comunidad; una ética del desarrollo humano debe plasmarse en cuatro ámbitos específicos:

Uno es el ámbito de la empresa, el ámbito del ser, de ser ella misma, de construir su propia evolución y de ser responsable de esa evolución sin afectar a los demás.

El segundo ámbito del desarrollo humano y la ética de la responsabilidad social corporativa es también una ética del otro, de las relaciones de la empresa con los otros.

Hay un tercer ámbito en donde se juega la perspectiva normativa del desarrollo humano. Se trata de los ámbitos macrosociales como la comuna, la región, el país; y lo que hoy llamamos el mundo global.

El cuarto ámbito se refiere a la necesidad de una ética en la relación de la empresa con la naturaleza.

Por otra parte, la responsabilidad social corporativa, en términos de mercado, puede asimilarse a un precio sombra; en este sentido, es el valor de intermediación entre las demandas de la sociedad, medidas en términos de desarrollo humano, y la oferta de bienes de las empresas, medidas en términos de crecimiento del producto. Un alto nivel de responsabilidad social corporativa se conjuga con altos niveles de crecimiento del producto y alto nivel de desarrollo humano; si la responsabilidad social es baja, el desarrollo humano de la sociedad va a mantenerse bajo y los niveles de producto, aún a niveles elevados, no alcanzarán a compensar la pérdida de bienestar derivada de aquella caída.

De acuerdo a esto se postula que:

El crecimiento en la oferta de bienes tiene una relación directa con la responsabilidad social corporativa observada con anterioridad y la relación capital trabajo existente en la economía.

El desarrollo humano está influenciado por la responsabilidad social corporativa y la relación capital trabajo.

La responsabilidad social corporativa se acumula a través del tiempo y su nivel actual se ajusta por las diferencias en los niveles de desarrollo humano observados y la oferta de bienes.

El desarrollo humano y el producto físico del trabajo posibilitan en el largo plazo el crecimiento continuo de la responsabilidad social corporativa.

Por consiguiente se considera, en un todo de acuerdo con Somoza Lopez y Vallverdu Calafell (2006), que la responsabilidad social corporativa lejos de ser una moda, es el resultado de considerar a la empresa plenamente y verdaderamente integrada en la sociedad que se desenvuelve, en un contexto en el que se aplica, en sentido amplio, la relación costo beneficio social.

733

La expresión analítica del modelo a estudiar es:

tttt

ttt

ttt

PLDHRSCRSC

KLRSCDH

KLRSCPL

111

321

3121

donde

variables endógenas:

tPL , producto físico medio del trabajo

tRSC , responsabilidad social corporativa

tDH , desarrollo humano

Variables exógenas o predeterminadas

tKL , relación capital trabajo

1tRSC , responsabilidad social corporativa observada

1tDH , desarrollo humano observado

parámetros

1 , nivel promedio del producto físico del trabajo, 01

2 , respuesta del producto medio del trabajo a los cambios en la

responsabilidad social corporativa, 02

3 , respuesta del producto medio del trabajo a los cambios en la

relación capital trabajo, 03

1 , nivel promedio de desarrollo humano, 01

2 , respuesta del desarrollo humano ante cambios en la responsabilidad

social corporativa, 02

3 , respuesta del desarrollo humano ante cambios en la relación capital

trabajo, 03

1 , coeficiente de ajuste, 01

En este modelo, la relación beneficio costo social queda definida por la diferencia entre el desarrollo humano observado en el periodo anterior y el producto físico medio del trabajo de este periodo; por lo que el coeficiente

1 mide la respuesta de la responsabilidad social corporativa ante cambios en la relación beneficio costo social.

734

A partir del modelo económico planteado:

1. Encuentre las derivadas de estática comparativa

2. Analice la trayectoria temporal de la responsabilidad social corporativa

3. Verifique las condiciones de orden y rango para identificar el modelo

BIBLIOGRAFIA

Barbancho, A. G. (1971). “Complementos de Econometria”. Ediciones Ariel. Barcelona, España.

Fernández Sainz, A.I.; González Casimiro, P.; Regules Castillo, M.; Moral Zuazo, M.P. y Esteban González, M.V.; (2005): “Ejercicios de Econometría”. McGrawHill, Colección Schaum.

Goldberger, A. (1970) “Teoría Econométrica”. Editorial Tecnos. Madrid.




manualeconometriaparte2[1]

Documents

complete prize usa

ofthe prize

university of chicago

bank of sweden prize

university of oslo

princeton university

harvard university

yale university