This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
FACULTAD DE CIENCIAS ECONÓMICAS - UNIVERSIDAD NACIONAL DE RÍO CUARTO 2010
Myerson, 2007 Krugman, 2008 Ostrom, 2009 Williamson, 2009 2010 MEDAL
The Bank of Sweden Prize in Economic Sciences in Memory of Alfred Nobel 1969 "for having developed and applied dynamic models for the analysis of economic processes". Ragnar Frisch ( 1/2 of the prize). Norway. University of Oslo, Oslo, Norway. b. 1895 d. 1973. Jan Tinbergen ( 1/2 of the prize). The Netherlands. The Netherlands School of Economics, Rotterdam, the Netherlands. b. 1903 d. 1994
1970 "for the scientific work through which he has developed static and dynamic economic theory and actively contributed to raising the level of analysis in economic science". Paul A. Samuelson. ( Complete prize) USA. Massachusetts Institute of Technology. (MIT). Cambridge, MA, USA. b. 1915
1971 "for his empirically founded interpretation of economic growth which has led to new and deepened insight into the economic and social structure and process of development". Simon Kuznets. ( Complete prize) USA. Harvard University. Cambridge, MA, USA. b. 1901 (in Russia). d. 1985
1972 "for their pioneering contributions to general economic equilibrium theory and welfare theory". John R. Hicks. ( 1/2 of the prize). United Kingdom. USA. All Souls Collage Oxford, United Kingdom b. 1904 d. 1989. Kenneth J. Arrow ( 1/2 of the prize). Harvard University. Cambridge, MA, USA. b. 1921
1973 "for the development of the input-output method and for its application to important economic problems". Wassily Leontief. USA. Harvard University. Cambridge, MA, USA. b. 1906 (in St. Petersburg, Russia). d. 1999
1974 "for their pioneering work in the theory of money and economic fluctuations and for their penetrating analysis of the interdependence of economic, social and institutional phenomena". Gunnar Myrdal. ( 1/2 of the prize). Sweden. b. 1898 d. 1987. Friedrich August von Hayek.( 1/2 of the prize). United Kingdom. b. 1899 (in Vienna, Austria) d. 1992
1975"for their contributions to the theory of optimum allocation of resources". Leonid Vitaliyevich Kantorovich ( 1/2 of the prize). USSR. Academy of Sciences. Moscow, USSR. b. 1912 d. 1986. Tjalling C. Koopmans. ( 1/2 of the prize) USA. Yale University. New Haven, CT, USA. b. 1910 (in 's Graveland, the Netherlands) d. 1985
1976 "for his achievements in the fields of consumption analysis, monetary history and theory and for his demonstration of the complexity of stabilization policy" Milton Friedman. ( Complete prize) USA. University of Chicago. Chicago, IL, USA. b. 1912
1977 "for their pathbreaking contribution to the theory of international trade and international capital movements" Bertil Ohlin ( 1/2 of the prize). Sweden. Stockholm School of Economics. Stockholm, Sweden. b. 1899 d. 1979. James E. Meade ( 1/2 of the prize). United Kingdom. University of Cambridge Cambridge, U. K. b. 1907 d. 1995
1978 "for his pioneering research into the decision-making process within economic organizations". Herbert A. Simon. ( Complete prize) USA. Carnegie Mellon University. Pittsburgh, PA, USA. b. 1916 d. 2001
1979 "for their pioneering research into economic development research with particular consideration of the problems of developing countries". Theodore W. Schultz ( 1/2 of the prize) USA. University of Chicago. Chicago, IL, USA. b. 1902 d. 1998. Sir Arthur Lewis ( 1/2 of the prize). United Kingdom. Princeton University. Princeton, NJ, USA. b. 1915 (in Saint Lucia) d. 1991
1980 "for the creation of econometric models and the application to the analysis of economic fluctuations and economic policies". Lawrence R. Klein. ( Complete prize) USA. University of Pennsylvania. Philadelphia, PA, USA. b. 1920
1981 "for his analysis of financial markets and their relations to expenditure decisions, employment, production and prices". James Tobin. ( Complete prize) USA. Yale University. New Haven, CT, USA. b. 1918 d. 2002
1982 "for his seminal studies of industrial structures, functioning of markets and causes and effects of public regulation". George J. Stigler. ( Complete prize) USA. University of Chicago. Chicago, IL, USA. b. 1911 d. 1991
1983 "for having incorporated new analytical methods into economic theory and for his rigorous reformulation of the theory of general equilibrium". Gerard Debreu. ( Complete prize) USA. University of California. Berkeley, CA, USA. b. 1921 (in Calais, France) d. 2004
1984 "for having made fundamental contributions to the development of systems of national accounts and hence greatly improved the basis for empirical economic analysis". Richard Stone. ( Complete prize) United Kingdom. University of Cambridge. Cambridge, U. K. b. 1913 d. 1991
1985 "for his pioneering analyses of saving and of financial markets". Franco Modigliani. ( Complete prize) USA. Massachusetts Institute of Technology (MIT). Cambridge, MA, USA. b. 1918 (in Rome, Italy) d. 2003
1986 "for his development of the contractual and constitutional bases for the theory of economic and political decision-making". James M. Buchanan Jr. ( Complete prize) USA. Center for Study of Public Choice. Fairfax, VA, USA. b. 1919
1987 "for his contributions to the theory of economic growth". Robert M. Solow. ( Complete prize) USA. Massachusetts Institute of Technology (MIT). Cambridge, MA, USA. b. 1924
1988 "for his pioneering contributions to the theory of markets and efficient utilization of resources". Maurice Allais. ( Complete prize) France. École Nationale Supérieur des Mines de Paris. Paris, France. b. 1911
1989 "for his clarification of the probability theory foundations of econometrics and his analyses of simultaneous economic structures". Trygve Haavelmo. ( Complete prize) Norway. University of Oslo. Oslo, Norway. b. 1911 d. 1999
1990 "for their pioneering work in the theory of financial economics". Harry M. Markowitz ( 1/3 of the prize). USA. City University of New Cork. New York, NY, USA. b. 1927. Merton H. Millar. ( 1/3 of the prize). USA. University of Chicago. Chicago, IL, USA. b. 1923 d. 2000. William F. Sharpe. ( 1/3 of the prize). USA. Stanford University. Stanford, CA, USA. b. 1934
1991 "for his discovery and clarification of the significance of transaction costs and property rights for the institutional structure and functioning of the economy". Ronald H. Coase. ( Complete prize) United Kingdom. University of Chicago. Chicago, IL, USA. b. 1910
The Bank of Sweden Prize in Economic Sciences in Memory of Alfred Nobel (Cont.) 1992 "for having extended the domain of microeconomic analysis to a wide range of human behaviour and interaction, including nonmarket behaviour". Gary S. Becker. ( Complete prize) USA. University of Chicago. Chicago, IL, USA. b. 1930 1993 "for having renewed research in economic history by applying economic theory and quantitative methods in order to explain economic and institutional change". Robert W. Fogel. ( 1/2 of the prize). USA. University of Chicago. Chicago, IL, USA. b. 1926. Douglass C. North ( 1/2 of the prize). USA. Washington University. St. Louis, MO, USA. b. 1920 1994 "for their pioneering analysis of equilibria in the theory of non-cooperative games". John C. Harsanyi ( 1/3 of the prize). USA. University of California. Berkeley, CA, USA. b. 1920 (in Budapest, Hungary). d. 2000. John F. Nash Jr. ( 1/3 of the prize). USA. Princeton University. Princeton, NJ, USA. b. 1928. Reinhard Selten ( 1/3 of the prize). Federal Republic of Germany. Rheinische Friedrich-Wilhelms-Universität. Bonn, Federal Republic of Germany. b. 1930 1995 "for having developed and applied the hypothesis of rational expectations, and thereby having transformed macroeconomic analysis and deepened our understanding of economic policy". Robert E. Lucas Jr. ( Complete prize) USA. University of Chicago. Chicago, IL, USA. b. 1937 1996 "for their fundamental contributions to the economic theory of incentives under asymmetric information". James A. Mirrlees ( 1/2 of the prize) United Kingdom. University of Cambridge. Cambridge, U. K. b. 1936. William Vickrey ( 1/2 of the prize). USA. Columbia University. New York, NY, USA. b. 1914 (in Victoria, BC, Canada) d. 1996 1997 "for a new method to determine the value of derivatives". Robert C. Merton. ( 1/2 of the prize). USA. Harvard University. Cambridge, MA, USA. b. 1944. Myron S. Acholes ( 1/2 of the prize). USA. Long Term Capital Management. Greenwich, CT, USA. b. 1941 (in Timmins, ON, Canada) 1998 "for his contributions to welfare economics". Amartya Sen. ( Complete prize) India. Trinity Collage. Cambridge, United Kingdom. b. 1933 1999 "for his analysis of monetary and fiscal policy under different exchange rate regimes and his analysis of optimum currency areas" Robert A. Mundell. ( Complete prize) Canada. Columbia University. New York, NY, USA. b. 1932 2000 "for his development of theory and methods for analyzing selective samples" James J. Heckman. ( 1/2 of the prize). USA. University of Chicago. Chicago, IL, USA. b. 1944. And "for his development of theory and methods for analyzing discrete choice". Daniel L. McFadden ( 1/2 of the prize). USA. University of California. Berkeley, CA, USA. b. 1937 2001 "for their analyses of markets with asymmetric information". George A. Akerlof ( 1/3 of the prize). USA. University of California. Berkeley, CA, USA. b. 1940. A. Michael Spence ( 1/3 of the prize). USA. Stanford University. Stanford, CA, USA. b. 1943. Joseph E. Stiglitz. ( 1/3 of the prize). USA. Columbia University. New York, NY, USA. b. 1943 2002 "for having integrated insights from psychological research into economic science, especially concerning human judgment and decision-making under uncertainty". Daniel Kahneman ( 1/2 of the prize). USA and Israel. Princeton University. Princeton, NJ, USA. b. 1934 (in Tel Aviv, Israel). And "for having established laboratory experiments as a tool in empirical economic analysis, especially in the study of alternative market mechanisms" Vernon L. Smith ( 1/2 of the prize) USA. George Mason University. Fairfax, VA, USA. b. 1927 2003 "for methods of analyzing economic time series with time-varying volatility (ARCH)". Robert F. Engle III ( 1/2 of the prize). USA. New Cork University. New York, NY, USA. b. 1942. And "for methods of analyzing economic time series with common trends (cointegration)". Clive W.J. Granger ( 1/2 of the prize) United Kingdom University of California. San Diego, CA, USA. b. 1934 2004 "for their contributions to dynamic macroeconomics: the time consistency of economic policy and the driving forces behind business cycles". Finn E. Kydland ( 1/2 of the prize). Norway. Carnegie Mellon University. Pittsburgh, PA, USA; University of California. Santa Barbara, CA, USA. b. 1943. Edward C. Prescott ( 1/2 of the prize). USA. Arizona State University. Tempe, AZ, USA; Federal Reserve Bank of Minneapolis. Minneapolis, MN, USA. b. 1940 2005 "for having enhanced our understanding of conflict and cooperation through game-theory analysis". Robert J. Aumann ( 1/2 of the prize) Israel and USA. Center for Rationality, Hebrew. University of Jerusalem. Jerusalem, Israel. b. 1930 (in Frankfurt-on-the-Main, Germany). Thomas C. Schelling ( 1/2 of the prize). USA. Department of Economics and School of Public Policy, University of Maryland. College Park, MD, USA. b. 1921 2006 "for his analysis of intertemporal tradeoffs in macroeconomic policy". Edmund S. Phelps, ( Complete prize) USA. Columbia University , New York, NY, USA. b. 1933. 2007 "for having laid the foundations of mechanism design theory". Leonid Hurwicz. 1/3 of the prize.USA. University of Minnesota. Minneapolis, MN, USA. b. 1917. (in Moscow, Russia).Eric S. Maskin. 1/3 of the prize. USA. Institute for Advanced Study Princeton, NJ, USA. b. 1950. Roger B. Myerson. 1/3 of the prize. USA. University of Chicago Chicago, IL, USA. b. 1951 2008 "for his analysis of trade patterns and location of economic activity". Paul Krugman. ( Complete prize) Princeton University. Princeton, NJ, USA. b. 1953. 2009 “"for her analysis of economic governance, especially the commons" Elinor Ostrom ( 1/2 of the prize) Indiana University Bloomington, IN, USA; Arizona State University Tempe, AZ, USA b. 1933; "for his analysis of economic governance, especially the boundaries of the firm" Oliver E. Williamson ( 1/2 of the prize), University of California Berkeley, CA, USA, b. 1932
INDICE GENERAL
Capítulo 12. El Modelo Lineal General 507 Capítulo 13. Inferencia estadística en el Modelo Lineal General 581 Capítulo 14. Extensiones al Modelo de Regresión Lineal 613 Capítulo 15. Modelo de Regresión Lineal Generalizado 655 Capítulo 16. Modelos Dinámicos 679 Capítulo 17. Modelos de Probabilidad 709 Capítulo 18. Sistemas de Relaciones Lineales 715
506
507
Capítulo 12. EL MODELO LINEAL GENERAL .................. 509
Casos especiales ............................................................... 544 12.6. Formas Cuadráticas ..................................................... 551
Distribución Estadística de Formas Cuadráticas ..................... 559 12.7. Normalidad de la perturbación aleatoria ......................... 563 12.8. Criterio de máxima verosimilitud ................................... 566 12.9. Utilidad del modelo econométrico .................................. 572
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS ............... 573 Caso 12.1: Correlación de muestras ....................................... 573 Caso 12.2: Estimación de parámetros .................................... 573 Caso 12.3: Consumo de cerveza y mortalidad infantil ............... 574 Caso 12.4: Primeros pasos en Eviews ..................................... 574
Recordemos que la Econometría es la aplicación de métodos matemáticos y estadísticos al análisis de los datos económicos con el propósito de dar contenido empírico a las teorías económicas y verificarlas o refutarlas.
Para lograr estos objetivos, se utiliza como instrumento básico un modelo que denominaremos modelo econométrico, y que trata de ser una representación simplificada del mundo real. Este modelo, para ser operativo, ha de estar expresado en forma matemática.
Ejemplo 12.1 Si queremos estudiar como se determina el consumo familiar, la teoría económica modela el consumo en función de la renta, es decir:
0'fRfC R con
Para poder trabajar con este modelo hemos de suponer una forma funcional para f , por ejemplo una relación lineal, y escribirlo como:
βRαC
Donde: representa el consumo autónomo y la propensión marginal a consumir que se supone comprendida en el intervalo
]1,0[ .
En este modelo se pretende explicar el consumo por medio de una variable que determine el nivel de renta.
De acuerdo a esta especificación, se debería haber consumido una proporción de la renta, medida por βR ; la diferencia entre ambas cifras se supone constante )(α .
Este modelo de consumo se puede utilizar:
A nivel agregado, en cuyo caso las variables ct e yt serán indicadores del nivel de consumo y la renta agregados. Para este análisis se requieren observaciones numéricas de las variables durante un periodo de tiempo t. Por lo tanto, las observaciones correspondientes a cada una de las variables es una serie temporal.
A nivel desagregado, por ejemplo relacionando los gastos semanales en consumo y los ingresos de las familias. Por lo tanto, las observaciones correspondientes a cada una de las variables es
510
un dato obtenido de una muestra de un conjunto de familias y se denominan datos de sección cruzada.
Una combinación de observaciones a través de una muestra de individuos en el tiempo se denomina datos de panel.
Ejemplo 12.2 Si queremos estimar, por ejemplo, la función de producción de una empresa, la teoría económica modela la producción como una función de los factores trabajo y capital:
KL,fP
Donde
P , es la producción, L es el factor trabajo y K el capital.
Si suponemos que la función de producción de la empresa es de la forma COBB–DOUGLAS:
GKBLAP
El valor de la suma GB va a determinar si la empresa tiene rendimientos a escala constantes, crecientes o decrecientes.
El primer paso para lograr los fines que nos planteamos al realizar un trabajo econométrico, es formular un modelo que, aún siendo una representación simplificada de la realidad, permita reproducir los patrones de comportamiento entre las variables económicas. Normalmente, la teoría económica no suele dar muchas indicaciones de cuál es la forma funcional del modelo y se han de realizar supuestos al respecto.
El segundo paso es estimar los parámetros de interés del modelo a partir de los datos disponibles y contrastar aquellas hipótesis que son relevantes.
Ejemplo 12.3 si hemos estimado una función de producción COBB–DOUGLAS, nos puede interesar contrastar la hipótesis de que la empresa tiene rendimientos a escala constantes, es decir, que
1GB .
Por último, el modelo econométrico estimado y validado se puede utilizar para predecir valores futuros de las variables o tomar decisiones de política económica.
El Análisis de Regresión, es una de las técnicas más utilizadas en el trabajo econométrico.
Con el modelo de regresión tratamos de describir la relación existente entre las variables que queremos analizar: Y , que denominaremos variable endógena o dependiente y un conjunto de variables X , que reciben el nombre de variables exógenas, explicativas, independientes o regresores.
511
Estas relaciones pueden ser de carácter determinista, como las expresadas por los modelos anteriores. Este tipo de modelos no tienen en cuenta factores aleatorios que influyen en el comportamiento de los agentes económicos.
Ejemplo 12.4 El modelo de consumo supone que, dada una renta
0R , todas las familias (supongamos n familias) con esa renta
presentan un mismo nivel de consumo, lo que es poco realista.
Para modelar este comportamiento individual se introduce un término aleatorio, la perturbación :
niii
Rβi
C ,,1;21
Este tipo de relaciones se denominan Estocásticas.
Los parámetros del modelo son los coeficientes j , y los que
caracterizan la función de distribución de la perturbación aleatoria vectorial ε , es decir, su valor medio y su matriz de varianzas y covarianzas.
Vector paramétrico: ,k,1i2i
w
Desarrollaremos el modelo de regresión lineal general en sus distintas fases de:
Especificación del modelo econométrico.
Estimación de los parámetros.
Validación del modelo.
Predicción.
Observación: a los fines de ilustrar cada paso usaremos una aplicación numérica con los datos de la tabla 12.1
Ejemplo 12.5. Supongamos la siguiente información que nos proporciona una muestra para 5,2,1,iXX,Y i2ii ;3, :
Tabla 12.1
i iY iX 2 iX 3
1 4 2 1 2 7 3 3 3 3 1 5 4 9 5 1 5 17 9 2
512
12.2. Especificación del modelo
Supongamos que tenemos la siguiente tabla de datos
Períodos Y 2X 3X kX
1 1y 21x 31x 1kx
2 t ty tx2 tx3 ktx
T Ty Tx2 Tx3 kTx
Establezcamos también que existe una relación lineal entre la variable que queremos explicar tY con 1k variables independientes
kjX j ,,2,
T...,2,1,t;tktXkβ2tX2β1βtY [1]
En este modelo
la variable T,,t,Yt 1 es la variable endógena
las variables TtkjX jt ,,1;,,2, son las variables explicativas o
exógenas,
´kβ
2β
1β β , es el vector de coeficientes de regresión,
Ttt ,,1, es la perturbación aleatoria,
T es el tamaño muestral.
Es decir, el modelo se podría expresar como un sistema de ecuaciones, de la siguiente manera
TkTkTTT
kk
kk
kk
xxxy
xxxy
xxxy
xxxy
33221
3333323213
2232322212
1131321211
[2]
513
Que es un sistema de T ecuaciones con k incógnitas, por lo que el modelo tiene kT grados de libertad.
Los coeficientes de regresión kjj ,,1, se suponen constantes para
toda t y recogen el incremento promedio que experimenta la variable endógena cuando se produce un incremento unitario en la variable exógena ésimaj , permaneciendo las demás constantes.
Esta relación es lineal en los parámetros, pero no tiene por que ser lineal en las variables. El modelo se puede escribir en notación matricial en cuyo caso se representa de la siguiente forma:
εTx1kx1TxkTx1
βXy [3]
Donde cada uno de los elementos se definen según:
T
2
1
y
y
y
y
T
2
1
k
2
1
kT3T2T
k23222
k13121
β
β
β
xxx1
.
xxx1
xxx1
εβX
Ejemplo 12.5.a Con la información de la tabla 12.1:
17
9
3
7
4
y
5
4
3
2
1
2
1
ε
ε
ε
ε
ε
β
β
β
εβX
3
291
151
511
331
121
Se considera que el modelo de regresión lineal, satisface los siguientes supuestos básicos:
1) El comportamiento de la variable dependiente tY se ajusta al modelo
durante todo el período muestral, T,,t 1 .
514
Sea el vector columna kx que contiene las T observaciones de la
variable kjX j ,,2, . Agreguemos este vector columna a la matriz
X de orden Txk . La primera columna de X corresponderá a una columna de unos, por lo que 1 será el término constante del
modelo. Llamemos y a las T observaciones, Ty,,y,y 21 , y denominemos ε al vector columna que contiene las T perturbaciones. Ahora el modelo puede escribirse como
εxxy kβk2β1β 2
Esto es, εXβy
Observación. Para evitar posibles confusiones tengamos claro que
kx es la ésimak columna de X . Para referirnos a una única
observación utilizaremos la ecuación tεt'ty βx . Aquí tx es
un vector columna que es la traspuesta de la fila ésimat ( xk1 ) de X . Por lo tanto t'x es la ésimat fila de X .
2) Las variables explicativas kjX j ,,2, son no estocásticas, es decir,
las consideramos fijas en muestra repetidas, y por lo tanto, la función de distribución de la variable Y condicionada a los regresores se puede escribir como ),Y(f),X/Y(f .
3) Tk)(r X es decir, el rango de la matriz de variables explicativas es completo por columnas. Este supuesto tiene dos implicaciones. Por un lado, no es posible expresar una columna de la matriz X como una combinación lineal del resto de las columnas, y por otro, estamos suponiendo que disponemos de un mayor número de observaciones que parámetros hay en el modelo.
4) La esperanza matemática de cada una de las perturbaciones es cero:
T,2,1,t0,tE [4]
De forma matricial, se puede escribir como:
515
0ε
0
0
0
0
3
2
1
3
2
1
)T(E
)(E
)(E
)(E
T
EE
Observación. aplicar el operador esperanza matemática a una matriz o vector, significa que hay que tomar esperanza matemática de cada uno de los elementos de la matriz o vector en cuestión.
5) La matriz de varianzas y covarianzas del vector de perturbaciones ,
es escalar, TσV Iε ε2 . Con este supuesto se quiere indicar que:
La varianza es la misma para todas las perturbaciones, lo que denominaremos perturbaciones homocedásticas,
T,2,1,t,2σ2tεE
[5]
No existe autocorrelación entre las perturbaciones de diferentes períodos:
St0,sε,tεE [6]
De forma matricial, se puede escribir como:
2TεE
3ε
TεE
2ε
TεE
1ε
TεE
ε3εE2
3εE
2ε
3εE
1ε
3εE
Tε
2εE
3ε
2εE2
2εE
1ε
2εE
Tε
1εE
3ε
1εE
2ε
1εE2
1εE
2Tε
3ε
Tε
2ε
Tε
1ε
Tε
Tε
3ε2
3ε
2ε
3ε
1ε
3ε
Tε
2ε
3ε
2ε2
2ε
1ε
2ε
Tε
1ε
3ε
1ε
2ε
1ε2
1ε
E
Tε
3ε
2ε
1ε
Tε
3ε2ε1ε
EEV(
T
εε'ε)
516
TεV
3ε
TεCov
2ε
TεCov
1ε
TεCov
Tε
3εCov
3εV
2ε
3εCov
1ε
3εCov
Tε
2εCov
3ε
2εCov
2εV
1ε
2εCov
Tε
1εCov
3ε
1εCov
2ε
1εCov
1εV
2σ000
02σ00
002σ0
0002σ
ε
ε
ε
ε
[7]
6) La distribución de probabilidad del término de perturbación es normal multivariante:
TIε
σNε 2,0~ [8]
El modelo explica la variabilidad de la variable dependiente Y mediante dos componentes:
La parte sistemática: Xβ
La parte aleatoria: ε
El conjunto de supuestos 1) a 6) que hemos establecido, indican que las pautas relevantes sobre el comportamiento de la variable Y vienen dadas por la parte sistemática, “no quedando” en la parte aleatoria ningún patrón sistemático que sea aprovechable para explicar el comportamiento de la variable dependiente.
Los objetivos, entonces, se centran en hacer inferencia sobre el vector β de parámetros del modelo de regresión en base a la información que nos proporciona la muestra disponible:
T,2,1,t,ktX,,2tX,tY
Ejemplo 12.5.b La información de la tabla 12.1 que nos proporciona una muestra para 5,2,1,i
iX
2iX,
iY ;
3,
517
12.3. Estimación
Los parámetros desconocidos del modelo vienen dados por el vector de coeficientes de regresión β y la varianza de la perturbación 2σ ε .
La estimación de estos parámetros, se puede llevar a cabo por dos métodos
el método de mínimos cuadrados ordinarios
el método de máxima verosimilitud.
El criterio de estimación de mínimos cuadrados ordinarios MCO se basa
en elegir aquellos valores que minimizan la suma del cuadrado de los errores, la cual se expresa anlíticamente por la siguiente función objetivo:
2221 ktktt
T
1tˆˆXβXββYMin
ˆˆMin
ββ
βXY'
βXY [9]
De las condiciones de primer orden del problema de minimización, se obtiene un sistema de k ecuaciones, denominadas ecuaciones normales, que podemos escribir:
Ejemplo 12.5.c El siguiente ejemplo ilustra la aplicación de estas técnicas a los datos de la tabla 12.1. Supongamos que estamos interesados en estimar el modelo: ii2i21i εXβXββY 33
Podemos construir la siguiente tabla de cálculos auxiliares: Continúa…
Las ecuaciones normales, se pueden obtener a través del algebra lineal y se pueden escribir en términos matriciales, como:
0yXβXX 'MCO
' ˆ
Para obtener estas ecuaciones debemos operar matricialmente el sistema que queremos minimizar. Para ello, planteamos el siguiente problema de mínimo:
Dado que la recta de regresión debe pasar por el centro de la nube de puntos, lo que hay que hacer es plantear la minimización de las distancias de esos puntos a la recta. A estas distancias las denominaremos residuos )MCO( y los
simbolizaremos por te . De esta forma, ttt YYe
representa la distancia de cada observación a la recta de regresión a estimar por βXy ˆˆ , siendo ésta la que se obtendrá a partir de las estimaciones del vector paramétrico:
β . Pero como te es una variable desvío,
T
tte
1
0 , por lo que
el problema de mínimo a plantear es el de minimizar la suma
519
de cuadrados de los desvíos, esto es,
T
tteMin
1
2 ; ó, lo que es
lo mismo, en términos matriciales: Mínˆˆ )y(y)'y(yee'
Planteado el problema de minimización debemos operar algebraicamente la siguiente relación:
βX)'β(Xy)'β(XβXy'yy'Minβ
βXy'
βXyβ
ˆˆˆˆˆˆMin [11]
De donde, βXX''βyX''βyy'βX)'β(Xy)'β(XβXy'yy' ˆˆˆ2ˆˆˆˆ
Debido a que y)'β(XβXy' ˆˆ
Entonces
βXX''βyX''βyy'ee' ˆˆˆ2Min)(Min [12]
Las condiciones de mínimo exigen, primero, derivar respecto a la variable, en este caso, β e igualar la primera derivada a cero. Luego, obtener la segunda derivada y demostrar que es positiva.
De esta forma,
0βXX'yX'β
ee'
ˆ
ˆ22 , de donde
0βX`XyX' ˆ [13]
Que determina las ecuaciones normales que se quería encontrar.
Por otra parte, dado que Tk)(r X , existe una solución única al sistema de ecuaciones normales: el estimador mínimo-cuadrático ordinario del vector de parámetros β :
yXXXβ '1'MCO
ˆ [14]
520
Aunque este es el resultado deseado, a partir del cual se obtienen los estimadores MCO , aún falta demostrar la condición de segundo orden del problema de minimización, esto es:
0X`Xβ
ee'
22
2
ˆ [15]
Y esto es así, debido a que la matriz XX' es definida positiva.
Para demostrar que XX' es definida positiva, especifiquemos
1Tx1TxXdc [16]
Siendo d un vector no nulo de orden 1kx . De esta forma c es de orden 1Tx . Como Tkr )(X , garantizamos que c no es nulo. La consecuencia
de no ser nulo es que cualquiera sea el signo de sus elementos el producto de su transpuesta por él mismo será siempre un escalar positivo – ya que al premultiplicarlo por su transpuesta obtenemos la suma de sus elementos elevados al cuadrado – entonces
0X)d(X'd'cc' [17]
Por lo tanto, XX' es definida positiva.
Observación: La derivada de βXX''β ˆˆ es la derivada de una forma
cuadrática, donde XX' es la matriz de dicha forma y β es el vector de la misma. Para diferenciar una forma cuadrática, cuya expresión analítica, para este caso, es
)kx(k
ˆ
ˆ
ˆ
ˆ
)kxk(
T
t ktxT
t txktxT
t txktxT
t ktx
T
t ktxtxT
t txtxT
t txT
t tx
ktxT
t txtxT
t txT
t txT
t tx
T
t ktxT
t txT
t txT
)xk(k
ˆˆˆˆ
1
3
2
1
1
2
1 31 21
1 31
2321 31 3
1 231 21
221 2
11 31 2
1321
se aplica la regla general que establece que “la derivada de una forma cuadrática respecto a cada uno de los elementos del vector de dicha forma, es igual a dos veces el producto de la matriz de la forma cuadrática por el vector de la misma”, en nuestro caso:
521
βXX'β
βX)(X''β ˆˆ
ˆˆ2
[18]
[18] es un vector columna de k elementos.
Esto se puede demostrar desarrollando la forma cuadrática y aplicando derivadas,
T
t ktxkβT
t txktxβT
t txktxβT
t ktxβ
T
t ktxtxkβT
t txβT
t txtxβT
t txβ
T
t ktxtxkβT
t txtxβT
t txβT
t txβ
T
t ktxkβT
t txβT
t txβTβ
kββββ
1
2ˆ1 33
ˆ1 22
ˆ11
ˆ
1 3ˆ
1
233
ˆ1 232
ˆ1 31
ˆ
1 2ˆ
1 323ˆ
1
222
ˆ1 21
ˆ
1ˆ
1 33ˆ
1 22ˆ
1ˆ
ˆ3
ˆ2
ˆ1
ˆ
ˆˆ
βXX''β
T
t ktxkˆ
T
t txktxˆT
t txktxˆT
t ktxˆk
ˆ
T
t ktxtxkˆ
T
t txˆT
t txtxˆT
t txˆˆ
T
t ktxtxkˆ
T
t txtxˆT
t txˆT
t txˆˆ
T
t ktxkˆ
T
t txˆT
t txˆTˆˆ
1
2
1 331 2211
1 31
2331 2321 313
1 21 3231
2221 212
11 331 2211
Reagrupando términos
T
t ktxkˆ
ktxT
t txkˆˆ
T
t txˆ
ktxT
t
T
t
T
t txkˆˆ
txtxˆˆtxˆ
T
t ktxkˆˆ
T
t txˆˆT
t txˆˆˆTˆˆ
1
22
1 3321
23
23
1 1 1 2223232222
22
1121 3312
1 221221
βXX''β
522
Podemos diferenciar parcialmente esta expresión con respecto a cada uno de los elementos de β . El resultado de las derivadas parciales se ordena en forma de vector columna. Aunque también podrían ordenarse en forma de vector fila. No obstante, el requisito importante es la consistencia del tratamiento que debe darse a los vectores y matrices de las derivadas de la función para que sean de orden apropiado para su posterior manipulación.
Derivando esta expresión respecto de 1 los primeros k términos,
respecto de 2 los segundos k términos, y así siguiendo… el vector de derivadas parciales es
T
t ktxkβT
t ktxtxβT
t ktxtxβT
t ktxβ
T
t ktxT
t txkβtxβT
t txtxβT
t txβ
T
t
T
t ktxtxkβT
t txtxβtxβT
t txβ
T
t
T
t
T
t ktxkβtxβtxββT
kβ
β
β
β
1
221 332
1 22ˆ2
11ˆ2
1 1 322332
1 322ˆ2
1 31ˆ2
1 1 2ˆ2
1 323ˆ22
22ˆ2
1 21ˆ2
1 1 1ˆ233
ˆ222ˆ21
ˆ2
ˆ
ˆˆ
3ˆ
ˆˆ2
ˆ
ˆˆ1
ˆ
ˆˆ
ˆ
ˆˆ
βX)(X''β
βX)(X''β
βX)(X''β
βX)(X''β
β
βX)(X''β
kβ
β
β
β
T
t ktxktxT
t txT
t txtxT
t tx
T
t ktxT
t txtxT
t txtxT
t tx
T
t
T
t ktxtxT
t txtxtxT
t tx
T
t
T
t
T
t ktxtxtxT
ˆ
3ˆ2
ˆ1
ˆ
1
2
1 31 321 3
1 1 3231 321 3
1 1 21 32221 2
1 1 132
2
[19]
Que es el resultado enunciado.
523
Ejemplo 12.5.d Siguiendo con el ejemplo de la tabla 12.1
17
9
3
7
41
291
151
511
331
121
21531
95132
11111
21531
95132
11111
MCOβ
3
2
1
300
821
010
83
230
40
20045660
4556332
6603323279
403912
3912020
12205
1
83
230
401
403912
3912020
12205
ˆ
ˆ
ˆ
.
.
.ˆ
MCOβ
El resultado es igual al obtenido al resolver las ecuaciones normales, en el Ejemplo 12.5.c.
De las ecuaciones normales se derivan, entre otras, las siguientes dos propiedades de la estimación mínimo – cuadrática ordinaria, la primera de las cuales se ve directamente en la tabla 12.2 del Ejemplo 12.5.c:
1. 01
t
T
t
e [20]
donde ktXkˆ
tXˆˆtYte 221 son los denominados
residuos mínimo-cuadrático ordinarios:
2. kjeX tjt
T
t
,,201
[21]
es decir, los residuos MCO , son ortogonales a todas las variables explicativas del modelo. Como se puede observar en la figura 12.1 para el caso de 2k
524
Figura 12.1. Líneas de regresión poblacional y muestral
Observación. Para demostrar estas propiedades consideremos el vector de residuos MCO
βXeyβXye ˆˆ [22]
Por [13] 0βXXyX ˆ , el que puede reexpresarse como
yX'βX)(X' ˆ
Reemplazando y por su igual en [22] )βX(eX'βX)(X' ˆˆ
Realizando los productos convenientemente
βX)(X'eX'βX)(X' ˆˆ [23] Para que la igualdad en [23] se cumpla, debe ocurrir que 0eX' ; si desarrollamos la expresión, obtenemos
0e)(X'
0
0
0
01111
1
13
12
1
3
2
1
321
3333231
2232221
T
ttkt
T
ttt
T
ttt
T
tt
TkTkkk
T
T
ex
ex
ex
e
e
e
e
e
xxxx
xxxx
xxxx
[24]
Y
X
Línea de regresión muestral
Línea de regresión poblacional
tt XˆˆY 221
tX)X/Y(E 221
ty
ty
tx
te t
Observación muestral )ty,tx(
525
Como consecuencia de esta propiedad, los residuos de la regresión MCO tienen siempre media aritmética igual a cero (siempre y cuando se incluya término independiente en la ecuación de regresión). Esto es debido a que el primer elemento del vector de orden 1tx que obtuvimos como resultado es igual a cero, es decir
00 1
1
T
e
ee
T
ttT
tt
A su vez, los demás elementos establecen que la correlación muestral entre los residuos y cada variable es cero.
Una vez estimados los coeficientes de regresión, jβ , la recta de regresión
muestral,
βX ˆˆtt
Y
permite estimar los valores de la variable endógena tY , dado los valores
de las variables exógenas itX . t
Y
es de orden Tx1, t
X es de orden Txk,
y β es de orden kx1.
Esto es,
kβ
3β2β1β
]ktX3tX2tX1[tY
Ejemplo 12.5.e En el ejemplo resulta:
3
2
1
321
ˆ
ˆˆ
]XX[Y ttt
;tX.tX..Y t 33002821010
Se obtiene, de esta manera, igual resultado que el obtenido en el Ejemplo 12.5.c.
526
Los estimadores MCO , β , bajo los supuestos 1) a 6) son lineales, insesgados y óptimos, en el sentido de tener la mínima varianza dentro de la clase de estimadores lineales e insesgados (teorema de Gauss–Markov).
La linealidad no requiere de demostración; es evidente, en el cálculo del coeficiente en [14], la relación lineal que una al vector de estimadores con la matriz que contiene los valores observados de las variables.
Para demostrar que el estimador es Insesgado se parte de [14]:
yX'X)(X'β 1ˆ
Utilizando [3]
ε)(XβX'X)(X'β 1 ˆ
Realizando los productos pertinentes
εX'X)(X'XβX'X)(X'β 1 1 ˆ
En el primer término del segundo miembro: IXX'X)(X' 1 , por lo que
εX'X)(X'ββ 1ˆ
Utilizando el operador esperanza matemática
)()ˆ( 1 εX'X)(X'ββ EE
Por [4], 0)( εE por lo que
ββ )ˆ(E [25]
Un estimador es Óptimo cuando tiene mínima varianza. Antes de demostrar esto, se debe hallar la varianza del estimador; la diferencia entre el estimador y su esperanza matemática es igual a
βεX'X)(X'βββββ 1 ˆ)ˆ(Eˆ
La varianza del estimador )βV( ˆ se define
ˆˆEˆ β]'ββ][β[)βV(
527
Ahora bien, al demostrar la propiedad de insesgadez, se obtuvo que
εX'X)(X'ββ 1ˆ
De modo que,
εX'X)(X'ββ 1ˆ
Entonces:
εX'X)(X'εX'X)(X'β 11)ˆ( EV
Aplicando las propiedades de matriz trapuesta:
]'[ 11 X)X(X'εεX'X)(X' E
Introduciendo el operador esperanza matemática
11 X)X(X'εεX'X)(X' )'(E
Por lo establecido en [7], TσE Iεε ε2)'( ; al reemplazarlo en la expresión
anterior
1ε
1 X)X(X'IX'X)(X' Tσ 2
2εσ es una constante, por lo que premultiplica al resto de la expresión
11ε X)X(X'IX'X)(X' Tσ 2
Simplificando en la expresión anterior 1X)X(X'IX' T , la varianza del
estimador es el producto entre la varianza del término de perturbación y la matriz inversa de X)(X'
1ε X)(X')βV( 2ˆ σ [26]
Para demostrar que esta varianza es mínima, supongamos otro estimador
P]yX'X)[(X'β* 1 [27]
Donde P es cualquier matriz de orden (kxT) que en caso de anularse
hace que ββ* ˆ .
528
Ahora, reemplazando [3] en [27]
PεPXβεX'X)(X'βε)P](XβX'X)[(X'β* 11
Al tomar esperanza matemática
)()()( εPPXβεX'X)(X'ββ* 1 EEE
Aplicando lo establecido en [4]
PXβββ* )(E
Si 0PX
ββ* )(E
Lo que significa que *β es un estimador insesgado
El cálculo de la varianza de *β es
β]'β][β[β)V(β **E*
Donde
βPεβPXεX'X)(X'ββ*β0
1
Manteniendo la restricción 0PX
PεεX'X)(X'β*β 1
Reordenando
P]εX'X)[(X'β*β 1
Reemplazando β*β en *)V(β , se tiene que
P´X´XXεε´PX´X´XEV(β 11 *)
Introduciendo el operador esperanza
]P'X)[X(X'εε'P]X'X)[(X'V(β 11 )(*) E
Por [7], Iεε' 2)( εσE
]P'X)[X(X'IP]X'X)[(X'V(β 11 Tεσ
2*)
529
Teniendo en cuenta que 2σ es constante y realizando los productos:
]PP'P'X'X)(X'X)PX(X'X)X(X'X'X)[(X'V(β 1111 2*) εσ
Introduciendo la restricción 0PX , que da lugar a que 0PX , y operando algebraicamente, la expresión anterior se reduce a:
]PP'X)[(X'V(β 1 2*) εσ
Por lo tanto,
)βV(PP'X)(X'V(β 1ε
ˆ*) 2 [28]
La diferencia entre las varianzas de β y *β es PP' , lo que hace que
)βV(V(β ˆ*)
Observación. El siguiente resultado muestra en forma conjunta las propiedades anteriores. Sea c un vector columna de k elementos y una magnitud aleatoria escalar.
kx11xk1x1βc'ν
De tal manera que si elegimos ][' 0010 c
Entonces, 22
1
0010
k
][
De esta forma, podemos usar βc'ν para seleccionar un elemento de
β .
Pero también, si 113121 n,kn,n, XXX c'
Entonces, )Y(E n 1
Que es el valor esperado de la variable endógena Y en el período (u observación) 1n condicionado a los valores de X en ese período.
530
Consideremos una clase de estimadores lineales e insesgados de . Sea un escalar definido como combinación lineal de , tal que
a'Xβa'ya'
Donde a es un vector columna de n elementos y donde βX,y, son los vectores y matriz definidas anteriormente. será un estimador insesgado de si y solamente si c'Xa' , veamos
c'Xa'βc'
Xβa'
a'Xβa'
)(E)(E
Además,
aa'aa'
'a'a'
Xβa'a'Xβa'
)'(E'E
))((E
][E
)](E[E)(V
2
2
Por tanto,
aa'2 )(V
Entonces el problema es elegir a para minimizar aa' sujeto a las k restricciones de que c'Xa' , esto es 0c'Xa' .
Por lo que tenemos un problema de mínimo sujeto a restricciones. Utilizando los multiplicadores de Lagrange, definamos
)(kx1nx1kxn1xk1x11x1caX'λ'aa' 2
Donde λ es el vector columna de los k multiplicadores de Lagrange (orden kx1) y donde c'Xa' se ha transpuesto para ser conformable.
Diferenciamos, para obtener la primera condición,
0caX'0c)a(X'λ
0Xλa0Xλaa
2
22
De donde,
531
cX)X(X'a
cX)(X'λcXλX'Xλa1
1
De forma tal que el estimador lineal e insesgado de varianza mínima deseado de βc' es
βc'
yX'X)(X'c'
ya'1
ˆ
Es decir, los β parámetros desconocidos se reemplazan por los β estimadores mínimos cuadráticos ordinarios y como consecuencia se tiene que:
Cada i es ELIO de i
El ELIO de cualquier combinación lineal de los β parámetros es esa
misma combinación lineal de los β estimadores
El ELIO de )Y(E s es s,kks,s, XˆXˆXˆˆ 33221
La varianza de las perturbaciones 2ε , se puede estimar mediante la
expresión:
kTS
ee'2 [29]
Ejemplo 12.5.f El valor de las perturbaciones para el ejemplo que se está desarrollando:
340.2
68.0
35
030.
400.
330.
640.
050.
030.400.330.640.050.
2S
Este estimador es insesgado bajo los supuestos 1) a 6)
532
Para conocer la precisión con que se estiman los parámetros, es necesario derivar la matriz de varianzas y covarianzas de los estimadores, que bajo los supuestos habituales, es de la forma
12 X'XβV εˆ [30]
Un estimador insesgado de βV ˆ , se puede obtener sustituyendo en la expresión anterior la varianza de las perturbaciones por su estimador insesgado:
1X'XβV
2Sˆˆ [31]
Ejemplo 12.5.g El cálculo para los datos de la tabla 12.1 es
)ˆ(V)ˆˆ(Cov)ˆˆ(Cov
)ˆˆ(Cov)ˆ(V)ˆˆ(Cov
)ˆˆ(Cov)ˆˆ(Cov)ˆ(V
...
...
...
...
...
...
..ˆˆ
32313
23212
13121
040010120
010010060
120060610
110020360
020030180
360180791
340
1
403912
3912020
12205
340
)β(V
Que es la matriz de varianzas y covarianzas de los estimadores para los datos del ejemplo.
La estimación anterior es posible demostrarla a partir de la suma de cuadrado de los residuos )SCR( . Esta suma es un escalar que se puede calcular a partir de
ee'
T
tteSCR
1
2 [32]
Por [22], βXye ˆ
Utilizando el resultado de [14]
yX'X)X(X'ye 1
Reagrupando términos en torno a y
533
y]X'X)X(X'[IeM
1T
El coeficiente de y se denomina matriz M
Mye
M es una matriz de orden TxT que posee propiedades interesantes a los efectos de su posterior tratamiento; es idempotente MM2 , es
simétrica MM' y 0MX .
Reemplazando y por su igual en [3]
ε)M(XβMye [33]
resolviendo
MεMXβe
Aplicando las propiedades de la matriz M
Mεe [34]
Por lo que la suma de cuadrados de los errores será
MεM'ε'ee'
Aplicando las propiedades de simetría e idempotencia se obtiene un escalar,
εMε'ee' 2
Mεε'ee' [35]
Si al escalar definido en [35] le aplicamos el operador esperanza matemática, obtenemos
)(E)(E Mεε'ee'
si a esta igualdad le aplicamos la traza
)](tr[E)(E Mεε'ee'
Pero en general, la BAAB trtr , por lo que
)]'(tr[E)(E Mεεee'
534
Pero la traza de un escalar es igual al mismo escalar
)'(trE)(E Mεεee'
Pero M depende de X que es no estocástica; es decir, M es una constante, por lo que
)()( εε'Mee' EtrE
Nuevamente, por [7] Iεε' 2)( εσE
)I(tr)(E T2εMee'
De modo que
Mee' ε tr)(E 2 [36]
Pero la traza de la matriz M es
kT][tr][tr
][tr][tr][tr][trtr
kT
1T
1T
II
XX'X)(X'IX'X)X(X'IM
Por consiguiente, en [36]
)kT()(E 2εee' [37]
De donde se observa inmediatamente que: kT
S
ee'2 , es un estimador
insesgado de 2ε .
Con este último punto hemos concluido con la tarea de especificar y estimar un modelo por el método de mínimos cuadrados ordinarios, con todas las propiedades que hacen a esos estimadores lineales, insesgados y óptimos.
12.4. Distribuciones teóricas de probabilidad
La teoría de las Distribuciones Estadísticas es fundamental para el análisis de la información en la toma de decisiones. Es necesario distinguir entre las distribuciones experimentales y las distribuciones teóricas, teniendo
535
en cuenta que estas últimas se determinan por la teoría de la probabilidad.
La distribución de una variable aleatoria (sea teórica o no) se utiliza para calcular, a partir de una muestra, el parámetro de la población que se quiera estimar. Además, se definen distribuciones de probabilidad (o función de densidad) y distribuciones acumulativas de probabilidad (o función de distribución) que se usan para calcular la probabilidad de que ocurra determinado comportamiento de la variable.
En el módulo anterior se hizo la distinción entre variables aleatorias discretas y variables aleatorias continuas, pero nada se dijo respecto a su distribución de probabilidad.
Ejemplo 12.6. Al pronosticar las ventas de la Empresa A a los fines de establecer el gasto financiero futuro, quizás se quiera determinar la probabilidad de que la venta real sea igual a 10 unidades, 12 unidades, 15 unidades, o 18 unidades. Este tipo de información se resume en la distribución acumulativa de probabilidad de la variable aleatoria y en la distribución de probabilidad de la misma.
Variable aleatoria discreta
La distribución de probabilidad de una variable aleatoria discreta X, indicada como f(x), se define como una regla que asigna a cada número real x la probabilidad de que la variable X asuma el valor x. Es decir,
)xX(p)x(f
En cambio, la distribución acumulativa de probabilidad de X, indicada como F(x), se define como una regla que asigna a cada número real x la probabilidad de que la variable aleatoria X sea igual o menor que el valor de x. Es decir,
xX
i
i
)x(f)xX(p)x(F
536
Ejemplo 12.7. Se define una variable aleatoria X como las unidades que constituyen la demanda de los productos de la Empresa A durante el año próximo. Se suponen posibles e igualmente probables cuatro niveles de venta: 10, 12, 15 ó 18 unidades. Como las probabilidades de estos cuatro resultados posibles deben sumar 1, la distribución de probabilidades de X está dada por:
41)18(
41)15(
41)12(
41)10(
)(
XP
XP
XP
XP
xf (1)
(1) indica que la probabilidad de que la demanda sea de 10, 12, 15 ó 18 unidades es cada una igual a ¼.
La distribución acumulativa de probabilidades de X, estará dada por:
1)18(4
3)15(2
1)12(4
1)10(
)(
XP
XP
XP
XP
xF (2)
(2) dice que hay una probabilidad de ¼ que la demanda sea igual o menor a 10
unidades, una probabilidad de ½ de que la demanda real sea menor o igual a 12
unidades, una probabilidad de ¾ de que la demanda sea menor o igual a 15 unidades
y una probabilidad cierta (igual a 1) de que la demanda sea menor o igual a 18
unidades.
La Figura 12.2 representa la distribución de probabilidad dada por (1) y a la
distribución acumulativa de probabilidad dada por (2).
Figura 12.2Pronóstico de Ventas a) Distribución de Probabilidad b) Distribución acumulativa de
probabilidad
1/4
5 10 15 20 X
f(x)
1/2
5 10 15 20 X
3/4
1
1/4
0
F(x)
537
El valor esperado de una variable aleatoria discreta X, indicado como )X(E , se define:
i
ii )x(fx)X(E [38]
donde,
ix representa cualquier valor posible de X, y
)x(f i es la probabilidad de que ixX .
Es decir, )X(E es un promedio ponderado de todos los valores posibles de X, donde las ponderaciones son las respectivas probabilidades de estos valores.
La varianza de una variable aleatoria X, indicada por V(X), se define:
i
ii )x(f)X(Ex)X(V 2 [39]
donde, todos los términos responden a las definiciones anteriores. Es decir, V(X) es un promedio ponderado de las desviaciones cuadráticas de los valores observados de X con respecto al valor esperado de X, donde las ponderaciones son las respectivas probabilidades.
La desviación estándar de una variable aleatoria X, de suma utilidad práctica, se define como la raíz cuadrada de la V(X).
Variable aleatoria continua
En el campo de las variables aleatorias continuas el análisis anterior se ve ciertamente modificado. La Distribución de Probabilidad de X es:
j
i
x
xji dxxfxXxPxf )()()( donde ji xx
Es decir, f(x) es una distribución donde el área bajo la misma entre ix y
jx , es exactamente la probabilidad de que X asuma un valor entre ix y
jx . De la misma manera, la Distribución acumulativa de probabilidad,
F(x), está dada por la expresión:
xds)s(f)xX(P)x(F
donde s es una variable de integración.
538
Es decir, para determinar la probabilidad acumulativa de que X sea igual o menor que x, se calcula el área bajo la distribución de probabilidad, f(x), entre - y x. La probabilidad de que la variable aleatoria continua X sea exactamente igual a cierto valor x es cero.
El valor esperado y la varianza de variables aleatorias con distribución de probabilidad continua, se definen con las respectivas fórmulas como:
dx)x(xf)X(E [40]
dx)x(f)X(Ex)X(V 2 [41]
donde, f(x) es la distribución de probabilidad de la variable aleatoria X.
Ejemplo 12.8. Una distribución de probabilidad de una variable aleatoria continua es la distribución de probabilidad normal estándar. La distribución de probabilidad y la distribución acumulativa de probabilidad de una variable aleatoria X normal estándar son las que muestra la Figura 12.3.
Figura 12.3 Distribución normal estándar
a) Distribución de probabilidad b) Distribución acumulativa de probabilidad
-4 -3 -2 -1 0 1 2 3 4
0.40
-4 -3 -2 -1 0 1 2 3 4
1.00
0.50
No necesariamente todas las variables aleatorias bajo estudio responden a las distribuciones teóricas de probabilidad. Existen las distribuciones experimentales que, una vez obtenidas, pueden o no responder a las formas de las distribuciones teóricas. Precisamente este será tema de análisis más adelante.
En el Cuadro 12.1 se presentan algunas distribuciones teóricas de probabilidad, tanto discretas como continuas. Se han incluido en el cuadro las distribuciones de probabilidad (también llamadas funciones de densidad cuando están asociadas con variables aleatorias que responden a determinada distribución teórica de probabilidad) y los principales parámetros (media, varianza) de las distribuciones.
Es importante comentar aquí que a partir de las distribuciones muestrales se obtienen estimadores de los parámetros poblacionales. Estos estimadores, por provenir de una muestra aleatoria constituyen, en sí mismos, variables aleatorias sujetas a distribuciones de probabilidad y a
539
distribuciones acumulativas de probabilidad. Esta es la verdadera naturaleza de la Inferencia Estadística.
Cuadro 12.1: Algunas Distribuciones Teóricas de Probabilidad
Distribución de X
Distribución de Probabilidad (o Función de Densidad)
Parámetros E(X) V(X)
a. Discretas
Poisson
010
,n,,,k;
!k
e)kX(P
k
Geométrica ,,k;pq)kX(P k 211
p
1
2p
q
Binomial
n,...,k;)p(pk
n)kX(P knk 01
np npq
Pascal
,...r,rk;qpr
k)kX(P rkr 1
1
1
p
r
2p
rq
Hipergeomé-trica
...,,k;
n
N
kn
rN
k
r
)kX(P 210
np 1
N
nNnpq
Multinomial
n!n!n
pp!n)nX,...nX,nX(P
k
nn
kkk
212211
1
1
inp ii qnp
k,i 21
b. Continuas
Normal
x;e)x(f
x2
2
1
2
1
Exponencial 0 x;e)x(f x
1
2
1
Gamma 01
x;e)x(
)r()x(f xr
r
2
r
En síntesis, para estimar un parámetro de una variable aleatoria X, que posee distribución normal, se usará el estimador que va a obtenerse a partir de la distribución muestral de la variable aleatoria X. Este estimador es de suma utilidad para realizar inferencias y es una variable
540
aleatoria que posee una distribución normal, ya que proviene de una muestra tomada de una variable aleatoria con dicha distribución.
Necesidad del uso de probabilidades
Toda decisión tomada en cualquier circunstancia, en el ámbito empresario o fuera de él, tiene efecto durante un período de tiempo que se extiende hacia el futuro. Esta característica, que es común a todas las decisiones empresarias, probablemente se observe con mayor intensidad en las áreas comerciales, financieras y de producción. Sin embargo, una decisión involucra aspectos del futuro, cualquiera sea la base sobre la que sea tomada.
Teniendo en cuenta que al evaluar una propuesta se estará mirando hacia el futuro, ésta se traducirá en estimaciones de variables; por ejemplo, costos, gastos, ventas, precios, inversiones o impuestos, que estarán sujetas a cierto nivel de incertidumbre. Ante este nivel de incertidumbre en la estimación de variables importantes para la empresa, ¿es suficiente trabajar con el valor sospechado, probable o experimental?, o ¿es más conveniente trabajar con la distribución de probabilidad de cada variable?.
Hay que tener en cuenta que el riesgo es inseparable de la estimación de cualquier alternativa de decisión. Evidentemente, en el campo de la toma de decisiones, es más importante basarse en los métodos probabilísticos que en los subjetivos.
12.5. Distribuciones multivariables
En Inferencia Estadística hemos visto un tratamiento casi completo del modelo de dos variables. Para facilitar una posterior comprensión introducimos a continuación resultados estadísticos básicos en forma matricial.
Supongamos que x representa un vector de variables aleatorias
nX,,X,X 21 .
El valor esperado de cada variable es: n,,,i);X(E ii 21
Agrupando estos valores esperados en un vector μ , se obtiene
nn )X(E
)X(E
)X(E
)(E
2
1
2
1
xμ [42]
541
La aplicación del operador E (esperanza) al vector x significa que E se aplica a cada elemento de x .
La varianza de iX es, por definición ])X[(E)X(V iii2 . La covarianza
entre iX y jX es )]X)(X[(E)X,X(Cov jjiiji
Si definimos el vector x
nT μX
μX
μX
μX
:
:22
11
y tomamos ]xx[E ' , nos queda
)]X()X)(X[(
)X(
)X(
)X(
E nn
nn
2211
22
11
=
2
22
11
22
222
2211
11
1122
211
)(
))((
))((
))((
)(
))((
))((
))((
)(
nn
nn
nn
nnnn μXE
μXμXE
μXμX
μXμXE
μXE
EμXμXE
μXμXE
μXμXE
μXE
[43]
Vemos que los elementos de esta matriz son las varianzas y covarianzas de las variables iX , teniendo en cuenta las definiciones dadas, la matriz de varianzas y covarianzas que puede representarse como:
221
22212
12121
nTT
T
T
σXXCovXXCov
XXCovσXXCov
XXCovXXCovσ
Las varianzas son los elementos de la diagonal principal y las covarianzas aquellos elementos fuera de ésta diagonal. Esta matriz se conoce como matriz de covarianzas y se simboliza como
)'μxμxΣx )(()( EV [44]
542
Está claro que Σ es simétrica (esto es, Σ'Σ ). Es importante analizar si Σ es definida positiva o no lo es. Porqué es importante? Veremos más adelante que esto asegura el cumplimiento de la no dependencia lineal entre las variables exógenas lo que implica NO MULTICOLINEALIDAD, este es uno de los elementos que darán CONSISTENCIA AL MODELO.
Demostremos esto.
Proposición 12.5.1: Para que Σ sea definida positiva las X deben ser linealmente independientes.
Demostración: Definamos una variable aleatoria escalar Y como una combinación lineal de las X ,
c)'(xY μ [45]
donde c es un vector columna arbitrario de n elementos no todos nulos. Elevando [45] al cuadrado
c)')(x(xc'Y μμ 2
esto es, por ser un escalar de argumento vectorial, su cuadrado se obtiene premultiplicando por su transpuesta
y aplicando el operador esperanza, se obtiene
][E)(E c)')(x(xc'Y μμ 2 = c)')(x(xc ][E' μμ
por ser c un vector de elementos constantes y x un vector de variables aleatorias, entonces
Σcc'Y )(E 2 [46]
Puesto que Y es una variable aleatoria escalar se cumplirá que: 02 )(E Y de esta forma, 0cc'Σ y Σ es semidefinida positiva.
Como vemos, )(E 2Y puede asumir un valor nulo o un valor mayor que
cero. Si asume un valor nulo, se tiene 02 )(E Y lo que implica1 que
0Y , de esta forma 0 c)'(x μ ; pero como c no es un vector nulo la única posibilidad es que 0μ)'(x , lo cual significa que las desviaciones
de X con respecto a su media, esto es )X()X)(X( nn 2211 , son linealmente dependientes2.
1La E(Cte)=Cte => E(Cte2)=Cte2 por lo tanto si Cte=0 => E(Cte=0)=0. De esta forma E(Y2)=0 => Y2=0 por lo tanto, Y=0 2Si para un conjunto de parámetros , no todos nulos, pertenecientes a un campo numérico F tenemos que si se
cumple la siguiente combinación lineal 1 a1 + 2 a2 + ... + n an = 0 se dice que los vectores a1, a2,..., an son
LD dentro de F, salvo que la igualdad se cumpla solo y solo si todos los i (i=1, 2, ...,n) son iguales a cero.
543
Entonces, Σ es definida positiva si y solo si entre las X no existe dependencia lineal.
Las k variables aleatorias tendrán alguna función de densidad de probabilidad multivariante
)X,,X,X(p)p n21(x
La función de densidad de probabilidad más importante es la normal multivariante que, al igual que la univariante, queda especificada una vez que se conoce su media y su varianza. En este caso se puede especificar en términos del vector de medias μ y de su matriz de covarianzas Σ . De este modo la fórmula es:
μ)](x1μ)'Σ(x
2
1[
Σx
e
)()(p
//n 2122
1
[47]
donde:
Σ es una matriz simétrica, definida positiva, cuyos elementos ij son
parámetros
μ es un vector nx1, cuyos elementos iμ son parámetros.
n
2
1
Una forma compacta de escribir [47] es
);(N Σμ~x
es decir, el vector x de variables iX se distribuye según una ley normal
multivariante con vector de medias μ y matriz de covarianzas Σ .
Entonces se dice que los vectores son LI. Esta definición se aplica también cuando el número de vectores es uno, de modo tal que un único vector a1 es independiente si a1 0 y dependiente si a1=0, es decir, es el vector nulo.
En el caso que nosotros analizamos se cumple esta última condición ya que cada variable desvío es nula y
544
Casos especiales
a) Cuando n=1,
221
21111111111 ])X[(E)]X)(X[(EnΣ [48]
y [47] se transforma en
][ 222
1
212
1 μ)(x
/e
)()X(p
[49]
que es la conocida función de densidad para una normal univariante.
b) Cuando n=2,
)X,X(p)(p 21x [50]
Donde X se define como
22
11
X
XX
La matriz Σ se obtiene a partir de
221122
11 μXμXμX
μXEΣ
Realizando los productos correspondientes
22221122
22111111
XXXX
XXXXE
Que puede expresarse como
2
221122
22112
11
XXX
XXXE
Aplicando el operador esperanza
2
221122
22112
11
XEXXE
XXEXE
Σ se convierte en
conforma un vector nulo: 0μ)'(xx ; esto es,[x1, x2, ...,xn]=[(X1-µ1), (X2-µ2), ...(Xn-µn)]=[0, 0, ...,0]
donde xi es la variable desvío.
545
2221
1221
donde 2112 covarianza Teniendo en cuenta que el coeficiente de correlación entre 21 X,X es
21
2211
12/][
[51]
entonces
21
221112 σσρσ
2111 σσ y 2
222 σσ por lo que podemos distribuir la raíz
2122
2112
Lo cual significa que 1221 , por lo que la matriz Σ puede expresarse como
2221
2111Σσσρσ
σρσσ [52]
El determinante de la matriz Σ es
)1(Σ 22211 ρσσ
Donde los elementos 11σ y 22σ se demuestran al igual que en [48]
Adviértase que el 0Σ a no ser que 12 , de forma que la matriz de
covarianza es definida positiva, siempre y cuando no exista una relación lineal perfecta entre las dos variables, lo que concuerda con el resultado más general dado en la proposición 12.5.1.
Sustituyendo los resultados anteriores en [47], se obtiene:
AeXp2
122
221
22
12
1
Donde
22
11
1
2212
2121
22112
1
X
XXXA
546
Trabajemos con el exponente A ; veamos a qué es igual 1
AdjAdj
22
21
222
21
1
2212
21211 11
La matriz Adjunta de (Adj ) es la transpuesta de la matriz de cofactores de
Cof
La matriz de cofactores se construye a partir del cálculo de los menores
principales
jiji M1
2112
2122
2121
12221
MCofAdj ji
reordenando
2112
2122
222
21
1
1
1
Reemplacemos 1Σ por su igual
22
112112
2122
222
21
22111
1
2
1
X
XXXA
22
11212221112122
2211
222
21 12
1
X
XXXXX
A
2221222111
1121222211
222
21 12
1
XXX
XXXA
21
222212211
21221122
211
222
21 12
1
XXX
XXXA
21
222221121
22
21122
221
212
1
XXXXA
547
Introduciendo 22
21
1
22
21
21
222
22
21
22112122
21
22
211
2
2
12
1
XXXX
A
22
222
21
221121
211
2
2
12
1
XXXX
A
Se puede reexpresar como
2
2
22
2
22
1
11
2
1
112
212
1
XXXXA
Reemplacemos en
2
2
22
2
22
1
112
2
1
11
)21(2
1exp
21212
1),()( 21
σ
μX
σ
μX
σ
μXρ
σ
μX
ρρσπσXXpp x
[53]
que es la función de densidad para un vector de dos variables, que se distribuye normal bivariante.
c) La forma cuadrática de la normal multivariante se define como
μ)(xΣμ)'(x 1 Q [54]
Es una forma cuadrática en los elementos ii μX , y puede escribirse así:
n
1j
n
1i
(Xi
ij
jji )X)(Q
[55]
Como quedó demostrado la matriz de la forma cuadrática, Σ , es definida positiva por lo que la forma cuadrática también lo es. Un resultado
548
inmediato de esto es que 0)p(x , puesto que el determinante de una
matriz definida positiva es positivo, 0Σ . Esto basta para probar que
[47] satisface una de las propiedades que la califican como función de densidad. La otra propiedad que deberíamos probar es que 1)p(x . Cuestión que se cumple pero que no demostraremos aquí.
d) Un caso especialmente importante de [47] se da cuando todas las X tienen la misma varianza 2 y no están correlacionadas entre sí (lo que es lo mismo decir que son estadísticamente independientes). Para que esto ocurra Σ debe ser una matriz diagonal, esto es
nn
00
00
00
22
11
I2Σ [56]
donde:
n es el número de variables
22211 nn
ji,ij 0 . Esto ocurre si y solamente si el coeficiente de correlación
ij es cero cuando ji .
Esta matriz tiene las siguientes particularidades
nσ 2Σ ,
2/22/122/1 nn σσ Σ
IΣ 12
1
σ
con lo que
)](x)'(x
21[
xμμ
2
2
122
e)(
)(p/n
[57]
La ecuación [57] se puede factorizar de la siguiente forma:
549
)()()(
)(2
1exp
)2(
1),,()(
21
1
222/1221
n
n
iiin
XpXpXp
μXσπσ
XXXpp
x [58]
de modo que la densidad multivariante es el producto de cada una de las densidades marginales; es decir, las X se distribuyen independientemente unas de otras. Este resultado es de gran importancia. Si los coeficientes de correlación entre variables que se distribuyen normalmente son cero entonces las variables son estadísticamente independientes3.
Ejemplo 12.9 Dada una matriz de 3x3
33
22
11
00
00
00
B
Donde:
3 es el número de variables
2
332211 σσσσ
ji,ij 0 , lo cual indica que el coeficiente de correlación ij
es cero cuando ji . El determinante es
nσB *2 63*2222332211 σσσσσσσσB
La inversa es
Iσ
B2
1 1
Para el cálculo se utilizará el método de la matriz adjunta, por el cual
)(11 BAdjB
B
22
22
22
00
00
00
1
σ
σ
σ
MBCofBAdj Bji
ji
Continúa…
3 No se puede generalizar este resultado a cualquier tipo de distribución y deberá tenerse presente que las correlaciones que deben ser cero son las poblacionales y no las muestrales
550
continuación
Iσ
σ
σ
σ4
22
22
22
00
00
00
De modo que:
Iσ
Iσσ
B2
46
1 11
Quedan demostradas las particularidades que tiene la matriz
e) Un caso más general se obtiene de particionar la matriz Σ de la siguiente forma
22
11
Σ0
0ΣΣ [59]
donde: 11Σ es cuadrada de orden r y 22Σ es cuadrada de orden rn .
La forma de [59] significa que todas y cada una de las variables del conjunto rX,,X,X 21 están incorrelacionadas con todas y cada una de las
variables del conjunto nrr X,,X,X 21 .
Aplicando una partición similar a x y a µ, se tiene:
)(x)'(x)(x)'(x)(x)'(x 12
-1221
-111 μΣμμΣμμΣμ
2211 [60]
También se puede demostrar que
22ΣΣΣ 11 [61]
Tanto de [60] como [61] se obtienen de propiedades de partición de matrices cuadradas no singulares4.
Aplicando [60] y [61] en [47] se obtiene:
4 Matriz simétrica A=A' (sólo se cumple para matrices cuadradas: m=n). Matriz no singular es aquella que admite
inversa y esta es única si la matriz es cuadrada. Matriz idempotente A=A2=A3=...=An.
551
)(x)'(x
)(x)'(xx
221-
2222
111-
1111
μΣμ
μΣμ)
222221
222rn
111121
112r
21
2
1
21
2
1p
exp)(
x
exp)(
(
//
//
[62]
es decir,
)(p)(p(p 21 xxx ) [63]
de forma que las r primeras variables se distribuyen independientemente de las rn variables restantes.
12.6. Formas Cuadráticas
Supongamos que nuestra matriz simétrica Σ de orden nxn se combina con el vector x de n elementos de la siguiente forma:
nnnnnn
n
n
n
n
X
X
X
XXXX
2
1
321
3333231
2232221
1131211
321
Realizando los productos correspondientes
n
nnnnnnn
X
X
X
XσXσXσXσXσXσXσ
2
1
22111331221111 ......
2
332333
1232232222
113113211221
2
22
222
nnn
nn
nn
nn
X
XXX
XXXXX
XXXXXXX
11Σxx'
[64]
Esta forma se conoce con el nombre de forma cuadrática, donde:
552
Σ es la matriz de la forma cuadrática, en nuestro caso la matriz de covarianzas.
ij , para todo i=1, 2, ...n y para todo j=1, 2, ...n, son los elementos
de la matriz de la forma cuadrática, en nuestro caso
ijjjii )]X)(X[(E
]X,,X,X[ n21x' , es el vector de variables aleatorias
Propiedades:
a) Si 0x0xx' Σ , se dice que la forma cuadrática es definida positiva y se dice que Σ es una matriz definida positiva. (ver proposición 12.5.1)
b) Si 0x0xx' Σ , la forma cuadrática y la matriz son semidefinidas positivas.
c) Si las desigualdades anteriores cambian de signo se dice que las matrices y las formas cuadráticas son definidas y semidefinidas negativa, respectivamente.
d) Si una forma cuadrática es positiva para algunos vectores x y para otros negativa, entonces se dice que es indefinida.
Condiciones necesarias y suficientes
a) Una condición necesaria y suficiente para que una matriz simétrica y real Σ sea definida positiva es que el determinante de cada submatriz principal sea positivo.
Las submatrices principales de Σ son un conjunto de n submatrices tales que
Σ,,
kkkjki
jkjjji
ikijii,
jjji
ijii,iiσ
Lo más común es considerar las matrices superiores
ΣΣΣΣΣ
n1 σ ,,,,
333231
232221
131211
32221
1211211
[65]
553
Cuando Σ es definida positiva, 0xx' Σ para cualquier x distinto de cero. Por lo tanto, podemos considerar un vector x cuyos primeros elementos son distintos de cero y los restantes rn elementos son nulos, es decir,
]0'[x'x' r
Entonces
rrrrr
r xΣx'0
xΣ0][x'Σxx'
donde se ha particionado en las primeras r y las últimas rn filas y columnas y los asteriscos representan a otras submatrices de Σ que serán absorbidas por los subvectores nulos dex . Puesto que
0xx' Σ
se deduce que
0xΣx' rrr
Así pues, dadas las condiciones anteriores, todas las raíces de rΣ son positivas, de forma que
0Σr
Por lo tanto, con una elección adecuada de los vectores x , la condición necesaria y suficiente para que Σ sea definida positiva se puede expresar como
0Σ,0,Σ0,Σ0,Σ 321 [66]
b) Otra condición necesaria y suficiente para que Σ sea definida positiva es que los valores característicos5 de Σ sean positivos.
Para demostrar la condición necesaria supongamos que 0xx' Σ . Para cualquier valor característico i
5Los valores característicos i de la matriz Σ , son las raíces del polinomio que se obtiene al resolver el sistema
0λI)x(Σ . Si la matriz λIΣ no es singular, la única solución es la trivial 0x . Por lo tanto, para que
una solución no trivial exista, la matriz debe ser singular o, en otras palabras, el siguiente determinante: IΣ -
debe ser cero. Este determinante se conoce como la ecuación característica de la matriz Σ . Esto da un polinomio en λ . Cada raíz o valor característico i se puede sustituir en 0λI)x(Σ , con lo que se obtendrán los
correspondientes vectores característicos.
554
iii xλΣx
premultiplicando por ix' da
iiiiii λxx'λΣxx'
puesto que se cumple que 0xx' Σ para cualquier x distinto de cero, también se cumplirá para cualquier vector característico de forma que 0i para todo i.
Para demostrar la condición suficiente suponemos que todas las i son mayores que cero y demostramos que 0xx' Σ .
Puesto que una matriz simétrica tiene un conjunto completo de n vectores característicos ortogonales6 n21 x,,x,x , cualquier vector no nulo x se puede expresar como una combinación lineal de los vectores característicos.
n21 xxxx nccc 21
Así pues,
n21
n21
xxx
xxxx
nn
n
ccc
ccc
2211
21
nn
nnn
ccc
)ccc()'ccc(
2
2221
21
221121
n21n21 xxxxxxxx'
puesto que
n,,,j,iji
jiij 21
1
0
ji xx'
Habiendo supuesto que todos los i son positivos, entonces
0xx' Σ , ya que los 2ic son siempre positivos.
TEOREMA 12.6.1. Si Σ es simétrica y definida positiva, se puede encontrar una matriz no singular P tal que:
PP'Σ [67]
6 Los vectores ortogonales cumplen con la condición que Ixx'
555
Para hallar P, primero hay que encontrar los valores característicos de Σ a partir de IΣ λ
Ejemplo 12.10 Supongamos
333231
232221
131211
Σ y hagamos el
calculo del determinante de IΣ λ
00
00
00
333231
232221
131211
Donde ij son constantes
son incógnitas, representan los valores característicos Si resolvemos la diferencia de matrices
λσσσλσσσσλσσ
σσσσσσλσλσλσ
λσσσ
σλσσ
σσλσ
112332332112312213
133221312312332211
333231
232221
131211
2332112332211233211231132213
133221312312332
22112211
Veamos que
2332
1331
1221
Entonces 133221312312 σσσσσσ
Por lo que 133221133221312312 2 σσσσσσσσσ
Si 21221121221 Entonces el determinante será
λσσσλσσσλσσσσσσ
λλσλσλσσσλλσσλσσσσσ2
32112
322
12332
122
13222
13133221
3222
211221133
233223311332211
2
Continúa…
556
continuación Agrupando de acuerdo a la potencia de
11
23233
21222
213133221332211
2211332233112
232
122
132
3322113
2
Esta última expresión es el determinante de IΣ λ
Definamos
112
32332
12222
13133221332211
2211332233112
232
122
13
332211
2 σσσσσσσσσσσσγ
σσσσσσσσσβ
σσσα
De modo que
23IΣ
Debemos encontrar ;; 21 λλ y 3λ que hacen que el polinomio se
anule 023
Cuando hallemos los iλ
32123
La primera parte, que consiste en encontrar los valores propios, está cubierta; 1λ , 2λ y 3λ son los valores propios que estábamos
buscando. La segunda parte consiste en encontrar los vectores propios (también denominados autovectores o vectores característicos). Para esto tenemos que hacer: Con 1 ; resolver el sistema 0XIΣ 11 . La incógnita es el
vector propio 1X , la resolución del sistema nos permite hallar su valor.
Con 2 ; resolver el sistema 0XIΣ 22 y hallar el segundo vector propio
Con 3 ; resolver el sistema 0XIΣ 33 y hallar el tercer vector
propio En síntesis, en el polinomio hay que encontrar los valores de que lo anulen; dicho de otro modo, las raíces características de la matriz que anulen el polinomio. Luego con cada uno de los se resuelve el sistema
0XIΣ i
donde la incógnita es el vector X.
557
Cada da lugar a un vector X distinto y cada uno de estos vectores X son los vectores característicos, vectores propios o auto vectores de la matriz Σ .
Luego, reunimos estos vectores característicos en una matriz D, que pueden utilizarse para diagonalizarla. Es decir, ),,,(diag n 21D es una matriz con los vectores característicos de Σ y tiene en su diagonal principal los valores característicos de la matriz Σ . De modo que:
DΣXX XXDΣ [69]
Cuando Σ es definida positiva, todos sus valores característicos son positivos por lo que es válido hacer
Es decir, D se puede descomponer en los factores
1/21/2DDD [70]
donde
nλ
λ
λ
00
00
00
2
1
1/2D [71]
Sustituyendo
21212121 XDXDXDXDXXDΣ
Habíamos dicho que PPΣ entonces quiere decir que 21XDP siendo P no singular
sustituyendo en [69] se obtiene:
)')(XD(XDX'DXDΣ 1/21/21/21/2
por lo tanto, como PP'Σ
se concluye que
1/2XDP [72]
y P es no singular puesto que es el producto de dos matrices no singulares.
558
TEOREMA 12.6.2. Si Σ es nxn y definida positiva y si P es nxm con rango igual a m , entonces
ΣPP' es definida positiva
Queda claro que ΣPP' es simétrica y para cualquier vector y de m elementos
Σxx'ΣP)y(P'y'
donde, Pyx
Por lo tanto, a x se le puede considerar como una combinación lineal de las m columnas LI de P, por lo que:
0x sí y solo sí 0y
Así pues, ΣPP' es definida positiva.
Proposición 12.6.2. Dadas dos matrices A y B, si A es nxm con rango nm , entonces AA' es definida positiva y AA' es semidefinida
positiva.
Ejemplo 12.11 Supongamos una matriz A de orden nxm con rango m
mAArangoAAAAmxmnxmmxn
)(
nmAArangoAAAAnxnmxnnxm
)( donde hay, m columnas
linealmente independientes y n-m columnas linealmente dependientes
Proposición 12.6.3. Si A es nxm con rango )n,mmin(k , entonces AA' y AA' son ambas semidefinidas positivas.
Proposición 12.6.4. Dadas dos matrices A y B, si ambas son definidas positivas y su resta también lo es, entonces la resta de sus respectivas inversas es definida positiva. BA definida positiva
11 AB .
559
Distribución Estadística de Formas Cuadráticas
a) Supongamos que
I)N(0~x ,
es decir, x es un vector de n elementos y cada una de las n variables en x se distribuyen normal e independiente, con media cero y
varianza 1. O sea las iX son variables aleatorias normales independientes tipificadas.
Teniendo en cuenta a 1σ , se tiene
222
21 nXXX xx'Ixx'Σxx'
o sea la suma de cuadrados de n variables aleatorias normales tipificadas. De la definición de chi-cuadrado
(n)~xx' 2 [73]
b) Supongamos que I)N(0~x 2,
Ahora, xIx'xx' )( 2Σ
O sea que la matriz de la forma cuadrática es una matriz identidad premultiplicada por un escalar 2 .
De esta forma cada variable aleatoria normal iX deberá dividirse por 2 para que su varianza sea la unidad. Así pues,
2
2
2
22
2
21
nXXX
(n)~ 2χ
es decir, (n)~xx' 2χ2
1
o lo que es lo mismo,
(n)~xIx' 212 χ)( [74]
O sea que la suma de cuadrados de variables aleatorias normales con media cero y varianza constante distinta de uno se distribuye Chi-cuadrado con n grados de libertad.
560
La ecuación [74] muestra explícitamente que la matriz de la forma cuadrática es la inversa de la matriz de covarianzas.
c) Supongamos ahora que
Σ)N(0~x ,
donde Σ es una matriz definida positiva.
La expresión equivalente a [74] sería ahora
(n)~xΣx' 21 [75]
De hecho este resultado se cumple pero la demostración no es inmediata ya que las variables aleatorias normales X ya no son estadísticamente independientes. El procedimiento consiste en transformar las X en Y , las cuales serán variables aleatorias normales independientes y tipificadas.
Puesto que Σ es definida positiva, de acuerdo a [67] existirá una matriz no singular P tal que PP'Σ , que da lugar a:
IPΣP
PPΣ11-1
11-1
)'()(
)')(( [76]
Definamos un vector y de n elementos como
xPy 1
las variables Y son normales multivariantes puesto que son combinaciones lineales de las X ,
00PxPy 11 )(E)(E porque Σ0,X N~
I)'Σ(PP)'(Pxx'Py 1111 ][(E)(V (de acuerdo a [76])
Este resultado significa que las Y son variables aleatorias normales tipificadas, de media 0 y varianza 1, por lo que:
(n)~yy' 2χ [77]
Pero, según se vió, xPy 1 ; de modo que
xP)'(Px'yy' 1-1
561
De acuerdo a [76]
xΣx'yy' 1
luego, (n)~xΣx' 21
que es el resultado que se anticipó en [75]
d) Supongamos de nuevo que I)N(0~x ,
y ahora consideremos la forma cuadrática Axx' donde A es idempotente con rango nr .
Si representamos a la matriz de vectores característicos de A por Q , entonces
DAQQ' [78]
donde D tendrá r unos y rn ceros en la diagonal principal.
0
0
1
1
1
Definamos: xQ'y , entonces, Qyx
Entonces:
QIQIQQQXXQQXXQXQXQY
0XQXQY
EEEV
EEE
Al ser Q ortogonal, es decir vectores LI, IQQQQQQ 11 Por esto
Iy )(V [79]
De esta forma las variables Y son normales tipificadas e independientes.
La forma cuadrática se puede expresar ahora usando [78] como:
r términos = rango(A)
n-r términos
562
AQyQ'y'Axx'
donde
DAQQ
xQy
De modo que
222 rYY 2
1YAQyQ'y'Axx'
Por lo tanto,
)(~Axx' 2 rχ [80]
Generalizando, si I)N(0~x 2, y A es idempotente con rango nr ,
entonces )(~Axx' 2 rχ2
1
Proposición 12.6.5. Independencia de la Forma cuadrática. Supongamos que I)N(0~x 2, y que tenemos dos formas cuadráticas x´BxAxx' y donde BA y son matrices idempotentes simétricas del mismo orden. Se distribuirán con independencia estadística si y solamente si el producto de las matrices idempotentes es la matriz nula
0BAAB [81]
Se puede demostrar diciendo que, si las matrices son idempotentes simétricas, tenemos
(Bx)(Bx)'x´Bxy(Ax)(Ax)'Axx'
Si existe correlación nula entre cada una de las variables del vector Ax y las del vector Bx entonces se distribuirán independientemente una de otra y, por lo tanto, cualquier función de un conjunto de variables, tal como Axx' se distribuirá independientemente de cualquier función del otro conjunto, tal como x´Bx . Las covarianzas entre las variables de Ax y de Bx vendrán dadas por
ABBAxx'Bx(Ax) 2 ][E])'([E
Estas covarianzas (y, por lo tanto, las correlaciones) serán todas cero siempre y cuando 0AB .
563
Puesto que A y B son simétricas, esta condición también se puede establecer como que 0BA ; una implica la otra.
Proposición 12.6.6. Del mismo modo una forma cuadrática y una función lineal L son independientes 0LA . Siendo L una
combinación lineal de las X que se distribuyen I)N(0~x 2, .
Para demostrarla, supongamos que I)N(0~x 2, . Además supongamos que Axx' sea una forma cuadrática en la que A es una matriz idempotente simétrica de orden n y supongamos que Lx es un vector de m elementos, siendo cada elemento una combinación lineal de las X . Así pues, L es de orden mxn , lo que nos dice que no necesita ser ni cuadrada ni simétrica. Si las covarianzas entre las variables de Ax y Lx son cero, estos supondrá que
0AL'L'Axx' 2][E , con lo que
0LA [82]
12.7. Normalidad de la perturbación aleatoria
Se ha admitido, aunque implícitamente, que los datos con que se trabaja provienen de muestras finitas. Esto es cierto en la mayoría de los casos, aunque para sostenerlo son necesarios supuestos bastante fuertes, tales como regresores no estocásticos y distribución normal de las perturbaciones aleatorias. Vale decir aquí que, además de MCO existen otros métodos para estimar el vector de parámetros β . Por ejemplo, se podría aplicar una regresión por cuantiles (separando los valores más altos y más pequeños de las variables explicativas) o una regresión ortogonal (minimizando la distancia ortogonal a la recta de ajuste y no la distancia ortogonal respecto a las variables explicativas). La cuestión de cuál estimador hay que elegir normalmente se basa en las propiedades estadísticas de los candidatos, tales como insesgadez, eficiencia y precisión. Estos, a su vez, dependen también de la distribución que se supone que producen los datos. Es interesante el hecho de que un buen número de propiedades deseables pueden obtenerse para el estimador MCO , incluso sin especificar una distribución particular para las perturbaciones aleatorias en la regresión. Sin embargo, se admite a los efectos de ampliar la discusión, que las perturbaciones siguen una distribución normal. Esto es, se incluye el supuesto adicional de Normalidad y se incorporan algunas propiedades asintóticas.
564
En forma alternativa se podrían calcular los estimadores máximo verosímiles, de los parámetros del modelo; es decir, aquellos que son más probables dada la distribución de los datos muestrales y su implicación sobre la función de densidad conjunta.
Para todo esto, se admite la hipótesis de normalidad en la distribución de la perturbación aleatoria dada en [6]
),(N~ TI0ε ε2
Es decir, el vector de perturbaciones aleatorias ε tiene una distribución normal multivariante, dada por la siguiente función de densidad,
]2
1exp[
)()2(
1)(
22/22/
2
1
εε'εεε σσπ
ε
ε
ε
pf TT
T
[83]
donde:
TIε2 es una matriz escalar, definida positiva, cuyos elementos 2
ε son
constantes.
Si se recuerda la definición de la distribución normal multivariante, se observa que en este caso todas las variables tienen la misma varianza
2 y no están correlacionadas entre sí (lo que es lo mismo decir que son estadísticamente independientes). Para que esto ocurra Σ debe ser una matriz diagonal, esto es
TT
00
00
00
22
11
I2Σ
Con las siguientes propiedades
2
2211 TT
ji,ij 0 . Esto ocurre si y solamente si el coeficiente de
correlación ij es cero cuando ji .
IΣΣ 12
22212212 1
y;
/T/T/TΣ , con lo que se
obtiene la función mostrada.
565
Por tanto, los elementos del vector ε , se distribuyen independiente y conjuntamente según una ley normal multivariante con vector de medias 0 y matriz de covarianzas TIε
2 .
En [83], εε'ε2
1
σ puede expresarse como εIε' ε
12 T , el cual define una
forma cuadrática cuyo resultado es
2
2
2
22
2
21
T
Es decir, una suma de variables normales tipificadas, porque 0ε .
De esta forma cada variable aleatoria normal T se divide por 2 . Así pues,
2
2
2
22
2
21
T 2
T~
es decir, la forma cuadrática εIε' ε
12 T 2
T~
La ecuación anterior muestra explícitamente que la matriz de la forma cuadrática es la inversa de la matriz de covarianzas.
Dado que las perturbaciones son no observables, puede interesar conocer la distribución de la suma de cuadrados de los residuos vista en [35]
Mεε'ee'
Y para ello se utilizan las propiedades de las matrices simétricas e idempotentes, vistas anteriormente y, en particular, que la forma cuadrática con variables aleatorias T tipificadas se distribuye como
Mεε' 2kTχ ~
Siendo kT el rango y la traza de la matriz M , matriz simétrica e idempotente. Por tanto, y en este caso con ),(N~ TI0ε ε
2 y rango igual a
la traza kT
222 kT~
εε
ee'Mεε' [84]
Resultado que será utilizado en los contrastes de validez del modelo.
566
12.8. Criterio de máxima verosimilitud
En general, las propiedades asintóticas del estimador máximo-verosímil son muy atractivas en casos en los que es imposible encontrar estimadores con buenas propiedades para muestras finitas, situación esta que se produce frecuentemente en la práctica.
Para ello, si suponemos que las perturbaciones aleatorias siguen una distribución normal multivariante como la expuesta en [83]
]2
1exp[)()()(f /T/T εε'ε
εε 2
2222
La función de verosimilitud, para los valores muestrales, expresando Xβyε y denominando MVβ al vector de estimadores máximo
verosímiles, es
])y(2
1exp[)(L
T
tt
/T
1
22
222 βX't
εε
)])'2
1exp[)(L /T Xβ(yXβ(y
εε
2222
[85]
Observación. La transformación βX'ttt yε es posible ya que el
jacobino para cada observación, tt y es igual a la unidad. Recordemos
que ante una transformación de variables se aplica la solución estadística de cambio de variable.
Mediante un cambio de variable se puede resolver, totalmente o en parte, un buen número de problemas importantes en la teoría estadística. Los cambios de variables pueden ser simples cambios de localización o escala o pueden ser transformaciones ortogonales.
En este caso tenemos una variable aleatoria ε con comportamiento aleatorio conocido, esto es, con densidad )(f ε conocida, y necesitamos determinar el comportamiento aleatorio o la densidad )(g y , de una variable aleatoria y cuya relación con ε está dada por una función conocida )(εy . En este caso en particular, esa función es
t'tt εy βX
Encontramos
567
)(Med)(fe)(M t
t
ε
βXβX
βX
't
't
't
Así, la función generatriz de momentos de y se determina en términos de la función generatriz de momentos de ε , y el problema de los momentos de y queda resuelto.
En el caso que estamos analizando, afortunadamente, se resuelve en forma sencilla, ya que
Iεε'XβyXβyyV
XβεXβεXβyE2
)(E)')([(E)(
)(E)(E)(
Que es la formula utilizada en la función de verosimilitud.
Por otra parte, ante un cambio de variable )(εy donde la función de densidad de ε es )(f ε , la función de densidad y se calcula como:
t
tt
t
t
y
)y()y(f
y)(f)y(J)(f)y(g
βX
βX't'
t
Donde )y(J es el Jacobino de la transformación, determinante definido sobre la matriz de derivadas parciales deε respecto a y . En nuestro caso
1)y(J y por lo tanto )(f)y(g .
Para maximizar la función de verosimilitud con respecto a β , sería necesario maximizar el exponente o minimizar la suma de cuadrados. Tomando logaritmos obtenemos el logaritmo de la función de verosimilitud
))'2
1ln
Tln
TLln Xβ(yXβ(y
εε
22
22
2
Aplicando las condiciones, de primer orden, de máximo respecto a los parámetros desconocidos, tenemos
0Xβ(yXβ ε
)'2
1Lln2
0))'(22
TLln
Xβ(yXβyεεε422
1
Resolviendo el sistema, obtenemos
MCO'1'
MV βyXXXβ ˆˆ
568
22 ST
ˆ MV ee'
Para ver si se trata de un máximo, apliquemos las condiciones de segundo orden,
22
2 2
εε
XX'XX'
ββ ββ
'
Lln
'
LlnE-con
02
2
42
2
εβεε
εX
β Lln'Lln
E-con
2
22
2
46422
2
ε
εεεεε
εε
T)'Lln
;2
T'
2
TLln
E(queyaEcon
Se puede demostrar que la matriz de derivadas segundas
644
42
22
2
2
2
2
2
2
2
2
1
εεε
εε
εε
εε
X'
X'XX'
β
ββ'β
'T
)(
)(
LlnLln
LlnLln
Constituyen una forma cuadrática definida negativa, condición suficiente para la existencia de un máximo. Una forma cuadrática definida negativa es aquella en que todos sus menores principales son negativos. Veamos
01
2 )( XX'
ε
02
2
12
4642
644
42
εεεε
εεε
εε εX'εε'XX'εε'εX'
εX'XX'
T)(T
)(
Por otra parte, la matriz de información es
569
4
2
2
2
1
ε
ε
ε 0
0XX'β
I
T
)(
Y su inversa
T
)(4
12
21
2 ε
ε
ε 0
0XX'βI
Los términos que están fuera de la diagonal principal son iguales a cero e indican que β y 2
ε se distribuyen independientemente.
Sustituyendo los valores estimados máximo verosímiles en la función logarítmica y tomando antilogaritmos, obtenemos el máximo de la función de verosimilitud
ee'ee'
ee'β
2
T
Tln
Tln
T)ˆ,ˆ(Lln
22
22
2
T
Tln
Tln
T)ˆ,ˆ(Lln
ee'β
22
22
22
22 2T
TT
eT
)()ˆ,ˆ(L
ee'β
222 2
TT
T)e()ˆ,ˆ(L
ee'β
222 2 TT
T
e)ˆ,ˆ(L
ee'β
22
T
constante)ˆ,ˆ(L ee'β
Donde la constante no depende de ninguno de los parámetros del modelo. La misma depende de las constantes matemáticas ey .
Cabe aclarar, entonces que el estimador de máxima verosimilitud tiene varianza sesgada, pero goza de todas las propiedades asintóticas deseables. Es consistente, posee normalidad y eficiencia asintótica, es invariante y su gradiente tiene media nula y varianza igual a la cota de Cramer – Rao para estimaciones eficientes.
570
La cota de Cramer – Rao la obtuvimos al hacer la inversa de la matriz de información
T
)(4
12
21
2 ε
ε
ε 0
0XX'βI
Ningún otro estimador con normalidad y consistencia asintótica tiene una matriz de varianzas y covarianzas menor que esta.
Dijimos que los estimadores máximos verosímiles son también invariantes. Esto significa que el estimador máximo verosímil de cualquier función continua de β es esta función del estimador máximo verosímil. Es decir, mientras que con el teorema de Gauss – Markov podíamos afirmar que el estimador lineal insesgado más eficiente de βc'
era βc' ˆ , ahora tenemos un resultado asintóticamente más significativo, ya que el estimador más eficiente de )(g β , donde )(g β es cualquier
conjunto de funciones continuas, es )ˆ(g MVβ . La distribución asintótica de un estimador fue analizada anteriormente en esta misma sección.
Por otra parte, a pesar de tener una varianza estimada sesgada, ésta
solo difiere de 2S por el factor T
k , ya que el estimador de máxima
verosimilitud esta sesgado hacia cero, como vemos a continuación
2222 1
T
k
T
)kT()ˆ(E MV
Pero el factor T
k desaparece en muestras grandes.
Asimismo, es posible verificar la equivalencia entre ambos estimadores, aunque sea asintóticamente. A partir de lo que hemos analizado, sabemos que es posible, teniendo en cuenta la inversa de la matriz de información y de que la 22 )S(E , escribir
42221 20 ,N)ˆ(T kd
MV/
Donde )ˆ(T MV/ 2221 es una variable que representa convenientemente
la diferencia de medias de los dos estimadores de la varianza y que, tomando esperanza matemática y varianza sobre la misma, cuando
T , la media tiende a cero y la varianza a 42 . Tomando esperanza matemática,
571
T
k]
T
k[T])
T
k[(T
)](E)ˆ(E[T)ˆ(ET)]ˆ(T[E
//
MV/
MV/
MV/
22212221
222122212221
1
Si tomamos varianza de la variable, tenemos
44
22222212221
22
]T
[T
)](V)ˆ(V[T)ˆ(V)T()]ˆ(T[V MVMV/
MV/
Entonces, cuando T ; 42221 20 ,N)ˆ(T kMV/
Definiendo ahora,
221
22211 /MV
/T
T
k)ˆ(T
T
kz
,
Observación. Tz representa una variable centrada y corregida por el
sesgo
T
k1 y donde hemos utilizado la deducción anterior de
esperanza matemática para centrarla.
De lo cual se puede deducir que la distribución límite de Tz es,
221
4201 /k
T
k,N
T
k
Pero, 21/T
k
T
ky
desaparecen a medida que T , por lo que la
distribución límite de Tz también es 420 ,N k .
Por otra parte, se puede demostrar que centrando convenientemente la variable 2S , obtenemos
)S(Tz /T
2221 ),(N~ k420 (demuéstrelo)
Por lo que la distribución asintótica de 2S es la misma que la del estimador de máxima verosimilitud.
572
12.9. Utilidad del modelo econométrico
Una vez que mediante los métodos econométricos de estimación se ha asignado valores numéricos a los parámetros, el modelo puede utilizarse con dos objetivos:
Descripción de la economía, de la que procede la información muestral (Familia, Región, País, etc.).
Predicción
Por supuesto que la fiabilidad de la Predicción dependerá de:
el horizonte de predicción
la constancia de los valores paramétricos estimados a lo largo del horizonte de predicción
la calidad de nuestras estimaciones de los parámetros del modelo
que el modelo utilizado sea apropiado y que, en particular, esté especificado correctamente.
Ejemplo 12.11. Un análisis de predicción es fundamental para hacer cualquier estudio de política económica. Supongamos que el Banco Central quiere hacer un análisis del posible efecto inflacionario de una expansión monetaria. En este caso se usarán predicciones de los tipos de interés (que explican los posibles gastos de consumo) y de los gastos de consumo utilizando un determinado supuesto sobre el crecimiento de la oferta monetaria.
Los valores paramétricos también son importantes para tener un conocimiento descriptivo de la economía, por ejemplo, ¿cuánto empleo se crea o se destruye si los salarios reales se mantienen constantes durante los próximos tres años?
Para responder a la pregunta sobre qué tipo de modelo especificar, se podría utilizar un modelo del tipo:
e)pW(eU ttt
donde:
tU , denota la tasa de crecimiento o destrucción del empleo
t
t
p
W, es el salario real
573
Este modelo es claramente NO LINEAL pero puede transformarse en otro lineal mediante un CAMBIO DE VARIABLES, haciendo
tt UlnY
t
tt p
WlnX
Quedando,
tt XY
Esta especificación tiene la ventaja de que el valor del coeficiente proporciona la elasticidad desempleo - salario real, puesto que:
t/ptn WVariac.% etn UVariac.% e
)t/ptd(W
tdU
tUt/ptW
t/ptdlnWtdlnU
β
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS
Caso 12.1: Correlación de muestras
La siguiente tabla proporciona los valores de las medias y las desviaciones estándar de dos variables X e Y, y la correlación de ellas para cada una de las submuestras. Calcular la correlación entre X e Y para la muestra compuesta obtenida juntando las dos submuestras. ¿Porqué dicha correlación es menor que cualquiera de las correlaciones que pudieran existir en las submuestras?
MuestraNúmero de muestras X Y Xs Ys XYr
1 600 5 12 2 3 0.6 2 400 7 10 3 4 0.7
Caso 12.2: Estimación de parámetros
Una muestra de 20 observaciones correspondiente al modelo
XY
en el que las se hallan distribuidas normal e independientemente con media cero y
varianza constante, ofrece los siguientes datos:
574
9.21Y 9862 .)YY( 4.106))(( YYXX
2.186X 42152 .)XX(
a) Estimar y
b) Calcular sus errores estándar.
Caso 12.3: Consumo de cerveza y mortalidad infantil
Un investigador se muestra interesado en las dos series siguientes, definidas para el periodo comprendido entre 1935 y 1946. Año 35 36 37 38 39 40 41 42 43 44 45 46 X, muerte de niños menores de 1 año (000)
60 62 61 55 53 60 63 53 52 48 49 43
Y, consumo de cerveza (barriles)
23 23 25 25 26 26 29 30 30 32 33 31
a) Calcular el coeficiente de correlación entre X e Y.
b) Ajustar a X (o Y) una tendencia temporal lineal calculando una regresión MCO de X (o Y) sobre el tiempo t. El procedimiento requiere elegir un origen y una unidad de medida para la variable t. Por ejemplo, estableciendo el origen en la mitad de 1935 y tomando como unidad de medida un año, al año 1942 le corresponderá el valor t=7, y así sucesivamente para los demás años. Si el origen se sitúa a finales de 1940 (principios de 1941) y la unidad de medida es 6 meses, entonces al año 1973 le corresponderá el valor t=-7. Demostrar que cualquier tendencia calculada
mediante btaXt no queda afectada por la elección del origen y la unidad
de medida.
c) Supongamos que tXe , y tYe , indican los residuos de X e Y respecto a sus valores
tendenciales. Calcular los coeficientes de correlación entre tXe , y tYe , . Comparar
dicho valor con el obtenido en el apartado a) y comentar la justificación de tales diferencias.
Caso 12.4: Primeros pasos en Eviews
En el marco de la materia de econometría se trabajará con Eviews 6, el cual es un software de la empresa Quantitative Micro Software (http://www.eviews.com/) orientado al análisis econométrico. Es uno de los paquetes más usados y más completos disponibles en la actualidad, junto con Stata, que a diferencia de otros conocidos programas como SAS o SPSS (orientados al análisis estadístico general). Se especializa en econometría, tanto de series de tiempo, corte transversal y datos de panel. Posee la ventaja de contar con un interface gráfica de modo que resulta mucho
Icono y ventana inicial de Eviews 6
575
más intuitivo que otras alternativas, pero también cuenta con el potencial de un entorno programable para usuarios avanzados, como son S o R (versión
freeware de S). Una alternativa freeware interesante es “gretl”, un paquete econométrico con interface usuario gráfica (http://gretl.sourceforge.net/gretl_espanol.html) En el escritorio de la PC, seguramente se encuentra un icono como el de la figura, y tras abrirlo, una ventana con fondo grisáceo sin más detalles. Se comenzará utilizando datos de la Tabla 12.1 del Ejemplo 12.5.
Creando Workfile. El archivo base con el cual trabaja este programa es el workfile (fichero de trabajo) que se crea desde el menú File > New > workfile... (archivo>nuevo>fichero de trabajo). En principio se abre la ventana Worfile create donde debemos especificar la estructura del archivo. Las opciones disponibles son: (1) Unstructured / Undated (Desestructurado / No Fechado) que se utiliza en caso de datos que no se corresponden con observaciones en el tiempo regulares; por ejemplo, los existentes en tabla 12.1 no se corresponden con algún período de tiempo; (2) Dated - Regular Frecuency (Fechado – Frecuencia Regular) para tabla de datos donde las unidades de observación se corresponden con unidades regulares de tiempo, como años, trimestres, meses, etc., se debe especificar la frecuencia, start date (fecha inicial) y end date (Fecha final); y (3) Balanced Panel (Panel Balanceado) cuando para cada individuo observado se dispone de series de tiempo de igual longitud, tal que deben especificarse frecuencia, fecha inicial, fecha final y número de cross-section (secciones cruzadas). Puesto que en la Tabla 12.1 5,...,2,1i , en Data Range (Rango de datos) se indica 5 observaciones. También es posible, aunque no es necesario, indicar el nombre de archivo en WF, y el nombre de hoja (como en Excel) en Page.
Cargando datos Para cargar los datos en el archivo creado existen dos maneras diferentes: (1) importando desde una aplicación externa como puede ser Microsoft® Excel, o (2) tipeando directamente en Eviews. El primero de los métodos consiste en utilizar una planilla de cálculo para tipear los datos para luego guardarlos con
alguna de las siguientes extensiones: *.xls (Excel 97-2003), *.wks (Lotus), otros archivos de texto ASCII como *.txt y *.cvs. Una vez confeccionada la Tabla 12.1 y guardada con el nombre tabla11_1.xls, hay que asegurase de cerrarla y de que ningún programa la esté utilizando. En Eviews desde el menú File > Import > Read Text-Lotus-Excel (Archivo > Importar > Leer Texto-Lotus-Excel) se abre el cuadro de diálogo donde explorar hasta encontrar el archivo de la tabla.
Creación de un nuevo archivo
Tabla de Datos en Excel
576
Primero, hay que indicarle al programa como es el orden de los datos, estos que representan las filas de la planilla. En el caso de la tabla 12.1 las filas son las observaciones por lo que se marca la opción By Observation – series in columns. En Upper-left data cell, hay que indicar la celda a partir de la cual comienzan los datos propiamente dichos, o sea la celda B2, pues la columna A
contiene rótulos de observaciones, y la Fila 1 los rótulos para las variables. En names for series or number if named in file hay que detallar el nombre de las series de la tabla o bien indicar cuantas variables contiene la tabla, si deseamos que el programa importe los nombres originales. Para este ejercicio se puede escribir vdep vind1 vind2 para renombrar a Y, X1, X2 respectivamente. Si se han realizado bien todos los pasos, el workfile debería contener cinco observaciones y tres variables: vind1, vind2, vdep; además de reservar el
espacio para el vector de coeficientes estimados (c) y la serie de los residuos (resid). Una vez importados los datos es posible verificarlos seleccionado varios objetos y clickeando con el botón derecho del mouse elegir Open > as group.
El segundo método para incluir datos consiste en generar series mediante el menú Object > New
Object. Se debe especificar Type of Object: Series y un nombre. Una vez generados los objetos se abren en grupo o individualmente y presionando Edit +/-, es posible tipear los datos como si fuera un planilla de cálculo normal. Trabajando con los Datos Los Grupos abiertos pueden guardarse con un nombre para encontrarlos fácilmente después. Basta con seleccionar el botón Name y escribir el nombre deseado. Otras herramientas importantes con las que pueden trabajar dentro de la ventana del grupo se encuentran en el menú View. Así en Group Members obtienen el listado de variables que observan:
Edit series expressions below this line -- ' UpdateGroup' applies edits to Group. VIND1 VIND2 VDEP
Cuadro de Dialogo Crear Series
Cuadro de Dialogo para Importar datos
Cuadro de Dialogo: Grupo, editando Series
577
La opción Spreadsheet les permite volver a la planilla con los datos. La opción Graph les permite graficar los datos en un gran número de formas diferentes, pueden elegir el tipo de gráfico en la primera pestaña del cuadro de diálogo, y pueden cambiar el aspecto del gráfico en las pestañas restantes. Como ejemplo, escogen General: Basic Graph, dado que los datos no tienen estructura temporal, o al menos no lo sabemos puede ser
preferido ver los datos en forma de barras y no como curvas por eso eligen Specific: Bar, y para visualizar las tres series en un mismo gráfico eligen Multiple Series: Single Graph. Otra herramienta importante que debemos utilizar cuando comenzamos a trabajar con los datos son las estadísticas descriptivas. Haciendo View > Descriptive Stats > Common Sample (muestra común) el programa genera una tabla con las estadísticas para cada variable: Media (mean), mediana (median), máximo (máximum), mínimo (mínimum), desviación estándar (std. Dev.), asimetría (skewness), el estadístico Kurtosis, Jarque – Bera con su probabilidad, la suma y la suma de desvíos cuadráticos (sum sq. Dev).
También pueden efectuar Análisis de Covarianza (Covariance Analysis), el cual les permite visualizar la matriz de covarianzas, la matriz de correlación y asociar a estas la matriz de pruebas t para hipótesis de covarianza nula o independencia. Otro tipo de pruebas de hipótesis son los test de igualdad (test equality) para medias, medianas y varianzas a los que acceden a través del menú View. Análisis de Regresión Para realizar una explicación del comportamiento de la variable dependiente construimos el siguiente modelo
5,,2,1,21 21 iVindVindVdep iiii Se puede hallar el valor de los parámetros de la Regresión, usando Eviews en el menú Quick > Estimate Equation se abre el cuadro de diálogo en el cual se especifica la estimación escribiendo
nombredependiente c nombreexplicativa_1 nombreexplicativa_2 … nombreexplicativa_K
Graficando Series
578
El término c indica que debe calcular la constante de la regresión. En nuestro ejemplo corresponde
vdep c vind1 vind2 En Estimation settings se elige Last Square (Mínimos Cuadrados) y en Sample (muestra) se escribe 1 5, es decir desde la observación 1° a la 5°. Una vez que se acepta esta configuración se obtiene la “Salida” de la Estimación (Estimation Output).
El primer grupo de elementos de la salida indica la variable a explicar, el método empleado, la muestra considerada y la cantidad total de observaciones tenidas en cuenta, este último dato podría se menor que el tamaño de muestra pues podrían faltar datos o establecerse una especificación del modelo a estimar que imposibilitara utilizar todas las observaciones. El segundo grupo contiene la estimación de los coeficientes, sus errores estándar y la prueba t de significatividad correspondiente. El tercer grupo de información contiene estadísticos útiles para evaluar la bondad del ajuste de la regresión, la significatividad conjunta y la calidad de la estimación en cuanto al cumplimiento de los supuestos básicos del modelo lineal general. Finalmente, desde esta misma ventana de estimación pueden plotearse gráficos para la variables dependiente, los valores estimados y los errores de estimación. Para ello seleccionamos el menú View > Actual, Fitted, Residual > Actual, Fitted, Residual graph (gráfico real, estimado, y de residuos). Desde el mismo menú View se accede a los test y pruebas de hipótesis sobre el modelo estimado que estudiaremos a lo largo de la materia.
Cuadro de Dialogo: Estimar ecuación y Salida de la Regresión.
Grafico de la Variable, su estimación y los errores
579
Actividades Propuestas a) Realice todos los pasos comentados anteriormente para familiarizarse con
el manejo del software. b) Compare la información de la salida de la estimación, con los resultados
obtenidos a lo largo del Capítulo 12 en relación al ejemplo 12.5. c) Interprete con los conocimientos ya aprendidos y los que recuerda de
Inferencia Estadística el significado de la información contenida en la salida.
d) Localice en la Salida el estadístico
ee'
T
tteSCR
1
2
e) Repitiendo los pasos explicados en este caso, seleccione un modelo económico con el que haya trabajado teóricamente, especifique el modelo econométrico, busque los datos y estime un modelo de regresión lineal.
BIBLIOGRAFIA
Gujarati, D. (2004). "Econometría". 4° Edición. Mc.Graw Hill. México.
Johnston, J. Dinardo, J. (2001) "Métodos de Econometría". Editorial Vicens Vives. Barcelona.
Pyndick, R.S. y Rubinfeld. D.L. (2001) "Econometría, Modelos y Pronósticos". 4° Edición. Editorial McGraw Hill. México.
580
Capítulo 13. INFERENCIA ESTADÍSTICA EN EL MODELO LINEAL GENERAL .......................................................................................... 583
13.1. El coeficiente de determinación .................................................. 583 13.2. Inferencia ............................................................................... 586 13.3. El modelo en forma de desviaciones ............................................ 599 13.4. Predicción en el modelo lineal .................................................... 607
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS .............................. 609
Caso 13.1: Cálculo de 2R ................................................................. 609
Caso 13.2: Modelo de Inversión de empresas españolas entre 1959-1971 609
Capítulo 13. INFERENCIA ESTADÍSTICA EN EL MODELO LINEAL GENERAL
13.1. El coeficiente de determinación
Una de las propiedades de la estimación MCO del modelo de regresión lineal es que, si el modelo posee término independiente, podemos realizar la siguiente descomposición de la varianza:
222
ttt
tt
tt
YYYYYY [1]
Que es lo mismo que decir: SCRSCESCT
Donde,
SCT , es la suma de cuadrados de la variable endógena o lo que es lo mismo, es el numerador de la varianza de tY y que se denominará
Suma de Cuadrados Totales;
SCE , es la Suma de Cuadrados Explicada por las variables exógenas;
SCR , es la Suma de Cuadrados de los Residuos de la regresión.
Basándonos en esta descomposición de la variabilidad de tY , se define el
coeficiente de determinación como una medida de la capacidad explicativa del modelo, es decir, de la bondad de ajuste:
SCT
SCR
YtYt
tet
YtYt
YtYtR
11
2
2
2
2
2 [2]
O lo que es lo mismo,
SCT
SCR
YTR
11
22
YY'
ee' [3]
Para demostrar esta igualdad, partimos de la suma del cuadrado de los residuos; teniendo en cuenta que, según definiciones estudiadas en el
584
capítulo anterior, el error (e) es la diferencia entre el valor observado (Y) y
el valor estimado ( βX ˆ ) se tiene
βXy'
βXyee' ˆˆ
Realizando los productos correspondientes
βXX''ββXy'yX''βyy' ˆˆˆˆ
Se sabe, por demostraciones en el capítulo anterior, que eβXy ˆ ; reemplazando esta expresión en el segundo y tercer término se tiene
βXX''ββX'eβXeβXX''βyy' ˆˆˆ)ˆ()ˆ(ˆ
Aplicando la propiedad de traspuesta y eliminando paréntesis
βXX''ββXe'βXXβeX''ββXX''βyy' ˆˆˆˆˆˆˆˆ
Recordando que 0eX' , por lo que 0X' e , y simplificando la expresión
βXX''βyy'ee' ˆˆ
Pero yβX ˆˆ , por lo que
y'yyy'ee' ˆˆ [4]
eY
Y
X
Y
Restamos en ambos miembros 2YT y reordenando términos, obtenemos
SCESCRSCT
YTYT
22 ˆˆ y'yee'yy'
[5]
585
Por lo tanto,
2112
YTSCT
SCR
SCT
SCRSCT
SCT
SCER
yy'
ee' [6]
Este coeficiente mide el porcentaje de la variación de la variable endógena,
tY , que queda explicada en la regresión por la variación conjunta de las
variables exógenas, X .
Ejemplo 13.1. (datos del ejemplo 12.5)
124
5119880
124
51222 ..
.
SCT
SCER
Por lo tanto, la proporción de la variación de tY explicada por la
regresión lineal es de 0.988 ó el 98.8%.
El coeficiente 2R está comprendido entre 0 y 1.
Si 02 tt
e , entonces 12 R y el modelo estimado se ajustaría
perfectamente a los datos.
Por el contrario, si 22
tt
tt
eYY , el modelo de regresión no
explicaría nada de la variabilidad de tY 02 R .
Como conclusión, podemos decir que el modelo se ajusta mejor a los datos cuando más próximo está el coeficiente de determinación a la unidad.
El coeficiente de determinación, 2R , va a aumentar al añadir más regresores al modelo, sin que esto signifique que la nueva variable incluida, sea relevante para explicar el comportamiento de tY . Una medida que
posibilita analizar el número óptimo de variables a incorporar es el coeficiente de determinación corregido, que se define como:
11
11
22
2
2
T/YT
kT/
T/YY
kT/e
Rt
t
tt
yy'
ee' [7]
586
Donde las sumas cuadráticas (residual y total) se corrigen por los grados de libertad); éstos son los términos que penalizan la inclusión desmedida de regresores en el modelo.
La incorporación de variables en el modelo aporta el beneficio de incrementar el valor de 2R pero tiene el costo de disminuir los grados de libertad. Mientras el beneficio supere al costo, será conveniente incorporar nuevas variables; si el costo, en términos de grados de libertad, supera el beneficio de incorporar variables significa que ya no resulta conveniente la inclusión.
De esta forma, conforme aumentamos el número de regresores, no está claro cual va a ser la variación que experimente el coeficiente de determinación corregido.
Ejemplo 13.1.a Para el ejemplo
98304124
35112 .
/
/.R
Existen otros dos criterios para comparar el ajuste de varias especificaciones de acuerdo con el número de regresores utilizados:
Criterio de Schwarz: TlnT
k
TlnCS
ee' [8]
Criterio de Akaike: T
k
TlnCA
2
ee' [9]
Habitualmente se buscan especificaciones capaces de reducir la suma cuadrática de los residuos; sin embargo, todos los criterios llevan implícita una penalización que aumenta con el número de regresores.
13.2. Inferencia
Para contrastar determinadas hipótesis, sobre los parámetros del modelo de regresión, se utilizan estadísticos cuya distribución exacta, bajo la hipótesis nula, depende de la distribución de los estimadores de 2yβ .
De acuerdo a los supuestos establecidos sobre el modelo, se puede demostrar que para cualquier tamaño de muestra dado, las perturbaciones
t siguen distribuciones normales, independientemente distribuidas de
media cero y varianza constante 2 . De donde, podemos enunciar las
siguientes proposiciones.
587
Proposición 13.1. Bajo el supuesto de normalidad de las perturbaciones aleatorias t y, conociendo además, que X es una matriz no estocástica de
rango completo por columnas, k)( X , se tiene que β es un vector aleatorio con distribución normal variantek , ya que es función del vector
aleatorio normal ε . Por lo tanto, β se distribuye normal k-variante con
media β y varianza 1' XX2σ
1' XXββ 2,N~ˆ k [10]
Para demostrar esta importante proposición partamos del resultado conocido de que
εX'X)(X'ββ 1ˆ
Con lo que queda demostrada la primera parte. Pero sabemos también que
1' XXβV
ββ
2)ˆ(
)ˆ(E
Con lo cual β es estimador insesgado y óptimo.
Por lo tanto,
1' XXββ 2,N~ˆ
Tipificando, obtenemos
I0,
XX
ββ1'
N~ˆ
/ 212
[11]
Es decir, los k estimadores tienen una función de probabilidad normal multivariante
ββX)(X''ββ
X)(X'
β
1
1
ˆˆ2
1exp
2
1
)ˆ,,2ˆ,1
ˆ()ˆ(
122/122/ ε
εk
σσπ
kβββpp
[12]
588
Proposición 13.2. Sea el vector aleatorio β con distribución normal multivariante y sea R una matriz de orden qxk , con rango q)( R ,
entonces el vector βRˆ tiene una distribución normal varianteq con media
igual a Rβ y varianza igual a R'XXR1' 2
Corolario:
R'X'XR0ββR12
,qN~)ˆ( [13]
Si se tiene 1' XXββ2,~ˆ
εσN y una matriz kxqR donde qrango )(R
el producto de
RXXRRββR1' 2,~ˆ
εσN
de modo que
RXXRββR1' 2,0~ˆ
εq σN
Proposición 13.3. Si combinamos al vector de perturbaciones ε del
modelo, con distribución 2,Nt 0 , con una matriz simétrica e
idempotente M , entonces,
(a) 22 )M(gl~
Mεε'
(b) Sea N otra matriz idempotente y simétrica, las distribuciones 2
22 Nεε'Mεε'
y son independientes si y solo si 0NM
(c) Dada una matriz R de orden qxk , con rango q)( R ; el vector
aleatorio βRˆ , con distribución normal varianteq con media igual a Rβ y
589
varianza igual a R'XXR1' 2
, es independiente de 22 )M(gl~
Mεε'
, si y
solamente si 0MR
Corolarios: Así, de la parte (a) se puede decir que, sobre la base de demostraciones anteriores, Mεε'ee' , entonces,
22
2
2
22
2
21
kTt ~eee
, o bien, 22 kT~
ee' [14]
De esta última expresión y conociendo que el estimador de 2 es
kTS
ee'2 podemos establecer la importante
conclusión:
22
2
kT~S)kT(
[15]
Donde los grados de libertad se obtienen por el hecho de que MM tr)( , siendo M una matriz simétrica e idempotente con kTtr M .
Pero también, y teniendo en cuenta las tres partes de esta proposición, se tiene que
ntementeindependiendistribuyese2ee'
β yˆ .
Estas proposiciones son suficientes para establecer los procedimientos de inferencia para cualquier elemento del vector β o sobre alguna combinación lineal de los mismos. El objetivo es contrastar hipótesis sobre los coeficientes de regresión del modelo.
Nos vamos a restringir a aquellas hipótesis que se pueden expresar como combinaciones lineales de los coeficientes de regresión, β .
Las hipótesis que vamos a contrastar se pueden escribir, de forma general:
590
rRβ
rRβ
:H
:Ho
1
[16]
Donde:
R es una matriz de orden qxk , sus filas representan la cantidad de restricciones (q) y sus columnas la cantidad de parámetros (k) del modelo, siendo sus elementos los coeficientes que acompañan a los parámetros a contrastar.
qR )( , viene dado por el número de restricciones sobre los parámetros que estamos contrastando
r , vector de tamaño qx1, con 1q .
R es una matriz tal que
El estadístico de contraste se determina de acuerdo a las proposiciones anteriores. Así, por [13] sabemos que
R'X'XR0ββR12
,qN~)ˆ(
Planteando la hipótesis nula rRβ , y reemplazando en β)βR( ˆ se tiene que
rβRRββRβ)βR( ˆˆˆ
con lo cual
R'X'XR0rβR1
2,N~ˆ
q
Asimismo, por la proposición 13.3 y tipificando la variable aleatoria rβR ˆ se tiene que
21
2q~)()( ˆˆ rβRR'X'XRrβR
1
'
[17]
Es decir, se distribuye como una chi cuadrado con grados de libertad igual al número de restricciones (e igual al rango de la matriz R ).
591
El problema habitual es que 2 es desconocido; pero, utilizando la
propiedad 22 kT~
ee', se estima a partir de
kTs
ee'2
Finalmente, el estadístico que se obtiene es
kT,qF~kT/
q/ˆˆ
FH
0
ee'
rβR'RX'XR'rβR
11
[18]
Que bajo la hipótesis nula sigue una distribución F de Snedecor, cuyos grados de libertad vienen dados por el número de restricciones q , y kT , donde T , es el número de observaciones y k el número de coeficientes estimados.
A este procedimiento se lo conoce como test de restricciones lineales y permite contrastar cualquier conjunto de restricciones lineales sobre los parámetros.
Decidiremos rechazar la hipótesis nula rRβ :Ho , con un nivel de
significación , cuando el valor muestral del estadístico F , sea mayor que la ordenada de la distribución kT,qF que deja a la derecha, una
probabilidad , es decir, si:
kT,q;FF
Ejemplo 13.1.b. Con los datos del ejemplo 12.5 se va a contrastar el conjunto de las hipótesis
1,0
5,1:
3
20 β
βH
El modelo definido en el ejemplo 12.5 es
niεXβXββY iiii ,,1;33221
592
La matriz R y el vector r se construyen de la siguiente manera:
1,0
5,1
100
01012132
321
xqx
βββ
xqxk
β
rR
nesrestricciolasendeescoeficient i
De acuerdo a [16], la hipótesis nula se define
rR βH :0
esto es
1,0
5,1
100
010
3
2
1
β
β
β
El contraste de esta hipótesis se realiza con la expresión [18], para lo
cual comencemos por resolver rR β .
En el ejemplo 12.5
30,0
82,1
01,0
β
por lo que
4,0
32,0
1,0
5,1
30,0
82,1
1,0
5,1
30,0
82,1
01,0
100
010ˆ rRβ
En el ejemplo 12.5.d se tiene el resultado de 1XX
20045660
4556332
6603323279
1835
11XX
De modo que RXXR 1 será
10
01
00
20045660
4556332
6603323279
1835
1
100
0101RXXR
10899,002452,0
02452,003052,01RXXR
593
Ahora debemos calcular la inversa de RXXR 1 , para lo cual se dbee calcular el determinante y la matriz adjunta:
RXXRRXXR
RXXR
1
1
11 1Adj
resolviendo, 00273,010899,002452,0
02452,00302,01 RXXR
0302,002452,0
02452,010899,01RXXRAdj
por lo que
179487,11981685,8
981685,89231,39
0302,002452,0
02452,010899,0
00273,0
111RXXR
Entonces
577532,34,0
32,05976556,1182718,9
4,0
32,0
179487,11981685,8
981685,89231,394,032,0ˆˆ 11
rRRXXRrR ββ
De acuerdo al Ejemplo 12.5.f, 68,0ee En síntesis:
577532,3ˆˆ 11
rRRXXRrR ββ
68,0ee q=2
235 knkT El estadístico F expresado en [18] es
261076,5
268,0
2577532,3
/
/ˆˆ
kT
qF
ee'
rβR'RX'XR'rβR
11
El valor teórico de 19
95,0;2,2F ,
por lo que 95,0;2,2
FF
entonces se acepta la hipótesis nula: 5,12 β y 1,03 β .
594
Nos centraremos, a continuación, en dos casos particulares.
1- Contraste de la significación conjunta del modelo de regresión, es decir, si cambios en las variables explicativas X nos ayudan, en conjunto, a explicar la variable endógena y .
La hipótesis nula, es:
cumplesenoigualdadeslasdealguna:0:
1
320
HβββH k [19]
Y la matriz R de orden 1)xk(k y el vector r , de orden 1)(k del estadístico1, son en este caso:
0
0
0
0
10000
01000
00100
00010
.
r
.....
R
Es interesante señalar que esta hipótesis nula, no incluye el coeficiente relacionado con el término independiente de la regresión 1 . De hecho,
aunque todos los coeficientes k,,, 32 no fueran estadísticamente
distintos de cero, el término independiente 1 recogería
aproximadamente la media de la variable endógena y podría ser distinto de cero.
El conjunto de hipótesis de [19] puede contrastarse en función del coeficiente de determinación como:
k-T1,-kF0
2
2
1
1 H
~kT/R
k/RF
[20]
Si el valor del estadístico F , es superior a la ordenada k-T1,-kF ;
concluiremos que las variables k2 ,, XX , conjuntamente, tienen un efecto significativamente distinto de cero a la hora de explicar la variable dependiente.
1 k-1 es el número de restricciones (q); estas restricciones representan a las variables explicativas del modelo, dejando a un lado el término constante.
595
2.- Si la hipótesis que deseamos contrastar, se refiere al valor de un solo coeficiente, la hipótesis nula, es del tipo:
01
0
:
:0
i
i
ββH
ββH
i
i
[21]
La matriz R del estadístico sería un vector 1xk de la forma ),,,,( 010 , con el 1 ocupando la posición ésimai , mientras que el
vector r , vendría dado por el escalar 0i .
El estadístico de contraste, toma la forma:
k-T1,F
0
2
20
H
ii
ii ~aˆ
ˆF
O equivalentemente, ya que F es igual a 2t :
k-Tt0
210
H
/ii
ii ~aˆ
ˆt
Donde
iia es el elemento ésimoi de la diagonal principal de la matriz
1)X'X( ,
22
iˆii Saˆ es la varianza estimada del estimador i ; y
kTt denota la distribución t de student de kT grados de libertad.
k-T
0
2/10 t~
ˆ Hii
iia
kT
ee
ββt
[22]
En el caso particular de que 00 i , se está contrastando la significación
individual de la variable explicativa tX .
La hipótesis nula del contraste, es que el efecto marginal de un cambio en tX sobre el valor medio de tY , es nulo:
596
0
0
1
0
iH
H i
El estadístico de contraste, toma la forma:
k-Tt0
21
H
/i ~ˆ
tiiaS
Rechazaremos la hipótesis nula a un nivel de significación , si:
kT
iˆSiˆ
/2;t
Donde: kT /2;t , es la ordenada de la distribución t de student de kT
grados de libertad, que deja a la derecha una probabilidad de 2/ .
Ejemplo 13.1.d Veremos ahora como comprobar la significatividad individual de las variables Las hipótesis, para el Ejemplo 12.5, son
0:
0
21
2:0
βH
βH
0:
0:
31
30
βH
βH
Teniendo en cuenta los resultados alcanzados en 12.5.d y 12.5.g, los estadísticos respectivos serán
26,1801.0
082,1 t 5,104.0
030,0 t
El valor teórico de t para 2 grados de libertad y un nivel de confianza de 0,95 es
303,495,0;2 t
2β es significativamente distinto de cero, por lo que la variable 2X
es significativa; mientras que, 3β es estadísticamente igual a cero,
por lo que la variable 3X en el modelo es irrelevante.
597
En general, y en este ejemplo en particular, podríamos armar la tabla de análisis de la varianza para definir el estadístico F . Plantea inicialmente la Tabla teórica y luego complétala con los datos del ejemplo que venimos desarrollando:
Fuente de variación
Suma de cuadrados
Grados de libertad
Media de suma de cuadrados
X SCE Residuos SCR
Total SCT Tabla 12.1. Análisis de la varianza para la regresión
Fuente de variación
Suma de cuadrados
Grados de libertad
Media de suma de cuadrados
X
Residuos Total
Tabla 13.2. Análisis de la varianza para la regresión (datos del ejemplo) Ahora calcula el estadístico F:
kTSCRkSCE
kTRkR
F/
1/
/1
1/2
2
Para ilustrar aún más la relación entre las distribuciones, recordemos que de acuerdo con la proposición 13.1. el estimador de cualquier parámetro de la relación lineal sigue una distribución normal univariante, dada por
)a,(Nˆiiii ~ 2
Donde, como antes, iia es el elemento ésimoi de la diagonal principal de
la matriz 1)X'X( . Así,
),(N~
iia
iiˆ
10
Y según el corolario de la proposición 13.3.
598
22
2
kT~S)kT(
Por lo que si definimos el estadístico t ,
kT
kTS:
iia
iiˆ
t
Nos queda
k,,i;kTt~
iiaS
iiˆ
t 1
Ejemplo 13.2 Para estimar el modelo 9014433221 ,,t;XXXY ttttt
Se dispone de las matrices
2
1
2
3
4340
3422
4263
0235
yX';X)(X' 1
Se conoce además que: 8090
1
2
t
tYY'Y
y que la estimación MCO del modelo de regresión lineal es
t).(
t).(
t).().(
t XXXY 441
341
27161
312711
Donde entre paréntesis se informa del desvío estándar de cada estimador. Con esta información se solicita lo siguiente: a) Calcular la SCR b) Contrastar la significatividad individual de cada una de las variables del modelo.
599
c) Contrastar la significatividad conjunta de las variables del modelo d) Contrastar la restricción lineal sobre el modelo, expresada en la siguiente hipótesis, a un nivel de confianza de 0.95, 32 230 `H
Los apartados a), b) y c) se dejan como ejercicio al lector. Para contrastar la hipótesis formulada en el apartado d) debemos definir las siguientes matrices, realizar y comprobar los cálculos correspondientes
30120 rR
52
2
1
520
15
.
)()(
kT/
q/ˆˆ
F
ee'
rβR'RX'XR'
rβR11
Para el nivel de confianza establecido ¿los coeficientes 23 ,
satisfacen la restricción lineal planteada?
13.3. El modelo en forma de desviaciones
Comencemos este tema con una observación. Algunos autores informan que el coeficiente de determinación varía en el intervalo ],[ 10 siempre y cuando el modelo lineal tenga coeficiente o término independiente. No estamos de acuerdo con esta afirmación habida cuenta de que el modelo de regresión lineal siempre tiene término independiente excepto cuando se formula en forma de desviaciones (o variables desvíos), pero aún en este caso el coeficiente 2R está comprendido entre 0 y 1.
Observación: Decimos lo anterior ya que el estimador MCO del modelo de regresión lineal es, como hemos demostrado, el mejor estimador lineal, insesgado y óptimo. La última propiedad dice que es el de menor varianza de entre todos los estimadores insesgados posibles. Esto, como vamos a ver, se mantiene si el modelo se formula en forma de desviaciones, pero es falso cuando el modelo se formula sin término independiente.
Demostremos esta cuestión utilizando la regla del absurdo. Es decir, definamos nuestro modelo sin término independiente,
T,,t;XXXY tktkttt 13322
600
En este caso, la diferencia entre este modelo y el formulado habitualmente es el término 1 , por lo que podríamos expresar el modelo sin término independiente de la siguiente forma:
T,,t;XXXXXY ttktktttt 111332211
Donde tX1 es un vector de unos, 1xT , por lo que
111 βXβ
1
1
1
Se puede demostrar que el estimador del modelo reformulado es
)ˆ(ˆ1
1 βyX'X`Xβ
Este estimador es insesgado solo si 11 ββ )ˆ(E
Partiendo de este supuesto, la varianza de este estimador es
)ˆ()ˆ(V)ˆ( βVβX`XβV 1
12
Es decir, no es un estimador óptimo y por lo tanto demás esta referirse al coeficiente de determinación del mismo como una cuestión general dentro de la teoría econométrica, que deba tenerse presente a la hora de estimar un modelo.
Por lo tanto, hasta el momento, la única forma de especificar un modelo econométrico, para su posterior estimación, es la generalmente aceptada o la presentación en forma de desviaciones de las variables con respecto a sus medias aritméticas, cuestión que analizaremos seguidamente.
Supongamos, ahora, que deseamos realizar una estimación sin término independiente, para ello especificamos el modelo en forma de desviaciones de la siguiente manera
T,,t;xxxy tktkttt 13322
601
Donde las letras minúsculas representan variables desvíos respecto a su media, es decir:
0
)(E;
k;XXx
YYy
ttt
ktkt
tt
queya
Se utiliza, generalmente, para estimar el modelo en dos etapas. En la primera se estiman los coeficientes de regresión – que coinciden con los estimados en la regresión habitual - y en la segunda etapa la ordenada al origen, término o coeficiente independiente.
Se puede escribir matricialmente como
εβAXAy 22
Donde
ii'IA
T1
; siendo A una matriz de transformación, simétrica e
idempotente, e i un vector de T unos
Ay , es el vector endógeno representado en forma de desviaciones
AX , es la matriz de variables explicativas en forma de desviaciones
2β , es el vector de los coeficientes del modelo (sin ordenada al origen)
εAε
0Ai , en general premultiplicando por A cualquier vector cuyos elementos sean idénticos, da como resulta el vector nulo
Por lo tanto,
111
111
111
1
100
010
001
1
TTii'IA
Las variables del modelo sufren una transformación, por ejemplo para el caso de la variable endógena, tenemos
602
YT
Y
Y
Y
T
yi'y12
1
Entonces,
YY
YY
YY
Y
T
2
1
iyAy
Lo mismo se puede realizar con cada una de las variables exógenas del modelo. Por lo que el modelo estimado se puede escribir como:
eβAXAy 22 ˆ
Observación: Para demostrar esta última igualdad partamos del hecho de que el estimador MCO β y el vector de residuos están ligados por
eβXy ˆ .
Si realizamos la partición de la matriz X como
]X[xX 21
Donde
1x , es un vector columna de unos
2X , es la matriz 1)Tx(k de observaciones de las variables kX,,X,X 32
Entonces podemos reescribir la relación entre el estimador y el vector de residuos de la siguiente manera
eβXxy 2211ˆβ
Con lo que,
2
βˆ
ˆˆ 1
603
Premultiplicando por A da,
eβAXAy 22 ˆ
Con lo que queda demostrado (en la última expresión, hemos usado el resultado general: cualquier vector cuyos elementos sean idénticos premultiplicado por A es igual al vector nulo).
Con este resultado a la vista podemos reescribir el modelo en forma de desviaciones como
eβXy 2ˆ
dd
Donde los subíndices nos indican que el modelo esta expresado en forma de desviaciones con respecto a la media. Como 0eX' , resulta que
0eX' d . Por lo que premultiplicando el modelo en forma de desviaciones
por dX' se obtiene
2βXX'yX' ˆ)( dddd [23]
Que son las conocidas ecuaciones normales, excepto que los datos están en forma de desviaciones y que el vector de estimadores incluye solo los coeficientes de la pendiente y excluye el término independiente. Para obtener este último, luego del proceso de estimación, podríamos
premultiplicar eβXy ˆ por i'T1
, lo que da
k
kXXXY
2
1
321
donde, kk XˆXˆXˆYˆ 33221 [24]
También podríamos expresar la descomposición de la suma de cuadrados como,
604
SCRSCESCT
ˆˆ
ee'βXX''βyy' 2dd2dd
El coeficiente de correlación múltiple, R , se define como la raíz cuadrada positiva de
dd
2dd2
yy'
βXX''β ˆˆ
SCT
SCER 2 [25]
Ejemplo 13.3 Con los siguientes datos muestrales, en forma de desviaciones, realice la estimación y obtenga los coeficientes de determinación y de correlación múltiple y los coeficientes de correlación parcial del modelo
51332211 ,,t;XXXY ttttt
11
11
12
12
00
1
1
4
3
1
dd X;y
Demuestre que las ecuaciones normales son
9
16
46
610
3
2
ˆ
ˆ
Luego obtenga la solución para el vector de estimadores. Partiendo del vector dy compruebe que la suma de cuadrados
totales es igual a 28. Obtenga la suma de cuadrado residual, la suma de cuadrados explicada, el coeficiente de determinación corregido y el coeficiente de correlación múltiple. Las correlaciones parciales cobran importancia en caso de dos o más regresores. Si trabajamos los datos en forma de desviaciones podemos calcular el residuo parcial de la regresión entre la variable dependiente y, supongamos, 3X , de la siguiente manera:
333
xyxˆyyxe ,
605
donde
23
3
3 x
xyyx ,
se denomina coeficiente de regresión parcial, en este caso entre
3XY y .
El coeficiente de correlación parcial, entre 3XY y , se define como
el cociente de correlación entre ambos conjunto de residuos. Se indica como
.r
XYX 23.
Su cálculo se realiza mediante la siguientes expresión:
22
32
23232
32
11 XXYX
XXYXYX
XYX rr
rrr
.r
De manera similar podemos calcular
.r
XYX 32.
El primero mide la asociación entre 3XY y una vez eliminada la
influencia ejercida por 2X , mientras que el segundo mide la
asociación entre 32 XX y cuando desaparece cualquier efecto que
pueda ejercer la variable endógena. Los coeficientes de correlación simple como
32,, 32 XXYXYX rrr se
suelen denominar coeficientes de orden cero, mientras que los coeficientes de correlación parcial reciben el nombre de coeficientes de primer orden. Realice el cálculo con los datos del ejemplo. ¿Podría llegarse al mismo resultado si en lugar de los coeficientes de correlación simple usáramos los residuos parciales?. Compruébelo. Con los datos del ejemplo, también podemos calcular la suma de cuadrados totales en forma secuencial. De la siguiente manera:
Fuente de variación
Suma de cuadrados
Fuente de variación
Suma de cuadrados
2X 22
2yYXr
3X 22
3yYXr
Incremento debido a 3X
22
21
23
2 yYXr.XYXr
Incremento
debido a 2X
22
31
32
2 yYXr.XYXr
2X y 3X 22 yR 2X y 3X 22 yR
Residuos 2)21( yR
Residuos 2)21( yR
606
Reemplace las fórmulas por números y obtenga el resultado correspondiente. También compruebe que las sumas de cuadrados explicada, totales y residuales coinciden con los resultados anteriores. Cuando hay dos o más variables explicativas, no existe modo de determinar la importancia relativa que cada una de las variables tiene para explicar las variaciones de Y . Kruskal (1987) considera varios métodos para evaluar la importancia de las distintas variables explicativas2. Su propuesta se centra en el interés en el promedio de los cuadrados de los coeficientes de correlación simple y parcial sobre los distintos momentos posibles de introducir las variables explicativas. En cada etapa, los coeficientes de correlación al cuadrado relevantes indican la proporción de varianza explicada por una variable X específica. Con los datos del ejemplo, tenemos Proporción media para 2
2322
2 2/.rrX XYXYX
Proporción media para 232
223 3
/.rrX XYXYX
Obtenga dichos valores y demuestre que según los coeficientes medios de Kruskal, en nuestro ejemplo, el papel de 2X es más
importante que el de 3X a la hora de determinar Y .
Una forma alternativa de ver las contribuciones individuales, fue introducida por Tinbergen en su diagrama utilizado en el estudio de los ciclos de negocios3. Trabajando con los datos del ejemplo y las variables en forma de desvíos realice cuatro gráficos. En el primero dibuje lo valores de y con los valores de y (compare estos gráficos con los que hubiera obtenido desde las relativas cíclicas e irregulares); en el segundo dibuje 22x ; en el tercero
33x y finalmente grafique los residuos de la regresión. Llega
Tinbergen a la misma conclusión que Kruskal. ¿Porqué?.
2 Kruskal, W. “Relative importante by Averagin over Orderings”. The American Statiscian, 1987. 3 Tinbergen, J. “Bussiness Cycles in the United Status of America, 1919 – 1932. League of Nations, 1939.
607
13.4. Predicción en el modelo lineal
Una vez estimado el modelo con los datos de la muestra disponible, uno de nuestros objetivos, es utilizarlo para hacer predicciones sobre los valores futuros de la variable endógena Y .
Para que el modelo estimado sea adecuado para predecir valores futuros de Y , hemos de suponer que la relación lineal entre Y y X se mantiene también en el período de predicción.
Bajo este supuesto de estabilidad y dados unos valores conocidos de las variables exógenas en el período de predicción, Px , la predicción por punto
de PY , será:
βx'p ˆYp [26]
Este predictor es lineal, ya que es una combinación lineal de las observaciones Y .
El error de predicción correspondiente, es:
pp uˆYYe ββx'ppp [27]
Este error de predicción incluye dos componentes, uno relacionado con el error en la estimación de β y otro inherente a la parte estocástica del modelo.
Bajo los supuestos habituales se tiene que el error de predicción sigue una distribución normal con media:
0uˆEeE pp ββx'p [28]
Por lo que el predictor PY es insesgado.
En cuanto a su varianza:
p
1''p xXXx122 e [29]
El intervalo de confianza 1 para PY , será:
11P
212
kT
/
ˆˆp
1''p
'p xXXxβx /2t [30]
608
Este intervalo de confianza es aleatorio, ya que depende de los estimadores
β y 2 .
Si contáramos con 100 muestras diferentes, podríamos construir 100 intervalos de confianza, de los cuales 1 contendrían el verdadero valor de PY .
Ejemplo 13.1.e Supongamos, para los datos suministrados en el Ejemplo 12.5, que queremos un intervalo de confianza del 95 por
ciento para 1ˆtY dado 81,2 tX , 41,3 tX ; el intervalo sería:
4
8
1
1089,00245,03597,0
0245,00305,01869,0
3597,01869,07869,1
]481[134.0303,4
30,0
82,1
01,0
481
Calcula el valor de los límites del intervalo
A veces no estamos interesados en predecir tanto el valor futuro de la variable endógena PY como su valor )Y(E P . La predicción por punto es, operativamente, similar a la expresada en [26]:
βx'ppˆYE [31]
Y el error de predicción asociado:
ββxβxβx 'p
'p
'p
ˆˆYEYEV ppp [32]
p
1''p xXXx
22 V [33]
Este error de predicción, es debido solamente al error en la estimación de β , por lo que 22
ev y el intervalo de predicción para )Y(E P :
1P21
2kT
/
ˆˆp
1''p
'p xXXxβx /2t [34]
Va a ser más estrecho que el que correspondía a la variable endógena, PY .
609
Ejemplo 13.1.f Para los datos del Ejemplo 12.5, calcula el intervalo de confianza
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS
Caso 13.1: Cálculo de 2R
Utilice la información que se suministra para el cálculo de 2R .
132100y322000x205500xy1110Y1700X 22
Caso 13.2: Modelo de Inversión de empresas españolas entre 1959-1971
Sobre la base de la información que se adjunta, se pide: a) Cálculo del desvío estándar de la regresión b) Cálculo del desvío de 1 c) Cálculo del coeficiente de determinación d) Contraste 554 , nivel de confianza de 0.95 e) Se supone que la utilización de la capacidad productiva en 1972 se
ubicará en sus niveles medios; mientras que se espera una reducción del 10% en los niveles de cash flow y capital, y del 5% en los niveles de renta y rendimiento de las obligaciones. En este contexto, ¿cuál es el valor esperado para la inversión?
610
Tabla de datos obs CAPITAL CASHFLOW INVER RENDOBLI RENTA UCP
R-squared 0.984768 Mean dependent var 207.8308 Adjusted R-squared 0.973888 S.D. dependent var 83.21946 S.E. of regression 13.44754 Akaike info criterion 8.339507 Sum squared resid 1265.854 Schwarz criterion 8.600253 Log likelihood -48.20679 F-statistic 90.51270 Durbin-Watson stat 2.130300 Prob(F-statistic) 0.000003
Matriz de varianzas y covarianzas de los coeficientes C UCP RENTA(-1) CASHFLOW(-1) RENDOBLI CAPITAL(-1) C 55260.1809 -467.88199 -21.8353 168.30954 -2534.14890 4.71523 UCP -467.8819 4.6706 0.09367 -1.45827 16.03364 0.028837 RENTA(-1) -21.8353 0.0937 0.02359 -0.07682 1.58989 -0.011815 CASHFLOW(-1) 168.3095 -1.4583 -0.07682 1.05415 -7.437279 -0.022273 RENDOBLI -2534.1489 16.0336 1.58989 -7.437279 166.8588 -0.687395 CAPITAL(-1) 4.7152 0.0288 -0.01181 -0.02227 -0.68739 0.01064
BIBLIOGRAFIA
Johnston, J. Dinardo, J. (2001) "Métodos de Econometría". Editorial Vicens Vives. Barcelona.
Kruskal, W. “Relative importante by Averagin over Orderings”. The American Statiscian, 1987.
Novales, A. (1993) "Econometría". Editorial McGraw Hill. Madrid.
Pulido, A. (1989). "Modelos Econométricos". Editorial Pirámide. Madrid.
Tinbergen, J. “Bussiness Cycles in the United Status of America, 1919 – 1932. League of Nations, 1939.
Capítulo 14. EXTENSIONES AL MODELO DE REGRESIÓN LINEAL ............................................................................................... 615
Detección de la Multicolinealidad .................................... 626 Consecuencias de la multicolinealidad ............................. 627 Solución para modelos con multicolinealidad .................... 628
14.4. Error de especificación ............................................ 638
Omisión de variables relevantes ..................................... 639 Inclusión de variables irrelevantes .................................. 641 Pruebas de errores de especificación. .............................. 642
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS ...................... 643
Problema 14.1: Componentes principales ........................... 643 Caso 14.1: Determinantes del consumo ............................. 644 Caso 14.2: Regresión en componentes principales ............... 646
Una vez estimado el modelo de regresión tendremos que contrastar diferentes hipótesis sobre su especificación y sobre los residuos del modelo, con la finalidad de realizar el mejor ajuste posible de acuerdo con los datos que sobre las variables involucradas fueron utilizados, en un espacio y tiempo determinado. Los problemas que pueden surgir, luego de la estimación, se pueden referir, por un lado, a cambio estructural, error de especificación y multicolinealidad y por el otro a violación de algunos de los supuestos sobre los residuos. En este capítulo nos ocuparemos de las primeras causas de problemas, en el próximo abordaremos el análisis de los residuos.
A modo de síntesis podemos decir que vamos a contrastar, por un lado, hipótesis de linealidad, cambio estructural, omisión de variables relevantes o inclusión de variables irrelevantes, multicolinealidad y por el otro, normalidad, homocedasticidad, no autocorrelación.
Los problemas en la especificación pueden deberse a:
1) Cambio estructural
La posibilidad de que los parámetros varíen entre distintos sub períodos de tiempo o entre distintos grupos de individuos, dentro de la muestra considerada. Dado que uno de los supuestos del modelo de regresión, es la constancia de los parámetros en todo el periodo de medición o para la totalidad de la muestra considerada, sería interesante contrastar la existencia de cambios en los coeficientes del modelo, es decir, de un cambio en la estructura del mismo.
La introducción como variable explicativa en el modelo de factores que, o bien no son cuantificables por naturaleza, como el sexo, la profesión, el nivel de estudios, etc. O bien de forma discreta, como, por ejemplo, la renta o la edad definida por intervalos.
616
2) Error de especificación
La elección del conjunto de variables explicativas del modelo y los efectos que puede tener sobre la estimación MCO de los parámetros una mala elección de las mismas, bien sea porque omitimos variables que son relevantes (omisión de variables relevantes) o porque incluimos variables que no lo son (inclusión de variables irrelevantes).
También puede existir la posibilidad de que la relación estimada no sea lineal, es decir, las variables incluidas en el modelo son las correctas pero la relación lineal entre ellas no es la adecuada. La presencia de no linealidades hace que los residuos muestren tendencias que indican su falta de aleatoriedad.
3) Multicolinealidad
Al especificar el modelo suponíamos que las variables exógenas eran linealmente independientes, esta hipótesis se denomina hipótesis de independencia y cuando no se cumple decimos que el modelo presenta multicolinealidad.
Problemas en la identificación de los parámetros del modelo. Estos problemas pueden provenir, por un lado, de especificar el modelo de manera tal que no se pueden estimar de forma única todos sus parámetros y, por otro, de que las características de la información muestral disponible, no permitan estimar con precisión los parámetros.
14.2. Variables ficticias y cambio estructural
Se denomina variable ficticia, en general, a una variable que se construye artificialmente para recoger en el modelo, ciertos aspectos importantes que expliquen el comportamiento de la variable dependiente y que son de carácter discreto o cualitativo.
La incorporación de estas últimas en el modelo se realiza a través de variables dicótomas, que asumen el valor 1 si esta se presenta o 0 si no se presenta.
Una variables cualitativa puede tener m categorías pero en el modelo deben definirse m-1 variables ficticias.
Si se definen tantas variables ficticias como categorías tenga la variable cualitativa a estudiar, se estaría en presencia de la trampa de
617
las variables ficticias por la cual existe una combinación lineal entre la suma de las variables ficticia (F) y la intersección.
Supongamos una variable cualitativa XCL que tiene m categorías, esto nos lleva a definir:
1
1
0
11
XCLcuando
XCLcuandoF
2
2
0
12
XCLcuando
XCLcuandoF
1
1
0
1)1(
mXCLcuando
mXCLcuandomF
Sea REG1 el conjunto de departamentos que tienen un IDHR mayor o igual a la media, y REG2, el conjunto de regiones con IDHR inferior.
Si la región i–ésima pertenece a REG1, su función de consumo sería:
1)(
11medioIDHR
IDHRiREGiNBIRC i
iiii
Mientras que, si una región pertenece a REG2, su ecuación de consumo sería:
122
)medio(IDHR
IDHRiREGiNBIRC i
iiii
De esta forma se permite que los valores de los parámetros de la función de consumo varíen de unas regiones a otras, es decir, que la estructura de la función de consumo, sea distinta para cada tipo de región.
618
Tabla 14.1. Regiones de Córdoba
Regiones PBG Población Consumo IDHR NBI F Calamuchita 466189 46870 294029.84 0.793 15.06 0
Capital 9273055 1306725 8197419 0.786 12.2 0
Colón 1271521 182028 1141909.5 0.807 16.36 0
Cruz del Eje 289040 52906 331895.61 0.518 29.16 1
General Roca 476036 33415 209621.89 0.83 15.27 0
General San Martín 1180969 118429 742937.43 0.813 9.96 0
Unión 1491739 101052 633925.42 0.818 10.62 0 PBG. Producto Bruto Geográfico en miles de pesos corrientes para el año 2003, en base a datos publicados por la Gerencia de Estadísticas y Censos de la Provincia de Córdoba. Población: Estimada para el año 2003 a partir del crecimiento intercensal 1991 a 2001 según datos publicados por la Gerencia de Estadísticas y Censos de la Provincia de Córdoba. Consumo: Consumo en miles de pesos corrientes para el año 2003. Elaboración propia a partir de la cantidad de habitantes y del consumo per cápita nacional del año 2003. El consumo per cápita nacional se calculó a partir de la relación entre el Consumo más IVA en pesos corrientes del año 2003 informado por el Ministerio de Economía y la cantidad de habitantes proyectados para el año 2003 por el INDEC IDHR. Indice de Desarrollo Humano Regional del año 2003, indicador resumen elaborado por el Consejo Profesional de Ciencias Económicas de Córdoba, en base a datos de la Secretaría de Energía de la Nación, EPEC y Anuario Estadístico de la Provincia de Córdoba, que mide la calidad de vida de la población a partir de los indicadores de mortalidad infantil, alfabetización y consumo de energía eléctrica; para el año 2003 el promedio provincial alcanzó el valor de 0.6773. NBI: Población que tiene NBI (en % sobre el total de personas del Departamento) según datos publicados por la Gerencia de Estadísticas y Censos de la Provincia de Córdoba. F: Variable ficticia o dummy que asume el valor 1 cuando el departamento posee un nivel de IDHR inferior a la media.
619
Ejemplo 14.1. Supongamos que se quiere estimar los parámetros de la siguiente ecuación de consumo:
26,,2,1 iNBIRC iiii
Donde C, es el consumo, R es la renta disponible, NBI es el indicador de población con necesidades básicas insatisfechas y se cuenta con observaciones para los 26 departamentos de la Provincia de Córdoba. Dada esta especificación, se supone que tanto el consumo autónomo, , como
la propensión marginal a consumir, , y el aporte marginal de NBI, , no
varían para las distintas regiones. Sin embargo, se sospecha que, al determinar el consumo agregado, puede ser relevante tener en cuenta el grado de desarrollo de cada comunidad. Un indicador plausible del grado de desarrollo, se basa en medir si el índice de desarrollo humano regional es superior a la media del grupo analizado. Los efectos del grado de desarrollo en una región, pueden introducir diferencias tanto en el consumo autónomo como en la propensión marginal a consumir. Se estudiarán ambos casos tanto en forma separada como conjunta. Para ello se utilizarán los datos de la tabla 14.1.
1. Supongamos que las diferencias en el consumo debidas al grado de desarrollo humano, se reflejan solo en el intercepto de la ecuación de consumo, es decir, en el consumo autónomo.
Este efecto diferenciador, se puede recoger en una sola ecuación definiendo una variable artificial que distinga entre los dos tipos de regiones. Sea:
casootroen0
REGiregiónlasi1iF
1
La ecuación de consumo se puede especificar como sigue:
26,,2,11 iNBIiRFC iiii
Se puede comprobar fácilmente que el coeficiente que acompaña a la variable ficticia iF recoge la diferencia en el consumo entre las regiones con IDHR IDHR (medio) y las regiones con IDHR < IDHR (medio).
El modelo estimado es:
iii NBIγiRβFδαC ˆˆˆˆˆ1
620
Cuando iF = 0:
ii NBIγiRβαC ˆˆˆˆ1
el consumo autónomo viene dado por 1 , e indica el nivel de consumo para los departamentos de REG2
Cuando iF = 1:
ii NBIγiRβδαC ˆˆˆ1
ˆˆ
el consumo autónomo viene dado por 21ˆˆˆ αδα , siendo
12ˆˆˆ ααδ y es la estimación del consumo para REG1
La utilización de variables ficticias permite recoger cambios discretos en la función de consumo.
Para contrastar este posible cambio de estructura, es decir, si existe evidencia de un cambio en el consumo autónomo de un grupo de regiones a otro dependiendo del grado de desarrollo humano, la hipótesis de contraste, sería:
0:
0:0
AH
H
Aceptar la hipótesis nula es indicativo de no influencia de los niveles de desarrollo en el consumo. Si la hipótesis nula se rechaza es porque existen diferencias significativas.
Si el modelo cumple los supuestos habituales del modelo de regresión lineal general, los estimadores MCO de los coeficientes de regresión del modelo tienen buenas propiedades y el contraste de hipótesis basados en el estadístico F , es válido.
Observación. Otra forma equivalente de recoger esta diferencia de comportamiento en el intercepto entre los dos grupos de regiones, se basa en definir dos variables ficticias:
casootroen
REGiregiónlasiF i 0
1 11
621
casootroen
REGiregiónlasiF i 0
1 22
Y especificar la ecuación de consumo como sigue:
26,,2,12211 iNBIRFFC iiiiii
En este caso los coeficientes que acompañan a las variables ficticias recogen, respectivamente, cada uno de los dos consumos autónomos.
El contraste de cambio de estructura en el consumo autónomo, se basa en contrastar la siguiente hipótesis:
21
210
:
:
AH
H
Se puede observar que los dos modelos dados son equivalentes, siendo el último modelo, únicamente una reparametrización del primer modelo.
Cuando incluimos tantas variables ficticias como grupos o categorías tiene la variable cualitativa, no se ha de incluir el término constante.
En este ejemplo, si especificamos el modelo:
26,,2,122110 iuNBIRFFC iiiiii
La primera columna de la matriz de regresores X , es la suma de la segunda y tercera columna.
Por lo tanto, el rango de la matriz X , no es completo: 43)( X
La matriz XX' es singular, por lo que 1)( XX' no existe.
El sistema de ecuaciones normales, tiene menos ecuaciones linealmente independientes que incógnitas y no se puede resolver de forma única.
2. Supongamos ahora que las regiones con un IDHR IDHR (medio), pueden tener una propensión marginal a consumir distinta de aquellas con IDHR < IDHR (medio).
622
En este caso, lo que cambia es el efecto de la variable explicativa, renta sobre el consumo, es decir:
22
11
REGiNBIRC
REGiNBIRC
iiii
iiii
Podemos recoger estas diferencias en una sola ecuación mediante la utilización de la variable ficticia iF , de forma que tenemos la ecuación:
2621iNBINBIFRFRC iiii3iii1i ,,,
Cuando iF = 0:
11 REGiNBIRC iiii
Y 1 es la propensión marginal a consumir de las regiones con desarrollo superior.
Cuando iF = 1
21 REGiNBIRC iiii
La propensión marginal a consumir es: 21 .
Es interesante señalar que el parámetro 12 recoge la diferencia en la propensión marginal al consumo entre regiones con IDHR IDHR(medio) y regiones con IDHR < IDHR(medio).
Si suponemos que el modelo, cumple los supuestos habituales del modelo de regresión, los estimadores por MCO de ,, son insesgados y eficientes y el contraste de hipótesis basado en el estadístico F , sigue siendo válido.
El contraste de cambio estructural en la propensión marginal a consumir, se basa en contrastar la siguiente hipótesis:
0:
0:0
AH
H
623
3. Para contrastar un posible cambio estructural en todos los parámetros de la ecuación de consumo, tanto en el intercepto como en la pendiente entre ambos grupos de regiones, se especifica el modelo como sigue:
26,,11211 iNBIRRFFC iiiiiii
Suponiendo que este modelo cumple las hipótesis habituales del modelo de regresión, los estimadores MCO de 1211 ,, y son insesgados y eficientes y los contrastes siguen siendo válidos.
La hipótesis nula de no existencia de cambio estructural en la función de consumo entre ambos grupos; es decir, que el grado de desarrollo humano no afecta a la función de consumo, es:
00:
00:
21
210
yH
yH
A
Que se puede contrastar con el estadístico F .
Una forma equivalente de realizar este contraste, también conocido como contraste de CHOW, se basa en el siguiente estadístico:
2k-Tk,F~
2
/ 0H
kT
kF
2'21
'1
2'21
'1R
'R
eeee
eeeeee
Donde, en nuestro ejemplo, 3k26,T .
Se rechaza la hipótesis nula de no existencia de cambio estructural, si el valor del estadístico es mayor que la ordenada 2k)-Tk,F de la
distribución F de Snedecor con 2k-Tk, grados de libertad.
Observación. Para poder llevar a cabo el contraste de cambio estructural utilizando las sumas de cuadrados de residuos de las regresiones para cada sub muestra, es necesario disponer en cada grupo de un número suficiente de observaciones para poder estimar los parámetros de la ecuación.
624
En ocasiones, especialmente con datos de series temporales, es posible que en alguno de los sub períodos, no se disponga el número de observaciones necesarias.
Supongamos, sin pérdida de generalidad, que en el segundo sub período o grupo, el número de observaciones t2, es menor o igual que el número de coeficientes de regresión, k.
El contraste de cambio estructural, se puede realizar modificando el estadístico como sigue:
k-T,TF 12
0
1
11
211 ~'
/'' HRR
kT
ee
TeeeeF
Bajo la hipótesis nula de no existencia de cambio estructural entre los dos sub períodos, este estadístico, conocido con el nombre de contraste predictivo de Chow, se distribuye como una F de Snedecor.
14.3. Multicolinealidad
La existencia de correlación entre las variables explicativas en la muestra, se denomina multicolinealidad. Por lo tanto la hipótesis nula que vamos a contrastar es
ealidadMulticolinNoH :0
Si, dada la especificación del modelo, algún o algunos regresores, se pueden expresar como una combinación lineal exacta de otros regresores, entonces se dice que existe multicolinealidad perfecta.
En este caso extremo, el rango de la matriz x, no es completo, es decir, k(X) .
Por lo tanto, la matriz X)(X' no es invertible y no existe una solución
única para β del sistema de ecuaciones normales, yX'βX)(X' ˆ .
La multicolinealidad perfecta, es un problema de identificación en el siguiente sentido. Si dada la especificación del modelo hay un problema de multicolinealidad perfecta, distintos valores de los
625
parámetros, generan el mismo valor medio de la variable dependiente, Xβy )(E .
Por lo tanto dada la muestra ),( XY , no se pueden identificar aquellos valores de los parámetros que la han generado porque la función criterio que minimizamos E(y)yE(y)y ' no discrimina entre distintos valores de β .
Ejemplo 14.2. Matriz de regresores colineales Consideramos el siguiente modelo de regresión:
niXXY iiii ,,133221
Donde se satisface que 33iX2iX .
Entonces la suma de la segunda y tercera columna de la matriz de regresores X , es igual a tres veces la primera, por lo que el rango de la matriz de regresores, 2, es menor que el número de parámetros, 3, y no existe solución única al sistema de ecuaciones normales. En este caso, para cualquier observación:
i
i
iii
X
X
XXYE
321
32321
33221
3
Podemos observar distintos valores de 321 ,, y para los que las
combinaciones lineales 2321 3 y permanecen invariantes y, por lo
tanto, nos proporciona el mismo valor de iYE .
No es posible discriminar entre todos esos valores y solamente podemos identificar o estimar de forma única 232211 3 y , es
decir, combinaciones lineales de los parámetros de interés.
Observación. Si el problema no es de multicolinealidad perfecta, sino de un alto grado de colinealidad entre las variables explicativas, los parámetros del modelo de regresión se pueden estimar de forma única por MCO, y los estimadores serán lineales, insesgados y óptimos.
Supongamos que en un modelo, la correlación entre los regresores
ii XX 32 y es muy alta, es decir, 1223 r .
Se puede demostrar que la varianza del estimador MCO de los coeficientes asociados a ii XX 32 y está directamente relacionada con
el grado de correlación existente entre los regresores:
626
2
23
222
2
21
ˆrXX
V
t
Cuanto mayor sea la correlación muestral entre los regresores, mayor será la varianza de los estimadores y menor la precisión con la que se estiman los coeficientes individualmente.
En el caso extremo, si 22
23ˆ,1 Vr lo que implica que cualquier
valor para 2β , es admisible.
Detección de la Multicolinealidad
Como síntomas más comunes de la multicolinealidad tenemos los siguientes:
Matriz de correlaciones, XXR , entre las variables explicativas en el intervalo [0.72;0.99].
Poca significatividad individual con alta significatividad conjunta y buen 2R .
Influencia en las estimaciones de la eliminación de una observación en el conjunto de datos.
Factores de inflación de la varianza
10)1(
12
jR
VIF ,
donde 2jR es el coeficiente de determinación de la regresión auxiliar
de la variable explicativa j en función de las demás variables explicativas.
Valores propios XX'dei cercanos a cero o Índice de condición
302/1
min
max
.
Entre los estadísticos para detectar la multicolinealidad se encuentra el contraste de Farrar-Glauber, donde la hipótesis a contrastar es no multicolinealidad.
627
2
2
)1(;
0
~6
)52(1ln
kk
HkTG
XXR
donde XXRln es el logaritmo natural del determinante de la matriz de
correlación de las variables explicativas incluidas en la estimación
Consecuencias de la multicolinealidad
Un alto grado de multicolinealidad, tiene consecuencias negativas sobre las estimaciones:
1- Aunque se obtenga un buen ajuste en base al 2R y, por lo tanto, evidencia de que conjuntamente las variables explicativas son estadísticamente significativas, los coeficientes estimados pueden tener grandes desviaciones típicas y pueden resultar individualmente no significativos.
2- Las estimaciones son muy inestables ante pequeños cambios en la muestra.
3- Los coeficientes estimados, pueden presentar signos incorrectos o magnitudes poco esperadas a priori.
La multicolinealidad puede afectar mucho a la estimación de unos parámetros y nada a la de otros. Los parámetros asociados a variables explicativas poco correlacionadas con las restantes, se podrán estimar con precisión.
Una vez detectado un posible problema de multicolinealidad, es difícil solucionarlo.
No es probable que obtengamos información nueva, es decir, otra muestra que no represente este problema, porque, de disponer de ella, se utilizaría.
Una posible solución, pero no buena, es eliminar del modelo alguna de las variables que crean el problema. Sin embargo, proceder de esta forma, puede introducir sesgos en la estimación y problemas en la validez de los contrastes, si las variables omitidas, son relevantes.
La multicolinealidad, no afecta a la predicción βXy 'pp
ˆ siempre que
la misma estructura de colinealidad, se mantenga fuera de la muestra.
628
Tampoco afecta al vector de residuos MCO, e , que siempre está definido, ni crea problemas en la estimación de 2
.
Solución para modelos con multicolinealidad
Las soluciones se pueden clasificar en robustas y no robustas. Las primeras son aquellas que suprimen la variable que genera la multicolinealidad con justificación estadística y económica.
Entre aquellas no robustas se encuentran las que no transforman las variables y las que si lo hacen. Entre los métodos que no transforman variables está la solución de ampliar la muestra de datos. Entre los segundos, existen varias alternativas:
Usar el modelo en diferencias vigilando la autocorrelación
Usar transformaciones de las variables exógenas usando ratios
Usar la regresión en cadena, que ofrece como estimadores de los parámetros a
yX'I)X(X'β 1 cˆ
siendo c una constante, que en la práctica suele tomarse con valores en el intervalo [0,01;01]. En este modelo, la matriz de varianzas y covarianzas es 122 ( I)XX'XX'I)X(X' cc
Usar la regresión sobre componentes principales
Supongamos que tenemos un modelo de regresión con T observaciones y k variables explicativas Este último método consiste en sustituir el conjunto de k variables explicativas por sus k componentes principales kttt CCC ,, 21 , o por un subconjunto de éstas.
Así, en el modelo lineal,
tktkttt XXXY 22110
sea
629
kTT
k
zz
zz
1
111
Z
las observaciones expresadas en forma de variables tipificadas, correspondiente a las k variables explicativas. De tal forma que,
ZZ'R1
1
T
será la matriz de correlaciones muestrales entre las k variables explicativas.
La naturaleza de las componentes principales puede enfocarse de distintas formas. Cuántas dimensiones existen en el conjunto de las k variables explicativas, es decir hay suficiente correlación entre ellas que hagan pensar que dos o más representan la misma dimensión para el análisis. Para ello plantearemos la transformación de las mismas en un nuevo conjunto de variables que tomadas de dos en dos no estén correlacionadas, que denominaremos componentes principales. Una de las características de estas nuevas variables es que la primera recogerá la mayor varianza del análisis, la segunda la mayor parte de la varianza residual y así siguiendo… A estas nuevas variables se las obtiene a partir de los vectores propios, estos son las direcciones principales de la nube de puntos.
Para calcular los vectores propios necesitamos primero calcular los valores propios y eso se obtiene diagonalizando la matriz R . Es posible demostrar que existen k números reales positivos
k 21 y k vectores asociados k,, ppp ,21 que forman una
nueva base ortonormal de k y que verifican,
kkkk ;pRp
0 kkk pRp
0 )I(Rp kkk
RIIRIR kkkkkk 00
630
La solución a este sistema genera los k valores propios buscados. A partir de ellos se calculan los k vectores propios, formando la matriz ortogonal kk x
k21 pppP
De esta forma, se tiene que
TtzpzpzpC ktkttt ,,1;12211111
Representa la primera de las nuevas variables.
En forma matricial
11 ZpC
En donde 1C es un vector de T elementos – T observaciones
transformadas – y 1p un vector de k elementos – la primera columna de la matriz de vectores propios –
Observación. La suma de cuadrados de 1C es
1111 ZpZ''pC'C (ó también 1111 p
ZZ''p
C'C
11
TT)
Se elige 1p que maximice 11 C'C , pero hay que imponer alguna
restricción, caso contrario la suma de cuadrados de 1C podrá hacerse infinitamente grande. Para ello normalicemos, haciendo
111 p'p
Ahora se trata de obtener un máximo sujeto a restricciones. Definamos
)1(1
1
1111 p'ppZZ'
'p T
En donde 1 es un multiplicador de Lagrange. De esta forma tenemos
631
11 pZpZ'p
1
1
21
2
T
Aplicando la condición de primer orden de máximo, obtenemos
11 ppZZ' 1)(1
1 T
De esta forma demostramos que 1p es un vector propio de la matriz
ZZ'R1
1
T
, correspondiente al valor propio 1 .
Además, se observa que
111
1 1111 p'pZZ '
T ¿Por qué?
Por lo que debemos elegir como 1 al mayor de los valores característicos de R que, en ausencia de multicolinealidad perfecta, será definida positiva y por lo tanto sus valores propios serán positivos, es decir
021 k .
La primera componente principal de Z es entonces 1C .
Definamos 22 ZpC
Debemos elegir 2p tal que maximice 221p
ZZ''p
T, sujeto a que
122 p'p y 02 p'p1 .
La razón de la segunda restricción es que 2C no debe estar
correlacionada con 1C .
La covarianza entre ellas viene dada por
632
0,0121 2121 p'pp'pZpZ''p quesiempre
Definamos,
)21*
22222 '()1(1
ppp'ppZZ'
'p
T
En donde *2 , son multiplicadores de Lagrange.
021
21
*222
2
ppZpZ'p
T
Premultiplicando por 'p1 , queda
0'1
2 *21
ZpZ'p
T
lo que a su vez, implica que
12**
21* '
1
2''1
2ZpZ'pZpZ'p
TT
Pero conociendo que,
11 ppZZ' 1)(1
1 T
0')('1
1212
11 pppZZ'p T
Entonces, 0*
Y tenemos que,
2221
1pZpZ'
T
Aquí se elige 2 tal que sea la segunda raíz característica más grande de ZZ' .
Se puede proceder de esta forma para cada una del las k raíces de ZZ' y con los vectores resultantes formar la matriz ortogonal k21 pppP .
633
De esta manera las k componentes principales de Z vienen dadas por la matriz C de orden kT x definida como
ZPC
Que verifican
k
TT
00
00
00
1
1
1
1 2
1
P´Z´ZPC´C
De esta manera podemos decir que las componentes principales son centradas, no correlacionadas y sus varianzas son los valores propios.
Para obtener las coordenadas del ésimot individuo en el nuevo sistema de ejes, se procede de la siguiente forma,
TtzpzpzpC
TtzpzpzpC
TtzpzpzpC
ktkktktkkt
ktkttt
ktkttt
,,1;
,,1;
,,1;
2211
22221122
12211111
Ejemplo 14.3. La tabla 13.2 contiene información sobre 5 observaciones para
tres variables explicativas ( 1X , 2X , 3X ). Estas variables presentan alta
correlación alta correlación por lo que procedemos a calcular las componentes principales.
Tabla 14.2 Matriz de valores de X
Observaciones X2 X3 X4
1 2 3 2 2 4 3 2 3 5 4 3 4 2 2 1 5 1 2 2
De acuerdo a lo analizado teóricamente tendremos que calcular los vectores propios ortogonales de la matriz ZZ' , donde Z es la matriz de variables tipificadas de los valores originales de la matriz de variables independientes. Los elementos de ZZ' serán los siguientes, (¿por qué?)
43806.35820.2
3806.344915.3
5820.24915.34
ZZ'
634
Observación. si se divide la matriz ZZ' por 1T se obtiene la matriz de correlaciones, R , de las variables explicativas itX ¿Por qué?
Para calcular los vectores propios necesitamos primero calcular los valores propios y eso se obtiene diagonalizando la matriz ZZ' . Según los datos del ejemplo, existen 3k números reales positivos
321 y 3k vectores asociados 321 p,p,p que forman una
nueva base ortonormal de 3 y que verifican, 3,2,1; kkkk pRp
El lector deberá comprobar que la solución de este sistema genera 3 valores propios, que para nuestros datos son:
064945,03355272,02579783,21
Y que forman la matriz diagonal correspondiente a R
064945,000
0355272,00
00579783,2
Demuestre que a estos valores propios le corresponden los vectores propios
Las componentes principales fueron obtenidas postmultiplicando la matriz de variables explicativas tipificadas por la matriz de vectores propios.
Teniendo en cuenta que kIPP ' y que los autovectores anteriores
además de ortogonales se pueden elegir unitarios. El modelo original se puede transformar en
εCαεβZPP'εZβY
Los coeficientes de regresión βP'α están asociados a k variables explicativas no correlacionadas pues las componentes principales son ortogonales.
Este modelo auxiliar
TtCCY tktktt ,,1;110
No estará afectado de multicolinealidad pues las variables ktt CC ,1 no
están correlacionadas.
636
Si se eliminan las variables explicativas kr CC ,,1 ,que son las rk
últimas componentes cuya variabilidad es menor, se pierde poca información y el modelo resultante.
T,,t;CCY *trt
*rt
**t 1110
Será una aproximación al original, sin multicolinealidad, y a partir de sus estimaciones se obtiene el estimador ββ deˆ .
Como, ]**
*
21α
α][P[PPαβ
Donde,
1P es la matriz formada por las 1r primeras columnas de P
)'( **1
*0
*r α .
Si las últimas rk componentes principales explican una pequeña parte de la variabilidad de las variables predeterminadas del modelo original, o sea si se puede considerar 0α **
Resulta que, *αPβ 1 con lo que el estimador de β será, *ˆˆ αPβ 1
Siendo *α el estimador de los coeficientes *α en el modelo de las 1r primeras componentes principales.
Ejemplo 13.3. (continuación). Para ilustrar esta segunda parte del análisis de las componentes principales con los datos del ejemplo se incluye una estimación al final del capítulo.
Por otra parte, la variación total de las variables tipificadas Z viene dada por
)(222
21 ZZ'trzzz
tkt
tt
tt
Pero,
)()()( ZZ'ZPP'Z'ZPZ'P' trtrtr , debido a que, kIPP '
637
Quiere decir que,
kk
k
iitrtrtr
Z'ZZ'Z
ΛZZ'ZPZ'P'
11
1
)()(
Pero como hemos trabajado con la matriz de variables tipificadas y diagonalizando la matriz de correlaciones, se tiene que esta última suma, igual a la traza de la matriz lambda, es igual a k . (Comprobar)
De esta forma,
k,,, 21
Representa la proporción en que cada componente principal contribuye a la explicación de la varianza total de las Z , y puesto que las componentes son ortogonales, estas proporciones suman la unidad, (que el lector deberá comprobar).
Con frecuencia, la correlación entre los datos económicos y sociales significa que un número pequeño de componentes explicarán una gran proporción de la variación total y sería deseable poder realizar una prueba de hipótesis para evaluar cuál es el número de componentes que debe retenerse para un análisis posterior. Supongamos que hemos calculado las raíces k 21 y que las
primeras r raíces )(;21 krr , parecen ser suficientemente grandes y diferentes como para retenerlas. En este caso, la pregunta es si las restantes rk raíces son lo suficientemente parecidas entre sí como para concluir que los verdaderos valores son iguales. Es decir, la hipótesis nula a corroborar es
krrH 210 :
Un contraste de hipótesis aproximado se basa en el estadístico1
2)2)(1(2/1
21121
0
~)(ln
rkrk
Hrk
krrkrr rk
Trho
1 Kendall, M. y Stuart, A. The advanced theory of Statistics, vol. 3, Londres, 1966.
638
En las aplicaciones prácticas (ver problema al final del capítulo) se espera que el número de componentes significativamente diferentes r que han de retenerse sea sustancialmente menor que el número k a partir de las cuales se obtienen las componentes.
14.4. Error de especificación
Habitualmente se entiende por error de especificación todo error que se comete en la especificación de la parte sistemática del modelo de regresión, es decir, qué variables explicativas se incluyen, cuál es la forma funcional, etc.
A pesar de que pueden existir muchos problemas en la especificación del modelo, con el término error de especificación nos referimos solo a las relacionados con la selección del conjunto de variables explicativas, es decir, a las consecuencias de omitir variables relevantes o de incluir variables irrelevantes en el modelo. No obstante, también se puede estudiar si el modelo especificado responde a una relación lineal o no. La linealidad del modelo puede ser evaluada a partir de la prueba RESET de Ramsey. Partiendo de que cualquier función puede ser aproximada por polinomios del orden adecuado, se puede introducir en el modelo de regresión términos con las potencias sucesivas de la variable endógena. El contraste de Ramsey realiza una prueba para comprobar si los coeficientes de las potencias incluidas en el modelo son cero, en cuyo caso se podría aceptar la forma funcional lineal del mismo.
Para realizar el contraste RESET debemos decidir cuantas funciones de los valores ajustados incluiremos en la regresión ampliada. No hay una respuesta concreta a esta pregunta, pero los términos al cuadrado y el cubo suelen ser suficientes en la mayoría de los casos.
Sean tY los valores ajustados por MCO al estimar la ecuación
tktktt XXY 221
Consideremos la ecuación ampliada
639
tktktt YYXXY 33
22221
ˆˆ
Obviamente no estamos interesados en los valores estimados de esta última ecuación, solo queremos determinar la existencia de no linealidad en el modelo originalmente estimado. Debemos recordar, al respecto, que 32 ˆ,ˆ YY son funciones no lineales de las variables exógenas.
La hipótesis nula es la de linealidad. Formalmente, Ramsey establece,
0εIN(εεIN(0ε ),:);,: 21
20 HH
El estadístico RESET es una F que, bajo hipótesis nula, tiene 2,2 kT grados de libertad. ¿por qué?. En general, podríamos
expresar los grados de libertad en función de la cantidad de regresores que se añaden, pero teniendo en cuenta que debemos dejar los suficientes grados de libertad para la estimación del modelo.
Omisión de variables relevantes
Supongamos que el modelo correctamente especificado, es de la forma:
εβXβXy 2211
Donde
2211 TxkXyTxkX , son matrices de regresores no estocásticos.
TEE Ιεε0ε ' 2;)(
Sin embargo, se especifica y se estima el siguiente modelo,
*11 εβXy
Donde se han omitido 2k variables explicativas de la parte sistemática del modelo.
Dado que la perturbación del modelo es εβXε 22* , tenemos
640
221122 βX'Xε'XβXε ** EE y
Es interesante observar que si, al especificar el modelo de regresión, omitimos variables explicativas relevantes para determinar la variabilidad de y , el efecto de estas variables queda recogido en el término de error.
El comportamiento de la perturbación *ε , va a reproducir el funcionamiento de las variables 2X omitidas, por lo que, salvo casos excepcionales, no va a cumplir los supuestos exigidos en el modelo de regresión lineal general.
Este resultado lleva a cuestionar las propiedades del estimador MCO de 1β en el modelo.
En este sentido, es fácil demostrar que el valor medio del estimador, es:
22'1
1
1'11
'1
1
1'1 βXXXXβyXXXβ
EE 1
ˆ
El sesgo del estimador desaparece si: 0XX 2'1 .
Esta condición implica que las variables explicativas incluidas en el modelo y las omitidas, no están correlacionadas.
Por otro lado, el estimador habitual de la varianza de las perturbaciones:
1
2
kTS
**' ee
Será también sesgado, aunque se cumpla que 0XX 2'1 , lo que
implica que el estimador de 1βV ˆ :
11'11 XXβV
2ˆˆ S
No es insesgado y los contrastes de hipótesis habituales sobre el vector de coeficientes 1β , no son válidos porque:
641
1
112
221
1
1'111
**'
X'X,βX'XXXββ
ee
σNII
I
~ˆ)
) 22
unacomodistribuyeseno
Inclusión de variables irrelevantes
Supongamos que el modelo correctamente especificado, es:
εβXy 11
Donde 1X es una matriz kT x de regresores no estocásticos y la
perturbación, sigue una distribución normal con TEE Ιεε0ε ' 2;)( .
Sin embargo, se incluyen 2k variables en el modelo de regresión que no son relevantes, de forma que estimamos por MCO, el siguiente modelo:
εβXβXy 2211
Los estimadores MCO de los vectores de parámetros 21 ββ y obtenidos a partir del modelo, son:
ε
'X
'X
X'XX'X
X'XX'X
β
X'X
X'X
X'XX'X
X'XX'X
εβX
'X
'X
XX
'X
'X
y
'X
'X
XX
'X
'X
β
β
2
1
1
2212
2111
1
12
11
1
2212
2111
11
2
1
1
21
2
1
2
1
1
21
2
1
2
1
ˆ
ˆ
Se puede demostrar que:
2
1
k
k
1'2
1'1
1
2'2
'
'1
'1
0
I
XX
XX
XXXX
XXXX
12
21
642
Se obtiene que el valor medio de los estimadores MCO del modelo, es:
22
)(
ˆ
ˆ
12
21
k
1
'2
'1
1
2'2
'
'1
'1
k
1
2
1
0
β
ε
X
X
XXXX
XXXX
0
β
β
β
EE
Por lo que podemos concluir que son insesgados, es decir, 0ββββ 2211 ˆˆ EE y (dado que las variables 2X son
irrelevantes).
Observación. Ahora bien, hay que señalar que a la hora de estimar los parámetros de interés de 1β no estamos incorporando toda la información disponible, ya que no incluimos la restricción cierta de que 0β 2 .
Por lo tanto, estamos perdiendo eficiencia al estimar 1β en el modelo mal especificado, relativamente a estimarlo en el modelo bien especificado. El estimador de la varianza de las perturbaciones en el modelo mal especificado:
kTS
ee'2 es un estimador insesgado de 2 y se mantiene la validez
de los contrastes habituales de restricciones lineales sobre el vector de coeficientes β .
Pruebas de errores de especificación.
1) Detección de la presencia de variables innecesarias: data–mining.
Si un investigador desarrolla un modelo de k variables y va probando una a una la inclusión o no de variables, realiza lo que se conoce como regresión por etapas.
Una de las consecuencias a la que se enfrenta es que estará modificando los niveles de significación.
Lowel ha sugerido que si hay c candidatos a regresores de los cuales k son finalmente seleccionados (k < c) con base en la data–
643
mining, entonces el verdadero nivel de significación )( * está relacionado con el nivel de significación nominal )( de la siguiente manera:
)/(* kC
Por ejemplo, si c = 15, k = 5 y %,5 el verdadero valor de significación es 15%.
Por consiguiente, si un investigador extrae datos y selecciona 5 de 15 regresores y solamente informa los resultados al nivel de significación del 5% nominal y declara que estos resultados son estadísticamente significativos, esta conclusión se debe tomar con gran reserva.
2) Existen contrastes para observar si un modelo adolece de variables omitidas. El test de la razón de verosimilitud para variables omitidas permite añadir un conjunto de variables a una ecuación existente y contrastar si constituyen una contribución significativa a la explicación de la variable dependiente. Este contraste tiene como hipótesis nula que el conjunto de regresores adicionales no son conjuntamente significativos.
También se puede aplicar el test de la razón de verosimilitud para variables redundantes que permite contrastar si un subconjunto de variables de una ecuación existente son conjuntamente significativas.
El test de Wald (denominador del contraste general F para restricciones lineales) puede utilizarse para detectar cuando una variable es redundante. Basta comprobar cuando puede considerarse cero su coeficiente de modo formal a través de esta prueba.
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS
Problema 14.1: Componentes principales
Dada la siguiente tabla de datos, obtenga las componentes principales.
Dada las series de datos de PIB, Consumo y Tasa de Interés de Argentina para el periodo primer trimestre de 1993 a primer trimestre de 2006,
a) pruebe si hay cambio estructural en el modelo
061,,932,931 tInterésPBIConsumo tttt
Tabla 14.4. Indicadores Macroeconómicos Periodo PIB CONSUMO F INTERES
1993 I 216370111 152148446 1 II 241871858 166025867 1 III 242645522 166667550 1 IV 245132429 169860311 1
1994 I 232945326 164965420 1 II 257476895 177234828 1 III 253467778 174510154 1 IV 257341544 177721808 1
1995 I 237968103 164321480 1 II 248093639 166567449 1 III 242214699 164276737 1 IV 244467965 168866520 1
1996 I 236566037 164311572 1 7.837 II 260751925 175591878 1 6.773 III 262166964 177726972 1 7.293 IV 267020047 183153037 1 7.523
1997 I 256387857 177490019 1 7.007 II 281769801 191310690 1 6.530 III 284092268 195505523 1 6.410 IV 287515346 199383506 1 7.920
1998 I 271702368 187196678 1 7.093 II 301207598 202675183 1 6.667 III 293315404 200922426 1 8.093 IV 286267849 199434263 1 8.393
1999 I 265024636 185463056 1 8.110 II 286412327 195463399 1 6.610 III 278472694 194457732 1 7.780 IV 283566399 199054269 1 9.687
2000 I 264555918 186315129 1 7.797 II 285275176 195338736 1 7.630 III 276767971 193972609 1 7.485 IV 278091676 193703380 1 10.439
Continúa…
645
Tabla 14.4. Indicadores Macroeconómicos Continuación Periodo PIB CONSUMO F INTERES
2001 I 259199874 182900187 1 8.678 II 284795763 191297580 1 12.750 III 263126505 181090983 1 22.867 IV 248864555 169871185 1 20.359
2002 I 216849495 148507392 0 9.394 II 246314633 158475554 0 60.913 III 237416867 156093858 0 62.071 IV 240361392 157992266 0 24.616
2003 I 228595882 153188337 0 18.277 II 265402478 169567358 0 13.874 III 261534523 172253988 0 4.578 IV 268560967 176794330 0 3.913
2004 I 254330423 171056272 0 2.360 II 284375611 183635133 0 2.330 III 284392060 187557703 0 2.744 IV 293467061 193373719 0 3.027
2005 I 274594503 200565514 0 2.782 II 313927290 219462442 0 3.535 III 310593081 218509900 0 4.125 IV 319939241 224988560 0 4.607
2006 I 298695561 218515535 0 5.626 II 338243727 238547451 0 6.518 III 337741885 237975913 0 6.874 IV 347578707 245923679 0 6.667
2007 I 322448871 236761556 0 7.189 II 367492351 256321622 0 6.874 III 367538727 254163194 0 8.331 IV 379199661 255268779 0 9.493
2008 I 349945322 240312979 0 8.256 II 396227240 200565514 0 10.237 III 393039229 219462442 0 10.938 IV 394564940 218509900 0 14.766
2009 I 357077664 224988560 0 12.515 PBI: Producto Bruto Interno a precios de mercado en miles de pesos a precios de 1993 Consumo: Consumo de los hogares con IVA en miles de pesos a precios de 1993 Interés: Tasa de interés trimestral a plazo fijo entre 30 y 59 días FUENTE: Ministerio de Economía. República Argentina.
b) analice el gráfico de residuos que surge de estimar el modelo anterior a partir de los datos de la Tabla 14.4.
646
-60,000,000
-40,000,000
-20,000,000
0
20,000,000
40,000,000
140,000,000
160,000,000
180,000,000
200,000,000
220,000,000
240,000,000
260,000,000
96 97 98 99 00 01 02 03 04 05 06 07 08
Residual Actual Fitted
Caso 14.2: Regresión en componentes principales
La tabla 14.5 contiene información sobre 24 meses correspondientes a los gastos de comercialización (Gastos) de una empresa, el nivel de ventas (Ventas), su costo de personal (Personal) y los costos de materias primas (Insumos). El objetivo es estimar el nivel de ventas a partir de las restantes variables.
Primer Paso: Especificación del modelo
PersonalInsumosGastosVentas 4321
Segundo Paso: Estimación del Modelo
La tabla se encuentra en el archivo “ventas.xls”. Esta información debe importarse en Eviews para realizar la estimación econométrica correspondiente. Los pasos a seguir consisten en
1. Generar en Eviews un archivo de trabajo (workfile) a partir de File-New, desde la ventana Workfile frecuency seleccionar Undated or irregular dates, en End date consignar la cantidad de observaciones que se tienen (en este caso 24).
2. Importar desde File-Import-Read Text_Lotus_Excel ubicando el archivo ventas.xls.
3. En la ventana de importación, en Upper-left data cell, consignar la celda donde se encuentra el primer dato. En Names series or number of series if name in file, especificar el nombre de las series o el número de series a importar.
4. La estimación se realiza a partir de Quick-Estimate Equation, consignando la variable dependiente (ventas) seguida de la constante (c) y de las variables explicativas (Gastos, Insumos, Personal) de la siguiente manera: ventas c gastos insumo personal. Esto da lugar a la siguiente salida:
El modelo estimado es
30.164.32398.0
)156.0()431.0()223.0()058.18(
950.0298.1923.0444.107
2
DWFR
PersonalInsumosGastosVentas
donde los valores entre paréntesis indican el desvío estándar de los coeficientes estimados.
Tercer Paso: Análisis de la bondad del ajuste
a) Nivel de explicación: El 98.02 R indica que las variaciones del conjunto de variables explicativas determinan el 98% de las variaciones de la variable dependiente.
648
Estimación 13.2.1 Dependent Variable: VENTAS Method: Least Squares Date: 08/25/06 Time: 14:58 Sample: 1 24 Included observations: 24
R-squared 0.979817 Mean dependent var 650.4167 Adjusted R-squared 0.976789 S.D. dependent var 62.39281 S.E. of regression 9.505570 Akaike info criterion 7.492645 Sum squared resid 1807.117 Schwarz criterion 7.688987 Log likelihood -85.91174 F-statistic 323.6415 Durbin-Watson stat 1.299572 Prob(F-statistic) 0.000000
b) Nivel de significación individual de las variables: La hipótesis nula es que el coeficiente que acompaña a la variable es nulo, de aceptarse esta hipótesis indica que la variable explicativa no está relacionada con la variable dependiente.
El conjunto de hipótesis a docimar es
0
0
1
0
i
i
H
H
La distribución teórica de probabilidades a utilizar para este contraste es la distribución t con (n-k) grados de libertad, con k igual al número de parámetros a estimar. Para un nivel de confianza del 95%, el valor crítico de la distribución t es de 086.2 . El valor de prueba a utilizar para docimar la significatividad de la variable Gastos es:
14.4222733.0
0922567.0ˆ
2
22
s
t
El estadístico empírico cae en la zona de rechazo de la hipótesis nula, (4.14>2.086) se concluye que la variable es significativa en el modelo.
Repitiendo el procedimiento para los demás coeficientes, se concluye que todas las variables son significativas individualmente.
649
c) Nivel de significación conjunta de las variables: La hipótesis nula es que los coeficientes que acompañan a las variables son todos nulos, de aceptarse esta hipótesis indica que el conjunto de variables explicativas utilizado no determina el comportamiento de la variable dependiente.
El conjunto de hipótesis a docimar es
0
0
4321
4320
H
H
La distribución teórica de probabilidades a utilizar para este contraste es la distribución F con k y n-k grados de libertad, con k igual al número de parámetros a estimar. Para un nivel de confianza del 95%, el valor crítico de la distribución F es de 87.2 . El valor de prueba a utilizar es:
6415.323)424/(117.1807
)14/(72601.87728
)/(
)1/(
knSCR
kSCEF
El estadístico empírico cae en la zona de rechazo de la hipótesis nula, se concluye que el conjunto de variables explicativas determinan la variable dependiente.
¿Cómo se obtienen los componentes del estadístico F?
La suma de cuadrados explicada (SCE) es la diferencia entre la suma de cuadrados totales (SCT) y la suma de cuadrados de los residuos (SCR): SCE=SCT-SCR
El desvío de la variable dependiente es
1
n
SCTsY , de modo que 84301.8953523*393.62)1(* 22 nsSCT Y
la SCR=1807.117, con lo cual
SCE=SCT-SCR=89535.84301-1807.117=87728.72601
d) Multicolinealidad. El modelo se especifica y estima bajo el supuesto de que las variables explicativas no están relacionadas entre sí. A través del cálculo de la matriz de correlaciones se observa que la asociación estadística entre las variables es alta. Los gastos de comercialización con respecto a gastos de personal y el costo de materias primas, muestran una correlación elevada 0.82 y 0.93; de igual modo costo de materias primas y personal muestran una correlación de 0.86. Esta situación indica la existencia de multicolinealidad entre todas las variables
Otra manera de probar la existencia de multicolinealidad es regresionar las variables explicativas entre sí. De modo que la especificación de los modelos a estimar es
PersonalGastos
InsumosPersonal
InsumosGastos
21
21
21
Las respectivas estimaciones arrojan los siguientes resultados
74.051.153.0
67.081.030.69
867.0618.182.20
2
2
2
RInsumosPersonal
RPersonalGastos
RInsumosGastos
Los coeficientes de determinación de cada variable explicativa respecto de la otra indica nuevamente la existencia de multicolinealidad. La presencia de multicolinealidad provoca variabilidad en los coeficientes estimados. Para salvar este problema es necesario hallar las componentes principales de las variables explicativas y estimar las ventas a partir de los factores resultantes.
Cuarto paso: Análisis de Componentes Principales
Con Eviews se realiza el ACP sobre el conjunto de variables explicativas
El primer eje factorial reúne el 91.35% de la varianza (inercia) de las variables explicativas y el primer plano (los dos primeros ejes, es decir, las dos primeras componentes) el 97.84%.
Los ponderadores en la combinación lineal permiten calcular, para cada observación, las coordenadas sobre cada eje factorial determinando de esta manera las componentes principales.
obs C1 C2 C3
1 1.506231 0.299516 -0.037624
2 1.853441 -0.576847 -0.366855
3 2.890413 0.090451 -0.086389
4 2.449552 -0.246221 -0.262575
5 1.900217 0.092529 0.097884
6 1.221876 0.442400 0.173072
7 1.326530 -0.020977 -0.006374
8 1.468150 -0.056916 0.090149
9 1.593096 -0.286881 0.294148
10 -0.216850 0.710388 -0.368121
11 0.390405 -0.078791 -0.086172
12 0.129487 0.335922 0.144863
13 0.339721 0.450410 0.253263
14 -1.149357 0.691960 0.043003
15 -1.117047 -0.696328 -0.238097
16 -1.339299 0.810884 0.318048
17 -0.804620 -0.473284 0.082786
18 -0.637431 -0.253687 -0.183776
19 -0.794810 -0.231346 0.271555
20 -2.460332 0.463226 -0.671708
21 -1.631015 -0.720918 -0.074868
22 -1.296164 -0.280755 0.246036
23 -1.922235 -0.530122 0.432073
24 -3.699960 0.065388 -0.064320
Quinto paso: Reespecificación del modelo
El modelo inicial que presentaba multicolinealidad se reespecifica. Las ventas, ahora vienen explicadas por las componentes principales 321 C,C,C
321 CCCVentas 4321
El resultado de la estimación muestra que la primera componente que reunía el 91.35% de la varianza de las variables exógenas es la que presenta un buen ajuste.
Se reespecifica nuevamente el modelo eliminando la tercera componente y se obtienen los resultados de la estimación 14.3.3.
652
Estimación 13.3.2 Dependent Variable: VENTAS Method: Least Squares Date: 08/25/06 Time: 14:56 Sample: 1 24 Included observations: 24
R-squared 0.979580 Mean dependent var 650.4167 Adjusted R-squared 0.977636 S.D. dependent var 62.39281 S.E. of regression 9.330659 Akaike info criterion 7.420957 Sum squared resid 1828.285 Schwarz criterion 7.568214 Log likelihood -86.05148 F-statistic 503.7120 Durbin-Watson stat 1.390091 Prob(F-statistic) 0.000000
653
Estimación 13.3.4 Dependent Variable: VENTAS Method: Least Squares Date: 08/25/06 Time: 15:03 Sample: 1 24 Included observations: 24
Variable Coefficient Std. Error t-Statistic Prob.
C 650.4167 1.876229 346.6617 0.0000 C1 -36.51051 1.133355 -32.21453 0.0000
R-squared 0.979241 Mean dependent var 650.4167 Adjusted R-squared 0.978297 S.D. dependent var 62.39281 S.E. of regression 9.191606 Akaike info criterion 7.354114 Sum squared resid 1858.684 Schwarz criterion 7.452285 Log likelihood -86.24937 F-statistic 1037.776 Durbin-Watson stat 1.427324 Prob(F-statistic) 0.000000
La segunda componente no presenta un buen ajuste por lo que se reespecifica el modelo
1CVentas 21
y se realiza la estimación 14.3.4
El modelo estimado es: 1CVentas 51051.364167.650
1C es la primer componente principal que se forma al hacer la suma ponderada, por los ponderadores de la combinación lineal, de las variables tipificadas para cada observación, es decir:
Insumos
InsumoiInsumo
Personals
PersonaliPersonal
Gastos
GastoiGasto
iC 59.056.058.01
sustituyendo los respectivos valores de medias y desvíos para las variables
1414
7917123590
9224
625187560
5824
16672215801 .
.iInsumo.
.
.iPersonal.
.
.iGasto.iC
Reemplazando el valor de 1iC en el modelo estimado tendremos
Caridad, J.M. y Ocerin: (1998). "Econometría: Modelos Econométricos y Series Temporales". Editorial Reverté, S.A. Barcelona.
Crivisqui, E. (2002) “Iniciación a los métodos estadísticos exploratorios multivariados”. Université Libre de Bruxelles. Belgique.
Gujarati, D. (2004) "Econometría". 4°Edición. Mc.Graw Hill. México. Capítulo 13.
Johnston, J. Dinardo, J. (2001) "Métodos de Econometría". Editorial Vicens Vives. Barcelona.
Perez Lopez, C. (2006). “Problemas Resueltos de Econometría”. Thomson. Madrid.
Pulido, A. (1989). "Modelos Econométricos". Editorial Pirámide. Madrid.
Capítulo 15. MODELO DE REGRESIÓN LINEAL GENERALIZADO ............................................................. 657
15.1. Análisis de los Residuos .................................................. 657 15.2. Perturbaciones no esféricas ............................................ 658 15.3. Mínimos Cuadrados Generalizados ................................... 660 15.4. Heterocedasticidad ........................................................ 662
Contraste de Goldfeld y Quandt (1965) .................................. 663 Contraste de White (1980) ................................................... 665 Contraste de Breusch y Pagan (1979) .................................... 666
Estimador de White ............................................................ 670 15.7. Autocorrelación ............................................................. 671
Contraste de autocorrelación de Durbin–Watson (1951) ........... 673 15.8. Estimación bajo Autocorrelación ...................................... 675
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS ............ 678
Problema 15.1: Heterocedasticidad en series de datos de corte transversal ........................................................................... 678 Problema 15.2: Contrastes sobre la perturbación aleatoria .......... 678 Problema 15.3: Especificación y Estimación de modelos lineales ... 678
Capítulo 15. MODELO DE REGRESIÓN LINEAL GENERALIZADO
15.1. Análisis de los Residuos
En esta unidad veremos cómo comprobar el cumplimiento de los supuestos del modelo lineal general sobre el término de perturbación y cómo estimar un modelo donde estos supuestos no se cumplen. El tema desarrollado en este capítulo se articula con el anterior al presentar los contrastes para el componente aleatorio en la construcción del modelo econométrico.
Una vez construido el modelo de regresión tendremos que contrastar, además de los supuestos sobre la parte sistemática, que ya analizamos, las hipótesis de media nula, homocedasticidad, no autocorrelación y normalidad sobre los residuos del modelo.
El análisis gráfico de los residuos va a presentar una primera información sobre estas hipótesis. Por ejemplo, si el histograma de frecuencias de los residuos no se ajusta al de una normal, pueden existir valores atípicos. Eliminando la o las unidades de observación que producen los valores atípicos se puede conseguir normalidad en los residuos. Otros gráficos interesantes son los siguientes:
El de los valores de te contra los valores de t , si detectamos una
tendencia creciente o decreciente en el gráfico, puede existir autocorrelación.
El de los valores de te contra los valores de tY , si comprobamos una
tendencia de cualquier tipo en el gráfico, puede existir autocorrelación, ya que habrá correlación entre los residuos. También puede haber en este caso heterocedasticidad o no linealidad.
El de los valores de 2te contra los valores de tY , si verificamos una
tendencia de cualquier tipo en el gráfico, puede existir heterocedasticidad.
El de los valores de te contra los valores de tX , si detectamos una
tendencia creciente o decreciente en el gráfico, puede existir autocorrelación, ya que los residuos no serán ortogonales respecto a las variables explicativas. También, en este caso, puede haber heterocedasticidad o falta de linealidad.
El de los valores de 2te contra los valores de tX , si verificamos una
tendencia de cualquier tipo en el gráfico, puede existir
658
heterocedasticidad o no linealidad (habrá relación entre la varianza del término del error y las variables explicativas).
15.2. Perturbaciones no esféricas
Recordemos que las varianzas y covarianzas de las perturbaciones
T,,j,)/(V j 12 X (Homocedasticidad)
ji,)/(Cov ji 0X (No autocorrelación)
Estos supuestos describen la información sobre las varianzas y covarianzas entre las perturbaciones que es proporcionada por las variables independientes. Es decir, las perturbaciones, por ellas mismas, no proporcionan dicha información.
Bajo los supuestos de homocedasticidad y no autocorrelación las perturbaciones mínimo cuadráticas se suelen denominar esféricas. El término describe una función normal multivariante. Si IΣ 2
en la función
de densidad normal multivariante, entonces la ecuación c)(f X es la fórmula de una esfera centrada en con radio en el espacio n – dimensional. El nombre de esférica se usa tanto si se trata de una distribución normal como si no; a veces se asume explícitamente la distribución normal esférica.
Bajo estas condiciones, la matriz de varianzas y covarianzas de la perturbación será escalar, es decir:
TE Iεε ' 2
Este supuesto “se puede relajar” para recoger situaciones más generales en donde las varianzas de las perturbaciones son distintas y/o las covarianzas no nulas. Si no imponemos ninguna restricción a priori, la forma general de la matriz de varianzas y covarianzas de las perturbaciones, es:
Ωεε '
221
22221
11221
TTT
T
T
E
Esto es, vamos a trabajar dentro del marco más general del modelo de regresión lineal con matrices de varianzas y covarianzas no escalares,
659
Ωεε 'E
que se suele denominar, en la literatura econométrica, modelo de regresión lineal generalizado.
En primer lugar, analizaremos qué consecuencias tiene sobre los estimadores MCO de los coeficientes de regresión, la relajación del supuesto de perturbaciones esféricas.
Seguidamente, introduciremos un método de estimación alternativo al MCO que tendrá en cuenta la información que recoge la matriz de covarianzas Ω . Este método se conoce con el nombre de mínimos cuadrados generalizados, MCG.
Como veremos, en el caso particular de que TIΩ 2 , ambos métodos de estimación coinciden.
Observación. Matriz de covarianzas de las perturbaciones. Sea el modelo de regresión lineal generalizado siguiente:
εβXy
Donde Ω'0 E,E y X , es una matriz no estocástica de rango k .
Bajo los supuestos del modelo, el estimador MCO de β , es lineal e insesgado con matriz de varianzas y covarianzas dada por,
11
X'XΩX'XX'XβV
ˆ
Se puede demostrar que si la matriz de covarianzas de las perturbaciones no es
escalar, el estimador habitual de la matriz de varianza 1X'XβV
2σˆ , es un estimador sesgado de la misma. Esto tiene graves consecuencias a la hora de realizar contrastes de hipótesis sobre el vector de coeficientes β , porque los estadísticos habituales, no se distribuyen
como una F de Snedecor, ni como una t de Student, de forma que si se compara el valor del estadístico muestral con el correspondiente a esas distribuciones, se puede llegar a una mala elección de la región crítica y a conclusiones erróneas. Por otro lado, el estimador MCO de β , es óptimo si se cumplen todos los supuestos
básicos del modelo de regresión lineal. Al relajar uno de los supuestos, no se puede aplicar el teorema de GAUSS-MARKOV y nada nos garantiza que el estimador MCO de β , del modelo especificado, sea el de menor varianza dentro de la clase de
estimadores lineales e insesgados. Intuitivamente, es razonable pensar que podemos obtener un estimador más eficiente incorporando la nueva información que tenemos en el modelo a través de la matriz de covarianzas no escalar
Ω'uu E y que no es tenida en cuenta por el método de MCO.
660
15.3. Mínimos Cuadrados Generalizados
El método de estimación de mínimos cuadrados generalizados, se basa en el criterio de estimación mínimo cuadrática, pero la función de distancia a minimizar es distinta a la de este criterio, ya que incorpora la información adicional, en la matriz de varianzas y covarianzas, de las perturbaciones Ω .
La función objetivo que vamos a minimizar, viene dada por
βXYΩβXY 1' ˆˆMinβ
o equivalentemente, si escribimos 2Ω , donde es conocida y 2 es un factor de escala
βXYβXY 1' ˆˆMin
A lo largo de este tema vamos a trabajar indistintamente con la matriz Ω o 2 .
El factor de escala 2 no es relevante a la hora de minimizar la suma de cuadrados ponderada con respecto a β . Lo que si es relevante, es la
información incorporada en .
En el criterio MCO, la función objetivo consta únicamente de la suma de cuadrados de las desviaciones βXY ˆ . En la “nueva” función objetivo aparece, como matriz de ponderaciones la inversa de , incluyendo de esta manera, la información existente sobre la dispersión y correlación de las desviaciones βXY ˆ .
De las condiciones de primer orden del problema de minimización, se obtiene el sistema de k ecuaciones normales:
YXβXX 1'MCG
1' ˆ
Cuya solución, es el estimador de mínimos cuadrados generalizados
YXXXβ 1'11'MCG
ˆ
Se puede demostrar que el estimador MCG de β , es lineal, insesgado y
óptimo dentro del marco del modelo de regresión lineal generalizado.
Este resultado, se conoce con el nombre de Teorema de AITKEN y es una generalización del Teorema de GAUSS-MARKOV.
661
Observación. Otra forma de derivar la función criterio y obtener el estimador MCG, se basa en transformar el modelo de forma que la matriz de varianzas y
covarianzas de sus perturbaciones, sea escalar. Dado que 1 , es una matriz
simétrica y definida positiva, existe una matriz P no singular, tal que PP'1 .
Por lo tanto TIPP' . Este resultado sugiere la siguiente transformación del modelo original:
PεβPXPy
Donde TEyE IPPεε0Pε '' 2 . El modelo transformado, satisface todas las hipótesis básicas, será ELIO. La función objetivo para el modelo es:
XβyXβyPXβPyPXβPy 1'' Min
La solución de las condiciones de primer orden de este problema de minimización es, de nuevo, el estimador de mínimos cuadrados generalizados,
yXXXPPyXXPPXβ 1'11''1''MCG
ˆ
Se puede demostrar fácilmente que si TI , el estimador MCGβ es igual
que el estimador MCOβ . ¿Por qué?
La matriz de varianzas y covarianzas del estimador MCGβ , es
11'MCG XXβV
2ˆ
Un estimador insesgado de la matriz de varianzas y covarianzas, viene dado por
11'MCG XXβV
2ˆˆˆMCG
Donde el estimador insesgado del factor de escala 2 , es
kT
ˆˆˆ MCG
MCG
1'
MCG βXyβXy2
Si suponemos que la perturbación ε , sigue una distribución normal, se puede obtener la siguiente distribución para el estimador MCG:
11'MCG XXβ~β 2,Nˆ
con lo que podemos contrastar restricciones lineales sobre los coeficientes del tipo Rβ:0H con el estadístico:
662
k-T q,F~
ˆ
q/ˆˆ
FMCG2
rβRRXXRrβR MCG
1'11''
MCG
Siguiendo las reglas de decisión habituales.
El estimador MCGβ es función de y, por lo tanto, para obtenerlo es
preciso conocer esta matriz de varianza y covarianzas.
Observación. En la práctica, es muy difícil que la matriz sea conocida. La solución a este problema pasa por obtener un estimador de la misma que tenga buenas propiedades y sustituirlo en la expresión del estimador MCG:
yXXXβ 1'11'MCGF
ˆˆˆ
Este estimador se conoce con el nombre de estimador de mínimos cuadrados generalizados factibles, MCGF.
El estimador MCGFβ es una función no lineal de e y , lo que dificulta en gran
manera la derivación analítica de sus propiedades en muestras pequeñas. Bajo ciertas condiciones de regularidad, y si el estimador de es consistente, se puede
demostrar que el estimador MCGFβ posee propiedades asintóticas deseables; es
decir, es consistente y se distribuye asintóticamente como una normal:
1MCGF G0ββ 2,NˆT d
Donde: Tlim
T
X'XG
1
La estimación de la matriz de varianzas y covarianzas, , crea muchos problemas en la práctica ya que significa tener que estimar, además de los k coeficientes de regresión, T varianzas y 21 /)T(T covarianzas, con solo T observaciones disponibles. ¿Por qué?
Además, el número de parámetros que hay que estimar crece con el número de observaciones. Para poder estimar con T observaciones, tanto la matriz , como
el vector de coeficientes β , es preciso imponer algún tipo de restricción sobre los
parámetros contenidos en . Una solución a este problema consiste en modelar las varianzas y covarianzas de las perturbaciones en función de un número pequeño de parámetros que no se incremente con el tamaño muestral.
15.4. Heterocedasticidad
Si la varianza del término de perturbación del modelo de regresión lineal no es constante para todas las observaciones se dice que es heterocedástica, o que existe heterocedasticidad en las perturbaciones.
663
La heterocedasticidad puede surgir en numerosas aplicaciones económicas, aunque es más común en el análisis de datos de sección cruzada.
Ejemplo 15.1. En los estudios que analizan el consumo o gasto familiar, es frecuente encontrar una mayor variabilidad del gasto realizado por familias de renta alta que por familias de renta baja. Esto se debe a que un mayor nivel de renta permite un mayor margen para la realización de gastos, y por lo tanto, una mayor varianza. Lo mismo ocurre en estudios sobre beneficios de las empresas, cuya varianza puede depender del tamaño de la empresa, de la diversificación de su producto, de las características del sector industrial al que pertenezca, etc., y por lo tanto, puede variar a través de las distintas empresas.
Suponiendo que no existe autocorrelación en las perturbaciones, la heterocedasticidad implica la siguiente estructura de la matriz de varianzas y covarianzas:
2
22
21
00
00
00
T
................E
Ωεε '
Normalmente, en la práctica, no sabemos de antemano si hay o no problemas de heterocedasticidad en las perturbaciones, por lo que se han desarrollado un gran número de métodos para contrastar la hipótesis nula de igualdad de varianzas u homocedasticidad.
Esta gran variedad, se debe a que la especificación de la hipótesis alternativa de heterocedasticidad, no suele ser conocida y puede ser más o menos general.
A continuación se explican someramente algunos de los contrastes más utilizados en la literatura.
Contraste de Goldfeld y Quandt (1965)
En determinados contextos, aunque no conozcamos la forma de la heterocedasticidad, tenemos sospechas de que las varianzas, T,,i;i 12 mantienen una relación monótona con los valores de alguna variable Z.
664
Ejemplo 15.2. En el análisis del gasto familiar, podemos suponer que la varianza del gasto depende del nivel de renta de cada familia, es decir, que )R(G ii
22 , donde )(G es una función creciente con la renta
familiar y 2 es un factor de escala.
En estos casos, para contrastar la hipótesis nula de homocedasticidad, esto es:
222
210 T:H
podemos proceder como sigue.
Supongamos que nuestra hipótesis alternativa es ,G iZ22
21 , donde
)(G , es una función monótona creciente en iZ que puede ser o no uno de los regresores incluidos en el modelo de regresión.
Los pasos que se siguen, son:
1.- Ordenar las observaciones correspondiendo a un ordenamiento de menor a mayor de la variable iZ .
2.- Eliminar p observaciones centrales dando lugar a dos bloques de 2/pT observaciones, 1T y 2T respectivamente; las observaciones centrales que se eliminan permiten mayor independencia entre los dos grupos. El número de observaciones en cada grupo ha de ser mayor que el número de parámetros que tenemos que estimar. Habitualmente, se suele tomar la tercera parte de la muestra disponible.
3.- Estimar el modelo de regresión separadamente para cada grupo de observaciones.
4.- Construir el siguiente estadístico de contraste que, bajo la hipótesis nula de homocedasticidad y suponiendo que la perturbación se distribuye como una normal de media cero y no está serialmente correlacionada, sigue una distribución F de Snedecor:
k2Tk,1TF
~kT
kTGQ
2
1
1'1
2'2
ee
ee
Donde, 2'2 ee es la suma de cuadrados de residuos de la regresión de Y
sobre X en el segundo grupo de observaciones, y 1'1 ee es la suma de
cuadrados de residuos de la regresión Y sobre X utilizando el primer grupo de observaciones.
665
Mientras que, bajo la hipótesis nula, las varianzas deben ser iguales, bajo la hipótesis alternativa, crecerán de un grupo a otro. Cuanto más difieran estas sumas de cuadrados, mayor será el valor del estadístico, y por lo tanto, mayor evidencia habrá en contra de la hipótesis nula.
Rechazaremos H0, a un nivel de significación , si:
kT,kGQ 2F 1T
Este contraste se puede utilizar, en principio, para detectar heterocedasticidad de forma general, aunque está “pensado” para alternativas específicas donde se supone un crecimiento de las varianzas en función de una determinada variable.
Si en realidad el problema no es ese, sino que existe otra forma de heterocedasticidad, el estadístico puede no captarla y no ser significativo.
Contraste de White (1980)
Con este método podemos contrastar la hipótesis nula de homocedasticidad frente a una alternativa general de heterocedasticidad.
Para la construcción del estadístico de contraste no se necesita una especificación concreta de la heterocedasticidad bajo la alternativa.
White, derivó este contraste comparando dos estimadores de la varianza de los estimadores MCO:
11
12
2
1
XXXXXX)ˆ(V.
XXˆˆV.
'''WHITE
'
S
Donde, S es una matriz diagonal cuyos elementos, son los residuos mínimo-cuadráticos ordinarios al cuadrado
222
21 Te,,e,ediagS
El estimador )ˆ(VWHITE es consistente independientemente de cómo sea la matriz , siempre que esta sea diagonal.
Bajo la hipótesis nula de homocedasticidad, ambos estimadores, 1 y 2, son consistentes, mientras que bajo la alternativa de heterocedasticidad, el estimador βV ˆˆ no lo es.
La forma operativa de realizar el contraste se basa en la siguiente regresión
T,,,iXXe isijijs
k
js
k
ji 21
10
2
666
Ejemplo 15.3. De este modo, si tuviéramos que contrastar a través de este test un modelo que tuviera tres regresores, procederíamos a realizar la siguiente regresión
T,,,iXXe isijijsjsj
i 2133
10
2
Esto es,
T,,,iXX
XXXXe
isiiss
siiss
siiss
i
2133
3
3
22
3
211
3
10
2
Con lo que queda finalmente el siguiente modelo a estimar,
T,,,iX
XXXXXXXXe
ii
iiiiiiiii
212333
3223222231132112
21110
2
Contrastar la hipótesis nula de homocedasticidad, es equivalente a contrastar que todos los coeficientes de esta regresión, exceptuando el intercepto, son conjuntamente cero, es decir:
s,j:H js 00
Se utiliza como estadístico de contraste 2TR , donde 2R es el coeficiente de determinación de ésta regresión.
Se puede demostrar que bajo la hipótesis nula p~a
2 , donde p es el número de regresores en la regresión sin incluir el término constante. Rechazaremos 00 js:H si el valor muestral del estadístico excede el
valor crítico de las tablas 2 , elegido un nivel de significación.
Este contraste tiene la ventaja de ser muy flexible por no tener que especificar la hipótesis alternativa; pero si se rechaza la hipótesis nula de homocedasticidad no indica cual puede ser la dirección a seguir.
El contraste de White puede recoger otro tipo de problemas de mala especificación de la parte sistemática: omisión de variables relevantes, mala forma funcional, etc. Esto es correcto si se identifica cuál es el problema; en caso contrario, la solución que se tome puede estar equivocada.
Contraste de Breusch y Pagan (1979)
667
Breusch y Pagan, derivan un contraste de heterocedasticidad donde la hipótesis alternativa es bastante general
iiA G:H Zα ' 022
Zi es un vector de variables exógenas que pueden ser las explicativas del modelo y la función )(G no se especifica.
La hipótesis nula del contraste, es la de homocedasticidad que, dada la alternativa, implica contrastar:
0α :H0
Una forma operativa de realizar el contraste, es la siguiente:
1. Utilizando los residuos MCOβXYe ˆ se construye la siguiente serie
T,,ie
r ii 1
2
ee'
2. Se obtiene la suma de cuadrados explicada (SCE) de la siguiente regresión
T,,ir iii 10 Zα '
3. Se utiliza como estadístico del contraste SCE/2, que bajo hipótesis nula se distribuye asintóticamente )S(2 , donde S son los grados de libertad igual al número de variables en Zi. Rechazaremos hipótesis nula a un nivel de significación (), si el valor muestral del estadístico excede el cuantil
S2 .
15.5. Mínimos cuadrados generalizados o ponderados
Existen casos en los que es posible conocer la estructura de la matriz de varianzas y covarianzas .
Ejemplo 15.4. En los casos de agregación de datos de sección cruzada o temporal. Si consideramos como observaciones en el modelo de regresión las medias de datos agrupados, la varianza de la perturbación en el modelo de regresión dependerá inversamente del número de
observaciones en cada grupo iT esto es 122 iTi . Si en lugar de las
medias consideramos simplemente la suma de las observaciones en cada
668
grupo, la varianza de la perturbación es proporcional al número de
observaciones en cada grupo iTi22 .
El vector de coeficientes se puede estimar por MCG resolviendo el problema de minimización que, para el problema de heterocedasticidad, toma la forma:
2
2
1 i
iT
i
YMin
βXXβYΩXβY
'i1'
En la suma de cuadrados, se ponderan más las desviaciones βX'iiY con menor varianza que las de mayor varianza, por ello, también se conoce este método como de mínimos cuadrados ponderados.
En el caso de heterocedasticidad, la matriz 1Ω es diagonal
222
21
T,,,diag 1Ω
entonces el estimador MCG se puede obtener también estimando por MCO el modelo transformado
T,,,iuXXY
i
i
i
kik
i
i
ii
i 2122
1
T,,,iuXXXY *i
*kiki
*i
*i 212211
Donde
ji,uuE
i,uE
uE
uE
*j
*i
i
i
i
i*i
*i
0
1
0
2
2
2
22
De esta forma se satisfacen todas las condiciones para que el estimador MCO del vector en el modelo sea un estimador ELIO. Ahora bien, este estimador no es más que el estimador de MCG:
YXXXYXXXYXXXˆ ''''**'**'MCG
1111111
669
15.6. Mínimos Cuadrados Generalizados Factibles
Cuando no se conocen los elementos de Ω , no es posible estimar T varianzas más k coeficientes de regresión con solo T observaciones.
Una forma de abordar el problema, es “modelar” las varianzas de las perturbaciones en función de un vector (sx1) de variables que son observables, iZ (que pueden ser parte o no del conjunto de regresores), y de un vector de parámetro θ , cuya dimensión es estimable y no crece con el tamaño muestral:
i,,ii G θZ2
de forma que Ω(θ)Ω
Una vez obtenido un estimador θ , se puede definir un estimador )θΩ(Ω ˆˆ y estimar el vector de coeficientes β por el método de mínimos cuadrados generalizados factibles.
Sabemos que, bajo ciertas condiciones de regularidad, si el estimador Ω es consistente, el estimador MCGFβ tiene buenas propiedades asintóticas.
Por lo tanto, una primera etapa para obtener el estimador MCGF de β se basa en obtener un estimador consistente de θ .
Una forma de conseguirlo, es considerar la siguiente aproximación del residuo mínimo-cuadrático con la perturbación:
errorˆXYˆYe iMCO'iiii βxβx '
iMCO'i
Dado que
θZ ,GE iii 22 ,
Se tiene que,
errorGei θ,Zi2
Si θ,ZiG es lineal en θ , por ejemplo iZθ'ˆ , se puede considerar la siguiente regresión para estimar los parámetros θ :
T,,ie ii 12 i'Zθ
En esta regresión, el término de perturbación es una combinación de los errores acumulados en las aproximaciones.
Se puede demostrar que, bajo ciertas condiciones, el estimador de θ así derivado, es consistente.
670
Una vez obtenido un estimador consistente de θ , se sustituye en la función suma de cuadrados ponderada y se minimiza con respecto a β , obteniéndose el estimador MCGF.
Estimador de White
Si estimamos los coeficientes de regresión β por MCO en presencia de heterocedasticidad, estos estimadores son insesgados, pero no eficientes.
Además, estimador de la matriz de varianza y covarianza de
1'MCO XXβ
2,ˆ , es inconsistente, por lo que los estadísticos de contraste
habituales, no son válidos para hacer inferencia sobre β , ni siquiera para muestras grandes.
Por otro lado, en los apartados anteriores hemos visto cómo, para aplicar métodos de estimación más apropiados, es preciso conocer la matriz Ω , o al menos, cuál es la estructura de la heteocedasticidad para poder especificar Ω(θ)Ω .
Dada la dificultad de conocer la forma de Ω , sería interesante poder contar con una estimación consistente de MCOβV ˆ y de esta forma derivar
estadísticos válidos, al menos asintóticamente, para contrastar hipótesis sobre el vector de coeficientes β .
White (1980), demuestra que es posible obtener un estimador consistente de la matriz de varianzas y covarianzas de MCOβ , sin tener que hacer
ningún supuesto sobre Ω , salvo que es una matriz diagonal.
Para ello, sólo es necesario obtener un estimador consistente de ΩXX' . White demuestra que, bajo ciertas condiciones de regularidad y siendo
T,,,ei 1 el residuo mínimo-cuadrático ordinario,
222
21 Te,,e,ediagSdonde
Tlimp
Tlimp
XΩXXSX ''
Por lo tanto, se puede utilizar:
1''1'WHITE XXXSXXXV
Tˆ
Como un estimador consistente de la matriz de varianzas y covarianzas asintóticas de MCOβT .
Este resultado es muy importante, ya que si estimamos por MCO en presencia de heterocedasticidad y utilizamos este estimador de la matriz de covarianzas, es posible realizar inferencia válida sobre los coeficientes β , al menos para muestras grandes, basándonos en el siguiente resultado:
671
qˆˆˆT d 2
rβRRVRrβR MCO
1'WHITE
'
MCO
Sin tener que especificar a priori la estructura de la heterocedasticidad.
15.7. Autocorrelación
En el modelo de regresión, el término de perturbación engloba todos aquellos factores determinantes de la variable endógena que no están recogidos en la parte sistemática del modelo. Estos factores pueden ser innovaciones, errores de medida de la variable endógena, variable omitida, etc.
Si estos factores están correlacionados en el tiempo o en el espacio, entonces no se satisface la hipótesis
ji,)(E ji 0
Este fenómeno, se conoce con el nombre de autocorrelación o correlación serial, en el caso de datos de series temporales, y de correlación espacial en el caso de datos de sección cruzada.
En los modelos que se especifican relaciones en el tiempo entre variables, la propia inercia de las series económicas donde el impacto de una perturbación en un período de tiempo, puede tener efectos en subsiguientes períodos, puede generar autocorrelación en el término de perturbación.
Esta dinámica, aunque no sea relevante en media, refleja un patrón sistemático de comportamiento que hemos de considerar a la hora de estimar el modelo. La matriz,
Ωεε )'(E
tiene elementos fuera de la diagonal principal, distintos de cero.
Los coeficientes de regresión, habrán de ser estimados, en consecuencia, por métodos de mínimos cuadrados generalizados.
Si no conocemos la matriz Ω , es necesario estimarla, lo que significa estimar 21 /)T(T covarianzas distintas con solo T observaciones, lo que no es factible.
Para poder estimar los elementos de Ω , es necesario especificar la autocorrelación de las perturbaciones en términos de un proceso que depende de un número pequeño y estimable de parámetros.
672
Observación. El tipo de procesos estocásticos más utilizados para especificar el comportamiento de las perturbaciones, son los denominados modelos autorregresivos y de medias móviles, ARMA (p,q). Esta clase de procesos incluye, como casos particulares, los autorregresivos de orden p, AR (p), y de medias móviles de orden q, MA (q). La forma general de un proceso AR (p), es:
tptpttt 2211
Donde t , se distribuye independientemente en el tiempo con media cero y
varianza constante 2 y p,, 1 , son parámetros constantes en el tiempo. El
proceso autorregresivo más utilizado dentro del marco del análisis de regresión, es el proceso de orden uno, AR (1):
ttt 1
Donde la perturbación en un período t , depende de la perturbación en el período anterior 1t , y un término aleatorio o innovación t que suponemos que es ruido
blanco, es decir, tiene media 0, varianza constante 2 y covarianzas nulas. Si
sustituimos repetidamente obtenemos:
iti
it
0
La perturbación t , es una combinación lineal de las innovaciones pasadas t con
ponderaciones 21 ,, que decaen geométricamente, si el valor del coeficiente
está acotado en el intervalo (-1, 1), lo que implica que las innovaciones it tienen
menor influencia en t cuanto más alejadas están en el tiempo.
Es fácil comprobar que el vector de perturbaciones ε , tiene media cero y matriz de varianzas y covarianzas:
2
321
32
2
12
2
2
1
1
1
1
1
TTT
T
T
T
E 'εε
De esta forma, dado el valor de , la matriz Ω , queda totalmente determinada, a
excepción del factor de escala 2 .
Un proceso autorregresivo utilizado con datos trimestrales para recoger efectos estacionales en la perturbación, es el siguiente AR(4):
ttt 4
El proceso de medias móviles general, MA (q), es:
673
qtqttt 11
Donde se supone que t , es ruido blanco con media cero y varianzas 2 y
q, 1 son parámetros constantes.
El proceso de medias móviles más sencillo, es el MA (1):
1 ttt
A diferencia de los procesos autorregresivos, en el proceso MA (1) la perturbación
t es una combinación lineal de solo dos innovaciones t y 1t por lo que se dice
que es un proceso de memoria corta. En este caso, el vector de perturbaciones tiene media cero y matriz de varianza y covarianza:
2
2
2
2
2
2
1000
010
01
001
'uuE
Por último, el modelo más general es el modelo autorregresivo de medias móviles, ARMA (p, q), donde la perturbación t depende de sus valores pasados y de la
innovación t y su pasado:
qtqtttttt 111211
Cuando modelamos la dependencia en el tiempo de t mediante un proceso ARMA
(p, q), estamos especificando la estructura de la matriz de varianza y covarianza
Ω en términos de los parámetros qp ,,,,,, 112 .
La elección de un proceso ARMA (p, q) concreto, depende en cada caso, de las características de los datos y del estudio que estemos realizando. A lo largo de este tema vamos a suponer, para simplificar la explicación, que las perturbaciones siguen un proceso AR (1).
Contraste de autocorrelación de Durbin–Watson (1951)
En la práctica, no se conoce a priori si existe autocorrelación ni cuál puede ser el proceso más adecuado para modelarla.
Existen varios contrastes de autocorrelación que se construyen utilizando los residuos mínimo–cuadráticos ordinarios.
Uno de estos contrastes, es el derivado de Durbin-Watson, para detectar la existencia de un proceso AR(1) en el término de perturbación.
La hipótesis nulas, es la no existencia de autocorrelación,
H0: = 0
674
El estadístico de contraste, es:
2
1
21
2
t
T
t
tt
T
t
e
ee
DW
donde te , son los residuos mínimo–cuadráticos ordinarios.
Si el número de observaciones es suficientemente grande, este estadístico se puede calcular mediante la aproximación:
DW 12
siendo el coeficiente estimado por MCO en la regresión:
T,,tee ttt 21
A partir de la relación se puede establecer el rango de valores que puede tomar el estadístico:
),(DWˆ.
),(DWˆ.
DWˆ.
02103
24012
201
Durbin y Watson tabularon los valores críticos, el máximo du y mínimo dL, que depende de la matriz de datos X. Estos valores críticos definen la zona de duda, donde no es posible afirmar o rechazar la existencia de autocorrelación, las zonas de autocorrelación positiva y negativa, y la zona de no existencia de autocorrelación. La comparación del estadístico empírico DW con la escala teórica de variabilidad 0 a 4, donde se explicitan los valores críticos, permite concluir si se acepta o rechaza la hipótesis nula.
Zona de Contraste de Autocorrelación (+)
Zona de Contraste de Autocorrelación (-)
Autocorre-lación (+)
Zona de duda
No hay Autocorrelación Zona de
duda Autocorre-lación (-)
0 dL du 2 4-du 4-dL 4
Este contraste se puede considerar también, como un contraste de mala especificación del modelo. La omisión de variables relevantes, una forma funcional poco adecuada, cambios estructurales no incluidos en el modelo, etc., pueden originar un estadístico DW significativo. Esto nos puede llevar a errores, si consideramos que hay evidencia de autocorrelación y se modela con un proceso AR (1). Por otro lado, si t sigue un proceso
675
distinto a un AR (1), puede que la significatividad del estadístico DW se vea afectada.
En resumen, el estadístico de Durbin-Watson, es útil porque nos indica la existencia de problemas en el modelo, pero no ayuda a establecer cuál es el modelo alternativo.
15.8. Estimación bajo Autocorrelación
Supongamos que las perturbaciones siguen un proceso autorregresivo de orden uno, AR (1), de forma que el modelo de regresión lineal generalizado, es:
21
221
0
1
,NID~
T,,tXXY
tttt
tktktt
Dado este modelo, vamos a explicar distintos métodos de estimación.
Mínimos cuadrados generalizados.
Si el valor de es conocido, el estimador de mínimos cuadrados generalizados de β se obtiene minimizando la función criterio. En este caso,
como Σ es una matriz simétrica y positiva definida, existe una matriz P tal
que '1 PP , y el estimador de mínimos cuadrados generalizados se puede obtener, también estimando por MCO, el modelo transformado.
En el caso de un modelo AR (1), la matriz P , es la siguiente:
1000
0010
001
0001 2
P
y el modelo transformado, se puede escribir como:
676
T,,t
XXXXYY
XXY
tktktktttt
kk
2
1
1111
1122211
112
212
22
112
Es interesante señalar que la primera observación sufre una transformación diferente a todas las demás.
La suma de cuadrados que tenemos que minimizar con respecto a β , es:
2
12
112
22211
2
1
1
jtjtj
k
jtt
T
t
ktkt
XXYY
XXYS
El primer sumando proviene de la primera observación y el segundo, no es sino la suma de cuadrados de residuos del modelo transformado para
Tt ,,2 .
Mínimos Cuadrados Generalizados Factibles
En el caso de que sea desconocido, no se puede obtener el estimador de β por MCG directamente, sino que hay que estimar conjuntamente y β .
Existen varios métodos que estiman conjuntamente y β , basándose en el modelo transformado, de lo que vamos a estudiar dos: el método Durbin y el método de Cochranne-Orcutt.
Ambos métodos de estimación se basan en que las perturbaciones siguen un proceso AR (1), por lo que el modelo transformado apropiado es
T,,t
XXXXYY tktktktttt
2
1 1122211
pero no tienen en cuenta la transformación de la primera observación.
Método de Durbin
La estimación por el método de Durbin (1960), se realiza en dos etapas:
1. Se estima por MCO en el modelo:
tt,kkktkt,ttt XXXXYY 11222211
Donde k,,i,,,T,,t ii 212 11 .
677
Dadas las propiedades de t el estimador de por MCO , es
consistente.
2. Se utiliza el estimador , para obtener el modelo transformado:
tktktktttt VXˆXXˆXˆYˆY 1122211 1
y estimamos el vector de coeficientes β por MCO en este modelo, es decir, minimizando con respecto a β , la suma de cuadrados siguientes:
2
1jtjtj
k
2j11tt
T
2t
2 XX1YYS
ˆˆˆ
Método de Cochrane-Orcutt
El método de Cochrane-Orcutt (1949), también se realiza en dos etapas:
1. Partiendo de 0 , se estima por MCO el modelo:
T,,tuXXY tktktt 1221
El estimador MCO de β , es consistente. En segundo lugar, se obtiene un estimador consistente de , esto se logra estimando por MCO la regresión:
T,,tee ttt 21
2. Se utiliza para obtener el modelo transformado:
tktktktttt XˆXXˆXˆYˆY 1122211 1
y se estima β por MCO en este modelo minimizando la suma de cuadrados
2
12
112
1
jtjtj
k
jtt
T
tXˆXˆYˆYS
Este proceso en dos etapas, se suele realizar repitiendo las regresiones hasta que las estimaciones de y β , no varíen dentro de un margen de valores.
Es preciso tener en cuenta que los dos métodos considerados minimizan la suma de cuadrados, que no tiene en cuenta la primera observación, por lo que solo son aproximaciones al estimador de mínimos cuadrados generalizados factibles. Asintóticamente, ambos son equivalentes al
678
estimador MCGF, pero para muestras pequeñas, puede haber diferencias, a veces, importantes.
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS
Problema 15.1: Heterocedasticidad en series de datos de corte transversal
En el modelo estimado a partir de la Tabla 15.1, contraste las hipótesis de homocedasticidad.
Problema 15.2: Contrastes sobre la perturbación aleatoria
En el modelo estimado a partir de la Tabla 15.4, contraste las hipótesis de homocedasticidad, no autocorrelación y normalidad.
Problema 15.3: Especificación y Estimación de modelos lineales
Especifique un modelo para estudiar una temática económica de su interés, construya la tabla de datos, realice la estimación y contraste la validez de los supuestos.
BIBLIOGRAFIA
Gujarati, D. (2004) "Econometría". 4°Edición. Mc.Graw Hill. México.
Johnston, J. Dinardo, J. (2001) "Métodos de Econometría". Editorial Vicens Vives. Barcelona.
Estimación ad hoc .................................................................. 682 Restricciones a priori sobre los ............................................. 683
16.3 Enfoque de Koyck ............................................................... 683
Estadístico h de Durbin ......................................................... 684 Estructura de rezagos .......................................................... 685
El Modelo de Expectativas Adaptativas....................................... 686 Modelo de ajuste de existencia o modelo de ajuste parcial ............ 688
Método de variables instrumentales ....................................... 690 16.4 Modelo de rezagos distribuidos de Almon ............................... 690
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS ............... 694
Caso 16.1: Modelo de Rezagos Distribuidos de Almon para la función Consumo .................................................................................. 694
Prueba de Granger ................................................................. 695 Estimación del Modelo de rezagos distribuidos de Almon .............. 698 Estimación del Modelo de Almon en Eviews ................................ 701
La característica principal de los modelos econométricos dinámicos es tener una variable rezagada. Esto indica que la influencia de una variable explicativa ( X ) sobre la dependiente ( Y ) se efectiviza en un lapso de tiempo, siendo este lapso el que se denomina rezago.
Las razones por las cuales se producen rezagos obedecen a causas sicológicas (no se cambia de hábito de manera inmediata), tecnológicas (la incorporación de la nueva tecnología disponible se realiza a lo largo del tiempo) o institucionales (por ejemplo, una buena alternativa financiera puede aprovecharse hasta que existan fondos disponibles).
Se distinguen dos tipos:
Modelo de rezagos distribuidos: donde la variable a rezagar es una variable explicativa exógena.
ttttt XXXY 22110 (1)
Los rezagos distribuidos pueden ser finitos o infinitos, de acuerdo a que se conozca el número exacto de rezagos.
Modelos autorregresivos: donde la variable a rezagar es la variable dependiente
tttt YXY 1 (2)
En un modelo de rezagos distribuidos en el tiempo
tktktttt XXXXY 22110 (3)
0 es el multiplicador o propensión que mide el impacto de corto plazo,
321 informan el impacto intermedio
682
ki 210 indica el multiplicador de rezagos distribuidos de
largo plazo o total
16.2. Estimación
A partir del modelo de rezagos distribuidos infinitos
ttttt XXXY 22110 (4)
Se pueden adoptar dos modalidades de estimación
1. estimación ad hoc
2. restricciones a priori sobre los
Estimación ad hoc
Este enfoque lo adoptaron Alt (1942) y Tinbergen (1949). Ellos sugieren que la estimación se realice secuencialmente, lo cual significa hacer:
ntesucesivame
XXXfY
XXfY
XfY
ttt
tt
t
),,(
),(
)(
21
1
El procedimiento se detiene cuando:
a. los coeficientes de la regresión comienzan a hacerse estadísticamente insignificantes, y/o
b. el coeficiente de por lo menos 1 variable cambia de signo
Las desventajas de este método radican en que
a. no está especificado qué tan largo es el rezago
b. a medida que se estiman rezagos sucesivos quedan menos grados de libertad
c. puede presentarse multicolinealidad
683
Restricciones a priori sobre los
En estos modelos se supone que los coeficientes siguen un patrón sistemático de comportamiento, se estudiarán el enfoque de Koyck y el polinomio de Almon.
16.3 Enfoque de Koyck
Se parte de un modelo de rezagos infinitos como el expresado en (4), se supone que todos los coeficientes tienen igual signo y que
kk 0 siendo 2,1,0k y 10 (5)
es la tasa de descenso o caída del rezago distribuido
1- es la velocidad de ajuste
El enfoque de Koyck (1954) postula que:
a. cada coeficiente sucesivo es inferior, lo que significa que con el paso del tiempo la influencia de la variable disminuye
b. 0 con lo que elimina la posibilidad de que los coeficientes cambien de signo
c. 1 le da menos peso a los más alejados en el tiempo
d. la suma de los coeficientes integrantes de un modelo indica el multiplicador de largo plazo finito
1
10k (6)
Como resultado, el modelo de rezagos infinitos puede escribirse como
ttttt XXXY 22
0100 (7)
684
La expresión (7) tiene parámetros no lineales, al rezagarlo un período se tiene:
132
020101 ttttt XXXY
multiplicando por
133
022
0101 ttttt XXXY (8)
Restando (8) de (7) se obtiene:
101 )1( ttttt XYY (9)
Reordenando
tttt YXY 10)1( (10)
donde t es un promedio móvil de los errores.
Este procedimiento se conoce como transformación de Koyck.
Las diferencias entre el modelo expresado en (10), respecto del expresado en (4), radica en la cantidad de parámetros a estimar. Además, (10):
a. no tiene multicolinealidad porque se reemplazó a las tX por 1tY
b. es un modelo autorregresivo derivado de un modelo de rezagos distribuidos
c. es posible que presente correlación entre la explicativa y el término de error
d. es posible la autocorrelación de errores por la construcción
e. no puede usarse el estadístico Durbin-Watson habitual, sino la h de Durbin
Estadístico h de Durbin
En estos modelos donde la variable dependiente se encuentra explicada por sus propios rezagos, la autocorrelación se mide con el estadístico h de Durbin
)ˆ(var1ˆ
n
nh
685
donde n tamaño de muestra
var varianza del coeficiente del la variable rezago
estimación de
se aproxima a partir del estadístico Durbin Watson (d)
d2
11ˆ
h se distribuye )1,0(N y la hipótesis nula es no existencia de autocorrelación.
Estructura de rezagos
La mediana de rezagos y el rezago medio son medidas que caracterizan la naturaleza de la estructura de rezagos.
Mediana de rezagos log
2log 10 (11)
Indica el tiempo que se necesita para alcanzar el 50% del cambio total en Y
Con 2.0 Mediana = 0.4306 menos de la mitad del periodo
Con 8.0 Mediana = 3.1067 más de tres periodos
Con 2/1 Mediana = 1 necesita 1 periodo
Si todos los son positivos
Rezago medio
1
(12)
Si 2/1 rezago promedio = 1
La mediana y la media de los rezagos sirven como medida resumen de la velocidad con la cual Y responde a X .
686
El Modelo de Expectativas Adaptativas
El modelo de Koyck se obtiene por un proceso puramente algebraico pero está desprovisto de cualquier soporte teórico. Esto puede suplirse si se supone el siguiente modelo
ttt XY *10 (13)
Donde Y es la demanda de dinero
*X la tasa de interés esperada a largo plazo
el término de error
La variable expectativa no es directamente observable pero se puede proponer la siguiente hipótesis:
***11 tttt XXXX (14)
Con 10 denominado coeficiente de expectativas. (14) es conocido como hipótesis de expectativas adaptativas, expectativas progresivas o de aprendizaje por error popularizadas por Cagan (1956) y Friedman (1957).
Esta hipótesis establece que las expectativas son corregidas cada periodo por una fracción de la brecha entre el valor actual y el esperado de la variable.
Otra manera de plantear la hipótesis es sumar en ambos miembros *1tX y
sacar factor común
** )( 11 ttt XXX (15)
Lo que muestra que el valor esperado de la tasa de interés en el tiempo t es un promedio ponderado del valor actual de la tasa de interés en el tiempo y su valor esperado en el periodo anterior, con ponderaciones de y )( 1
Si 1 tt XX * , las expectativas se cumplen inmediatamente
Si 0 *t
*t XX 1 , hay expectativas estáticas, las condiciones prevalecen
a lo largo del tiempo
687
Sustituyendo (15) en (13)
ttt
tttt
XX
XXY
*1110
*110
)1(
)1( (16)
Si se rezaga (13) un periodo
11101 ttt XY * (17)
Se lo multiplica por )( 1
11101 1111 ttt XY )()()()( * (18)
Restando (18) a (16)
1
11111001
1
1111
tt
ttttt XXXYY
)(
)()()()( **
tttt YXY 110 1 )( (19)
Donde 11 ttt )(
Entre los modelos expresados en (13) y (19) se observan las siguientes diferencias:
a. en (13), 1 mide el cambio en Y ante cambios en el largo plazo
b. en (19), 1 mide el cambio promedio de Y ante cambios unitarios en el valor actual u observado de X
c. si 1 , los valores actuales y de largo plazo son iguales
d. en (19), 1 se obtiene luego de conocer
El modelo de expectativas adaptativas –expresado en (19)-, y el modelo de Koyck –expresión (10)-, son similares; ambos son autorregresivos y tienen igual término de error.
688
La hipótesis de expectativas adaptativas fue muy popular hasta la llegada de las expectativas racionales difundidas por Lucas y Sargent; éstas suponen que los agentes económicos individuales utilizan información actual disponible y relevante en la formación de sus expectativas y no se apoyan únicamente en experiencia pasada.
Modelo de ajuste de existencia o modelo de ajuste parcial
Esta es otra racionalización del modelo de Koyck dada por Marc Nerlove. Partiendo del modelo de acelerador flexible de la teoría económica, se supone que hay un nivel de existencias de capital de equilibrio -u óptimo deseado o de largo plazo- requerido para generar una producción determinada bajo unas condiciones dadas de tecnología y tasa de interés, entre otras.
Si el nivel de capital deseado *Y es función lineal de la producción X
ttt XY 10* (20)
Y dado que el capital deseado no es observable, Nerlove postula la siguiente hipótesis
11 tttt YYYY * (21)
Que es la hipótesis de ajuste parcial o de ajuste de existencias, donde:
10 es el coeficiente de ajuste
1 tt YY es el cambio observado
1 tt YY * es el cambio deseado
Pero,
1tt YY inversión (22)
Entonces la expresión (21) puede escribirse como
1 tt YYI *
También, eliminando paréntesis, (21) puede escribirse como
11 tttt YYYY *
689
11 ttt YYY * (23)
Sustituyendo (20) en (23)
110 1 tttt YXY
110 1 tttt YXY
tttt YXY 110 1 (24)
(24) se denomina modelo de ajuste parcial y puede considerarse demanda de existencias de capital de corto plazo
Una vez que se estima (24) es posible estimar la existencia de capital de largo plazo (ecuación 20) a partir del término : dividiendo los coeficientes 0 y
1 , y eliminando el término rezagado de Y , se obtiene la función de largo plazo.
En resumen, se tienen tres modelos:
Koyck 110)1( ttttt YXY (25)
Expectativas adaptativas
1110 )1()1( ttttt YXY (26)
Ajuste parcial tttt YXY 110 1 (27)
Todos tienen una estructura común:
o Ordenada al origen
o Una variable X
o Una variable rezagada
Es decir, todos son autorregresivos por naturaleza
690
Estos modelos tienen:
o Variable explicativa estocástica ( 1tY )
o Correlación serial (entre 1tY y X )
Por esto existe la posibilidad de que no puedan estimarse por mínimos cuadrados ordinarios. Los modelos expresados en (25) y (26) tendrán errores autocorrelacionados por la propia construcción. En la expresión (27) pueden existir errores homocedásticos y no autocorrelacionados, en cuyo caso es posible usar mínimos cuadrados ordinarios aun cuando las estimaciones sean sesgadas.
Método de variables instrumentales
Este método sugerido por Leviatán (1963) constituye una alternativa de estimación cuando no puede aplicarse mínimos cuadrados ordinarios y consiste en encontrar una variable altamente correlacionada con 1tY pero no con t
(término de error del modelo de Koyck o el de expectativas adaptativas).
La variable sugerida es 1tX que no está relacionada con los errores lo cual
genera estimaciones consistentes pero puede haber multicolinealidad lo cual dará lugar a estimadores ineficientes.
16.4 Modelo de rezagos distribuidos de Almon
El modelo de Koyck supone que los se reducen geométricamente a medida que el rezago aumenta, esto no es aplicable cuando tenemos situaciones como las planteadas en las Figuras 1 a 3.
Shirley Almon (1965) consideró que los coeficientes de los rezagos i podían ajustarse a un polinomio en i de grado m 1:
mmi iaiaiaiaa 3
32
210 (28)
La Figura 1 se corresponde con coeficientes que se ajustan por un polinomio de grado 2; la Figura 2 con un polinomio de grado 3 y la Figura 3 con un polinomio de grado 4. En general, un polinomio de grado 2 o grado 3, ajusta bien el comportamiento de los i .
1 Esto se basa en el Teorema de Weierstrass que dice que ´en un intervalo cerrado finito cualquier función continua puede ser aproximada mediante un polinomio de grado apropiado´
691
Figura 1 Figura 2
Figura 3
La técnica de Almon parte de un modelo finito de rezagos distribuidos
tktktttt XXXXY 22110 (29)
expresión que puede escribirse como
t
k
iitit XY
0
(30)
A efectos de simplificar la notación se supone que los coeficientes i se ajustan por un polinomio de segundo grado
2210 iaiaai (31)
Reemplazando (31) en (30)
t
k
iit
k
iit
k
iit
t
k
iitt
XiaXiaXa
XiaiaaY
0
22
01
00
0
2210
(32)
692
Definiendo las variables instrumentales
k
iitktttt
k
iitktttt
k
iitkttttt
XiXkXXZ
iXkXXXZ
XXXXXZ
0
222
21
22
0211
0210
21
21
(33)
y reemplazado en (32)
ttttt ZaZaZaY 221100 (34)
Este modelo se estima por MCO, si los errores son homocedásticos y no autocorrelacionados y ma tendrán las propiedades estadísticas deseables.
Las variables explicativas no están correlacionadas con el término de error pero sí puede haber alta correlación entre ellas por la manera en que fueron construidas. Si ocurriera este caso se debería eliminar la multicolinealidad a través de ACP.
Ahora bien, se ha llegado al final del modelo pero se está a mitad camino de lo que realmente se quiere conocer. El objetivo son los coeficientes de la variables explicativa rezagada y, lo que se tiene, son los coeficientes de variables que en su interior tienen una combinación de variables con rezagos.
Para calcular los coeficientes i , se debe hacer uso del supuesto inicial dado en (31), donde:
2210 iaiaai
Por lo que
Si 0i , 22100 0ˆ0ˆˆˆ aaa
Si 1i , 22101 1ˆ1ˆˆˆ aaa
Si 2i , 22102 2ˆ2ˆˆˆ aaa (35)
sucesivamente
693
Si ki , 2210 ˆˆˆˆ kakaak
¿Cuál es el desvío de los i ? También se debe calcular, a partir de los desvío
de ma
m
j pjpj
pjj
ji aaiaiiaiaaVarVar
0
22210 )ˆˆcov(2)ˆvar()ˆˆˆ()ˆ( (36)
Entonces:
)ˆˆˆ()ˆ( 22100 000 aaaVarVari
)aacov()aacov()aacov(
)avar()avar()avar()aaa(Var)ˆ(Vari ***
2121
2020
1010
222
112
0022
2101
1112
111111
)aacov()aacov()aacov(
)avar()avar()avar()aaa(Var)ˆ(Vari ***
2121
2020
1010
222
112
0022
2102
2222
222222
)aacov()aacov()aacov(
)avar()avar()avar()aaa(Var)ˆ(Vari ***
2121
2020
1010
222
112
0022
2103
3332
333333
)aacov(k)aacov(k)aacov(k
)avar(k)avar(k)avar(k)kakaa(Var)ˆ(Varki ***k
2121
2020
1010
222
112
0022
210
2
¿Qué problemas se plantean con este método?
Un problema que presenta la estimación de estos modelos es la reducción de los grados de libertad, tener un número importante de rezagos conduce a estimar un alto número de coeficientes que redunda en disminuir los grados de libertad. Además es posible que exista relación entre las variables explicativas.
694
La elección del grado del polinomio y de los términos de rezago es subjetivo.
Para determinar la cantidad de rezagos se puede utilizar un correlograma o el test de causalidad de Granger, pero con el grado del polinomio es prueba y error.
El procedimiento es estimar sucesivos modelos con distinto polinomio y, el que mejor modelo estimado arroje, ese será el polinomio a adoptar finalmente. La elección del modelo final puede hacerse a través de los criterios de información de Akaike o Schwarz, cuanto menor sean estos indicadores mejor modelo.
El método es flexible para incorporar diversas estructuras, no se encuentra la variable dependiente rezagada y, si se puede ajustar un polinomio de grado bajo, se reduce el número de coeficientes a estimar.
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS
Caso 16.1: Modelo de Rezagos Distribuidos de Almon para la función Consumo
El objetivo es aplicar la técnica de Almon a los datos de Consumo y PBI de Argentina utilizando la información existente en la Tabla 12.4.
Uno de los problemas que se presenta es el desconocimiento de la relación de causalidad, ¿el comportamiento del consumo causa un comportamiento determinado en el PBI?, o ¿las variaciones en el PBI dan lugar a cambios en el consumo?
Para aproximar una respuesta a esos interrogantes es de utilidad el Test de Granger, que mide la causalidad cuando hay relación temporal del tipo adelanto rezago entre las variables.
695
Prueba de Granger
La prueba involucra la estimación de dos regresiones
m
it
m
jjtjitit
n
it
n
jjtjitit
YXX
YXY
12
1
11
1
donde se supone que t1 y t2 no están correlacionados.
Los pasos consisten en
1. regresar Y sobre los rezagos de Y para obtener la suma de los cuadrados de los residuos restringidos ( rSCR )
2. repetir la regresión anterior pero incorporando los términos rezagados de X para obtener la suma del cuadrado de los residuos sin restringir ( nrSCR )
3. se construye el estadístico
knSCR
mSCRSCRF
nr
nrr
/
/
que se distribuye como una knmF , ; donde:
m es el número de términos rezagados de X
k es el número de parámetros estimados en la regresión no restringida
4. Bajo la hipótesis nula de que el término rezagado de X no pertenece a la regresión
0:0 iH
si el valor de F calculado excede al crítico, a un nivel de significación de , se rechaza la 0H . Esto significa que los
términos rezagados de X pertenecen a la regresión.
Granger distingue 4 casos de causalidad
1. Unidireccional de X a Y : cuando los i son estadísticamente distintos
de cero y los i estadísticamente iguales a cero
2. Unidireccional de Y a X : cuando los i son estadísticamente iguales a
cero y los i estadísticamente distintos de cero
696
3. Retroalimentación o causalidad bilateral: cuando los i , i , i y i son estadísticamente distintos de cero.
4. Independencia: cuando el conjunto de coeficientes no es significativo.
Para aplicar el test se debe, en Eviews, abrir un grupo para las variables PIB y Consumo; luego en View-Granger Casuality se debe ingresar el número de rezagos a considerar (Lags to include):
La salida del test muestra la prueba de causalidad de PBI a Consumo y de Consumo a PIB. La hipótesis nula es que los coeficientes que acompañan a los términos rezagados de la variable explicativa se anulan.
En la primera línea del test cuando dice “PBI does not Granger Cause CONSUMO” quiere decir que el comportamiento del PBI no afecta las variaciones de Consumo, por ende los coeficientes asociados a la variable explicativa PBI se anulan. Esta es la hipótesis nula, la cual es rechazada.
En la segunda línea se prueba la relación inversa bajo la hipótesis nula de que las variaciones en Consumo no determinan el nivel asumido por el PBI, por ende los coeficientes que acompañan a la variable explicativa Consumo se anulan. Esta hipótesis, al igual que la primera, se rechaza.
El resultado del test indica la presencia de retroalimentación o causalidad bilateral entre las dos variables.
697
También puede observarse el correlograma cruzado de las dos variables (Cross Correlogram of CONSUMO and PIB) que se obtiene abriendo un grupo para Consumo y PIB, haciendo en View-Cross correlation. En la gráfica, las barras que salen de las bandas de confianza alcanzan al cuarto rezago.
Estos resultados, la Prueba de Ganger con 4 rezagos y el correlograma, sugieren que el modelo a considerar es:
ttttttt PIBPIBPIBPIBPIBConsumo 443322110
Se supone que los i pueden aproximarse por un polinomio de segundo grado
2210 iaiaai
698
Estimación del Modelo de rezagos distribuidos de Almon
El modelo a estimar por variables instrumentales es:
ttttt ZaZaZaConsumo 221100
En Eviews deben construirse las variables Z
4
043210
itttttitt XXXXXXZ
4
043211 432
ittttitt XXXXiXZ
4
04
23
22
21
22 432
ittttitt XXXXXiZ
a partir del comando Genr se construyen las variables
Z0=pib+pib(-1)+pib(-2)+pib(-3)+pib(-4)
Z1=pib(-1)+2*pib(-2)+3*pib(-3)+4*pib(-4)
Z2=pib(-1)+2*2*pib(-2)+3*3*pib(-3)+4*4*pib(-4)
La estimación en Eviews se realiza desde Quick-Estimate Equation consignado en el cuadro de diálogo la expresión
consumo c Z0 Z1 Z2
Los coeficientes corresponden a 210 ,,, aaa ; para hallar el valor de
43210 ,,,, debe utilizarse la expresión
2210 iaiaai
0.464424000 002
2100 aaaai ˆ
17880
0.0614110.347033-0.464424111 21012
2101
,
ˆˆˆˆ
aaaaaai
699
0160
4*0.0614112*0.347033-0.464424
42222 21022
2102
,
ˆˆˆˆ
aaaaaai
023970
9*0.0614113*0.347033-0.464424
93333 21032
2103
,
ˆˆˆˆ
aaaaaai
058870
16*0.0614114*0.347033-0.464424
164444 21042
2104
,
ˆˆˆˆ
aaaaaai
Reconstruyendo la ecuación consumo
43
21
05887.002397.0
01600.017880.046442.03686572
tt
tttt
PIBPIB
PIBPIBPIBConsumo
Los errores estándar de los estimadores s se calculan haciendo
700
m
jpj
pj
pjj
jmmi aaiaiiaiaiaaVar
0
22210 2 )ˆˆcov()ˆvar()ˆˆˆˆvar()ˆ(
A partir de la información contenida en la matriz de covarianzas de los coeficientes a
Y teniendo en cuenta que 2210 iaiaai , el cálculo de los desvíos será
0344673800011880
0011880000
00
02
2100
,,
,)ˆvar()ˆˆˆvar()ˆ(
ˆˆ
ass
aaaaVari
0175214200003070
00030700005290000268000138602
000132000228100011880
1112
111
111
1
2121
2020
1010
222
112
002
22101
,,
,),,,
,,,
)ˆˆcov()ˆˆcov()ˆˆcov(
)ˆvar()ˆvar()ˆvar(
)ˆˆˆvar()ˆ(
ˆ
***
s
aaaaaa
aaa
aaaVari
701
023660000560
0005600005290800026804001386022
000132016002281040011880
2222
222
222
2
2121
2020
1010
222
112
002
22102
,,
,),*,*),(*
,*,*,
)ˆˆcov()ˆˆcov()ˆˆcov(
)ˆvar()ˆvar()ˆvar(
)ˆˆˆvar()ˆ(
ˆ
***
s
aaaaaa
aaa
aaaVari
0187300003510
000351000052902700026809001386032
000132081002281090011880
3332
333
333
3
2121
2020
1010
222
112
002
22103
,,
,),*,*),(*
,*,*,
)ˆˆcov()ˆˆcov()ˆˆcov(
)ˆvar()ˆvar()ˆvar(
)ˆˆˆvar()ˆ(
ˆ
***
s
aaaaaa
aaa
aaaVari
0353800012520
0012520000529064000268016001386042
00013202560022810160011880
4442
444
444
3
2121
2020
1010
222
112
002
22104
,,
,),*,*),(*
,*,*,
)ˆˆcov()ˆˆcov()ˆˆcov(
)ˆvar()ˆvar()ˆvar(
)ˆˆˆvar()ˆ(
ˆ
***
s
aaaaaa
aaa
aaaVari
Estimación del Modelo de Almon en Eviews
A continuación se describe cómo solicitar a Eviews la estimación de un polinomio de rezagos distribuidos (pdl), donde cada pdl equivale a una variable instrumental construida con un procedimiento de cálculo distinto al de Almon pero que arroja los mismos coeficientes de los términos rezagados.
Para un modelo del tipo
tktktttt XXXwY 110 (1)
Se construye un polinomio de orden p para los β
702
ppj jjj )()()( 1
2321 , kj 3,2,1,0 (2)
es una constante dada por
imparesksik
paresksik
2/)1(
2/ (3)
La constante no afecta la estimación de , es incluida solamente para esquivar problemas numéricos que pueden presentarse desde la colineariedad.
La especificación del modelo con k rezagos de X solo debe contener p parámetros. Se debe cumplir la restricción kp , caso contrario reporta matriz singular.
Al especificar PDL, Eviews sustituye 2 en 1, de modo que
tkt
pp
tp
p
tp
ptt
Xkkk
X
XwY
)()()(
)1()1()1(
)0()0()0(
12
321
112
321
12
321
Eliminando paréntesis
tktp
pktktkt
tp
pttt
tp
pttttt
XkXkXkX
XXXX
XXXXwY
)()()(
)1()1()1(
)0()0()0(
12
321
1112
31211
12
321
Agrupando términos
tktp
tp
tp
p
kttt
kttt
kttttt
XkXX
XkXX
XkXX
XXXwY
)()1()0(
)()1()0(
)()1()0(
11
21
223
12
11
703
El modelo con variables instrumentales se especifica:
ttpptttt ZZZZY )( 11332211 (4)
donde
ktp
tp
tp
tp
ktttt
ktttt
ktttt
XkXXZ
XkXXZ
XkXXZ
XXXZ
)()()(
)()()(
)()()(
)(
11
21
223
12
11
10
10
10
Estimar desde 4, permite calcular los y sus errores a partir de la relación 2. Este procedimiento es sencillo a partir de que es una transformación lineal de .
La especificación del polinomio de rezagos distribuidos tiene 3 elementos
Longitud del rezago k El grado del polinomio p Restricciones que se quieran emplear
La estimación en Eviews se realiza desde Quick-Estimate Equation consignado en el cuadro de diálogo la expresión
consumo c pdl(pib,4,2)
Es decir, variable dependiente – ordenada al origen – pdl términos; este último es la sentencia para que el sistema interprete que
debe rezagar términos de la variable explicativa pib, que la cantidad de rezagos tienen que ser 4, que el grado del polinomio a considerar es 2.
El soft proveerá los siguientes resultados
704
Reemplazando los coeficientes de itPDL en el polinomio de i , se obtienen los
valores de los coeficientes del PIB.
061411.0
101388.0
016004.0
3
2
1
24 K (Por lo expresado en 3)
Con esta información y dado que se ha definido un polinomio de segundo grado para j ,
2321 )()( jjj
el cálculo se realiza de la siguiente manera:
705
4644240
40614110210138800160040
20200 23210
.
*.*..
)(ˆ)(ˆˆˆ
j
1788030
10614110110138800160040
21211 23211
.
*.*..
)(ˆ)(ˆˆˆ
j
0160040
22222 23212
.
)(ˆ)(ˆˆˆ
j
0239730
10614110110138800160040
23233 23213
.
*.*..
)(ˆ)(ˆˆˆ
j
0588720
40614110210138800160040
24244 23214
.
*.*..
)(ˆ)(ˆˆˆ
j
43
21
05887200239730
0160040178803046442403686572
tt
tttt
PIBPIB
PIBPIBPIBConsumo
..
...
El resultado coincide con los coeficientes que muestra Eviews bajo el título “Lags Distribution of”
¿Cómo proceder cuando el número de rezagos es impar? Se especifica el siguiente modelo
tttttttt PIBPIBPIBPIBPIBPIBConsumo 55443322110
En Eviews se indica de la siguiente manera
consumo c pdl(pib,5,2)
y la estimación es:
706
Los coeficientes de itPDL
036707.0
120499.0
058942.0
3
2
1
22
15
k
K (por lo expresado en 3)
Deben reemplazarse en el polinomio de i , ( 2321 )()( jjj ) para
obtener los valores de los coeficientes del PIB.
707
4467680
40367070212049900589420
20200 23210
.
*.*..
)(ˆ)(ˆˆˆ
j
2161480
036707012049900589420
21211 23211
.
...
)(ˆ)(ˆˆˆ
j
0589420
22222 23212
.
)(ˆ)(ˆˆˆ
j
024850
036707012049900589420
23233 23213
.
...
)(ˆ)(ˆˆˆ
j
0352280
40367070212049900589420
24244 23214
.
*.*..
)(ˆ)(ˆˆˆ
j
0278080
90367070312049900589420
25255 23215
.
*.*..
)(ˆ)(ˆˆˆ
j
543
21
02780800352280024850
058942021614804467680-2764189
ttt
tttt
PIBPIBPIB
PIBPIBPIBConsumo
...
...
BIBLIOGRAFIA
Gujarati, D. (2004) "Econometría". 4°Edición. Mc.Graw Hill. México.
Quantitative Micro Software (2007). “EViews 6 User’s Guide”. USA.
Estimación del modelo ........................................................ 716 Estimación con datos agrupados ........................................ 717 Estimación con datos individuales ...................................... 721
En los modelos de probabilidad la variable dependiente es binaria, asumiendo el valor de 1 o 0 de acuerdo a la presencia de la cualidad que se quiera medir; es decir, produce una respuesta de sí o no.
Ejemplo. Supongamos que se desea estudiar la participación de la fuerza laboral de hombres adultos en función de la tasa de desempleo, de la tasa de salarios promedio, del ingreso familiar, de la educación, etc. Una persona o bien está en la fuerza laboral o no está. Por tanto, la variable dependiente que es la participación en la fuerza laboral, solamente puede adquirir dos valores: 1 si la persona está en la fuerza laboral y 0 si no lo está.
Se considerarán los cuatro enfoques de mayor difusión
Modelo lineal de probabilidad (MPL)
Modelo Logit
Modelo Probit
Modelo Tobit
17.2. Modelo Lineal de Probabilidad
El modelo se especifica
tktktt XXY 221
donde,
Y es una variable cualitativa
kXXX ,, 32 son variables explicativas de carácter cuantitativo o cualitativo
712
Modelos de este tipo, que expresan la variable binaria como una función lineal de la o las variables independientes, se denominan MPL puesto que la ii XYE , puede ser interpretada como la probabilidad condicional de que el
evento suceda dado iX ; es decir, ii XYP 1
Ejemplo. En un estudio en los hogares, si Y mide la posesión de una casa -Y=1 cuando la familia posee casa y Y=0 cuando no posee- y X el nivel de ingresos. La ii XYE da la probabilidad de que una familia
posea una casa dado que tiene un ingreso de cierta cantidad iX
Si 0iE
ktktii XXXYE 221
Haciendo, 1)( ii YprobP es decir que el evento ocurra y
0)(1 ii YprobP es decir de que el evento no ocurra, la variable Y tiene la siguiente distribución:
iY Probabilidad
0 iP1
1 iP
Total 1
Por consiguiente, por definición de esperanza matemática se obtiene
iiii PPPYE 110
comparando con ktktii XXXYE 221 , se puede igualar
iktktii PXXXYE 221
es decir, la esperanza condicional del modelo puede ser interpretada, de hecho, como la probabilidad condicional de iY
Puesto que la probabilidad iP debe encontrarse entre 0 y 1, se tiene la restricción
10 ii XYE
es decir, la esperanza condicional o probabilidad condicional debe encontrarse entre 0 y 1.
713
En aplicaciones prácticas el MPL tiene infinidad de problemas, tales como,
No normalidad de los t
Heterocedasticidad de t
La posibilidad de que tY se encuentre fuera del rango 0 – 1
Valores generalmente bajos de 2R
Aunque estos problemas se pueden resolver, por ejemplo, se pueden utilizar mínimos cuadrados ponderados para resolver el problema de heterocedasticidad o incrementar el tamaño de la muestra y minimizar así el problema de no normalidad. También, recurriendo a las técnicas de mínimos cuadrados restringidos o de programación matemática, es posible hacer que las probabilidades estimadas se encuentren dentro del intervalo 0 – 1.
Con respecto al 2R , Aldrich y Nelson sostienen que el uso del coeficiente de determinación como estadístico resumen debe evitarse en modelos con variable dependiente cualitativa.
Aún salvando estos problemas el MPL no es un modelo muy atractivo porque supone que aumenta linealmente con X, es decir el efecto marginal o incremental de X permanece constante todo el tiempo. En realidad se esperaría que iP estuviera relacionado en forma no lineal con iX
Ejemplo. Si se aplica el modelo de propiedad de la vivienda y se encuentra que 10.0ˆ
2 significaría que a medida que X aumenta una unidad (supongamos en miles de pesos), la probabilidad de ser propietario de una vivienda aumenta en la misma cantidad constante de 0.10. Esto es así para niveles de ingreso de $ 8.000; $15.000 o $50.000. Esto no parece ser realista.
Para ingresos muy bajos una familia no poseerá una casa, pero a un nivel de ingresos suficientemente alto, por ejemplo $a es muy probable que ésta sí posea una casa. Cualquier aumento en el ingreso más allá de $a tendrá un efecto pequeño sobre la probabilidad de poseer una casa. Así a ambos extremos de la distribución de ingresos, la probabilidad de poseer una casa no se verá afectada, virtualmente, por un pequeño incremento en X .
Para solucionar estos problemas se presentan a continuación los modelos Logit y Probit (Normit).
714
17.3 Modelo Logit
Para desarrollar la metodología del modelo Logit, se trabajará con el ejemplo de propiedad de la vivienda.
Ahora se considerará la siguiente especificación
ttt XY 21
z
z
zXtie
e
eeXYEPY
t
11
1
1
11
)( 21
donde
X es el ingreso
1Y significa que la familia es propietaria de una casa
z
z
e
e
1 representa la probabilidad de que el evento se presente.
Por simplicidad, se escribe la ecuación de la siguiente manera:
izie
P
1
1; donde i21i Xz ˆˆ
Esta última ecuación representa lo que se conoce como función de distribución logística (acumulativa).
Es fácil verificar que mientras iz se encuentra dentro de un rango de a
, iP se encuentra dentro de un rango de 0 a 1 y que iP no está
linealmente relacionada con iz (es decir, con iX ), satisfaciendo así los dos requerimientos considerados anteriormente.
Obsérvese, a medida que
iz , 0 ize
iz , ize aumenta indefinidamente1.
1 Recuerde de que e=2.71828
715
Ahora bien, se consigue satisfacer los dos requerimientos, pero se crea un problema de estimación porque iP no es solamente no lineal en las X sino también en los , como puede verse a partir de la ecuación del modelo.
Esto significaría que no se puede utilizar MCO para estimar los parámetros. Pero, este problema es más aparente que real ya que el modelo es intrínsecamente lineal, lo cual puede verse de la siguiente manera.
Si el evento se presenta izi
eP
1
1
Si el evento no se presenta la probabilidad es zi
eP
1
11
La razón de probabilidad a favor del evento bajo estudio se expresa como
z
z
z
z
i
i e
e
e
e
P
P
1
11
1
Ejemplo. La razón de probabilidades a favor de poseer una casa se interpreta como la probabilidad de que una familia posea una casa a la probabilidad de que no la posea. Así si 8.0iP significa que las probabilidades son 4 a 1 a favor de la familia que posee una casa.
Tomando logaritmo natural de la razón de probabilidades
tiz
i
ii XZeIn
P
PlnL i
211
L es denominado logit, es lineal en X y lineal en los parámetros:
Si 0L a valores crecientes de X , se incrementa la probabilidad de ocurrencia del evento
Si 0L a valores crecientes de X , disminuye la probabilidad de ocurrencia del evento
A continuación se enuncian los aspectos que caracterizan al modelo Logit:
716
1. A medida que P va de 0 a 1 (cuando Z varía de a ) el Logit L va de a . Es decir, aunque las probabilidades (por necesidad) se encuentran entre 0 y 1, los Logit no están limitados en esa forma.
2. Aunque L es lineal en X, las probabilidades en sí mismas no lo son. Esta propiedad hace contraste con el MLP en donde las probabilidades aumentan linealmente con X.
3. Utilizando el cálculo, puede demostrarse que )1( PPdXdP ii , lo cual muestra que la tasa de cambio en la probabilidad con respecto a X contiene no solamente a i sino también al nivel de probabilidad a partir del cual se mide el cambio. A propósito, obsérvese que un cambio unitario en iX sobre P es máximo cuando 5.0P y mínimo cuando P está cercano a 0 o a 1.
4. La interpretación del modelo LOGIT es la siguiente: i , la pendiente,
mide el cambio en L ocasionado por un cambio unitario en iX . En el ejemplo, como el logaritmo de las probabilidades a favor de poseer una casa cambia a medida que el ingreso cambia en una unidad (supongamos, $1.000). El intercepto 1 es el valor del logaritmo de las probabilidades a favor de poseer una casa si el ingreso es cero.
5. Dado un nivel de ingreso determinado, por ejemplo $a, si realmente se desea estimar la probabilidad misma de poseer una casa, y no las probabilidades a favor de poseer una casa, esto puede hacerse directamente a partir de la primera ecuación una vez de que se disponga de las estimaciones de 1 y 2 .
6. Mientras que el MLP supone que iP está relacionado linealmente con iX , el modelo LOGIT supone que el logaritmo de la razón de probabilidades está relacionado linealmente con iX .
Estimación del modelo
A fines de la estimación el modelo se especifica
tti
ii X
P
PL
211ln
Para estimar el modelo, además de los valores de iX , se necesitan los
valores del logit iL pero se incurre en algunas dificultades. En el caso del ejemplo (y en otros similares) si existe información disponible sobre familias individuales, entonces 1iP si una familia posee una casa y 0iP si una familia no la posee. Pero si se colocan estos valores directamente en el logit iL se obtiene
717
0
1lniL si una familia posee una casa
1
0lniL si una familia no posee una casa.
Ambas expresiones carecen de sentido.
Por consiguiente, si la información disponible está a nivel micro o individual, no se puede estimar el modelo mediante la rutina del método de mínimos cuadrados ordinarios. En esta situación puede ser preciso recurrir a máxima verosimilitud.
Estimación con datos agrupados
La información se agrupa siguiendo algún criterio y se estima por mínimos cuadrados ordinarios. En el ejemplo de familias propietarias de viviendas, la información puede agruparse según el nivel de ingresos.
1. Para cada nivel de ingreso iX calcular la probabilidad estimada de
poseer una casa como
i
ii N
nP ; es decir la frecuencia relativa. Se
puede utilizar ésta como una estimación del verdadero iP
correspondiente a cada iX . Si iN es relativamente grande, iP será una
estimación razonablemente buena de iP (de la estadística elemental recuerde que la probabilidad de un evento es el límite de la frecuencia relativa a medida que el tamaño de la muestra se hace infinitamente grande).
718
2. Utilizando iP estimado, se puede obtener el Logit estimado como
ti
ii X
P
PL 21
ˆˆˆ1
ˆlnˆ
3. Por lo tanto, dada la información agrupada o replicada (observaciones repetidas), se puede obtener información sobre la variable dependiente, los Logit.
4. La interpretación se realiza de la siguiente manera:
i
ii P
PL
1ln
al tomar antilogaritmo a esta expresión se obtiene la razón de
probabilidades i
i
P
Pˆ1
ˆ
Pero z
i
i eP
P
1 esto significa que tX
i
i eP
P221 ˆˆ
ˆ1
ˆ
Al resultado de evaluar ze se le resta 1 y se lo multiplica por 100, este resultado es el cambio porcentual a favor de la ocurrencia del evento ante el cambio en algún regresor.
5. Si se quiere calcular la probabilidad P se debe hacer
z
z
iiz
iz
i
i
e
ePPePe
P
P
11
1
6. Puede demostrarse que si iN es relativamente grande y cada
observación en una clase de ingreso dado iX está distribuida en forma independiente como una variable binomial, entonces
iii
i PPNN
1
1,0
por consiguiente, como en el caso del MLP, el término de perturbación es heterocedástico y habrá que utilizar MCP. En esta situación se usará la siguiente transformación del modelo
iiiiiiii WXWWLW 1
que se escribe como: iiiii XWL 1
donde iiii PPNW ˆ1ˆ es el coeficiente que pondera
719
iL es igual a iL ponderada
iX es igual a iX ponderada
i es el término de error ponderado homocedástico
7. Estímese la ecuación transformada mediante MCO. Tenga en cuenta que en esta ecuación no hay término de intercepto introducido explícitamente, por lo que se tendrá que usar el procedimiento de regresión a través del origen.
8. Establézcanse intervalos de confianza y/o pruebas de hipótesis dentro de lo usual para MCO, cuyos resultados serán válidos sólo para muestras relativamente grandes.
Aunque paquetes tales como el EVIEWS estiman directamente estos modelos, apliquemos el razonamiento anterior para comprender algunos resultados.
La estimación por MCP sin ordenada al origen da:
Esto es,
iii XWL 0787.05932.1ˆ
El intercepto estimado es iiii PPN ˆ1ˆ
Como muestra esta regresión, el coeficiente de pendiente estimado sugiere que para un incremento unitario ($1.000) en el ingreso ponderado, el logaritmo ponderado de las probabilidades a favor de poseer una casa aumenta en alrededor de 0.08.
720
Tomando antilogaritmo de 0.0787, se obtiene aproximadamente 1.0818, lo cual significa que para un incremento unitario en los ingresos ponderados, las probabilidades ponderadas a favor de poseer una casa aumentan en 1.0818 o alrededor de 8.18%.
¿Se puede calcular la probabilidad de poseer una casa, dado el ingreso, a partir de la razón de probabilidades?
Este cálculo puede hacerse fácilmente. Supóngase que se desea estimar la probabilidad de poseer una casa para el nivel de ingreso de $20.000. Se tiene el dato observado en la Tabla 16.1 para la observación 6, donde
20ix , 70iN y 36in , y la estimación que surge de la Tabla 16.1.
*078669,0593238,1ˆii xwL (1)
Se debe tener en cuenta que
181592,470
34
70
3670ˆ1ˆ iii PPNw (2)
wxx ii *
Si 20x entonces 63184,83181592,420* ix (3)
Reemplazando (2) y (3) en (1) 083038,0* iL
Pero wLL ii * , por lo que 019858,0
*
w
LL i
i .
Ahora bien, i
ii P
PL
1ln
Tomando el antilogaritmo de iL
i
iP
P
i P
PeLanti i
i
1log 1
ln
(4)
Es decir, 980338,0log 019858,0 eLanti i (5).
Igualando (4) y (5) se obtiene
495036.0ˆ980338.0ˆ1ˆ iii PPP
Es decir, la probabilidad de que una familia con un ingreso de $20.000 posea una casa es de alrededor de 0,50.
721
Estimación con datos individuales
Dado el modelo
tktkti XXL 221
El modelo estimado con datos individuales por Logit será
ktkti XXL ˆˆˆˆ221
Este resultado se interpreta de la siguiente manera. En primer lugar debe tenerse en cuenta que
i
ii P
PL
ˆ1
ˆln
Al tomar antilogaritmo en la expresión anterior, tendremos la razón de probabilidades:
ktkti
i
XXz
i
iP
P
i eeP
PeLanti
221
ˆ1
ˆlog
ˆ1
ˆln
Para encontrar la probabilidad de ocurrencia del evento dado que las variables explicativas se comportan de una manera determinada, se procede de la siguiente manera:
z
z
i
iz
iz
i
i
e
eP
PePeP
P
1
11
Habitualmente, para encontrar el valor de z se le asigna a las variables cuantitativas el valor medio; con las cualitativas se trabaja asignando el valor 1 o el valor 0, de acuerdo a que se quiera encontrar la probabilidad del evento cuando la cualitativa está presente o ausente.
La tasa marginal de cambio en la probabilidad de ocurrencia del evento ante cambios en las variables explicativas cuantitativas viene dado por:
PPdX
dPi
i
ˆˆ1ˆ
722
17.4 Modelo Probit
Como se ha mencionado, para explicar el comportamiento de una variable dependiente binaria, es preciso usar una función de distribución acumulada seleccionada apropiadamente.
Para el caso del modelo Logit se usó la función logística acumulativa.
La función de distribución acumulada normal también brinda utilidad a estos efectos.
El modelo de estimación que surge de una función de distribución acumulada normal se conoce como modelo Probit o Normit.
Por ejemplo, supóngase que la decisión de la i–ésima familia de poseer una casa o de no poseerla depende de un índice de conveniencia no observable
iI , que está determinado por una o varias variables explicativas, por
ejemplo, el ingreso iX , de tal manera que cuando mayor sea el valor del índice, mayor será la probabilidad de que la familia posea vivienda.
De esta manera:
ii XI 21
¿Cómo se relaciona el iI no observable con la decisión de poseer una casa?
Igual que antes, sea 1Y si la familia posee una casa e 0Y si no la posee.
Ahora bien, es razonable suponer que para cada familia hay un nivel crítico o umbral del índice, que se puede denominar
iI , tal que si
ii II
la familia poseerá una casa, de lo contrario no lo hará.
Si se supone que el índice y el umbral se distribuyen normales con igual media y varianza, será posible estimar los parámetros del modelo y obtener alguna información adicional.
Dado el supuesto de normalidad, la probabilidad de que iI sea menor o
igual que iI puede ser calculada a partir de la FDA normal estandarizada como
ii X tI tiiii dtedteIFIIYP
21 22 2/2/
2
1
2
1Pr1Pr
723
donde t es una variable normal estandarizada, es decir t ~ N(0,1).
Ahora, para estimar el modelo, deberá tenerse en cuenta que:
i21i1
i XPFI
Al igual que el logaritmo de la razón de probabilidades (en el modelo Logit), la inversa de la FDA normal sirve para hacer lineal al modelo Probit.
De esta forma el modelo a estimar resulta de conocer las probabilidades, en este caso
ttii XPFI 21
1 ˆ
Luego, aplicar MCP.
Notas:
La perturbación i , al igual que antes, es heterocedástica. Se puede
demostrar que su varianza está dada por 22 /1 iiii fNPP donde 2if
es la función de densidad normal estándar evaluada en iPF 1 . Por lo tanto, habrá que ponderar el modelo para aplicar mco.
La variable no observable es conocida como desviación equivalente normal o simplemente normit. Puesto que normit será negativo siempre que 5.0iP , en la práctica se agrega el número 5 al normit y el resultado se denomina probit.
Los dos métodos presentados son bastante similares, generalmente por conveniencia matemática se prefiere el logit. Pero como lo sugieren algunos autores una estimación logit de un parámetro multiplicada por 0.625 proporciona una aproximación relativamente buena de la estimación probit del mismo parámetro.
También, se puede demostrar que LogitMPL 25.0 , excepto para el
intercepto. 5.025.0 LogitMPL , para el intercepto.
Todas las aproximaciones anteriores funcionan bien cuando el valor promedio de la probabilidad de que suceda el evento no este lejana de 0.5.
Se debe tener cuidado al interpretar el coeficiente de pendiente. En el mpl el coeficiente de pendiente mide directamente el cambio en la probabilidad de que ocurra un evento como resultado de un cambio unitario en el valor del regresor. En el logit la tasa de cambio en la
724
probabilidad está dada por iij PP 1 donde j es el coeficiente del j–
ésimo regresor. En el probit, la tasa de cambio en la probabilidad es algo complicada y está dada por ij z , donde es la función de
densidad de la variable normal estándar y donde
kikii XXz 221 o sea, el modelo de regresión utilizado en el análisis.
En síntesis, dado el modelo
tktktt XXY 221
la estimación por Probit es
ktttt XˆXˆˆI 221
En el modelo Probit, la probabilidad de que ocurra el evento viene dad por
ktttktttit*ii XˆXˆˆFXˆXˆˆzPIIPXYPP 2212211
z es la variable normal estándar y F es la función de distribución normal estándar
La contribución de cada variable cuantitativa viene dado por
iiktkti
zfXXfdX
dP ˆˆˆˆˆ221
17.5 Modelo Tobit
Es una extensión del modelo Probit, desarrollado por el Nobel J. Tobin.
Continuando con el ejemplo de la vivienda, supóngase ahora que se desea encontrar la cantidad de dinero que el consumidor gasta en comprar una casa en relación con su ingreso (y otras variables económicas).
Ahora se tiene un problema: si un consumidor no compra una casa, obviamente no se tiene información sobre el gasto en vivienda, se tiene tal
725
información solamente sobre los consumidores que efectivamente compran casa.
Por lo tanto se tiene dos grupos de consumidores. Unos, digamos 1n sobre quienes se posee información sobre los regresores y la variable dependiente y otros, supongamos 2n sobre quienes solamente se tiene información sobre los regresores.
Cuando en una muestra la información para la variable dependiente está disponible solamente para algunas observaciones, ésta se conoce como muestra censurada. Por consiguiente el modelo Tobit también se conoce como modelo de regresión censurada.
En términos matemáticos se puede expresar el modelo Tobit como
iii XY 2221 ; si Y tiene datos
0iY ; en los demás casos
Ante esta situación el modelo sólo se puede estimar por Máxima Verosimilitud, ya que el término de error no cumple con la propiedad de media nula. Esto se debe a que sólo se incluyen en la muestra las observaciones para las cuales ii X 222 , que puede verse si se escribe el modelo en forma de desviaciones.
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS
Caso 17.1: Vulnerabilidad social en los hogares de Río Cuarto
El objetivo del trabajo es identificar los fenómenos de mayor impacto en la determinación de la vulnerabilidad en la ciudad de Río Cuarto
El diccionario de la Real Academia Española define vulnerable como aquel que puede ser herido o recibir una lesión física o moral
Roberto Pizarro2, consultor de la División de Estadística y Proyecciones Económicas de CEPAL, define la vulnerabilidad social como un estado de inseguridad e indefensa que experimentan los individuos en sus condiciones de vida, en el manejo de recursos y en las estrategias que utilizan para enfrentar las consecuencias del impacto provocado por algún tipo de evento económico social
2 Pizarro, Roberto (2001). La vulnerabilidad social y sus desafíos. Una mirada desde América Latina. Estudios Estadísticos y Prospectivos. Serie 6. CEPAL
726
La población estudiada consta de 1686 hogares que tienen bebés nacidos en el año 2005. Las características cualitativas medidas en estos hogares reúnen 527 modalidades.
Dado que la vulnerabilidad es un concepto multidimensional, se optó por realizar un análisis factorial de correspondencia múltiple utilizando 90 variables activas con 381 modalidades asociadas y 9 variables ilustrativas con 146 modalidades asociadas. La partición del espacio de observación y la posterior clasificación de los hogares dio lugar a la conformación de 9 grupos, tal como puede observarse en el Gráfico.
Vulnerabilidad Social
Baja-Baja14,35%
Baja-Media18,98%
Baja-Alta10,26%
Media-Baja3,14%
Media-Media4,45%
Media-Alta8,78%
Alta-Baja5,58%
Alta-Media25,62%
Alta-Alta8,84%
Los hogares que forman los grupos de vulnerabilidad alta (segmentados en los subgrupos Alta-Alta, Alta-Media y Alta-Baja) se caracterizan por tener
•Baja edad y bajo nivel educativo de la madre y situaciones de maternidad en cuasi-soledad
•Alto número de hijos, aun en madres muy jóvenes, y comienzo tardío en la atención durante el embarazo
•Hogares numerosos con alto número de menores de 15 años, bajos ingresos con pocos aportantes por hogar, no hay aportes jubilatorios del jefe de hogar y se observan jóvenes entre 15 y 24 años que no estudian ni trabajan.
•Presentan déficit en la infraestructura sanitaria de la vivienda, no cuentan con gas natural, y se proveen de energía eléctrica de manera irregular, no son propietarios, los hogares tienen hacinamiento
•Están expuestos a riesgos por accidentes con electricidad, los bebés carecen de identificación y no cuentan con cobertura de salud
•Los barrios Alberdi, Banda Norte y Santa Teodora es la ubicación geográfica de estos grupos.
Además se observó que existían variables comunes a todos los grupos, independientes del nivel de vulnerabilidad; estas eran
•Edad de la madre
727
•Edad de la madre al tener el primer hijo
•Existencia de baño en la vivienda
•Provisión de agua potable
•Cantidad de cuartos
•Número de integrantes del hogar
•Ingreso del hogar
•Ingreso per cápita mensual
•Personas que aportan ingresos
Ahora bien, ¿qué nivel de impacto tienen estos factores en los niveles de vulnerabilidad de los hogares?
Para responder a esto se provee de la Tabla 16.1 que contiene:
Unidades de observación: 1549 hogares con hijos nacidos en 2005
Características observadas
Altavul: 1 pertenencia a grupo de alta vulnerabilidad 0 no pertenencia a grupo de alta vulnerabilidad
MAD: 1 madre adolescente 0 madre adulta
Edad: edad actual de la madre (variable continua)
NBI: 1 hogar con NBI 0 hogar sin NBI
AI: cantidad de personas que aportan ingresos en el hogar (variable continua)
IM: ingreso mensual del hogar (variable continua)
IPC: ingreso per cápita diario (variable continua)
Se solicita
la estimación a través del Modelo Logit y el Modelo Probit
realizar comparaciones entre los resultados de ambos modelos
BIBLIOGRAFIA
Gujarati, D. (2004) "Econometría". 4°Edición. Mc.Graw Hill. México.
Capítulo 18. SISTEMAS DE RELACIONES LINEALES SIMULTANEAS ............................................................... 717
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS ............ 730
Caso 18.1: Las relaciones macroeconómicas de la responsabilidad social corporativa. ................................................................. 730
Capítulo 18. SISTEMAS DE RELACIONES LINEALES SIMULTANEAS
18.1. Introducción
Hasta ahora nos hemos concentrado exclusivamente en la estimación de relaciones lineales únicas de variables económicas. Es de saber que la mayor parte de los estudios económicos basan sus teorías en modelos con varias ecuaciones, en forma de sistemas de relaciones económicas. Como veremos, cuando una relación es parte de un sistema, algunos regresores serán estocásticos y no serán independientes de las perturbaciones. Entonces la estimación clásica por mínimos cuadrados será inconsistente y deberemos desarrollar procedimientos especiales para estimaciones consistentes.
Tomemos el caso, por ejemplo, de los siguientes modelos:
Modelo keynesiano simple
Modelo simple de mercado
18.2. Modelo Keynesiano Simple
Quizá el modelo más familiar en los libros de economía es el sistema keynesiano simple
tt YC )1(
ttt ICY )2(
Donde,
C : Consumo;
Y : Renta;
I : Inversión
t : Unidades de observaciones (temporales o transversales), Tt ,,1
La interpretación típica de este modelo es que (1) representa la ecuación de comportamiento de los consumidores y que (2) es una condición de
equilibrio que iguala el ahorro )( CY a la inversión; y que la inversión es
718 autónoma. Esto es, dada una inversión el modelo determina los valores de equilibrio del consumo y de la renta. Se ve que tanto el consumo como la renta dependen de la inversión. Eso es, si resolvemos el sistema, sin tener en cuenta los subíndices:
IC
11
)3(,
IY
1
1
1)4(
Hasta aquí el modelo es exacto y, por tanto, obviamente incongruente con una descripción empírica de la economía. Una formulación econométrica del sistema es,
ttt YC )5(
ttt ICY )6(
Donde ε es el vector de orden 1T que representa a la perturbación aleatoria con,
tstsEEE sttt ;,0)(,)(,0)()7( 22 todopara
Para mantener la idea que la inversión es autónoma determinada fuera del sistema, se supone que,
).,,1;,,1()8( TsTtI tt ntesindependiesony
Tenemos ahora la dependencia explícita de ysobree IYC , resolviendo el sistema
ttt IC
1
1
11)9(
ttt IY
1
1
1
1
1)10(
Dada una muestra de observaciones conjuntas sobre IYC e, , nuestro interés se basa en estimar los parámetros de la función consumo (5). Ahora bien, en esa ecuación el regresor y la perturbación no son estadísticamente independientes, ni temporal ni contemporáneamente. Se puede encontrar la
covarianza de εY y multiplicando (10) por t y tomando esperanzas:
719
(8).y (7) utilizando,01
1
)(1
1)(
1
1)(
1)()11(
2
2
tttttt EIEEYE
Así para la estimación de (5) MCO no produciría estimaciones consistentes.
Vamos a considerar esto explícitamente. El estimador clásico de en (5) es
T/)YY(
T/)YY(
)YY(
)YY(
)YY(
)YY()YY([
)YY(
)YY)(YY(
)YY(
)YY)(CC(b)(
2
22
2
2212
Ahora bien, TYY /)(
es la covarianza muestral, así que bajo condiciones generales1
21)1()()()(
lim)13(
tttt YEYE
T
YYP
Similarmente, TYY /)(2 es la varianza muestral, que bajo condiciones
generales
yytt YEYEYEYET
YYP
222
)]([)]([)(
lim)14(
Entonces,
yy
bP
21)1(
lim)15(
Por lo que el estimador MCO no sería consistente. Realmente está clara la dirección del sesgo asintótico si empleamos la información económica de que la propensión marginal a consumir está entre cero y uno: con
.lim,10 bP
También es informativa una expresión distinta del sesgo. Como yI no
están correlacionados (10) implica
1 Observación 1. Ver apuntes de Distribuciones asintóticas descriptos en Inferencia Estadística.
720
)()1(
)()](([)1()]([)()16(22
222
ii
tYY EIEIEYEYEYVar
Introduciendo esto para yy en (15), encontramos
2
2
22
21
)1()()1(
)1(lim)17(
iiii
bP
Nuevamente con .lim,10 bP Más aún, bP lim será grande cuando la varianza de las perturbaciones es grande en relación con la varianza de la inversión. Una interpretación heurística del resultado es que la regresión clásica MCO del consumo sobre la renta da crédito a la renta debido al efecto de las perturbaciones puesto que éstas están correlacionadas positivamente con la renta.
Otra forma de mirar el resultado es considerando que MCO pueden suministrar estimaciones consistentes cuando los parámetros en las relaciones son los parámetros de la esperanza condicionada del regresando dados los regresores. Pero no es este el caso en (5), ya que
)|()|()18( ttttt YEYYCE
Pero, 0)()|( ttt EYE
Aunque, esta forma de mirar el resultado nos recuerda que los MCO deberían ser apropiados para resolver las relaciones (9) y (10). Esto es (9) cae bajo el modelo de regresión lineal estocástico independiente; obsérvese
t
ttttt
I
IEIICE
11
|1
1
11)|()19(
Supongamos entonces que estimamos por MCO, esto es
ttt IC 10)20(
Donde,
tt
1
1,
1,
1)21( 10
Designando las estimaciones MCO de 10 , como 10 , pp , los cuales son consistentes, ya que
1lim,
1lim)22( 1100 pPpP
721 Observación 2. Aquí hemos utilizado el resultado más general dado de la siguiente manera: En el modelo de regresión lineal, se ha expuesto hasta ahora que las variables explicativas, eran fijas o no estocásticas en muestras repetidas. Este supuesto puede ser apropiado para experimentos de laboratorio, en los que el investigador, tiene el control sobre las variables explicativas, pudiendo fijar el valor de las mismas y observar los resultados obtenidos para la variable endógena en experimentos repetidos, o en el caso de las variables que construimos artificialmente, como pueden ser las tendencias lineales o las variables ficticias. Pero en economía, las variables explicativas no están, en general, sujetas a control y tanto las variables endógenas como los regresores, son el resultado de un determinado sistema económico-social. Por lo tanto, ambos tipos de variables, son estocásticos por naturaleza. Si estamos analizando la relación entre consumo y renta y el parámetro de interés, es la propensión marginal a consumir, no podemos suponer que la variable explicativa renta, sea fija, ya que tanto el consumo como la renta vienen determinados por el mismo sistema económico-social y son aleatorias. Bajo esta nueva situación, vamos a analizar si los métodos de inferencia desarrollados se pueden aplicar todavía y, en caso contrario, de qué métodos de estimación alternativos disponemos. Sea el método de regresión lineal general en el que se cumplen los supuestos habituales, pero donde ahora la matriz de regresores X, es estocástica. Los coeficientes de regresión, se pueden estimar aplicando el criterio MCO:
X´uX´XβX´Y´XXβ11
ˆ Podemos observar que este estimador ya no es una combinación lineal de las perturbaciones, sino que es una función estocástica no lineal de X y u, por lo tanto, sus propiedades dependerán de la distribución conjunta de estas. Por ejemplo, si queremos comprobar si el estimador es insesgado, hemos de calcular su valor medio: ][ˆ uX´X´XEββE
1
Para poder obtener ][ uX´X´XE1
, deberíamos conocer la distribución conjunta de las variables aleatorias X y u. Bajo el supuesto de regresores fijos, el problema se soluciona fácilmente: uEX´X´XuX´X´X
11 ][E
Y este valor medio es cero, dado que E (u) = 0. Cuando los regresores son estocásticos, esta igualdad ya no se cumple y es preciso contar con la distribución conjunta de X y u, para poder derivar propiedades de los estimadores β , así como las distribuciones de los estadísticos de contraste habituales. Una forma de enfocar este problema, es utilizar la distribución de Y condicionada a las X. La función de distribución conjunta ),;,(
2XYf , la podemos escribir como:
),(),;|(),;,(22 XfXYfXYf
Si nuestro interés se centra en los parámetros de la distribución condicionada 2,
y estos no están relacionados con los parámetros de la distribución marginal, , podemos olvidarnos de ella y considerar solo la distribución de Y condicionada a uno de los valore fijos de las variables X. El modelo de regresión lineal general condicionado a X, se puede escribir como:
uβXY Donde:
TI2σ0,NXu
TkXρTI
2σXuu´ETOXuE
|
|
|
Podemos derivar los siguientes resultados condicionados: βXuX´EX´XβXX´uX´XEβXβE
11 )|()(]|)[()|ˆ()1(
2ob
722 De la misma forma, podemos demostrar que:
2
u
2
u
1121
11
11
σXσE
X´X2
σX´XXTIσX´X´X
X´XXXuu´EX´X´X
XX´XXuu´X´X´XEXβV
|ˆ
|
||ˆ)2(2ob
Un estimador insesgado de la varianza condicionada de los estimadores, viene dado por:
12X´XσXβV
ˆ|ˆˆ
El estimador β , no es un estimador lineal, sino una función estocástica no lineal en X e Y, por lo que estrictamente hablando no podemos aplicar el teorema de Gauss-Markov y decir que es ELIO. Sin embargo, si consideramos la varianza del estimador como condicional a valores dados de X, entonces el estimador es eficiente. Por otro lado, la distribución de β condicionada a los regresores X, es:
])([|ˆ 12X´Xσβ,NXβ
Y los estadísticos de contraste de la significatividad individual y conjunta, condicionados a X, siguen teniendo una distribución t de Student y F de Snedecor, respectivamente. De esta forma, aunque en principio las variables X son variables aleatorias, si condicionamos nuestro análisis a unos valores fijos de estas, los resultados dependen de los valores concretos que tomen estas variables en la muestra. El problema se plantea cuando nos encontramos con situaciones en las que los regresores son estocásticos y no tiene sentido realizar un análisis condicionado a unos valores fijos de X. Para ilustrar en que situaciones no podemos hacer este supuesto, vamos a considerar tres ejemplos:
a) Supongamos el siguiente modelo de regresión: TttuYY tt
ob,,2)3( 1
2
En este modelo aparece como regresor, la variable dependiente retardada un período. Dado que TYY ,,1 , son variables aleatorias, el regresor
1tY , es una
variable aleatoria. En esta situación, la matriz ]Y[1X 1t , es estocástica. Por
otro lado, no podemos realizar el análisis condicionado a unos valores fijos de TtY ,,21, , ya que no tendría sentido porque es el propio modelo estocástico
es el que indica cómo se generan. b) Dado el siguiente modelo de regresión:
TtttXYtob
,,1)4(*2
Supongamos que no se observa X*, ya que es una variable difícil de cuantificar o medir. En su lugar, observamos la variable X, tal que:
TtttXtX ,,1*
Donde t, es una variable aleatoria que recoge el error de medida en t. En esta situación
tX es una variable aleatoria aunque consideramos *
tX como fija. Por lo
tanto, el modelo en términos de X , sustituyendo *
tX por
tX , queda:
TttutXYtob
,,1)5(2
Donde tttu , es el término de perturbación que recoge, además de t , el
error de medida t .
El modelo (5)ob2, es equivalente al (4)ob2, pero donde el regresor TtX t ,,1, es
una variable aleatoria. Tampoco podemos hacer, en este caso, un análisis
723
condicionado a unos valores fijos de X, ya que hipótesis sobre )|()|( Xuu´EXuE ,
no tendrían sentido, dado que u, es función de y X. c) Supongamos que se quiere estimar los parámetros de la siguiente
ecuación de demanda de un bien: TttutPQt
ob,,1)6(
2
Donde Q, es la cantidad de demandada y P, es el recio. Dado que en el momento t, observamos cantidad y precio de equilibrio, ambas variables se determinan simultáneamente en el mercado. Luego tanto Q como P, son variables endógenas. Si en t, se produce un shock en la demanda de este bien debido, por ejemplo, a un cambio en gustos de los consumidores, recogido por
t , se generaría un cambio en t, tanto de la cantidad demandada, tQ como el
precio. En este contexto, tanto la variable dependiente como el regresor, se determinan simultáneamente, por lo que ambas variables tt PQ , son aleatorias.
Este es otro ejemplo donde la matriz de regresores P][1X es estocástica. Por
otro lado, tampoco tiene sentido realizar el análisis condicionado a TtPt ,,1, ,
dado que Pt se determina simultáneamente a tQ .
En todos estos casos es aconsejable utilizar el Modelo de Regresión Lineal con Regresores Estocásticos, para demostrar su utilización, consideremos el modelo lineal siguiente:
TIσO,NuuβXY
2;
Donde al menos uno de los regresores, es una variable aleatoria, siendo, por lo tanto, la matriz ]XX[1X
k2 estocástica. Los estimadores y estadísticos derivados en el modelo de regresión lineal clásico, son función de las variables aleatorias X y u, por lo que será importante conocer las características estocásticas de ambos conjuntos de variables aleatorias y cómo se relacionan. Regresores independientes de la perturbación Cuando las variables aleatorias itX y t son independientes, para todo i = 1, ..., k
y t = 1, ..., T, la función de densidad marginal de ),( 1 ktt XX no depende de los
parámetros (, 2) para todo t. Bajo los supuestos habituales sobre las perturbaciones del modelo, aún podemos derivar analíticamente algunas propiedades para muestras finitas del estimador MCO de : es insesgado y su matriz de varianzas y covarianzas, alcanza la cota de Cramer-Rao, con lo que es eficiente dentro de los estimadores insesgados de . Se puede demostrar fácilmente que el estimador MCO, es insesgado y obtener su matriz de covarianzas, si tomamos esperanzas sobre X en las expresiones (1)ob2 y (2)ob2, utilizado el resultado:
1211
1
X´XEσX´XXXuu´|EX´X´XEβV
βX|uEX´X´XβEX|βEEβE
XX
XX
ˆ
ˆˆ
| baEEaE b
Donde 1X´XEX
)( es la matriz de covarianzas poblacional de los regresores calculada
en la distribución marginal de X. Sin embargo, no conocemos la distribución exacta de los estimadores MCO. En particular, no siguen una distribución normal aun suponiendo que itX siga una
distribución normal i, t. Esto se debe a que este estimador, es una combinación no lineal de las variables aleatorias X y u. Como consecuencia, los estadísticos de significación individual y conjunta, no tienen una distribución exacta conocida y en particular no se distribuirán como una t de Student y una F de Snedecor,
724 respectivamente. Ahora bien, bajo los supuestos habituales y si además se satisface que:
positiva,definidafinita,matrizunaesdonde QQX´X
,lim)7(2
Tp
ob es posible derivar las
siguientes propiedades asintóticas para los estimadores MCO, utilizando los teoremas de Mann-Wald y Cramer:
1) El estimador por MCO de es consistente, es decir: kiiip ,,1,ˆlim
2) )()ˆ(12
QσO,ββ NT
d 3) Bajo la hipótesis nula H0: R = r los estadísticos t y F usuales, se distribuyen
asintóticamente como )1,0(N y 2q , respectivamente, donde q, es el número de
restricciones. Por lo tanto, podemos utilizar estas distribuciones asintóticas para aproximar la distribución exacta de los estadísticos de significatividad individual y conjunta, si el tamaño de la muestra es grande. El supuesto de independencia entre los regresores y el término de perturbación, no se satisface en los ejemplos a), b) y c). Luego este supuesto sigue siendo bastante restrictivo, en muchas ocasiones.
Incorrelación contemporánea Si las variables aleatorias itX y t no son independientes, aunque estén
incorrelacionadas contemporáneamente, esto es, ittuitXE ,,0)( , no podemos
derivar analíticamente propiedades para muestras finitas de los estimadores: ])[()ˆ( uX´X´XEββE
1
En general, ])[( uX´X´XE1 puede ser distinto de cero, con lo cual β puede ser
sesgado. Por otro lado, el cálculo analítico de la matriz de varianzas y covarianzas, es difícil debido a la no linealidad del estimador en X y u. Finalmente, no conocemos su distribución exacta. En particular, no siguen una distribución normal aun suponiendo que itX se distribuye normal i, t. Como consecuencia, los
estadísticos, no tiene una distribución exacta conocida. Respecto a las propiedades asintóticas de los estimadores MCO, bajo los supuestos habituales más el 2
)7(ob y
aplicando los teoremas de Mann-Wald, Slutzky y Cramer, se pueden demostrar los resultados asintóticos. En este contexto, se enmarcaría el ejemplo a) si t ),0(
2N . En este caso,
11 ,, TYY no son variables aleatorias independientes de T ,,1 . Sin embargo, si
ststE 0)( , entonces se satisface que tttYE 0)1( . Por lo tanto, regresor y
perturbación, están contemporáneamente incorrelacionados. Correlación contemporánea Supongamos que algunos de los regresores están correlacionados contemporáneamente con el término de perturbación, es decir
ittuitXE algúnmenosalparay ,0)( . En este caso, por las mismas razones que en el
anterior, no es posible derivar ninguna propiedad en muestras finitas de los estimadores MCO. Además, perdemos las propiedades asintóticas deseables. No se satisface una de las condiciones del teorema de Mann-Wald, por lo que, en general, el estimador MCO no va a ser consistente, ni va a distribuirse asintóticamente como una normal. Esto nos lleva a que, bajo la hipótesis nula H0: R = r, los estadísticos t y F, no se distribuyen asintóticamente como una )1,0(N y 2
q , respectivamente. Por
725 lo tanto, no disponemos de una distribución asintótica para aproximar la distribución exacta de estos estadísticos, si el tamaño de la muestra es grande. Estas graves consecuencias, hacen necesario buscar un método de estimación alternativo al de MCO, con el que se obtengan al menos estimadores con propiedades asintóticas deseables y que permita derivar estadísticos con distribuciones asintóticas conocidas para contrastar hipótesis sobre el vector de coeficiente . Este supuesto de correlación contemporánea entre regresor y perturbación, es de gran relevancia en la estimación de muchos modelos econométricos. Por ejemplo, los casos b) y c), se enmarcan en este contexto. En el ejemplo b), el término de perturbación del modelo (5)ob2, recoge el error de medida t que está correlacionado con
tX dado que TtttXtX ,,1
* .
Luego, aun suponiendo que: 0)(0)(* ttXEyE tt
0)()])([()(* tVttttXEtutXE
En el ejemplo c), la variable tP se determina simultáneamente con tQ por lo que si
t recoge factores que afectan a tQ , estos afectarán simultáneamente a tP y
.,0)( ttutPE
Continuando con el modelo Keynesiano, (21) sugiere que llamemos a la
estimación de por , definido por )ˆ1(ˆ1 p , esto es
1
1
1ˆ)23(
p
p
En presencia de la observación 2, realmente es consistente
)1/(1
)1/(
)1lim(
limˆlim)24(1
1
pP
pPP
Igualmente (21) sugiere que llamemos a la estimación de por , definido por )ˆ1(ˆ0 p , esto es
)ˆ1(ˆ)25( 0 p
Realmente es consistente
)1(
)1()ˆ1lim(limˆlim)26( 0PpPP
Debe observarse que aunque 10 , pp son insesgados ˆ,ˆ , que son funciones
no lineales de 10 , pp , no son insesgados. Aunque sí consistentes y, por tanto, insesgados asintóticamente.
En resumen, el Modelo Keynesiano Simple demuestra que cuando una relación es una de las muchas de un sistema simultáneo, las estimaciones clásicas MCO de sus coeficientes serán generalmente inconsistentes. La
726 razón subyacente es que algunos regresores están determinados conjuntamente con el regresando y, por tanto, son dependientes de la perturbación contemporánea. Hemos visto también que podemos obtener estimaciones consistentes mediante una especie de procedimiento indirecto mínimo cuadrático. Sin embargo, se verá que esta última alternativa no es por lo general aprovechable.
Por supuesto, si es aprovechable el método de variables instrumentales.
Realmente no es difícil demostrar que nuestros estimadores ˆ,ˆ son los
estimadores de variables instrumentales de , en (5), donde I , que es independiente de las perturbaciones, se utiliza como instrumento para Y . Sin embargo, no siempre será tan simple encontrar una variable instrumental legítima.
Observación 3. El método de estimación conocido como método de variables instrumentales (VI), trata de obtener un estimador consistente de cuando existen problemas del tipo descrito en la sección anterior, es decir, cuando algunos regresores están correlacionados con el término de perturbación, haciendo que el estimador por MCO no sea consistente.
El método de variables instrumentales, se basa en buscar k variables denominadas instrumentos, Zjt, j = 1, ..., k, que estén por su lado, incorrelacionadas con la perturbación ut y por otro, muy correlacionadas con las variables para las que hacen de instrumento, es decir:
singularnoyfinitaZX
Tpb
kjttujtZEa
QX´X
lim)(
,,1,0,)(
Hay que tener en cuenta que, para aquellas variables explicativas que no están correlacionadas con el término de perturbación, los mejores instrumentos son ellas mismas. La matriz de instrumentos Z (Txk), se puede construir reemplazando las columnas de X correspondientes a las variables explicativas correlacionadas con la perturbación por las T observaciones de otras variables que satisfagan las condiciones (a) y (b), de forma que el rango de (Z´ X) sea completo, es decir, que (Z´ X) sea una matriz no singular, ya que el estimador de de variables instrumentales, se define como:
YZ´Z´XVIβ1
ˆ
En general, es difícil conocer las propiedades del estimador VIβ para muestras
finitas, dado que es un estimador no lineal en las variables aleatorias Z, X y u. Sin embargo, si se satisfacen las condiciones (a) y (b) y
positivadefinidayfinitaZZT
pc QZ´Z
lim)(
Aplicando el teorema de Mann-Wald y el teorema de Cramer, se pueden demostrar los siguientes resultados asintóticos: 1. VIβ es un estimador consistente de .
2. 112
ZXZZXZ QQQσ0,βVIβ N
dT ˆ
Un estimador consistente de la matriz de varianzas y covarianzas asintóticas, es: 11
2ˆ
TTTVI
Z´XZ´ZX´Z
727 Donde:
TVI
)ˆ()'ˆ(ˆ
2 VIβXYVIβXY
Para contrastar hipótesis del tipo H0: R = r, se utiliza el estadístico:
2
111
VIσ
)rVIβ(RR´](Z´Z)[R(X´Z)r)´VIβ(R
ˆ
ˆˆ
F
Este estadístico, se distribuye asintóticamente como una 2q , donde q, es el número
de restricciones.
Incidentalmente, podíamos haber mirado (10) y observado que:
t
ttttt
I
IEIIYE
1
1
1
|1
1
1
1
1)|()27(
Y estimando por MCO
ttt IY 10)28(
Donde
tt
1
1,
1
1,
1)29( 10
Entonces las estimaciones MCO designadas por 10 ,dd serán consistentes:
.1
lim,1
lim)30( 1100
dPdP
Entonces podríamos haber considerado los estimadores ~,~ definidos por
)~1(11 d y )~1(~0 d esto es,
1
0
1
~,1
1~)31(d
d
d
Y ver que eran consistentes;
.~lim,~lim)32( PP
Sin embargo, no hay por qué hacer esto en el presente modelo; utilizando (6) puede demostrarse que ˆ~ y que ˆ~ .
728 Ejemplo. Extraemos algunos datos de Haavelmo para la economía de Estados Unidos referidos a consumo, renta e inversión. Con esos datos se calcularon los siguientes momentos alrededor de la media:
C Y I
C 35.887 47.585 11.698
Y 64.993 17.408
I 5.710
La estimación mínimo cuadrática clásica inconsistente de en (5) es entonces
732,0993.64
585.47ˆ)33(
yym
cym
La estimación mínimo cuadrática clásica consistente para 1 en (20) es
048,2710.5
698.111)34(
iim
cimp
De esto podemos deducir una estimación consistente de a través de (23)
672,0048,3
048,2
11
1ˆ)35(
p
p
Obsérvese que ˆ para esta muestra, lo que no es sorprendente puesto que ˆlimlim PbP .
De esta forma podemos tomar la estimación mínimo cuadrática clásica de 1 en
(28):
048,3710.5
408.171)36(
iim
yimd
Y de esto deducir una estimación consistente de a través de (31)
ˆ672,0048,3
11
1
11~)37(
d
Y también para la estimación de la variable instrumental de en (5) vemos
.ˆ672,0408.17
698.11)38(
iym
icmb
18.3 Modelo simple de mercado
Para una segunda demostración, consideremos el modelo de la Oferta y Demanda para una mercancía en particular con una perturbación permitida para desplazamientos aleatorios en las curvas de oferta y demanda.
ttt
ttt
pqOferta
pqDemanda*
)40(
)39(
729
Si en la ecuación de demanda un regresor tp fuera independiente de la
perturbación t , entonces cuando la ecuación de demanda recibe una
perturbación positiva, tq en (39) debería elevarse en la cantidad de la
perturbación. Pero entonces eso haría tq en (40); cuya independencia de tp
y t implica que tt* . Aunque las perturbaciones de la demanda y de la
oferta pueden estar correlacionadas, sin embargo, es absurdo pensar que
sean idénticas. Concluimos que tp y t no son independientes, el precio está determinado conjuntamente por la cantidad y por los desplazamientos aleatorios de la ecuación de demanda.
18.4 Contraste de Hausman
Cuando en un modelo de regresión lineal general de los regresores son estocásticos, es necesario añadir la siguiente hipótesis complementaria al modelo para garantizar la consistencia de la estimación MCO de los coeficientes de regresión:
VIII) Los regresores no están correlacionados con el término de perturbación, de forma que, bajo ciertas condiciones de regularidad, se cumple que (X´ u/T) = 0.
Como hemos visto en los apartados anteriores, este supuesto nos garantiza que el estimador MCO de los coeficientes de regresión , es consistente. Existen casos en los cuales esta hipótesis no se satisface, por ejemplo, si algún regresor está medido con error, si omitimos variables relevantes, si hay problema de simultaneidad, etc.. Hausman (1978), ha desarrollado un procedimiento para contrastar el cumplimiento de esta hipótesis. Este contraste se puede interpretar también, en términos generales, como un contraste de mala especificación de la parte sistemática del modelo.
El mecanismo de contraste, es el siguiente. La hipótesis nula, es:
0´
lim:0 T
uXpH
Frente a la hipótesis alternativa:
0´
lim: T
uXpHA
En el modelo de regresión uniecuacional, el estadístico del contraste, se basa en la diferencia de los estimadores de los coeficientes de regresión:
MCO y VI . Bajo la H0 y suponiendo que se cumplen los supuestos básicos
sobre la perturbación, se puede demostrar, bajo ciertas condiciones de regularidad, que:
730
MCO y VI . son consistentes.
MCO es asintóticamente eficiente.
Las distribuciones asintóticas, son:
21 ,0ˆ,0ˆ VNTVNT dVI
dMCO
donde (V2, V1), es una matriz definida positiva.
Bajo la hipótesis alternativa solo es consistente el estimador VI . Por lo tanto, si los regresores y la perturbación están correlacionados ambos estimadores tenderán a diferir, dado que VI es consistente y converge a ,
mientras que MCO no es consistente y convergerá a un valor distinto de .
El estadístico del contraste, es:
VIMCOVIMCO VVTH ˆˆˆˆ´ˆˆ 1
12
donde 21ˆˆ VyV son estimadores consistentes de V1 y V2, respectivamente.
Bajo H0 el estadístico H, se distribuye asintóticamente como una X2 con k grados de libertad. Rechazaremos la H0 con un nivel de significación , si
kXH 2 .
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS
Caso 18.1: Las relaciones macroeconómicas de la responsabilidad social corporativa.
En el mundo desarrollado la discusión pública, acerca de las responsabilidades empresariales, está en debate plenamente; también la sociedad en su conjunto está tomando conciencia de su importancia, especialmente por la relación que se establece entre la responsabilidad social corporativa y los problemas de exclusión, pobreza e inequidad social.
731 El concepto de desarrollo sostenible ofrece la visión de una sociedad más próspera y justa y que promete un medio ambiente más limpio, seguro y sano, por lo que es necesaria una mayor relación entre los objetivos de crecimiento económico y de progreso social, con una actitud permanente de máximo respeto al medio ambiente, estas decisiones definen un nuevo marco general de responsabilidad de las empresas.
La responsabilidad social corporativa involucra valores éticos que hasta hace unas décadas no se relacionaban con el actuar de los negocios. En general, el rol de las empresas estaba asociado a la acumulación de riquezas, proporcionar empleo y cumplir con normativas y leyes, especialmente tributarias; sin embargo, hoy se entiende la empresa como un sujeto o actor social, con un nuevo rol dentro de la sociedad.
Como lo menciona Rebolledo Moller (2004), las empresas que asumen su responsabilidad social entiende que, ser empresa ciudadana, significa poseer una cultura organizativa que otorgue coherencia al negocio, con un sistema de valores reconocidos públicamente por la organización empresarial; lo cual significa tener una ética compartida por todos sus miembros, que le otorga identidad y un sentido de trascendencia al proyecto empresarial en ejecución, el cual se inserta en un espacio mayor, que posibilita la sustentabilidad social y ambiental de la economía.
La responsabilidad social corporativa debe entenderse como una estrategia empresarial; para hacer buenos negocios se deben elevar la calidad de vida y los niveles de ingresos de la población más vulnerable, lo que permitiría superar la pobreza humana y la pobreza material a partir de un aumento en el bienestar y en el poder adquisitivo de la población.
La responsabilidad social empresarial es la contribución al desarrollo humano sostenible, a través del compromiso y confianza del empresariado con sus empleados y familia, la sociedad en general y la comunidad local, en pos de mejorar su capital social y calidad de vida.
El desarrollo humano postula que la persona es el sujeto, el fin, y al mismo tiempo el beneficiario del desarrollo. A esta afirmación, enunciada por Mahbub ul Haq y Amartya Sen, y citada por Ortega (2002), le sucede la que considera que no se puede seguir con la idea de que el desarrollo es el crecimiento material; el desarrollo tiene un fin, tiene una orientación, tiene un sentido, el desarrollo se orienta a que el ser humano sea centro, actor, sujeto y beneficiario de los esfuerzos sociales por expandir la demanda material y espiritual de las personas.
La responsabilidad social y el desarrollo humano deben lograr expresarse en los desafíos de la realidad de las familias, en las empresas, en el entorno social de éstas, en la manera de establecer relaciones laborales, en la manera en que los distintos actores viven y valoran la existencia de los otros. La valoración del otro es una actitud y un comportamiento indispensable para la propia realización. Así se va creando un tejido de solidaridad y reciprocidad, de justicia y de dignidad, que enriquece toda la vida social.
732 Se comparte la visión de que la responsabilidad social corporativa implica a todos los agentes, sean públicos y privados, en virtudes cívicas que respeten la ética de la transparencia y de la probidad. Ello es una condición para crear un clima de confianza en una comunidad; una ética del desarrollo humano debe plasmarse en cuatro ámbitos específicos:
Uno es el ámbito de la empresa, el ámbito del ser, de ser ella misma, de construir su propia evolución y de ser responsable de esa evolución sin afectar a los demás.
El segundo ámbito del desarrollo humano y la ética de la responsabilidad social corporativa es también una ética del otro, de las relaciones de la empresa con los otros.
Hay un tercer ámbito en donde se juega la perspectiva normativa del desarrollo humano. Se trata de los ámbitos macrosociales como la comuna, la región, el país; y lo que hoy llamamos el mundo global.
El cuarto ámbito se refiere a la necesidad de una ética en la relación de la empresa con la naturaleza.
Por otra parte, la responsabilidad social corporativa, en términos de mercado, puede asimilarse a un precio sombra; en este sentido, es el valor de intermediación entre las demandas de la sociedad, medidas en términos de desarrollo humano, y la oferta de bienes de las empresas, medidas en términos de crecimiento del producto. Un alto nivel de responsabilidad social corporativa se conjuga con altos niveles de crecimiento del producto y alto nivel de desarrollo humano; si la responsabilidad social es baja, el desarrollo humano de la sociedad va a mantenerse bajo y los niveles de producto, aún a niveles elevados, no alcanzarán a compensar la pérdida de bienestar derivada de aquella caída.
De acuerdo a esto se postula que:
El crecimiento en la oferta de bienes tiene una relación directa con la responsabilidad social corporativa observada con anterioridad y la relación capital trabajo existente en la economía.
El desarrollo humano está influenciado por la responsabilidad social corporativa y la relación capital trabajo.
La responsabilidad social corporativa se acumula a través del tiempo y su nivel actual se ajusta por las diferencias en los niveles de desarrollo humano observados y la oferta de bienes.
El desarrollo humano y el producto físico del trabajo posibilitan en el largo plazo el crecimiento continuo de la responsabilidad social corporativa.
Por consiguiente se considera, en un todo de acuerdo con Somoza Lopez y Vallverdu Calafell (2006), que la responsabilidad social corporativa lejos de ser una moda, es el resultado de considerar a la empresa plenamente y verdaderamente integrada en la sociedad que se desenvuelve, en un contexto en el que se aplica, en sentido amplio, la relación costo beneficio social.
733
La expresión analítica del modelo a estudiar es:
tttt
ttt
ttt
PLDHRSCRSC
KLRSCDH
KLRSCPL
111
321
3121
donde
variables endógenas:
tPL , producto físico medio del trabajo
tRSC , responsabilidad social corporativa
tDH , desarrollo humano
Variables exógenas o predeterminadas
tKL , relación capital trabajo
1tRSC , responsabilidad social corporativa observada
1tDH , desarrollo humano observado
parámetros
1 , nivel promedio del producto físico del trabajo, 01
2 , respuesta del producto medio del trabajo a los cambios en la
responsabilidad social corporativa, 02
3 , respuesta del producto medio del trabajo a los cambios en la
relación capital trabajo, 03
1 , nivel promedio de desarrollo humano, 01
2 , respuesta del desarrollo humano ante cambios en la responsabilidad
social corporativa, 02
3 , respuesta del desarrollo humano ante cambios en la relación capital
trabajo, 03
1 , coeficiente de ajuste, 01
En este modelo, la relación beneficio costo social queda definida por la diferencia entre el desarrollo humano observado en el periodo anterior y el producto físico medio del trabajo de este periodo; por lo que el coeficiente
1 mide la respuesta de la responsabilidad social corporativa ante cambios en la relación beneficio costo social.
734
A partir del modelo económico planteado:
1. Encuentre las derivadas de estática comparativa
2. Analice la trayectoria temporal de la responsabilidad social corporativa
3. Verifique las condiciones de orden y rango para identificar el modelo
BIBLIOGRAFIA
Barbancho, A. G. (1971). “Complementos de Econometria”. Ediciones Ariel. Barcelona, España.
Fernández Sainz, A.I.; González Casimiro, P.; Regules Castillo, M.; Moral Zuazo, M.P. y Esteban González, M.V.; (2005): “Ejercicios de Econometría”. McGrawHill, Colección Schaum.
Goldberger, A. (1970) “Teoría Econométrica”. Editorial Tecnos. Madrid.
Gujarati, D. (2004) "Econometría". 4°Edición. Mc.Graw Hill. México.
Johnston, J. Dinardo, J. (2001) "Métodos de Econometría". Editorial Vicens Vives. Barcelona.
Pulido, A. (1989). "Modelos Econométricos". Editorial Pirámide. Madrid.