UNIVERSIDAD DE PANAMÁ VICERRECTORÍA DE INVESTIGACIÓN Y POSTGRADO PROGRAMA CENTROAMERICANO DE MAESTRÍA EN MATEMÁTICA EL MODELO DE REGRESIÓN LINEAL MULTIVARIADO Y SU APLICACIÓN. POR: ALBERTO CASTILLO PORTUGAL TESIS PRESENTADA COMO UNO DE LOS REQUISITOS PARA OPTAR POR EL TITULO DE MAESTRO EN CIENCIAS CON ESPECIALIZACIÓN EN ESTADÍSTICA MATEMÁTICA. PANAMÁ, REP . DE PANAMÁ 2002
61
Embed
EL MODELO DE REGRESIÓN LINEAL ... - … · En el presente trabajo definimos el modelo de regresión lineal multivariado, en su forma matricial, demostrándose algunas de las propiedades
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
UNIVERSIDAD DE PANAMÁ
VICERRECTORÍA DE INVESTIGACIÓN Y POSTGRADO
PROGRAMA CENTROAMERICANO DE MAESTRÍA EN MATEMÁTICA
EL MODELO DE REGRESIÓN LINEAL
MULTIVARIADO Y SU APLICACIÓN.
POR:
ALBERTO CASTILLO PORTUGAL
TESIS PRESENTADA COMO UNO DE LOS REQUISITOS PARA
OPTAR POR EL TITULO DE MAESTRO EN CIENCIAS CON
ESPECIALIZACIÓN EN ESTADÍSTICA MATEMÁTICA.
PANAMÁ, REP. DE PANAMÁ
2002
= APROBADO POR :
M . en C. GLADYS E. SEGURAPRESIDENTE
M . en C. JOSE OCHOAMIEMBRO
2LA VICERRECTORIA
CION Y POSTGRADOAN
STIG
b
1
DEDICATORIA
Dedico este trabajo de graduación, permanentemente a Dios
Todopoderoso, como muestra de gratitud por la oportunidad que me
ha brindado de superarme en mi vida profesional, a mis padres y
esposa por su apoyo y comprensión, a mis hijos Katherine, Jesús y
Alexis, como ejemplo de la constancia en el esfuerzo por ser mejor
cada día.
AGRADECIMIENTO
Agradezco infinitamente a Dios, por darme la oportunidad,
fuerza y conocimiento para culminar mis estudios ; a mi asesora la
Profesora Gladys Segura por sus empeño y constancia durante la
realización de este trabajo .
INDICE GENERAL
Pág.
RESUMEN 1
INTRODUCCIÓN 2
CAPÍTULO I. EL MODELO DE REGRESIÓN LINEAL
MULTI VARIADO 5
La Ecuación de Regresión 6
Matrices del Modelo 7
La Función de Verosimilitud del modelo 11
Propiedades del Modelo 12
Propiedades de la matriz P 12
Estimadores de máxima verosimilitud de B y E 14
Propiedad de los estimadores de B y E 18
Distribución de B
CAPÍTULO 11. PRIJEBAS DE HIPÓTESIS
'Tipo de prueba según las matrices
La distribución Wishart Centrada
Distribución de M 1 Y' + P2 Y, M i
Prueba de Razón de Verosimilitud
El Estadístico de Wilk's
28
31
32
34
40
43
44
El estadístico de prueba dado por LnA 45
Pruebas de unión e intersección 53
Intervalo de confianza para y la Correlación Múltiple 58
Correlación Múltiple 64
Coeficiente de Correlación Múltiple 65
Correlación para muestras Grandes 68
CAPÍTULO M. ANÁLISIS E INTERPRETACIÓN DE LOS
RESULTADOS '71
Análisis de los Resultados Obtenidos en el Área Urbana 72
Análisis de Regresión Multivariado de la Variable Salario para el Área
Urbana 73
Análisis de Regresión Multivariado de la Variable Ingreso para el Área
Urbana 74
Análisis de los Resultados Obtenidos en el Área Indígena 83
Análisis de Regresión Multivariado de la Variable Salario para el Área
Indígena 83
Análisis de Regresión Multivariado de la Variable Ingreso para el Área
Indígena 84
CONCLUSIONES Y RECOMENDACIONES 93
BIBLIOGRAFÍA 95
ANEXO 98
INDICE DE CUADROS
Pág.
Cuadro 1 .
Estadística descriptiva, muestra los valores promedios y
las desviaciones estándar de cada una de las variables en
el estudio sobre niveles de vida en el área Urbana, 1997 . 78
Cuadro II . Análisis de varianza para el modelo de regresión lineal
multivariado de la variable explicada salario con respecto
a las variables explicativas en el estudio de niveles de
vida en el área urbana, 1997 79
Cuadro 111 . Estimación de parámetros, el estadístico para la
unificación de la hipótesis nula y las respectivas
probabilidades en cada uno de los casos para las variables
en estudio con respecto a la variable salario en área
urbana, 1997 80
Cuadro IV . Análisis de varianza para el modelo de regresión
multivariado de la variable explicada ingreso, con
respecto a las variables explicativas en. estudio sobre
niveles de vida en el área urbana, 1997 81
Cuadro V . Cuadro V. Estimación de parámetros, el estadístico t
para la verificación de la hipótesis nula y las respectivas
probabilidades en cada uno de los casos para las variables
en estudio con respecto a la variable Ingreso en área
urbana, 1997 82
Pág.
Cuadro VI . Estadística descriptiva, muestra los valores promedios y
las desviaciones estándar de cada una de las variables en
el estudio sobre niveles de vida en el área indígena, 1997 88
Cuadro VII. Análisis de varianza para el modelo de regresión lineal
multivariado de la variable explicada salario con respecto
a las variables explicativas en el estudio de niveles de
vida en el área indígena, 1997 89
Cuadro VIII. Estimación de parámetros, el estadístico para la
unificación de la hipótesis nula y las respectivas
probabilidades en cada uno de los casos para las variables
en estudio con respecto a la variable salario en área
indígena, 1997 90
Cuadro IX . Análisis de varianza para el modelo de regresión
multivariado de la variable explicada ingreso, con
respecto a las variables explicativas en estudio sobre
niveles de vida en el área indígena, 1997 91
Cuadro X. Cuadro V. Estimación de parámetros, el estadístico t
para la verificación de la hipótesis nula y las respectivas
probabilidades en cada uno de los casos para las variables
en estudio con respecto a la variable Ingreso en área
indígena, 1997 92
RESUMENEn el presente trabajo definimos el modelo de regresión lineal
multivariado, en su forma matricial, demostrándose algunas de laspropiedades de los estimadores, tanto en el insesgamiento como en laverosimilitud.
Se plantean las pruebas de hipótesis referente a la matriz deparámetros, para comprobar la correlación existente entre las variablesexplicativas y las explicadas, con el uso de la distribución Wishart, dondese demuestran algunas proposiciones de esta distribución . Tambiénconsiderarnos dentro de este modelo la prueba de razón de verosimilitud y elestadístico de Wilks, utilizado en la realización de pruebas de hipótesis.
Contemplamos los intervalos de confianza para un valor numérico,con el apoyo de las distribución Wishart, T2 y F. Además se consideró el.Coeficiente de Correlación multivariado, para la base de datosproporcionada por el M.1.P.P.E . (Ministerio de Planificación y PolíticaEconómico), sobre los niveles de vida en Panamá, en la que se determinó laecuación de regresión multivariada, se realizan pruebas de hipótesis paraverificar las influencia de las variables explicativas.
SUMMARYPresent work defined the model of multivaried lineal regression, in
their matricial form, demonstrating some of the properties of the estimators,so much in the unbiasing like in the verisimilitude.
We are expounded the hypothesis taste with respect to the womb ofparameters, in order to check the existent correlation between theexplanatory variables and explained variables, with the use of the WishartDistribution, where some propositions of these distribution aredemonstrated. We also considered within this model taste reason ofverisimilitude and the Statistic of Wilk's, utilized in the realization of youtaste hypothesis.
We contemplated the intervals of trust for a numerie courage, with thesupport of the Wishart Distribution, T2 and F. were Also considered themultivaried correlation coefficient, for the base of data proportioned by theM.I.P.P.E . (Ministry of Planning and Economical Politics), on the levels oflife in Panama, they in the one which was determined the equation ofmultivaried regression, are carried out taste hypothesis in order to verify theinfluence of the explanatory variables.
INTRODUCCIÓN
3
Es normal encontrar en la realización de investigaciones muchas
variables explicativas y explicadas, que influyen en cierto grado dentro de
un fenómeno dado, por tal razón es de gran utilidad trabajar con todas ellas.
Una forma de estudiar estas variables en conjunto, es a través del
Modelo de Regresión Lineal Multivariado y de la correlación de las mismas
con las que se puede hacer las interrelaciones, estimando la matriz de los
parámetros de todos las variables explicativas y explicadas, además ver las
interrelaciones de dos a dos .
La regresión fue utilizada por primera vez en el año 1880 por el
científico inglés Sir Francis Galton, dedicado a investigaciones genéticas,
quien trataba de establecer las características trasmitidas de padres a hijos a
través de sus estaturas.
El modelo de regresión nos permite eliminar aquellas variables que
producen poco o ningún efecto en la regresión, esto por medio de las
pruebas de hipótesis o de la correlación. Realizar estimaciones es esencial
en el modelo de regresión, donde se ha de comprobar la significancia de la
ecuación por medio del coeficiente de determinación .
4
Los intervalos de confianza también son considerados en la regresión
como un elemento que ayuda a fortalecer los resultados con el coeficiente de
determinación como una forma de evaluar la ecuación de regresión por
medio de la proximidad del ajuste a los valores observados.
Este trabajo contempla tres capítulos con los siguientes contenidos:
En el primer capítulo se considera la ecuación de regresión, matrices
del modelo, algunas propiedades del modelo y de la matriz P, además de los
estimadores de las matrices B y E.
El segundo capítulo hace referencia a las pruebas de hipótesis según
las matrices, la distribución Wishart centrada con sus propiedades, se
definen algunos estadísticos, además de los intervalos de confianza, la
correlación múltiple y el coeficiente de determinación, con lo que termina la
parte teórica.
El capítulo tercero considera el análisis e interpretación de los
resultados, en el que se determina la ecuación de regresión, se hacen
estimaciones, además se realizan pruebas de hipótesis y se calcula el
coeficiente de correlación sobre una base de datos, referente a una encuesta
de niveles de vida en Panamá, en el año 1997 .
CAPÍTULO I
EL MODELO DE REGRESIÓN LINEAL MULTIVARIADO
6
La Ecuación de Regresión.
Consideramos el modelo definido por Y = XB + E , donde las
matrices Y, X, B y E son tales que Y (,,,,p) es una matriz observada, de p
variables respuestas en cada uno de los n vectores de variables aleatorios;
Xcn,,.q> una matriz de valores fijos, q variables independientes observadas en
cada uno de los n vectores filas ; donde estos vectores filas son mutuamente
independientes, cada una con matriz de media cero (0) y matriz de varianza
covarianza común E ; B(qxp) es una matriz de parámetros desconocidos,
afectados por las filas de X y E(mcp) es una matriz aleatoria de valores
desconocidos (matriz de error).
La ecuación lineal Y = XB + E (1) es llamada Modelo de Regresión
Lineal Multivariado. En el caso de que X sea una matriz aleatoria, entonces
la distribución de E se asume que no está relacionada con X.
En particular las variables X„ X 2 , . . ., Xq predicen cada una de las
Y's.
Las columnas de la matriz Y representan variables dependientes que
están explicadas en términos de las variables independientes o explicativas
dadas por las columnas de X .
7
Matrices del Modelo.
Así, el modelo lineal Y = XB + E en su forma matricial es:
YII
-Y12 ••• Ylp
Y21
Y22 ••
Y2p
1
1
Y/{12 . . . RI P
_ 1
QI I
e 12
1P
e22
. . .
e2P
1
X11
X,2 . . . X 14
1
X 21
X 22 . . . X24
+
YnI
Yn2 . . . Yn P
[1
x ,a
x,a . . . x p_As
en,
e,2
. . .
enP
nxp = nx(q + 1) * [(q + 1)xp]+ nxp
Aquí, cada columna de la matriz X representa un vector de variables
unitarias; cada uno de los n vectores filas de Y contiene los valores de las p
variables medidas en un sujeto.
Cada una de las columnas de Y consiste de las observaciones en cada
una de las p variables que corresponden a un vector unitario Y(). Para cada
columna de Y tenemos una columna de parámetros de (3's . Las columnas
de (3's forman una matriz a la que llamamos B.
El modelo también puede ser expresado en términos de los vectores
columnas, en el caso de que los vectores de la matriz respuesta estén dados
en columna; para la i-ésima respuesta, el modelo se puede escribir como
Y( ; 1=XB O +epa ; 15- i5p .
8
donde Y(), B (i) y F.o ) son vectores columnas.
En este caso el modelo así definido recibe el nombre de modelo de
Regresión Lineal Múltiple.
Por otro lado los n vectores de orden (pxl) de la matriz E, están
distribuidos normalmente con matriz de media (0) y matriz de covarianza
E.
Definición I.1
Diremos que la matriz de error E„~) _ (s, , E2 )' en donde para cada
1 < n el e; corresponde a un vector fila de orden lxp que representa el
i-ésimo vector aleatorio de error, tiene distribución normal con matriz de
media (0) y matriz de varianza covarianza E . Además E — N p(0, I0 E) ,
donde I es la matriz identidad de orden (nxn) y I®E denota el producto de
Kronecker de la matriz I y la matriz E.
Aquí las filas de E son normalmente independientes.
Definición 1.2
Diremos que el producto de Kronecker definido por I®E representa el
producto de los n vectores columnas de una matriz que son mutuamente
9
independientes, cada uno con matriz de varianza covarianza E y el producto
de Kronecker dado por E®I, se refiere a la matriz de covarianza del vector
X" de orden [(nq)x 1] obtenido por la colocación de los vectores uno sobre
el otro.
Proposición 1.1
En el modelo Y se tiene que
Tr[(Y-XB)E-'(Y-XB)'] es igual a Tr[Y1(Y-XB)'(Y-XB)].
Demostración:
Sea Y la variable aleatoria del modelo dada por la ecuación (1) y .J(Y)
su función de densidad, consideremos a Y = [Y„
, donde las filas
son mutuamente independientes.
Por otro lado como E tiene una distribución normal con matriz de
media (0) y matriz de varianza covarianza I®E, entonces para cada 1 _< n,
los n vectores filas tienen una distribución igualmente normal con media
B'X1 y matriz de varianza covarianza E, por lo tanto como Y, = B "X, +s;
es una combinación lineal de e; que también tiene una distribución normal
con media (0) y matriz de varianza covarianza E, esto es Y 1 —Np (B'X ; ,E) .
lo
Sabemos además que Y - XB = [Y, - B' X„ Y, - B' X,, . . . Y. - B. X. ]'.
Realizando el producto (Y-XB)' (Y-XB) tenemos que
(Y–XB)'(Y–XB)=E (Yi–B'Xi)(Y–B'Xi
por otro lado tenemos que E (Y; - B'Xi)'Z ' (Yi - B'Xi):=t
Luego:
Tr[E(Y,–B'X ;)':-'(Y;–B'X )J1(D
i
=
TrFY,–B'X,)'E' (Y,–B'X, )1i=i
(Yi—B'Xi)(Yi—B'Xi)']
por propiedad de traza
=Tr~ ' (Y–XB)'(Y–XB)J
por lo tanto la Tr [(Y - XB)E - '(Y - XB)' ]= Tr [E -' (Y - XB)'(Y - XB) ]
Richard y Wichern (1982) .
11
La función de verosimilitud del Modelo.
Definición 1 .3
La función de verosimilitud de Y, está dada por
1
1
-2(Yi-B'XiYE"' (Yi-B'Xi)f(B ' E) =
(270'2
I/2- e
donde Y, es un vector fila con media B 'Xi y matriz de varianza covarianza E,
En el modelo lineal, tenemos que la función de densidad de Y es
1
1
_l(Y-)ffi)T,(Y-XB)f(Y) = ( e 2
y considerando las suposiciones de que.2
la matriz X tiene rango q y que la covarianza de (X' X) existe.
Definición 1.4
La función log de verosimilitud para Y en términos de los parámetros
B y E, está dado por
Lf(B,E)=-- nlogi27tE --Tr(Y–XB)E-'(Y–XB)'2
2
donde XB es la media de Y .
12
Propiedades del Modelo.
Definición 1 .5
En el modelo de re g resión lineal Y. se cumplen las propiedades
a .
E(E)= O
h .E(Y,)= [3 X,
1 __s:1 n.
c. COV (Y)–`
b i = 1 .2 0
donde Y, es la i-esima tila de Y
d. COV(Y,.Y )=0
Vi 4 j
siendo YYJ tilas de la matriz Y.
Propiedades de la Matriz P.
Proposición 1 .2
La matriz P~ fl , fl , definida por P = [1 – X (X' X) - ' X' J es simétrica e
idemponente y de rango (n-q)_ donde las matrices 1 v X(X'X) -' X' son de
orden (nxn)_
Demostración:
Sea P una matriz de orden (nxn) tal que
P = [1 – X (X' X) -' X' J . consideramos primero si P es simétrica, esto es
P= P' .
13
Si P = j I — X (X' X) ' X'1, luego su traspuesta P ' es:
P ' = [1—X(X'X)-'X]'
P= 1—[X(X'X)'X']
por definición de traspuesta
P=[I—X (X'X)" ' X']
dado que (X'X) -' es una matriz cuadrada de orden (q x q), que es
simétrica.
Luego como P = P', entonces la matriz P es simétrica.
Veamos ahora la idempotencia de P , esto es PP' P . Así este producto es
[1-X(X'X)y'X'][1 - X(X"X)"IX"]', puesto que PP'=P entonces
[1- x(x'xy'x'] [1- x(x'x)'x']
realizando los productos
1- IX(X'X)-'X' — X (X'XY ' X'I + X(X'X)"'(X'X)(X'XY'X'
I - X(X"X)X .—X(x .x)y'x" +XI(x"X)-'X'
P-- 1—X(X X) 'X ]
14
por lo tanto P es una matriz simétrica y luego P es idempotente.
Calculemos ahora el rango de P
Ran [1 - X(X'X)-'X']= Tr[I - X(X'X)''X'] puesto que P es idempotente y
como I es de orden (nxn) y X(X'X)''X' es de orden (nxn) de rango q.
Se tiene que Tr[I - X(X'X)''X'] = Tr(I) - Tr[X(X'X)''X] por
propiedad de traza.
Luego Tr(I) = n y Tr[X(X'XY'X']= q
Por lo tanto la Tr[I - X(X'X)' IX']=(n-q).
Así, P[I - X(X'X)-1X] es una matriz simétrica indempotente y de
rango (n-q).
Estimadores de Máxima Verosimilitud de B y E.
Proposición 1 .3
En el modelo multivariado de rango completo q donde E—Np (O,1®E)
y Y— Np (XB; 1®E), los estimadores de máxima verosimilitud de 13 y E
son B = (X 'X)— 1 X 'Y y E = n-1 Y' PY , o bien E = n - ' EA ' EA
donde P = [1— X(X'X)"'X'] .
15
Demostración:
Si en el modelo de rango completo, E-Np (O ; I®E) y de acuerdo al
modelo de regresión Y = [Y„ Y2 , Yn }', donde las filas de Y son
independientes con distribución Y i —Np (B'Xi, E), consideremos ahora
(Y-XB)= [Y, —B'X, ., Yz — B' X 2, . . ., Yn — B'Xn]