UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS FACULTAD DE CIENCIAS MATEMÁTICAS E.A.P. DE ESTADÍSTICA Desnutrición crónica : estudio de las características, conocimientos y aptitudes de la madre sobre nutrición infantil Capítulo II. Modelo de regresión logística TRABAJO MONOGRÁFICO Para optar el Título Profesional de Licenciado en Estadística AUTOR Alicia Carla Herrera Garrido LIMA – PERÚ 2003
37
Embed
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS · siguientes propiedades: () (), 0, 0 0 2 = = ∀ ≠ = = i j i j i i Cov X Cov i j V E ε ε ε ε σ ε (2.7) las variables regresoras
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE CIENCIAS MATEMÁTICAS E.A.P. DE ESTADÍSTICA
Desnutrición crónica : estudio de las características, conocimientos y aptitudes de la madre sobre nutrición infantil Capítulo II. Modelo de regresión logística
TRABAJO MONOGRÁFICO
Para optar el Título Profesional de Licenciado en Estadística
AUTOR
Alicia Carla Herrera Garrido
LIMA – PERÚ
2003
9
CAPITULO II
MODELO DE REGRESION LOGISTICA
2.1 INTRODUCCION
El termino regresión fue introducido por Francis Galton. En un famoso articulo
Galton planteo que, a pesar de la presencia de una tendencia en la que los
padres de estatura alta tenían hijos altos y los padres de estatura baja tenían
hijos bajos, la estatura promedio de los niños nacidos de padres de estatura
dada tendían a moverse o ¨regresar¨ hacia la estatura promedio de la población
total. En otras palabras, la estatura de los hijos inusualmente altos o de padres
inusualmente bajos tiende a moverse hacia la estatura promedio de la
población. La ley de regresión universal de Galton fue confirmada por su amigo
Karl Pearson, quien reunió mas de mil registros de estaturas de miembros de
grupos familiares. Pearson encontró que la estatura promedio de los hijos de
un grupo de padres de estatura alta era menor que la estatura de sus padres y
la estatura promedio de los hijos de un grupo de padres de estatura baja era
mayor que la estatura de sus padres, generándose un fenómeno mediante el
cual los hijos altos e hijos bajos, ¨regresaban¨ en forma similar hacia la estatura
promedio de todos los hombres. En palabras de Galton, se trataba de una
regresión hacia la mediocridad
Cuando se pretende explicar, mediante un modelo de regresión, el
comportamiento de una variable dependiente en función de variables
explicativas, suele utilizarse un modelo de regresión lineal múltiple, como
veremos en este trabajo, el modelo lineal presenta ciertos problemas cuando la
variable dependiente es categórica, lo cual nos llevara a usar modelos de
regresión no lineal.
La técnica de la regresión logística se origino en la década de los 60 con el
trabajo de Cornfield, Gordon y Smith en 1967 Walter y Duncan la utilizan ya en
la forma que la conocemos actualmente, o sea para estimar la probabilidad de
ocurrencia de un proceso en función de ciertas variables. Su uso se incrementa
10
desde principios de los 80 como consecuencia de los adelantos ocurridos en el
campo de la computación.
El objetivo de esta técnica estadística es expresar la probabilidad de que ocurra
un hecho como función de ciertas variables, para ( )1⟩K k variables. Que se
consideran influyentes. La regresión logística, al igual que otras técnicas
estadísticas multivariadas, da la probabilidad de evaluar la influencia de cada
una de las variables explicativas sobre la variable dependiente y controlar el
efecto del resto. Tendremos, por tanto, una variable dependiente, llamándola Y,
que puede ser binomial o multinomial (en este trabajo nos referimos solamente
al primer caso) y una o mas variables independientes, llamándolas X.
Al ser la variable Y binomial, podrá tomar el valor ¨0¨ si el hecho no ocurre y ¨1¨
si el hecho ocurre; el asignar los valores de esta manera o a la inversa es
intrascendente, pero es muy importante tener en cuenta la forma en que se ha
hecho llegado el momento de interpretar los resultados. Las variables
explicativas pueden ser de cualquier naturaleza: categóricas o cuantitativas;
cuando todas son categóricas entonces se usa el modelo log lineal.
2.2 OBJETIVOS DE LA REGRESION LOGISTICA
Sistemáticamente tiene dos objetivos:
1. Investigar que factores de una determinada característica de la
población modificará la probabilidad de ocurrencia de un determinado
evento.
2. Determinar el modelo más parsimonioso y mejor ajustado que siendo
razonable describa la relación entre la variable respuesta y un
conjunto de variables regresoras.
11
2.3 REGRESION LOGISTICA Y OTROS METODOS RELACIONADOS
El objetivo general de la Regresión Logística es predecir la probabilidad de un
evento de interés en una investigación, así como identificar las variables
predictoras útiles para tal predicción.
Se pueden usar varios métodos multivariantes para predecir una variable
respuesta de naturaleza dicotómica a partir de un grupo de variables
regresoras.
El Análisis de Regresión Lineal Múltiple (ARLM) y el Análisis Discriminante
(AD) son dos métodos eficaces pero plantean problemas cuando la variable
respuesta es binaria.
En el ARLM cuando la variable respuesta toma solo dos valores, se violan los
supuestos necesarios para efectuar inferencias, los problemas que se plantean
son:
1. La distribución de los errores aleatorios no es normal.
2. Los valores predictados no pueden ser interpretados como
probabilidades como en la RL, por que toman valores dentro del
intervalo.
El AD permite la predicción de pertenencia de la unidad de análisis a uno de los
2 grupos pre-establecidos, pero se requiere que se cumplan los supuestos de
multinormalidad de las variables regresoras y la igualdad de matrices de
covarianzas de los dos grupos, pueden ser diferentes también; para que la
regla de predicción sea óptima., Johnson (1982), Anderson (1999).
La RL requiere mucho menos supuestos que el AD, por ello cuando satisfacen
los supuestos requeridos para el AD, la RL trabaja bien.
A continuación se describirá un paralelo entre la Regresión Lineal Múltiple y la
Regresión Logística, debido a que ambos tiene el mismo objetivo, predecir la
variable respuesta a partir de las variables regresoras.
12
2.4 REVISION DEL MODELO DE REGRESION LINEAL MULTIPLE
La diferencia básica entre los modelos del ARLM y de la RL es la naturaleza de
la relación entre la variable respuesta y las variables regresoras.
Para el ARLM, consideremos y una variable respuesta cuantitativa y
kxxx ,....,, 21 variables regresoras o llamadas también explicativas; y se desea
describir la relación que hay entre la variable respuesta y las variables
explicativas, si entre la variable respuesta y las regresoras hay una relación
lineal se espera que:
( ) ikkiii xxxyE ββββ ++++= ......22110 , para i=1, 2, ..., n (2.1)
donde:
iy es el valor de la variable respuesta cuantitativa para el i-ésimo objeto.
jβ ; j = 0, 1, 2,....,k son los parámetros.
Siendo n el número de objetos u observaciones.
Aunque (2.1) no de valores exactos, se espera que varíe linealmente con las
variables regresoras, esto es:
( ) ikkiiii xxxxyE ββββ ++++= ......| 22110
r, para i=1, 2, ..., n (2.2)
siendo ( )ikiii
T
i xxxxx ,...,,, 210=r la i-ésima observación, con 10 =ix , toma
valores reales y en forma vectorial es:
( ) βrrr T
iii xxyE =| (2.3)
donde ( )k
T βββββ ,...,,, 210=r
es el vector de parámetros.
Pero en (2.3) hay otras variables regresoras que pueden influir linealmente
sobre iy , por tanto cada valor de iy está variando alrededor de ( )iyE a esa
variación lo denotamos con iε , esto es:
13
( )β
εrr
r
T
ii
iiii
xy
xyEy
−=
−= |(2.4)
de (2.4):
i
T
ii xy εβ +=rr
(2.5)
iikkiii xxxy εββββ +++++= ......22110 , para i=1, 2, ..., n (2.6)
llamado MRLM poblacional, a iε se le llama error aleatorio y tiene las
siguientes propiedades:
( )( )( )( ) 0,
0,
02
=
≠∀==
=
ji
ji
i
i
XCov
jiCov
V
E
ε
εεσε
ε
(2.7)
las variables regresoras no son variables aleatorias y el comportamiento de y
es la respuestas a aquellas, así mismo iε es una variable aleatoria no
observable.
Generalizando el MRLM, (2.6), mediante el álgebra matricial está dada por:
εβ rrr += Xy (2.8)
donde:
( )n
T yyyy ,....,, 21=r, vector de variables respuestas observadas
( )kxxxX rrr ,.....,,,1 21= matriz de rango completo y con
( )ikii
T
i xxxx ,...,,,1 21=r
( )k
T ββββ ,.....,, 10=r
( )n
T εεεε ,....,, 21=r
así mismo (2.1) en forma matricial es:
( ) βrr XyE = (2.9)
el objetivo es estimar los parámetros del modelo (2.6), los mismos que son
estimados mediante el método de mínimos cuadrados, Searle (1971).
14
Sea iy la estimación de iy , entonces:
ikkiii xxxy ββββ ˆ......ˆˆˆˆ 22110 ++++= , para i=1, 2, ..., n (2.10)
o equivalentemente:
βˆrrT
ii xy = (2.11)
siendo:
( )k
T ββββ ˆ,.....,ˆ,ˆˆ10=
r, el vector de parámetros estimados. (2.10) en su forma
matricial es:
βˆrr Xy = (2.12)
los residuos ordinarios ir es la contraparte muestral de iε y está dado por:
iii yyr ˆ−= para i=1, 2, ...., n (2.13)
en forma vectorial es:
yyr rrr −= (2.14)
El estimador de βr
se obtiene usando el método de mínimos cuadrados, que
consiste en minimizar la suma de cuadrados del error y está dada por:
( ) ( )yyyyeeeSCETn
i
T
iˆˆ
1
2 rrrrrr −−=== ∑=
con respecto a βr
, esta suma de cuadrados se expresa en forma cuadrática
como:
( ) ( )ββrrrr XyXy
T −− (2.15)
al minimizarlo se obtiene que:
( ) yXXX TT rr=β (2.16)
llamada ecuaciones normales.
Como ( )XX T es invertible, por que es simétrica de tamaño (k+1)x(k+1) y de
rango completo, entonces la solución del sistema lineal es:
( ) yXXX TT rr 1ˆ −=β (2.17)
que es sensible a observaciones pobremente ajustados y a los puntos
extremos de X , Montgomery y Peck (1992).
15
El vector (2.12) de valores estimados para el vector de variables respuestas es:
βˆrr Xy =
( ) yXXXXy TT rr 1ˆ −= (2.18)
a la matriz ( ) TT XXXX1−
, se le llama matriz de cambio o de proyección
denotada por H , entonces (2.18) es:
yHy rr =ˆ (2.19)
El vector de residuos es:
yyr rrr −=
yHyr rrr −= (2.20)
( )yHIr rr −= (2.21)
yMr rr = (2.22)
El vector rr describe las desviaciones de los valores observados de los
ajustados y la matriz M es el subespacio en el cual cae rr .
El vector residual es importante para detectar puntos “extraños”. A la matriz H
se le llama matriz sombrero o de proyección, ver Cook y Weisberg (1982).
Ahora veamos como queda expresado la suma de cuadrados de los residuos,
denotada por SCE :
( ) ( )yyyySCE T ˆˆ rrrr −−= (2.23)
Reemplazando yr
por βr
X : (2.23) es:
( ) ( )ββ ˆˆ rrrr −−= yXySCET
(2.24)
Y reemplazando βr
por ( ) yXXX TT r1−:
( ) yXXXXyyySCE TTTT rrrr 1−−= (2.25)
La matriz ( ) TT XXXXH1−= , entonces:
yHyyySCE TT rrrr −= (2.26)
( )yHIySCE T rr −= (2.27)
Sea HIM −= , entonces (2.27) es:
16
yMySCE T rr= (2.28)
Bajo el supuesto que ( )nIN 2,0~ σεrr
. , las observaciones nyyy ,...,, 21 son
independientes y distribuidas como una Normal n-variada con ( ) βrr XyE = con
matriz de varianzas y covarianzas. nI2σ .
En la RL, se estima la probabilidad de que un evento ocurra; es decir, el valor
esperado de y dado las variables regresoras, debe tomar valores entre 0 y 1.
La relación entre las variables regresoras y la dependiente no es lineal. Las
estimaciones de probabilidad estarán siempre entre 0 y 1, así, el valor de la
variable respuesta se puede definir como una probabilidad de que ocurra o no
un evento sujeto a control.
En la RL, se seleccionan los coeficientes, del modelo, que hacen que los
resultados sean los más “probables”. Como el modelo de RL no es lineal, se
requiere de un algoritmo iterativo para estimar los parámetros.
En las secciones siguientes se detallarán los aspectos teóricos y la aplicación
de la RL.
2.5 EL MODELO DE PROBABILIDAD LINEAL Y SUS PROBLEMAS
Consideremos el caso de una variable dependiente binaria, Y, la cual viene
explicada por un conjunto de variables explicativas .,.......,, 21 kxxx
Observar que, por ser Y una variable binaria (es decir sólo podrá tomar los
valores 0 y 1), siempre se cumplirá que:
E(Y) = 0.P(Y=0) + 1.P(Y= 1)= P(Y=1)
Por otra parte, podemos pensar en utilizar un modelo de regresión lineal
múltiple para explicar el comportamiento de la variable Y, es decir:
ikkii xxxy εββββ +++++= ....2210
17
Bajo el supuesto habitual de que 0)( =εE , y suponiendo conocidos los
valores que toman las variables explicativas (observaciones), tendremos que:
kki xxxYE ββββ ++++= ....)( 2210
Igualando las dos expresiones obtenidas para E(Y) llegamos al resultado que le
da nombre al modelo de probabilidad lineal:
εββββ −=++++== YxxxYP kki ....)1( 2210
Observar que esta expresión nos viene a decir que podemos expresar la
variable dependiente binaria Y como la probabilidad de “éxito” más un término
de perturbación, es decir:
εε +=+== )()1( YEYPY
Sin embargo, este modelo inicial será válido para explicar el comportamiento
de variables dependientes binarias, pues presenta varios problemas:
1. No normalidad de los errores
El termino error )....( 2210 kki xxxY ββββε ++++−= ya no será una
variable aleatoria continua (como ocurría en el modelo de regresión lineal
múltiple, MRML), sino que será una variable aleatoria discreta –puesto que,
conocidos los valores de las variables explicativas, ε sólo puede tomar dos
valores determinados. Por tanto, ε ya no se distribuirá de forma normal (uno
de los supuestos básicos del MRLM). Si bien este supuesto no resulta
estrictamente necesario para aplicar Mínimos cuadrados ordinarios, sí es
fundamental a la hora de realizar cualquier tipo de inferencia posterior sobre el
modelo (intervalos de confianza para los parámetros estimados, contrastes de
hipótesis, etc.).
2. Varianzas heteroscedásticas de los errores
El término error ε no cumple la hipótesis de homocedasticidad (es decir la
varianza de dicho término no es constante). Debido a este problema, los
estimadores Mínimos cuadrados ordinarios no serán suficientes, por lo que
resultará necesario recurrir a la estimación por MCG.
18
3. No cumplimiento de 1)/(0 ≤≤ ii XYE
Como la variable dependiente Y sólo puede tomar los valores 0 y 1, si
representamos gráficamente la nube de puntos formada por los pares de
observaciones de Y con una de las variables explicativas X, obtendremos
puntos situados sobre las rectas Y=1 e Y=0:
Y P(Y=1)
1
0 iX
Al estimar los parámetros del modelo de probabilidad lineal, estaremos
ajustando una recta a la nube de puntos anterior. El uso de dicha recta para
predecir nuevos valores de Y, es decir valores de ε−== YYP )1( a partir de
valores dados de X puede proporcionar valores mayores que 1 o menores que
0 (lo cual está en contradicción con la definición de probabilidad).
4. Finalmente, la expresión kki xxxYP ββββ ++++== ....)1( 2210 nos
dice que la probabilidad del suceso “éxito” viene determinada por una
combinación lineal de variables explicativas. De ello se deduce que
i
iX
YPβ=
∂=∂ )1(
, ki ,..1=∀ . En otras palabras, la variación en P(Y=1) causada
por cambios en alguna de las variables explicativas es constante (y, por tanto,
independiente del valor actual de dicha variable explicativa), lo cual es una
hipótesis muy poco realista.
19
2.6 ASPECTOS A TENER EN CUENTA PARA EL USO DE REGRESION
LOGISTICA
• Tamaño de la muestra y número de variables independientes. Una de las
ventajas de la regresión logística es que permite el uso de múltiples
variables con relativamente pocos casos, sin embargo, hay que tener en
cuenta algunas precauciones. Se ha sugerido que el número de sujetos
para poder usar este método multivariante sin problemas debe ser superior
a 10(K+1) donde K es el número de variables explicativas; por tanto, si se
introducen interacciones o variables dummy, el número de elementos en la
muestra debe aumentar. Además se ha sugerido que si una de las variables
dicotómicas (en especial si es la de respuesta) no tiene al menos 10 casos
en cada uno de sus 2 valores posibles, entonces las estimaciones, la
inclusión de un gran número de ellas en el modelo (ejemplo K mayor a 15),
puede indicar que no se ha reflexionado suficientemente sobre el problema.
• Es necesario tener en cuenta el efecto sobre el riesgo de que ocurra el
evento, de los cambios de las variables explicativas cuando son
cuantitativas, en ocasiones es necesario categorizarlas, ya que los cambios
que se producen de una unidad a otra pueden resultar intrascendentes o no
ser constantes a lo largo del rango de valores de la variable.
• Cuando algunas de las variables independientes analizadas están
altamente correlacionadas, los resultados que se obtienen pueden no ser
satisfactorios, por esta razón debe realizarse un análisis previo univariado
entre las distintas variables explicativas.
20
2.7 REGRESION LOGISTICA SIMPLE
Este modelo tiene la forma:
iii xy εββ ++= 10 para ni ,,2,1= (2.29)
De esto se deduce que:
Si 1=y , ii x101 ββε −−= (2.30)
Si 0=y , ii x10 ββε −−= (2.31)
Por tanto iε , no puede tener distribución normal debido a que toma valores
discretos, entonces el Modelo de Regresión Lineal Simple (MRLS) no es
aplicable para el caso de variable respuesta de tipo dicotómico.
En el ARL simple, el punto inicial del proceso de estimación del modelo es un
gráfico de dispersión de los valores de la variable respuesta versus los valores
de la regresora, pero este gráfico resulta limitado cuando sólo hay dos valores
posibles para la variable respuesta, por tanto se debe usar otros gráficos, éstos
resultan de la suavización de los valores de la variable respuesta,
representando después los valores de la variable respuesta versus la
regresora.
La notación que se usará en el presente trabajo para la RL es la misma que
emplea Hosmer y Lemeshow (2000).
Sea ( ) ( )xyEx =π (2.32)
Que representa la media condicional de 1=y dado x , donde ( )xπ representa
la probabilidad de que ocurra 1=y , ciertamente no se espera que (2.32) tenga
relación lineal dentro del rango de la variable regresora.
¿Qué hay de la relación entre ( )xπ y x para valores intermedios de x ? Se
espera una relación curvilínea. Para cualquier valor grande de x , ( )xπ tomará
21
valores cercanos a 1 y para valores pequeños de x , ( )xπ tomará valores
cercanos a cero. El gráfico que muestra el comportamiento de ( )xπ versus x
es:
FIGURA Nº 1
La curva en forma de S o sigmoide que tiene propiedades requeridas para
( )xπ y tiene las propiedades de una función de distribución de probabilidad
acumulada, para esta probabilidad se usa la función de distribución acumulada
de la distribución logística dada por:
( )x
x
e
ex
10
10
1 ββ
ββ
π+
+
+= (2.33)
(2.33) tiene un gráfico similar a la Figura Nº 1, cuando 00 <β y 01 >β ,
además este modelo toma valores en el intervalo [ ]1,0 .
Cuando , [ ] 5.01 ==yP el valor de x es: 1
0
ββ−
, que brinda información muy
útil.
Una transformación de ( )xπ que es lo central del estudio de la RL es la
transformación logit, transformación que se define en términos ( )xπ como:
( ) ( )( )
x
x
xLnxg
10
1
ββ
ππ
+=
−
=(2.34)
22
Lo importante de esta transformación es que tiene muchas propiedades
semejantes al MRL simple, por ejemplo es lineal en sus parámetros, puede ser
continua y puede tomar cualquier valor real dependiendo de x .
Para el MRL simple, la variable respuesta, de (2.4) se expresa como:
( ) ε+= xyEy (2.35)
para la variable respuesta dicotómica lo expresamos como:
( ) επ += xy (2.36)
veamos que ocurre con este modelo:
Si 1=y , ( )xi πε −=1 y tiene probabilidad ( )xπ
Si 0=y , ( )xi πε −= y tiene probabilidad ( )xπ−1
Entonces iε tiene distribución binomial con media cero y varianza
( ) ( )[ ]x1x ππ − . Por tanto la distribución condicional de la variable respuesta
tiene distribución de probabilidad binomial con media ( )xπ .
El lado izquierdo de (2.34) se llama también logaritmo de ODDS RATIO o razón
de probabilidades de 1=y contra 0=y , específicamente:
( )( )x
xRATIOODDS
ππ−
=1
(2.37)
o también llamado razón de ventaja a favor de éxito.
Para interpretar los parámetros consideremos (2.37) que da el siguiente
resultado:
En este caso no se trata del cambio (incremento o disminución) de la
probabilidad de la variable dependiente por cada unidad de cambio en las
independientes, sino del incremento o disminución que se produce en el
cociente entre la probabilidad de éxito y la probabilidad de fracaso.
( )( ) (2.38)
11010 xx eee
x
xRATIOODDS ββββ
ππ
==−
= +
23
Más aún, están expresados en logaritmos, por lo que sería necesario
transformarlos (tomando los valores del antilogaritmo) de tal forma que se
evalúe más fácilmente su efecto sobre la probabilidad. Los programas de
computador lo hacen automáticamente calculando tanto el coeficiente real
como el transformado. Utilizar este procedimiento no cambia en modo alguno
la forma de interpretar el signo del coeficiente. Un coeficiente positivo aumenta
la probabilidad, mientras que un valor negativo disminuye la probabilidad.
Así pues si 1β es positivo, su transformación (antilog) será mayor a 1, y el
odds ratio aumentará. Este aumento se produce cuando la probabilidad
prevista de ocurrencia de un evento aumenta y la probabilidad prevista de su
no ocurrencia disminuye. Por lo tanto, el modelo tiene una elevada probabilidad
de ocurrencia. De la misma forma, si 1β es negativo, el antilogaritmo es menor
que 1 y el odds ratio disminuye. Un valor de cero equivale a un valor de 1, lo
que no produce cambio en el odds ratio.
2.8 REGRESION LOGISTICA MULTIPLE
En esta sección se generaliza el Modelo de Regresión Logística Simple tratado
en la sección anterior, es decir consideraremos más de una variable regresora,
en donde por lo menos una es de tipo cuantitativo.
2.8.1 MODELO DE REGRESION LOGISTICA MULTIPLE
Sea el vector de variables regresoras ( )k
T xxxx ,....,, 21=r por el momento
asumiremos que están medidas por lo menos bajo escala intervalar. Sea la
probabilidad condicional para que la variable respuesta sea igual a 1, denotado
por:
( ) ( )xxyP rr π==1 (2.39)
el logaritmo del Modelo de Regresión Logística Múltiple (MRL_M) está dado
por:
( ) ikkiii xxxxg ββββ ++++= ......22110
r, para i=1, 2, ..., n (2.40)
24
entonces el MRL_M es:
( )( )
( )xg
xg
e
ex r
r
r
+=
1π (2.41)
Al igual que en el caso de MRLM si es necesario usar variables regresoras
categóricas, por ejemplo si una tiene c niveles será necesario incorporar c-1
variables ficticias o llamadas dummy; así entonces el logit para un modelo con
k variables regresoras y una variable categórica, por ejemplo la j-ésima es:
( ) ikk
c
ljljli xDxxg ββββ ∑
−
=++++=
1
1110 ......r
, para i=1, 2, ..., n (2.42)
2.8.2 MODELO DE REGRESION LOGISTICA MULTIPLE Y BONDAD DE
AJUSTE
El ajuste se efectúa a través del uso de los métodos de máxima verosimilitud,
los mismos que se encuentran en los softwares estadísticos que permiten
analizar datos mediante este método.
Asumiremos que disponemos de una muestra n observaciones independientes
( )ii yx ,r , i=1,2, ..., n ; donde iy toma valores 0 ó 1, para estimar
( )k
T ββββ ,...,, 10=r
que es el vector de parámetros desconocidos.
Para el M.R.L.M se usa el método de Mínimos Cuadrados para estimar βr
, el
cual minimiza la suma de cuadrados del error, pero cuando la variable
respuesta es binaria aplicar este método no provee las mismas propiedades
cuando es usado en variables respuestas continuas.
Por ello se usará el método de Máxima Verosimilitud, ya que obtendremos
parámetros estimados que maximizan la probabilidad de obtener un conjunto
de datos observados.
La función de verosimilitud expresa la probabilidad de los datos observados
como una función de parámetros desconocidos. Los Estimadores de Máxima
25
Verosimilitud de esos parámetros son aquellos que están en concordancia con
los datos observados.
Consideremos el MRL_M con mayor detalle, supongamos que se dispone de n
objetos u observaciones donde para cada uno de ellos existe una respuesta
que puede ser:
10 == ii yoy
Sea ( )n
T yyyy ,...,, 21=v donde ( )ii By π,1~ y sea
( )kii
T
i xxx .,....,,1 1=r la i-ésima observación para las k variables explicativas.
Así el Modelo de Regresión Logística está dada por la expresión (2.40):
[ ] ( )( )
( )i
i
xg
xg
ii e
exyP r
r
rr
+===
1x|1 iπ (2.43)
equivalentemente
[ ]
++
+
==∑
∑
=
=
k
jijj
k
jijj
ii
xExp
xExpxyP
10
10
1|1
ββ
ββr
(2.44)
y la probabilidad de que iy sea igual a cero es:
[ ] [ ][ ]
++
==
=−==
∑=
k
jijj
ii
iiii
xExpxyP
xyPxyP
101
10
:entonces,110
ββ
r
rr
(2.45)
para facilitar la notación usaremos la variable indicadora
nixi ,...,2,1,10 == .
Entonces (3.44) y (3.45) son respectivamente:
[ ] ( ) Ti
Ti
x
x
iiie
exxyP rr
rr
rrβ
β
π+
===1
|1 (2.46)
[ ] ( ) Tixiii
exxyP rrrr
βπ
+=−==
1
11|0 (2.47)
26
donde: ( )ikii
T
i xxxx ,....,, 10=r, es el vector que contiene los valores de las
variables explicativas
( )k
T ββββ ,...,, 10=r
es el vector de parámetros a ser estimado.
El i-ésimo logito es:
∑=
=
−
=k
jijj
i
ii xLn
01β
ππ
λ (2.48)
como vemos, (2.48) es una función lineal simple del vector de observaciones
ixr llamada transformación logística de la probabilidad iπ o simplemente Logit
o Logito de la ecuación, a la expresión (2.48) también se le llama Modelo
Logístico Lineal.
A fin de obtener la estimación máximo verosímil para el vector βr
, escribimos la
función de densidad de probabilidad del vector yr
el cual es proporcional a n
funciones ( )iB π,1 , esto es:
( ) ( )
( )
( )
( )
−
−=
−
−=
−
−
=
−=
∑∏
∏∏
∏
∏
==
==
=
=
−
n
i i
ii
n
ii
n
i
y
i
in
ii
n
ii
y
i
i
n
i
y
i
y
iii
LnyExp
LnExp
yf
i
i
ii
11
11
1
1
1
11
11
11
1;
ππ
π
ππ
π
ππ
π
πππ
(2.49)
Reemplazando (2.48) en (2.49), se obtiene:
( ) ( )
( )
=
=
∑ ∑∏
∑ ∑∏
= ==
= ==
k
jj
n
iiji
n
i
k
ijj
n
ii
xyExp
xyf
0 11ii
n
1 0ji
1ii
-1
yExp-1;
βπ
βππ(2.50)
El logaritmo natural de la función (2.50), llamado función soporte es:
27
( ) ( )
( )[ ]( ) ( )[ ]
( ) )52.2(1-1Ln
1-1Ln
entonces ,1-1 :(2.49) pero
)51.2(1ln;
0
1
i
0 11
+−=
+−=
+=
−+
=
∑
∑ ∑∑
=
−
= ==
ij
k
jji
i
T
i
i
T
k
j
n
iij
n
iijiii
xExpLn
xExpLn
xExp
xyyl
βπ
βπ
βπ
πβπ
rr
rr
reemplazando (2.52) en (2.51), se obtiene:
( ) ∑ ∑∑ ∑= == =
+−
=
n
i
k
jijjj
k
j
n
iijii xExpLnxyy
1 00 1i 1;l ββπ (2.53)
como vemos (2.53) es una función que ya no depende de iπ sino de jβ
solamente, entonces lo denotamos como:
( ) ∑ ∑∑ ∑= == =
+−
=
n
i
k
jijj
k
jj
n
iiji xExpLnxyL
1 00 1
1 βββr
(2.54)
es una función que depende exclusivamente del vector βr
.
Definamos como:
∑=
=n
iijij xyt
1
(2.55)
entonces reemplazando (2.55) en (2.54) se tiene:
( ) ∑ ∑∑= ==
+−=
n
i
k
jijj
k
jjj xExpLntL
1 00
1 βββr
(2.56)
Como (2.56) es una función exclusiva del vector de parámetros βr
, por el
Teorema de Factorización de Fisher-Neyman, Bickel y Doksum (1976), se tiene
que k0,1,....,j para =jt son estadísticas suficientes para los parámetros ,jβ
para j = 0,1,...,k.,
La variable aleatoria jt dada en la expresión (2.56) es la suma de algunos de
los términos de la matriz de diseño X , es decir se incluyen en la suma
solamente los elementos que corresponden a una respuesta del tipo 1=y .
28
Las ecuaciones de verosimilitud, se obtienen derivando (2.54) con respecto a
los elementos de βr
e igualando a cero:
∑ ∑∑
∑
= =
=
=
+
−=∂∂ n
i
n
ik
jijj
k
jijj
ijiji
j xExp
xExp
xxyL
1 1
0
0
1 β
β
β(2.57)
las ecuaciones de verosimilitud de (2.57) son:
kjxxyn
iiij
n
iiji .....,2,1,00ˆ
11
==− ∑∑==
π (2.58)
siendo 10 =ix , equivalentemente (2.58) es:
( ) kjyxn
iiiij .....,2,1,00ˆ
1
==−∑=
π (2.59)
donde:
ˆ1
ˆ
ˆ
0
0
+
=∑
∑
=
=
k
jijj
k
jijj
i
xExp
xExp
β
βπ ; para i=1,2,...,n
es el estimador máximo verosímil de iπ y se obtiene mediante jβ y el vector
ixr
La expresión (2.58) en su forma matricial es:
( ) 0ˆrrrr ==− SXyX T π (2.60)
Estas ecuaciones son parecidas a las ecuaciones normales obtenidas para
estimar el MRLM, pero son no lineales en βr
, lo cual hace que se use un
método iterativo para determinar los valores del vector βr
.
La obtención de jβ mediante métodos iterativos; para kj ,...,1,0= se
tratará en la siguiente sección, ahora obtendremos la varianza y covarianza de
βr
.
Sea )(nxpX la matriz de diseño, con p=k+1, con elementos:
29
=
nknn
k
k
xxx
xxx
xxx
X
..1
........
........
....1
....1
21
22221
11211
Las ecuaciones de verosimilitud en su forma matricial, de la expresión (2.60):
πXyX TT rr= (2.61)
donde ( )nππππ ˆ,...,ˆ,ˆˆ21
T =r
( ) 01
=−∑=
n
iiiij yx π (2.62)
El método de estimación de las varianzas y covarianzas lo obtendremos de la
matriz de segunda derivada parcial de (2.62): y tiene la forma:
( )ii
n
iij
j
xL
ππβ
−−=∂∂
∑=
11
2
2
2
para j=0, 1, 2, ....., k (2.63)
reemplazando: la ecuación para iπ en (2.63)
∑∑
∑
=
=
=
+
−=∂∂ n
i k
jijj
k
jijjij
j
xExp
xExpxL
12
0
0
2
2
2
1 β
β
β para j=0,1,2,....K (2.64)
( )∑=
−−=∂∂
∂ n
iiiilij
lj
xxL
1
2
1 ππββ (2.65)
reemplazando:
∑∑
∑
=
=
=
+
−=∂∂
∂ n
i k
jijj
k
jijj
ilij
ljxExp
xExp
xxL
12
0
02
1 β
β
ββ(2.66)
30
Tanto (2.64) como (2.65) no son funciones de iy entonces la matriz de
observación y la matriz de segunda derivada esperada son idénticas.
Ahora bien la matriz que contiene el negativo de las ecuaciones (2.64) y (2.66)
se denota con ( )βrΙ , llamada Matriz de Información; las varianzas y
covarianzas de jβ se obtienen tomando la inversa de esta matriz, esto es:
( ) ( )ββrr
1−Ι=Cov (2.67)
ver Cordeiro (1992).
Los estimadores de la varianza y covarianza, denotada por
( ) ( ) .ˆen evaluando obtiene se ,ˆˆ βββrrr
CovovC
Entonces la matriz de información estimada, matricialmente tiene la forma:
( ) VXX 'ˆˆ =Ι βr
(2.68)
V es una matriz diagonal, esto es:
( )[ ]iiDiagV ππ ˆ1ˆ −=
de tamaño nxn, además (2.68) es:
( ) ( ) 1'ˆˆ −= VXXovC βr
(2.69)
y es de tamaño (k+1)(k+1)
escribiremos los elementos de la matriz (2.69)
( )
( ) ( ) ( )( ) ( )
( )
=
k
k
k
ovC
βσ
ββσβσ
ββσββσβσ
β
ˆˆ.......
........
........
ˆ,ˆˆ......ˆˆ.
ˆ,ˆˆ.....ˆ,ˆˆˆˆ
ˆˆ
2
11
0100
2
r
donde:
( )jβσ 2ˆ es la varianza estimada de jβ
( )lββσ ˆ,ˆˆ j es la covarianza estimada de jβ y lβ
31
( )jβσ ˆˆ es el error estandar de jβ
La matriz (2.69) será muy útil cuando se discuta el ajuste y la evaluación del
Modelo de Regresión Logística.
2.8.3 METODO DE NEWTON – RAPHSON PARA ESTIMAR LOS
PARAMETROS DEL MODELO DE REGRESION LOGISTICA.
Este es un método para resolver ecuaciones no lineales, como las obtenidas en
(2.55) o equivalentemente en (2.58), y requieren una solución mediante
métodos iterativos para hallar la estimación de los parámetros que es el
máximo de la función (2.54).
Uno de los métodos más usados para resolver ecuaciones de este tipo, es el
de Newton-Raphson, porque converge rápidamente. En el gráfico Nº2 se ilustra
el método.
Tomando como estimación inicial 1x , se prolonga la tangente a la curva en
este punto hasta interceptar con el eje de las abscisas al cual llamaremos
punto 2x , entonces se toma a 2x como la siguiente aproximación.
Este proceso continua hasta que un valor de 2x haga que la función sea nula o
suficientemente cercana a cero.
Para la estimación del vector βr
se quiere hallar el máximo de una función;
entonces usa la primera derivada, porque se anula en el punto máximo y la
segunda derivada para calcular las tangentes. En nuestro caso es necesario
hallar la segunda derivada para obtener la matriz de varianzas y covarianzas
de los parámetros estimados.
32
Gráfico Nº2 Interpretación Geométrica del Método Iterativo de Newton
Raphson.
F(x)
Entonces se usa el siguiente esquema iterativo:
( ) ( ) ( )( )[ ] ( )( )tttt S ββββ ˆˆˆˆ 11
rrrr −+ Ι+= (2.70)
donde:
( )βrS y ( )βrΙ son las funciones de Score y de Información respectivamente.
La función Score es un vector de tamaño k+1, donde el j-ésimo elemento de
acuerdo a (2.65) es:
( )( )∑=
−=∂∂ n
iij
t
ii
j
xyL
1
πβ
(2.71)
La cual es similar a la expresión (2.59):
( ) kjyxi
iiij ...,,2,10ˆ ==−∑ π
La Función de información es una matriz de tamaño (k+1)(k+1) donde el i-j
ésimo elemento (l,j) es:
( )
−
∂∂
−=∂∂
∂ ∑=
n
iiiij
llj
yxl
1
2
πβββ
f(x2)
f(x1)
x2 x1 x
33
+−
∂∂
−= ∑ ∑= =
n
ix
xn
iijiij
li
T
iT
e
exyx
1 1 1rr
rr
β
β
β
+
−
+
∑=
=2
1
1
1i
xT
e
ixT
eil
xixT
eixT
eil
xixT
en
iij
xrr
rrrrrrrr
β
ββββ
( )∑= +
=n
i x
xilij
iT
iT
e
exx
12
1rr
rr
β
β
( )∑=
−=n
iiiilij xx
1
1 ππ j=0,1,....,k ; l =0,1,....,k (2.72)
donde ( )tπr , es la t-ésima aproximación para πr , obtenida de ( )tβr
mediante:
( )
( )
( )
+
=
∑
∑
=
=
ij
k
j
t
j
ij
k
j
t
jt
i
xExp
xExp
0
0
1 β
βπ (2.73)
Entonces el próximo valor reemplazando en (2.70) es: