Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM CAPÍTULO 2 MODELO DE REGRESIÓN LOGÍSTICA 2.1 INTRODUCCIÓN La Regresión Logística es una técnica estadística multivariante que nos permite estimar la relación existente entre una variable dependiente no métrica, en particular dicotómica y un conjunto de variables independientes métricas o no métricas. El Análisis de Regresión Logística tiene la misma estrategia que el Análisis de Regresión Lineal Múltiple, el cual se diferencia esencialmente del Análisis de Regresión Logística por que la variable dependiente es métrica; en la práctica el uso de ambas técnicas tienen mucha semejanza, aunque sus enfoques matemáticos son diferentes. La variable dependiente o respuesta no es continua, sino discreta (generalmente toma valores 1,0). Las variables explicativas pueden ser cuantitativas o cualitativas; y la ecuación del modelo no es una función lineal de partida, sino exponencial; si bien, por sencilla transformación logarítmica, puede finalmente presentarse como una función lineal. Así pues el modelo será útil en frecuentes situaciones prácticas de investigación en que la respuesta puede tomar únicamente dos valores: 1, presencia (con probabilidad p ); y 0, ausencia (con probabilidad 1- p). El modelo será de utilidad puesto que, muchas veces, el perfil de variables puede estar formado por caracteres cuantitativos y cualitativos; y se pretende hacer participar a todos ellos en una única ecuación conjunta. El modelo puede acercarse mas a la realidad ya que muchos fenómenos, como los del campo epidemiológico, se asemejan más a una curva que a una recta. Además la curva exponencial elegida como mejor ajuste, puede ser transformada logarítmicamente en una ecuación lineal de todas las
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
CAPÍTULO 2
MODELO DE REGRESIÓN LOGÍSTICA
2.1 INTRODUCCIÓN
La Regresión Logística es una técnica estadística multivariante que nos
permite estimar la relación existente entre una variable dependiente no
métrica, en particular dicotómica y un conjunto de variables independientes
métricas o no métricas.
El Análisis de Regresión Logística tiene la misma estrategia que el Análisis
de Regresión Lineal Múltiple, el cual se diferencia esencialmente del
Análisis de Regresión Logística por que la variable dependiente es métrica;
en la práctica el uso de ambas técnicas tienen mucha semejanza, aunque
sus enfoques matemáticos son diferentes.
La variable dependiente o respuesta no es continua, sino discreta
(generalmente toma valores 1,0). Las variables explicativas pueden ser
cuantitativas o cualitativas; y la ecuación del modelo no es una función lineal
de partida, sino exponencial; si bien, por sencilla transformación logarítmica,
puede finalmente presentarse como una función lineal.
Así pues el modelo será útil en frecuentes situaciones prácticas de
investigación en que la respuesta puede tomar únicamente dos valores: 1,
presencia (con probabilidad p); y 0, ausencia (con probabilidad 1-p).
El modelo será de utilidad puesto que, muchas veces, el perfil de variables
puede estar formado por caracteres cuantitativos y cualitativos; y se
pretende hacer participar a todos ellos en una única ecuación conjunta.
El modelo puede acercarse mas a la realidad ya que muchos fenómenos,
como los del campo epidemiológico, se asemejan más a una curva que a
una recta. Además la curva exponencial elegida como mejor ajuste, puede
ser transformada logarítmicamente en una ecuación lineal de todas las
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
variables, siendo así que el aparato matemático estudiado para la regresión
lineal múltiple será aplicable; aunque el investigador tenga, al final, que
deshacer la transformación para interpretar sus conclusiones.
Si para el Modelo de Regresión Logística una variable regresora de tipo
categórica tiene c niveles habrá que generar c-1 variables ficticias (dummy)
a fin que todas las posibilidades de la variable queden bien representadas en
el modelo logístico.
Cuando todas las variables regresoras son categóricas entonces se usa el
modelo Log lineal, ver Mc Cullagh (1983).
2.2 OBJETIVOS DE LA REGRESIÓN LOGÍSTICA
El objetivo primordial de esta técnica es el de modelar como influyen las
variables regresoras en la probabilidad de ocurrencia de un suceso
particular.
Sistemáticamente tiene dos objetivos:
1. Investigar como influye en la probabilidad de ocurrencia de un suceso, la
presencia o no de diversos factores y el valor o nivel de los mismos.
2. Determinar el modelo más parsimonioso y mejor ajustado que siendo
razonable describa la relación entre la variable respuesta y un conjunto
de variables regresoras.
2.3 REGRESIÓN LOGÍSTICA Y OTROS MÉTODOS RELACIONADOS
El objetivo general de la Regresión Logística es predecir la probabilidad de
un evento de interés en una investigación, así como identificar las variables
predictoras útiles para tal predicción.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
Se pueden usar varios métodos multivariantes para predecir una variable
respuesta de naturaleza dicotómica a partir de un grupo de variables
regresoras.
El Análisis de Regresión Lineal Múltiple y el Análisis Discriminante son dos
métodos eficaces pero plantean problemas cuando la variable respuesta es
binaria.
En el Análisis de Regresión Lineal Múltiple cuando la variable respuesta
toma solo dos valores, se violan los supuestos de necesarios para efectuar
inferencias, los problemas que se plantean son:
1. La distribución de los errores aleatorios no es normal.
2. Los valores predictados no pueden ser interpretados como
probabilidades como en la Regresión Logística, porque no toman
valores dentro del intervalo [0,1].
El Análisis Discriminante permite la predicción de pertenencia de la unidad
de análisis a uno de los dos grupos pre-establecidos, pero se requiere que
se cumplan los supuestos de multinormalidad de las variables regresoras y
la igualdad de matrices de covarianzas de los dos grupos, pueden ser
diferentes también; para que la regla de predicción sea óptima, Johnson
(1982).
La Regresión Logística requiere mucho menos supuestos que el AD, por ello
cuando satisfacen los supuestos requeridos para el AD, la Regresión
Logística trabaja bien.
A continuación se describirá un paralelo entre la Regresión Lineal Múltiple y
la Regresión Logística, debido a que ambos tienen el mismo objetivo,
predecir la variable respuesta a partir de las variables regresoras.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
2.4 REVISIÓN DEL MODELO DE REGRESIÓN LINEAL MÚLTIPLE
La diferencia básica entre los modelos del Análisis de Regresión Lineal
Múltiple y de la Regresión Logística es naturaleza de la relación entre la
variable respuesta y las variables regresoras.
Para el Análisis de Regresión Lineal Múltiple, consideremos y una variable
respuesta cuantitativa y kxxx ,....,, 21 variables regresoras o llamadas
también explicativas; y se desea describir la relación que hay entre la
variable respuesta y las variables explicativas, si entre la variable respuesta
y las regresoras hay una relación lineal se espera que:
( ) ikkiii xxxyE ββββ ++++= ......22110 , (2.1)
para i=1, 2, ..., n
donde:
iy es el valor de la variable respuesta cuantitativa para el i-ésimo objeto.
jβ ; j = 0, 1, 2,....,k son los parámetros.
Siendo n el número de objetos u observaciones.
Aunque (2.1) no de valores exactos, se espera que varíe linealmente con las
variables regresoras, esto es:
( ) ikkiiii xxxxyE ββββ ++++= ......| 22110ρ
,
para i=1, 2, ..., n
(2.2)
siendo ( )iniiiTi xxxxx ,...,,, 210=ρ
la i-ésima observación, con 10 =ix ,
(2.2) toma valores reales y en forma vectorial es:
( ) βρρρ T
iii xxyE =| (2.3)
donde ( )kT βββββ ,...,,, 210=
ρ es el vector de parámetros.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
Pero en (2.3) hay otras variables regresoras que pueden influir linealmente
sobre iy , por tanto cada valor de iy está variando alrededor de ( )iyE a
esa variación lo denotamos con iε , esto es:
( )β
ερρ
ρ
Tii
iiii
xy
xyEy
−=
−= |(2.4)
de (2.4):
iTii xy εβ +=
ρρ (2.5)
iikkiii xxxy εββββ +++++= ......22110 ,
para i=1, 2, ..., n
(2.6)
llamado Modelo de Regresión Lineal Múltiple poblacional, a iε se le llama
error aleatorio y tiene las siguientes propiedades:
(( ))(( ))
(( ))(( )) 0,
0,
20
==
≠≠∀∀====
==
jXiCov
jijiCoviV
iE
ε
εεσε
ε
(2.7)
las variables regresoras no son variables aleatorias y el comportamiento de
y es la respuestas a aquellas, así mismo iε es una variable aleatoria no
observable.
Generalizando el Modelo de Regresión Lineal Múltiple, (2.6), mediante el
álgebra matricial está dada por:
εβ ρρρ += Xy (2.8)
donde:
( )nT yyyy ,....,, 21=ρ
, vector de variables respuestas observadas
( )kxxxX ρρρ ,.....,,,1 21= matriz de rango completo y con
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
( )ikiiTi xxxx ,...,,,1 21=ρ
( )kT ββββ ,.....,, 10=
ρ
( )nT εεεε ,....,, 21=ρ
así mismo (2.1) en forma matricial es:
( ) βρρ XyE = (2.9)
el objetivo es estimar los parámetros del modelo (2.6), los mismos que son
estimados mediante el método de mínimos cuadrados.
Sea iy la estimación de iy , entonces:
ikkiii xxxy ββββ ˆ......ˆˆˆˆ 22110 ++++= ,
para i=1, 2, ..., n (2.10)
o equivalentemente:
βˆρρT
ii xy = (2.11)
siendo:
( )kT ββββ ˆ,.....,ˆ,ˆˆ 10=
ρ, el vector de parámetros estimados.
(2.10) en su forma matricial es:
βˆρρ Xy = (2.12)
los residuos ordinarios ir es la contraparte muestral de iε y está dado por:
iii yyr ˆ−= para i=1, 2, ...., n (2.13)
en forma vectorial es:
yyr ρρρ −= (2.14)
El estimador de βρ
se obtiene usando el método de mínimos cuadrados, ver
que consiste en minimizar la suma de cuadrados del error y está dada por:
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
( ) ( )yyyyeeeSCETn
i
Ti ˆˆ
1
2 ρρρρρρ −−=== ∑=
con respecto a βρ
, esta suma de cuadrados se expresa en forma
cuadrática como::
( ) ( )ββρρρρ XyXy T −− (2.15)
al minimizarlo se obtiene que:
( ) yXXX TT ρρ=β (2.16)
llamada ecuaciones normales.
Como ( )XX T es invertible, por que es simétrica de tamaño (k+1)x(k+1) y
de rango completo, entonces la solución del sistema lineal es:
( ) yXXX TT ρρ 1ˆ −=β (2.17)
que es sensible a observaciones pobremente ajustados y a los puntos
extremos de X , Montgomery y Peck (1992).
El vector (2.12) de valores estimados para el vector de variables respuesta
es:
βˆρρ Xy =
( ) yXXXXy TT ρρ 1ˆ
−= (2.18)
a la matriz ( ) yXXXX TT ρ1− , se le llama matriz de cambio o de
proyección denotada por H , entonces (2.18) es:
yHy ρρ =ˆ (2.19)
El vector de residuos es:
yyr ρρρ −=
yHyr ρρρ −= (2.20)
( )yHIr ρρ −= (2.21)
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
yMr ρρ = (2.22)
El vector rρ describe las desviaciones de los valores observados de los
ajustados y la matriz M es el subespacio en el cual cae rρ .
El vector residual es importante para detectar puntos ´extraños¨. A la matriz
H se le llama matriz sombrero o de proyección, ver Cook y Weisberg
(1982). Ahora veamos como queda expresado la suma de cuadrados de los
residuos, denotada por SCE :
( ) ( )yyyySCE T ˆˆ ρρρρ −−= (2.23)
Reemplazando yρ
por βρ
X : (2.23) es:
( ) ( )ββ ˆˆ ρρρρ −−= yXySCET
(2.24)
Y reemplazando βρ
por ( ) yXXX TT ρ1−:
( ) yXXXXyyySCE TTTT ρρρρ 1−−= (2.25)
La matriz ( ) TT XXXXH1−
= , entonces:
yHyyySCE TT ρρρρ −= (2.26)
( )yHIySCE T ρρ −= (2.27)
Sea HIM −= , entonces (2.27) es:
yMySCE T ρρ= (2.28)
Bajo el supuesto que ( )nIN 2,0~ σερρ
, las observaciones nyyy ,...,, 21
son independientes y distribuidas cono una Normal n-variada con
( ) βρρ XyE = con matriz de varianzas y covarianzas nI2σ .
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
En la Regresión Logística, se estima la probabilidad de que un evento
ocurra; es decir, el valor esperado de y dado las variables regresoras, debe
tomar valores entre 0 y 1. La relación entre las variables regresoras y la
dependiente no es lineal. Las estimaciones de probabilidad estarán siempre
entre 0 y 1, así, el valor de la variable respuesta se puede definir como una
probabilidad de que ocurra o no un evento sujeto a control.
En la Regresión Logística, se seleccionan los coeficientes, del modelo, que
hacen que los resultados sean los más “probables”. Como el modelo de
Regresión Logística no es lineal, se requiere de un algoritmo iterativo para
estimar los parámetros.
En las secciones siguientes se detallarán los aspectos teóricos y la
aplicación de la Regresión Logística.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
2.5 REGRESIÓN LOGÍSTICA SIMPLE
Este modelo tiene la forma:
iixiy εββ ++++== 10 para ni ,,2,1== (2.29)
De esto se deduce que:
Si 1==y , ixi 101 ββε −−−−== (2.30)
Si 0==y , ixi 10 ββε −−−−== (2.31)
Por tanto iε , no puede tener distribución normal debido a que toma valores
discretos, el Modelo de Regresión Lineal Simple, no es aplicable para el
caso de variable respuesta de tipo dicotómico.
En el Análisis de Regresión Lineal simple, el punto inicial del proceso de
estimación del modelo es un gráfico de dispersión de la variable respuesta
versus la regresora, pero este gráfico resulta limitado cuando sólo hay dos
valores posibles para la variable respuesta, por tanto se debe usar otros
gráficos, éstos resultan de la suavización de los valores de la variable
respuesta, representando después los valores de la variable respuesta
versus la regresora.
La notación que se usará en el presente trabajo para la Regresión Logística
es misma que emplea Hosmer y Lemeshow (2000).
Sea (( )) (( ))xyEx ==π (2.32)
Que representa la media condicional de 1==y dado x , donde (( ))xπ
representa la probabilidad de que ocurra 1==y , ciertamente no se espera
que (2.32) tenga relación lineal dentro del rango de la variable regresora.
¿Qué hay de la relación entre (( ))xπ y x para valores intermedios de x ? Se
espera una relación curvilínea. Para cualquier valor grande de x , (( ))xπ
tomará valores cercanos a 1 y para valores pequeños de x , (( ))xπ tomará
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
valores cercanos a cero. El gráfico que muestra el comportamiento de (( ))xπ
versus x es:
FIGURA Nº 2.1
curva en forma de S o sigmoide que tiene las propiedades requeridas para
(( ))xπ y que tiene las propiedades de una función de distribución de
probabilidad acumulada, para esta probabilidad se usa la función de
distribución acumulada de la distribución logística dada por:
(( ))xe
xex
101
10ββ
ββπ
++++
++== (2.33)
(2.33) tiene un gráfico similar a la Figura Nº 2.1, cuando 00 <<β y
01 >>β , además este modelo toma valores en el intervalo [[ ]]1,0 .
Cuando , [[ ]] 5.01 ====yP el valor de x es: 10
ββ−−
, que brinda información
muy útil.
Una transformación de (( ))xπ que es lo central del estudio de la Regresión
Logística es la transformación logit, transformación que se define en
términos (( ))xπ como:
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
(( )) (( ))(( ))
x
x
xLnxg
10
1ββ
ππ
++==
−−
== (2.34)
Lo importante de esta transformación es que tiene muchas propiedades
semejantes al Modelo de Regresión Lineal simple, por ejemplo es lineal en
sus parámetros, puede ser continua y puede tomar cualquier valor real
dependiendo de x .
Para el Modelo de Regresión Lineal simple, la variable respuesta, de (2.4) se
expresa como:
(( )) ε++== xyEy (2.35)
para la variable respuesta dicotómica lo expresamos como:
(( )) επ ++== xy (2.36)
veamos que ocurre con este modelo:
Si 1==y , (( ))xi πε −−== 1 y tiene probabilidad (( ))xπ
Si 0==y , (( ))xi πε −−== y tiene probabilidad (( ))xπ−−1
Entonces iε tiene distribución binomial con media cero y varianza
(( )) (( ))[[ ]]xx ππ −−1 . Por tanto la distribución condicional de la variable
respuesta tiene distribución de probabilidad binomial con media (( ))xπ .
El lado izquierdo de (2.34) se llama también logaritmo de ODDS RATIO o
razón de probabilidades de 1==y contra 0==y , especificamente:
(( ))(( ))x
xRATIOODDS
ππ−−
==1
(2.37)
o también llamado razón de ventaja a favor de éxito.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
2.6 REGRESIÓN LOGÍSTICA MÚLTIPLE
En esta sección se generaliza el Modelo de Regresión Logística Simple
tratado en la sección anterior, es decir consideraremos más de una variable
regresora, en donde por lo menos una es de tipo cuantitativo.
2.6.1 MODELO DE REGRESIÓN LOGÍSTICA MÚLTIPLE
Sea el vector de variables regresoras (( ))kxxxTx ,....,2,1==ρ por el
momento asumiremos que están medidas por lo menos bajo escala
intervalar. Sea la probabilidad condicional para que la variable respuesta sea
igual a 1, denotado por:
(( )) (( ))xxyPρρ π==== 1 (2.39)
el logaritmo del Modelo de Regresión Logística Múltiple está dado por:
(( )) ikxkixixixg ββββ ++++++++== ......22110ρ
, para i=1, 2, ..., n
(2.40)
entonces el Modelo de Regresión Logística Múltiple es:
(( ))(( ))
(( ))xge
xgex ρ
ρρ
++==
1π (2.41)
Al igual que en el caso de Regresión Lineal Múltiple si es necesario usar
variables regresoras categóricas, por ejemplo si una tiene c niveles será
necesario incorporar c-1 variables ficticias o llamadas dummy., así entonces
el logit para un modelo con k variables regresoras y una variable categórica,
por ejemplo la j-ésima es:
(( )) ikxkc
ljlDjlixxg ββββ ∑∑
−−
==++++++++==
1
1......110
ρ ,
para i=1, 2, ..., n
(2.42)
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
2.6.2 AJUSTE DEL MODELO DE REGRESIÓN LOGÍSTICA MÚLTIPLE
El ajuste se efectúa a través del uso de los métodos de máxima
verosimilitud, los mismos que se encuentran en los softwares estadísticos
que permiten analizar datos mediante este método.
Asumiremos que disponemos de una muestra n observaciones
independientes
(( ))iyix ,ρ, i=1,2, ..., n ; donde iy toma valores 0 ó 1, para estimar
( )kT ββββ ,...,, 10=
ρ que es el vector de parámetros
desconocidos.
Para el Modelo de Regresión Lineal Múltiple se usa el método de Mínimos
Cuadrados para estimar βρ
, el cual minimiza la suma de cuadrados del
error, pero cuando la variable respuesta es binaria aplicar este método no
provee las mismas propiedades cuando es usado en variables respuestas
continuas.
Por ello se usará el método de Máxima Verosimilitud, ya que obtendremos
parámetros estimados que maximizan la probabilidad de obtener un conjunto
de datos observados.
La función de verosimilitud expresa la probabilidad de los datos observados
como una función de parámetros desconocidos. Los Estimadores de Máxima
Verosimilitud de esos parámetros son aquellos que están en concordancia
con los datos observados.
Consideremos el Modelo de Regresión Lineal Múltiple con mayor detalle,
supongamos que se dispone de n objetos u observaciones donde para cada
uno de ellos existe una respuesta que puede ser:
10 == ii yoy
Sea ( )nT yyyy ,...,, 21=ϖ
donde ( )ii By π,1~ y sea
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
( )kiiT
i xxx .,....,,1 1=ρ la i-ésima observación para las k variables
explicativas.
Así el Modelo de Regresión Logística está dada por la expresión (2.40):
[[ ]] (( ))(( ))
(( ))ixge
ixgeixixiyP ρ
ρρρ
++======
1|1 π (2.43)
equivalentemente
[[ ]]
==++++
==++
====
∑∑
∑∑
k
jijxjExp
k
jijxjExp
ixiyP
101
10
|1
ββ
ββρ
(2.44)
y la probabilidad de que iy sea igual a cero es:
[[ ]] [[ ]][[ ]]
==++++
====
==−−====
∑∑k
jijxjExp
ixiyP
:entoncesixiyPixiyP
101
10
,110
ββ
ρ
ρρ
(2.45)
para facilitar la notación usaremos la variable indicadora
nixi ,...,2,1,10 == .
Entonces (2.44) y (2.45) son respectivamente:
[[ ]] (( ))Tix
e
Tix
eixixiyP
ρρ
ρρ
ρρ
β
βπ
++
======
1
|1 (2.46)
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
[[ ]] (( ))Tix
e
ixixiyPρρ
ρρ
βπ
++
==−−====
1
11|0 (2.47)
donde: ( )ikiiTi xxxx ,....,, 10=ρ
, es el vector que contiene los valores de las
variables explicativas
( )kT ββββ ,...,, 10=
ρ es el vector de parámetros a ser estimado.
El i-ésimo logito es:
∑∑==
==
−−
==k
jijxj
i
iLni01β
ππ
λ (2.48)
como vemos, (2.48) es una función lineal simple del vector de observaciones
ixρ llamada transformación logística de la probabilidad iπ o simplemente
Logit o Logito de la ecuación, a la expresión (2.48) también se le llama
Modelo Logístico Lineal.
A fin de obtener la estimación máximo verosímil para el vector βρ
,
escribimos la función de densidad de probabilidad del vector yρ
el cual es
proporcional a n funciones ( )iB π,1 , esto es:
( ) ( )
( )
( )
( )
−
−=
−
−=
−
−
=
−=
∑∏
∏∏
∏
∏
==
==
=
=
−
n
i i
ii
n
ii
n
i
iy
i
in
ii
n
ii
iy
i
i
n
i
iyi
iyiii
LnyExp
LnExp
yf
11
11
1
1
1
11
11
11
1;
ππ
π
ππ
π
ππ
π
πππ
(2.49)
Reemplazando (2.48) en (2.49), se obtiene:
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
(( )) (( ))
(( ))
==
==
====
== ==
====
∑∑ ∑∑∏∏
∑∑ ∑∑∏∏
k
jj
n
iijxiyExp
n
1ii-1
n
i
k
0jijxjiyExp
n
1ii-1iiyf
0 1
1;
βπ
βππ
(2.50)
El logaritmo natural de la función (2.50), llamado función soporte es:
( ) ( )∑ ∑∑= ==
−+
=
k
j
n
iij
n
iijiii xyyl
0 11
1ln; πβπ (2.51)
( )[ ]( ) ( )[ ]i
Ti
iT
xExpLn
xExpρρ
ρρ
βπ
βπ
+−=
+=−
1-1Ln
entonces ,1-1 :(2.47) pero1
i
( )
+−= ∑
=ij
k
jji xExpLn
0
1-1Ln βπ (2,52)
reemplazando (2.52) en (2.51), se obtiene:
( ) ∑ ∑∑ ∑= == =
+−
=
n
i
k
jijjj
k
j
n
iijii xExpLnxyy
1 00 1i 1;l ββπ (2.53)
como vemos (2.53) es una función que ya no depende de iπ sino de jβ
solamente, entonces lo denotamos como:
( ) ∑ ∑∑ ∑= == =
+−
=
n
i
k
jijj
k
jj
n
iiji xExpLnxyL
1 00 11 βββ
ρ (2.54)
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
es una función que depende exclusivamente del vector βρ
.
Definamos como:
∑=
=n
iijij xyt
1 (2.55)
entonces reemplazando (2.55) en (2.54) se tiene:
( ) ∑ ∑∑= ==
+−=
n
i
k
jijj
k
jjj xExpLntL
1 001 βββ
ρ(2.56)
Como (2.56) es una función exclusiva del vector de parámetros βρ
, por el
Teorema de Factorización de Fisher-Neyman, Bickel y Doksum (1976), se
tiene que k0,1,....,jpara =jt son estadísticas suficientes para los
parámetros ,jβ para j = 0,1,...,k.,
La variable aleatoria jt dada en la expresión (2.56) es la suma de algunos
de los términos de la matriz de diseño X , es decir se incluyen en la suma
solamente los elementos que corresponden a una respuesta del tipo 1=y .
Las ecuaciones de verosimilitud, se obtienen derivando (2.54) con respecto
a los elementos de βρ
e igualando a cero:
∑ ∑∑
∑
= =
=
=
+
−=∂∂ n
i
n
ik
jijj
k
jijj
ijijij xExp
xExp
xxyL
1 1
0
0
1 β
β
β (2.57)
las ecuaciones de verosimilitud de (2.57) son:
kjxxyn
iiij
n
iiji .....,2,1,00ˆ
11==− ∑∑
==π (2.58)
siendo 10 =ix , equivalentemente (2.58) es:
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
( ) kjyxn
iiiij .....,2,1,00ˆ
1==−∑
=π (2.59)
donde:
ˆ1
ˆ
ˆ
0
0
+
=
∑
∑
=
=
k
jijj
k
jijj
i
xExp
xExp
β
β
π ; para i=1,2,...,n
es el estimador máximo verosímil de iπ y se obtiene mediante jβ y el
vector ixρ
La expresión (2.58) en su forma matricial es:
( ) 0ˆρρρρ ==− SXyX T π (2.60)
Estas ecuaciones son parecidas a las ecuaciones normales obtenidas para
estimar el Modelo de Regresión Lineal Múltiple, pero son no lineales en βρ
,
lo cual hace que se use un método iterativo para determinar los valores del
vector βρ
.
La obtención de jβ mediante métodos iterativos; para kj ,...,1,0= se
tratará en la siguiente sección, ahora obtendremos la varianza y covarianza
de βρ
.
Sea )(nxpX la matriz de diseño, con p=k+1, con elementos:
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
=
nknn
k
k
xxx
xxx
xxx
X
..1................
....1
....1
21
22221
11211
Las ecuaciones de verosimilitud en su forma matricial, de la expresión (2.60):
πXyX TT ρρ = (2.61)
donde ( )nππππ ˆ,...,ˆ,ˆˆ21
T =ρ
( ) 01
=−∑=
n
iiiij yx π (2.62)
El método de estimación de las varianzas y covarianzas lo obtendremos de
la matriz de segunda derivada parcial de (2.62): y tiene la forma:
( )iin
iij
j
xL
ππβ
−−=∂
∂∑=
11
22
2 (2.63)
para j=0, 1, 2, ....., k
reemplazando: la ecuación para iπ en (2.63)
k., . . . 0,1, para
11 2
0
0
2
2
2
=
+
−=∂
∂∑
∑
∑
=
=
=
j
xExp
xExpxL n
i k
jijj
k
jijjij
jβ
β
β (2.64)
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
( )
k,0,1,2,....lj, para
11
2
=
−−=∂∂
∂∑=
n
iiiilij
ljxx
Lππ
ββ (2.65)
reemplazando:
∑∑
∑
=
=
=
+
−=∂∂
∂ n
i k
jijj
k
jijj
ilijlj
xExp
xExp
xxL
12
0
02
1 β
β
ββ(2.66)
Tanto (2.64) como (2.65) no son funciones de iy , entonces la matriz de
observación y la matriz de segunda derivada esperada son idénticas.
Ahora bien la matriz que contiene el negativo de las ecuaciones (2.64) y
(2.66) se denota con ( )βρ
Ι , llamada Matriz de Información; las varianzas y
covarianzas de jβ se obtienen tomando la inversa de esta matriz, esto es:
( ) ( )ββρρ
1−Ι=Cov (2.67)
ver Cordeiro (1992).
Los estimadores de la varianza y covarianza, denotada por ,ˆˆ
βρ
ovC se
obtiene evaluando
Entonces la matriz de información estimada, matricialmente tiene la forma:
VXX 'ˆˆ =
Ι βρ
(2.68)
V es una matriz diagonal, esto es:
(( ))[[ ]]iiDiagV ππ ˆ1ˆ −−==
( ) .ˆen ββρρ
Cov
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
de tamaño nxn, además (2.68) es:
( ) ( ) 1'ˆˆ −= VXXovC βρ
(2.69)
y es de tamaño (k+1)(k+1)
escribiremos los elementos de la matriz (2.69)
( )
( ) ( ) ( )( ) ( )
( )
=
k
k
k
ovC
βσ
ββσβσ
ββσββσβσ
β
ˆˆ.......
........
........
ˆ,ˆˆ......ˆˆ.
ˆ,ˆˆ.....ˆ,ˆˆˆˆ
ˆˆ
2
11
01002
ρ
donde:
( )jβσ 2ˆ es la varianza estimada de jβ
( )lββσ ˆ,ˆˆ j es la covarianza estimada de jβ y lβ
( )jβσ ˆˆ es el error estandar de jβ
La matriz (2.69) será muy útil cuando se discuta el ajuste y la evaluación del
Modelo de Regresión Logística.
2.6.3 MÉTODO DE NEWTON – RAPHSON PARA ESTIMAR LOS
PARÁMETROS DEL MODELO DE REGRESIÓN LOGÍSTICA.
Este es un método para resolver ecuaciones no lineales, como las obtenidas
en (2.57) o equivalentemente en (2.58), y requieren una solución mediante
métodos iterativos para hallar la estimación de los parámetros que es el
máximo de la función (2.54).
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
Uno de los métodos más usados para resolver ecuaciones de este tipo, es el
de Newton-Raphson, porque converge rápidamente. En la figura
Nº 2.2 se ilustra el método.
Tomando como estimación inicial 1x , se prolonga la tangente a la curva en
este punto hasta interceptar con el eje de las abscisas al cual llamaremos
punto 2x , entonces se toma a 2x como la siguiente aproximación.
Este proceso continua hasta que un valor de 2x haga que la función sea
nula o suficientemente cercana a cero.
Para la estimación del vector βρ
se quiere hallar el máximo de una función;
entonces usa la primera derivada, porque se anula en el punto máximo y la
segunda derivada para calcular las tangentes. En nuestro caso es necesario
hallar la segunda derivada para obtener la matriz de varianzas y covarianzas
de los parámetros estimados.
Estimación de la ocurrencia de incidencias en declaraciones de pólizas de importación. Salcedo Poma, Celia Mercedes
Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM
Figura Nº 2.2 Interpretación Geométrica del Método Iterativo de Newton