regresion logistica

1. Introduccin La Regresin Logstica es una tcnica estadstica multivariante que nospermite estimar la relacin existente entre una variable dependiente nomtrica, en particular dicotmica y un conjunto de variables independientesmtricas o no mtricas. El Anlisis de Regresin Logstica tiene la misma estrategia que el Anlisisde Regresin Lineal Mltiple, el cual se diferencia esencialmente delAnlisis de Regresin Logstica por que la variable dependiente es mtrica;en la prctica el uso de ambas tcnicas tienen mucha semejanza, aunquesus enfoques matemticos son diferentes. La variable dependiente o respuesta no es continua, sino discreta(generalmente toma valores 1,0). Las variables explicativas pueden sercuantitativas o cualitativas; y la ecuacin del modelo no es una funcin linealde partida, sino exponencial; si bien, por sencilla transformacin logartmica,puede finalmente presentarse como una funcin lineal. As pues el modelo ser til en frecuentes situaciones prcticas deinvestigacin en que la respuesta puede tomar nicamente dos valores: 1,presencia (con probabilidad p); y 0, ausencia (con probabilidad 1-p). El modelo ser de utilidad puesto que, muchas veces, el perfil de variablespuede estar formado por caracteres cuantitativos y cualitativos; y sepretende hacer participar a todos ellos en una nica ecuacin conjunta. El modelo puede acercarse ms a la realidad ya que muchos fenmenos,como los del campo epidemiolgico, se asemejan ms a una curva que auna recta. Adems la curva exponencial elegida como mejor ajuste, puedeser transformada logartmicamente en una ecuacin lineal de todas las variables, siendo as que el aparato matemtico estudiado para la regresinlineal mltiple ser aplicable; aunque el investigador tenga, al final, quedeshacer la transformacin para interpretar sus conclusiones. Si para el Modelo de Regresin Logstica una variable regresora de tipocategrica tiene c niveles habr que generar c-1 variables ficticias (dummy)a fin que todas las posibilidades de la variable queden bien representadas enel modelo logstico. Cuando todas las variables regresoras son categricas entonces se usa elmodelo Log lineal, ver Mc Cullagh (1983).

2. Objetivos De La Regresin Logstica El objetivo primordial de esta tcnica es el de modelar cmo influyen lasvariables regresoras en la probabilidad de ocurrencia de un sucesoparticular. Sistemticamente tiene dos objetivos: Investigar cmo influye en la probabilidad de ocurrencia de un suceso, la presencia o no de diversos factores y el valor o nivel de los mismos. Determinar el modelo ms parsimonioso y mejor ajustado que siendo razonable describa la relacin entre la variable respuesta y un conjunto de variables regresoras.

3. Regresin Logstica Y Otros Mtodos Relacionados

El objetivo general de la Regresin Logstica es predecir la probabilidad deun evento de inters en una investigacin, as como identificar las variablespredictores tiles para tal prediccin. Se pueden usar varios mtodos multivariantes para predecir una variablerespuesta de naturaleza dicotmica a partir de un grupo de variablesregresoras.

El Anlisis de Regresin Lineal Mltiple y el Anlisis Discriminante son dosmtodos eficaces pero plantean problemas cuando la variable respuesta esbinaria.

En el Anlisis de Regresin Lineal Mltiple cuando la variable respuestatoma solo dos valores, se violan los supuestos de necesarios para efectuarinferencias, los problemas que se plantean son: 1. La distribucin de los errores aleatorios no es normal. 2. Los valores predictados no pueden ser interpretados comoprobabilidades como en la Regresin Logstica, porque no tomanvalores dentro del intervalo [0,1].

El Anlisis Discriminante permite la prediccin de pertenencia de la unidadde anlisis a uno de los dos grupos pre-establecidos, pero se requiere quese cumplan los supuestos de multinormalidad de las variables regresoras yla igualdad de matrices de covarianzas de los dos grupos, pueden serdiferentes tambin; para que la regla de prediccin sea ptima, Johnson(1982).

La Regresin Logstica requiere mucho menos supuestos que el AD, por ellocuando satisfacen los supuestos requeridos para el AD, la RegresinLogstica trabaja bien.

A continuacin se describir un paralelo entre la Regresin Lineal Mltiple yla Regresin Logstica, debido a que ambos tienen el mismo objetivo,predecir la variable respuesta a partir de las variables regresoras.

4. Regresin Logstica Simple

Este modelo tiene la forma:

Yi= b0+ b1 xi+ ipara i = 1,2, ,nDe esto se deduce que:

Si y = 1, i =1- b0- b1 xi Si y = 0 ,i= - b0- b1 xiPor tanto i, no puede tener distribucin normal debido a que toma valoresdiscretos, el Modelo de Regresin Lineal Simple, no es aplicable para elcaso de variable respuesta de tipo dicotmico. En el Anlisis de Regresin Lineal simple, el punto inicial del proceso deestimacin del modelo es un grfico de dispersin de la variable respuestaversus la regresora, pero este grfico resulta limitado cuando slo hay dosvalores posibles para la variable respuesta, por tanto se debe usar otrosgrficos, stos resultan de la suavizacin de los valores de la

variablerespuesta, representando despus los valores de la variable respuestaversus la regresora. La notacin que se usar en el presente trabajo para la Regresin Logsticaes misma que emplea Hosmer y Lemeshow (2000).

Sea

(x) = E(y x)

Que representa la media condicional de y =1dado x , donde (x)representa la probabilidad de que ocurra y =1, ciertamente no se esperaque dentro del rango de la variable regresora. Qu hay de la relacin entre para valores pequeos de x, el comportamiento de (x)y para valores intermedios de x? Se espera una (x)tomarvalores cercanos a cero. El grfico que muestra (x)tenga relacin lineal

x

relacin curvilnea. Para cualquier valor grande de x , (x)tomar valores cercanos a 1 y

(x)versus es:

x

Figura N 1 Curva en forma de S o sigmoidea que tiene las propiedades requeridas para (x)y que tiene las propiedades de una funcin de distribucin deprobabilidad acumulada, para esta probabilidad se usa la funcin redistribucin acumulada de la distribucin logstica dada por:

( )

(

| )

. Siendo P(y=1|X) la probabilidad de que y tome el valor 1 (presencia de la caracterstica estudiada), en presencia de las covariables X (aqu X es un conjunto de n covariables x1, x2, ... , xn-1, xn). Los componentes de esta ecuacin son:

b0es la constante del modelo o trmino independiente n el nmero de covariables bilos coeficientes de las covariables xi las covariables que forman parte del modelo.Tiene un grfico similar a la Figura N 1, cuando b0 0, adems este modelo toma valores en el intervalo [0,1].Cuando, brinda informacinmuy til. Una transformacin de (x)que es lo central del estudio de la RegresinLogstica es la transformacin logit, transformacin que se define entrminos (x)como: [y = 1] = 0.5el valor de x es: , que

( )

[

( ) ] ( )

Lo importante de esta transformacin es que tiene muchas propiedadessemejantes al Modelo de Regresin Lineal simple, por ejemplo es lineal ensus parmetros, puede ser continua y puede tomar cualquier valor realdependiendo de x.

Para el Modelo de Regresin Lineal simple, la variable respuesta, seexpresa como:

Y=E(x|y)+Para la variable respuesta dicotmica lo expresamos como:

Y=Veamos que ocurre con este modelo:

( )( ) y tiene probabilidad ( ) ( )

Si y = 1, i =

Si y = 0 ,i= - ( )y tiene probabilidad [

Entonces i tiene distribucin binomial con media cero y varianza ( )

( )]. Por tanto la distribucin condicional de la variable respuesta tiene

distribucin de probabilidad binomial con media ( ).

5. Regresin Logstica Mltiple En esta seccin se generaliza el Modelo de Regresin Logstica Simpletratado en la seccin anterior, es decir consideraremos ms de una variableregresora, en donde por lo menos una es de tipo cuantitativo. Sea el vector de variables regresoras =(x1, x2 ,...., xk)por el momento asumiremos que estn medidas por lo menos bajo escala intervalar. Sea la probabilidad condicional para que la variable respuesta sea igual a 1, denotado por: ( | ) ( )

El modelo de regresin logstica mltiple est dada por: () ( )( ) ( )

Para i=1,2,3n;

La curva logstica se refiere la variable independiente, X, a la media mvil de la DV, P ( ). La frmula para hacerlo se puede escribir ya sea

O Donde P es la probabilidad de un 1 (la proporcin de 1s, la media de Y), e es la base del logaritmo natural (aproximadamente 2.718) y A y B son los parmetros del modelo. El valor de un P rendimientos cuando X es cero, y b ajusta la rapidez de los cambios de probabilidad con el cambio de X una sola unidad (que pueden tener pesos normalizados y no normalizados b en la regresin logstica, as como en la regresin lineal ordinaria). Debido a la relacin entre X y P es no lineal, b no tiene una interpretacin directa en este modelo como lo hace en regresin lineal ordinaria. La prdida de funcin Una funcin de prdida es una medida de ajuste entre un modelo matemtico de los datos y los datos reales. Elegimos los parmetros de nuestro modelo para reducir al mnimo la maldad de ajuste o para maximizar la bondad del ajuste del modelo a los datos. Con los mnimos cuadrados (la funcin de prdida slo hemos utilizado hasta ahora), minimizamos SS resolucin, la suma de cuadrados residuales. Esto tambin sucede para maximizar la SSregistro,

la suma de cuadrados debido a la regresin. Con los

modelos lineales o curvilneos, existe una solucin matemtica al problema que minimice la suma de cuadrados, es decir, b = (X'X) -1X'yO b = R -1 r En algunos modelos, como la curva logstica, no existe una solucin matemtica que producir estimaciones de mnimos cuadrados de los parmetros. Para muchos de estos modelos, la funcin de prdida elegida se llama mxima verosimilitud. Una probabilidad es una probabilidad condicional (por ejemplo, P (Y | X), la probabilidad de Y dado X). Podemos elegir los parmetros del modelo (A y B de la curva logstica) al azar o por ensayo y error, y luego calcular la probabilidad de que

los datos dados los parmetros (en realidad, lo hacemos mejor que el sendero-yerror, pero no perfectamente). Vamos a elegir a nuestros parmetros, los que dan lugar a la mayor probabilidad calculada. Las estimaciones de mxima verosimilitud se llaman porque los parmetros se eligen para maximizar la probabilidad (probabilidad condicional de los datos que figuran estimaciones de los parmetros) de los datos de la muestra. Las tcnicas de hoy en da para encontrar las estimaciones de mxima verosimilitud caer bajo el anlisis de la etiqueta numrica general. Existen varios mtodos de anlisis numrico, pero todas siguen una serie similar de pasos. En primer lugar, el ordenador escoge algunas estimaciones iniciales de los parmetros. Entonces se calcula la probabilidad de que los datos que figuran las estimaciones de los parmetros. A continuacin, va a mejorar las estimaciones de parmetros poco y volver a calcular la probabilidad de los datos. Lo har por siempre hasta que nos diga que se detenga, lo que solemos hacer cuando las estimaciones de los parmetros no cambian mucho (por lo general un cambio de 0.01 o 0.001 es lo suficientemente pequeo como para decir que el equipo deje). [A veces le decimos a la computadora para detenerse despus de un cierto nmero de intentos o repeticiones, por ejemplo, 20 o 250. Esto suele indicar un problema en la estimacin.] Cuando en la Tierra Esta cosas viene? Supongamos que slo sabemos la altura de una persona y queremos predecir si esa persona es hombre o mujer. Podemos hablar de la probabilidad de ser hombre o mujer, o podemos hablar de las probabilidades de ser hombre o mujer. Vamos a decir que la probabilidad de ser hombre a una determinada altura es 0.90. A continuacin, las probabilidades de ser hombre sera

.

(Las probabilidades tambin se encuentran contando el nmero de personas en cada grupo y dividiendo un nmero por el otro. Claramente, la probabilidad no es lo mismo que las probabilidades.) La funcin logaritmo natural se parece a esto:

Ntese que el logaritmo natural es cero cuando X es 1. Cuando X es mayor que uno, el registro se curva hacia arriba lentamente. Cuando X es menor que uno, el logaritmo natural es menor que cero, y disminuye rpidamente a medida que X se aproxima a cero. Cuando P = 0,50, lo ms probable es .50/.50 o 1, y ln (1) = 0. Si P es mayor que 0.50, ln (P / (1-P) es positivo, si P es menor que 0.50, ln (odds) es negativo [Varios llevado a una potencia negativa es uno dividido por el nmero. por ejemplo, e-10 10.

= 1 / e

Un logaritmo es un exponente de una base dada, por

ejemplo ln (e 10) = 10.] 5.1. Volver a la regresin logstica. En la regresin logstica, la variable dependiente es un logit, que es el logaritmo natural de las probabilidades, es decir,

As que un logit es un registro de las probabilidades y las probabilidades son una funcin de P, la probabilidad de un 1. En la regresin logstica, nos encontramos con logit (p) = a + bX,

Lo que se supone que es lineal, es decir, las probabilidades de registro (logit) se supone que es linealmente relacionada con X, nuestro IV. As que hay una regresin ordinaria escondido all. Podramos, en teora, hacer una regresin ordinaria con logits como nuestro DV, pero, por supuesto, no tenemos logits de ah, tenemos 1s y 0s. Entonces, tambin, la gente tiene un logits cuesta trabajo entender. Podramos hablar de las probabilidades en su lugar. Por supuesto, la gente le gusta hablar de probabilidades ms de probabilidades. Para llegar hasta all (a partir de logits a las probabilidades), primero tenemos que tener el registro de ambos lados de la ecuacin. Entonces tenemos que convertir las probabilidades de una simple probabilidad:

La probabilidad de simple es la ecuacin fea que has visto antes. Si las probabilidades de registro se relaciona linealmente con X, entonces la relacin entre X y P es no lineal, y tiene la forma de la curva en forma de S que vimos en la grfica y la forma de funcin (ecuacin) que aparece inmediatamente por encima.

6. Ajuste Del Modelo De Regresin Logstica Mltiple El ajuste se efecta a travs del uso de los mtodos de mximaverosimilitud, los mismos que se encuentran en los softwares estadsticosque permiten analizar datos mediante este mtodo.

Asumiremos que disponemos de una muestra n observacionesindependientes ( ( ), i=1,2,3..n; donde toma los valores de 0 1, para estimar

)que es el vector de parmetros desconocidos.

Para el Modelo de Regresin Lineal Mltiple se usa el mtodo de Mnimos Cuadrados para estimar , el cual minimiza la suma de cuadrados delerror, pero cuando la variable respuesta es binaria aplicar este mtodo noprovee las mismas propiedades cuando es usado en variables respuestascontinuas. Por ello se usar el mtodo de Mxima Verosimilitud, ya que obtendremosparmetros estimados que maximizan la probabilidad de obtener un conjuntode datos observados. La funcin de verosimilitud expresa la probabilidad de los datos observadoscomo una funcin de parmetros desconocidos. Los Estimadores de MximaVerosimilitud de esos parmetros son aquellos que estn en concordanciacon los datos observados. Consideremos el Modelo de Regresin Lineal Mltiple con mayor detalle,supongamos que se dispone de n objetos u observaciones donde para cadauno de ellos existe una respuesta que puede ser:

yi0 o yi1

Las ecuaciones de verosimilitudes son:

Siendo xi0=1 y la ecuacin equivalente es: Dnde: ( ( ) ) ( )

Es el estimador mximo verosmil de dada en su frmula matricial es: (7. Aplicaciones:

y se obtiene y el vector de la expresin )

Un ejemplo Supongamos que estamos trabajando con algunos mdicos en pacientes de ataque cardiaco. La variable dependiente es si el paciente ha sufrido un segundo ataque al corazn dentro de 1 ao (s = 1). Tenemos dos variables independientes, uno es si el paciente complet un tratamiento coherente de las prcticas de control de la ira (s = 1). El otro IV es una calificacin en una escala de ansiedad-rasgo (una puntuacin ms alta significa ms ansioso). Nuestros datos:

Persona 1 2 3 4 5 6 7 8 9 10 11

2 ataque al corazn 1 1 1 1 1 1 1 1 1 1 0

El tratamiento de la Ira 1 1 1 0 0 0 0 0 0 0 1

Rasgo de Ansiedad 70 80 50 60 40 65 75 80 70 60 65

12 13 14 15 16 17 18 19 20

0 0 0 0 0 0 0 0 0

1 1 1 1 1 0 0 0 0

50 45 35 40 50 55 45 50 60

Nuestra matriz de correlacin: Corazn Corazn Tratar Anx Media SD 1 - 0.30 0.59 ** 0.50 0.51 1 - 0.23 0.45 0.51 1 57,25 13,42 Tratar Anx

Tenga en cuenta que la mitad de nuestros pacientes han tenido un segundo ataque al corazn. Sin saber nada ms acerca de un paciente, y siguiendo el mejor en la prctica mdica actual, que se lanza una moneda para predecir si van a tener un segundo ataque dentro de 1 ao. De acuerdo a los coeficientes de correlacin nuestros, los del grupo de tratamiento de la ira son menos propensos a tener otro ataque, pero el resultado no es significativo. Gran ansiedad se asocia con una mayor

probabilidad de tener otro ataque, y el resultado es significativo (de acuerdo a derecha). Ahora echemos un vistazo a la regresin logstica, por el momento de examinar el tratamiento de la ira por s mismo, haciendo caso omiso de los resultados de las pruebas de ansiedad. SAS muestra el siguiente: Variable de respuesta: CORAZN Niveles de respuesta: 2 Nmero de observaciones: 20 Funcin de enlace: Logit Respuesta de perfil Ordenado El valor de conteo CORAZN 0 = 1= 10 10

SAS nos dice lo que nos entiende a la modelo, incluyendo el nombre de la DV, y su distribucin. Luego calcular las probabilidades con y sin incluir la variable de tratamiento. Modelo de Adaptacin de la Informacin y la prueba beta Global hiptesis nula = 0 Criterio de Intercepcin Intercepcin de Chi-cuadrado Slo y Las covariables -2 Log L 27,726 25,878 1,848

1df (p = 0,17) El ordenador calcula la probabilidad de los datos. Debido a que hay un nmero igual de personas en los dos grupos, la probabilidad de pertenencia al grupo inicial (sin considerar el tratamiento con la ira) es 0,50 por cada persona. Debido a que las personas son independientes, la probabilidad de todo el conjunto de personas es 0,50 20, un nmero muy pequeo. Dado que el nmero es tan pequeo, es costumbre tomar primero el logaritmo natural de la probabilidad y luego multiplicar el resultado por -2. El ltimo paso hace que el resultado positivo. La estadstica-2LogL (menos 2 veces el registro de la probabilidad) es un indicador de la maldad de ajuste, es decir, un gran nmero significa un mal ajuste del modelo a los datos. SAS imprime el resultado en -2 log L. Para el modelo inicial (interceptar solamente), nuestro resultado es el valor de 27.726. Este es un nmero de referencia que indica el ajuste del modelo. Este nmero no tiene ningn equivalente directo en la regresin lineal. Es ms o menos anloga a la generacin de algunos nmeros al azar y la bsqueda de R 2 de estos nmeros como una medida de referencia de ajuste en la regresin lineal ordinaria. Mediante la inclusin de un plazo para el tratamiento, la funcin de prdida se reduce a 25,878, una diferencia de 1,848, que se muestra en la columna de Chi-cuadrado. La diferencia entre los dos valores de2LogL se conoce como la prueba de razn verosimilitud. Cuando se toma a partir de muestras grandes, la diferencia entre dos valores de2LogL se distribuye como chi-cuadrado:

Recordemos que la multiplicacin de nmeros es equivalente a agregar exponentes (lo mismo para la resta y la divisin de registros). Esto indica que la (L-2log) para una restringida (ms pequeo) modelo - (-2LogL) para una completa (ms grande) modelo es el mismo que el registro de la relacin

de dos probabilidades, que se distribuye como chi-cuadrado. El modelo completo o mayor tiene todos los parmetros de inters en ella. La restriccin se dice que est anidado en el modelo ms grande. El modelo restringido tiene una o ms de los parmetros en el modelo completo restringido a un cierto valor (normalmente cero). Los parmetros en el modelo anidado deben ser un subconjunto propio de los parmetros en el modelo completo. Por ejemplo, supongamos que tenemos dos sueros, uno categricas y continuas una vez, y estamos buscando a un diseo de ATI. Un modelo completo podra haber incluido los trminos de la variable continua, la variable categrica y su interaccin (3 trimestres). Modelos restringidos podra eliminar la interaccin o uno o ms efectos principales (por ejemplo, podramos tener un modelo con slo la variable categrica). Un modelo anidado no puede tener como nica IV, alguna otra variable categrica o continua no est contenido en el modelo completo. Si lo hace, entonces ya no es anidada, y no podemos comparar los dos valores de-2LogL para obtener un valor de chi-cuadrado. El chi-cuadrado se utiliza para probar estadsticamente si la inclusin de una variable reduce la maldad de ajuste de la medida. Esto es anlogo a producir un incremento en R-cuadrado en regresin jerrquica. Si Chi-cuadrado es significativo, la variable se considera que es un predictor significativo en la ecuacin, anloga a la significacin del peso b en la regresin simultnea. Para nuestro ejemplo con el tratamiento de la ira slo SAS produce lo siguiente: Anlisis de las estimaciones de mxima verosimilitud Variable DF Par Est Std. Err Wald CHISQ Interceptar 1 - .5596 1,2528 0.6268 0.9449 0.7972 17566 Pr> Chi- Stand. cuadrado 0.3719 0.1849 Est . 0.3525 Odds Ratio . 3,50

Tratamiento 1

La interseccin es el valor de una, en este caso - .5596. Como de costumbre, no tiene demasiado inters en saber si a es igual a cero. El valor de b dado para el

tratamiento del clera es 1,2528. elchi-cuadrado asociada a este b no es significativa, al igual que el chi-cuadrado para las covariables no fue significativa. Por lo tanto no podemos rechazar la hiptesis de que b es igual a cero en la poblacin. Nuestra ecuacin se puede escribir ya sea: Logit (P) = - 0,5596 1,2528 X

La interpretacin principal de resultados de la regresin logstica es encontrar los predictores significativos de Y. Sin embargo, otras cosas, a veces, se pueden hacer con los resultados. El Odds Ratio Recordemos que las probabilidades de que un grupo es:

Ahora las probabilidades de que otro grupo tambin sera P / (1-P) para ese grupo. Supongamos que organizar los datos de la siguiente manera: La ira de tratamiento Ataque del corazn S (1) No (0) Total S (1) 3 (a) 6 (c) 9 (a + c) No (0) 7 (b) 4 (d) 11 (b + d) Total 10 (a + b) 10 (c + d) 20 (a + b + c + d)

Ahora podemos calcular las probabilidades de sufrir un ataque al corazn por el grupo de tratamiento y el grupo sin tratamiento. Para el grupo de tratamiento, las

probabilidades son de 3/6 = 1/2. La probabilidad de un ataque al corazn es de 3 / (3 +6) = 3.9 = 0.33. Las probabilidades de que esta probabilidad es .33 / (1-.33) = .33/.66 = 1/2. Las probabilidades para el grupo sin tratamiento son 7.4 o 1.75. El odds ratio se calcula para comparar las probabilidades entre los grupos.

Si las probabilidades son las mismas en todos los grupos, el odds ratio (OR) ser del 1,0. Si no, el O ser mayor o menor que uno. La gente le gusta ver la relacin de formularse en la direccin ms grande. En nuestro caso, esto sera 1.75/.5 o 1,75 * 2 = 3.50. Ahora bien, si nos remontamos hasta la ltima columna de la impresin en el que se dice odds ratio en la columna de tratamiento, usted ver que el odds ratio es de 3,50, que es lo que conseguimos mediante la bsqueda de la odds ratio para las posibilidades del tratamiento de dos condiciones. Tambin sucede que el correo1.2528 = 3.50. Tenga en cuenta que el exponente es nuestro valor de b de la curva logstica.

8. Referencias: http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/ en_Tanagra_Variable_Selection_Binary_Logistic_Regression.pdf http://eric.univlyon2.fr/~ricco/tanagra/fichiers/en_Tanagra_Multinomial_Logistic_Regression.pdf

http://en.wikipedia.org/wiki/Multinomial_logit http://www.stat.psu.edu/~jglenn/stat504/08_multilog/01_multilog_intro.htm

regresion logistica

Documents