1. Introduccin La Regresin Logstica es una tcnica estadstica
multivariante que nospermite estimar la relacin existente entre una
variable dependiente nomtrica, en particular dicotmica y un
conjunto de variables independientesmtricas o no mtricas. El
Anlisis de Regresin Logstica tiene la misma estrategia que el
Anlisisde Regresin Lineal Mltiple, el cual se diferencia
esencialmente delAnlisis de Regresin Logstica por que la variable
dependiente es mtrica;en la prctica el uso de ambas tcnicas tienen
mucha semejanza, aunquesus enfoques matemticos son diferentes. La
variable dependiente o respuesta no es continua, sino
discreta(generalmente toma valores 1,0). Las variables explicativas
pueden sercuantitativas o cualitativas; y la ecuacin del modelo no
es una funcin linealde partida, sino exponencial; si bien, por
sencilla transformacin logartmica,puede finalmente presentarse como
una funcin lineal. As pues el modelo ser til en frecuentes
situaciones prcticas deinvestigacin en que la respuesta puede tomar
nicamente dos valores: 1,presencia (con probabilidad p); y 0,
ausencia (con probabilidad 1-p). El modelo ser de utilidad puesto
que, muchas veces, el perfil de variablespuede estar formado por
caracteres cuantitativos y cualitativos; y sepretende hacer
participar a todos ellos en una nica ecuacin conjunta. El modelo
puede acercarse ms a la realidad ya que muchos fenmenos,como los
del campo epidemiolgico, se asemejan ms a una curva que auna recta.
Adems la curva exponencial elegida como mejor ajuste, puedeser
transformada logartmicamente en una ecuacin lineal de todas las
variables, siendo as que el aparato matemtico estudiado para la
regresinlineal mltiple ser aplicable; aunque el investigador tenga,
al final, quedeshacer la transformacin para interpretar sus
conclusiones. Si para el Modelo de Regresin Logstica una variable
regresora de tipocategrica tiene c niveles habr que generar c-1
variables ficticias (dummy)a fin que todas las posibilidades de la
variable queden bien representadas enel modelo logstico. Cuando
todas las variables regresoras son categricas entonces se usa
elmodelo Log lineal, ver Mc Cullagh (1983).
2. Objetivos De La Regresin Logstica El objetivo primordial de
esta tcnica es el de modelar cmo influyen lasvariables regresoras
en la probabilidad de ocurrencia de un sucesoparticular.
Sistemticamente tiene dos objetivos: Investigar cmo influye en la
probabilidad de ocurrencia de un suceso, la presencia o no de
diversos factores y el valor o nivel de los mismos. Determinar el
modelo ms parsimonioso y mejor ajustado que siendo razonable
describa la relacin entre la variable respuesta y un conjunto de
variables regresoras.
3. Regresin Logstica Y Otros Mtodos Relacionados
El objetivo general de la Regresin Logstica es predecir la
probabilidad deun evento de inters en una investigacin, as como
identificar las variablespredictores tiles para tal prediccin. Se
pueden usar varios mtodos multivariantes para predecir una
variablerespuesta de naturaleza dicotmica a partir de un grupo de
variablesregresoras.
El Anlisis de Regresin Lineal Mltiple y el Anlisis Discriminante
son dosmtodos eficaces pero plantean problemas cuando la variable
respuesta esbinaria.
En el Anlisis de Regresin Lineal Mltiple cuando la variable
respuestatoma solo dos valores, se violan los supuestos de
necesarios para efectuarinferencias, los problemas que se plantean
son: 1. La distribucin de los errores aleatorios no es normal. 2.
Los valores predictados no pueden ser interpretados
comoprobabilidades como en la Regresin Logstica, porque no
tomanvalores dentro del intervalo [0,1].
El Anlisis Discriminante permite la prediccin de pertenencia de
la unidadde anlisis a uno de los dos grupos pre-establecidos, pero
se requiere quese cumplan los supuestos de multinormalidad de las
variables regresoras yla igualdad de matrices de covarianzas de los
dos grupos, pueden serdiferentes tambin; para que la regla de
prediccin sea ptima, Johnson(1982).
La Regresin Logstica requiere mucho menos supuestos que el AD,
por ellocuando satisfacen los supuestos requeridos para el AD, la
RegresinLogstica trabaja bien.
A continuacin se describir un paralelo entre la Regresin Lineal
Mltiple yla Regresin Logstica, debido a que ambos tienen el mismo
objetivo,predecir la variable respuesta a partir de las variables
regresoras.
4. Regresin Logstica Simple
Este modelo tiene la forma:
Yi= b0+ b1 xi+ ipara i = 1,2, ,nDe esto se deduce que:
Si y = 1, i =1- b0- b1 xi Si y = 0 ,i= - b0- b1 xiPor tanto i,
no puede tener distribucin normal debido a que toma
valoresdiscretos, el Modelo de Regresin Lineal Simple, no es
aplicable para elcaso de variable respuesta de tipo dicotmico. En
el Anlisis de Regresin Lineal simple, el punto inicial del proceso
deestimacin del modelo es un grfico de dispersin de la variable
respuestaversus la regresora, pero este grfico resulta limitado
cuando slo hay dosvalores posibles para la variable respuesta, por
tanto se debe usar otrosgrficos, stos resultan de la suavizacin de
los valores de la
variablerespuesta, representando despus los valores de la
variable respuestaversus la regresora. La notacin que se usar en el
presente trabajo para la Regresin Logsticaes misma que emplea
Hosmer y Lemeshow (2000).
Sea
(x) = E(y x)
Que representa la media condicional de y =1dado x , donde
(x)representa la probabilidad de que ocurra y =1, ciertamente no se
esperaque dentro del rango de la variable regresora. Qu hay de la
relacin entre para valores pequeos de x, el comportamiento de (x)y
para valores intermedios de x? Se espera una (x)tomarvalores
cercanos a cero. El grfico que muestra (x)tenga relacin lineal
x
relacin curvilnea. Para cualquier valor grande de x , (x)tomar
valores cercanos a 1 y
(x)versus es:
x
Figura N 1 Curva en forma de S o sigmoidea que tiene las
propiedades requeridas para (x)y que tiene las propiedades de una
funcin de distribucin deprobabilidad acumulada, para esta
probabilidad se usa la funcin redistribucin acumulada de la
distribucin logstica dada por:
( )
(
| )
. Siendo P(y=1|X) la probabilidad de que y tome el valor 1
(presencia de la caracterstica estudiada), en presencia de las
covariables X (aqu X es un conjunto de n covariables x1, x2, ... ,
xn-1, xn). Los componentes de esta ecuacin son:
b0es la constante del modelo o trmino independiente n el nmero
de covariables bilos coeficientes de las covariables xi las
covariables que forman parte del modelo.Tiene un grfico similar a
la Figura N 1, cuando b0 0, adems este modelo toma valores en el
intervalo [0,1].Cuando, brinda informacinmuy til. Una transformacin
de (x)que es lo central del estudio de la RegresinLogstica es la
transformacin logit, transformacin que se define entrminos (x)como:
[y = 1] = 0.5el valor de x es: , que
( )
[
( ) ] ( )
Lo importante de esta transformacin es que tiene muchas
propiedadessemejantes al Modelo de Regresin Lineal simple, por
ejemplo es lineal ensus parmetros, puede ser continua y puede tomar
cualquier valor realdependiendo de x.
Para el Modelo de Regresin Lineal simple, la variable respuesta,
seexpresa como:
Y=E(x|y)+Para la variable respuesta dicotmica lo expresamos
como:
Y=Veamos que ocurre con este modelo:
( )( ) y tiene probabilidad ( ) ( )
Si y = 1, i =
Si y = 0 ,i= - ( )y tiene probabilidad [
Entonces i tiene distribucin binomial con media cero y varianza
( )
( )]. Por tanto la distribucin condicional de la variable
respuesta tiene
distribucin de probabilidad binomial con media ( ).
5. Regresin Logstica Mltiple En esta seccin se generaliza el
Modelo de Regresin Logstica Simpletratado en la seccin anterior, es
decir consideraremos ms de una variableregresora, en donde por lo
menos una es de tipo cuantitativo. Sea el vector de variables
regresoras =(x1, x2 ,...., xk)por el momento asumiremos que estn
medidas por lo menos bajo escala intervalar. Sea la probabilidad
condicional para que la variable respuesta sea igual a 1, denotado
por: ( | ) ( )
El modelo de regresin logstica mltiple est dada por: () ( )( ) (
)
Para i=1,2,3n;
La curva logstica se refiere la variable independiente, X, a la
media mvil de la DV, P ( ). La frmula para hacerlo se puede
escribir ya sea
O Donde P es la probabilidad de un 1 (la proporcin de 1s, la
media de Y), e es la base del logaritmo natural (aproximadamente
2.718) y A y B son los parmetros del modelo. El valor de un P
rendimientos cuando X es cero, y b ajusta la rapidez de los cambios
de probabilidad con el cambio de X una sola unidad (que pueden
tener pesos normalizados y no normalizados b en la regresin
logstica, as como en la regresin lineal ordinaria). Debido a la
relacin entre X y P es no lineal, b no tiene una interpretacin
directa en este modelo como lo hace en regresin lineal ordinaria.
La prdida de funcin Una funcin de prdida es una medida de ajuste
entre un modelo matemtico de los datos y los datos reales. Elegimos
los parmetros de nuestro modelo para reducir al mnimo la maldad de
ajuste o para maximizar la bondad del ajuste del modelo a los
datos. Con los mnimos cuadrados (la funcin de prdida slo hemos
utilizado hasta ahora), minimizamos SS resolucin, la suma de
cuadrados residuales. Esto tambin sucede para maximizar la
SSregistro,
la suma de cuadrados debido a la regresin. Con los
modelos lineales o curvilneos, existe una solucin matemtica al
problema que minimice la suma de cuadrados, es decir, b = (X'X)
-1X'yO b = R -1 r En algunos modelos, como la curva logstica, no
existe una solucin matemtica que producir estimaciones de mnimos
cuadrados de los parmetros. Para muchos de estos modelos, la funcin
de prdida elegida se llama mxima verosimilitud. Una probabilidad es
una probabilidad condicional (por ejemplo, P (Y | X), la
probabilidad de Y dado X). Podemos elegir los parmetros del modelo
(A y B de la curva logstica) al azar o por ensayo y error, y luego
calcular la probabilidad de que
los datos dados los parmetros (en realidad, lo hacemos mejor que
el sendero-yerror, pero no perfectamente). Vamos a elegir a
nuestros parmetros, los que dan lugar a la mayor probabilidad
calculada. Las estimaciones de mxima verosimilitud se llaman porque
los parmetros se eligen para maximizar la probabilidad
(probabilidad condicional de los datos que figuran estimaciones de
los parmetros) de los datos de la muestra. Las tcnicas de hoy en da
para encontrar las estimaciones de mxima verosimilitud caer bajo el
anlisis de la etiqueta numrica general. Existen varios mtodos de
anlisis numrico, pero todas siguen una serie similar de pasos. En
primer lugar, el ordenador escoge algunas estimaciones iniciales de
los parmetros. Entonces se calcula la probabilidad de que los datos
que figuran las estimaciones de los parmetros. A continuacin, va a
mejorar las estimaciones de parmetros poco y volver a calcular la
probabilidad de los datos. Lo har por siempre hasta que nos diga
que se detenga, lo que solemos hacer cuando las estimaciones de los
parmetros no cambian mucho (por lo general un cambio de 0.01 o
0.001 es lo suficientemente pequeo como para decir que el equipo
deje). [A veces le decimos a la computadora para detenerse despus
de un cierto nmero de intentos o repeticiones, por ejemplo, 20 o
250. Esto suele indicar un problema en la estimacin.] Cuando en la
Tierra Esta cosas viene? Supongamos que slo sabemos la altura de
una persona y queremos predecir si esa persona es hombre o mujer.
Podemos hablar de la probabilidad de ser hombre o mujer, o podemos
hablar de las probabilidades de ser hombre o mujer. Vamos a decir
que la probabilidad de ser hombre a una determinada altura es 0.90.
A continuacin, las probabilidades de ser hombre sera
.
(Las probabilidades tambin se encuentran contando el nmero de
personas en cada grupo y dividiendo un nmero por el otro.
Claramente, la probabilidad no es lo mismo que las probabilidades.)
La funcin logaritmo natural se parece a esto:
Ntese que el logaritmo natural es cero cuando X es 1. Cuando X
es mayor que uno, el registro se curva hacia arriba lentamente.
Cuando X es menor que uno, el logaritmo natural es menor que cero,
y disminuye rpidamente a medida que X se aproxima a cero. Cuando P
= 0,50, lo ms probable es .50/.50 o 1, y ln (1) = 0. Si P es mayor
que 0.50, ln (P / (1-P) es positivo, si P es menor que 0.50, ln
(odds) es negativo [Varios llevado a una potencia negativa es uno
dividido por el nmero. por ejemplo, e-10 10.
= 1 / e
Un logaritmo es un exponente de una base dada, por
ejemplo ln (e 10) = 10.] 5.1. Volver a la regresin logstica. En
la regresin logstica, la variable dependiente es un logit, que es
el logaritmo natural de las probabilidades, es decir,
As que un logit es un registro de las probabilidades y las
probabilidades son una funcin de P, la probabilidad de un 1. En la
regresin logstica, nos encontramos con logit (p) = a + bX,
Lo que se supone que es lineal, es decir, las probabilidades de
registro (logit) se supone que es linealmente relacionada con X,
nuestro IV. As que hay una regresin ordinaria escondido all.
Podramos, en teora, hacer una regresin ordinaria con logits como
nuestro DV, pero, por supuesto, no tenemos logits de ah, tenemos 1s
y 0s. Entonces, tambin, la gente tiene un logits cuesta trabajo
entender. Podramos hablar de las probabilidades en su lugar. Por
supuesto, la gente le gusta hablar de probabilidades ms de
probabilidades. Para llegar hasta all (a partir de logits a las
probabilidades), primero tenemos que tener el registro de ambos
lados de la ecuacin. Entonces tenemos que convertir las
probabilidades de una simple probabilidad:
La probabilidad de simple es la ecuacin fea que has visto antes.
Si las probabilidades de registro se relaciona linealmente con X,
entonces la relacin entre X y P es no lineal, y tiene la forma de
la curva en forma de S que vimos en la grfica y la forma de funcin
(ecuacin) que aparece inmediatamente por encima.
6. Ajuste Del Modelo De Regresin Logstica Mltiple El ajuste se
efecta a travs del uso de los mtodos de mximaverosimilitud, los
mismos que se encuentran en los softwares estadsticosque permiten
analizar datos mediante este mtodo.
Asumiremos que disponemos de una muestra n
observacionesindependientes ( ( ), i=1,2,3..n; donde toma los
valores de 0 1, para estimar
)que es el vector de parmetros desconocidos.
Para el Modelo de Regresin Lineal Mltiple se usa el mtodo de
Mnimos Cuadrados para estimar , el cual minimiza la suma de
cuadrados delerror, pero cuando la variable respuesta es binaria
aplicar este mtodo noprovee las mismas propiedades cuando es usado
en variables respuestascontinuas. Por ello se usar el mtodo de
Mxima Verosimilitud, ya que obtendremosparmetros estimados que
maximizan la probabilidad de obtener un conjuntode datos
observados. La funcin de verosimilitud expresa la probabilidad de
los datos observadoscomo una funcin de parmetros desconocidos. Los
Estimadores de MximaVerosimilitud de esos parmetros son aquellos
que estn en concordanciacon los datos observados. Consideremos el
Modelo de Regresin Lineal Mltiple con mayor detalle,supongamos que
se dispone de n objetos u observaciones donde para cadauno de ellos
existe una respuesta que puede ser:
yi0 o yi1
Las ecuaciones de verosimilitudes son:
Siendo xi0=1 y la ecuacin equivalente es: Dnde: ( ( ) ) ( )
Es el estimador mximo verosmil de dada en su frmula matricial
es: (7. Aplicaciones:
y se obtiene y el vector de la expresin )
Un ejemplo Supongamos que estamos trabajando con algunos mdicos
en pacientes de ataque cardiaco. La variable dependiente es si el
paciente ha sufrido un segundo ataque al corazn dentro de 1 ao (s =
1). Tenemos dos variables independientes, uno es si el paciente
complet un tratamiento coherente de las prcticas de control de la
ira (s = 1). El otro IV es una calificacin en una escala de
ansiedad-rasgo (una puntuacin ms alta significa ms ansioso).
Nuestros datos:
Persona 1 2 3 4 5 6 7 8 9 10 11
2 ataque al corazn 1 1 1 1 1 1 1 1 1 1 0
El tratamiento de la Ira 1 1 1 0 0 0 0 0 0 0 1
Rasgo de Ansiedad 70 80 50 60 40 65 75 80 70 60 65
12 13 14 15 16 17 18 19 20
0 0 0 0 0 0 0 0 0
1 1 1 1 1 0 0 0 0
50 45 35 40 50 55 45 50 60
Nuestra matriz de correlacin: Corazn Corazn Tratar Anx Media SD
1 - 0.30 0.59 ** 0.50 0.51 1 - 0.23 0.45 0.51 1 57,25 13,42 Tratar
Anx
Tenga en cuenta que la mitad de nuestros pacientes han tenido un
segundo ataque al corazn. Sin saber nada ms acerca de un paciente,
y siguiendo el mejor en la prctica mdica actual, que se lanza una
moneda para predecir si van a tener un segundo ataque dentro de 1
ao. De acuerdo a los coeficientes de correlacin nuestros, los del
grupo de tratamiento de la ira son menos propensos a tener otro
ataque, pero el resultado no es significativo. Gran ansiedad se
asocia con una mayor
probabilidad de tener otro ataque, y el resultado es
significativo (de acuerdo a derecha). Ahora echemos un vistazo a la
regresin logstica, por el momento de examinar el tratamiento de la
ira por s mismo, haciendo caso omiso de los resultados de las
pruebas de ansiedad. SAS muestra el siguiente: Variable de
respuesta: CORAZN Niveles de respuesta: 2 Nmero de observaciones:
20 Funcin de enlace: Logit Respuesta de perfil Ordenado El valor de
conteo CORAZN 0 = 1= 10 10
SAS nos dice lo que nos entiende a la modelo, incluyendo el
nombre de la DV, y su distribucin. Luego calcular las
probabilidades con y sin incluir la variable de tratamiento. Modelo
de Adaptacin de la Informacin y la prueba beta Global hiptesis nula
= 0 Criterio de Intercepcin Intercepcin de Chi-cuadrado Slo y Las
covariables -2 Log L 27,726 25,878 1,848
1df (p = 0,17) El ordenador calcula la probabilidad de los
datos. Debido a que hay un nmero igual de personas en los dos
grupos, la probabilidad de pertenencia al grupo inicial (sin
considerar el tratamiento con la ira) es 0,50 por cada persona.
Debido a que las personas son independientes, la probabilidad de
todo el conjunto de personas es 0,50 20, un nmero muy pequeo. Dado
que el nmero es tan pequeo, es costumbre tomar primero el logaritmo
natural de la probabilidad y luego multiplicar el resultado por -2.
El ltimo paso hace que el resultado positivo. La estadstica-2LogL
(menos 2 veces el registro de la probabilidad) es un indicador de
la maldad de ajuste, es decir, un gran nmero significa un mal
ajuste del modelo a los datos. SAS imprime el resultado en -2 log
L. Para el modelo inicial (interceptar solamente), nuestro
resultado es el valor de 27.726. Este es un nmero de referencia que
indica el ajuste del modelo. Este nmero no tiene ningn equivalente
directo en la regresin lineal. Es ms o menos anloga a la generacin
de algunos nmeros al azar y la bsqueda de R 2 de estos nmeros como
una medida de referencia de ajuste en la regresin lineal ordinaria.
Mediante la inclusin de un plazo para el tratamiento, la funcin de
prdida se reduce a 25,878, una diferencia de 1,848, que se muestra
en la columna de Chi-cuadrado. La diferencia entre los dos valores
de2LogL se conoce como la prueba de razn verosimilitud. Cuando se
toma a partir de muestras grandes, la diferencia entre dos valores
de2LogL se distribuye como chi-cuadrado:
Recordemos que la multiplicacin de nmeros es equivalente a
agregar exponentes (lo mismo para la resta y la divisin de
registros). Esto indica que la (L-2log) para una restringida (ms
pequeo) modelo - (-2LogL) para una completa (ms grande) modelo es
el mismo que el registro de la relacin
de dos probabilidades, que se distribuye como chi-cuadrado. El
modelo completo o mayor tiene todos los parmetros de inters en
ella. La restriccin se dice que est anidado en el modelo ms grande.
El modelo restringido tiene una o ms de los parmetros en el modelo
completo restringido a un cierto valor (normalmente cero). Los
parmetros en el modelo anidado deben ser un subconjunto propio de
los parmetros en el modelo completo. Por ejemplo, supongamos que
tenemos dos sueros, uno categricas y continuas una vez, y estamos
buscando a un diseo de ATI. Un modelo completo podra haber incluido
los trminos de la variable continua, la variable categrica y su
interaccin (3 trimestres). Modelos restringidos podra eliminar la
interaccin o uno o ms efectos principales (por ejemplo, podramos
tener un modelo con slo la variable categrica). Un modelo anidado
no puede tener como nica IV, alguna otra variable categrica o
continua no est contenido en el modelo completo. Si lo hace,
entonces ya no es anidada, y no podemos comparar los dos valores
de-2LogL para obtener un valor de chi-cuadrado. El chi-cuadrado se
utiliza para probar estadsticamente si la inclusin de una variable
reduce la maldad de ajuste de la medida. Esto es anlogo a producir
un incremento en R-cuadrado en regresin jerrquica. Si Chi-cuadrado
es significativo, la variable se considera que es un predictor
significativo en la ecuacin, anloga a la significacin del peso b en
la regresin simultnea. Para nuestro ejemplo con el tratamiento de
la ira slo SAS produce lo siguiente: Anlisis de las estimaciones de
mxima verosimilitud Variable DF Par Est Std. Err Wald CHISQ
Interceptar 1 - .5596 1,2528 0.6268 0.9449 0.7972 17566 Pr> Chi-
Stand. cuadrado 0.3719 0.1849 Est . 0.3525 Odds Ratio . 3,50
Tratamiento 1
La interseccin es el valor de una, en este caso - .5596. Como de
costumbre, no tiene demasiado inters en saber si a es igual a cero.
El valor de b dado para el
tratamiento del clera es 1,2528. elchi-cuadrado asociada a este
b no es significativa, al igual que el chi-cuadrado para las
covariables no fue significativa. Por lo tanto no podemos rechazar
la hiptesis de que b es igual a cero en la poblacin. Nuestra
ecuacin se puede escribir ya sea: Logit (P) = - 0,5596 1,2528 X
La interpretacin principal de resultados de la regresin logstica
es encontrar los predictores significativos de Y. Sin embargo,
otras cosas, a veces, se pueden hacer con los resultados. El Odds
Ratio Recordemos que las probabilidades de que un grupo es:
Ahora las probabilidades de que otro grupo tambin sera P / (1-P)
para ese grupo. Supongamos que organizar los datos de la siguiente
manera: La ira de tratamiento Ataque del corazn S (1) No (0) Total
S (1) 3 (a) 6 (c) 9 (a + c) No (0) 7 (b) 4 (d) 11 (b + d) Total 10
(a + b) 10 (c + d) 20 (a + b + c + d)
Ahora podemos calcular las probabilidades de sufrir un ataque al
corazn por el grupo de tratamiento y el grupo sin tratamiento. Para
el grupo de tratamiento, las
probabilidades son de 3/6 = 1/2. La probabilidad de un ataque al
corazn es de 3 / (3 +6) = 3.9 = 0.33. Las probabilidades de que
esta probabilidad es .33 / (1-.33) = .33/.66 = 1/2. Las
probabilidades para el grupo sin tratamiento son 7.4 o 1.75. El
odds ratio se calcula para comparar las probabilidades entre los
grupos.
Si las probabilidades son las mismas en todos los grupos, el
odds ratio (OR) ser del 1,0. Si no, el O ser mayor o menor que uno.
La gente le gusta ver la relacin de formularse en la direccin ms
grande. En nuestro caso, esto sera 1.75/.5 o 1,75 * 2 = 3.50. Ahora
bien, si nos remontamos hasta la ltima columna de la impresin en el
que se dice odds ratio en la columna de tratamiento, usted ver que
el odds ratio es de 3,50, que es lo que conseguimos mediante la
bsqueda de la odds ratio para las posibilidades del tratamiento de
dos condiciones. Tambin sucede que el correo1.2528 = 3.50. Tenga en
cuenta que el exponente es nuestro valor de b de la curva
logstica.
8. Referencias:
http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/
en_Tanagra_Variable_Selection_Binary_Logistic_Regression.pdf
http://eric.univlyon2.fr/~ricco/tanagra/fichiers/en_Tanagra_Multinomial_Logistic_Regression.pdf
http://en.wikipedia.org/wiki/Multinomial_logit
http://www.stat.psu.edu/~jglenn/stat504/08_multilog/01_multilog_intro.htm