Correlación y Regresión Lineal Simple Correlación y Regresión Lineal Simple Modelo lineal Modelo lineal Relación entre variables Relación entre variables cuantitativas cuantitativas Variable dependiente e independiente Variable dependiente e independiente Coeficiente de correlación Coeficiente de correlación significativo. significativo. “ “ Buen” coeficiente de Buen” coeficiente de correlación(r>0,7) correlación(r>0,7) Coeficiente de determinación: Coeficiente de determinación: porcentaje de la varianza que explica porcentaje de la varianza que explica el modelo. el modelo.
26
Embed
Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Correlación y Regresión Lineal Simple Correlación y Regresión Lineal Simple
Modelo linealModelo lineal
Relación entre variables cuantitativasRelación entre variables cuantitativas Variable dependiente e independienteVariable dependiente e independiente Coeficiente de correlación significativo.Coeficiente de correlación significativo. ““Buen” coeficiente de correlación(r>0,7)Buen” coeficiente de correlación(r>0,7) Coeficiente de determinación: porcentaje Coeficiente de determinación: porcentaje
de la varianza que explica el modelo.de la varianza que explica el modelo.
•La IS esta significativamente relacionada con la CV
•Por cada unidad adicional en la escala de IS, la CV aumenta en 0,76 unidades.
•La IS explica el 55% de la varianza de la CV. El ajuste es aceptable, pero hay otros factores determinantes de la CV que no se han considerado.
CV = 0.7813 + 0.7637 IS
Correlación y Regresión Lineal Simple Correlación y Regresión Lineal Simple
Ejemplo : Calidad de vida y nivel de Ejemplo : Calidad de vida y nivel de integración socialintegración social
VAR EXPLICATIVA
4003002001000
VA
R R
ES
PU
ES
TA
100
80
60
40
20
0
•Los resultados de la regresión sólo son fiables si el modelo cumple ciertas hipótesis sobre los residuos
•Es preciso realizar una validación del modelo
Validación
Siempre hay una diferencia entre el valor real de la variable respuesta y la estimación a partir de la ecuación de regresión: el residuo
Correlación y Regresión Lineal Simple Correlación y Regresión Lineal Simple
Validación del modeloValidación del modelo
Introducción a las Técnicas Introducción a las Técnicas MultivariantesMultivariantes
Regresión Lineal MúltipleRegresión Lineal Múltiple Regresión LogísticaRegresión Logística Kaplan-Meier y Regresión de CoxKaplan-Meier y Regresión de Cox
Técnicas MultivariantesTécnicas Multivariantes
1. Muchas variables pueden explicar mas: = (multivariante)
3. Variable dependiente:
4. Qué índice explica:
2. BIVARIANTE vs MULTIVARIANTE
RLM RLOG RCOX
Continua Dicotómica Tiempo hasta
B OR HR
5. Qué hago con los que no están:MODELO PREDICTIVO (rentabilidad)
Para determinar hasta que punto las variables explicativas permiten estimar a la variable respuesta seguimos usando el R2 (COEFICIENTE DE DETERMINACIÓN=VARIANZA EXPLICADA).
Cuanto más cercano a 1 más adecuado es el modelo
Cuanto más cercano a 0 peor resulta el modelo. Es decir, las variables explicativas no se ajustan linealmente a la variable respuesta.
R2 aumenta con muchas VI y en muestras pequeñas R2
ajustado
Un R2 bajo no necesariamente indica que las variables seleccionadas no permiten estimar adecuadamente la
Se puede contrastar si cada pendiente individualmente es significativa o no, es decir, si cada variable explicativa influye realmente sobre la variable respuesta (“t”)
Se puede contrastar si globalmente todas las variables explicativas influyen sobre la variable respuesta (“F”).
Las siguientes paradojas pueden darse,
• Individualmente una variable explicativa puede estar significativamente relacionada con la variable respuesta, pero no ser un predictor significativo en el modelo de regresión lineal múltiple
• Una variable individualmente puede NO estar significativamente relacionada con la variable respuesta, pero en un modelo de regresión lineal múltiple SÍ lo está
Ejemplo: Coeficientes definitivos Ejemplo: Coeficientes definitivos e ICe IC
Variables implicadas:
Dicotómica
Respuesta
Cuantitativa o Dicótómica
Eje
mp
los
• Hipertensión (si/no)
• Diabetes (si/no)
• Ictus (si/no)
• Suceso (si/no)
• Colesterol
• Tabaquismo
• Edad
• Zona de residencia (dicotomizada)
Obtener una función logística que permita ‘clasificar’ a los individuos en uno de los dos grupos de la variable repuesta.
ExplicativasModelizar la probabilidad de aparición de una enfermedad o patología, por el nivel de diversos factores o características de los pacientes.
Regresión Logística: Esquema y Regresión Logística: Esquema y objetivosobjetivos
¡¡¡ LA DIFERENCIA !!!
La variable respuesta es dicotómica.
Se modeliza la probabilidad de ocurrencia de la variable respuesta.
Indica que el efecto combinado de varios factores de riesgo sobre el riesgo individual de padecer la enfermedad es mínimo para valores pequeños del factor, para aumentar rápidamente a partir de un determinado umbral.
Posibles preguntas : se pretende analizar si padecer una enfermedad o patología, está influido por uno o más factores (variables independientes).
Ejemplo: Si la aparición de ECV * se encuentra relacionada con los factores: edad, ser fumador, hábitos de vida, alcohol, dieta, etc.
•Se obtiene probabilidad de padecer ECV para un determinado sujeto con unas determinadas características
•Se cuantifica el riesgo (OR) de cada factor
Regresión LogísticaRegresión Logística
Preguntas y objetivosPreguntas y objetivos
*ECV Enfermedad Cardio Vascular
Bivariante Prob (Enf./A) =1+e
1
-(b0 + b1A)
Multivariante Prob (Enf./A1, A2, A3) =1+e
1
-(b0 + b1a1+b2A2+b3A3)
B= A1 A2 A3
Regresión LogísticaRegresión Logística
Forma funcionalForma funcional
Abb
Abb
e
eAEnfP
10
10
1)/(
Abb
AEnfP
AEnfP10)(1
)(ln
Las probabilidades están limitadas entre 0 y 1 y se transforman a escala de valores de B y a esto se le llama transformación logística
NO DA EL VALOR DIRECTO DE LA RESPUESTA SINO QUE ESTIMA LA p(Enf)
Se encuentra directamente relacionada con el concepto de la razón de Odds de la enfermedad:
AbbP1-
P ln 10
e 1Ab 0b
P1-
P
Regresión LogísticaRegresión Logística
LinealizaciónLinealización
Con el coeficiente b1 del modelo se puede calcular el OR para esa variable exposición y nos indica que al pasar de un subgrupo a otro de dicha variable, la probabilidad de enfermedad se multiplica en OR veces.1)ln(
1
0
10
bOR
ee
eOR b
b
bb
Regresión Logística Regresión Logística
Interpretación de b1Interpretación de b1
Contrastes de hipótesis:
Se trata de obtener una combinación lineal que permita estimar las probabilidades de pertenecer a cada uno de los dos grupos establecidos por los valores de la variable dependiente.
Efectividad del modelo:
Tabla de clasificación 2x2 : da el porcentaje de casos correctamente clasificados sobre la muestra existente.
Cuanto mayor sea el porcentaje de aciertos, más efectivo es el modelo.
Regresión LogísticaRegresión Logística Calidad del modelo y contrastesCalidad del modelo y contrastes
3322110
3322110
1)/( 321 AbAbAbb
AbAbAbb
e
eAAAEnfP
3322110321
321
)(1
)(ln AbAbAbb
AAAEnfP
AAAEnfP
El modelo múltiple incluye más variables independientes (dicotómicas, ordinales…).
Los OR hacen referencia a cada variable independiente incluida en el modelo pero AJUSTADO por el resto de las mismas.
NO DA EL VALOR DIRECTO DE LA RESPUESTA SINO QUE ESTIMA LA p(Enf)
Regresión Logística Regresión Logística
Modelo múltipleModelo múltiple
• La/s explicativa/s influye/n sobre la respuesta.
• Su interpretación se realiza mediante OR=eb.
• Cátegórica: una variable 0/1 nos indica que para la presencia del factor (1), este es el valor que toma B.
Conclusiones
•Estimación
•Contraste de hipótesis: ¿son significativos?
•En concreto, ¿es b1 ó b2 significativamente no nulos?
•Odds Ratio (OR)
•Mayor de 1: factor de riesgo.
•Menor de 1: factor de protección.
B = b0 + b1A1 + b2A2
Regresión Logística Regresión Logística
Interpretación de ResultadosInterpretación de Resultados
Muestra: 70 pacientes víctimas de accidentes de tráfico con daño cerebral. Se desea saber si variables como el tipo de lesión, la atención, el apoyo familiar, o la edad del sujeto influyen en la rehabilitación total del paciente.