Regresión lineal simple Regresión lineal múltiple Regresión no lineal Tema 2: Regresión Grado en Fisioterapia, 2010/11 Jesús Montanero Fernández Cátedra de Bioestadística Universidad de Extremadura 8 de noviembre de 2010 Jesús Montanero Fernández Tema 2: Regresión
45
Embed
Tema 2: Regresión - unex.esmatematicas.unex.es/~jmf/Archivos/Tema_2_Regresion.pdf · 2011. 10. 21. · Coeficiente correlación múltiple corregido R~2 Introducir una variable explicativa
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Tema 2: RegresiónGrado en Fisioterapia, 2010/11
Jesús Montanero Fernández
Cátedra de BioestadísticaUniversidad de Extremadura
8 de noviembre de 2010
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Índice
1 Regresión lineal simple
2 Regresión lineal múltipleEcuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
3 Regresión no lineal
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Índice
1 Regresión lineal simple
2 Regresión lineal múltipleEcuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
3 Regresión no lineal
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Índice
1 Regresión lineal simple
2 Regresión lineal múltipleEcuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
3 Regresión no lineal
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Regresión
¿En qué consiste?Es la explicación de una variable numérica a partir de una ovarias variables, también numéricas
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Regresión Lineal simple
Una variable explicativa
Longitud cabeza
9,0008,7008,4008,1007,800
An
ch
ura
ca
be
za
5,200
5,100
5,000
4,900
4,800
4,700
4,600
4,500
Página 1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Modelo
Relación linealPoblación: Y ' α + βXMuestra: yi ' a + bxi. i = 1, . . . , n
Solución mínimo-cuadrática
minimizarn∑
i=1
[yi − (a + bxi)]2
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Estimación y contraste de hipótesis
Grado de correlación lineal
r2 =s2
xy
s2xs2
y
Recta de regresión y = a + bx
b =s2
xy
s2x, a = y− bx
Test de correlación¿Existe relación a nivel poblacional? ρ2 = 0⇔ β = 0
H0 : ρ2 = 0 ! r2, n
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ejemplo
Gráfico
Área de la cabeza
38,0036,0034,0032,00
Vel
oci
dad
lin
eal
150,0
140,0
130,0
120,0
110,0
100,0
Sq r lineal = 0,002
Página 1
Cálculosr2 = 0,002y = 110,387 + 0,338xP = 0,660
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Regresión lineal múltiple
Es la explicación de una variable numérica Y a partir de variasvariables numéricas. Para facilitar la notación hablaremosúnicamente de dos variables explicativas X y Z.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
EjemploPredicción del peso de un feto mediante tres medidas CC, CA yLF proporcionadas por un ecógrafo.
VentajaMejor predicción
InconvenienteGráficos
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Diagrama de dispersión matricial
PesoCACCLF
LF
CC
CA
Pes
o
Página 1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Modelo
Relación linealPoblación: Y ' β0 + β1X + β2ZMuestra: yi ' b0 + b1xi + b2zi. i = 1, . . . , n
Solución mínimo-cuadrática
minimizarn∑
i=1
[yi − (b0 + b1xi + b2zi)]2
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Medidas del grado de correlación
Tipos de coeficientes de correlación lineal (al cuadrado)SimpleMúltipleParcialMúltiple corregido
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Simples
r2xy, r2
xz, r2zy
Expresan la proporción de variabilidad de una variableexplicada linealmente por otra.
Cálculo (estimación)
r2xy =
s2yx
s2xs2
yr2
zy =s2
yz
s2z s2
yr2
xz =s2
zx
s2xs2
z
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Describen los gráficos de dispersión simples
PesoCACCLF
LF
CC
CA
Pes
o
Página 1
Correlaciones
1 ,682 ,661 ,8021 ,963 ,577
1 ,4201
LFCCCAPeso
LF CC CA Peso
Página 1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Coeficiente de correlación múltiple
R2
Expresan la proporción de variabilidad de la variable respuestaexplicada linealmente por las otras.
Cálculo (estimación)
R2 =
(syx syz) ·(
s2x sxz
szx s2z
)−1
·(
sxy
szy
)s2
y
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Coeficientes de correlación parcial
r2yx,z r2
yz,x
r2yx,z: proporción de variabilidad de Y no explicada por Z que sí
es explicada por X.r2
yz,x: proporción de variabilidad de Y no explicada por X que síes explicada por Z.Ambos parámetros indican la aportación .en exclusiva"de lasvariables X y Z en la explicación de Y .
Cálculo (estimación)
r2yx,z =
R2 − r2yz
1− r2yz
r2yz,x =
R2 − r2yx
1− r2yx
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Coeficiente correlación múltiple corregido
R2
Introducir una variable explicativa inútil (con correlaciónparcial pequeña respecto a la variable respuesta) no puedeprovocar una disminución de R2 pero sí de R2, que se define demanera similar pero penalizando el exceso de variables.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Predicciones
ObjetivosLa finalidad de la ecuación muestral y = b0 + b1x + b2z es:
Estimar los valores poblacionales β0, β1, β2 de la ecuación.Predecir el valor de Y que correspondería a un individuocon valores x y z conocidos
y = b0 + b1x+ b2z
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Fiabilidad
Intervalos de confianza para las prediccionesPodemos asignar un margen probable de error a la estimaciónobtenida que dependerá de los factores siguientes:
R2
nDistancia de (x,z) al centro (x, y).
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Hipótesis importantes
Los parámetros anteriormente definidos son estimaciones deanálogos poblaciones realizadas a partir de la muestra.
r2yx ρ2
yx
R2 ρ2
r2yx,z ρ2
yx,z
Se dan la siguientes equivalencias entre los coeficientes decorrelación y los parámetros de la ecuación:
ρ2 = 0⇔ β1 = β2 = 0ρ2
yx,z = 0⇔ β1 = 0ρ2
yz,x = 0⇔ β2 = 0
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Interpretación
Es decirρ2 = 0: todas las variables explicativas se multiplican por 0en la ecuación poblacional Y ' β0 + β1X + β2Zρ2
yx,z = 0: la variable X se multiplica por 0 en la ecuación.
Por lo tantoR2 no difiere significativamente de 0: b1 y b2 no difierensignificativamente de 0.r2
yx,z no difiere significativamente de 0: b1 no difieresignificativamente de 0.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Contraste total
H0 : β1 = β2 = 0
Equivale a ρ2 = 0, es decir, a que X y Z no tengan capacidad deexplicar linealmente nada de Y . La decisión del test depende deR2 y n.
R2 ↑⇒ H1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Selección de variables
Tests parcialesSon en principio los encargados de depurar el modeloeliminando las variables que aporten resultados nosignificativos (correlaciones parciales pequeñas).
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Problema importante
MulticolinealidadLas variables explicativas pueden correlacionar entre sí, lo cualda lugar a un efecto de "solapamiento"que no afecta a R2 ni a lafiabilidad de las predicciones, pero sí a los coeficientes decorrelación parciales.
ConsecuenciasLos coeficientes de regresión no son fiablesindividualmente aunque la ecuación sí lo sea globalmente.Aparecen demasiados resultados no significativos en lostests parciales.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Ejemplo: ecógrafo
Multicolinealidad leve entre LF, CC y CAEcuación que permite obtener predicciones fiables pero cuyoscoeficientes no deberían interpretarse por separado. Estánsometidos a una fuerte variabilidad.
Peso ' -149.0+12.6Femur+9.8Cráneo-9.4Abdomen
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Multicolinealidad fuerte entre LF y LTiSi introducimos dos variables explicativas fuertementecorrelacionadas es muy probable que tengamos para ambasresultados no significativos en los tests parciales, aunque sucorrelación simple con Y sea alta. Las dos desaparecerían delmodelo.
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Soluciones multicolinealidad
OpcionesProcurar que las variables explicativas no tengan relaciónentre sí.Trabajar con muestras muy grandes.Aplicar algoritmos de selección para optimizar elmodelo.Tomar decisiones "salomónicas": componentes principales.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Álgoritmo I
Hacia delante
Plantear tantos modelos de regresión simples como variablesexplicativas haya. Efectuar el contraste de correlación en cadaunos de ellos.
Escoger la variable que aporte el resultado más significativo.Considerar los diferentes modelos de dos variables explicativasque se obtienen añadiendo a ésta cada una de las restantes.
Escoger la variable nueva que aporte el resultado mássignificativo en el test parcial
Así sucesivamente hasta que ninguna candidata aporte unresultado significativo.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Álgoritmo II
Hacia atrásEfectuar todos los tests parciales en el modelo completo yexcluir la variable que aporte un resultado menossignificativo.Repetir el mismo método en el modelo reducido resultantey así hasta que todas las variables aporten resultadossignificativos (excepción: P<0.10).
Lo deseable es que ambos métodos conduzcan a un mismomodelo.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Ejemplo: lobos
Hacia adelante: dos variables R2 = 0,712Coeficientesa