1. Regresión lineal simple 1 1 ___________________ Correlación y regresión lineal simple 1. Introducción La correlación entre dos variables (X e Y) se refiere a la relación existente entre ellas de tal manera que a determinados valores de X se asocian determinados valores de Y. Por ejemplo, la correlación entre la altura y el peso, el número de horas que un alumno pasa estudiando una asignatura y la nota que obtiene en la misma, la cantidad de horas de sueño y el rendimiento en una determinada tarea, o el número de amigos que uno tiene en un grupo y su grado de implicación en la tarea que va a acometer con dicho grupo, etc... Estas relaciones funcionales en las que las variables son medidas como mínimo en escala de intervalo, pueden presentar dos sentidos diferentes. Si a medida que aumentan, crecen o se hacen mayores los valores de X se produce un incremento en los de Y la correlación es positiva; si por el contrario, valores altos en Y se asocian con valores bajos en X y bajos en Y con altos en X la correlación es de tipo negativo. Por ejemplo, sería el caso de observar menor rendimiento en un examen cuanto más tiempo pasan los alumnos distraídos en una clase: A más distracción (X), menos rendimiento (Y), es decir, a mayores valores de X, menores son los de Y En el estudio de las correlaciones la asociación entre dos variables puede manifestar diferentes grados. Cuanto mayormente estén asociadas X e Y mayor será su correlación (positiva o negativa), mayor la fuerza en que se encuentran ligadas. Cuando la correlación es perfecta se dice entonces que X e Y se encuentran al 100% asociadas, es decir, comparten al máximo sus variaciones y que la información suministrada por una de ellas informa cabalmente de las variaciones que manifiesta la otra. Este tipo de relaciones perfectas son propias de variables físicas, por ejemplo, la relación entre el volumen y la presión (a determinados valores de volumen le corresponden unos determinados y específicos valores de presión) o la del voltaje y la corriente en un circuito eléctrico con resistencia constante. En nuestra ciencia, sin embargo, estas correlaciones perfectas son impensables. La conducta (que es nuestro objeto de estudio) -en sus múltiples manifestaciones- se halla relacionada con multiplicidad de factores, a veces no controlados, a veces desconocidos. La medida de la asociación entre cualesquiera de ellos y la conducta nos proporcionará como máximo información sobre determinadas tendencias –más o menos claras, significativas o no- entre la ocurrencia de ciertos comportamientos y determinadas circunstancias o factores que los acompañan. Esto quiere decir que nunca podremos predecir al 100% un comportamiento por mucho que sepamos sobre el tipo y cantidad de sus condicionantes, aunque sí podremos predecirlo en algún grado. Para ello hacemos investigación.
23
Embed
1 Correlación y regresión lineal simple · 2010-02-17 · 1. Regresión lineal simple 2 2. Covariación y correlación entre variables. De cara a medir de alguna manera cómo ser
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1. Regresión lineal simple
1
1
___________________
Correlación y regresión lineal simple
1. Introducción
La correlación entre dos variables (X e Y) se refiere a la relación existente entre ellas de
tal manera que a determinados valores de X se asocian determinados valores de Y. Por
ejemplo, la correlación entre la altura y el peso, el número de horas que un alumno pasa
estudiando una asignatura y la nota que obtiene en la misma, la cantidad de horas de
sueño y el rendimiento en una determinada tarea, o el número de amigos que uno tiene
en un grupo y su grado de implicación en la tarea que va a acometer con dicho grupo,
etc...
Estas relaciones funcionales en las que las variables son medidas como mínimo en
escala de intervalo, pueden presentar dos sentidos diferentes. Si a medida que aumentan,
crecen o se hacen mayores los valores de X se produce un incremento en los de Y la
correlación es positiva; si por el contrario, valores altos en Y se asocian con valores
bajos en X y bajos en Y con altos en X la correlación es de tipo negativo. Por ejemplo,
sería el caso de observar menor rendimiento en un examen cuanto más tiempo pasan los
alumnos distraídos en una clase: A más distracción (X), menos rendimiento (Y), es
decir, a mayores valores de X, menores son los de Y
En el estudio de las correlaciones la asociación entre dos variables puede manifestar
diferentes grados. Cuanto mayormente estén asociadas X e Y mayor será su correlación
(positiva o negativa), mayor la fuerza en que se encuentran ligadas. Cuando la
correlación es perfecta se dice entonces que X e Y se encuentran al 100% asociadas, es
decir, comparten al máximo sus variaciones y que la información suministrada por una
de ellas informa cabalmente de las variaciones que manifiesta la otra. Este tipo de
relaciones perfectas son propias de variables físicas, por ejemplo, la relación entre el
volumen y la presión (a determinados valores de volumen le corresponden unos
determinados y específicos valores de presión) o la del voltaje y la corriente en un
circuito eléctrico con resistencia constante. En nuestra ciencia, sin embargo, estas
correlaciones perfectas son impensables. La conducta (que es nuestro objeto de estudio)
-en sus múltiples manifestaciones- se halla relacionada con multiplicidad de factores, a
veces no controlados, a veces desconocidos. La medida de la asociación entre
cualesquiera de ellos y la conducta nos proporcionará como máximo información sobre
determinadas tendencias –más o menos claras, significativas o no- entre la ocurrencia de
ciertos comportamientos y determinadas circunstancias o factores que los acompañan.
Esto quiere decir que nunca podremos predecir al 100% un comportamiento por mucho
que sepamos sobre el tipo y cantidad de sus condicionantes, aunque sí podremos
predecirlo en algún grado. Para ello hacemos investigación.
1. Regresión lineal simple
2
2. Covariación y correlación entre variables.
De cara a medir de alguna manera cómo ser relacionan entre sí dos variables (por
ejemplo, X e Y) es importante en primera instancia partir del concepto de covariación.
La covariación entre dos variables hace referencia a la medida en que la variabilidad de
los valores de X tiende a estar aparejada en cierto sentido o tendencia con la
variabilidad de los valores de Y.
De la manera que mejor se entiende la covariación entre dos variables es representando
dicha relación en un eje de coordenadas. Pongamos unos supuestos valores de X en el
eje de abcisas y sus correspondientes de Y en la ordenada. Por ejemplo, midamos de 0 a
10 el nivel de competencia autopercibida (X) por una muestra de 10 sujetos para superar
una asignatura y la nota obtenida en la misma (Y).
012345678910
0 1 2 3 4 5 6 7 8 9 10
X
Y
Cada uno de los puntos de la gráfica representa a un sujeto. Esto quiere decir que el
primero de ellos puntuó en la escala de competencia percibida un valor de 1 y su nota en
la asignatura fue de 2,5 puntos aproximadamente. Por su parte otro de los sujetos que
puntuó en la escala de competencia un 7 obtuvo una nota de 7 y otro con una
puntuación de 9 en X, obtuvo también una puntuación de 7 en Y. Interpretando en
general esta gráfica podemos afirmar que este conjunto de puntos – esta nube de puntos-
presenta una tendencia o relación ascendente entre X e Y por lo que parece ser que en
líneas generales, a medida que aumenta la competencia percibida de los sujetos éstos
obtienen notas superiores en la asignatura. Lo que sigue es medir o cuantificar de alguna
manera este grado de relación mostrada en la gráfica entre X e Y. A continuación
llevaremos a cabo esta tarea.
El concepto de variabilidad1 hace referencia a la dispersión que presenta un conjunto de
datos entre sí o respecto a un determinado referente. Tal referente puede ser la media. Si
relacionamos las desviaciones de cada uno de los datos de X respecto a su media con las
desviaciones de sus parejas en los valores de Y respecto a la media de Y y calculamos
su promedio tenemos:
1
))((1
−
−−=∑
N
YYXXCov
N
XY
Con esta fórmula se calcula el grado de asociación o covariación entre X e Y. Su
resultado es positivo si ocurre que los datos con desviaciones altas y positivas respecto a
su media en la variable X se emparejan con datos con desviaciones altas y positivas
1 En estadística las medidas de dispersión más usadas son la desviación típica (S) y la varianza (S
2)
1. Regresión lineal simple
3
respecto a la media en Y, así como si desviaciones altas en negativo de los datos en la
variable X se aparejan igualmente con desviaciones altas también negativas en la
variable Y. Esto ocurre cuando, por ejemplo, en el caso graficado arriba, sujetos con alta
competencia percibida obtienen notas altas en la asignatura y sujetos con baja
competencia notas bajas. Por otra parte, el resultado de la fórmula de la covariación será
negativo si, por el contrario, desviaciones altas positivas en X se aparejan con
desviaciones altas negativas en Y y viceversa.
La fórmula de la covariación, por tanto, nos mide hasta qué punto las dos variables
están asociadas en su propia escala puesto que estamos utilizando las puntuaciones
directas que han proporcionado los sujetos. Supongamos que los resultados de medir a 8
sujetos en las variables horas de estudio empleadas en una asignatura (X) y su nota en la
misma -de 0 a 10- (Y) han sido las siguientes.
Sujetos X Y )( xx − )( yy − ))(( yyxx −−
1
2
3
4
5
6
7
8
4
5
7
12
10
9
8
3
3
5
8
10
9
9
8
2
-3.25
-2.25
-0.25
4.75
2.75
1.75
0.75
-4.75
-3.75
-1.75
1.25
3.25
2.25
2.25
1.25
-4.75
12.19
3.94
-0.31
15.44
6.19
3.94
0.94
22.56
Medias 7.25 6.75 ∑= 62.51
)( xx − son las puntuaciones diferenciales que corresponden a cada sujeto en X y
)( yy − son las puntuaciones diferenciales en Y. Dichas puntuaciones indican a cuántos
puntos de la media –por encima o por debajo de ésta- se sitúa la puntuación de cada
sujeto tanto en X como en Y. Así pues, una puntuación diferencial positiva indica una
superioridad respecto a la media y una negativa un defecto respecto a la misma.
¿Cuál es la medida de covariación entre ambas variables en este caso?
93.87
51.62
1
))((1 ==
−
−−=∑
N
YYXXCov
N
XY
Supongamos que la nota en la asignatura se hubiera medido en una escala de 0 a 20 –
por ejemplo si el examen constara de 20 preguntas cortas- en vez de con la escala de 0 a
10 como antes. Si mantenemos las mismas notas previas, es decir, teniendo igual
rendimiento por alumno que antes pero en esta última escala, las puntuaciones hubieran
sido (nótese que en Y, una puntuación de, por ejemplo, 5 en una escala de 0 a 10 se
corresponde con una de 10 –el doble- en la escala de 0 a 20):
1. Regresión lineal simple
4
Sujetos X Y )( xx − )( yy − ))(( yyxx −−
1
2
3
4
5
6
7
8
4
5
7
12
10
9
8
3
6
10
16
20
18
18
16
4
-3.25
-2.25
-0.25
4.75
2.75
1.75
0.75
-4.75
-7.5
-3.5
2.5
6.5
4.5
4.5
2.5
-9.5
24.38
7.88
-0.63
30.88
12.38
7.87
1.87
45.13
Medias 7.25 13.5 ∑= 124.95
En esta nueva escala de la variable Y, la medida de covariación entre las dos variables
será:
85.177
95.124
1
))((1 ==
−
−−=∑
N
YYXXCov
N
XY
un valor sensiblemente superior al de antes (17.85 > 8.93). ¿Quiere decir esto que el
grado de asociación entre X e Y resulta superior en este segundo ejemplo cuando
sabemos que las puntuaciones de Y son las mismas que antes pero medidas en otra
escala? La respuesta es no. La explicación está en la amplitud de la escala de medición
de la segunda de nuestras variables. Este ejemplo nos conduce a afirmar que la medida
de la covariación entre dos variables depende del tipo de escala utilizada. Cuanto más
alto es el rango de variación de las escalas más alto es el resultado de la covariación
entre los datos manteniendo equivalente las puntuaciones de los sujetos en la nueva
escala respecto a la original. Es por eso que necesitamos, para establecer comparativas
entre datos provenientes de diferentes escalas (o de diferentes investigaciones) y para
los mismos conceptos o temas, de una medida de covariación que no dependa de ellas.
Esta medida es la correlación de Pearson.
La fórmula de la correlación de Pearson (r), la más utilizada para medir la asociación
entre dos variables nos proporciona, respecto a la covarianza, una medida de
covariación libre de escala. El coeficiente de correlación de Pearson oscila entre +1 y -
1, representado el primero un valor de correlación perfecta positiva entre las variables y
el último de correlación perfecta negativa. Un valor de r = 0 significa la ausencia total
de correlación entre las variables.
Para calcular r se procede a estimar el promedio de los productos cruzados de X y de Y
(tal y como en la fórmula de la covariación se hacía con las puntuaciones diferenciales)
pero en sus puntuaciones típicas.
N
ZZ
r
N
yx∑= 1
siendo Zs las puntuaciones típicas, es decir, representan el número de desviaciones
típicas a que se encuentra la puntuación de cada sujeto respecto a la media del grupo
tanto en X como en Y. Supongamos que una determinada variable tiene de media 5 y
de desviación típica 1.5. Un sujeto que obtiene en dicha variable una puntuación de 6.5,
1. Regresión lineal simple
5
se encuentra a 1 desviación típica por encima (positiva) de la puntuación media. Esta
sería, pues, su puntuación en Z. Formalmente lo calcularíamos así2:
X
ii
S
XXZ
)( −=
15.1
5.1
5.1
)55.6(==
−=iZ
Por ejemplo, transformemos en puntuaciones Z los valores de X e Y para el sujeto 2 de
la investigación anterior. Dicho sujeto invirtió 5 horas en el estudio de la materia y
obtuvo una calificación de 5 en la misma. Para este sujeto su puntuación diferencial en
X será:
25.2)25.75()( −=−=− XX lo que indica que su puntuación es 2.25 puntos menor que
la media del grupo.
Y en Y:
75.1)75.65()( −=−=−YY lo que indica que su nota es 1.75 puntos menor que la nota
media del grupo
Veamos cuáles son las correspondientes puntuaciones típicas.
En X:
72.1.3
25.2)(−=
−=
−=
X
ii
S
XXZ lo cual indica que su puntuación en horas de estudio
invertidas en la materia se encuentra a .72 desviaciones típicas por debajo de la media
de horas invertidas del grupo.
En Y:
583.3
75.1)(=
−=
−=
Y
ii
S
YYZ lo que muestra que su nota se encuentra a .583
desviaciones típicas por debajo de la nota media del grupo.
A continuación calculamos r para el conjunto de datos anteriores (primero para las notas
de examen en la escala de 0 a 10):
2 Si SX para el cálculo de las puntuaciones típicas es
1
)(1
2
−
−=∑
N
XX
S
N
X (cuasivarianza), la fórmula de la
correlación de forma equivalente debería ser 1−
=N
zzr YXXY
1. Regresión lineal simple
6
Sujetos X Y )( XX − 2)( XX − )( YY − 2)( YY − Zx Zy yxZZ
1
2
3
4
5
6
7
8
4
5
7
12
10
9
8
3
3
5
8
10
9
9
8
2
-3,25
-2,25
-,25
4,75
2,75
1,75
,75
-4,25
10,56
5,06
,06
22,56
7,56
3,06
,56
18,06
-3,75
-1,75
1,25
3,25
2,25
2,25
1,25
-4,75
14,06
3,06
1,56
10,56
5,06
5,06
1,56
22,56
-1,05
-,72
-,08
1,53
,89
,56
,24
-1,37
-1,25
-,58
,42
1,08
,75
,75
,42
-1,58
1,30
,42
-,03
1,65
,66
,42
,10
2,16
Sumas (Σ) 58 50 67.5 63.5 6.68
Medias 7.25 6.75
D.T. 3.1 3
Ya que:
307.97
49.63
1
)(
1.364.97
5.67
1
)(
2
1
1
2
===−
−=
===−
−=
∑
∑
N
YYS
N
XXS
N
Y
N
X
entonces para cada puntuación en X, por ejemplo, la primera:
04.11.3
25.3)(−=
−=
−=
X
ii
S
XXZ
Finalmente, el coeficiente de correlación de Pearson valdrá:
955.07
68.6
1
1 ==−
=∑N
zz
r
N
YX
Una correlación muy alta positiva (teniendo en cuenta que 1 sería la correlación
perfecta). Ello indica que cuantas más horas de estudio se emplee para estudiar la
materia más altas son las notas obtenidas. A continuación calculamos r para los datos en
el caso en que los datos Y se toman en la escala de 0 a 20:
Sujetos X Y )( xx − 2)( xx − )( yy − 2)( yy − zx zy yx zz
1
2
3
4
5
6
7
8
4
5
7
12
10
9
8
3
6
10
16
20
18
20
16
4
-3,25
-2,25
-,25
4,75
2,75
1,75
,75
-4,25
10,56
5,06
,06
22,56
7,56
3,06
,56
18,06
-7,50
-3,50
2,50
6,50
4,50
4,50
2,50
-9,50
56,25
12,25
6,25
42,25
20,25
20,25
6,25
90,25
-1,05
-,72
-,08
1,53
,89
,56
,24
-1,37
-1,25
-,58
,42
1,08
,75
,75
,42
-1,58
1,30
,42
-,03
1,65
,66
,42
,10
2,16
Sumas 58 108 67.5 254 6.68
Medias 7.25 13.5
D.T. 3.1 6.02
1. Regresión lineal simple
7
02.67
254
1
)(
1.37
5.67
1
)(
2
1
1
2
==−
−=
==−
−=
∑
∑
N
YYS
N
XXS
N
Y
N
X
Y su valor r:
955.07
68.6
1
1 ==−
=∑N
zz
r
N
yx
xy
Observemos cómo el coeficiente de correlación entre X e Y no varía cambiando la
escala en que se puntúa Y. Tanto en el primer caso (escala de 0 a 10) como en el
segundo (escala de 0 a 20) el valor de r es .955.
En el SPSS la petición del cálculo de la correlación nos puede proporcionar además otra
información adicional que puede resultar útil. Los resultados los encontramos en
Analizar/correlaciones/bivariadas. En el último cuadro de diálogo a partir de estos
comandos se pueden solicitar las medias y los productos cruzados de las variables así
como sus covarianzas.
Su salida nos proporciona la información siguiente (para las variables horas de estudio y
notas –de 0 a 10-):
Estadísticos descriptivos
Media Desviación típica N
HORAS 7,2500 3,10530 8
NOTAS 6,7500 3,01188 8
Correlaciones
HORAS NOTAS
Correlación de Pearson
1 ,955(**)
Sig. (bilateral) . ,000
Suma de cuadrados y productos cruzados 67,500 62,500
Covarianza 9,643 8,929
HORAS
N 8 8
Correlación de Pearson
,955(**) 1
Sig. (bilateral) ,000 .
Suma de cuadrados y productos cruzados 62,500 63,500
Covarianza 8,929 9,071
NOTAS
N 8 8
** La correlación es significativa al nivel 0,01 (bilateral).
La correlación entre ambas variables, tal y como antes indicamos es .955. Su covarianza
8.93 (véase este mismo resultado cuando se calculaba a mano previamente). La suma de
1. Regresión lineal simple
8
cuadrados de X (∑ −N
XX1
2)( ) vale 67.5, la de Y (∑ −N
YY1
2)( ) 63.5; sus
correspondientes varianzas 9.643 y 9.0713. Por último, la suma de productos cruzados
entre X e Y (∑NXY
1) vale 62.5, un dato útil para calcular a mano el coeficiente r como
veremos a continuación.
El coeficiente de correlación de Pearson puede ser calculado de manera más cómoda
utilizando la siguiente fórmula que deriva de la anterior expresada en valores Zs:4
YX
N
XYSS
YXN
XY
r
−=
∑1
A partir de ahora utilizaremos esta última formulación en vez de la expresión original.
Si por cualquier razón conocemos las puntuaciones diferenciales de los datos la fórmula
de la correlación de Pearson se plantea así:
∑∑∑=
NN
N
xy
yx
xyr
1
2
1
2
1
donde YYyeXXx iiii −=−=
Una medida directamente relacionada con la correlación de Pearson es el denominado
coeficiente de determinación -R2-. Dicho coeficiente se calcula elevando la cuadrado el
valor de r y simboliza la cantidad de variabilidad explicada por X en la determinación
de los valores de Y. O dicho de otra forma, la proporción de la variabilidad de los
valores de Y que es debida al efecto de X, o de forma más inespecífica (cuando no
queremos inducir sentido causal alguno entre las variables), la cantidad de variabilidad
compartida entre las variables X e Y. Mientras que r proporciona la información sobre
el sentido de la correlación (positiva o negativa), R2 informa sobre su fuerza. Así que un
valor de r = -.9 se corresponde con un R2=0.81 (el mismo coeficiente de determinación
que para una r = .9). La diferencia entre los dos casos es el sentido en que X afecta a Y.
El coeficiente de determinación o proporción de variabilidad explicada del modelo de
relación planteado entre X e Y suele representarse en diagramas de Venn. Un círculo
completo representa la cantidad de variación de los datos en la variable Y y sus
diferentes áreas representan la proporción de la variabilidad de dicha variable que se
debe a X, por un lado, y a factores diferentes a X, por otro. Obviamente, cuanto mayor
es el área de variación explicada por X más habremos explicado de Y, es decir, más
conocemos de ella. Por el contrario, cuanto menor es este área mayor cantidad de
factores desconocidos (que no están bajo nuestro conocimiento) afectan a lo que
tratamos de explicar. A continuación tenemos un ejemplo:
3 Hay que tener en cuenta que más que varianzas estas son cuasivarianzas puesto que resultan de dividir
las sumas cuadráticas por N-1. 4 En esta fórmula, al igual que anteriormente, N debe sustituirse por N-1 si las desviaciones típicas del
denominador están calculadas a partir de N-1.
1. Regresión lineal simple
9
Delimitación de la variabilidad de Y
V. Explicada por X
V. No explicada por X
3. La representación gráfica de la correlación. La ecuación de regresión.
La representación gráfica de la relación entre dos variables (X e Y) constituye un
instrumento a veces muy útil tanto para interpretar el tipo de relación estudiada como
para detectar posibles casos extremos o perturbadores de la relación entre ellas. Como
ya hemos visto, se suele utilizar un eje de coordenadas donde los valores de X se
representan en la abscisa y los de Y en la ordenada. En el SPSS, una vez configurado el
archivo de datos en su hoja correspondiente, el diagrama de dispersión de los mismos se
solicita con la siguiente sucesión de comandos: Gráficos/Dispersión/Simple. El gráfico
resultante del ejemplo que tratamos anteriormente sería:
Horas de estudio y notas
HORAS
1412108642
NOTAS
12
10
8
6
4
2
0
Los puntos rojos en el gráfico sitúan las diferentes puntuaciones en el examen de cada
uno de los ocho sujetos analizados en función del número de horas de estudio que han
dedicado a estudiar la asignatura.
Una interpretación general de esta gráfica (si aún no hubiésemos calculado los
estadísticos anteriores como la correlación de Pearson o la covariación entre X e Y) nos
conduce a afirmar que la correlación entre X e Y es positiva puesto que los valores
describen una disposición hacia arriba a medida que aumentan los valores de X.
Además la visión de dicha gráfica nos permite vislumbrar cómo se distribuyen los
puntos respecto a una hipotética línea recta que los define de la forma más satisfactoria
posible y si respecto a dicha línea recta se da mucha o poca dispersión de los valores
dibujados. (Imagina visualmente dicha recta).
totalárea
azuláreaR =2
1. Regresión lineal simple
10
Con estas puntualizaciones estamos introduciendo algunos conceptos de interés que se
barajan en los estudios de la regresión. Por un lado el concepto de linealidad; por otro,
el grado de dispersión de los datos respecto a dicha linealidad o también la
consideración del grado de inclinación de la línea dibujada, etc...
En primer lugar es importante dejar claro que el tipo de estudios que vamos a tratar en
estas páginas se circunscriben exclusivamente a relaciones de tipo lineal entre variables.
Si esta condición no se cumple, las estimaciones de los diferentes estadísticos aplicados
para el análisis de la relación lineal estarán sesgados o serán inoportunos.
Consideremos por ejemplo que entre X (ansiedad) e Y (rendimiento) se produce el
siguiente tipo de relación que representamos gráficamente (una relación de U invertida):
ansiedad y rendimiento
ANSIEDAD
161412108642
RENDIMIE
10
9
8
7
6
5
4
3
2
Si en este caso tratamos de aplicar empecinadamente la supuesta recta que representa a
estos puntos, erraremos en el empeño puesto que dicha recta y sus correspondientes
valores de parámetros no constituyen estimaciones veraces y/o adecuadas de la relación
real que existe entre las variables que es de tipo curvilínea (cuadrática). Empeñándonos
en definir una relación lineal entre ellas (obsérvese la recta dibujada que representa
estos puntos) la conclusión sería que a medida que crece la ansiedad aumenta el
rendimiento mientras que en la gráfica se aprecia precisamente que esto ocurre hasta
cierto nivel de ansiedad a partir del cual el rendimiento empieza a decaer.
Si somos capaces de asegurar de que la relación entre las variables X e Y es de hecho de
carácter lineal y por lo tanto puede ser representada mediante una línea recta, el paso
siguiente será calcular la ecuación de dicha recta, es decir, la expresión matemática que
la define. Esta recta se denomina recta de regresión y su expresión matemática es:
bXaY +=ˆ
donde a es la ordenada en el origen o valor de y (estimado o predicho) cuando X vale 0;
b representa la inclinación de la recta, o si se quiere, el cambio estimado en la variable
Y por cada unidad de cambio en X.
Para esta ecuación suele utilizarse la siguiente nomenclatura cuando se trata de estimar
la relación estudiada en la población:
1. Regresión lineal simple
11
110ˆ XY ββ +=
siendo β0 el parámetro o valor poblacional de a y β1 el correspondiente parámetro de b,
esto es los valores de a y b de la recta anterior en la población de la que supuestamente
procede la muestra con la que hemos trabajado.
La recta de regresión no sólo permite formalizar la relación entre las variables
estudiadas asignándole un referente gráfico sino que, lo que es casi más importante,
permite predecir valores de Y a partir de valores de X que no se encuentran inicialmente
en la muestra de partida. A este respecto, sin embargo, conviene apuntar la conveniencia
de no estimar valores de X fuera del rango de medida sobre la que ha versado la muestra
original ya que lo que en principio puede ser una relación de tipo lineal puede no serlo
cuando se exploran medidas de X fuera (hacia arriba o abajo) del rango en un principio
contemplado.
Pues bien, la recta de regresión constituye la recta que mejor representa la nube de
puntos representados en la gráfica del modo como hemos hecho antes. Dicha recta
puede estimarse por diversos procedimientos siendo la intención identificar, de las
infinitas rectas que pudieran pintarse, aquélla que ajuste mejor con esta nube de puntos
empírica. Con otras palabras, aquélla recta respecto a la cual las distancias de los
numerosos puntos respecto a la misma sea mínima.
El procedimiento más utilizado y que comporta menor sesgo es el de mínimos
cuadrados. Consiste en hacer mínima la distancia de los variados puntos de la nube
respecto a los puntos que se encuentran en la recta, esto es, que la definen. Si
denominamos ei a la distancia de cada uno de los diferentes puntos (N) hasta la recta, el
procedimiento de mínimos cuadrados tratará de estimar la recta tal que:
∑ →N
i mínimoe1
2
es decir, las distancias al cuadrado de los puntos hasta la recta, sumados, deben tender al
mínimo.
Gráficamente y planteando para cada punto o dato ( iY ) su ecuación correspondiente se
tiene:
iii ebXaY ++=
por lo que:
ii
ii
eYY
ebXaY
=−
=+−
ˆ
)(
ya que bXaY +=ˆ
1. Regresión lineal simple
12
iY
Horas de estudio y notas
HORAS
1412108642
NOTAS
12
10
8
6
4
2
0
La distancia que va desde la media de Y (Y ) hasta cualquier punto de la recta ( Y ),
dado un determinado valor de X, queda explicado por la recta de regresión, es decir por
el cambio que sufre Y como efecto de X. Por otro lado, la distancia entre dicho punto
de la recta ( Y ) y el valor empírico de Y se denomina e y no lo explica X sino otras
variables ajenas a ella (errores de medición, factores desconocidos, aleatoriedad del
propio comportamiento de Y, etc...).
3.1. Supuestos.
Los valores de e deben cumplir una serie de requisitos para que sea pertinente el uso del
modelo de regresión tal y como lo estamos realizando. Estos requisitos pueden además
ser aplicados a la variable Y, que es la otra variable aleatoria implicada en el modelo de
regresión. Formalmente estos requisitos o supuestos se expresan así:
SUPUESTOS En términos de Y En términos de ε Linealidad
1)/( XXYE i βα += 0)( =εE
Homocedasticidad 2)/( σ=iXYVar 2)( σε =iVar
Independencia puntuaciones 0)( =iiYYCov 0)( =iiCov εε