Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán CORRELACIÓN LINEAL SIMPLE ANÁLISIS DE CORRELACIÓN Cuando se trabaja con dos variables, pueden surgir diferentes preguntas como: http://www.cuautitlan.unam.mx Correlación Lineal Simple arra de acero y dureza?, etc. Qué es un análisis de correlación? ente si tiene relación o incidencia en el nivel de glucosa en la angre. ¿Existe relación entre lo que una empresa gasta en publicidad y el importe de sus ventas?, ¿existe relación entre el número de años de antigüedad en el trabajo y la productividad?, ¿existe relación entre la edad de un adulto y la presión sistólica?, ¿existe relación entre el contenido de carbono de una b la ¿ Es un grupo de técnicas estadísticas empleado para medir la intensidad de la relación entre dos variables. La variable que se intenta predecir se denomina variable dependiente (Y) y la variable utilizada para la predicción es la variable independiente (X); esta variable debe seleccionarse con cuidado, para que podamos tener cierto nivel de seguridad de que si incide en el comportamiento de la variable dependiente. Por ejemplo, si deseamos saber si el nivel de glucosa en la sangre de un varón adulto, tiene relación con el peso de dicho varón, podemos decir que el peso de los varones, seguram s
16
Embed
CORRELACIÓN LINEAL SIMPLE - …asesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica...d • Fuerte o intensa ... Coeficientes cercanos a -1.00 o a +1.00 indican que existe
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán
CORRELACIÓN LINEAL SIMPLE
ANÁLISIS DE CORRELACIÓN
Cuando se trabaja con dos variables, pueden surgir diferentes preguntas
Continuando con nuestro ejemplo, calcularemos el coeficiente de correlación entre el peso y el nivel de glucosa de los varones adultos; lo haremos con calculadora paso a paso, pero debemos mencionar que se puede resolver
cilmente con cualquier paquete de software estadístico.
Nota: La palabra regresión la utilizó por primera vez Sir
Francis Galton en 1877 en su estudio de los factores
hereditarios. Descubrió que las estaturas de los
descendientes de padres altos, tendían a una regresión
(es decir a volver o retornar) hacia la estatura promedio
de la pobl
Al observar el diagrama de dispersión, se puede
considerar que una línea recta parece describir mejor la ubicación promedio
de los puntos, por lo que se determinará mediante una ecuación
matemática ea recta.
¿Qué es la ecuación de regresión?
Es una expresión matemática que define la relación entre dos variables,
llamada también recta de regresión. Se pueden trazar manualmente varias
rectas que pasen aproximadamente cerca de todos los puntos, pero el
concepto de “cerca” se debería al juicio de cada persona que realiza el
ajuste; para evitar esta subjetividad y elegir la recta que mejor se ajuste a
los puntos, utilizaremos el método de mínimos cuadrados.
¿Qué es el método de mínimos
cuadrados?
Es una técnica empleada para llegar a
la ecuación de regresión, minimizando
la suma de los cuadrados de las
distancias o desviaciones verticales
entre los valores Y verdaderos (de los
puntos) y los valores pronosticados o
estimados de Y (de la recta).
Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán
La forma general de la ecuación de regresión o recta de regresión, es
bXaY +=' En donde: Y’ es el valor pronosticado o estimado de la variable Y, para un valor deleccionado de X. a es la ordenada al origen de la recta o la intersección con el eje Y; también se puede decir que es el valor estimado de Y cuando X vale cero. b es la pendiente de la recta, es decir, el cambio promedio (incremento o decremento según sea el signo) en Y’, por cada unidad de cambio en la variable independiente X. X es cualquier valor seleccionado para la variable independiente. Como la pendiente b indica el comportamiento o actitud que tiene la variable dependiente Y con respecto a la variable independiente X, le denominaremos como coeficiente de regresión. ¿Cómo se calculan el coeficiente de regresión y la ordenada al origen? Con base en el planteamiento y solución de un sistema de dos ecuaciones lineales normales, podemos definir las dos fórmulas correspondientes.
de las variables X y Y. Continuando con nuestro ejemplo, con los valores de la siguiente tabla, calcularemos la ecuación de la recta de regresión, que estima o pronostica el valor de nivel de glucosa en la sangre para un valor del peso de un varón adulto: Calculamos ahora los valores de a y b:
Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán
XYcomoquedaregresiónderectaladeecuaciónlaquelopor
a
b
02.103.21':
03.21)12.78(02.17.100)10
2.781(02.110007,1
02.156.465,116.692,11
)2.781()90.173,62(10)007,1)(2.781()1.836,79(10
2
+=
=−=−=
==−
−=
78.12 kg es el peso promedio de la muestra de varones adultos que se está analizando, y 100.7 mg/100ml es nivel de glucosa promedio de dicha muestra.
La ordenada al origen indica que, hipotéticamente un varón adulto que pesara 0 kg, tendría un nivel de glucosa en la sangre de 21.03 mg/100ml, aunque debemos observar que el peso de los varones adultos está en un rango experimental aproximadamente entre 60 y 100 kg. El coeficiente de regresión indica que, por cada kilogramo de peso que aumente un varón, su nivel de glucosa se incrementará (ya que el coeficiente de regresión es de signo positivo) en 1.02 mg/100ml.
Para un varón adulto que tenga un peso de 80.0 kg, podríamos estimar su nivel de glucosa, sustituyendo el valor del peso en la ecuación de la recta de regresión encontrada:
Con base en el coeficiente de regresión, también podríamos decir, que si el varón con 80.0 kg de peso tiene un nivel de glucosa estimado o pronosticado de 102.62 mg/100ml, otro varón con 81.0 kg de peso, tendrá un nivel de glucosa estimado de 102.62+1.02=103.64 mg/100ml. ¿Cómo trazar la recta de regresión en el diagrama de dispersión?
Para dibujar una línea recta, sólo necesitamos las coordenadas de dos puntos, las cuales se pueden obtener substituyendo dos valores (cualesquiera, de preferencia dentro del rango de los valores originales) de la variable independiente X o abscisas, en la ecuación de regresión y obteniendo dos valores estimados de Y’ u ordenadas. Dibujando estos dos puntos en el diagrama de dispersión, se puede fácilmente trazar la recta de regresión.
Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán
Es conveniente indicar que el punto de coordenadas P(0,a) de la intersección de la recta con el eje Y, y el punto de coordenadas P( ),( YX de las medias de las dos variables, pertenecen a la recta de regresión. En nuestro ejemplo, para trazar la recta de regresión debemos saber que contamos con los siguientes puntos que pertenecen a la recta: El punto P(0, 21.03) correspondiente a la intersección de la recta con el eje Y de la variable dependiente (nivel de glucosa en la sangre), y el punto P(78.12, 100.7) correspondiente a las medias de las dos variables, pertenecen a la recta de regresión
XY 02.103.21' += Podemos encontrar dos puntos dentro del rango experimental, sustituyendo por ejemplo los valores de 60.0 y 100.0 kg de peso en la ecuación de la recta de regresión
Por lo que, por los puntos P(60.0, 82.22) y P(100.0, 123.01) se puede trazar la recta de regresión
En el diagrama de dispersión anterior, se puede observar que no todos los puntos están sobre la recta de regresión, lo cual indica que al realizar el pronóstico de la variable dependiente Y, no tendríamos una exactitud del 100%, sino que habría un error, es decir que, la estimación del nivel de glucosa no es exacta, con base en el peso de los varones adultos. En el caso hipotético de que todos los puntos estuvieran sobre la recta de regresión, el pronóstico sería exacto.
Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán
¿Cómo medir la precisión de los pronósticos o estimaciones? La medida que indica la precisión en el pronóstico o estimación de la variable dependiente Y, con respecto a la variable independiente X, se llama error estándar de regresión. Se denota con y es similar a la desviación estándar que nos mide la dispersión de un conjunto de valores con respecto a la media, así, el error estándar de regresión mide la dispersión vertical de los puntos con respecto a una recta promedio que llamamos recta de regresión.
xyS .
¿Cómo se calcula el error estándar de regresión? Se calcula con la siguiente fórmula:
2
]))(([)(
2)'(
22
.
2
.
−
∑∑−∑−
∑−∑
=
−−∑
=
nn
YXXYbnYY
S
bienon
YYS
xy
xy
Podemos ver en las fórmulas anteriores que el denominador del radical es n-2, en lugar de n-1 como era para el caso de la desviación estándar; lo anterior obedece a que para encontrar los valores a y b en la recta de regresión, son dos incógnitas en el sistema de dos ecuaciones lineales normales, lo cual también podríamos explicar diciendo que así como para calcular la desviación estándar se necesitan como mínimo dos valores, para calcular el error estándar de regresión se necesitan como mínimo tres puntos. Para calcular el error estándar de regresión en nuestro ejemplo, de acuerdo a la primer fórmula, debemos calcular los residuos, es decir, las distancias o desviaciones
verticales entre los valores observados del nivel de glucosa en la sangre (Y) y los correspondientes valores estimados (Y’); por el método de mínimos cuadrados, la suma de estos residuos debe ser igual a cero, es decir ; reiterando que se puede hacer fácilmente con los paquetes de software estadístico, lo hacemos en la siguiente tabla
Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán
Calculamos el error estándar muestral, con las dos fórmulas
96.82108.8086864.641
84136.192,11.834,1
8)26.169,1(02.11.834,1
210
]10
)007,1)(2.781(1.836,79[02.110
)007,1(239,103
96.82108.8086864.641
2106864.641
.
2
.
.
===−
=
−=
−
−−−=
===−
=
xy
xy
xy
S
S
bienoS El error estándar de regresión tiene un valor de 8.96 mg/100ml Relación entre coeficiente de correlación y el error estándar de regresión: Cuando en el diagrama de dispersión, los puntos están muy cerca de la recta de regresión, podemos afirmar que la intensidad de la relación entre las dos variables es fuerte, es decir, que el coeficiente de correlación (r) es muy cercano a , pero también podemos decir que el error estándar de regresión ( ) es casi cero; por el contrario, cuando la relación entre dos variables es nula, los puntos en el diagrama están totalmente dispersos con respecto a la recta de regresión, lo que conlleva que
y que
00.1±xyS .
0=r ∞=xyS . . ¿Cuáles son los supuestos básicos para la regresión lineal? El análisis de la regresión lineal, se sustenta en que se cumplan o satisfagan los siguientes supuestos:
1. Para cada valor de la variable independiente X, existe un conjunto de valores Y, que tienen distribución normal. Se le conoce como supuesto de normalidad; si la distribución sólo es aproximadamente normal, para el análisis de regresión se puede decir que se satisface el supuesto.
2. Las medias ( xy /μ ) de las distribuciones normales de valores Y, se encuentran todas en la recta de regresión. Se le conoce como supuesto de linealidad.
3. Las desviaciones estándares (σ ) de dichas distribuciones normales, ahora representadas por el error estándar de regresión ( ), son iguales. Se le conoce como supuesto de homoscedasticidad; este supuesto es importante que se cumpla para el uso del método de mínimos cuadrados.
xyS .
4. Para cada valor de la variable independiente X, se presenta un error, es decir, la distancia o desviación vertical entre un valor observado Y y su correspondiente valor pronosticado o estimado Y’; es necesario que se cumpla la suposición de que estos errores sean independientes para cada valor de X; se le conoce como supuesto de independencia de error.
Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán
Si las distribuciones de los valores Y para cada valor de X son aproximadamente normales, entonces existen las mismas relaciones que tienen los valores de μ yσ en la distribución normal, es decir, con una muestra suficientemente grande, aproximadamente:
xySY .1'± abarca o comprende el 68.26% centrado de los valores observados.
xySY .2'± abarca o comprende el 95.44% centrado de los valores observados.
xySY .3'± abarca o comprende el 99.74% centrado de los valores observados. En nuestro ejemplo, si tomamos un varón adulto de X=75.0 kg de peso y estimamos su nivel de glucosa en la sangre con
mlmgY 100/52.9749.7603.21)0.75(02.103.21' =+=+= Entonces: entre de nivel de glucosa en la sangre, se encuentra el 68.26% centrado, de los varones con 75.0 kg de peso.
Casi todas las variables independientes que se han estudiado, son de tipo cuantitativo, es decir, proporcionan valores numéricos de medición, pero en el análisis de regresión a veces es necesario utilizar como variables independientes, las que son de tipo cualitativo, es decir que sus valores son categorías que proporcionan el concepto de atributo, como por ejemplo el sexo, la nacionalidad, el grupo racial, la profesión u ocupación, la zona de residencia, etc. Para utilizar una variable independiente cualitativa en el análisis de regresión, ésta debe tener la posibilidad de ser cuantificada, lo anterior puede lograrse utilizando una variable ficticia. ¿Qué es una variable ficticia? Es una variable que solo toma un número finito de valores enteros positivos (incluyendo a veces al cero), para identificar las diferentes categorías de una variable cualitativa.
Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán
Como por ejemplo:
Variable Cualitativa
VariableFicticia
Sexo X Masculino 0 Femenino 1
Cuando la variable independiente cualitativa es el tiempo (hora, día, mes, año, etc.), al análisis de regresión respectivo, se le llama análisis de series de tiempo. Al dibujar el diagrama de dispersión, se acostumbra unir los puntos con una línea quebrada, ya que los valores del tiempo como variable cualitativa, están equidistantes Tomemos como ejemplo las ventas mensuales (en miles de pesos) de una empresa como la variable dependiente, durante el periodo de agosto de 2005 a julio de 2006; este periodo de tiempo sería la variable independiente cualitativa, que transformamos en una variable ficticia en la siguiente tabla:
Variable independiente
cualitativa
Variableficticia
Variable dependiente
(ventas)
Mes X Y X2 XY Y2
Agosto 1 486 1 486 236,196 Septiembre 2 626 4 1,252 391,876 Octubre 3 630 9 1,890 396,900 Noviembre 4 809 16 3,236 654,481 Diciembre 5 925 25 4,625 855,625 Enero 6 546 36 3,276 298,116 Febrero 7 870 49 4,350 756,900 Marzo 8 368 64 2,944 135,424 Abril 9 426 81 3,834 181,476 Mayo 10 694 100 6,940 481,636 Junio 11 523 121 5,753 273,529 Julio 12 562 144 6,744 315,844 78 7,465 650 45,330 4,978,003
Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán
Podemos pronosticar las ventas para diciembre de 2006, con el valor ficticio de X=17 y sustituyéndolo en la ecuación de regresión
pesosdemilesY 67.387)17(33.2220.767' =−= Esta estimación puede no ser muy exacta pues tenemos un error que puede ser muy grande. Calculemos ahora el error estándar de regresión y los coeficientes de correlación, determinación y no determinación:
Lo que indica que sólo el 21.33% de la variación en las ventas, está explicado por la variación en el tiempo, en tanto que el 78.68% muchísima variación no está explicada, es decir que el coeficiente de correlación indica un grado de intensidad débil entre las dos variables.