-
Regresi6n simple /
Esquema del capitulo 1 2.1. Analisis de correlacion
Contraste de hipotesis de la correlacion 12.2. Modelo de
regresion lineal 1 2.3. Estimadores de coeficientes por el metoda
de minimos cuadrados
Calculo por computador del coeficiente de regresion 12.4. EI
poder explicativo de una ecuacion de regresion lineal
EI coeficiente de determinacion Ff2 12.5. Inferencia
estadfstica: contrastes de hip6tesis e intervalos de confianza
Contraste de hip6tesis del coeficiente de la pendiente
poblacional utilizando la distribuci6n F
12.6. Predicci6n 12.7. Analisis grafico
Introducci6n Hasta ahora hemos centrado la atenci6n en el anal
isis y la inferencia relacionados con una unica variable. En este
capftulo extendemos nuestro anal isis a las relaciones entre
variables. Comenzamos con una breve introducci6n al analisis de
correlaci6n, seguido de la presentaci6n del anal isis de regresi6n
simple. Nuestra presentaci6n es paralela a la del Capftulo 3, en el
que hicimos hincapie en las relaciones descriptivas, incluido el
uso de diagramas de puntos dispersos, coeficientes de correlaci6n y
la regresi6n lineal como instrumentos para describir las relaciones
entre variables. Suponemos que el lec-tor esta familiarizado con
ese capftulo.
En el analisis de los procesos empresariales y econ6micos se
utilizan a menudo las relaciones entre variables. Estas relaciones
se expresan en terminos matematicos de la forma siguiente:
y= f(X) donde la funci6n puede adoptar muchas formas lineales y
no lineales. En algunos de esos casos, la forma de la relaci6n no
se conoce exactamente. Aquf presentamos anal i-sis que se basan en
relaciones lineales. En muchos casos, las relaciones lineales
consti-tuyen un buen modelo del proceso. En otros casos, nos
interesa una parte limitada de una relaci6n no lineal a la que
podemos aproximarnos mediante una relaci6n lineal. En el apartado
13.7 mostramos que algunas relaciones no lineales importantes
tambien pueden analizarse utilizando el anal isis de regresi6n. Por
10 tanto, los metodos de corre-laci6n y de regresi6n pueden
aplicarse a una amplia variedad de problemas.
-
432 Estadfstica para administraci6n y economfa
Las relaciones lineales son muy utiles para muchas aplicaciones
empresariales y economicas, como indican los siguientes ejemplos.
EI presidente de Materiales de Cons-truccion, S.A., fabricante de
placas de yeso, cree que la cantidad anual media de placas de yeso
vendidas en su region es una funcion lineal del valor total de los
permisos de edificacion expedidos durante el ana anterior. Un
vendedor de cereales quiere saber co-mo afecta la produccion total
al precio por tonelada. Esta desarrollando un modele de prediccion
que utiliza datos historicos. EI departamento de marketing necesita
saber como afecta el precio de la gasolina a sus ventas totales.
Utilizando datos semanales sobre los precios y las ventas, planea
desarrollar un modelo lineal que muestre cuanto varian las ventas
cuando varia el precio.
Con la aparicion de muchos y buenos paquetes estadisticos y
hojas de calculo como Excel , hoy es posible para casi todo el
mundo calcular estadisticos de correlacion y de regresion.
Desgraciadamente, tambien sabemos que no todo el mundo sabe
interpretar y utilizar correctamente estos resultados obtenidos por
computador. Aqui ellector apren-dera algunas ideas fundamentales
que 10 ayudaran a utilizar el anal isis de regresion. Comenzaremos
examinando el anal isis de correlacion.
12.1. Analisis de correlacion
En este apartado utilizamos los coeficientes de correlacion para
estudiar las relaciones en-tre variables. En el Capitulo 3
utilizamos el coeficiente de correlacion muestral para des-cribir
la relacion entre variables indicada en los datos. En el 5 y en el
6 aprendimos 10 que era la correlacion poblacional. Aqui
presentamos metodos inferenciales que utilizan el coe-ficiente de
correlacion para estudiar relaciones lineales entre variables.
En principio, dos variables aleatorias pueden estar relacionadas
de diversas formas . Es util postular al comienzo del analisis una
forma funcional de su relacion. A menudo es ra-zonable suponer,
como buena aproximacion, que la relacion es lineal. Si se examina
un par de variables aleatorias, X e Y, entre las que existe una
relacion lineal, en un diagrama de puntos dispers~s las
observaciones conjuntas sobre este par de variables tenderan a
estar concentradas en torno a una linea recta. Y a la inversa, si
no existe una relacion lineal, no estaran concentradas en torno a
una linea recta. No todas las relaciones que estudiaremos estaran
muy concentradas en torno a una linea recta. EI diagrama de puntos
dispersos de much as relaciones importantes muestra una tendencia
hacia una relaci6n lineal, pero con una considerable desviaci6n con
respecto a una linea recta. En los diagramas de puntos
dispers~s del Capitulo 2 vimos algunos ejemplos. Las
correlaciones tienen muchas aplicaciones en el mundo de la empresa
y en la eco-
nomfa. En muchos problemas econ6rnicos aplicados, afirmamos que
hay una variable inde-pendiente 0 exogena X, cuyos valores son
deterrninados por actividades realizadas fuera del sistema
economico exarninado y que hay una variable dependiente 0 endogena
Y, cuyo valor depende del valor de X. Si preguntamos si las ventas
aumentan cuando bajan los pre-cios, estamos analizando una
situacion en la que un vendedor ajusta de una forma delibera-da e
independiente los precios en sentido ascendente 0 descendente y
observa como varian las ventas. Supongamos ahora que los precios y
las cantidades vendidas son el resultado de equilibrios de la
oferta y la demanda como propone el modelo economico basico. En ese
caso, podriamos analizar los precios y las cantidades como
variables aleatorias y pregun-tarnos si estas dos variables
aleatorias estan relacionadas entre sf. El coeficiente de
correla-ci6n puede utilizarse para averiguar si existe una relaci6n
entre variables en cualquiera de estas dos situaciones.
-
Capftulo 12. Regresion simple 433
Supongamos que tanto X como Y son determinados simultaneamente
por factores que se encuentran fuera del sistema economico
analizado. Por 10 tanto, suele ser mas realista plantear un modelo
en el que tanto X como Y sean variables aleatorias. En el Capitulo
5 presentamos el coeficiente de correlacion Pxy como medida de la
relacion entre dos varia-bles aleatorias, X e Y. En esos casos,
utilizamos el coeficiente de correlacion poblacional, Pxy' para
indicar la existencia de una relacion lineal sin que ella quisiera
decir que una de las variables era independiente y la otra
dependiente. En las situaciones en las que una de las variables es
dependiente logicamente de otra, el siguiente paso logico despues
del ana-lisis de correlacion es la utilizacion del analisis de
regresion para desarrollar el modelo li-neal. Este es el tema del
siguiente apartado. Aqui presentamos metodos de inferencia
esta-distica que utilizan correlaciones muestrales para averiguar
las caracterfsticas de las correlaciones poblacionales.
Contraste de hipotesis de la correlacion El coeficiente de
correlacion muestral
es una medida descriptiva util de la fuerza de la relacion
lineal en una muestra. Tambien podemos utilizar la correlacion para
contrastar la hipotesis de que no existe una relacion lineal en la
poblacion entre un par de variables aleatorias; es decir,
Esta hipotesis nula de que no existe una relacion lineal entre
un par de variables aleato-rias es muy interesante en algunas
aplicaciones. Cuando calculamos la correlacion muestral a partir de
datos, es probable que el resultado sea diferente de 0 aunque la
correlacion po-blacional sea O. Nos gustarfa, pues, saber en que
medida debe ser diferente de 0 una corre-lacion muestral para con
tar con una prueba de que la correlacion poblacional no es O.
Podemos demostrar que cuando la hipotesis nula es verdadera y
las variables aleatorias siguen una distribucion normal conjunta,
la variable aleatoria
sigue una distribucion t de Student con (n - 2) grados de
libertad. Las ecuaciones 12.1 a 12.3 muestran los contrastes de
hipotesis adecuados.
Contrastes de la correlaci6n poblacional nula Sea rei
coeficiente de correlaci6n muestral, calculado a partir de una
muestra aleatoria de n pares de observaciones de una distribuci6n
normal conjunta. Los siguientes contrastes de la hip6tesis nula
Ho:p = 0
tienen un valor de significaci6n ex:
-
434 Estadfstica para administracion y economfa
1. Para contrastar Ho frente a la hipotesis alternativa
H1:p > 0 la regia de decision es
Rechazar Ho si rJ(n - 2) J(1 - ?) > tll - 2,'1 (12.1 )
2. Para contrastar Ho frente a la hipotesis alternativa
H1:p tll - 2,'1/2 (12.3)
Aquf, tn
- 2 ~ es el numero para el que P(tll - 2 > tn - 2 ,rJ. ) =
rx
donde la variable aleatoria tn - 2 sigue una distribucion t de
Student con (n - 2) grados de libertad.
4. Si introducimos tn- 2 . w2 = 2,0 en la ecuaci6n 12.3, podemos
demostrar que una regia practica aproximada para contrastar la
hipotesis anterior de que la correlacion pobla-cional es 0 es
2 iri>-0z EJEMPLO 12.1 . Valoraci6n del riesgo politico
(contraste de hip6tesis
de la correlaci6n) Un equipo de investigaci6n estaba intentando
averiguar si el riesgo politico existente en los palses esta
relacionado con su inflaci6n. En esta investigaci6n, se realiz6 una
en-cuesta a analistas del riesgo politico que permiti6 elaborar una
puntuaci6n media del riesgo politico de 49 paises (los datos
proceden del estudio mencionado en la referencia bibliografica 2).
Solucion Cuanto mas alta es la puntuaci6n, mayor es el riesgo
politico. La conelaci6n muestral entre la puntuaci6n del riesgo
politico y la inflaci6n de estos paises era de 0,43.
-
.:~
INTERPRETACION
Capitulo 12. Regresion simple 435
Queremos averiguar si la correlacion poblacional, p, entre estas
medidas es diferente de 0. Concretamente, queremos contrastar
frente a
utilizando la informacion muestral
n = 49 I' = 0,43
EI contraste se basa en el estadfstico
rj(n - 2) 0,43j(49 - 2) t = = = 3265 j (l - ,2) j l - (0,43)2
'
Dado que hay (n - 2) = 47 grados de libertad, vemos en la tabla
8 de la t de Student del apendice que
t47, 0.005 < 2,704
Por 10 tanto, podemos rechazar la hipotesis nula al nivel de
significacion del 0,5 por ciento. Tenemos, pues, pruebas
contundentes de que existe una relacion lineal positiva entre la
inflacion y la valoracion de los expertos del riesgo polftico de
los pafses. Obser-vese que de este resultado no podemos extraer la
conclusion de que una de las variables es la causa de la otra, solo
que estan relacionadas.
\
Antes hemos sefialadoque la hipotesis nula Ho: P = puede
rechazarse utilizando la regia practica aproximada II'I > 2/
In,. Este resultado proporciona un rapido contraste para averiguar
si dos variables estan relacionadas linealmente cuando se examinan
una 0 mas correlaciones muestrales. Asf, por ejemplo, en el caso de
una muestra de tamafio n = 25, el valor absoluto de la correlacion
muestral tendrfa que ser superior a 2/fo = 0,40. Pero en el caso de
una muestra de tamafio n = 64, el valor absoluto de la correlacion
muestral ten-drfa que ser superior a 2/.J64 = 0,25 solamente. Se ha
observado que este resultado es util en muchas aplicaciones
estadfsticas.
EJERCICIOS
Ejercicios basicos 12.2. Contraste la hip6tesis nula 12.1. Dados
los pares siguientes de (x, y) observacio-
nes, calcule la correlaci6n muestral. a) (2, 5), (5, 8), (3 ,
7), (1, 2), (8, 15). b) (7, 5), (10, 8), (8, 7), (6, 2), (13, 15).
c) (12, 4), (15, 6), (16, 5), (21, 8), (14, 6). d) (2, 8), (5, 12),
(3, 14), (1, 9), (8, 22).
Ho: P = frente a HI: P =1= dada
a) Una correlaci6n muestral de 0,35 en una mues-tra aleatoria de
tamafio n = 40
b) Una correlaci6n muestral de 0,50 en una mlles-tra aleatoria
de tamafio n = 60
-
436 Estadfstica para administraci6n y economfa
c) Una correlacion muestral de 0,62 en una mues-tra aleatoria de
tamano n = 45
d) Una correlacion muestral de 0,60 en una mues-tra aleatoria de
tamano n = 25
12.3. El profesor de un curso de estadistica puso un examen
final y tambien pidio a los estudiantes que realizaran un proyecto.
La tabla adjunta muestra las calificaciones de una muestra
aleato-ria de 10 estudiantes. Halle la correlacion mues-tral entre
las calificaciones del examen y las del proyecto.
Examen 81 62 74 78 93 69 72 83 90 84 Proyccto 76 71 69 76 87 62
80 75 92 79
Ejercicios aplicados 12.4. En el estudio de 49 paises analizado
en el ejem-
plo 12.1, la correlacion muestral entre la valora-cion del
riesgo polftico realizada por los expertos y la tasa de mortalidad
infantil de estos paises era 0,75. Contraste la hipotesis nula de
que no existe ninguna correlacion entre estas cantidades frente a
la hipotesis alternativa de que ex iste una correlacion
positiva.
12.5. En una muestra aleatoria de 353 profesores de ensefianza
secundaria, se observo que la correla-cion entre las subidas
salariales anuales y las evaluaciones de la docencia era de 0,11.
Contras-te la hipotesis nula de que estas cantidades no estan
correlacionadas en la poblacion frente a la hipotesis alternativa
de que la correlacion pobla-cional es positi va.
12.6. Se observa que la correlacion muestral de 68 pa-res de
rendimientos anuales de acciones ordina-rias del pais A y del pais
B es de 0,51 . Contraste la hipotesis nula de que la correlacion
poblacio-nal es 0 frente a la hipotesis alternativa de que es
positiva.
Se recomienda que los siguientes ejercicios se resuelvan con la
ayuda de un computador.
12.7. ~~ La tabla adjunta y el fichero de datos Dow Jones
muestran las variaciones porcentuales (Xi) del indice Dow-Jones
registradas en los cinco primeros dias de sesion de cada uno de los
afios de un periodo de 13 anos y las correspondientes variaciones
porcentuales (y) del indice a 10 largo de todo el ano.
x y x y
1,5 14,9 5,6 2,3 0,2 - 9,2 - 1,4 11 ,9
-0,1 19,6 1,4 27,0 2,8 20,3 1,5 -4,3 2,2 -3,7 4,7 20,3
- 1,6 27,7 1,1 4,2 - 1,3 22,6
a) Calcule la correlacion muestral. b) Contraste al nivel de
significacion del 10 por
ciento la hipotesis nula de que la correlacion poblacional es 0
frente ala hipotesis alternati-va bilateral.
12.8. ,., Una universidad di stribuye en todos sus cur-sos un
cuestionario de evaluacion para que 10 re-Henen los estudiantes. La
tabla adjunta y el fi-chero de datos Student Evaluation muestran
tanto la valoracion media del profesor (en una escala de 1 a 5)
como la calificacion media espe-rada (en una escala de A = 4 a E =
0) de una muestra aleatoria de 12 cursos.
Valoracion del profesor 2,8 3,7 4,4 3,6 4,7 3,5 4,1 3,2 4,9 4,2
3,8 3,3
Calificacion esperada 2,6 2,9 3,3 3,2 3,1 2,8 2,7 2,4 3,5 3,0
3,4 2,5
a) Halle la correlacion muestral entre las val ora-ciones de los
profesores y las calificaciones esperadas.
b) Contraste al nivel de significacion del 10 por ciento la
hipotesis de que el coeficiente de correlacion poblacional es 0
frente a la hipo-tesis alternativa de que es positivo.
12.9. ~, En un estudio sobre la publicidad, los investi-gadores
querfan saber si existfa una relacion en-tre el coste per capita y
los ingresos per capita. Se midieron las siguientes variables en
una muestra aleatoria de programas de publicidad:
Xi = coste de la publici dad -:- n.o de preguntas recibidas
Yi = ingresos generados por las preguntas ..:... n.o de
preguntas recibidas
Los datos muestrales se encuentran en el fichero de datos
Advertising Revenue. Halle la correla-cion muestral y contraste la
hipotesis nula de que la correlacion poblacional es 0 frente a la
alter-nativa bilateral.
-
Capitulo 12. Regresion simple 437
12.2. Modelo de re resi6n lineal
~ INTERPRETACION
" Retail Sales
Para medir la fuerza de cualquier relacion lineal entre un par
de variables aleatorias se uti-lizan coeficientes de correlacion.
Las variables aleatorias se tratan de una forma totalmente
simetrica y da 10 mismo que hablemos de la correlacion entre X e Y
que de Ia correla-cion entre Y y X . En el resto de este capitulo,
continuamos analizando la relacion lineal entre un par de
variables, pero desde el punto de vista de la dependencia de una de
la otra. Ahora dejamos de tratar las variables aleatorias de una
forma simetrica. La idea es que, dado que la variable aleatoria X
toma un valor espedfico, esperamos una respuesta de la variable
aleatoria Y. Es decir, el valor que toma X influye en el valor de
Y. Podemos pen-sar que Y depende de X. Las variables dependientes 0
endogenas - Y- tienen valores que dependen de variables
independientes 0 exogenas -X-, cuyos valores son manipulados 0
influidos, a su vez, por factores externos a un proceso economico
espedfico.
Los modelos lineales no son tan restrictivos como podria parecer
para el am'ilisis em-presarial y economico aplicado. En primer
lugar, los modelos lineales a menudo consti-tuyen una buena
aproximacion de una relacion en el intervalo examinado. En segundo
lugar, en los Capitulos 13 y 14 veremos que algunas funciones no
lineales pueden conver-tirse en funciones lineales implfcitas para
el analisis de regresion.
En este capitulo realizamos un estudio formal del analisis de
regresion y de la con-es-pondiente inferencia estadistica en el
caso de modelos lineales sencillos. En los Capftulos 2 y 3
introdujimos los instrumentos de los diagramas de puntos dispersos,
la correlacion y la regresion simple para describir datos. En el 13
aplicaremos estas ideas a los modelos de regresion multiple que
tienen mas de una variable de prediccion y en el 14 presentamos
metodos y aplicaciones avanzados que aumentan nuestra capacidad
para analizar proble-mas empresariales y economicos.
Este analisis comienza con un ejemplo que muestra una aplicacion
representativa del analisis de regresion y el tipo de resultados
que pueden obtenerse.
EJEMPLO 12.2. Predicci6n sobre las ventas de Northern Household
Goods (estimaci6n de un modelo de regresi6n)
El presidente de Northern Household Goods Ie ha pedido que
desarrolle un modelo que prediga las ventas totales de las nuevas
tiendas que se propone abrir. Northern es una cadena de gran des
almacenes en nipida expansion y necesita una estrategia racional
pa-ra averiguar donde deben abrirse nuevas tiendas. Para realizar
este proyecto, necesita estimar una ecuacion lineal que prediga las
ventas al por menor por hogar en funcion de la renta disponible del
hogar. La empresa ha obtenido datos de una encuesta nacional
realizada a los hogares y para desarrollar el modelo se utilizaran
las variables de las ventas al por menor (Y) y la renta (X) por
hogar.
Solucion
La Figura 12.1 es un diagrama de puntos dispersos que muestra la
relacion entre las ventas a1 por menor y la renta disponible de las
familias. Los datos efectivos se mues-tran en la Tabla 12.1 y se
encuentran en el fichero de datos Hamado Retail Sales. Segun la
teoria economica, las ventas deben aumentar cuando aumenta la renta
disponible y el diagrama de puntos dispersos apoya en gran medida
esa teoda. El am'ilisis de regresion nos proporciona un modelo
lineal que puede utilizarse para calcular las ventas al por
-
438 Estadfstica para administraci6n y economfa
'" 011 iii III iii ...
011 c.:: >-
Y Retail Sales = 1922 + 0.3815 X Income 7000 ,------ ---------
---,
6500
6000
5500 .. . /
9000 10000 11000 X Income
12000
13000
5 147.670 R-Sq 91.9% R-Sq(adj) 91.5%
Figura 12.1. Ventas al por menar par hagar en relaci6n con la
renta dispanible per capita.
Tabla 12.1. Datos sobre la renta disponible por hogar (X) y
ventas al por menor por hogar (Y).
Afio Renta (X) Ventas al por menor (y) Afio Renta (X) Ventas al
por menor (y)
1 9.098 5.492 12 11.307 5.907 2 9.138 5.540 13 11.432 6.124 3
9.094 5.305 14 11.449 6.186 4 9.282 5.507 15 11.697 6.224 5 9.229
5.418 16 11.871 6.496 6 9.347 5.320 17 12.018 6.718 7 9.525 5.538
18 12.523 6.921 8 9.756 5.692 19 12.053 6.471 9 10.282 5.871 20
12.088 6.394
10 10.662 6.157 21 12.215 6.555 11 1l.019 6.342 22 12.494
6.755
menor por hogar cOlTespondientes a varios niveles de renta
disponible. La recta del dia-grama representa el modelo de
regresi6n simple
Y = 1.922,39 + 0,381517X
don de Y son las ventas al por menor por hogar y X es la renta
disponible por hogar. Por 10 tanto, la ecuaci6n de regresi6n nos
proporciona, a partir de los datos, el mejor mode-10 lineal para
predecir las ventas correspondientes a una renta disponible dada.
Observe-se que este modele nos dice que cada aumento de la renta
familiar disponible per capita de 1 $, X, va acompafiado de un
aumento del valor esperado de las ventas al por menor, Y, de 0,38
$. Es evidente que el resultado es importante para predecir las
ventas al por menor. Por ejemplo, observamos que una renta familiar
de 50.000 $ predecirfa que las ventas al por menor senin de 20.997
$ (1.922 + 50.000 x 0,3815).
-
'"""'loI INTERPRETACION
Figura 12.2. Modelo de regresion lineal poblacional.
Capitulo 12. Regresi6n simple 439
Llegados a este pun to, debemos hacer hincapie en que los
resultados de la regresion resumen la informacion que contienen los
datos y no demuestran que el aumento de la renta sea la causa del
aumento de las ventas. La teorfa economica sugiere que existe una
relacion causal y estos resultados apoyan esta teorfa. Los
diagramas de puntos dispersos, las con-elaciones y las ecuaciones
de regresion no pueden demostrar la existencia de una relacion
causal, pero pueden aportar pruebas a su favor. Asf pues, para
extraer conclusio-nes, necesitamos conjugar la teorfa -la
experiencia en Ja administracion de empresas y el amllisis
economico- con un buen analisis estadfstico.
Sabemos pOl' nuestros estudios de la econornfa que la cantidad
comprada de bienes, Y, en un mercado especffico puede representarse
pOl' medio de una funcion lineal de la renta disponible, X. Si la
renta tiene un nivel especffico, X;, los compradores respond en
compran-do la cantidad Yi' En el mundo real, sabemos que hay otros
factores que influyen en la can-tidad efectiva comprada. Son
factores identificables como el precio de los bienes en cues-tion,
la publicidad y los precios de los bienes rivales. Tambien hay
otros factores desconocidos que pueden influir en la cantidad
efectiva comprada. En una ecuacion lineal simple, representamos el
efecto de estos factores , salvo la renta, por medio de un termino
de en-or Ilamado E.
La Figura 12.2 muestra un ejemplo de un conjunto de
observaciones generadas pOl' un modelo lineal subyacente de un
proceso. EI nivel medio de Y, para to do X, se representa pOl'
medio de la ecuacion poblacional
Y= f30 + f3I X El modelo de regresion lineal permite hallar el
valor esperado de la variable aleatoria Y cuando X toma un valor
especffico. El supuesto de la linealidad implica que esta esperanza
puede expresarse de la forma siguiente:
E(YIX = x) = f30 + f3IX donde f30 representa la orden ada en el
origen Y de la ecuacion y f3, es la pendiente. El va-lor observado
efectivo de Y para un valor dado de X es igual al valor esperado 0
media poblacional mas un error aleatorio, E, que tiene una media 0
y una varianza (52:
Yi = f30 + f3 j x; + Ei EI terminG de error aleatorio E
representa la variacion de Y que no es estimada porIa rela-cion
lineal.
y
(X"y,) +
I y, :
I I
X,
I
: Ei I + I
: (Xi'Yi) I I I IYi = (30 +'(3, Xi + Ei I I I I I I I I I I I I
I I I I
Xi x
-
440 Estadfstica para administraci6n y economfa
-~
INTERPRETACION
La regresi6n por minimos cuadrados nos proporciona un modelo
estimado de la rela-ci6n lineal entre una variable independiente 0
ex6gena y una variable dependiente 0 end6-gena. Comenzamos el
proceso de formulaci6n de la regresi6n partiendo de un modelo
po-blacional en el que X tiene unos valores predeterminados y para
to do X hay un valor medio de Y mas un termino de error aleatorio.
Utilizamos la ecuaci6n de regresi6n estimada -mostrada en la Figura
12.1- para estimar el valor medio de Y para to do valor de X. Los
puntos no estan alineados siempre en esta recta debido a que existe
un termino de error aleatorio que tiene una media 0 y una varianza
comun para todos los val ores de X. El error aleatorio representa
todos los factores que influyen en Y que no estan representados por
la relaci6n lineal entre Y y X. Los efectos de estos factores, que
se supone que son indepen-dientes de X, se comportan como una
variable aleatoria cuya media poblacional es O. Las desviaciones
aleatorias 8i en torno al modelo lineal se muestran en la Figura
12.2 y se combinan con la media de Yi para todo Xi para obtener el
valor observado Yi.
Regresi6n lineal basad a en un modelo poblacional En la
aplicaci6n del anal isis de regresi6n, se representa el proceso
estudiado por medio de un modele poblacional y se calcula un modele
estimado utilizando los datos de que se dispone y realizando una
regresi6n por mfnimos cuadrados. EI modele poblacional es
(12.4)
donde {30 y {31 son los coeficientes del modelo poblacional y 8
es un termino de error aleatorio. Para todo valor observado, Xi' el
modelo poblacional genera un valor observado, Yr Para reali-zar la
inferencia estadfstica, como veremos en el apartado 12.4, se supone
que 8 sigue una distribuci6n normal de media 0 y varianza (J2 . Mas
adelante, veremos que puede utilizarse el teorema del Ifmite
central para abandonar el supuesto de la distribuci6n normal. EI
modele de la relaci6n lineal entre Y y X viene definido por los dos
coeficientes, {30 y {31. La Figura 12.2 10 representa
esquematicamente.
En el modelo de regresi6n por mfnimos cuadrados suponemos que se
seleccionan valo-res de la variable independiente, Xi' y para cada
Xi existe una media poblacional de Y. Los valores observados de Yi
contienen la media y la desviaci6n aleatoria 8;. Se observa un
con-junto de n(xi , Y;) puntos Y se utiliza para obtener
estimaciones de los coeficientes del mo-delo utilizando el metoda
de mfnimos cuadrados. Ampliamos los conceptos de la inferen-cia
clasica presentados en los Capitulos 8 a 11 para hacer inferencias
sobre el modelo poblacional subyacente utilizando el modelo de
regresi6n estimado. En el Capitulo 13 ve-remos c6mo pueden
considerarse simultaneamente varias variables independientes
utilizan-do la regresi6n multiple.
El modelo de regresi6n estimado y mostrado esquematicamente en
la Figura 12.3 viene dado por la ecuaci6n
donde bo y b j son los valores estimados de los coeficientes y e
es la diferencia entre el valor predicho de Y en la recta de
regresi6n
)Ii = bo + bjXi y el valor observado Y;. La diferencia entre Yi
e )Ii para cada valor de X es el residuo
~
e; = Yi - Yi = Yi - (bo + bjxJ
-
Capftu lo 12. Regresi6n simple 441
Figura 12.3. Modelo de regresion estimado.
Y
Xl
I x2,V2) I I I I I I I I I I
X2
:}(Xj,Y';l I ej I I t (Xj,Yi) I I I I I I I I I I
x
Por 10 tanto, para cada valor observado de X hay un valor
predicho de Ya partir del mode-10 estimado y un valor observado. La
diferencia entre el valor observado de Y y el predi-cho es el
residuo, ej El residuo, ej , no es el error del modelo, , sino la
medida combinada del error del modelo y los errores de la
estimaci6n de bo Y bi y, a su vez, los errores de la estimaci6n del
valor predicho.
Hallamos el modelo de regresi6n estimado obteniendo
estimaciones, bo Y b l , de los coeficientes poblacionales
utilizando el metoda Hamado amilisis de minimos cuadrados, que
presentamos en el apartado 12.3. Empleamos, a su vez, estos
coeficientes para obtener los val ores predichos de Y para todo
villor de X.
Resultados de la regresion lineal La regresi6n lineal da dos
importantes resultados:
1. Los valores predichos de la variable dependiente 0 end6gena
en funci6n de la variable independiente 0 ex6gena.
2. La variaci6n marginal estimada de la variable end6gena
provocada por una variaci6n unitaria de la variable independiente 0
ex6gena.
EJERCICIOS
Ejercicios basicos 12.11. Dada la ecuaci6n de regresi6n Y= - 50
+ 12X 12.10. Dada la ecuaci6n de regresi6n
y= 100 + lOX a) l,Cmil es la variaci6n de Y cuando X varia
en
+3? b) l,Cmil es la variaci6n de Y cuando X varia en
- 4? c) l,Cmil es el valor predicho de Y cuando
X = 12? d) l,Cmil es el valor predicho de Y cuando
X = 23? e) l,Demuestra esta ecuaci6n que una variaci6n
de X provoca una variaci6n de Y?
a) l,Cual es la variaci6n de Y cuando X varia en +3?
b) l, Cual es la variaci6n de Y cuando X varia en - 4?
c) l,Cual es el valor predicho de Y cuando X = 12?
d) l,Cual es el valor predicho de Y cuando X = 23?
e) l,Demuestra esta ecuaci6n que una variaci6n de X provoca una
variaci6n de Y?
12.12. Dada la ecuaci6n de regresi6n Y = 43 + lOX
-
442 Estadfstica para administraci6n y economfa
a) (,Cual es la variaci6n de Y cuando X varia en +87
e) (,Demuestra esta ecuaci6n que una variaci6n de X provoca una
variaci6n de Y7
b) (,CuaJ es la variaci6n de Y cuando X varia en - 67 Ejercicios
aplicados
c) (,Cual es el X = 117
d) (,Cual es el X = 297)
valor predicho
valor predicho
de Y
de Y
cuando
cuando
12.14. (,Que diferencia existe entre un modelo lineal
poblacional y un modele de regresi6n lineal es-timado7
e) (,Demuestra esta ecuaci6n que una variaci6n de X provoca una
variaci6n de Y7
12.15. Explique la diferencia entre el residuo e j y el error
del modele ej.
12.13. Dada la ecuaci6n de regresi6n 12.16. Suponga que hemos
estimado una ecuaci6n de la regresi6n de las ventas semanales de
palm pi-lot y el precio cobrado durante la semana. fnter-prete la
con stante bo para el director de la marca. a)
b)
c)
d)
Y= 100 + 21X
(,Cual es la variaci6n de Y cuando X varia en +57 (,CuaJ es la
variaci6n de Y cuando X varia en - 77 (,CuaJ es el valor predicho
de Y cuando X = 147 (,Cual es el valor predicho de Y cuando X =
277
12.17. Se ha estimado un modelo de regresi6n de las ventas
totales de productos alimenticios con res-pecto a la renta
disponible uti li zando datos de pequefias ciudades aisladas del
oeste de Estados Unidos. Elabore una lista de los factores que
po-drian contribuir al termino de error aleatorio.
12.3. Estimadores de coeficientes por el metodo de mfnimos
cuadrados
La recta de regresion poblacional es un util instrumento
teorico, pero para las aplicaciones necesitamos estimar el modele
utilizando los datos de que se disponga. Supongamos que tenemos n
pares de observaciones, (XI' YI), (X2' Yz), ... , (xn, Yn)' Nos
gustarfa encontrar la linea recta que mejor se ajusta a estos
puntos. Para ello, es necesario encontrar estimadores de los
coeficientes desconocidos /30 y /31 de la recta de regresion
poblacional.
Hallamos los estimadores de los coeficientes bo Y b l con
ecuaciones obtenidas utilizan-do el metoda de mfnimos cuadrados.
Como mostramos en la Figura 12.3, hay una desvia-cion, ei, entre el
valor observado, Yi' y el valor predicho, Yi' en la ecuacion de
regresi6n estimada para cada valor de X, donde ej = Yi - Yi' A
continuacion, calculamos una funcion matematica consistente en
elevar al cuadrado todos los residuos y sumar las cantidades
re-sultantes. Esta funcion -cuyo primer miembro se denomina SCE-
incluye los coeficien-tes bo Y bl' La cantidad SCE se denomina suma
de los cuadrados de los errores. Los esti-madores de los
coeficientes bo Y b l son los estimadores que minimizan la suma de
los cuadrados de los errores.
Metodo de mlnimos cuadrados EI metoda de mfnimos cuadrados
obtiene estimaciones de los coeficientes de la ecuaci6n li-neal bo
y b1 en el modelo (12.5)
minimizando la suma de los cuadrados de los errores ej :
SCE = L e~ = L (yj - yi (12.6)
-
Capitulo 12. Regresi6n simple 443
Los coeficientes bo y b1 se eligen de tal manera que se minimice
la cantidad
11 Il
seE = I e; = I [Yi - (bo + b1xJf (12.7) ; = 1 ; = 1
Utilizamos el calculo diferencial para obtener los estimadores
de los coeficientes que minimizan la SeE. En el apendice del
capitulo se ex plica c6mo se obtienen los estimadores por medio del
calculo.
EI estimador del coeficiente resultante es II
;= 1 II
;=1 Il
II Yi I (x; - X)X; ;=1
COy (x, Y) 2
Sx
Observese que el numerador del estimador es la covarianza
muestral de X e Y y el denomi-nador es la varianza muestral de X.
La tercera lInea muestra que el coeficiente b l es una funcion
lineal de las Y. Dedicamos mucho tiempo al coeficiente de la
pendiente porque es-te resultado es clave para much as
aplicaciones. El coeficiente de la pendiente b l es una estimacion
de la variacion que experimenta Y cuando X varia en una unidad. Por
ejemplo, si Yes la produccion total y Xes el numero de
trabajadores, entonces b l es una estimacion del aumento marginal
de la produccion por cada nuevo trabajador. Este tipo de resultados
explica por que la regresion se ha convertido en un instrumento
analftico tan importante.
Con algunas manipulaciones algebraicas podemos demostrar que el
estimador del coe-ficiente tambien es igual a
donde rxy es la correlacion muestral y Sy Y Sx son las
desviaciones tfpicas muestrales de X e Y. Este resultado es
importante porque indica como esta relacionada directamente la
rela-cion estandarizada entre X e Y, la correlacion rxy' con el
coeficiente de la pendiente.
En el apendice del capitulo tambien mostramos que el estimador
de la constante es
Sustituyendo bo por este valor en la ecuacion lineal, tenemos
que
Y = 51 - b1x + b1x Y - 51 = bl(x - x)
En esta ecuacion vemos que cuando x = x, entonces Y = 51 y que
la ecuacion de regresion siempre pasa por el punto (x, 51). EI
valor estimado de la variable dependiente, y;, se obtie-ne
utilizando
-
444 Estadfstica para administraci6n y economfa
o utilizando
Esta ultima forma pone de relieve que la recta de regresion pasa
por las medias de X e Y.
Estimadores de coeficientes por el metodo de mfnimos cuadrados
EI estimador del coeficiente de la pendiente es
11
y el estimador de la con stante u ordenada en el origen es
Tambien sefialamos que la recta de regresion siempre pasa por la
media X, y. EI metodo de mfnimos cuadrados podrfa utilizarse para
calcular estimaciones de los coefi-
cientes bo y b1 utilizando cualquier conjunto de datos pareados.
Sin embargo, en la mayorfa de las aplicaciones queremos hacer
inferencias sobre el modelo poblacional subyacente que for-ma parte
de nuestro problema economico 0 empresarial. Para hacer
inferencias, es necesario que estemos de acuerdo en ciertos
supuestos. Dados estos supuestos, puede demostrarse que los
estimadores de los coeficientes por minimos cuadrados son
insesgados y tienen una varianza minima.
Supuestos habituales en los que se basa el modelo de regresion
lineal Para hacer inferencias sobre el modele lineal poblacional
utilizando los coeficientes del modele estimados se postulan los
siguientes supuestos.
1. Las Y son funciones lineales de X mas un termino de error
aleatorio
2. Las x son numeros fijos 0 son realizaciones de la variable
aleatoria X que son indepen-dientes de los terminos de error, e;-
En el segundo caso, la inferencia se realiza condi-cionada a los
valores observados de las x.
3. Los terminos de error son variables aleatorias que tienen la
media 0 y la misma varian-za (J2. EI segundo supuesto se llama
homocedasticidad 0 varianza uniforme.
E[sJ = 0 y E[s;] = (i para (i = 1, ... , n) 4. Los terminos de
error aleatorio, ei, no estan correlacionados entre sf, por 10
que
para todo i =P j
Generalmente, se considera, con razon, que el segundo de estos
supuesios es cierto, aunque en algunos estudios econometricos
avanzados es insostenible (el supuesto no se cumple, por ejemplo,
cuando no es posible medir Xi con precision 0 cuando la regresion
forma parte de un sistema de ecuaciones interdependientes). Sin
embargo, aquf considera-remos que se satisface este supuesto.
-
~~
INTERPRETACION
Capitulo 12. Regresi6n simple 445
Los supuestos 3 y 4 se refieren a los terminos de enor, ci' de
la ecuaci6n de regresi6n . El termino de error esperado es y todos
los terminos de enor tienen la misma varianza. Por 10 tanto, no
esperamos que las varianzas de los terminos de enor sean mas altas
en el caso de algunas observaciones que en el de otras. La Figura
12.2 muestra esta pauta: los en"ores conespondientes a todos los
valores de X proceden de poblaciones que tienen la misma varianza.
Por ultimo, se supone que las discrepancias no estan
correlacionadas entre sf. Asf, por ejemplo, la aparici6n de una
gran discrepancia positiva en un punto de obser-vaci6n no nos ayuda
a predecir los valores de ninguno de los demas terminos de error.
Los supuestos 3 y 4 se satisfacen si los terminos de error, c;,
pueden concebirse como una muestra aleatoria procedente de una
poblaci6n que tiene de media 0. En el resto de este capftulo, estos
supuestos se cumplen. La posibilidad de abandonar algunos de ellos
se exa-mina en el Capftulo 14.
Calculo por computador del coeficiente de regresion La extensa
aplicaci6n del analisis de regresi6n ha sido posible gracias a los
paquetes esta-dfsticos y a Excel. Como sospechara el lector, los
calculos para obtener estimaciones de los coeficientes de regresi6n
son tediosos. Las ecuaciones de los estimadores y otros
im-portantes calculos estadfsticos estan incluidos en los paquetes
informaticos y en Excel y se utili zan para estimar los
coeficientes de problemas especfficos. El program a Excel puede
utilizarse para realizar analisis basicos de regresi6n sin
demasiadas dificultades. Pero si se desea utilizar metodos de
analisis de regresi6n aplicado avanzado 0 un perspicaz analisis
grMico, debe utilizarse un buen paquete estadfstico. Dado que nos
interesan principalmente las aplicaciones, nuestra tarea mas
importante es realizar un analisis adecuado de los calcu-los de
regresi6n para estas aplicaciones. Este analisis debe realizarse
conociendo las ecua-ciones de los estimadores y el analisis
relacionado con elias. Sin embargo, no utilizamos estas ecuaciones
para calcular realmente las estimaciones u otros estadfsticos de la
regre-si6n. Dejamos los calculos para los computadores; nuestra
tarea es pensar, analizar y ha-cer recomendaciones.
La Figura 12.4 muestra una parte de las salidas Minitab y Excel
correspondientes al ejemplo de las ventas al por menOL Observese la
localizaci6n de las estimaciones de la constante, bo, y el
coeficiente de la pendiente, b L, en la salida informatica. Los
conceptos restantes de cada lfnea ayudan a interpretar la cali dad
de las estimaciones y se explican en apartados posteriores.
En esta regresi6n, la constante estimada, bo, es 1.922 y el
coeficiente de la pendiente estimado, b L, es 0,382. Estos valores
se calculan utilizando las ecuaciones de los estimado-res de los
coeficientes antes presentadas. La ecuaci6n estimada puede
expresarse de la for-ma siguiente:
y = 1.922 + 0,382x 0, utilizando las medias x = 10.799 e y =
6.042, de la forma siguiente:
y = 6.042 + 0,382(x - 10.799) Normalmente, los modelos de
regresi6n s610 deben utilizarse en el rango de los val ores
observados de X en el que tenemos informaci6n sobre la relaci6n
porque lao relaci6n puede no ser lineal fuera de este rango. La
segunda forma del modelo de regresi6n esta centrada en las medias
de los datos con una tasa de variaci6n igual a b L Utilizando esta
forma, cen-tramos la atenci6n en la localizaci6n media del modelo
de regresi6n y no en la ordenada
-
446 Estadfstica para administracion y economfa
Results for: retail sales.MTW Regression Analysis: Y Retail
Sales versus X Income The regression equation is Y Retail Sales =
1922 + 0.382 X Income Coeficientes ba, b,
Predictor SE Coe f T P Constant 274 .9 6.99 0.000 X I ncome 0.02
529 15 .08 0.000
S = 147.670 R- Sq
A 1 ,SUMMARY OUTPUT 2
=
B
3 , Retp"ession Stolislics
91. 9%
4 'Multiple R 0.958748803 5 iR Square 0.919199267 . 6 'Adjusted
R Square 0.91515923 7 Standard Error 147.6697181 , 8 'Observations
22 . 9 : 10 IANOVA
R-Sq(adj} = 91.5% (a)
c o E F
11 ' d/ SS !.IS F Siqni/iconce F 12 ~i
R~e-g-re-s-s~io-n----~----~---1~-4~9~6~14~3~4~.4~0~6--4~9~6~1~43~4~
~2~2~7~.5~2~25~~2~.~17~1~3~4~E~-1~2 13 ,Residual 20 436126.9127 ,
21806.35
G
14~T~O~~~I~~~~~~~~~~2~1~5~3~9~75;6~1;.3~1~8~'
~~~~~~~~~~~~~~~~~~~coeficiemes~,~ 15 i 1 6 ! 1 ::'"'101 P-~"olue
Lowe, 9fi% U, e, 9fi% : 17 ilntercept 6.991806 8.74E-07 1348.858617
2495.92677 18 iX Income 15.08385 . 2.17E-12 : 0.328756343 0.4342771
19 :
(b) Figura 12.4. Amllisis de regresion de las ventas al por
menar (a) par media de Minitab y (b) par media de Excel.
en el origen con el eje de las Y. Los usuarios ingenuos del
analisis de regresi6n a veces intentan hacer interpretaciones de la
constante bo, extrayendo ciertas conclusiones sobre la variable
dependiente cuando la variable independiente tiene un valor de O.
Consideremos la regresi6n de las ventas al por menor con respecto a
la renta disponible del ejemplo. l,Afirmarfamos realmente que las
ventas al por menor son de 1.922 $ cuando la renta dis-ponible es
de O? En realidad, sencillamente no tenemos datos para afirmar que
se vende algo cuando la renta disponible es O. Este es otro ejemplo
de la importancia de un buen analisis en lugar de interpretaciones
tontas. Como analistas profesionales, debemos tener cuidado de no
defender resultados que sencillamente no existen.
EJERCICIOS
Ejercicios basicos c) X = 20; Y = 100; Sx = 60; Sy = 78; rxy =
0,75; /7= 60 12.18. Calcule los coeficientes de una ecuaci6n de
re-
gresi6n por minimos cuadrados y formule la ecuaci6n, dados los
siguientes estadisticos muestrales: a) x = 50; Y = 100; Sx = 25 ;
Sy = 75 ; r xy = 0,6;
n = 60 b) x = 60; Y = 210; Sx = 35; Sy = 65; rxy = 0,7;
n= 60
d) x = 10; Y = 50; Sx = 100; Sy = 75; rxy = 0,4; n = 60
e) x = 90; Y = 200; Sx = 80; Sy = 70; r xy = 0,6; /7 = 60
Ejercicios aplicados 12.19. Una empresa fija un precio distinto
para un sis-
tema de DVD en ocho regiones del pais. La ta-
-
bla adjunta muestra los numeros de unidades vendidas y los
precios correspondientes (en cientos de d6Iares) .
Ventas 420 380 350 400 440 380 450 420
Precio 5,5 6,0 6,5 6,0 5,0 6,5 4,5 5,0
a) Represente estos datos y estime la regresi6n lineal de las
ventas con respecto al precio.
b) l,Que efecto seria de esperar que produjera una subida del
precio de 100 $ en las ventas?
12.20. Dada una muestra de 20 observaciones mensua-les, un
analista financiero quiere realizar una re-gresi6n de la tasa
porcentual de rendimiento (Y) de las acciones ordinarias de una
empresa con respecto a la tasa porcentual de rendimiento (X) del
Indice Standard and Poor's 500. Dispone de la siguiente
informaci6n:
20 20
L Yi = 22,6 L Xi = 25,4 i ~ l i=.l
20 20
L x2 = 1457 1 ' L XiYi = 150,5 i ~ l i=1
a) Estime la regresi6n lineal de Y con respecto aX.
b) Interprete la pendiente de la recta de regre-si6n
muestral.
c) Interprete la ordenada en el origen de la rec-ta de regresi6n
muestral.
12.21. Una empresa realiza un test de aptitud a todos los nuevos
representantes de ventas. La direc-ci6n tiene interes en saber en
que medida es ca-paz este test de predecir su exito final. La tabla
adjunta muestra las ventas semanales medias (en miles de d61ares) y
las puntuaciones obteni-das en el test de aptitud por una muestra
aleato-ria de ocho representantes.
Ventas semanales 10 12 28 24 18 16 15 12
Puntuaci6n 55 60 85 75 80 85 65 60
a) Estime la regresi6n lineal de las ventas se-manales con
respecto a las puntuaciones del test de aptitud.
b) Interprete la pendiente estimada de la recta de
regresi6n.
12.22. Se ha formulado la hip6tesis de que el numero de botellas
de una cerveza importada que se
Capitulo 12. Regresi6n simple 447
vende cada noche en los restaurantes de una ciudad depende
linealmente de los costes me-dios de las cenas en los restaurantes.
Se han ob-tenido los siguientes resultados de una muestra de n = 17
restaurantes que son aproximada-mente del mismo tamano, siendo
Y = numero de botellas vendidas por noche X = coste medio, en
d6lares, de una cena
x = 25,5 Y = 16,0 If II
L (Xi - i)2 L (X; - x)(y; - y) i = 1
=350 i~l 180 n - 1 n - 1
a) Halle la recta de regresi6n muestral. b) Interprete la
pendiente de la recta de regre-
si6n muestral. c) l,Es posible dar una interpretaci6n que
tenga
sentido de la ordenada en el origen de la rec-ta de regresi6n
muestral? Explique su res-puesta.
Se recomienda que los siguientes ejercicios se resuelvan con la
ayuda de un computador.
12.23. ~;;g Vuelva a los datos del ejercicio 12.7 sobre la
variaci6n porcentual (X) del indice Dow-Jones en los cinco primeros
dias de sesi6n del ano y la variaci6n porcentual (Y) del Indice en
el conjunto del ano. a) Estime la regresi6n lineal de Y con
respecto
aX. b) Interprete la orden ada en el origen y la pen-
diente de la recta de regresi6n muestral.
12.24. fi.i1 El viernes 13 de noviembre de 1989, caye-ron
vertiginosamente las cotizaciones en la bol-sa de Nueva York; el
fndice Standard and Poor's 500 cay6 un 6,1 por ciento ese dia. El
fi-chero de datos New York Stock Exchange Gains and Losses muestra
las perdidas porcen-tuales (y) que experimentaron los 25 mayores
fondos de inversi6n el 13 de noviembre de 1989. Tambien muestra las
ganancias porcen-tuales (x), suponiendo que los dividendos y las
ganancias de capital de estos mismos fondos se reinvirtieron en
1989 hasta el 12 de noviembre. a) Estime la regresi6n lineal de las
perdidas re-
gistradas el 13 de noviembre con respecto a las ganancias
obtenidas hasta el 13 de no-viembre de 1989.
b) Interprete la pendiente de la recta de regre-si6n
muestral.
-
448 Estadfstica para administraci6n y economfa
12.25. fi ) Ace Manufacturing esta estudiando el ab-sentismo
laboral. Los datos del fichero Em-ployee Absence se refieren a la
variaci6n anual de la tasa total de absentismo y la variaci6n anual
de la tasa media de absentismo por en fer-medad.
a) Estime la regresi6n lineal de la variaci6n de la tasa media
de absentismo por enfermedad con res pee to a la variaci6n de la
tasa de ab-sentismo.
b) Interprete la pendiente estimada de la recta de
regresi6n.
12.4. EI poder ex licativo de una ecuaci6n de re resi6n lineal
El modelo de regresion estimado que hemos presentado puede
concebirse como un intento de explicar los cambios de una variable
dependiente Y provocados por los cambios de una variable
independiente X. Si solo tuvieramos observaciones de la variable
dependiente, y, la tendencia central de Y se representarfa por
medio de la media y y la variabilidad total en torno a Y se
representarfa por medio del numerador del estimador de la varianza
muestral, L(y; - yl Cuando tambien tenemos medidas de X, hemos
demostrado que la tendencia central de Yahora puede expresarse en
funcion de X. Esperamos que la ecuacion lineal es-te mas cerca de
los valores individuales de Y y que, por 10 tanto, la variabilidad
en torno a la ecuacion lineal sea men or que la variabilidad en
torno a la media.
Estamos ya en condiciones de desarrollar medidas que indiquen la
eficacia con que la variable X explica la conducta de Y. En nuestro
ejemplo de las ventas al por menor mostra-do en la Figura 12.1, las
ventas al por menor, Y, tienden a aumentar con la renta
disponi-ble, X y, por 10 tanto, la renta disponible explica algunas
de las diferencias entre las ventas al por menor. Sin embargo, los
puntos no estan todos en la Ifnea, por 10 que la explicacion no es
perfecta. Aquf desarrollamos medidas basadas en la descomposicion
de la variabili-dad, que miden la capacidad de X para explicar Y en
una regresion especffica.
El analisis de la varianza, ANOV A, para una regresion de
mfnimos cuadrados se reaIi-za descomponiendo la variabilidad total
de Yen un componente explicado y un componen-te de error. En la
Figura 12.5 mostramos que la desviacion de un valor de Y con
respecto a su media puede descomponerse en la desviacion del valor
predicho con respecto a la media y la desviacion del valor
observado con respecto al valor predicho
Figura 12.5. Y Descomposicion de la variabilidad.
Y 1----
STC t- Yi- Y
I I I I I I I I I I
Y= bo + b1 X / A
ei= Yi - Yi ---. SCE
Xi X
-
Capitulo 12. Regresion simple 4 4 9
Elevamos al cuadrado los dos miembros de la ecuacion -ya que la
suma de las desviacio-nes en torno a la media es igual a 0- y
sumamos el resultado obtenido en los n puntos
II II II
; = ] i = 1 i = 1
Tal vez algunos lectores se hayan dado cuenta de que la
elevacion al cuadrado del primer miembro debe incluir el producto
de los dos terminos ademas de sus cantidades al cuadra-do. Puede
demostrarse que el termino del producto de los dos terminos es
igual a O. Esta ecuacion puede expresarse de la forma
siguiente:
STC = SCR + SCE
Aqui vemos que la variabilidad total - STC- puede dividirse en
un componente -SCR-que representa la variabilidad que es explicada
por la pendiente de la ecuacion de regre-sion (la media de Y es
diferente en distintos niveles de X). El segundo componente -SCE-
se debe a la desviacion aleatoria 0 sin explicar de los puntos con
respecto a la recta de regresion. Esta variabilidad es una
indicacion de la incertidumbre relacionada con el modelo de
regresion. EI primer miembro es la suma total de los cuadrados:
n
STC = I (y; - .02 i = ]
La cantidad de variabilidad explicada poria ecuacion de
regresion es la suma de los cua-drados de la regresi6n y se calcula
de la forma siguiente:
n n
; = ] i = ]
Vemos que la variabilidad explicada porIa regresion depende
directamente de la magnitud del coeficiente hi y de la dispersion
de los datos de la variable independiente, X. Las des-viaciones en
torno a la recta de regresion, ei, que se utilizan para calcular la
parte no expli-cada, 0 sea, la suma de los cuadrados de los
errores, pueden definirse utilizando las si-guientes formas
algebraicas:
II II II
i = ] i=] i = ]
Dado un conjunto de valores observados de las variables
dependientes, Y, la STC es fi-ja e igual a la variabilidad total de
todas las observaciones con respecto a la media. Vemos que en esta
descomposicion, cuanto mas altos son los valores de SCR y, por 10
tanto, cuan-to mas bajos son los valores de SCE, mejor se ajusta 0
se aproxima la ecuacion de regre-si6n a los datos observados. Esta
descomposicion se muestra grcificamente en la Figura 12.5. En la
ecuacion de SCR vemos que la variabilidad explicada, SCR, esta
relacionada directamente con la dispersion de la variable
independiente 0 X. Por 10 tanto, cuando exa-rninamos aplicaciones
del analisis de regresion, sabemos que debemos tratar de obtener
da-tos que tengan un gran rango para la variable independiente de
manera que el modelo de regresion resultante tenga una variabilidad
sin explicar men or.
-
450 Estadfstica para administracion y economfa
Retail Sales
Analisis de la varianza La variabilidad total en un analisis de
regresion, STC, puede descomponerse en un componen_ te explicado
por la regresion, SCR, y un componente que se debe a un error sin
explicar, SCE:
STC = SCR + SCE (12.8) cuyos componentes se definen de la forma
siguiente.
Suma total de los cuadrados: 11
(12.9) ;=1
Suma de los cuadrados de los errores:
11 11 II
SCE = L (Yi - (bo + b[X;))2 = L (y; - .Vi = L ei (12.10) ;=1 i =
l i = l
Suma de los cuadrados de la regresi6n:
Il n
(12.11) ; = I ; = 1
Vol vamos con esta informacion a nuestro ejemplo de las ventas
al por menor (ejem-plo 12.2) con el fichero de datos Retail Sales y
veamos como utilizamos la descomposi-cion de la variabilidad para
averiguar en que medida explica nuestro modelo el proceso
estudiado. La Tabla 12.2 muestra los calculos detail ados de los
residuos, e;; las desviacio-nes de Y con respecto a la media, y las
desviaciones de los val ores predichos de Y con respecto a la
media. Estos nos proporcionan los componentes para calcular SCE,
STC y SCR. La suma de los cuadrados de las desviaciones de la
columna 5 es SCE = 436.127. La suma de los cuadrados de las
desviaciones de la columna 6 es STC = 5.397.561. Por ultimo, la
suma de los cuadrados de las desviaciones de la columna 7 es SCR =
4.961.434. La Figura 12.6 presenta las salidas Minitab y Excel del
analisis de re-gresion, incluido el analisis de la varianza.
EI coeficiente de determinacion R2 Bemos visto que el ajuste de
la ecuacion de regresion a los datos mejora cuando aumenta SCR y
disminuye SCE. El cociente entre la suma de los cuadrados de la
regresion, SCR, y la suma total de los cuadrados, STC, es una
medida descriptiva de la proporcion 0 por-centaje de la
variabilidad total que es explicada pOl' el modelo de regresion.
Esta medida se llama coeficie~te de determinacion 0, en terminos
mas generales, R2.
2 SCR SCE R =-=1 - -
STC STC
A menudo se considera que el coeficiente de determinacion es el
porcentaje de la variabi-lidad de Y que es explicado por la
ecuacion de regresion. Antes hemos demostrado que SCR aumenta
directamente con la dispersion de la variable independiente X:
11 II
SCR = L cY; - y)2 = bi L (X; - x)2 ;=[ ;=[
-
Capitulo 12. Regresi6n simple 451
Tabla 12.2. Valores efectivos y predichos de las ventas al por
menor por hogar y residuos calculados a partir de su regresion
lineal con respecto a la renta por hogar.
Desviacioll Desviacioll Ventas al Velltas al observada
predicha
por mellor por mellor COil respecto COil respecto ADO Rellta (X)
(Y) predichas Residuo a la media a la media
1 9.098 5.492 5.394 98 -550 - 649 2 9.138 5.540 5.409 131 -502 -
633 3 9.094 5.305 5.392 -87 -737 - 650 4 9.282 5.507 5.464 43 -535
-578 5 9.229 5.418 5.444 - 26 -624 - 599 6 9.347 5.320 5.489 - 169
-722 - 554 7 9.525 5.538 5.557 - 19 -504 - 486 8 9.756 5.692 5.645
47 -350 - 397 9 10.282 5.871 5.846 25 -171 -197
10 10.662 6.157 5.991 166 115 - 52 11 1l.019 6.342 6.127 215 300
84 12 11.307 5.907 6.237 - 330 - 135 194 13 11.432 6.124 6.284 -
160 82 242 14 11.449 6.186 6.291 - 105 144 248 15 11.697 6.224
6.385 - 161 182 343 16 11.871 6.496 6.452 44 454 409 17 12.018
6.718 6.508 210 676 465 18 12.523 6.921 6.701 220 879 658 19 12.053
6.471 6.521 - 50 429 479 20 12.088 6.394 6.535 -141 352 492 21
12.215 6.555 6.583 - 28 513 541 22 12.494 6.755 6.689 66 713
647
Sllma de los cuadrados de los val ores 436.127 5.397.561
4.961.434
Vemos, pues, que R2 tambien aumenta directamente con la
dispersion de la variable inde-pendiente. Cuando buscamos datos
para estimar un modelo de regresion, es importante ele-gir las
observaciones de la variable independiente que abarquen la mayor
dispersion posi-ble de X con el fin de obtener un modele de
regresion con el mayor R2.
Coeficiente de determinacion R2 EI coeficiente de determinacion
de una ecuacion de regresion es
SCR R2 = -- = 1
STC SCE STC (12.12)
Esta cantidad yarra de 0 a 1 y los valores mas altos indican que
la regresion es mejor. Las interpretaciones generales de R2 deben
hacerse con cautela, ya que un valor alto puede de-berse a que SCE
es bajo 0 a que STC es alto 0 ambas cos as a la vez.
R2 puede variar de aI, ya que STC es fijo y < SCE < STC.
Cuando R2 es alto, significa que la regresion es mejor,
manteniendose todo 10 demas constante. En la salida del analisis de
regresion vemos que el R2 de la regresion de las ventas al por
menor es 0,919,0 sea, 91,9 por ciento. Normalmente, se considera
que R2 es la variabilidad porcen-tual explicada.
-
452 Estadfstica para administraci6n y economfa
Results for: retail sales.MTW Regression Analysis: Y Retail
Sales versus X Income
The regression equation is Y Retai l Sa l es = 1922 + 0 . 382 X
Income
Pre d i ctor Consta n t X I n come
Coef 1922.4
0 .3 8152
Ana l ysis o f Variance
SE Coe f 274 . 9
0 . 025 29
T 6 . 99
15.08
R- Sq(adj)
P 0 . 000 0 . 000
91 .5 %
Se' Error tfpico de la estimacion
R2, Coeficiente de determinacion
Source DF MS F P Regres s i on 1 Residua l Error 20 Total 21
Unusua l Ob serva t i on s Y
Reta i l
4 9~ 227.52 O. 000 S~, Varianza del error del modelo
~~.--------------SRC = 4,961,434 SCE = 436,127 STC = 5,397,561
Obs X Income Sales Fit SE Fit Residual 12 11307 5907 . 0 623 6.
2 34 . 0 -32 9.2
St Res i d -2. 29R
R denotes an observat i on with a l arge standa r dize d
residual .
(a)
1 isLfMMA~OUTPJT ---B----"i-_.s_--~-- Q _,_..s.----c---L ......
--c---Q.--.L-2 Se' Error ,tipico dela estimaci6n : 3 . i Reo/ession
Slotisties
~ i Multipl,e H . 0.958748803 : ::. 5 li'\ qu~re,. . (
0.919199267 ' )+-_'-------- R}, Coeficiente de determ.inaCi6n 6 !
,A..dju~t.ed R quare l .. 0.91515923 7 jSlandard Error :
(147.6697181 :) 8 !Observations 22 , . ~ ! ., ..... 10 ANOVA
'. ~, Varia;nza del error del modelo
Hf::;
R:-e-g-re-s-s-:-io-n-------L--~tU~--:+---r.;~~;=;;:-;i-------O:=--=Oc-=~=~~~~~
~.~ I~:i~~~~" ,
SRC = 4,961,434 .: SCE = 436,127 : STC = 5,397,561
15 i 1'6 -+i
--------'--c.=-o-e....,ffI""CJ....,.e-n-ts----'S-=-t,B-nd.-:B-~-d'"'j=-"-o-'~'--t-St.-=-o-t
--'-. -:P--::--vB-":-ue--'---,L-o-~-tN-g-=-'=-%:--.;...
....,.up..,...'P-e-~-g""'=-%,....;. 17 ! Intercellt 1922.392694 ;
274.9493737 , 6.991806 ; 8.74E-07 : 1348.858617 ' 2495.92677 : 18
1x In;;~me 0.38151672 ' 0.025293061 15.08385 : 2.17E-12 '
0.328756343 0.4342771 :
(b)
Figura 12.6. Anillisis de regresion de las ventas al por menor
con respecto a la renta disponible: (a) salida Minitab; (b) salida
Excel.
~ INTERPRETACION
La segunda forma de la ecuaci6n pone de manifiesto que R2
depende del cociente entre SCE y STC. R2 puede ser alto porque SCE
es bajo -el objetivo deseado- 0 porque STC es alto 0 por ambas
cosas a la vez. Las interpretaciones generales de R2 que se aplican
a todas las ecuaciones de regresi6n son peligrosas. Dos modelos de
regresi6n que tengan el rnismo conjunto de Yi observadas siempre
pueden compararse utilizando el coeficiente de determinaci6n R2, y
el modelo cuyo R2 sea mas alto explica mejor la variable Y. Pero
las comparaciones generales de R2 -que afirman que un modelo es
bueno porque su R2 es
-
Capitulo 12. Regresi6n simple 453
superior a un determinado valor- son engafiosas. Generalmente,
los analistas con expe-riencia han observado que R2 es 0,80 0 mas
en los modelos basados en datos de series tem-porales. En los
modelos basados en datos de corte transversal (por ejemplo,
ciudades, re-giones, empresas), el valor de R2 oscila entre 0,40 y
0,60 y en los modelos basados en datos de personas individuales a
menudo oscila entre 0,10 y 0,20.
Para ilustrar el problema de las interpretaciones generales de
R2, consideremos dos mo-elos de regresi6n -cuyos graficos se
muestran en la Figura 12.7-, cada uno de los cuales se basa en un
total de 25 observaciones. En ambos modelos, SeE es igual a l7 ,89,
por 10
Figura 12.7. Comparaci6n del R2 de dos model os de
regresi6n;
Regression Model with High R Squared Y1 = 10.3558 + 1.99676
X
S = 0.881993 R-Sq = 99.7 % RSq(adj) = 99.6 % (a) R2 alto; (b) R2
bajo. 60
50
40
30
20
10
0 5 10 15 20 25
X (a)
Regression Model with Low R Squared
Y2 = 10.3558 + 0.196759 X
S = 0.881993 R-Sq = 73.8 % R-Sq(adj) = 72.6 %
16
15
14
N 13 >-
12
11
10
9
0 5 10 15 20 25
X (b)
-
454 Estadfstica para administraci6n y economfa
que el aj uste de la ecuacion de regresion a los puntos de datos
es el mismo. Pero en el primer modelo, la suma total de los
cuadrados es igual a 5.201 ,05 , mientras que en el se-gundo es
igual a 68,22. Los valores de R2 de los dos modelos son los
siguientes.
Modelo 1:
Modelo 2:
SCE R2 = 1 - - = 1
STC 17,89
- - - =0,997 5.201,05
SCE 17,89 R2 = 1 - - = 1 - -- = 0738
STC 68,22'
Dado que SCE es igual en ambos modelos y, pOl' 10 tanto, la
bondad del ajuste es la misma en los dos , no podemos afirmar que
el modelo 1 se ajusta mejor a los datos. Sin embargo
') , en el modelo 1 el valor de R- es mucho mas alto que en el
modelo 2. Como vemos aquf, la interpretacion general de R2 debe
hacerse con mucha cautela. Observese que los dos inter-valos
diferentes del eje de ordenadas de la Figura 12.7 se deben a
valores diferentes de STC.
Tambien puede establecerse una relacion entre el coeficiente de
correlacion y el R2, observando que la correlacion al cuadrado es
igual al coeficiente de determinacion . Otra interpretacion de la
correlacion es que es la rafz cuadrada de la variabilidad
porcentual ex-plicada.
Correlacion y R2 EI coeficiente de determinacion, R2, de la
regresion simple es igual al cuadrado del coeficiente de
correlacion simple:
(12.13)
Este resultado establece una importante conexi on entre la
correlacion y el modele de regre-sion.
La suma de los cuadrados de los errores puede utilizarse para
obtener una estimacion de la varianza del error del modelo ei' Como
veremos, el estimador de la varianza del error del modelo se
utiliza para realizar la inferencia estadfstica en el modelo de
regresion. Re-cuerdese que hemos supuesto que el error poblacional,
e;, es un error aleatorio que tiene una media 0 y una varianza (J2
. El estimador de (J2 se calcula de la forma siguiente:
Estimacion de la varianza del error del modelo La cantidad SeE
es una medida de la suma total de los cuadrados de las desviaciones
en tor-no a la recta de regresion estimada y e; es el residuo. Un
estimador de la varianza del error poblacional del modelo es
Il
L e; ~2 2 ; = I (J =s = --
e n - 2 SCE
n - 2 (12.14)
Se divide por n - 2 en lugar de n - 1 porque el modelo de
regresion simple utiliza dos parame-tros estimados, bo y b1 , en
lugar de uno. En el siguiente apartado vemos que este estimador de
la varianza es la base de la inferencia estadfstica en el modelo de
regresion.
-
Capitulo 12. Regresion simple 455
EJERCICIOS
Ejercicios basicos 12.26. CaJcule SCR, SCE, s; y el coeficiente
de deter-
minaci6n, dados los siguientes estadisticos cal-culados a partir
de una muestra aleatoria de pa-res de observaciones de X e Y:
n
a) I (Yi - j)2 = 100.000; r = 0,50; n = 52 i = 1
II
b) I (Yi - y)2 = 90.000; r2 = 0,70; n = 52 n
c) I (y; - y)2 = 240; r = 0,80; n = 52 II
d) I (y; - y)2 = 200.000; r = 0,30; n = 74 II
e) I (Yi - y)2 = 60.000; r = 0,90; n = 40 ;~I
Ejercicios apl icados 12.27. Sea la recta de regresi6n
muestral
Yi = bo + blx; + ei = Yi + e; (i = 1, 2, ... , n) y sean x e y
las medias muestrales de las varia-bles independiente y
dependiente, respectiva-mente.
a) Demuestre que ei = Yi - Y - b(x; - x)
b) Utilizando el resultado del apartado (a), de-muestre que
II
c) Utilizando el resultado del apartado (a), de-muestre que
" 11 II I e; = I (Yi - y)2 - b2 I (Xi - X)2 ; = 1 i=1
d) Demuestre que Yi - Y = b;Cx; - x)
e) Utilizando los resultados de los apartados (c) y (d),
demuestre que
STC = SCR + SCE
f) Utilizando el resultado del apartado (a), de-muestre que
11
I e;(Xi - x) = 0 ; ~ I
12.28. Sea 2 SCR R = -
STC
el coeficiente de determinaci6n de la recta de regresi6n
muestral. a) Utilizando el apartado (d) del ejercicio
12.27, demuestre que II
I (x; - x)2 R2 = b2 _i~_I ___ _
I II
I (Yi - y)2 i~1
b) Utilizando el resultado del apartado (a), de-muestre que el
coeficiente de determinaci6n es igual al cuadrado de la correlaci6n
mues-tral entre X e Y.
c) Sea b l la pendiente de la regresi6n por mfni-mos cuadrados
de Y con respecto a X, b'r la pendiente de la regresi6n por mfnimos
cua-drados de X con respecto a Y y r la correla-ci6n muestral entre
X e Y. Demuestre que
b l bt=r2
12.29. Halle e interprete el coeficiente de determina-ci6n de la
regresi6n de las ventas del sistema de DVD con respecto al precio,
utilizando los da-tos siguientes.
Ventas 420 380 350 400 440 380 450 420
Precio 5,5 6,0 6,5 6,0 5,0 6,5 4,5 5,0
12.30. tli .o9 Halle e interprete el coeficiente de
determi-naci6n de la regresi6n de la variaci6n porcen-tual del
fndice Dow-Jones en un ano con res-pecto a la variaci6n porcentual
del fndice en los cinco primeros dias de sesi6n del ano,
conti-nuando con el analisis del ejercicio 12.7. Com-pare su
respuesta con la correlaci6n muestral obtenida con estos datos en
el ejercicio 12.7. Uti lice el fichero de datos Dow Jones.
12.31. 4;,} Basandose en los datos del ejercicio 12.24, halle la
proporci6n de la variabilidad muestral de las perdidas porcentuales
experimentadas por los fondos de inversi6n el 13 de noviembre de
1989 explicada por su dependencia lineal de las ganancias
porcentuales obtenidas en 1989 hasta el 12 de noviembre. Utilice el
fichero de datos New York Stock Exchange Gains and Losses.
-
456 Estadfstica para administraci6n y economfa
12.32. f ~ Vuelva a los datos sobre la tasa de absentis-mo lab
oral del ejercicio 12.25. Utilice el fichero de datos Employee
Absence. a) Halle [os valores predichos, Yi' y los resi-
duos, ei, de la regresi6n por mlnimos cua-drados de la variaci6n
de la tasa media de absentismo por enfermedad con respecto a la
variaci6n de [a tasa de desempleo.
b) Halle las sumas de los cuadrados STC, SCR y SCE Y verifique
que
STC = SCR + SCE
c) Utilizando los resultados del apartado (a), halle e
interprete el coeficiente de determi-naci6n.
12.33. Vuelva a los datos sobre las ventas semanales y las
puntuaciones obtenidas en un test de aptitud por los representantes
de ventas del ejercicio 12.21. a) Halle los valores predichos, Yi'
y los resi-
duos, ei, de la regresi6n por mlnimos cua-
drados de las ventas semana[es con respecto a [as puntuaciones
del test de aptitud.
b) Halle las sumas de los cuadrados STC, SCR y SCE Y verifique
que
STC = SCR + SCE
c) Utilizando los resultados del apartado (a), halle e
interprete el coeficiente de determi-naci6n.
d) Halle directamente el coeficiente de corre[a-ci6n muestral
entre las ventas y las puntua-ciones del test de aptitud y
verifique que su cuadrado es igual al coeficiente de
determi-naci6n.
12.34. En un estudio se demostr6 que en una muestra de 353
profesores universitarios, la correlaci6n entre las subidas
salariales anuales y las eva[ua-ciones de la docencia era de 0,11 .
i., Cmil seria el coeficiente de determinaci6n de una regresi6n de
las subidas salaria[es anuales con respecto a [as evaluaciones de
la docencia en esta mues-tra? Interprete su resultado.
12.5. Inferencia estadfstica: contrastes de hip6tesis e
intervalos de confianza
Una vez desarrollados los estimadores de los coeficientes y un
estimador de (12, estamos ya en condiciones de hacer inferencias
relativas al modelo poblacional. El enfoque Msico es paralelo al de
los Capftulos 8 a 11. Desarrollamos estimadores de la varianza para
los esti-madores de los coeficientes, bo Y bl> Y utilizamos los
panimetros y las varianzas estimados para contrastar hip6tesis y
para calcular intervalos de confianza utilizando la distribuci6n t
de Student. Las inferencias realizadas a partir del analisis de
regresi6n nos ayudaran a comprender el proceso analizado y a tomar
decisiones sobre ese proceso. Suponemos ini-cialmente que los
errores aleatorios del modelo, c, siguen una distribuci6n normal.
Mas adelante, sustituiremos este supuesto por el del teorema del
limite central. Comenzamos desarrollando estimadores de la varianza
y formas utiles de contraste. A continuaci6n, los aplicamos
utilizando nuestros datos sobre las ventas al por menor.
En el apartado 12.2 definimos la regresi6n simple
correspondiente al modelo pobla-cional:
en la que las Xi tienen valores predeterrninados, pero no son
variables aleatorias. En los Ca-pftulos 5 y 6 sobre las funciones
lineales de variables aleatorias vimos que si ci es una va-riable
aleatoria que sigue una distribuci6n normal de varianza (12,
entonces Yi tambien si-gue una distribuci6n normal que tiene la
misma varianza. El segundo miembro es una funci6n lineal de X,
salvo por la variable aleatoria ci. Si sumamos una funci6n de X a
una
-
Capitulo 12. Regresi6n simple 457
variable aleatoria, no cambiamos la varianza. En el apartado
12.3 observamos que el esti-mador del coeficiente de la pendiente,
b I' es
11
I (Xi - X)(yi - )I) i=1 b l = 11
I (Xi - i)2 i=1
donde
(Xi - i) ai = -,-, --'----
I (Xi - X)2 i=1
En este estimador, vemos que b l es una funci6n lineal de la
variable aleatoria Yi cuya varianza es (j2. Las Yi son variables
aleatorias independientes. Por 10 tanto, la varianza de bl es una
transformaci6n simple de la varianza de Y. Utilizando los
resultados del Capitu-lo 6, la funci6n lineal puede expresarse de
la forma siguiente:
11
b l = I aiYi i=1
(Xi - x)
n I (Xi - X)2 i=1
11
Dado que Yi sigue una distribuci6n normal y b I es una funci6n
lineal de variables normales independientes, esta funci6n lineal
implica que b l tambien sigue una distribuci6n normal. De este
amilisis podemos deducir la varianza poblacional y la varianza
muestral.
-
458 Estadfstica para administracion yeconomfa
:~ INTERPRETACION
Distribuci6n en el muestreo del estimador de los coeficientes
por mfnimos cuadrados Si se cumplen los supuestos habituales de la
estimacion por mfnimos cuadrados, entonces b es un estimador
insesgado de f3 1 y tiene una varianza poblacional 1
(J2 ,.,.2 _ ____ _ vb l - 11 I (X i - X)2
; = I
y un estimador insesgado de la varianza muestral ?
2 s; S = ---"---b l n I (Xi - X)2
i = 1
(n - l)s~
,.2 v e
(n - 1)s;
(12.15)
(12.16)
EI estimador de la constante de la regresion, bo, tambien es una
funcion lineal de la variable aleatoria Yi y, por 10 tanto, puede
demostrarse que sigue una distribucion normal , y su estimador de
la varianza puede obtenerse de la forma siguiente:
i = - + i ( 1 2) bo n (n - l)s~ e Es importante observar que la
varianza del coeficiente de la pendiente, bl , depende de dos
importantes cantidades:
1. La distancia de los puntos con respecto a la recta de
regresion medida por s;'. Cuando los valores son mas altos, la
varianza de b l es mayor.
2. La desviacion total de los valores de X con respecto a la
media medida por (n - 1)s; . Cuanto mayor es la dispersion de los
valores de X, menor es la varianza del coeficiente de la
pendiente.
Estos dos resultados son muy importantes cuando hay que elegir
los datos para realizar un modelo de regresion. Antes hemos
sefialado que cuanto mayor era la dispersion de la variable
independiente, X, mayor era R2, 10 que indicaba que la relacion era
mas estrecha. Ahora vemos que cuanto mayor es la dispersion de la
variable independiente -medida por
s"~-, menor es la varianza del coeficiente estimado de la
pendiente, b l . Por 10 tanto, cuanto menores sean los estimadores
de la varianza del coeficiente de la pendiente, mejor es el modelo
de regresion. Tambien debemos afiadir que muchas conclusiones de
investigacio-nes y muchas decisiones de polftica economica se basan
en la variacion de Y que se debe a una variacion de X, estimada
pOl' b I' Por 10 tanto, nos gustarfa que la varianza de esta
im-portante variable de decision, b l , fuera 10 mas pequefia
posible.
En el analisis de regresion aplicado, nos gustaria saber primero
si existe una relacion. En el modelo de regresion, vemos que si /31
es 0, entonces no existe una relacion lineal: Y no aumentarfa 0
disminuirfa continuamente cuando aumenta X. Para averiguar si
existe una relacion lineal, podemos contra star la hipotesis
frente a
-
Capitulo 12. Regresi6n simple 459
Dado que h, sigue una distribuci6n normal, podemos contrastar
esta hip6tesis utilizando el estadfstico t de Student
que se distribuye como una t de Student con n - 2 grados de
libertad. El contraste de hip6tesis tambien puede realizarse con
valores de /31 distintos de 0. Una regia practica es extraer la
conclusi6n de que existe una relaci6n si el valor absoluto del
estadfstico t es su-perior a 2. Este resultado se obtiene
exactamente en el caso de un contraste de dos colas con un nivel de
significaci6n rL = 0,05 y 60 grados de libertad y constituye una
buena aproximaci6n cuando n > 30.
Base para la inferencia sobre la pendiente de la regresi6n
poblacional Sea /31 la pendiente de la ecuaci6n poblacional y b1 su
estimaci6n por minimos cuadrados ba-sad a en n pares de
observaciones muestrales. En ese caso, si se cumplen los supuestos
habi-tuales del modele de regresi6n y puede suponerse tambien que
los errores, 8;, siguen una dis-tribuci6n normal, la variable
aleatoria
(12.17)
se distribuye como una t de Student con (n - 2) grados de
libertad. Ademas, el teorema del limite central nos permite
conciuir que este resultado es aproximadamente valido para una
am-plia variedad de distribuciones no normales y muestras de un
tamafio suficientemente grande, n.
La mayorfa de los programas que se emplean para estimar
regresiones calculan normal-mente la desviaci6n tfpica de los
coeficientes y el estadfstico t de Student para /3, = 0. La Figura
12.8 muestra las salidas Minitab y Excel correspondientes al
ejemplo de las ventas al por men or.
En el caso del modelo de las ventas al por menor, el coeficiente
de la pendiente es hI = 0,382 con una desviaci6n tfpica Sb[ =
0,02529. Para saber si existe relaci6n entre las ventas al por
menor, Y, y la renta disponible, X, podemos contrastar la
hip6tesis
frente a
En la hip6tesis nul a, el cociente entre el estimador del
coeficiente, h j , y su desviaci6n tfpi-ca sigue una distribuci6n t
de Student. En el ejemplo de las ventas al por menor, observa'-mos
que el estadfstico t de Student calculado es
hj - /3, t=---
0,38152 - 0,02529 = 15,08
El estadfstico t de Student resultante, t = 15,08, mostrado en
la salida del am'ilisis de regre-si6n, constituye una prueba
contundente para rechazar la hip6tesis nula y concluir que existe
una estrecha relaci6n entre las ventas al por menor y la renta
disponible. Tambien
-
460 Estadistica para administracion y economia
Results for: retail sales.MTW Regression Analysis: V Retail
Sales versus X Income
The regression equation is tbl , Estadfstico tde Student Y
Retall Sales = 192 2 + 0 . 382 X rncomeC
Predlctor Coef SE Coef T P Constan t 1922. 4 274 . 9 6 . 99
0.000 X Income ~~~ 0.000 ~ Sbl ' Error tfpico del coeficiente de la
pendiente ~ 147.~ R-S = 91.9 % R- Sq(adj) = 91.5%
Se' Error tfpico de la estimaci6n Analysis of
Source Regression Residual Error Tota l
F P ~~~) ... __ --_O_, _O_O_O_~, Varianza del error del
modelo
Unusual
Retail Obs X I ncome Sale Fi t SE Fi t Residual 12 11307 5907.
6236.2 34.0 -329. 2
SCR, Suma de los cuadros de la regresi6n
St Resid - 2 . 29R
SCE, Suma de los cuadros de los errores
R denotes an observat on with a large standardized residual
.
b l , Coeficiente de la pendiente (a)
A B 1 !SUMMARYOUTPUT 2 3 4 5 6 7 8 9
i Regression ~"'Btistics iMultiple R 0.958748803 IH Squllre
0.919199267 !Adjusted R Squllre 0.91515923 ' IStllndllrd Error
-
Capitulo 12. Regresi6n simple 461
Tambien podrfan realizarse contrastes de hipotesis relativos a
la constante de la ecua-cion, bo, utilizando la desviacion tfpica
desarrollada antes y mostrada en la salida Minitab. Sin embargo,
como normalmente nos interesan las tasas de variacion -medidas por
b l-, los contrastes relativos a la constante general mente son
menos importantes.
Si el tamafio de la muestra es 10 suficientemente grande para
que se apJique el teorema del lfmite central , podemos realizar
esos contrastes de hipotesis aunque los elTores, c;, no sigan una
distribucion normal. La cuestion clave es la distribucion de bl' Si
bl slgue una distribucion normal aproximada, es posible realizar el
contraste de hipotesis.
Contrastes de la pendiente de la regresion poblacional Si los
errores de la regresion, 8i, siguen una distribucton normal y se
cumplen los supuestos habituales del metodo de los mfnimos
cuadrados (0 si la distribucion de b1 es aproximada-mente normal),
los siguientes contrastes tienen un nivel de significacion ex .
1. Para contrastar cualquiera de las dos hipotesis nulas
Ho:PI=M frente a la hipotesis alternativa
la regia de decision es
Rechazar Ho si
2. Para contrastar cualquiera de las dos hipotesis nulas
Ho: PI = f3l" frente a la hipotesis alternativa
la regia de decision es
Rechazar Ho si
3. Para contrastar la hipotesis nula
frente a la hipotesis alternativa bilateral
HI :PI #- fit la regia de decision es
Rechazar Ho si b - P* I I >: /' tll - 2 ,,/2 S
hJ o
(12.18)
(12.19)
(12.20)
Podemos obtener interval os de confianza para la pendiente PI de
la ecuacion poblacio-nal utilizando los estimadores de los
coeficientes y de las varianzas que hemos desarrolla-do y el
razonamiento realizado en el Capitulo 8.
-
462 Estadfstica para administraci6n y economfa
Intervalos de confianza de la pendiente de la regresi6n
poblacional ~ Si los errores de la regresi6n, 8i , siguen una
distribuci6n normal y se cumplen los supuestos habituales del
analisis de regresi6n, se obtiene un intervalo de confianza al
100(1 - 0:)% de la pendiente de la recta de regresion poblacional
(11 de la forma siguiente:
(12.21)
don de tn
- 2 aJ2 es el numero para el que
y la variable aleatoria tn
- 2 sigue una distribuci6n t de Student con (n - 2) grados de
libertad.
En la salida del analisis de regresi6n de las ventas al por
menor con respecto a la renta disponible de la Figura 12.8, vemos
que
n = 22 hi = 0,3815 Sb = 0,0253
Para obtener el intervalo de confianza al 99 por ciento de PI'
tenemos 1 - rx = 0,99 y n - 2 = 20 grados de libertad y, por 10
tanto, vemos en la tabla 8 del apendice que
t n - 2,rx/2 = t20 , 0,005 = 2,845
Por 10 tanto, tenemos el intervalo de confianza al 99 por
ciento
0,3815 - (2,845)(0,0253) < PI < 0,3815 + (2,845)(0,0253) o
sea
0,3095 < PI < 0,4535
Vemos que el intervalo de confianza al 99 por ciento del aumento
esperado de las ventas al por menor por hogar que acompafia a un
aumento de la renta disponible por hogar de 1 $ abarca el intervalo
de 0,3095 $ a 0,4353 $. La Figura 12.9 muestra los intervalos de
confianza al 90, al 95 y al 99 por ciento de la pendiente de la
regresi6n poblacional.
Figura 12.9. Intervalos de confianza de la pendiente de la recta
de regresi6n poblacional de las ventas al por menor a los niveles
de confianza del 90, el 95 y el 99 por ciento.
Intervale de confianza al 90% ,-------------------4
0,3379 0,3815 0,4251
Intervalo de confianza al 95%
11-----------------------11-----------------------1 0,3287 0,3815
0,4343 Intervale de confianza al 99% 1-------------------------
I------------~~--------------I 0,3095 0,3815 0,4535
-
Capitulo 12. Regresi6n simple 463
Contraste de hip6tesis del coeficiente de la pendiente
poblacional utilizando la distribuci6n F Existe otro contraste de
la hipotesis de que el coeficiente de la pendiente, (31' es igual a
0:
Ho :(3) = 0 H1 :(31 #0
Este contraste se basa en la descomposicion de la variabilidad
que hemos presentado en el apart ado 12.4. Este contraste parte del
supuesto de que, si la hipotesis nula es verdade-ra, entonces
pueden utilizarse tanto SCE como SCR para obtener estimadores
indepen-dientes de la varianza del error del modelo (f2 . Para
realizar este contraste , obtenemos dos estimaciones muestrales de
la desviacion tfpica poblacional (f, que se denominan ter-minos
cuadniticos medios. La suma de los cuadrados de la regresion, SCR,
tiene un gra-do de libertad, ya que se refiere al coeficiente de la
pendiente, y el cuadrado medio de la regresion, CMR, es
SCR CMR = - = SCR
1
Si la hipotesis nula - ausencia de relacion- es verdadera,
entonces CMR es una estima-cion de la varianza global del modelo,
(f2 . Tambien utilizamos la suma de los cuadrados de los errores al
igual que antes para hallar el error cuadnitico medio, ECM:
SCE ECM=--=S2
n ~ 2 e
En el apartado 11.4 introdujimos la distribucion F, que era el
cociente entre estimacio-nes muestrales independientes de la
varianza, dadas varianzas poblacionales iguales. Puede demostrarse
que CMR y ECM son independientes y que en Ho ambas son estimaciones
de la varianza poblacional, (f2. Por 10 tanto, si Ho es verdadera,
podemos demostrar que el co-ciente
CMR SCR F = -- = -
ECM s; sigue una distribucion F con 1 grado de libertad en el
numerador y n ~ 2 grados de liber-tad en el denominador. Tambien
debe seiialarse que el estadfstico F es igual al cuadrado del
estadfstico t del coeficiente de la pendiente. Esta afirmacion
puede demostrarse alge-braicamente. Aplicando la teorfa de la
distribucion, podemos demostrar que una t de Stu-dent al cuadrado
con n ~ 2 grados de libertad y la F con 1 gr'ldo de libertad en el
numera-dor y n ~ 2 grados de libertad en el denominador son
iguales:
F(J., 1,17-2 = ~/2,n - 2 La Figura 12.8(a) muestra el analisis
de varianza de la regresion de las ventas al por
menor procedente de la salida Minitab. En nuestro ejemplo de las
ventas al por menor, la
-
464 Estadfstica para administraci6n y economfa
suma de los cuadrados de los errores se di vide por los 20
grados de libertad para calclllar el ECM:
436.127 ECM = 20 = 21.806
A continuaci6n, se calcula el cociente F, que es como el
cociente entre dos cuadrados me-dios:
CMR 4.961.434 F = - - = = 227 52
ECM 21.806 '
Este cociente F es considerablemente mayor que el valor crftico
de r:t. = 0,01 con 1 grado de libertad en el numerador y 20 grados
de Iibertad en el denominador (F 1.20,0,0 I = 8, 10) segun la Tabla
9 del apendice. La salida Minitab -Figura 12.8(a)- de la regresi6n
de las ventas al por menor muestra que el p-valor de esta F
calculada es 0,000, 10 que constitllye una prueba alternativa para
rechazar Ho. Observese tambien que el estadistico F es igual a ?,
siendo t el estadistico del coeficiente de la pendiente, b I:
F = t2
227,52 = 15,082
Contraste F del coeficiente de regresion simple Podemos
contrastar la hipotesis
frente a la alternativa
util izando el estadfstico F CMR SCR
F=--= -ECM s;
La regia de decision es
Rechazar Ho si F): F1,n - 2,iX
Tambien podemos mostrar que el estadfstico F es
en cualquier anal isis de regresion simple.
(12.22)
(12.23)
(12.24)
Este resultado muestra que los contrastes de hip6tesis relativos
al coeficiente de la pen-diente poblacional dan exactamente el
mismo resultado cuando se utiliza la t de Student que cuando se
utiliza la distribuci6n F. En el Capitulo 13 veremos que la
distribuci6n F -cuando se utiliza en un analisis de regresi6n
multiple- tambien brinda la oportunidad de contrastar la hip6tesis
de que varios coeficientes poblacionales de la pendiente son
si-multaneamente iguales a O.
-
Capitulo 12. Regresi6n simple 465
EJERCICIOS
Ejercicios basicos 12.35. Dado el modelo de regresi6n simple
Y=[30+[3I X y los resultados de la regresi6n siguientes,
con-traste la hip6tesis nula de que el coeficiente de la pendiente
es 0 frente a la hip6tesis alternativa de que es mayor que cero
utili zando la probabi-lidad de cometer un error de Tipo I igual a
0,05 y halle los interval os de confianza bilaterales al 95 y al 99
por ciento. a) Una muestra aleatoria de tamano n = 38 con
h i = 5 Y Sb, = 2,1 b) Una muestra aleatoria de tamano n = 46
con
hi = 5,2 Y Sb , = 2,1 c) Una muestra aleatoria de tamano 11 = 38
con
h i = 2,7 Y Sb, = 1,87 d) Una muestra aleatoria de tamano 11 =
29 con
hi = 6,7 Y sb, = 1,8
12.36. Uti lice un modelo de regresi6n simple para con-trastar
la hip6tesis
frente a
suponiendo que (J. = 0,05, dados los siguientes estadfsticos de
la regresi6n: a) EI tamano de la muestra es 35, STC= 100.000
Y la correlaci6n entre X eYes 0,46. b) EI tamafio de la muestra
es 61, STC= 123.000
y la correlaci6n entre X eYes 0,65. c) EI tamano de la muestra
es 25, STC= 128.000
Y la correlaci6n entre X eYes 0,69.
Ejercicios aplicados 12.37. Considere la regresi6n lineal de las
ventas del
sistema DVD con respecto al precio del ejerci-cio 12.29. a)
Utilice un metodo de estimaci6n insesgado
para hallar una estimaci6n de la varianza de los terminos de
en'or en la regresi6n pobla-cional.
b) Utilice un me to do de estimaci6n insesgado para hallar una
estimaci6n de la varianza del estimador pOI' mfnimos cuadrados de
la pen-diente de la recta de regresi6n poblacional.
c) Halle el intervalo de confianza al 90 pOI' ciento de la
pendiente de la recta de regre-si6n poblacional.
12.38. Una cadena de comida nlpida decidi6 realizar un
experimento para averiguar la influencia de los gastos
publicitarios en las ventas. Se intro-dujeron diferentes cambios
relativos en los gas-tos publicitarios en comparaci6n con el ano
an-terior en ocho regiones del pafs y se observaron los cambios que
experimentaron las ventas co-mo consecuencia. La tabla adjunta
muestra los resultados.
Aumento de los gastos publicitarios (%) 0 4 14 10 9 8 6 Aumento
de las ventas (%) 2,4 7,2 10,3 9,1 10,2 4,1 7,6 3,5
a) Estime por mfnimos cuadrados la regreslOn lineal del aumento
de las ventas con respec-to al aumento de los gastos
publicitarios.
b) Halle el intervalo de confianza al 90 por ciento de la
pendiente de la recta de regre-si6n poblacional.
12.39. Un vendedor de bebidas alcoh6licas al por mayor tiene
interes en averiguar c6mo afecta el precio de un whisky escoces a
la cantidad ven-dida. En una muestra aleatoria de datos sobre las
ventas de ocho seman as se obtuvieron los resultados de la tabla
adjunta sobre el precio, en d61ares, y las ventas, en cajas.
Precio 19,2 20,5 19,7 21,3 20,8 19,9 17,8 17,2
Ventas 25,4 14,7 18,6 12,4 11,1 15,7 29,2 35,2
Halle el intervalo de confianza al 95 por ciento de la variaci6n
esperada de las ventas provoca-da por una subida del precio de 1
$.
Se recomienda que los siguientes ejercicios se resuelvan con la
ayuda de un computador.
12.40. 6'9 Continue el amllisis del ejercicio 12.30 de la
regresi6n de la variaci6n porcentual del Indice Dow-Jones en un ano
con respecto a la varia-ci6n porcentual del fndice en los cinco
primeros dras de sesi6n del ano. Utilice el fichero de da-tos Dow
Jones. a) Utilice un metoda de estimaci6n insesgado
para hallar una estimaci6n puntual de la va-rianza de los
terminos de error de la regre-si6n poblacional.
-
466 Estadfstica para administraci6n y economfa
b) Utilice un metoda de estimaci6n insesgado para hallar una
estimaci6n puntual de la va-rianza del estimador por mfnimos
cuadrados de la pendiente de la recta de regresi6n
po-blacional.
c) Halle e interprete el intervalo de confianza al 95 por ciento
de la pendiente de la recta de regresi6n poblacional.
d) Contraste al nivel de significaci6n