-
Regresi6n multiple
Esquema del capitulo 13.1. EJ modele de regresion multiple
Especificaci6n del modele Desarrollo del modele Graficos
tridimensionales
13.2. Estimaci6n de coeficienles Metoda de minimos cuadrados
13.3. Poder explicativo de una ecuaci6n de regresi6n multiple
13.4. Intervalos de confianza y conlrastes de hip6tesis de
coeficientes de regresion
individuales Intervalos de confianza Contrastes de hip6tesis
1 3.5. Contrastes de los coeficientes de regresi6n Contrastes de
lodos los coeficientes Contraste de un conjunto de coeficientes de
regresi6n Comparaci6n de los contrastes F y t
13.6. Predicci6n 13.7. Transformaciones de modelos de regresion
no lineales
Transformaciones de modelos cuadralicos Transformaciones
logaritmicas
13.8. Utilizaci6n de variables fict icias en modelos de
regresi6n Diferencias entre las pendientes
13.9. Metodo de aplicaci6n del analisis de regresi6n multiple
Especificaci6n del modelo Regresi6n multiple Efecto de la
eliminaci6n de una variable estadfsticamente significativa Analisis
de los residuos
Introducci6n En el Capitulo 12 presentamos el metodo de
regresi6n simple para obtener una ecua-ci6n lineal que predice una
variable dependiente 0 end6gena en funci6n de una unica variable
independiente 0 ex6gena; por ejemplo, el numero total de art fculos
vendidos en funci6n del precio. Sin embargo. en muchas situaciones,
varias variables independientes influyen conjuntamente en una
variable dependiente. La regresi6n multiple nos permite averiguar
el efecto simultaneo de varias variables independientes en una
variable de-pendiente utilizando el principio de los minimos
cuadrados.
-
488 Estadfstica para administraci6n y economfa
Existen muchas aplicaciones importantes de la regresion multiple
en al mundo de la emprasa y an la eeonomia. Entre estas
aplicaciones se encuentran las siguientes:
1. La cantidad vendida de bianes es una funcion del precio, la
renta, la publicidad, el precio de los bienes sustitutivos y otras
variables.
2. Existe inversion de capital cuando un empresario cree que
puede obtaner un be-neficia. Par 10 tanto, la inversion de capital
es una tuncion de variables relaciona-das can las posibilidades de
obtener beneficios, entre las que se encuenlran el tipo de interes,
el producto interior bruto, las expectativas de los consumidores,
la renta disponible y el nivel tecnol6gica.
3. EI salano es una funcion de la experiencia, la educacion, la
edad y el puesto de trabaja.
4. Las grandes empresas del comercio al par menor y Ja
hostelerfa deciden Ja loca-lizacion de los nuevas establecimientos
basandose en los ingresos previstos por ventas y/o en la
rentabilidad. Utilizanda datos de localizaciones anteriores que han
tenido exito y que no 10 han tenido, los analistas pueden construir
modelos que predicen las vantas a los beneficios de una nueva
10calizaci6n posible.
EI analisis eeonomico y empresarial liene algunas
caracterfsticas unicas en com-paraci6n can el analisis de olras
disciplinas. Los cientificos naturales trabajan en un la-boratorio
en el que es posible controlar muchas variables, pero no todas. En
cambia, eJ laboratorio del economista y del directiva as el mundo y
las cond iciones no pueden con-trolarse. Por 10 tanto, necesitan
instrumentos como la regresion multiple para eslimar el afeelo
simultaneo de varias variables. La regresion mUltiple como
instrumenta de la-barataria as muy importante para el trabajo de
los directivos y de los economistas. En esta capitulo veremos
muchas aplicaciones especificas en los ejemplos y los
ejercicios.
Los metodos para ajustar modelos de regresion multiple se basan
en el mismo princi-pia de los minimos cuadrados que aprendimos en
el Capitu lo 12 y, par 10 tanto, las ideas presentadas en ese cap
itulo se axtenderan directamente a la regresi6n multiple. Sin
embargo, se intraducen algunas complejidades debido a las
relaeiones entre las distintas variables ex6genas. Estas requieren
nuevas ideas que se desarrollan en este capitulo.
13.1. EI modelo de regresion multi Ie Nuestro objetivo es
aprender a utilizar la regresi6n multiple para crear y analizar
model os. Por 10 lanto, aprendemos como funciona la regresi6n
multiple y algunas directrices para inlerpretaria. Comprendiendo
perfectamente la regresi6n multip le, es posible reso lver una
umplia variedad de problemas aplicac1os. Este estudio de los
metodos de regresi6n m(lItiple es paralelo al de la rcgresi6n
simple. El primer paso para desarrol1ar un modele es la
cspe-eifieaci6n de ese modelo, que consistc en la selecei6n de las
variables del modelo y de 13 forma del modelo. A conlinuaci6n, se
estudia el metoda de millimos euadrados y se allali ~ za la
variabilidad para identificar los efeetos de cada una de las
variables de predicci6n . Despues se eswdia 13 estimacion, los
inLervalos de confianza y cl contraste de hi potesis. Se uti l izan
frecuentemenle aplicae iones informalicas para indicar como se apl
ica la leOrla a problemas real istas. EI estud io de este capItulo
sera mas facil si se ponen ell relaci6n sus ideas COil las que
presenlamos en el CapItulo 12.
Especificacion del modelo Comenzamos con una ap licac i6n que
ill/stm la importante tarea de la espec ificaci6n del modele de
regresi6n. La especi fi caci6n del modelo cons iste en la selecc
i6n de las variables ex6gcnas y la forma funcional del mode 10.
-
Capitulo 13. Regresi6n multiple 489
EJEMPLO 13.1. Proceso de produccion (especificacion del modelo
de regresion)
EI director de produccion de CircuilOs Flexibles. S.A., Ie ha
pedido aYllda para estlldiar un proceso de produccion. Los circlli
tos flexibles se producen con un rollo continuo de resina flexible
que lleva adherida a su superficie una Fina peifcll la de materia l
conductor hecho de cobrc. El cobre se adhiere a la resina pasando
la res ina por una solucion de cobre. EI grosor del cobre es fu
ndamenta l para que los circuilos sean de buena calidad. Depende en
parte de In temperatura de la soluci6n de cobre, de la velocidad de
la [fnea de produccion, de la densi.dad de la soluc i6n Y del
grosor de la resina flexib le. Para con-trolar el grosor del cebre
adheride a la superficie, el director de producci6n necesi ta
sa-ber que efecto produce cada una de estas variables. Le ha pedido
ayuda para desarrollar un modele de regresion mu ltiple.
Solucion La regres ion multiple puede uti lizarsc para hacer
cstimaciones de l efecto que produce cada variable en combinacion
con las demas. El desanollo del modelo comienza con un ana l isis
detenido del contexto del problema. El primer paso en este ejemplo
serfa una extensa conversacion con los ingenieros responsab les del
disefio del producto Y de la produccion, con el fin de comprender
detalladamente el proceso de l que se pretende de-sarrollar un
modelo. En algunos casos, se estudiarfa la literatura existente
sabre el pro-ceso. Este debe ser comprendido y aceptado per todos
los interesados antes de poder desarrellar Ull modelo util ut
ilizando el anal is is de regresion mUltiple. En eSle ejemplo, la
variable dependiente, Y, es el greso!" del cobrc. Las valiables
independientes son la temperatura de 1a solucion de cobre. XI: la
velocidad de la lfnea de produccion, X2; la dcnsidad de la
solucion, XJ y el grosor de la res ina flexible, X4 . Los
ingenieros y los cientfficos que comprendfan la tecnologfa de l
proceso de recubrimiento identificaron es-tas variables como
posibles predictores del grosor del cobre, Y. Basandose en el
estudio del proceso, la especificacion del modele resu ltante
es
y ~ flo + {!,X, + {!2X, + P3X, + fi,X,
En el modelo lineal anterior, las Ii; son coeficienles lineales
conSlanles de las Xj que indican el efecto condicionado de cada
variable independienle en la determinacion de la variable
dependieme, Y, en la poblacion. Por 10 tanIo, las P; son parametros
en el modelo de regres i6n Itneal. A continuacion, se producirfa
una serie de lotes para haccr mediciones de distintas combi
naciones de las variables independientes y la variable dependicnte
(vcasc el anaJisis del diseno experimental en el apartado
14.2).
EJEMPLO 13.2. Localizac ion de las l iendas (especificacion del
modelo) El director de plani ficaci6n de una gran cadena dt{
comercio al por menor estaba insatis-fecho con su experiencia en la
apel1ura de nuevas tiendas. En los cuatro ult imos afios, el 25 por
ciento de las nuevas tiendas no habfa conseguido las ventas
previstas en e1 perio-do de pmeba de dos afios y se habfa ccrrado
con cuantiosas perdidas econ6mkas. El director querfa desarro llar
mejores crilerios para elegir el empiazamiento de las tiendas y
llego a la conclusion de que debfa estudiarse la experiencia hi
st6rica de las tiendas que habfan tenido exi to y las que habfan
fracasado.
-
490 Esladfslica para adminislraci6n y economia
Solucion Hablando con un consultor, lIeg6 a la conclusi6n de que
podian uti li zarse los datos de las tiendas que habfan conseguido
las venlas que estaball previstas y los datos de las que no las
habfan conseguido para desarrollar un modelo de regresion multiple.
El con~ suItor sugirio que debra lltil izarse como variable
dependiente, y, las ventas del segundo ailo. Se emplearfa un modele
de regresion para predecir las venlas del segundo ailo en funcion
de varias variables illdependienles que dcfinen la zona que rodea a
la tiencla . Solo se abrirfan tiendas en los lugares en los que las
ventas predichas superaran un ni~ vel minima. EI modelo tambien
indicarfa como afec tan varias variables independientes a las
ventas.
Tras hablar largo y tendido con personas de la empresa, el
consultor recomend6 las siguienles variables independ icntcs:
1. Xl = lamano de la tienda 2. X2 = vol umen de trMico de la
calle en la que se encuentra la tienda 3. X] = aperlura de la
tienda sola a en un centro comercial 4. X4 = exislencia de una
tienda rival a menos de 500 metros 5. X 5 = renLa per capita de la
poblaci6n residente a menos de 8 kilometros 6. X6 = mitnero total
de personas que residen a menos de 8 kjlometros 7. X7 = renta per
capita de la poblacion que res ide a menos de 15 kilometros 8. Xl'.
= ntimero total de personas que res iden a menos de 15 ki lometros
Se uti lizQ la regresi6n multiple para esli mar los coeficienles
del modelo de predi c~
cion de las ventas a partir de datos recog idos en lodas las
liendas abiertas en los ocho 6ltimos anos. En el conjunto de datos
habra tiendas que segufan abiertas y tiendas que se habfan cerrado.
Se desarro1l6 un modele que podfa utilizarse para predecir las
ventas del segundo ano. Este modele contenfa estimadores, b), de
los para metros del modelo, p). Para ap licar el modelo
g
Yi = bo + L bj xji j = l
se hicieron mediciones de las variables independienles de cada
nueva localizaci6n pro~ pLlesta y se calcu laron las ventas
predichas de cada local izacion. Se uti liz6 cJ nivel pre~ dicho de
ven tas , junto con eJ cri terio de los anal istas de marketing y
de un comite de directores de tiendas de ex iLo, para elegir el
lugar en el que se abrirfan [iendas.
En la estralegia para especificar un modelo influyen los
objetivos de l modelo. Uno de los objetivos cs la prediccion de una
variable dependiente 0 de resultado . Entre las apli ~ caciones se
encuentran la prediccion de las ventas, de la producci6n, del
consumo total, de la invers ion total y otros muchos criterios de
los resultados empresariales y economicos. EI segundo objetivo es
estimar el efecto marginal de cada variable independiente. Los
econo~ mi stas y los di recti vos necesilan saber como cambian las
medidas de los resultados cuando varian las variables
independicntes, Xj' donde j = I, .. . , K. Por ejemplo:
L l,Como varfan las ventas como consecllencia de una subida del
precio y de los gas-tos pllblicitarios?
2. i..Como varia la producci6n cuando se alteran las cantidades
de trabajo y de capi tal? 3. i.. Disminuye la mortalidad infantil
cuando se illcremenlan los gastos en asistencia
sanitaria y en servicios de saneamiento?
-
Capitulo 13. Regresi6n multiple 491
Objetivos de la regresi6n La regresi6n multiple permite obtener
dos importantes resultados:
1. Una ecuaci6n lineal estimada que predice la variable
dependiente, Y, en funci6n de K variables independientes
observadas, xi' donde j = 1, ... K.
donde i = 1, "" n observaciones. 2. La variaci6n marginal de la
variable dependiente, Y, provocada por las variacionas de
las variables independienles, que se eslima por medio de los
coeficientes, bj. En la re-gresi6n multiple, estos coeficientes
dependen de que otras variables se incluyan en al modelo. EI
coeficiente bj indica la variaci6n de Y, dada una variaci6n
unitaria de X;, des-contando al mismo tiempo el efecto simultaneo
de las demas variables independlentes.
En algunos problemas, ambos resultados son igual de importantes.
Sin embargo, normal-mente predomina uno de ellos (por ejemplo, la
predicci6n de las ventas de las tiendas, y, en el ejemplo de la
localizaci6n de las liendas).
La variaci6n margina l es mas diffei l de estimar porque las
variables independientes cs-Hi.n relac ionadas no s610 con las
variables dependienles sino lam bien entre Sl. Si dos variu-bles
independientes 0 mas varian en una re lac i6n lineal directa entre
sf, es dificil averiguar cI efecto que produce cada variable
independienle en la variable dependiente.
Examinaremos delalladamente el modelo del ejemplo 13.2. EI
coeficiente de XI ---es decir, b J- indica la variaci6n que
experimentan las ventas del segundo ana por cada va-riaci6n
unitaria del tamano de la tienda. EI coeficiente de Xj indica la
variaci6n que experi -mentan las ventas por cada variaci6n unitaria
de la rcnta per capita de la poblaci6n que reside a menos de 8 ki
l6metros, miell(ras que la de X7 indica la variaci6n de las ventas
por cada variaci6n de la renla per capita de la poblaci6n que res
ide a menos de 15 ki l6metros. Es probable, pOI' supuesto, que las
variables Xs Y X7 esten correlacionadas. Par 10 tanto, en la medida
en que estas variables varfen am bas al mismo tiempo, es diffcil
averiguar la con-tribucion de cada una de elias a la variacion de
los ingresos generados por las ventas de las tiendas. Esta
correlaci6n entre variables independientes complica el modelo. Es
importanle comprendcr que el modelo predice los ingresos generados
por las ventas de las tiendas uli-lizando la combinaci6n de
variables que contielle el modelo. El efecto de una variable de
prediccion es e l efecto que produce esa variab le cuando se
combina con las demas. POI' 10 tanto, en general, el coeficiente de
una vari ab le no indica el efecto que produce esa varia-ble en
todas las condiciones. Estas complcj idades se anal izanln mas
delen idamenle cuando se dcsarrolle el modelo de rcgresi6n
mUltiple.
Desarrollo del modelo Cuando aplicamos la regresi6n mUltiple,
construimos un modelo para explicar la variabili-dad de la variable
dependiente. Para eso queremos incluir las influencias simultaneas
e in* dividuales de varias variables independientes. Supongamos,
por ejemplo, que queremos de-sarrollar un modelo que prediga el
margen anua l de beneficios de las sociedades de ahorra y cn!dilO
inmobiliari o ulili zando los dalos recog idos durante un periodo
de anos. Una espe-cificaci6n inicial del modelo indicaba que el
margen anual de beneficios eslaba relac iona-do can los ingresos
netos pOl' dolar depositado y el nLimero de oncinas. Se espera que
el ingreso neta aumente el margen anua! de benefic ios y se preve
que el nllmero de ofic in
-
492 Estadfstica para adminislraci6n y economia
Savings and Loan
red llc ini el margen an ual de benericios dcbido al aumenlO de
la competencia. Eso nos lie. varia a especificar lin modele de
regrcs i6n poblacional
Y = flo + li,X, + (J,X, + c donde
Y = margen anual de beneficios XI = ingresos anuales netos por
d61ar depos itado X2 = numcro de ofi cinas existentes ese anD
LIl Tabla 13. 1 y cl Fichera de dalos Savings and Loan cont
iencJ1 25 observaciones por ano de eS{as variables. Utili zaremos
estos datos para desarralJar un modele li neal que prediga el
margen anunl de beneficios en funci6n de los ingresos por d61ar
deposilado y del numero de ofi cinas (vease la referencia
bibliografica 4).
Tabla 13.1. Datos de las asociaciones de ahorro y credito
inmobitiario.
Ingresos Nlimero Mllrgen de lngresos Numero Margen de Ano por
d611l r de oficinas beneficios Ano por d61a r de olieinas
henelicios
I 3,92 7.298 0,75 14 3,78 6.672 0,84 2 3,6 1 6.855 0,7 1 15 3,82
6.890 0,79 3 3,,2 6.636 0,66 16 3,97 7. 115 0,7 4 3,07 6.506 0,6 1
17 4.07 7.327 0,68 5 3,06 6.450 0,7 18 4,25 7.546 0,72 6 3, 11
6.402 0,72 19 4.4 1 7.93 1 0,55 7 3,2 1 6.368 0,77 20 4.49 8.097
0,63 8 3,26 6.340 0,74 21 4,70 8.468 0,56 9 3,42 6.349 0,9 22 4,58
8.7 17 0,41
!O 3,42 6.352 0,82 23 4.69 8,99 1 0.5 1 II 3,45 6.361 0 ,75 24
4.71 9. 179 0,47 12 3.58 6.369 0.77 25 4.78 9.318 0,32 13 3,66
6.546 0,78
Pero antes de poder estimar el modelo, es necesario desarrollar
y comprender el me todo de regres i6n multiple. Para comenzar,
examinemos el rnodelo general de regres i6n multiple y observemos
sus diferencias CO il el modele de regresi6n simple. EI modelo de
regres i6n mUltiple es
donde f'.; es e l tt~ rmi no de error aleatorio que tiene la
media 0 y la varianza (J2, Y las /lj son los coefic ientes 0
efectos marginales de las variables independientes 0 cx6genas, Xj .
donde j = I, .. . , K, dados los efeclOs de las demas variables
independientcs. Las i indio can las observacioncs, siendo i = I,
... , 1/.. Uti lizamos las minusculas Xji para indicar los va lores
especfficos de la variable Xj en la obscrvac i6n i. Suponemos que
las 8i son inde pendientes de Jas Xj y entre sf para que las
estimaciones de los coefi c ientes y sus va rianzas sean correctas.
En el Capitulo 14 explicamos que ocurre cuando se abandon an estos
su puestos.
-
Capitulo 13. Regresi6n multiple 493
EI modelo mucstra l estimado es
don de e; es cl residuo 0 diferencia entre el valor observado de
Y y el valor estimado de Y obtenido utili zando los coeficientes
cstimados, bi' donde j = I, ... , K. EI metodo de regresi6n obl
iene estimaciones simultaneas, bi' de los coeficientes del modelo
poblac io-nal , /Jj' utili zando el metodo de minimos
cuadrados.
En nuestro ejempJo de las asoc iaciones de ahorro y credi to
inmobiliario , el modelo poblacional para los puntos de datos indi
viduales es
Este modelo reducido con dos variab les de prediccion solamente
brinda la oportunidad de comprender mejor el metodo de regresi6n.
La funcion de regres i6n puede represen-tarse gnificBmente en Ires
dimensiones, como muesLra la Figura 13. 1. La funci6n de re-gresi6n
se representa mediante un plano en el que los valores de Y son una
funci6n de los va lores de la variables independientcs Xl Y X2.
Para cada par pos ible, Xl;, X2i, el va-lor esperado de la variable
dependienle, Yi. se encuentra en el plano. La Figura 13.2 ilustra
especff"icamentc cl ejemplo de las asociaciones de ahorro y credilo
jnmobiliario. Un aumento de Xl provoca un aumento del valor
esperado de Y, condicionado al cfeclo de X2 Asimismo, un aumento de
X2 provoca una disminucion del valor esperado de Y, condicionada al
efeclo de X I.
Para complelar nuestro modelo, anadimos un (ermino de error I:.
Este termino de enor reconoce que no se cumpli ra exaClamenle
ninguna relaci6n postu lada y que es probable que haya Olras
variables que tambien aFeclen al valor observado de Y. Por 10
tanto, cuando aplicamos ei modelo, observamos el valor esperado de
la variable depen-diente, Y - representado por el plano en 101
Figura 13.2-, mas un {e rmi no de error alea-lorio, 1-:, que
representa 1a parte de Y no inc\uida en eI valor esperado. Como
conseCUCll-cia, cI mode lo de datos liene la forma
y
Figura 13.1. EI plano es el valor esperado de Y en funci6n de XI
Y X2.
y
.-
x,
Figura 13.2. Comparaci6n del valor obselVado y el esperado de
Yen funci6n de dos variables independienles.
-
494 Estadistica para administraci6n yeconomia
EI modele de reg res ion poblacional multiple EI modelo de
regresi6n poblacional multiple define la relaci6n entre una
variable depen-dien!e 0 end6gena, Y, y un conjunto de variables
independien!es 0 ex6genas, xi' donde j == 1, ... , K. Se supone que
las xji son numeros fijos; Yes una variable aleatoria definida para
cada obselVaci6n, i, donde i == 1, .. . , n, y n es el numero de
obselVaciones. EI modele se define de la forma siguiente:
(13.1)
donde las Pj son coeficientes constantes y las I: son variables
alealorias de 0 y varianza a2.
En el ejemplo de las asociaciones de ahorro y credito
inrnobiliario, con dos variables independientes, el modelo de
regres i6n poblacional es
Dados valores especfricos de los ingresos netos, Xli' y el
numero de oric inas, XZi' el margen de benericios observado, Yi' es
la suma de dos partes: el va lor esperado, flo + {JIXli + fJ-zX2i'
y el tennino de error aleatorio, f.i . EI termi no de error
aleatorio puede concebi rse como In combinaci6n de los efeclos de
oLros muchos factores sin iden tificar que afecLan a los mar-genes
de beneric ios. La Figura 13.2 ilustra e l modele; el plano indica
el valor esperado de vadas combinaciones de las vari ables
independientes y la E; es la desviaci6n entre el plano --el va lor
esperado--- y cI valor observado de Y - marcado con un punto
grande- de un punto de dato especffico. En general, los val ores
observados de Y no se Cneuentran en el plano sino po r encima 0 por
debajo de el, debiclo a los lerminos de error positivos 0
negati-VOS, l:i'
La regres i6n simple, presentada en el capftulo anterior, no es
mas que un caso especial de la regres i6n multiple con una (mica
variable de prediec i6n y, por 10 tanto, el plano se reduce a una
Hnea. Asf pues, la teorla y eI anali sis que hemos desarrollaclo
para ta regre-si6n simple tambien se aplican a la regres i6n multi
ple. Si ll embargo, existen algunas inter-prctaciones mas que
desarrollaremos en nuestro eSludio de la regresi6n multiple. Una de
eli as se ilustra en el siguiente anali sis de los grafieos trid
imensionales.
Gnificos tridimensionales Tal vez sea mas fUeil eomprender el
metodo de regres i6n multiple mediante una imagen grMica
simplificada. Observe el rinc6n de la habitacion en la que esta
sentado. Las Hneas formadas pOI' las dos paredes y el suelo
representan los ejes de dos vari ables independien-tes, X I Y X2 .
La esquina que forman las dos paredes es el eje de la variable
dependiente, Y. Para estimar una recta de regresi6n, relln imos
conjllntos de punlOs (x l i. X2i e yJ
Representemos ahora estos puntos en su habitac i6n utili zando
las esquinas de las pare-des y el slle lo como los tres ejcs. Con
estos puntos suspendidos en su habi tae i6n, buscamos un plano en
el espacio que se aproxi me a todos ell os. Este plano es la fo rma
geometrica de la ecuaci6n de mfnimos cuadrados. Con estes PUlltos
en el espacio, ahora subimos y baja-IllOS un plano y 10 hacemos
girar en dos direcciones: todos estos movimientos los hacemos
simultaneamente hasta que tenemos Lin plano que esta cerea de lodos
los puntos. Recuer-dese que en el Capitulo 12 hieimos esto con una
Ifnea recta en dos dimens iones para obte-ner una ecuaci6n
-
Capitulo 13. Regresion multiple 495
A continuacion, extendemos esa idea a tres dimensioncs para
oblener una ecu
-
496 Estadistica para administracion y economia
X 3" = numcro porccnlual de piews en camLin con atros
modelos
Los coeficientes de regresi6n estimados cran
h j = 0,661 6, ~ 0.065 6, ~ - 0,018 Interprete estas
estimacioncs.
13.7. En un estud io de la influencia de [as instiwcio-nes
fInancieras en los tipos de interes de los bo-nos alemanes, se anal
izaron datos trimestrales de un periodo de 12 aiios. EI modelo
postlilado era
Yi = flo + fllx li + fJ?'x 2, + e,. dondc Yi = variaci6n de los
tipos de inten::-" de los bo-
nos en el trimcstre Xli = variaci6n de las compras de bonos pOl'
par-
le de las instituciones financieras en el tri-mestre
X2,. = variacion de las ventas de oonos POI' paJ1C de las
instituciones financieras en cI trimestre
Los eoeficientes de rcgrcs ion parcial estimados eran
b, ~ 0,057 b, ~ -0,065 Interprete estas estimaciones .
13.8. Se aj llst6 el siguiente modelo a una muestra de 30 fam
Uias para explicnr el consumo de leche por familia :
Y i = Po + PIX I ; + P2X2i + 8, dande Yi = consumo de leche, en
li tros a In seman a
13.2. Estimacion de coeficientes
Xl = rentn semana[ en ciemos de d61ures X2 = lamano de la
familia
Las cstimaeiones de los panimetros de la regrc-si6n par mlnimos
cuadrados eran
bo = ~ 0,025 b l = 0,052
a) Interprete las estimaciones b J Y b2. b) j,Es posible hacer
una interpretaei6n de la es-
timacion bo que tenga senti do?
13.9. Se ajust6 eI slguienle modelo a una muestra de 2S
estudiantes utilizando datos obtenidos a! final de su primer ano de
universidad. El objcl ivo era explicar el aumento de peso de los
esrudiantes.
Yi = Po + PIXI,. + fliX2; + P:y'
-
Capitulo 13. Regresion multiple 497
Supuestos habituales de la regresi6n multiple El modelo de
regresion poblacional multiple es
y; = fio + fi,Xt; + fJ2-''( 2i + ... + fJKXKi + t;
y suponemos que se dispone de n conjuntos de observaciones. Se
postulan los siguienles su-puestos habituales para el modelo.
1. Las X/I son 0 bien numeros fijos, 0 bien realizaciones de
variables aleatorias, XI' que son independientes de los terminos de
error, cr En el segundo caso, la inferencia se realiza condicionada
a los valores observados de las xj ,
2. EI valor esperado de la variable aleatoria Yes una juncian
lineal de las variables inde-pendientes ~.
3. Los terminos de error son variables alealorias cuya media es
0 y que tienen la misma varianza, t? Este ultimo supuesto se
denomina homocedasticidad a varianza uniforme.
y Ell;lJ = ([2 para (i = t , .. . , /1)
4. Los terminos de error aleatorios, c" no eslim correlacionados
entre sf, por 10 que
para todo i = j
5. No es posible hallar un conjunlo de numeros que no sean
iguales a cera, co' c1' , cK' tal que
Esta es la propiedad de la ausencia de relacion lineal entre las
Xl
Los cuatro primeros supuestos son esencialmente iguales que los
que postulamos en el caso de la regresi6n simple. Sin embargo, el
supuesto 5 excluye algunos casos en los que existen relaciones
lineales entre las variables de prediccion. Supongamos, pOl'
ejemplo, que lenemos interes en expl icar la variab il idad de las
tarifas que se cobran par cI envlo de mafz. Una variable expl
icativa evidenle serfa la distancia a la que se envfa el maiz. La
dis-tancia podrfa medirse en diferentes unidades como millas 0
kil6metros. Pero no tendrfa sentido uti lizar como variables de
predicci6n tanto la distancia en millas como la dislancia en
kilometros. Estas dos medidas son funciones lineales una de la olra
y no satisfarfan el supuesto 5. Ademas, serfa una tonterfa tratar
de evaillar sus efectos independientes. Como veremos, las
ecuaciones para calcular las eslimaciones de los coeficientes y los
program as informaticos no funcionan si no se satisface el supuesto
5. En la mayorla de los casos, la especificaci6n adecuada del
modelo evi tara que se viole ese supuesto.
Metodo de mfnimos cuadrados EI metoda de mfnimos cuadrados para
la regresi6n multiple calcula los coeficientes esti-mados para min
i mizar la suma de los clladrados de los residuos. Recuerdese que
el resi-duo es
-
498 Estadfstica para administraci6n y economia
donde Yi es el valor observado de Ye Yi es el valor de Y
predicho a partir de la regres iun. En terminos formales ,
minimizamos SCE:
" seE ~ L e; ;=1
" ~ L (y; - y;)' ;=1
" = L (y; - (bo + b,x, ; + ... + bKxd)'
i"" I
Esta minimizaci6n eonsiste en hallar el plano que mejor
represente un eonjunto de pun-tas en el espacio, como hemos visto
en nuestro analisis de los graficos tridimensionales, Para rea
lizar el proeeso formal mente, utili zamos deri vadas pare ia les
para desarrollar un eonjunto de eeuacioncs normales simuitaneas que
se resuelve para obtener los estimado-res de los coeficien tes.
Para los que tcngan buenos conocimientos de matematicas, en el
apendice de l capitulo presentamos algunos de los detalles del
proceso, S in embargo, se pueden extracr importantes concJusioncs
dandose cucnta de que queremos enconlrar 1
-
, Savings and Loan
Capitulo 13. Regresi6n multiple 499
Los estimadores de los eoeficientes pueden resolverse utilizando
las fonnas s iguientes:
donde
I~\ I)' = correlaci6n muestral entre XI Y Y r.l:2.l' =
correlaci6n muestral en tre Xz e Y
I': = desviaci6n Llpica muestrru de X2 s; = desviaci6n tfpica
muestrru de Y
(13.4)
(13.5)
(13.6)
En las ecuaciones de los estimadores de los coeficientes , vemos
que la est imaci6n del cocficiente de la pendiente, bl, no s610
depcnde de la correlac i6n entre Y Y XI sino que tam bien la afec(a
la correlaci6n en tre X I Y Xl Y la correlaci6n entre Xl e Y. Si la
cOlTela-ci6n entre XI Y X2 es igual a 0, los estimadores de los
coefieientes, hi Y b2 senln iguales que los eSLimadores de los
eoeficienles que se obtendrfan en las regres iones simples
corres-pondiemes: debemos sei'iaJar que eslO raras veces ocurre en
el anal isis empresari al Y eeo-n6mico. Y a 1a inversa, si la
correlac i6n entre las variables independientes es igual a I, los
estimadores de los coeficientes seran indefinidos, pero eso se
debenl unicamente a que la cspeciFicaci6 n del modelo es incorrccta
Y violan'i el supuesto 5 de la regresi6n multiple. Si las variab
les independientcs estrin correlacionadas perfecLamcnte, ambas
experimentan va-riaciones relativas silTIllhiineas. Vemos que en
ese caso no es posib le saber que variable predice la variaci6n de
Y. En el ejemplo 13.3 vemos el efeclo de las correlaciones en tre
las variables independienles examinando el problema de las
asociaciones de ahorro y eredito inmobiliario, cuyos datos se
muesLran en la Tabla 13.1.
EJEMPLO 13.3. Margenes de beneficios de las asociaciones de
ahorro y credito in mobilia rio (estimacion de los coeficientes de
regresion)
EI presidente de la confederacion de asoc iaciones de ahorro y
credito inmobi liario Ie ha pedido que ident ifiqllc las variables
que afeclan al margen porcentual de beneficios.
Soluci6n En primer Jugar, desarrollamos una especificaci6n del
modelo de regresi6n multiple que predice los beneficios como una
fllnci6n lineal del porcentaje de ingresos netos por d6-lar
depositado y el numero de ofi cinas. Util izando los datos de la
Tabla 13. 1 que se en-cuentran en el fichero de datos Savings and
Loan, hemos eSlimado un modele de re-gres i6n multiple, que se
observa en las Salidas Minitab y Excel de la Figura 13.3.
Los coeficientes esti mados se identifican en la salida de los
programas informaticos. Vemos que cada aumento unitario de los
ingresos, Xl' provoca un all menlo de los bene-Fi cios porcentuaJes
de 0,237 -si la olm variable no varfa- y un aumento unitario
del
-
500 Eslad istica para administraci6n y economia
, ,
Regression Analysis: Y profit versus X1 revenue, X2 offices
The regression e quati on is Y profit = 1 . 56 ~ 0 . 23 7 Xl
revenue - 0 . 000 24 9 X2 offices
Coeficientes __ -;:~..-_ _ -;:;;--;:=;-_ _ --:- ---:- de
regresion
Predictor / boo b,. b,
Coe SE Coef T p Con stan t 1 . 564 50 0.079 4 0 19 . 70 Xl r e v
e nue 0.23720 0 . 05556 4 . 27 x 2 of f ices 0 . 00024908 0 .
00003205 - 7 . 77
S = 0 . 0533022 R- Sq = 86 . 5% R-Sq (ad j) = 85 . 3% Ana lys i
s of Va ria n ce
Source OF Re g r e ssion 2 Residua l Err o r 22 Total 24
.,
; , , R
~ ;
G",,",
, .
;;;;-" ... ,,, .. "
SS MS F 0 . 40151 0 . 2007 6 70 . 66 0 . 0 6250 0 . 00 2 8 4 0
.4 64 02
s~
~ . . .. CoeflClentes de regreslOn
boo b,. b,
0 . 000 0 . 000 0 . 000
P 0 . 000
F v.,,;;-::"'" ~ . .
,,, ,
Figura 13.3. Ecuaci6n de regresi6n de los beneficios de las
asociaciones de ahorro y credito inmobiliario: (a) salida Minitab;
(b) salida Excel.
numero de ofic inas reduce los beneficios en 0,000249.
Consideremos ahora los dos mo-de los de regresi6n simple de las
Figuras 13.4 y 13.5, en los que hacemos una regresi6n de Y con
respeclo a cada variable independienle por separado. Consideremos
primero la regresi6n de Y con respecto a los ingresos. Xl ' de la
Figura 13.4. En eSla regresi6n sim-ple, el coeficienle de Xl es
-0,169, que es ciaramenle diferente de + 0.237 de la regre-sian mu
l! iple. M,ls abajo, vemos que la correlaci6n entre X I Y X2 es
0,941. Esta gran correlac i6n produce un gran efecto en el coefi
ciente de Xl en la ecuaci6n de regres i6n multiple.
Consideremos a conlinuaci6n In regresi6n de Y con respecto a X2
solamenle de la Figura 13.5. En esla regres ian simple, el
coeficiente de la pendiente del numero de ofi ~
-
Regression Analysis: V profit versus Xl revenue
The regression equation is Y profit = 1.33 - 0.169 xl
revenue
Predictor Coef Const-ant 1.3262 Xl revenue ~ ... 5 . 0 . 100891
R-Sq = 49 . 5%
Analysis of variance Source Regression Residual Error Total
DF 1
23 24
S5 0.22990 0.23412 0 . 46402
SE Coef 0.1386
0.03559
R-Sq (adj)
M5 0.22990 0 . 01018
Capitulo 13. Regresi6n multiple 501
T p 9.51 0 . 000
- 4.15 0.000 Coeficiente
" 41.4% de regresion b 1
F P 22 . 59 0 . 000
Figura 13.4. Regresi6n de los beneficios de las asociaCiones de
ahorro y cr~dito inmobiliario con respecto a los ingresos.
Regression Analysis: Y profit versus X2 revenue
The regression equation is Y profit = 1.55 - 0 . 000120 x2
offices
Predictor Coef SE Coef T P Constant 1 .54 60 0.1048 14 . 15
0.000 x2 offices ~. 000120Il> ~0 . 00001434 -8 . 39 0 . 000
Coeficiente 5 0 . 0104911 R-Sq '" 75 . 4% R-Sq(adj) . 14.3% de
regresion ~ Analysis of variance Source DF 55 M5 F P Reg r ession 1
0.34913 0 .34913 10 . 38 0. 000 Residual Error 23 0 . 11429 0.00491
Total 24 0 .4 6402
Figura 13.5. Regresi6n de los oeneficios de las asociaciones de
ahorro y cr~dito inmobiliario con respecto a! numero de
oficinas.
cinas, X2, es - 0 ,1XXl120, mientras que en 1a regres i6n
multiple es - 0,000249. Este cambio de los coefic icntes, aunque no
es Ian grande como en el caso del coeficiente de X I_ tambie n se
debe a la eslrecha correlaci6n entre las variables
independientes.
Las correlaciones entre las Ires variables son
Xl lngresos X2 Oficinas
Y Beneficios
- 0,704 - 0,868
Xl lngresos
0 ,94 1
Vcmos que la corrclaci6n entre XI Y X2 cs 0,941. Por 10 tanio ,
las dos variables tiendcn a variaI' a la vcz y no es sorprendente
que los coeficienles de la regresi6n multiple sean difercnles de
los coeficientes de la regresi6n simple. Debemos senalar que los
coeficientes de la regresi6 n multiple son coejiciel1tes
cOlldiciol/ados; es dec ir, el coeficienLc est imado
-
502 Esladislica para adminislracion y economia
I~I),)I )
8000
7000
0.'
0 .
0.4
,
hi depende de las demas variables incJuidas en e l modelo. Eso
sicmpre es aSI en la regre. si6n multiple, a menos que dos
variables indcpcndientes tengan una correlaci6n 1lluestral de ccm,
algo que es l11uy improbable.
Estas rc laciones tam bien puedcn eSludiarse uli li zando un
IlgrMico malricial de Mini . tab, como e l que muestra la Figura
13.6. No existen grafi cos de este tipo en Excel. Obser. vese que
la relaci6n simple entre Y y X2 es claramente lineal. mientras que
la relacion sim-ple entre Y Y XI es algo curvilfnea. Esta relac ion
no lineal entre XI e Yexplica en parte por que e l coeficienle de
Xl de la regresi6n simple es ran distinto del de la regrcsion
multiple. Vemos en este ejemplo que las correlaciones entre
variables independientes pueden inOuir considerablcmenle en los
coeficientes estimados. Por 10 taniO, si es posible clegir, deben
cvitarse las variables independicntes muy correlac ionadas. Pero en
mochos casos no es po-sib le clcgi r. Las estimaciones de los coefi
cientes de regres ion sicmpre dependen de las de-mas vari ables de
predicci6n del modelo. En este ejemplo, los beneficios aumentan en
fun-ci6n de los ingresos porcentuales por dolar depositado. Sin
embargo, e l uumento simultaneo del numero de oficinas -que redujo
los beneficios- ocultarfa el aumento de los beneficios si se
utilizara un analisis de regres i6n simple. Por 10 lanlo, es muy
importan-le especificm correctamente el modelo, es decir, la
elecci6n de las variables de predicci6n. Para especificar cl modelo
es necesario comprender el contexto del problema Y la teoria.
Matrix Plot of X1 revenue, X2 offices, V profit Xl' .... v ....
nue
Instrucciones de Minitab .' 1. Pulsar Graph
2. Seleccionar Matrix plot 3. Seleccionar Simple
4. Seleccionar Matrix options
X2 offices 5. Seleccionar lower Left
.. ~
'. .' I'
". ,
'.
Y profit
, 4 , 7000 8000 9COO
Figura 13.6. Graficos matricia!es de las variables de las
asociaciones de ahorro y crMito inmobiliario.
EJERCICIOS
Ejercicios basicos a) rx ,y = 0,60; rxlY = 0,70; rX T , = 0,50;
sx, = 200; SXI = 100: Sy = 400
13.10. Calcule los coeficicntes b l Y b2 del modelo de
rcgrcsi6n
dados los siguientes eSladfsticos sinteticos:
b) Tx ,}, = - 0,60: TX1:1 = 0,70; ,-x .... , = - 0,50; S = 200 s
= 100' S = 400 x, ' .~, ' y
c) Tx,y = 0,40; ':'1:1 = 0,450; ':.,x, = 0,80; S = 200' s =
100's =400 x, ' x, ' y
d) ':'oY = 0,60; rx,y = - 0,50; ,-x .... , = - 0,60; .~ =
20C},.' = 100' S = 400 x, ' .
-
:jercicios aplicados 13.11. Considere las ccullciones de
regrcsi6n lineal es-
limadas Y = no + alX I
y = bo+ blXI + "zX2
a) Mucstre dctaJladamente los estimadores de los coeficientes de
a l Y hi cuando la cOiTela-ci6n entre X I Y X 2 es igual a O.
b) Muestre detalladnmcnte los estimadores de los coefic ientes
de (Jj Y bl cuundo la correia-ci6n entre X I Y Xz es igual n I.
Se recomienda que los siguientes ejercicios se resue lvan con lu
ay uda de un computador.
13.12. f 1 Amalgamated Power Inc. Ie ha pedido que eSlime una
ecuaci6n de rcgresi6n para averiguar c6mo afeclan algunas variables
de predicci6n ,I 101 demanda de ventas de electricidad. Realiza una
serie de estimaciones de regrcsi6n Y anali za sus resultados uti
lizando los dalos trimestrales de las ventas de electricidad de los
17 dltimos afios que se encuen tran en el fichero de datos I)ower
Demand. a) Estime una ccuHci6n de regresi6n utilizando
las ventas de elcctricidad como variable de-pendicnte y el
ndmero de clientes y cl precio como variables de predieei6n.
Interprete los eocfieientes.
b) Estimc una eeuaei6n de regresi6n (venlas de electricidad)
utili zando solumente cl numero de clientes como variable de
predicci6n. Interprete el cacficiente y compare e1 resul-tado con
cl del apartado (a).
e) Estime una ecuaci6n de regrcsi6n (ventas de electricidad) uti
lizando el precio Y los gm-dos-dfas como variables de predicci6n.
Interprcte los coeficiel1(es. Compare cl coc-ficien le del precio
con el que ha obten ido en cJ apartado (a).
d) Est"ime una ecuaci6n de regresi6n (ventas de electricidad)
utili zando Ia renta y [os grados-dfas como variables de
predicci6n. Intcrprele los coeficienles.
13.13. , f Transportation Research Inc. Ie ha pcdido que fonnule
algunas ecuaeiones de regresi6n multiple para estimar cl efeclo de
algunas varia-bles en el ahorro de combustible. Los dalos pa-ra
este estudio se Cllcuenlran en el fichcro de datos Motors y In
variable dependiente son las millas por gal6n -milpgal- can forme a
la certi ficaci6n del Departamento de Transparte.
Capflulo 13. Regresi6n multiple 503
a) Formulc una ecuaci6n de regresi6n que utili-ce la patencia de
los vehiculos - horsepo-wer- y el peso de los veh fculos -
weight-como variables indepcndientes. Intcrprctc los
cocficientes.
b) Formule una segunda ecuaci6n de regresi6n que anada cl numero
de cilindros --cylin-der- como variable indcpendiente " la ccuaci6n
del npartado (a). Interprete los cae-ficientcs.
c) Formule una ecunci6n de regresi6n que ulili-ce el nllmero de
cilindros y el peso del ve-hfculo como variables independienles.
Inter-prete los coeficientes y compare los resulta-dos con los de
los apanados (a) y (b).
d) Formule una ecuacion de regresi6n que ulili-ee la palencia de
los vehCculos, el peso de los vehlcu los y el precio como variables
de predicci6n. Interprete los coeficientes.
e) Escriba un breve infonne que resuma sus re-sultados.
13.14. ' . Transportat ion Rcsearch Inc. Ie ha pedido que fo
rmule a!gunas ecuaciones de regresi6n multiple para estimar el
efecto de algullas varia-bles en la palencia de los vchCcu los. Los
datos para este estudio se enCllcnlran en el fichero de datos
Motors y la variab le depcndiente es la potencia -horsepower-
conforme a la certifi -caci6n del Depanamento de Transporte.
a) Formu!e una eCllaci6n de regresi6n que uti li-ce el peso de
los vehCcu los - weight- y las pu lgadas ciibicas de desplazamiento
de los cilindros --displacement- como variables de prcdicci6n.
Inlcrprete los coeficientcs.
b) Formule una ecuacion de regresi6n que lltili-ce el peso de
los vehfcu los, el desplazamicn-to de los cilindros y el niimero de
cilindros --
-
Capitulo 13. Regresi6n multiple 505
Restando In media muestral de la variable dependiente de ambos
micmbros, tenemos que
que puede expresarse de Ja siguiemc manera:
De~v iaci 6 n observada con respecto a Ja media muestral
desviaci6n predicha con respecto a la media muestraJ + res
iduo
A continuaci6n, elevando
-
506 Estadistica para administraci6n y economfa
Suma de los cuadrados de los errores:
" " SCE = I (y, - y,)' = I ei (13.10) Suma de los cuadrados de
la regresi6n :
" SCR = I tY, - Yl' (13.11) i-I
Esla descomposicion puede interpretarse de la forma
siguiente:
Variabilidad muestral total = variabilidad explicada +
variabilidad no explicada
EI caeficiante de determinaciOn, R2, de la regresi6n ajustada es
la proporcion de la variabilidad muestral total explicada par la
regresf6n
, SCR SCE R-= - = --
STC STC (13.12)
y se deduce que
La suma de los cuadrados de los errores tambien se utili za para
calcular la eSlimaci6n de la varianza de los enores del model a
poblacional, como muestra la ecuaci6n 13.1 3. AI igual que ocurre
en 11.1 regres ion simple, la varianza de los errores poblacionales
se utiliza para la inferencia estadfstica de la regresi6n multip
le.
Estimacion de la varianza de los errores Dado el modelo de
regresi6n poblacional multiple
y, = /io + /i ,x" + /i,,,-, + ... + PKXK1 + e, Y los supuestos
habituales de la regresi6n, sea q2 18 varianza comun del fermi no
de error, I!r Entonces, una estimaci6n insesgada de esa varianza
es
" L e; s' = -,',,--,-' __ = _,-SC,-E-,--_ " II - K- I/ - K -
(13.13)
donde K es el numera de variables independientes en el modelo de
regresi6n . La raiz cuadra-da de la varianza, s", tambien se llama
error tiplco de la estimacion.
Uegados a este punta, tambien podemos calcular el cuadrado medio
de la regresi6n de la forma siguientc:
SCR CMR=-
K
Ulilizamos el CMR como medida de la variabi lidad explicada
ajustada para tener en cuenta e l numcro de variables
independicnles.
-
Capitulo 13. Regresi6n multiple 507
La media muestral de la variable dependicnte de los beneficios
de las asociaciones de ahorro y eredito inmobiliario es y = 0,674,
y hemos uti lizado cstc valor para calcular las dos ultimas
eolumnas de la Tabla 13.2. Utilizando los datos de esta labIa y los
componen~ tes, podemos demostrar que
SCE ~ 0,0625 STC ~ 0,4640 R' ~ 0,87
En estos resultados, vemos que en esta muestra cl 87 por eicnto
de la variabilidad de los beneficios de las asociaciones de ahorro
y credito inmobilia rio es expl icado por las relacio-nes lineales
con los ingresos netos y el numero de oficinas. Observese que
tambien podrfa-mos calcular la suma de los cuadrados de la regres
ion a parlir de la identidad
SCR ~ STC - SCE ~ 0,4640 - 0,0625 ~ 0,40 15
Tambicn podemos calcular una estimac i6n de la varianza de los
errores a2 utilizando la ecuaci6n 13. 13:
" I ei ? ; ... \
s- = f! II-K-
SCE 0,0625 25 - 2 - 1 ~ 0,0284 II-K-
La Figura 13.7 presenta la salidu Mini tub y Excel del aml li
sis de regresi6n correspondiente al prob lema de las asoc iaciones
de ahorro y credito inmobi liario e indica las distintas su-mas de
los cuadrados calculadas. Los paquetes estadisticos calcu lan
habitualmcntc cstas cantidades; incluimos los deLalles de la Tabla
13.2 Cmicamente para indicar c6mo sc ca1cu-Ian las sumas de los
cuadrados. A partir de ahora, suponemos que las sumas de los
cuadra-dos se ealculan mediante un paquete estadistico.
Los componcntes de la variabilidad tienen sus correspondientes
grados de li bertad. La cantidad STC tiene 1/ - 1 grados de
libel1ad porque se neeesita la media de Y para eaJcu-larla. EI
eomponente SCR tiene K grados de li bcnad pOlque los coefieientes K
se neces itan para ealcularla. Por ultimo, el componente SCE tiene
1/. - K - 1 grados de li bertad porque se neeesitan los K
coeficientes y la media para eaJcularJ a. Observese que en 1a
Figura 13.7 se incluyen los grados de libertad (DF)
eOlTespondienLes a cada componente.
Utilizamos cI coefic ien te de determinaei6n, R2, habitual mente
como es tadistico des-criptivo para describi r la fuerza de la
relaci6n lineal entre las variab les independientes X y la variable
dependienle, Y. Es importante haecr hincapic en que R2 s610 puede
utilizarse para comparar modelos de regres i6n que tienen el mismo
conj un to de observacioncs mucs-trales de Yi, siendo i = 1, ... ,
Il. Este res ullado se observa en la forma de la ecuaci6n
SCE 1 - -STC
Vemos, pues, que el va lor de R2 pllede scr alto bien porq lle
SCE es pequefia - 10 que indi -ca que los pun tos observados estan
eerea de los pun tos prediehos- , bicn porque STC es grande. Hemos
visto que SCE y s; indican la eereanfa de los puntos observados a
los pun-tos prcd iehos. Cuando dos 0 lTlaS eCllaciones de regresi6n
tienen la misma STC, R2 es una medidu comparable de la bondad del
aj uste de las ecuaciones.
La ulili zaci6n de R2 como medida global de la calidad de una
ecuaci6n ajustada puede plantear un problema. Cuando se afiaden
vari ab les independientcs a un modelo de regre-
-
508 Estadistica para adminiSlracion y economia
Regression Analvsis: V profit versus Xl revenue, X2 offices
The ~e9~ession equation is Y profit 1 . 56 + 0 . 237 Xl revenue
- 0 . 000249 x2 offices
e-------- - - --- - Coeficientes bo, b" '" -Predictor Coe SE
Coef T P
Constant 1 . 56 450 0 . 07940 19 . 70 0 . 000 Xl revenue 0 .
23720 0 . 05556 4 . 27 0.000 x2 offices 0 . 00024908 0 . 00003205 -
7 . 77 0 . 000 Error tlpico 7~~~;~~~::==========~~~=~ de la
estimacion 5e ....... Coeficiente E 0 . 0 53~6 = 86y ""' R- SQ(
adjj = 85 . 3% dedelerminaci6nRz Ana ly s i s o f Variance
Sou rce Regres s ion Resid ual Erro r Tota l 24
Source Xl revenus X2 offices
i i
Coeficientes boo b" '"
DF 1 1
Figura 13.1.
Seq SS 0 . 22990 0 . 17161
______ CMR ;: SCRjK
MS~ P ~ 70 66 0 000 Varianza de ~_ 5~
Error tipico
SCR . O,401S1 SCE = 0,06250 STC "" 0,46402
Numero de variables independientes (Xl = K
la estimaci6n 5"
SCR= 0, 40 151 SCE .. 0,06250 S TC = 0,46402
Coeficiente
Numero de I
ind ependientes (X) '" K
CMR : SCR K
Salida Minilab (a) y salida Exce l (b) del analisis de regresl6n
correspondiente al problema de las asociaciones de ahorro y credilo
inmobiliario.
-
Capitulo 13. Regresi6n multiple 509
si6n multiple -en casi lodas las siluacioncs ap licadas- , la
suma explicada de los cuad ru-dos, seR, aumenta aunque la variable
indepenclicnle adicional no sea una variable de pre-dicci6n
importante. Por 10 tanto, podrfamos enconlrarnos con que R'! ha
aumentado espu-riamentc dcspues de que se ha anad ido una 0 mas
variables de predicc i6n poco importantes al modelo de regresi6n
multiple. En esc caso, el aumentQ del vnlor de J?'! se rfa
enganoso. Para ev itar cste problema, el coeficienle de dete rminac
i6n aj ustado puede calcularse como mueSlra la ecuac i6n 13.14.
Coeficiente de determinacion ajustado EI coeficiente de
determinacion ajustado, R2, se define de la forma siguiente:
SCE/(n - K - I ) STC/(n - I ) (13.14)
Utilizamos esta medida para tener en cuenta el hecho de que las
variables independientes irre-levantes provocan una pequefla
reducci6n de la suma de los cuadrados de los errores. Por 10 tanto,
el R2 ajustado permite comparar mejor los modelos de regresi6n
multiple que tienen dife-rentes numeros de variables
independientes.
Volviendo a nuestro ejemplo de las asociac iones de ahorro y
cn!dito inmobiliario, ve-mos que
1/ = 25 SCE ~ 0,0625 STC ~ 0,4640
y, por 10 tanto, el coe fic iente ajustado de determinacion
es
iP-= 0.0625 /22 1 - 0,4640/24 ~ 0,853
En cste ejemplo, la diferencia entre R2 y iF no es muy grande.
Sin embargo, si e l modelo de regresi6n hubiera cOlltenido algunas
vari ables independientes que no fueran importantes predictores
condicionados, la diferencia serra grande. Olra medida de la relac
ion en la rc-gresi6n multi ple es e l coeficiente de correlac i6 n
multiple.
Coeficiente de correlacion multiple EI coeficiente de
correlaci6n multiple es la correlaci6n entre el valor predicho y el
valor ob-servado de la variable dependiente
- In'i R ~ f(Y,y) ~ y R- (13.15)
y es igual a la ra fz cuadrada del coeliciente multiple de
determinaci6n. Utilizamos R como olra medida de la fuerza de la
relaei6n entre la variable dependiente y las variables
independientes. Par 10 tanto, as comparable a la correlaci6n entre
Y y X en la regresi6n simple.
-
510 Estadfstica para administraci6n y economia
EJERCICIOS
Ejercicios basicos 13.15. Un am'il isis de regresi6n ha
producido la si-
guiente labia del amllisis de la varianza:
13.16.
Analysis of Variance
Sou r ce Of' 5S MS Regres~ion 3 4500 Res i dual Error 26 500
a) Calcule SI: Y s;. b) Calcule STC. c) Calcllie R2 Y eI
coeficiente ajustado de de-
terminacion.
Un analisis de regresi6n ha prodllcido guiente tabla del
an5lisis de la varianza: Analysis of vari anc e
Sour ce Re g ression Resid ua l Error
u) Calcule s~ y s;. b) Calcule STC.
OF 2
29
5S MS 7000 2500
la s\-
c) Ca1cu le R2 y cI cocficiente ajustado de de-terminacion.
13.17. Un an5lisis de regresi6n ha prodllCido la si -guicntc
tabla del amilisis de la varianza: Analys i s o[ Vari ance Source
Re gress i on Res i dual Err or
a) Calcu1c s" y s;. b) Ca1cule src.
OF ,
45
SS 40000 10000
MS
c) CaJcule R2 y cI coericiente ajuslado de de-tcrminaci6n.
13.18. Un an5lisis de rcgresi6n ha producido la si-guiente tabla
del alllliisis de la varianza: Analys i s of varianc e
Source Regres sion Re sidua l Er ror
a) Ca1cule se y s;. b) Ca1cu le STC.
OF 5
200
SS MS 80000 15000
c) Calcule R2 y cI coeficiente ajustado de de-tenninaci6n.
Ejercicios aplicados 13.19. En el estudio del ejercicio 13.6, en
el que las
est imaciones por mfn imos cuadrados se basaban en 27 conjuntos
de observaciones mueslrales, la
suma total de los cuadrados y la suma de lo~ cuadrados de la
regresi6n Crall
STC ~ 3.881 y SCR ~ 3,549
a) Halle e imcrprc(c el coeficiente de determi_ nacion.
b) Halle la slima de los clladrados de los erro-res.
c) Halle el coeficiente ajustado de dClermina_ ci6n .
d) Halle e intcrprctc cl coefieiente de corrcla_ ci6n mu.lti
ple.
13.20. En el estudio del eJerclcio 13.8, en el que las
estimaciones pOl' mfnimos cuadrados se basaball en 30 eonjllntos de
observaciones mucslrales. !a suma lotal de los clladrados y la
sllma de los cuadrados de la regresi6n eran
13.21.
STC ~ 162.1 y SCR ~ 88.2 a) Hall e e interprete el coeficiente
de delermi -
naci6n. b) Halle el cocficiente de determinaci6n ajustado. c)
Halle e inlerprete el coeficiente de correla-
ci6n mu ltiple.
En eI estudio del ejercicio 13.9, se utilizaron 25 observaciones
para calcular las estimaciones pOl' mfnimos cuadrados. La suma de
los cuadra-dos de la regresion y la suma de los cuadrados de los
errores eran
SCR ~ 79.2 y SCE ~ 45,9 a) Halle e interprele el coeficiente de
determi-
nacion. b) Halle el cocficientc de detel1llinaci6n ajustado. c)
Halle e interprete el coeficiente de correla-
cion mu.ltiple.
13.22. Vuelva a los datos de las asociaciones de ahorro y
credito inmobiliario de la Tabla 13. 1. a) Estime por mfnimos
cuadrados la regrcsion
del margen de beneficios con respecto al nu-mera de ofici
nas.
b) Estime por mfnimos cuadrados la regresi6n de los ingresos
nelOS con respecto al numel'O de oficinas.
c) Estime por mlnimos cuadrados la regresi6n del margen de
beneficios con respecto a los ingresos nelos.
d) Estime por mfn imos cuadrados la regresion del numero de ofic
inas con respeclo a los in-gresos nelos.
-
Capitulo 13. Regresi6n multiple 511
13.4. Intervalos de confianza y contrastes de hipotesis de
coeficientes de regresion individuales
En el apartado 13.2 hcmos dcsarrollado y anali zado los est
imadorcs puntuales de los para.~ metros del modelo de regresi6n
multiple
A continuaeion, desarrollamos intervalos de confianza y
contrastes de hipotes is de los eoe-ficie ntes de regresi6n est
imados. Estos interva los de confian za y contrastes de hipotesis
de-pendell de la . varianza de los coefieientes y de la di
stribucion de probabilidad de los coefi-cielltes . En el apartado
12.5 mostramos que el coeficiente de regres ion simple es una
funcion lineaL de la variable dependiente, Y. Los coeficicntes de
regresi6n multiple, bj , tam bien son funciones lineales de la
variable depcndiente, Y, pero el algebra es algo mas compleja y no
se presentara aqul. En la ecuac i6n de reg res ion mCiltipie
anterior, vemos que la variable dependiente, Y, es una funci6n
lineal de las variables X mas el error aleatorio /;:. Para un
conjunlo dado de variables X, la funcion
es en realidad una constante. Tambiell vimos en los Capftulos 5
y 6 que sumando una eon stante a una variable aleatoria
-
512 Estadislica para adminislraci6n y economia
demos c6mo se calculan las varianzas, no podl"cmos comprendcr
perfectamenle los con-Irastes de hip6tes is y los intervalos de con
rianza.
La varianza de una est imaci6n de un coeri cienle dcpende del
lamano de la mues!ra. de la dispcrsi6n de las variables X, de las
correlaciones en tre las vari ables independientcs y del termino de
error del modelo. Por 10 tanto, estas correlaciones afectan tanto a
los intcr-val os de confianza como a los contrastes de hi p6tesis.
Antes hemos visto que las cOITcla_ ciones entre las vari ables
indepcndien tes influyen en los estimadores de los coeficiemes.
Eslas correJaciones entre variables independienles tambien aumentan
la vari anza de los es-timadores de los coeficienles. Una imporlame
conclusi6n es que la varianza de los estima-dores de los
coeficientes, ademas de los estimadores de los coeficientes.
depende de todo el conjunlo de variables independientes del modelo
de regresi6n.
El aml li sis anterior de los gn'ifi cos tridimens ionales hacia
hincapie en los complejos efeclos que producen varias variab les en
la varianza de los coeficienles. A medida que Son estrechas las
relaciones entre las vari ables indcpendicntes, las cstimaciones de
los coefi-cientes son mas inestnbles, es decir, tienen una vuri
anza mayor. A continuac ion, presenta-mos un amilisis mas formal de
estas complcjidades. Para oblcner buenas estimaciones de los
coeficientes --eslimaciones que tengan una baja varianza- debemos
buscar un umplio rango para las variables indepcndienles, elegir
vari"bJes independ ientes que no esten eSlrc-cham~nte rclacionadas
entre sf y buscar un modele que este cerca de lodos los puntos de
datos. En la pn'ictica, cuando se rea li zan estud ios estadfslicos
aplicados en cI mundo de la empresa y la economfa. a menudo hay que
utilizar datos que di stan de ser idcales. como los de l ejemplo de
Jas asociaciones de ahorro y eredilo inmobiliario. Pero conociendo
los efectos aqu f analizudos. podcmos con tal" con elementos para
detcnninar en que medida son aplicables nuestros modelos.
Para comprender algo el efeclo de las correlaciones de variables
independientes, e)(
-
Capitulo 13. Aegresion multiple 51 3
numero de. variables indcpendienles en un modelo, las
influeneias en la varianza de los eoefieientcs eontinuan siendo
importantes, pero la estruet ura algebraiea se vuelve muy eomplcja
y no se presenta aqul. EI efeeto de las corre laciones haee que los
esti madorcs de las varianzas de los coeficientes dependan de las
demas variables inclepenciienles del mo-de lo. Recuerdese que los
estimadores efectivos de los coeficientes lambien dependen de las
demas variables inclependientes del modelo, una vez mas debido al
efecto de las correla-ciones entre las variables
independientes.
A continuaei6n, resumimos la base para la inrerencia de los
coeficientes de la regresion poblaciona1. Normal mentc, nos
interesan mas los coeficientes de regresi6n f3j que la cons-tante u
ordenada en cI origen f3o. Por 10 tanto, centraremos la atencion en
los primcros, sc-iialando que la inferencia sobre la segunda se
reali za de una mancra parccida.
Base para la inferencia de los parametros de la regresion
poblacional Sea el modelo de regresi6n poblacional
Sean bo' b1, .. , bK las estimaciones par minimos cuadrados de
los parametros poblacionales y s/:()' so,' .. . , Sb las
desviaciones tfpicas estimadas de los estimadores por minimos
cuadrados. Entonces, si te cumplen los supuestos habituales de la
regresi6n y si los terminos de error, 1:1, siguen una distribucion
normal,
(13.18)
se distribuye como una distribuci6n t de Student con (n - K ~ 1)
grados de libertad.
Intervalos de confianza Pueden obtenerse intervalos de confianza
de los Pj utilizando la ecuaci6n 13. 19.
Intervalos de confianza de los coeficientes de regresion Si los
errores de la regresi6n poblacional, ;1' siguen una distribucion
normal y se cumplen los supuestos habituales de la reg resion , los
intervalos de confianza bilaterales al 100(1 - (1:)% de los
coeficientes de regresi6n, Pi' son
donde t,, _K_ 1.12 es el numero para el que
" P(t,, -K- I > t,, - K -1.a/2) = 2"
(13.19)
y la variable aleatoria t,, _K_l sigue una distribuci6n t de
Student con (n - K - 1) grados de li-bertad.
-
514 Estadistica para administraci6n y economia
EJEMPLO 13.4. Desarrollo del modelo de las asociaciones de
ahorro y credito inmobiliario (estimaclon de intervalos de
confianza)
Se nos ha pedido que culculemos intcrva los de confianza de los
cocficientes del mOdelo de regres i6n de las asociaciones de ahorro
y credilO inmobi liario presenlado en e1 ejem. plo 13.3.
Soluci6n
La Figura 13.8 nluestra la sal ida Minitab del am'ilisis de
regres i6n correspondiente al modelo de regresi6n de las
asociaciones de ahOJTO y credito inmobi liario. Los est imado.
Regression Analvsis: V profit versus X1 revenue, X2 offices
The regression equation is Y profit = 1.56 + 0 . 237 Xl revenu e
- 0 . 000249 X2
Predictor Constant Xl revenue X2 offices
1. Coef
S " 0.0533022 R-Sq 86.5' R- .) " Analysis of vari ance Sou r ce
DF SS MS Regression 2 0 .4 0151 0 . 20076 Residual Error 22 0 .
06250 0 . 00284 Total 24 0 . 46402
Source OF Seq SS Xl r evenue 1 0 . 22990 X2 o f fices 1 0 .
17161
(,)
."
(b)
F 70 . 66
offices b, 'b, tb,
. 000
.000
tb,
0 . 000
Figura 13.8. Regresi6n de problema de las asociaciones de ahorro
y credito inmobiliario (salidas Minitab y Excel).
-
Capitulo 13. Regresi6n multiple 515
res de los coefic ientes y sus desviaciones tfpicas
cOITespondientes a las variables de pre-diccion de los ingresos,
hi' y el numero de oficinas, b2 son
b, ~ 0,2372 s'" ~ 0,05556; b, ~ - 0,000249 Sb, ~ 0,00003205
Vemos, pues, que la desviac i6n tfpica de la di slribuci6n en el
muestreo del estimador por minimos cuadrados de [11 se estima en
0,05556 y la de [J2 se eslima en 0,00003205.
Para obtener intervalos de confianza a1 99 por ciento de [1 I Y
[12' utilizamos el valor t de Student de la Tabla 8 del
apendice.
'II - K - J. r.r:!2 = (22.0.005 = 2,8 19
Basandonos en estos resultados, observamos que e1 intervalo de
confianza al 99 por ciento de [J I es
0,237 - (2,8 19)(0,05556) < p, < 0,237 + (2,819)(0,05556)
o sea,
0,080 < p, < 0,394 Por 10 tanto, el intervalo de
cOllfianza al 99 par ciento del aumento esperado del margen de
beneficios de las asociaciones de ahorro y cn':dito inmobiliario
provocado pOl' un aumento de los ingresos nelos de I unidad, dado
un numero rljo de otic inas , va de 0,080 a 0,394. El intervalo de
confiunza al 99 por cienlO de [12 es
- 0,000249 - (2 ,8 19)(0,0000320) < {3, - 0,000249 +
(2,819)(0,0000320) o sea
- 0,000339 < fl, < - 0,000 159 Vemos, pues, que el
intervalo de confianza al 99 por ciellto de la disminuci6n espcrada
del margen de beneficios provocada par un aumenlo de 1.000
oricinas, dado un ni vel fijo de ingresos netas, va de 0,159 a
0,339.
Contrastes de hip6tesis Pueden desarrollarsc contrastes de
hipolesis de los coeficientes de regrcsi6n utili zando las
estimaciones de las varianzas de los coefic ientes. Especialmcntc
intcrcsante es e l contraste de hipotcsis
que se utili za frecuentemente para averiguar si una variable
independiente especffica es importante en un modelo de regresi6n
mUltiple.
Contrastes de hip6tesis de los coeficientes de regresi6n Si 105
errores de la regresi6n, [;i' siguen una distribuci6n normal y se
cumplen los supuestos habituales del analisis de regresi6n, los
siguientes contrastes de hip6tesis tienen el nivel de significaci6n
IX:
1. Para contrastar cualquiera de las dos hip6tesis nulas
-
516 Estadfstica para administraci6n y economia
"'" INTlRPRHACION
frente a la hip6tesis alternativa
la regia de decisi6n es
Rechazar Ho si (13.20)
2. Para contrastar cualquiera de las dos hip6tesis nutas
Ho: Pj = P* 0 frente a la hip6tesis alternativa
H ,: Pj < P* la regia de decision es
Rechazar Ho si (13.21 )
3. Para contrastar la hipotesis nula
flo: lij = /i* frente a la hip6tesis alternativa bilateral
H, :Pj # fI* la regia de decision es
Rechazar Ho si o (13.22)
Muchos analistas sostiencn que si no podemos rechazar la
hip6tesis condicionada de que cI coeficiente es 0, debemos concluir
que la variable no debe incluirse en el modelo de regresi6n. EI
estadfstico f de Student de esle contraste normal mente se ca lcula
en la mayo-rfa de los programas de regresi6n y se indica al lado de
la eSlimaci6n de la varianza de los coeficientes: ademas,
normahnenle se induye el p-valor del contrasle de hip6tcs is. Estos
se muestran en la salida Minirab de la Figura 13.8(a). Utili zando
el estadfstico t de Student indicado 0 e l p-valor, podemos saber
inmediatamcnte si una variable de predicci6n es sig-nificativa,
dadas las dcmas variables del modelo de regresi6n.
Exislen ciaramenle olros mclodos para decidir si una variable
independiente debe in-c1uirse en un modele de regresi6n. Vemos que
el metodo de selecci6n anlerior no liene en cuenta e l error de
Tipo II: el coeficiente poblacionai no es igual a 0, pero no
rechazamos la hip6tesis nu la de que es igual a 0. ESle es un
problema importanle cuando un modelo basa-do en la leoria eeon6mica
0 en otra teoria y cspccificado con cuidado incluye eierlas va
ria-bles independienles. En esc caso, debido a un gran error, c,
y/o a las correlaciones en tre variables independientes, no podemos
rechazar la hi p6lcsis de que el coeficiente es O. En este caso,
muchos analistas incluiran la variable independicnte en el modelo
porque creen que debe primar la especificaci6n original del modelo
basada en la leoria 0 la experiencia
-
Capitulo 13. Regresi6n multiple 517
econ6m icas. Se trata de una cuesti6n diffcil que exige haecr
una buena valoracion basan-dose tanto en los resultados
cstadisticos como en la tcoria economica sobre la relacion
sub-yacente analizada.
EJEMPLO 13,5, Desarrollo del modele de las asociaciones de
ahorro y cn3dito inmobiliario (contrastes de hipotesis de
coeficientesj
Se nos ha pedido que averiguemos si los coeficielltes del modele
de regres i6n de las asociaciones de ahorro y eredito inmobi liario
son predictores significat ivos de los bene-ficios .
Solucion
En el contraste de hipotesis para esta cuesti6n uti lizaremos
los resul tados de la regrc-si6n real izada con el programa Minitab
moslrados en la Figura 13.8(a). En plimer lugar, queremos
averigllar si los ingresos (Olales aumentan significativamente los
beneficios dado el efecto del numero de oficinas, es decir,
descontando la infillencia de este. La hipotesis nula es
frente a la hip6tesis alternativa
H,:[J, >0
EI contraste puede reaJizarse ca lculando el estadfstico 1 de
Student del coeficiente, dado Ho:
0,237 - 0 --'cc,..,-,-"..,- = 4 27 0,05556 '
En la Tabla 8 de la t de Student del apendice podemos ver que el
valor crftieo del esta-dfstico t de Student es
t 220.OO5 = 2,819
La Figura 13.8(a) tam bien indica que el p-valor del contraste
de hip6tesis es inferior a 0,005. Basandonos en esta evidencia,
rechazamos Ho Y aceptamos HI y conclui mos que los ingresos totales
son un predictor estadfsticamente significativo del aumento de los
beneficios de las asoc iac iones de ahorro y credito inmobiliario,
dado que hemos ten ido en cuenta el efecto del numero de
oficinas.
Tambien podemos averiguar si cl numero total de oficinas reduce
significativamente los margenes de beneficios. La hip6tes is nula
es
Ho: Ii, = 0 frente a la hip6tesis alternativa
H, : Ii, < 0
-
518 Estadistica para adminislraci6n y economia
EI contruste puede reali zarse calculando e l estadfst ico t de
Student del coefici cnte, dudo Ho:
- 0,000249 - = - 7,77
0,0000320
En la Tabla 8 del apendice podemos ver que el valor crftico del
estadfstico 1 de Student es
122.0.005 = 2,8 19
La Figura 13.8(a) lambien indica que el p-valor del contraste de
hip6resis es in fe rior a 0,005. Basandol1os en esto evidencia,
rechazamos Ho Y uccptumos HI y concluimos que el numero de ofic
inas es un predictor estadfst ieamente significativo de la
reducci6n de los beneficios de las asociaciones de ahorro y ered
ilo inmobil iario, dado que hemos te-nido en CLienta el efeelo de
los ingresos tolales.
Es importanle hacer hineapie en que los dos contrates de hip6tes
is se basan en el conjunlo de vari ables incluidas en el mode lo de
regresi6n. Por ejemplo, si se incluyeran mas variab les de
predicci6n, estos conlrastes ya no serfan v~lidos. Con mas
variables en el modelo, las esti maciones de los coeficientes y sus
desviaciones tfpicas estimadas se-rfan diferenles y, pOI' 10 lanto,
tambien 10 serfa el estadfsl ico t de Student.
Observcse que en la sa lida Minilab del amllisis de regresi6n
mostrada en la Figura 13.8(a). el eSLadfstico t de Student de la
hip6tesis nula -Ho: fJj = 0- es eI cotiente en-tre el coeficiente
eSlimado y e1 error tfpico de l coeficiel1le estimado. que se
encuentra en las dos col umnas siLuadas a la izquierda de l
estHdistico r de Student. Tambien se muestra la probabi lidad 0
p-valor de l contrasle de hip6tesis de dos colas: H/ Pj -::j::. 0.
Por 10 tunto. cualquier analista puede realizar estos contrastes de
hip6tesis directamente exa-minando la salida del aml li sis de
regresion multiple. El estadistico t de Student y el p-valor se ca
lculan en todos los paquetes eSLadfsticos modernos. La mayorfa de
los anal is-tas buscan estos resultados habitualmente cliando
examinan la salida del anal isis de re-gresi6n de un progrHma
estadfstico.
EJEMPLO 13,6. faclores que afeclan al Ii po del impueslo sobre
bienes inmuebles (amilisis de los coeficienles de regresi6n)
Un ayunta miento encarg6 un estudio para averiguar los ractores
que influyen en los im-puestos urbanos sobre los bicnes inmuebles
de las ciudades de 100.000-200.000 habi -tHntes.
Solucion Uti lizando una muestra de 20 ciudades de Estados
Unidos, se est im6 el siguiente mode-10 de regresi6n:
y = 1,79 + Q,000567x, + 0,0 1 83x2 - 0,OOO 191x, (0.000 139)
(0.0082) (0.000446)
R2= 0,7 1 11 = 20 donde
y = lipo efecti vo del impuesto de bienes inmuebles (impuestos
efectivos di vid idos pOl' el valor de mercado de la base
imposiriva)
XI = numero de viviendas por kil6metro cuadrado
-
Capitulo 13. Aegresi6n multiple 519
X 2 = porccntajc de los ingresos lTIunicipales lotales
represcnlado por las ayudas pro-cedentcs de las administraciones de
los estados y de In adrninistraci6n federal
x) = renta personal per capita mediana en d61ares Los numeros
entre purentesis que se encuentran debajo de los coeficienles son
los erro-res lfpicos de los coeficientes eslimados.
La presenlacion anterior constituye un buen fonnato para mostrar
los resultados de un modelo de regresi6n. Los resultados indican
que las estimaciones condicionadas de los efeclOs de las tres vmi
ables de predicci6n son las siguientes:
1. Un 3l1mento de una vivienda pOl' kilometro cuadrado eleva el
tipo erectivo del impueslo sobre bienes inmuebles en 0,000567.
Observese que los tipos del im-puesto sobre bienes inmuebles
l10rmalmente se expl'esan en d61ares pOl' cada 1.000 $ de valor
catastral de la propiedad. Asf, un aumento de 0,000567 indica que
los tipos del impuesto sobre bienes inmuebles son 0,567 $ mas altos
por 1.000 $ de valor catastral de la propiedad.
2. Un aumento de los ingresos municipales totales de un 1 par
dento procedenle de las ayudas de las administraciolles de los
estados y de la administraci6n fe-deral eleva el tipo impositivo
erectivo en 0,0 183.
3. Un aumenlO de la renta personal per capita mediana de 1 $
provoca una dismi-!luci6n esperada del tipo impositivo efectivo de
0,000191.
Hacemos de nuevo hincapie en que estas estimaciones de los
coeficientes 5610 son vali-das en un modelo que incluya las tres
variables de predicci6n an leriores.
Para comprender mejor la eXDclilud de eSlOs efectos,
constnliremos intervalos de confianza al 95 por dento
condicionados. En el modelo de regres i6n estimado, el error tiene
(20 - 3 - I) = 16 grados de libertad. Por 10 tanto, el estadistico
I de Student para calcular los intervalos de con l'i anza es, como
se observa en el apendice, t I6. 0 .02.'i = 2,12. EI fonnato del
interva lo de confianza es
bj - tn - K - !'~b) < fij < bj + f/l -K-I.rs.r-sbJ Por 10
tanto, el coeficiente del numero de viviendas por kil6metro
cuadrado tiene un intervalo de confianza al 95 por ciento de
0,000567 - (2,12)(0,000139) < p, < 0,000567 + (2,
12)(0,000139) 0,000272 < II, < 0,000862
EI coefi cienle del porcelltaje de ingresos representados pOI'
las ayudas tiene un intervalo de confianza al 95 por cienlo de
0,0 183 - (2,12)(0,0082) < II, < 0,0183 + (2, 12)(0,0082)
0,0009 < #, < 0,0357
Par ultimo, el coefi ciente de la renla personal per capita
mediana {iene un interval a de confianza al 95 par dento de
- 0,000 19 1 - (2, 12)(0,000446) < Ii, < - 0,00019 1 + (2,
12)(0,000446) - 0,0011 37 < p, < 0,000755
Una vez m6s hacernos hincapie en que estos intervalos dependen
de que se incluyan las tres variables de predicci6n en el
modelo.
-
520 Esladislica para administraci6n y economfa
Citydat
Vemos que el illlervalo de confi anza 31 95 por cienlo de fi3
incluye 0 y, por 10 tanto, podriamos no rechazar la hip61esis de
dos colas de que este coeficiente es O. Bas{mdo_ nos en eSle
intervalo de confianza. conc1 uimos que X) no es una variable de
predicci6n estadisticamente signiricaliva en el modelo de regresi6n
mult iple. Sin embargo. los intervalos de confianza de las otras
dos variables no incluyen 0 y, por 10 tanto, conclui -mos que eslas
son estadfslicarnen te significat ivas.
EJEMPLO 13.7. Efeclos de los faclores fiscales en los precios de
la vivienda (estimaclon de los coefic ienles del modelo de
regresi6n)
Northern Ci ty (Minnesota) tenfa interes en saber c6mo afeclaba
la promoci6n inmobilia-ria local al precio de mercado de las
viviendas de la ci lldad. Northern City es una de las numerosas
ciudadcs no metropolitanas pequenas del Medio Oeste de Estados
Unidos cuya poblaci6n osc ila entre 6.000 y 40.000 habitantes. Uno
de los objeti vos era averi-guar c6mo influiria un aumento de la
canlidad de locales comerciales en e l valor de las viviendas
locales. Los dalos se encuenl ran en e l fichero de dalos
Citydat.
Solucion
Para responder a esta pregunta. se recogieron datos de algunas
ciudades y se utilizaron para construi r un modelo de regresi6n que
est ima el efecio de vari:lb les clave en e l pre cio de 13
vivienda. Para este estudio se obtuvieron las siguienles variables
de cada ciudnd:
Y (hseval) = precio medio de mercado de las viviendas de 13
ciudad XI (s izchse) = numero medio de habitaciones de las
vivielldas X2 (incom72) = rcnta media de los hogares Xl (tax rate)
= tipo imposilivo por mil d61ares de valor catastra l de las
viviendas X4 (comper) = porcenlaje de propiedades inmobiliarias
imponi bles que son comer-
ciales
La Figura 13.9 mllcslra los resultados de la regrcsi6n multi
ple, obtcnidos por medio de l programa Mini tab. EI coeficiente del
numero medio de habitaciones de las viviendas es 7,878 y 1a
desviaci6n Ifp ica del coeficiente es 1,809. En esle estudio, los
valores de las viviendas se expresan en unidades de 1.000 $ Y la
media de todas las ciudadcs es de 2 1.000 $. As!, por ejempio, si e
l numero medio de habitaciones de las viv iendas de una c iuclad es
mayor en 1,0, el precio medio es mayor en 7.878 $. EI estadfs lico
I de Student resu ltante es 4,35 y el p-valor es 0,000. Par 10 Ian
to, se rechaza la hip61es is condiciona-da de que este cocficiente
es igllal a 0. Se obliene eI misl110 resultado en e l caSD de las
variables de la renla y del tipo impos il ivo. Ln variable incom72
esta expresada en unidades de d61ares y, POI' 10 tanIO, si In renla
media de una ciudad es mayor en 1.000 $, el coeficiente de 0,003666
indica que el prec io medio de la vivienda es 3.666 $ mayor. Si e l
tipo imposilivo aumcnta un I por ciento, el precio medio de la
vivienda se reduce en 1.720 $. Vemos que el an ~li sis de regres
i6n Beva a la conclusion de que cada lI na de estas tres variables
es un importante predictor del precio medio de la vivienda de las
ciudades inclu idas en eSle estudio. Sin embargo, vemos que el
coeficienle del porcenLa-je de locales comerciales , comper, es -
10,6 14 y la desviaci6n (ipica del coefi ciente es 6,491, 10 que da
un estadfstico t de Student igual a - 1,64. Observese que esle
resul -lado permitc establecer una importante concl ll si6n. EI
cocficiente tendria un p-valor de
-
Capitulo 13. Regresi6n multiple 521
Regression Analysis: hseval versus sizehse, income72, taxrate,
Comper
The regression equation is hseval = -28 1 + 7.88 sizehse +
0.000367 incom72 - 172 taxrate -10.6 Comper
Predictor Coef SE Coef T p Constant -28.075 9.766 -2.87 0.005
Sizehse 7.878 1.809 4.35 0 . 000 incom72 0.003666 0.001344 2 . 73 0
. 008 taxrate -171.80 43.09 -3 . 99 0.000 Comper -10.614 6 .4 91 -1
. 64 0.106
S . 3 . 67686 R-Sq " 47.4% R-SQ(adj) ~ 45.0% Analysis of
variance
Source Regression Residual Error Total
OF 5S 4 1037.49
85 1149 . 14 89 2186 . 63
M5 F P 259.37 19.19 0.000
13 . 52
Figura 13.9. Modelo de regresi6n del precio de la vivienda
(salida Minitab).
una cola de 0,053 0 un p-valor de dos colas de 0,106. Por 10
tanto, parece que reduce algo el precio medio de las viviendas.
Dado que se han incluido los efectos del tamano de las viv iendas,
la renta y el tipo impositivQ en el precio de mercado de las
viviendas, vemos que el porcentaje de locales comerciales no eleva
los predos de la vivienda. POI' 10 tanto. este analis is no apoya
el argumento de que el valor de mercado de las vivien-das aumentanl
si se construyen mas locales comerciales. Esa conclusi6n s610 es
ciel1a en un modelo que incluya estas cuatro variables de
predicci6n. Observese tambien que los valores de R 2 = 47,4 por
ciento y Sr (error tfpico de In regresi6n) = 3,677 estan in-c1uidos
en la salida del anulis is de regresi6n.
Los defensores de Ull aumento de In promoci6n de locales
comerciales tambien 505-tenlan que cI aumento de la canlidad de
locales comerciales reducirfa los impuestos pa-gados por lus
viviendas ocupadas POI' sus propietarios. Esta tesis se contrast6
utilizando los resultados de la regresi6n de la Figura 13.10
obtenidos con el program a Excel. Se indican los estimadores de los
coeficientes y sus errores tfpicos. Los estadfst icos 1 de Student
de los coelicientes del tamano de la vivienda y el tipo impositivo
son 2,65 y 6,36, 10 cual indica que estas variables son importantes
predictores. EI estadfsti co r de Student de la rcnta es 1,83 con
un pvalor de 0,07 para un contraste de dos colas. POl' 10 tanto, la
renla tiene alguna influencia como predictor, perc su efecto no es
tan fuerte como el de las dos vari ables anteriores. Vemos de nuevo
que hay margen para extraer conclusiones s6l idas. La hip6tesis
condicionada de que un aumento de los locales co merciales reduce
los impuestos sobre las viv iendas ocupadas por sus propietarios
puede contrastarse utili zando el estadfsti co t de Student de la
vari ~lble com per en los resulta-dos de la regresi6n. E1
estadfstico I de Student es - 1,03 con un p-valor de 0,308. POl' 10
tanto, la hip6tesis de que un aumento de los locales comerciales no
reduce los impues-tos sobre la vivienda no puede rechazarse. No
existen pmebas en eSle ana li sis de que los impuestos sobre las
viviendas disminuirian si se conslruyeran mas locales
comerciales.
Basandose en los ana l isis de regres i6n real izados en este
estudio, los consultores lIe-garotl a la conclusi6n de que no
existfan pruebas de que un allmento de los locales co-merciales
elevaria el valor de mercado de las viviendas 0 reducirfa los
impuestos sabre bienes inl1lllebles de las viviendas.
-
522 Estadistica para administraci6n y economia
--- - -----
~ Mkr-osoft Excel CITYDAT l[) EOe ~dit I[JIe'N loser! F~mat
10015 Q.~ t~ :tiindo'N t!elo
D~!iI d :. ~ ~ ora. " . ~I @J (1) ~ "'" ~1 ... SUMMARY OUTPUT .
10 .OI U I
Coeficiente multiple de determinaci6n R2
Coeficientes bo, b1, ~, ~, b.
SCR SCE STC
Estadisticos t Errores tipicos de Student de los coefic
ientes
Figura 13.10. Modelo de regresi6n de los impuestos sabre las
viviendas (salida Excel).
EJERCICIOS
Ejercicios basicos 13.23. Los resu ltados del and Usis de un
modelo de rc-
gresi6n son los siguientes:
y = 1,50 + 4,8x1 + 6,9x2 - 7,2x) (2, 1) (3.1) (2,8)
R2 = 0,71 II = 24 Los numeros entre parentesis situados debajo
de las cstimaciones de los coeficientes son los errores tfpicos
muestrales de las estimaciones de los coeficientes. u) CaJcu lc
intervalos de confianza al 95 par
ciento bilaterales de los tres coeficientes de In pendiente de
regrcsi6n.
b) Contrastc pam cada uno de los coeficientes de la pcndientc
las hip61esis
Ho : Pj = 0 frente a 13.24. Los resultados del am'il isis de un
modelo de rc-
gresi6n son los s iguicntes:
;; = 2.50 + 6,8x 1 + 6,9x2 - 7,2x) (3.1) (3.7) (3.2)
R2 = 0.85 II = 34
Los numeros entre parentesis s iluados debajo de las
estimaciones de los coeficientes son los crrores tfpicos muestrales
de las estim:lciones de los eoeficientcs.
-
a) Calcule imcrvalos de confianza al 95 por denlo bilaterales de
los Ires coefieientes de la pendienle de regresi6n.
b) Conlrasle para cada uno de los coeficienles de la pendiente
las hip6tesis
frente a H I : Ili > 13.25. Los resultados del anal isis de
lin modelo de re-
gresi6n son los siguientes:
y = - 101 ,50 + 34,8x, + 56,9x2 - 57,b:3 (12.1) (23.7)
(32.S)
R2 = 0,71 II = 65
Los numeros entre parentesis situados debajo de las estimaciones
de los coeficientes son los en-ores I{picos mueslrales de las
estimaciones de los coeficientes. a) Calculc intcrvalos dc
confianza al 95 por
ciento bilaterales de los Ires cocficientes de la pendiente de
regresi6n.
b) Contraste para eada uno de los coefieientes de la pendiente
las hip6tesi s
frentc a H j : fJj > 0 13.26. Los resultados del amilisis de
un modelo de re-
gresi6n son los siguientes:
y = - 9,50 + 17,8x j + 26,9x2 - 9,21:3 (7.1 ) (13 .7) n.8)
/I = 39
Los numeros entre parentesis situados debajo de las estimaciones
de los coeficientes son los errores tfpicos muestrales de las
estimaciones de los coefidcntes. a) Calcule intervalos de eonfianza
al 95 por
cicnto bilatcralcs de los tres coeficientes de la pendiente de
rcgresi6n.
b) Contraste para cada uno de los coeficientes de la pendiente
las hip6tesis
flo:{Jj = 0 frente a HJ :/1) > 0
Ejercicios aplicados 13.27. En cI estudio del ejercicio 13.6,
los errorcs tfpi-
cos estimados eran
S;" = 0,099 S;" = 0,032
a) Hall e intervalos de eonfianza al 90 y el 95 por demo de fJ
I'
b) Halle intervalos de confianza al 95 y el 99 par eiemo de
#2'
Capitulo 13. Regresi6n multiple 523
c) Contraste la hip6tesis nub de que, man le-niendose todo 10
demas constanle, el peso del avi6n no liene una intluencia lineal
en su esfuerw de diseiio frente a la h ip6tesis alter nativa
bilateral.
d) La suma de los cuadrados de los en-ores de cSla rcgresi6n era
0.332. Utilizando los mis-mos datos, se aj usl6 una regresi6n
lincal simple del esfuerzo de diseno can respecto al nlimero
poreemual de piezas cornunes, 10 que dio una suma de los cuadrados
de los errores de 3.311. Contraste al nivel del I par ciento la
hip6tesis mila de que la velocidad maxima y el peso, considerados
conjunta mente, no contribuyen nada en un senti do li -neal a la
explicaci6n del esfuerz.o de diseno, dado quc cl numero porcentual
de pi czas co-mimes tambicn se util iza como variable
ex-plieativa.
l3.28. En cI estudio del ejercicio 13.8, en cl que la re-gresi6n
mueslral se basaba en 30 observaciones, los errores tfpicos eSli
mados eran
S", = 0,023 a) Comraste la hip6lesis nul a de que, dado el
tamano de la familia, el consumo de leche no depende lineal
mente de la rema frenle a la hip6tesis a.lternativa unilateral
adecuada.
b) Halle intervalos de eonfianza del 90, el 95 y el 99 por
ciento de f32'
13.29. En el estudio de los ejercicios 13.9 y 13.21, en los que
la regresi6n muestral se basaba en 25 observaciones, los errores
t[picos estimados eran
Sb, = 0,189 Sb, = 0,565
a) Contraste la hip6tesis nula de que, mante-niendose 1010 10
dem.is conslanle, las horas de ejercicio no illtluyen lineal mente
en el flumento de peso frente a la hip6tesis aller-nativa
unilateral adecuada.
b) Conlrasle la hip6tesis nula de que, rnante-niendose todo 10
demas eonstante, el eonsu rna de cerveza no in nuye lineal mente en
el aumento de peso frente a la hip61esis alter nativa unilateral
adecuada.
c) Halle intervalos dc confianza del 90, el 95 y el 99 por
ciento de fJI'
13.30. Vuelva a los datos del ejemplo 13.6. a) Contraste la
hip6tesis nula de que, mante-
niendose todo 10 dernas constante, la ren ta
-
524 Estadislica para adminislraci6n y economia
personal per capita mediana no InOuye en el ripo efcclivo del
impuesto sobre bienes in-muebJes frente a una hipotesis alternativa
bi-lateral.
h) Conlraste la hip61esis nula de que las tres variables
independicntes, consideradas con-juntamente, no influyen
linealmenle en d ti-po erectivo del Impuesto sobre bienes
111-muebles.
13.31. , ~ Vue!va a los datos del ejemplo 13.7 que se eneuentran
en el fichero de datos Citydat.
a) Halle inrervalos de confianza al 95 y al 99 por cienlo de la
variaci6n esperada del prc-cia de mercado de las viviendas
provocada par un aumcnlo del numero medio de habi-taeiones de I
unidad cuando no varIan los valores de todas las demas variables
inde-pendientes.
b) Contraste [a hip6tesis nula de que, mante-niendose todo 10
demas constanle, 141 renla media de [as hogares no influye en el
precio de mereado frente a la hip6tesis ahernativa de que cuanto
mayor es la renta media de [os hogares, milS alto es el precio de
mercado.
13.32. En Ull estudio de los ingresos gencrados pOl' las
loterfas naciona[es, se ajust6 la siguiente ecua-ci6n de regrcsi6n
de 29 parses que tienen lorc-rfas:
y= - 31 ,323 + O,04045xI + 0,8772r2 - 365,Olx3 - 9,929Kr4
(0.00755) (0.3t07) (263.88) (3.4520)
R2 = 0,51
donde y = d61ares de ingresos anua[es netos per capi-
ta generados por la [olerfa XI = renta personal media per C
-
13.35. En un estud io de las tenenc ias extranjeras en bancos
bril{micos., se o btu vo la siguientc rcgrc~ si6n muestra l, basada
en 14 obscrvaciones an ualcs
y =
Capitulo 13. Regresi6n multiple 525
Iral , basada en datos de 39 eiudades de Mnry-land:
- 0.00232 - 0,00024xl - Q,00002x2 + 0,00034x, (0,00010) (0,0000
18) (0,00012)-y = - 3,248 + 0, 10 l xI - O,244x2 + 0,057x3 R2 =
0,93 + 0,48 122x4 + 0,04950x5 - 0,000 1Q."(6 + 0,00645x7 (0.77954)
(0,0 11 72) (0.00005) (0.00306) (0,0023) (0,080) (0.00925)
donde y = proporci6n de acti vQS a final del ano en fi-
liales de bancos bri tani cos en manos de eXlranjcros en po
rcentaj c de los activos 10-tales
X I = variaci6n anual , en miles de milloncs de libras, de la
invers i6n cxtranjcra directa en Gran Bretafia (excluidos finanzas,
seguros y bienes inmuebles)
Xl = relaci6n precio-benefi cios de los bancos x 3 = fndice del
valor de cambia de In libra Los ml mcros entre parentesis s ituados
debajo de los coeficientes son los erfores tfpicas de los
coeficientes cstimados . a) Halle el intervalo de conllanza al 90
por
ciento de /31 e interprele su resultado. b) Contraste la
hipotesis nula de que fh cs 0
frente a la hip6tesis alternati va de que es ne-gati vo e
interprete su resultado.
c) Contraste la hip6tesis nula de que /33 es frente a la
hip6tcsis alternativa de que es po-sil ivo e interprete s u
resultado.
13.36. En un estudio de las diferencias enlre los ni ve-les de
demanda de bomberos par parte de las ciudades, se obtuvo la
siguienle rcgrcsi6n mues-
ii' ~ 0.3572 donde y = nLI1TIero de bomberos a tie mpo
eompleto
per c{ipila X I = salario base maximo de los bamberos en
miles de dol ares X 2 = porcentaje de pablaci6n xJ = renta per
capita estimada cn miles de d61ares X4 = densidad de poblaci6n X5 =
can lidad de ayudas intergubernamencales
per capita en miles de d61ares X6 = numero de kil6melros de di
slancia hasta la
capital de la region x7 = parcentaje de la poblaci6n que son
varones
y lienen entre 12 y 2 1 aila:> Los n(imcros entre parenlesis
siluados debajo de los caeficientes son los errores tfpicos de los
coeficienles estimados. a) Hallc c intcrprcte el inlervalo de
confianza
al 99 por ciento de /3:; . b) Contrasle la hip61esis nul a de
que IJ4 es
frente a la hip6rcsis ahcrnativa bilateral e interprete su
resultado.
c) ContraSle In hip6tesis nuln de que #7 es frente a la
hipotesis allernali va bilateral e illierprele su resul