FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 1 INTRODUCCIÓN Como la Estadística Inferencial nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en relación de la otra variable llamándose Regresión Lineal y una variable en relación a otras variables llamándose Regresión múltiple. Casi constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
1
INTRODUCCIÓN
Como la Estadística Inferencial nos permite trabajar con una variable a nivel de
intervalo o razón, así también se puede comprender la relación de dos o más
variables y nos permitirá relacionar mediante ecuaciones, una variable en relación
de la otra variable llamándose Regresión Lineal y una variable en relación a otras
variables llamándose Regresión múltiple.
Casi constantemente en la práctica de la investigación estadística, se encuentran
variables que de alguna manera están relacionados entre si, por lo que es posible
que una de las variables puedan relacionarse matemáticamente en función de otra
u otras variables.
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
2
ANÁLISIS DE PROGRESIÓN MÚLTIPLE
OBJETIVOS
Describir la relación entre dos o más variables independientes y una
variable dependiente utilizando la ecuación de regresión múltiple.
Calcular e interpretar el error estándar múltiple de estimación y el
coeficiente de determinación.
PROCEDIMIENTO
o Seleccionar una muestra a partir de una población.
o Listar pares de datos para cada observación.
o Dibujar un diagrama de puntos para dar una imagen visual de la relación.
o Determinar la ecuación de regresión.
CONCEPTOS BÁSICOS
Análisis de Regresión
Es un procedimiento estadístico que estudia la relación funcional entre
variables. Con el objeto de predecir una en función de la(s) otra(s).
Regresión Múltiple
Intervienen dos o más variables independientes.
Variable Dependiente
(Respuesta, predicha, endógena) es la variable que se desea predecir o
estimar.
Variable Independiente
(Predictoras, explicativas, exógenas), son las variables que proveen las
bases para estimar.
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
3
ANÁLISIS DE REGRESIÓN MÚLTIPLE
El análisis de regresión múltiple es el estudio de la forma en que una variable
dependiente, 𝒚, se relaciona con dos o más variables independientes. En el caso
general emplearemos k para representar la cantidad de variables independientes.
Los conceptos de un modelo de regresión y una ecuación de regresión que
presentamos en el tema anterior se pueden aplicar al caso de la regresión múltiple.
La ecuación que describe la forma en que la variable dependiente, 𝒚 se relaciona
con las variables independientes 𝑥1, 𝑥2, … 𝑥𝑘 y un término de error se llama modelo
de regresión. El modelo de regresión múltiple tiene la forma siguiente:
Ejemplos:
VARIABLE DEPENDIENTE (Y) VARIABLES INDEPENDIENTES
(X1,X2,......)
Volumen de ventas, en unidades Precio unitario
Gasto de Propaganda
Peso de los estudiantes Estatura
Edad
Consumo de bienes industriales por
año
Ingreso disponible
Importación de bienes de consumo
Unidades consumidas de un bien por
familia
Precio unitario del bien
Ingreso
Número de integrantes por familia
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
4
Precio de una vivienda Nº de habitaciones
Nº de pisos
Área construida
Área techada , etc.
La técnica de regresión múltiple se usa frecuentemente en investigación, se aplica
al caso en que la variable respuesta es de tipo numérico. Cuando la respuesta es
de tipo dicotómico (muere/vive; enferma/no enferma), usamos otra técnica
denominada regresión logística.
ANÁLISIS DE REGRESIÓN MÚLTIPLE PARA 2 VARIABLES INDEPENDIENTES
Para dos variables independientes, la fórmula general de la ecuación de regresión
múltiple es:
2211' XbXbaY
X1 y X2 son las variables independientes.
a es la intercepción en Y.
b1 es el cambio neto en Y para cada cambio unitario en X1, manteniendo X2
constante. Se denomina coeficiente de regresión parcial, coeficiente de
regresión neta o bien coeficiente de regresión.
b2 es el cambio neto en Y para cada cambio unitario en X2, manteniendo X1
constante. Se denomina coeficiente de regresión parcial o bien coeficiente
de regresión.
El cálculo de estos valores es por demás laborioso a mano, por ejemplo para el caso
de las dos variables independientes, para poder resolver y obtener y en una
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
5
ecuación de regresión múltiple el cálculo se presenta muy tediosa porque se tiene
atender 3 ecuaciones que se generan por el método de mínimo de cuadrados:
ANÁLISIS DE REGRESIÓN MÚLTIPLE CON K VARIABLES INDEPENDIENTES
La ecuación general de regresión múltiple con k variables independientes es:
El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación.
Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo
que pueden utilizarse para estimarlos.
ERROR ESTÁNDAR MÚLTIPLE DE LA ESTIMACIÓN
El error estándar múltiple de la estimación es la medida de la eficiencia de la
ecuación de regresión.
Está medida en las mismas unidades que la variable dependiente, es difícil
determinar cuál es un valor grande y cuál es uno pequeño para el error estándar.
La fórmula es:
)1()1(
)'( 2
12
kn
SSE
kn
YYS kY
Y a b X b X b Xk k' ... 1 1 2 2
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
6
Donde:
Y es la observación.
Y’ es el valor estimado en la ecuación de regresión.
n es el número de observaciones y k es el número de variables
independientes.
ENFOQUE MATRICIAL PARA ENCONTRAR LOS PARAMETROS DE LA
ECUACION DE REGRESION
Al ajustar un modelo de regresión múltiple es mucho más conveniente expresar las
operaciones matemáticas en forma matricial. Supongamos que existen k variables
independientes y n observaciones (Xi1 ,Xi2 ,Xi3,….,Xik ,Yi ), i=1,2,3,4,…,n, y que el
modelo que relaciona las variables independientes y la variable dependiente es:
ikkiii xbxbxbby ...ˆ 22110
Este modelo es un sistema de n ecuaciones que puede expresarse en notación
matricial como:
Xy
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
7
o ENFOQUE MATRICIAL
Donde:
1
3
2
1
.
.
.
xnny
y
y
y
y
pnnkiii
k
k
k
x
xxxx
xxxx
xxxx
xxxx
X
.......1
........................
........................
........................
.......1
.......1
.......1
321
3333231
2232221
1131211
1
2
1
0
.
.
.
xpkb
b
b
b
Dónde: p = k+1, número de parámetros
COEFICIENTE DE DETERMINACIÓN MÚLTIPLE R2
Mide la tasa porcentual de los cambios de “y” que pueden ser explicados por: X1,
X2, X3,… simultáneamente.
Una vez estimado el modelo es conveniente obtener una medida acerca de la
bondad del ajuste realizado. Un estadístico que facilita esta medida es el coeficiente
de determinación (R2), que se define:
ANÁLISIS DE VARIANZA
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
8
Ecuación Básica para análisis de Varianza
PRUEBA GLOBAL
Ayuda a determinar si es posible que todas las Variables Independientes tengan
coeficientes de regresión neta iguales a 0. En otras palabras ¿podría la cantidad
de variación explicada R2, ocurrir al azar?
La prueba global se usa para investigar si todas las variables independientes
tienen coeficientes significativos. Las hipótesis son:
0...: 3210 kH
El estadístico de prueba es la distribución F con k (número de variables
independientes) y n - (k + 1) grados de libertad, donde n es el tamaño de la muestra.
El estadístico de prueba se calcula con:
F = [(SCR) /(k)] /[(SCE) /(n-k+1)].
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
9
TABLA ANOVA
La tabla ANOVA proporciona la variación de la variable dependiente (tanto de la que
está explicada por la ecuación de regresión como de la que no lo está).
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
10
EJERCICIOS DESARROLLADOS
1. El propietario de La cadena de cines CINE PLANET desea estimar el ingreso
semanal neto en función de los gastos de publicidad. Los datos históricos de
una muestra de 8 semanas son los siguientes:
Ingresos Brutos semanales
(en miles de dólares)
Anuncios en TV (en miles
de dólares)
Anuncios en periódicos (en
miles de dólares)
96 5.0 1.5
90 2.0 2.0
95 4.0 1.5
92 2.5 2.5
95 3.0 3.3
94 3.5 2.3
94 2.5 4.2
94 3.0 2.5
Planteando matricialmente los datos
1 5.0 1.5
1 2.0 2.0
1 4.0 1.5
1 2.5 2.5
1 3.0 3.3
1 3.5 2.3
1 2.5 4.2 1894
94
94
95
92
95
90
96
x
y
X
132
1
0
x
b
b
b
8x3
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
11
Determinando la ecuación de regresión
El modelo es:
22110ˆ xbxbby
Entonces primero resolvemos las matrices para encontrar los parámetros:
Finalmente la ecuación es:
21 3010.12902.22301.83ˆ XXy
yXXX 1)(
0,2491 0,1313 -1,0353
0,1313 0,2239 -1,0389
-1,0353 -1,0389 5,9989
2
1
0
3010.1
2902.2
2301.83
1856
2401
750
b
b
b
1)( XX yX
Coeficientesa
83.230 1.574 52.882 .000 79.184 87.276
2.290 .304 1.153 7.532 .001 1.509 3.072
1.301 .321 .621 4.057 .010 .477 2.125
(Constante)
Anuncios en TV (en
miles de dólares)
Anuncios en periódicos
(en miles de dólares)
Modelo1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizad
os
t Sig. Límite inferior
Límite
superior
Intervalo de confianza para
B al 95%
Variable dependiente: Ingresos Brutos semanales (en miles de dólares)a.
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
12
Interpretemos los parámetros estimados de las variables independientes:
Para b1: Cuando los gastos de anunciar en televisión varían una unidad y los
gastos de anunciar en periódicos se mantienen constantes, los ingresos
brutos semanales se incrementarán en 2.2902 miles de dólares.
Para b2: Cuando los gastos de anunciar en televisión se mantienen
constantes y los gastos de anunciar en periódicos varían una unidad, los
ingresos brutos semanales se incrementarán en 1.3010 miles de dólares.
Hallando el error estándar de estimación
Para lo cual usaremos la fórmula abreviada para dos variables independientes la
cual se deriva de la forma general presentada en las fórmulas a utilizar. La fórmula
es la siguiente:
3
22110
2
. 21
n
yXbyXbybyS XXy
64.021. XXyS
o Interpretación: La distancia promedio de los valores observados alrededor
de la ecuación de regresión es de 0.64. Es decir la dispersión de los valores
observados es 0.64.
Hallando el Coeficiente de Determinación
Resumen del modelo
.959a .919 .887 .64259
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Constante), Anuncios en periódicos
(en miles de dólares), Anuncios en TV (en miles de dólares)
a.
919.0
959.0
2
r
r
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
13
o Interpretación: Aproximadamente el 91.9% de los cambios producidos en
los ingresos brutos semanales son explicados por los cambios producidos en
los gastos de publicidad (en televisión y periódicos).
2. “Una desea estimar los gastos en alimentación de una familia (Y) en base a
la información que proporcionan las variables regresoras X1 =“ingresos
mensuales” y X2 =“número de miembros de la familia”. Para ello se recoge
una muestra aleatoria simple de 15 familias cuyos resultados son los de la
tabla adjunta (El gasto e ingreso está dado en cientos de miles de pesetas)”
GASTO INGRESO TAMAÑO
043 21 3
031 11 4
032 09 5
046 16 4
125 62 4
044 23 3
052 18 6
029 10 5
129 89 3
035 24 2
035 12 4
078 47 3
043 35 2
047 29 3
038 14 4
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
14
Solución
Con estos datos se obtiene:
𝑛 = 15, ∑ 𝑥1𝑖 = 42 ∑ 𝑥2𝑖
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
15
𝐺𝑎𝑠𝑡𝑜 = −0′160 + 0′. 𝐼𝑛𝑔𝑟𝑒𝑠𝑜 + 0′. 𝑇𝑎𝑚𝑎ñ𝑜 + 𝑒𝑟𝑟𝑜𝑟
A partir de esta ecuación se obtienen las predicciones y los residuos
asociados a las observaciones muestrales. Para la primera observación 𝑥1 =