UNIVERSIDAD NACIONAL ABIERTA CARRERA ADMINISTRACIÓN DE EMPRESAS CONTADURIA PÚBLICA (CÓD. 610) ANALISIS COMPARATIVO DE TRES (3) MODELOS DE REGRESIÓN MÚLTIPLE Preparado por YONIRA MARCANO C.I. No. XXXXXXXX Asignatura ESTADÍSTICA APLICADA (CÓD. 746) Enero, 2011
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
UNIVERSIDAD NACIONAL ABIERTA
CARRERA ADMINISTRACIÓN DE EMPRESAS
CONTADURIA PÚBLICA (CÓD. 610)
ANALISIS COMPARATIVO DE
TRES (3) MODELOS DE REGRESIÓN MÚLTIPLE
Preparado por YONIRA MARCANOC.I. No. XXXXXXXXAsignatura ESTADÍSTICA APLICADA (CÓD. 746)
Enero, 2011
RESUMEN
No existen estándares únicos, perfectamente reconocidos y universalmente aceptados en los
procesos de ventas. Lo que se tiene son muchísimos modelos o metodologías. Los Gerentes de
Mercadeo desarrollan estrategias que deben fundamentar la orientación que deseamos darle a un
producto o servicio con los objetivos de rentabilidad y de asignación eficiente de los recursos. En
éste proceso debemos evaluar cuidadosamente el impacto que puede tener para nuestra Empresas
sus fortalezas, debilidades, oportunidades, amenazas y ventajas competitivas. La toma de
conciencia por parte de los directivos y responsables de la venta respecto a que "cuanto mejor sea
y resulte la formación e idoneidad de cada uno de los representantes de venta, más cerca y segura
estará la empresa de su destino posible de éxito", representa el camino que corresponderá
transitarse. En la medida que más aciertos existan en cada una de las decisiones y acciones
operativas del negocio, tanto mayor será la probabilidad de una alta rentabilidad del negocio, en
donde no surjan por generación espontánea sino sólo por la implementación eficiente de tales
decisiones estratégicas y operativas. La Empresa busca esas ventajas competitivas mediante
programas de mercadeo bien integrados que coordinen el precio, el producto, la distribución y las
comunicaciones de nuestra oferta de bienes o servicios para satisfacer las necesidades de un
mercado meta. es por ello, que se desea conocer que factores afectan el volumen de ventas, para
ello se cuenta con 60 observaciones de mercadeo para cada territorio que le está asignado a cada
representante de ventas.
Con la construcción de tres modelos propuestos se busca:
Inferir sobre los parámetros poblacionales para cada uno de los modelos.
Realizar un análisis de residuos para cada uno de los modelos propuestos.
Determinar cuál de los modelos propuestos explica mejor la variable dependiente.
Para lo cual se consideraran las siguientes variables como objeto de estudio: X1: Total de ventas
acreditadas al vendedor. X2: Antigüedad del vendedor en la empresa, en meses. X3: Potencial de
mercado, ventas totales en unidades en el territorio de ventas. X4: Gastos de publicidad en el
territorio. X5: Participación en el mercado, promedio ponderado de los últimos cuatro años. X6:
Cambio de participación en el mercado en los últimos cuatro años. X7: Número de cuentas
asignadas a los vendedores. X8: Trabajo, índice ponderado basado en compras anuales y
concentración de cuentas. X9: Evaluación general del vendedor sobre ocho aspectos de su
desempeño, en una escala del 1 al 7. X10: Zona, división geográfica del país. X11: Territorio,
Estadísticas de la regresiónCoeficiente de correlaciónmúltiple 0,60215002Coeficiente dedeterminación R^2 0,36258465R^2 ajustado 0,29042442Error típico 1166,34525Observaciones 60
Ecuación de la RegresiónX1 = b2 X2 + b3 X3 + b 4 X 4 + b9 X9 + b10 X10 + b11X11
Y = 558,03+5,42+0,01+0,10+206,51+208,35-64,07
Observación Pronóstico X2 ResiduosResiduos
estándares1 3624,48719 45,3928123 0,04106275
2 4069,15071 -595,200709 -0,53842397
3 2170,26232 124,83768 0,1129293
4 3837,02623 838,533774 0,75854527
5 4290,4835 1835,4765 1,66038872
6 2958,45335 -823,513352 -0,74495766
7 5201,23574 -169,575742 -0,15339976
8 3727,25675 -359,806754 -0,32548446
9 4574,81163 1944,63837 1,75913754
10 3078,87959 1797,49041 1,62602616
11 2427,75497 40,5150289 0,03665026
12 2882,03929 -348,729288 -0,31546368
13 2153,46827 254,641732 0,23035123
14 2508,94853 -171,568533 -0,15520245
15 4383,05636 203,893637 0,18444404
16 3491,6239 -762,383898 -0,6896594
17 3584,2996 -294,899602 -0,26676886
18 3204,60185 -403,821852 -0,36530092
19 3024,39552 239,80448 0,21692931
20 3801,16543 -347,545427 -0,31439275
21 1808,56166 -67,1116595 -0,06070982
22 2428,56338 -392,813375 -0,35534255
23 1792,95557 -214,955571 -0,19445076
24 2777,61606 1389,82394 1,25724737
25 3195,82912 -395,859116 -0,35809775
26 1227,1871 832,542898 0,75312587
27 3877,06948 -450,609484 -0,40762544
28 3098,77516 -114,335161 -0,10342863
29 2888,8349 -871,234898 -0,78812701
30 3508,28647 450,243525 0,40729439
ObservaciónPronóstico
X2Residuos
Residuos estándares
31 3753,35423 -925,064233 -0,83682151
32 3729,01999 -2569,92999 -2,32478203
33 2099,03474 -358,98474 -0,32474086
34 4637,93499 1026,01501 0,9281425
35 2149,19851 -922,618511 -0,83460909
36 2004,03186 -665,961856 -0,60243515
37 4797,59538 1206,42462 1,09134268
38 3716,47097 -357,420971 -0,32332626
39 3254,78433 -491,694327 -0,44479116
40 3472,4875 413,932504 0,37444711
41 3608,44625 1469,11375 1,32897365
42 2981,07327 2253,21673 2,03828034
43 3054,20193 447,47807 0,40479273
44 3382,4765 -1126,8765 -1,01938273
45 3056,48328 655,80672 0,59324872
46 2069,08889 -1262,74889 -1,14229412
47 3373,9536 -2951,9736 -2,67038215
48 2451,56189 109,338113 0,09890825
49 3732,9759 -771,065904 -0,69751323
50 3347,37403 -481,404031 -0,43548246
51 2280,02227 240,447733 0,21751121
52 2534,21119 443,608813 0,40129257
53 1873,4005 4220,9195 3,81828215
54 2418,70585 -56,6958536 -0,05128758
55 2509,20049 -1415,33049 -1,28032083
56 4375,08306 -1004,48306 -0,90866451
57 3093,30645 -605,996454 -0,5481899
58 3111,43555 176,334448 0,15951374
59 3331,25843 -532,568434 -0,48176625
60 3844,57853 624,311473 0,56475783
Modelo 3:
Estadísticas de la regresiónCoeficiente de correlaciónmúltiple 0,5221449Coeficiente dedeterminación R^2 0,2726353R^2 ajustado 0,23366933Error típico 1212,09287Observaciones 60
Y = -345,99+ 4,82+0,01+0,08+21,79-12,64+4,09+32,61+214,49+165,90-51,88
Estos resultados muestran que si varia la Antigüedad del vendedor en la empresa en una unidad,
manteniéndose fijos los valores de las otras variables, la variable dependiente Total de Ventas
acreditadas al vendedor variará en 4,83; igual criterio se aplicaría a las demás variables.
El error típico o error estándar de estimación mide los grados de dispersión de los valores Yi
alrededor del plano de regresión, entre menos dispersión se presente, más pequeño será el Se
(error estándar), y más preciso será el modelo en su predicción y pronostico, los resultados
obtenidos para el Modelo 1 muestran un resultado de 1186,456914.
El coeficiente de determinación múltiple mide la fuerza de la relación entre Y y las variables
independientes, entre mayor sea R2 mayor poder explicativo tendrá el modelo, para el Modelo 1
este coeficiente según los resultados es de 0.62465428; la relación es de 62.47%.
El coeficiente de determinación ajustado o corregido procura contrarrestar la incorporación de
alguna variable absurda sin un poder realmente explicativo al modelo, es una corrección de
honestidad, R2 nos castigará si introducimos variables innecesarias en nuestro modelo, los
resultados de Modelo 1 en estudio nos muestran un coeficiente de determinación ajustado de
0,265742559.
Para el Modelo 1, el valor de F es de 3,13532885 y los grados de libertad son 10 y 49, probamos
nuestra hipótesis con un nivel de significancia del 5%, con la ayuda de la tabla G se determina
que F0.05,10,49 es 1,92. La regla de decisión es “no rechazar si F < 1.92; rechazar si F>1,92, debido
a que el valor de F = 3,13532885 > 1.92, la hipótesis se rechaza, existe por los menos con un α =
0,05 una relación lineal entre Y y por lo menos una de las variables independientes.
A un nivel de significancia del 5%, con grados de libertad g.l. = n-k-1 = 60-10-1 = 49, el valor
t0.05,49 es de 2.0116 (con la ayuda de la Tabla F, hallamos el valor para 40 y 60 g.l, e
interpolamos); la regla de decisión es “no rechazar si t ± 2.0116; de lo contrario rechazar”.
X2 como 2,28133215 > 2.0116 Se rechaza la hipótesis nulaX3 como 1,16538886 Está entre ± 2.0116 No se rechaza la hipótesis nulaX4 como 1,128312 Está entre ± 2.0116 No se rechaza la hipótesis nulaX5 como 0,32967741 Está entre ± 2.0116 No se rechaza la hipótesis nulaX6 como -0,06926577 Está entre ± 2.0116 No se rechaza la hipótesis nulaX7 como 1,097352 Está entre ± 2.0116 No se rechaza la hipótesis nulaX8 como 0,70628685 Está entre ± 2.0116 No se rechaza la hipótesis nulaX9 como 1,35009554 Está entre ± 2.0116 No se rechaza la hipótesis nulaX10 como 1,19893462 Está entre ± 2.0116 No se rechaza la hipótesis nulaX11 como -1,58693181 Está entre ± 2.0116 No se rechaza la hipótesis nula
Se extrae que con un nivel del 95% de confianza que la variable 2, contribuyen
significativamente a la explicación del modelo, debido a que este caso la hipótesis se rechaza; por
otra parte, podemos estar seguros en un 95% que las demás variables contribuyen
significativamente con la explicación del modelo, pues en estos casos la hipótesis no es
rechazada.
La gráfica para este modelo:
Modelo 2
Los coeficientes que acompañan a cada variable independiente en la Ecuación de Regresión
obtenida nos indican el grado de relación que éstas tienen con respecto a la variable dependiente,
para este primer modelo:
X1 = b2 X2 + b3 X3 + b 4 X 4 + b9 X9 + b10 X10 + b11X11
El resultado obtenido es:
Y = 558,03+5,42+0,01+0,10+206,51+208,35-64,07
El grado de relación que existe entre las variables, podemos decir que si aumentamos en una
unidad la variable Antigüedad del vendedor en la empresa (X2), dejando fijos el valor de las otras
variables independientes, la variable dependiente X1 variará 5.4255281; el mismo razonamiento
se puede aplicar a las otras variables independientes, de acuerdo a los resultados mostrados en la
Tabla.
Al evaluar el Modelo 2 propuesto, con la finalidad de determinar su grado de significancia y su
aporte explicativo. Cuando detallamos los resultados arrojados por el Modelo 1, definimos cada
una de las herramientas estadísticas de la cuales nos valemos para evaluar un modelo o ecuación
de regresión múltiple. Sería redundante volver a explicar lo mismo, motivo por el cual nos
limitaremos a describir cada uno de los resultados arrojados y sus correspondientes estimaciones
más importantes.
El error típico o error estándar de estimación muestra un resultado de 1166,34525, una leve
diferencia con el Modelo 1, mostrando éste ultimo una menor dispersión, esto no puede ser
concluyente pues esto tan solo muestra el grado de dispersión que tienen o presentan los datos.
El coeficiente de determinación múltiple es de 0,60215002; podemos inferir que las variables
independientes están relacionadas en un 60.02% con la variable Y, al ser el resultado positivo, la
relación es directa, los valores de la variable dependiente aumentarán o disminuirán de acuerdo a
los aumentos o disminuciones de las variables independientes.
El coeficiente de determinación corregido es de 0.29042442; lo cual indica que las variaciones de
la variable dependiente X1 pueden ser explicadas en un 29,04% por el comportamiento de las
variables independientes.
El Modelo 2, muestra un valor de F de 5.0271593 y grado de libertad de 6 y 53, vamos utilizar un
nivel de significancia del 5%, con la ayuda de la Tabla G buscamos el valor t0.05,6,53 el cual es
2,25; la regla de decisión es “no rechazar si F > 2,25; rechazar si F > 2,25”; Como F = 5.0271593
> 2,25; la hipótesis se rechaza, podemos decir con un α = 0,05 que existe por lo menos una
relación lineal de Y por los menos con una de las variables independientes.
Al aplicar nivel de significancia del 5%, con grados de libertad g.l. = n-k-1 = 100-3-1 = 96, con la
ayuda de las tablas buscamos el valor de t0.05, 96 el cual es 2,0074; la regla de decisión es “no
rechazar si t ± 2,0074 (con la ayuda de la Tabla F, hallamos el valor para 60 y 120 g.l, e
interpolamos); de lo contrario rechazar”.
X2 como 2,85441204 > 2.0074 Se rechaza la hipótesis nulaX3 como 1,61215605 Está entre ± 2.0074 No se rechaza la hipótesis nulaX4 como 1,59411515 Está entre ± 2.0074 No se rechaza la hipótesis nulaX9 como 1,45372346 Está entre ± 2.0074 No se rechaza la hipótesis nulaX10 como 1,58726894 Está entre ± 2.0074 No se rechaza la hipótesis nulaX11 como -2,1250142 Está entre ± 2.0074 No se rechaza la hipótesis nula
Con un grado de confianza del 95% que sólo la variable X2, contribuye significativamente en la
explicación del modelo, al ser rechazada, mientras que las variables independientes de este
modelo (X3, X4, X9, X10 Y X11), no contribuyen significativamente a la explicación del modelo
al ser aceptada su hipótesis. Las gráficas de los residuales para este modelo:
Modelo 3
X1 = b2 X2 + b7 X7 + b8 X8
Los resultados obtenidos de la regresión de esta ecuación o modelo de regresión múltiple,
presentan los siguientes coeficientes:
Ŷ = 658,30+4,78+8,47+54,02
La ecuación de regresión múltiple muestra la relación que existe entre las variables
independientes y la variable dependiente, de cómo el comportamiento o variación de las primeras
afectan a la segunda, los resultados nos dicen que si la variable Antigüedad del vendedor en la
empresa (X2) aumenta en una unidad, manteniendo fijo el valor de las otras variables
independientes, la variable dependiente Evaluación del Vendedor (X9) modificará su valor en
4.78494529.
El error típico o error estándar de estimación es de 1212.09287; si verificamos los resultados
podemos afirmar que la dispersión de datos más alta la posee el Modelo 3, esto no debe tomarse
como concluyente por cuanto debemos seguir evaluando la ecuación.
El coeficiente de determinación es de 0,2726353; se puede decir que un 27,27% el grado de
relación que existe entre las variables independientes con la variable dependiente Ŷ.
El coeficiente de determinación ajustado o corregido es de 0,23366933; el grado de relación de
las variables independientes X2, X7 y X8 según este coeficiente es de 23,37%, prevé la posible
inclusión por accidente, error u omisión de una variable absurda.
En el Modelo 3, el valor de F es 6.99675441; con grados de libertad de 3 y 56, probamos la
hipótesis con un grado de significancia del 5%, con la ayuda de la Tabla G hallamos del valor
para F0,05;3;56 y nos da 2,61; la regla de decisión es “no rechazar si F > 2,61; rechazar si F > 2,61;
Como F = 6.99675441 > 2,61 la hipótesis se rechaza, podemos inferir con un grado de seguridad
del 95% que existe por lo menos una relación entre el comportamiento de la variable dependiente
X1 y alguna de la variables independientes.
Con un grado de significancia del 5%, con grados de liberta g.l. = n-k-1 = 60-3-1 = 56, con la
ayuda de la Tabla T, para la distribución t buscamos el valor para t 0,05;56 el cual es 2.0042;
construimos la regla de decisión “no rechazar si t ± 2.0042; de lo contrario rechazar la hipótesis”
X2 como 2,37559041 > 2.0074 Se rechaza la hipotesisX7 8,470 2,44302341 > 2.0074 Se rechaza la hipotesisX8 54,019 1,33508845 < 2.0074 No se rechaza la hipotesis
Podemos inferir, por los resultados obtenidos, con un 95% de seguridad que las variables X2 y
X7, contribuyen significativamente a la explicación del modelo, pues para estas variables la
hipótesis nula se rechaza, mientras que la variable independiente X8 no contribuyen con la
explicación del modelo, pues las hipótesis no fueron rechazadas.
Las graficas de los residuales del tercer modelo en estudio son:
CONCLUSIONES
De menor a mayor los modelos objeto de estudio de acuerdo al grado de dispersión de los
datos, el cual es medido a través del error típico o error estándar de estimación:
Modelo 1 1186,46
Modelo 2 1166.35
Modelo 3 1212.09
Se evidencia que el Modelo 2 es el presenta menor grado de dispersión de los datos
La relación que existe entre las variables independientes y la variable dependiente,
medidas a través del coeficiente de determinación múltiple, mostramos los hallazgos
realizados, según el modelo:
Modelo 1 0.39019297 ó 39.02%
Modelo 2 0.36258465 ó 36.26%
Modelo 3 0.2726353 ó 27.26%
Se muestra que el Modelo 1 es el que presenta mayor grado de relación entre las variables
independientes y la variable dependiente.
El coeficiente de determinación corregido o ajustado, que prevé la posible la introducción
de una variable absurda, se presenta en el siguiente orden según el modelo:
Modelo 1 0.26574257 ó 26.57%
Modelo 2 0.29042442 ó 29.04%
Modelo 3 0.23366933 ó 23.37%
Se demuestra que el Modelo 2 es el más propenso a la introducción de una variable
absurda
El análisis de varianza o ANOVA demostró que de los Modelos 1, 2 y 3, por lo menos una de sus
variables independientes tienen relación con la variable dependiente, el mayor valor F lo tiene el
Modelo 3 con 6.99675441; seguido del Modelo 2 con 5.02471593; y por último el Modelo 1 con
3.13532885.
Se concluye que el Modelo 1 explica con mayor fuerza la relación entre las variables
independientes y la variable dependiente, ya que presenta una mayor significancia en predecir el
comportamiento de la variable dependiente.
REFERENCIAS
Webster A. (2003) Estadística aplicada a los negocios y a la economía. 3ª Edición, Colombia:
Irwin Editorial McGraw Hill
Prof. Gilberto Noguera (2007) Elementos de Excel para la Estadística – Guía de Excel