-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
1
PRUEBA DE HIPOTESIS
HIPTESIS
a
PRUEBA DE HIPTESIS
PROCEDIMIENTO PARA PROBAR UNA HIPTESIS:
1.- Plantear la hiptesis nula y la hiptesis alternativa .
Hiptesis nula .- Hiptesis planteada con el objetivo de ser
probada. Podemos
aceptarla o rechazarla. Tal hiptesis es una afirmacin que se
aceptar si los datos
muestrales no pueden proporcionar evidencia convincente que es
falsa.
Hiptesis alternativa .- Denominada tambin hiptesis de
investigacin.
Afirmacin que se aceptar si los datos muestrales proporcionaron
amplia
evidencia de que es falsa
2.- Seleccionar el nivel de significancia.- Nivel de
significancia es la probabilidad de
rechazar la hiptesis nula cuando es verdadera. Al nivel de
significacin se le
denomina , tambin se le conoce con el nombre de nivel de riesgo.
Tambin se le
conoce como nivel de significacin.
Generalmente se usa el nivel del 5% para proyectos de
investigacin, 1% para el
aseguramiento de calidades y 10% para encuestas polticas.
En el proceso de probar una hiptesis podemos cometer dos tipos
de errores: error
del tipo I usualmente denotado por la letra griega alfa ()
mientras que la
probabilidad de cometer el error tipo II est representada por la
letra griega beta (
)
Error tipo I () es rechazar la hiptesis nula ( cuando en
realidad es verdadera.
Error tipo II ( es aceptar la hiptesis nula ( cuando en realidad
es falsa
Es el enunciado acerca de una poblacin, elaborado con el
propsito de ponerlo a aprueba
Procedimiento basado en la evidencia muestral y la teora de
probabilidad que se emplea para determinar
si la hiptesis es un enunciado razonable.
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
2
Poblacin
es verdadera
rechaza Ho
Ho
es falsa
Ho Muestra Se acepta Decisin Correcta
Error Tipo II
Se rechaza Error Tipo I Decisin correcta
3.-Calcular el valor estadstico de prueba.- Existen muchos
valores estadsticos de
prueba: z, t, chi cuadrado, F, etc.
Es el valor obtenido a partir de la informacin muestral que se
utiliza para
determinar si se rechaza la hiptesis nula.
Valor estadstico de la prueba.- Valor obtenido a partir de la
informacin muestral
que se utiliza para determinar si se rechaza la hiptesis nula.
En la prueba de
hiptesis para la media () el valor estadstico de prueba Z t se
determinan a
partir de:
Z
o t
4.- Formular la regla de decisin.- Es un enunciado de las
condiciones segn las que se
acepta o se rechaza la hiptesis nula.
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
3
Valor crtico es el valor que es el punto divisorio entre la
regin de aceptacin y la
regin de rechazo de la hiptesis nula
5.-Toma de decisin.- Es aceptar o rechazar la hiptesis nula.
POTENCIA DE UNA PRUEBA.- Es la probabilidad de tomar la decisin
acertada de
rechazar cuando esta es falsa o de aceptar cuando esta es
verdadera. La
potencia de una prueba se calcula mediante 1 .
PRUEBA PARA LA MEDIA DE LA POBLACIN: MUESTRA GRANDE
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES ( n30) RESPECTO A UNA
MEDIA
DE POBLACIN PARA UNA PRUEBA DE DOS COLAS (BILATERAL) DE LA
FORMA:
Ho: =
Ha:
Estadstico de prueba: conocida
Z=
Estadstico de prueba: desconocida:
Z
Regla de rechazo a un nivel de significancia :
Rechazar si Z Z Z Z
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
4
Ejemplo
Se desea probar si una nueva tcnica de siembra en vivero produce
diferencias en la
longitud de plantines de algarrobo, luego de tres meses de
realizada la siembra. Bajo la
tcnica tradicional, las plantas alcanzan una altura promedio de
15 cm, con una
desviacin estndar de 3 cm. El ensayo consisti en evaluar 16
plantines de algarrobo
al cabo de tres meses de sembrado con la nueva tcnica,
obtenindose un promedio
de altura de 17 cm. Con =0,05 realizar la prueba de hiptesis
correspondiente.
Solucin
Ho: = 15
Ha: 15
El valor estadstico de la prueba es:
Z=
Z=
=
= 2,66
Como el valor de la prueba est en la regin de rechazo, se
rechaza y, por lo tanto,
se acepta
Ejemplo
La tasa anual de resurtido de botellas de aspirinas es 6.0 (esto
indica que las
existencias del medicamento tienen que renovarse en promedio 6
veces al ao en un
establecimiento). La desviacin estndar es 0,50. Se sospecha que
el volumen de
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
5
ventas promedio ha cambiado y no es 0,60. Se utilizar el nivel
de significancia de 0.05
para probar esta hiptesis.
a.- Plantee la hiptesis nula y alternativa
b.- Cul es la probabilidad de un error tipo I?
c.- Proporcione la frmula para el valor estadstico de la
prueba.
d.- Enuncie la regla de decisin
e.- Se selecciona una muestra aleatoria de 64 frascos de tal
producto, con una media
de 5.84, Debe rechazarse la hiptesis de que la media poblacional
es 0.60?
Interprete los resultados.
Solucin:
a. Ho: = 6
Ha: 6
b.- = 0,05
c.- El valor estadstico de la prueba es: Z =
d.- El valor crtico de 1.96
Si el valor del estadstico de prueba resulta mayor a 1.96 o
menor a -1.96 se rechaza
la hiptesis nula
Z =
2.56
Como el valor de la prueba est en la regin de rechazo, se
rechaza y, por lo tanto,
se acepta (la tasa media no es igual a 6).
Ejemplo
El supermercado local gast en una remodelacin miles de nuevos
soles durante
muchas semanas. Aunque la interrupcin espant a los clientes
temporalmente, el
gerente espera que los clientes vuelvan a disfrutar de las
nuevas comodidades. Antes
de remodelar, los recibos de la tienda promediaban $ 32 533 por
semana. Ahora que
se ha terminado la remodelacin, el gerente toma una muestra de
36 semanas para
ver si la construccin afect de alguna manera el negocio. Se
report una media de
$34 166 y una desviacin estndar de $12 955 Qu puede decir el
gerente a un nivel
de significancia del 1%?
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
6
Solucin Ho: = 32 533
Ha:
Rechazar Ho si: Z - 2.576 Z 2.576
El estadstico de la prueba: Z =
0.756
El valor de prueba est dentro de la zona de aceptacin, entonces
se acepta Ho Es
decir la media es 32 533
Ejemplo
Una operacin en lnea de montaje automotriz tiene una media del
tiempo de
terminacin de 2,2 minutos. Debido al efecto del tiempo de
terminacin sobre las
operaciones anteriores y siguientes de ensamblaje, es importante
mantener esta
norma de 2,2 minutos. Una muestra aleatoria de 45 tiempos da
como resultado una
media del tiempo de 2,39 minutos con una desviacin estndar de
0,20 minutos.
Emplee un nivel de significacin de 0,02 y pruebe si la operacin
cumple con la norma
de 2,2 minutos.
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n 30) RESPECTO A UNA
MEDIA
POBLACIONAL PARA PRUEBAS DE UNA COLA (UNILATERAL) DE LA
FORMA
Ho:
Ha: o
Estadstico de prueba: conocida
Z =
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
7
Estadstico de prueba: desconocida:
Z =
Regla de rechazo a un nivel de significacin
Rechazar si Z Z
Ejemplo
La produccin media de trigo por hectrea en una regin es de 2200
Kg con una
desviacin estndar 450Kg Se desea establecer si la aplicacin de
fertilizantes
modifica el rendimiento medio de trigo. Para lo cual se elige 20
has (una en cada
chacra de la regin) y se encontr que el rendimiento promedio fue
de 2650 Kg .Con
= 0,05 que se puede concluir.
Ho: 2200 Kg
Ha: 2200 Kg
Z =
=
= 4,47
En la tablas el valor de Z= 1,645
Como 4,47 es mayor que 1,645 se rechaza Ho.
Luego se concluye que la produccin media de trigo por Ha con
fertilizacin, en la
regin, es significativamente mayor que 2200 Kg.
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
8
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n 30) RESPECTO A UNA
MEDIA
POBLACIONAL PARA PRUEBAS DE UNA COLA (UNILATERAL) DE LA
FORMA
H0: o
Ha: o
Estadstico de prueba: conocida
Z =
Estadstico de prueba: desconocida:
Z=
Regla de rechazo a un nivel de significacin
Rechazar si Z - Z
Ejemplo.-
Una encuesta nacional reciente, encontr que estudiantes de la
Universidad miraban
un promedio de 6.8 DVD por mes. Una muestra aleatoria de 36
estudiantes
universitarios de la facultad de Agronoma, revel que el nmero
medio de DVD
observado el mes pasado fue de 6.2, con una desviacin estndar de
0.5. En el nivel de
significancia de 0.05. Puede concluirse que los estudiantes de
la facultad de
Agronoma ven menos DVD al mes que los de la Universidad?
H0: 6.8
Ha: 6.8
Regla de la decisin
Rechazar si Z - 1.645
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
9
Valor de la prueba
Z =
7.2
Como el valor de la prueba est en la zona de rechazo se concluye
rechazando la
hiptesis nula, esto es, que los estudiantes de la facultad de
Agronoma ven menos
DVD, en promedio, que los estudiantes de la Universidad.
Ejemplo
El gerente de una compaa manufacturera grande estima que la edad
media de sus
empleados es 22,8. El tesorero de la firma necesita una cifra de
la edad media de los
empleados ms exacta a fin de estimar el costo de una prestacin
por antigedad que
se considera para los empleados. El tesorero toma una muestra de
70 trabajadores y
observa que la edad media de los empleados muestreados es 26,2
aos con una
desviacin estndar de 4,6 aos. En el nivel de significacin de
0,01 Qu puede
concluir el tesorero acerca de la exactitud de la estimacin del
gerente de produccin?
Ejemplo
La oficina de anlisis econmico, del Departamento de Comercio
inform que la media
del ingreso anual de un residente de la ciudad de Piura es de $
18 688 nuevos soles.
Un investigador de la ciudad de Piura desea probar = $18 688 y $
18 688,
siendo la media del ingreso anual de un residente de la ciudad
de Piura Cul es la
conclusin de la prueba de hiptesis si en una muestra de 400
residentes de la ciudad
de Piura se obtiene una media del ingreso anual de 16 860 nuevos
soles y una
desviacin estndar de 14 624 nuevos soles? Emplee un nivel de
significacin de 0,05.
PRUEBAS RESPECTO A LA PROPORCIN POBLACIONAL.
La prueba de hiptesis sobre proporciones se usa cuando queremos
determinar si la
proporcin de los elementos en una poblacin, que tiene cierta
caracterstica, es
mayor, igual o menor que algn valor especifico.
Relacin proporcional:
Es la relacin por cociente, o porcin relativa, que tiene un
atributo particular de
inters.
Antes de probar una relacin proporcional debemos considerar
algunos supuestos y
cumplirse algunas condiciones:
- Los datos muestrales recopilados son el resultado de
conteo
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
10
- El resultado de un experimento se clasifica como xito o
fracaso
- La probabilidad de xito se mantiene igual en cada ensayo
- Los ensayos son independientes
- La prueba es adecuada cuando n y n( 1- ) valen al menos 5
El valor estadstico de prueba Z viene dado por:
Z =
Donde:
= Relacin proporcional poblacional
= Relacin proporcional muestral
n = Tamao de muestra
PRUEBA PARA LA PROPORCIN POBLACIONAL
PRUEBA DE HIPTESIS RESPECTO A UNA PROPORCIN POBLACIONAL PARA
PRUEBAS DE UNA COLA (UNILATERAL) DE LA FORMA:
El estadstico de la prueba
Z
Regla de rechazo a un nivel de significacin
Ejemplo
Una investigacin en la Universidad de Toledo indica que el 50%
de los estudiantes
cambian su rea principal de especializacin despus del primer ao
en el programa de
estudios. Una muestra de 100 alumnos en la escuela de
Administracin revel que 48
de ellos cambi de dicha rea despus del lapso mencionado. Ha
habido un
decremento significativo en la proporcin de estudiantes que
cambian su rea de
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
11
especializacin despus del primer ao en el programa? Realice la
prueba al nivel de
significancia de 0.05.
n 100 0.48 0.05
Regla de decisin
Rechazar si Z - 1.645
El estadstico de la prueba
Z
- 0.4
Como Z - 0.4, entonces se acepta , es decir, la proporcin de
estudiantes que
cambian de carrera despus del primer ao no ha tenido un
decremento significativo.
Ejemplo
El servicio de Inmigracin y Naturalizacin inform que el 79% de
los extranjeros que
visitaron los Estados Unidos en el 2005 dijeron que el objetivo
principal de su visita era
disfrutar de sus vacaciones. Suponga que, como estudio de
seguimiento en el 2012, se
selecciona una muestra de 500 visitantes extranjeros, y que 390
de ellos dijeron que el
motivo principal de su visita a Estados Unidos era disfrutar sus
vacaciones. Es menor
la poblacin de visitantes extranjeros en el 2012? Respalde su
conclusin con una
prueba estadstica que use el nivel de significacin de 0,05.
PRUEBA DE HIPTESIS RESPECTO A UNA PROPORCIN POBLACIONAL PARA
PRUEBA
DE UNA COLA (UNILATERAL) DE LA FORMA:
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
12
Estadstico de prueba
Z
Rechazar si Z Z
Ejemplo
Un artculo en la publicacin Piura 21 report que solo hay un
empleo disponible para
uno de cada tres egresados de la Universidad. Las principales
razones aportadas fueron
que existe una sobrepoblacin de estos ltimos y una economa dbil.
Suponga que
una encuesta de 200 egresados recientes de la Universidad de Jan
revel que 80
tenan empleo. Al nivel de significancia de 0.02, Se puede
concluir que tienen trabajo
una proporcin mayor de egresados de la Universidad de Jan?
n 200 0,02
Regla de la decisin.
Rechazar si Z 2,054
Valor de la prueba:
Z 2
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
13
Se acepta por lo tanto, la proporcin de egresados que tienen
trabajo es menor o
igual a
Ejemplo
Un restaurante de comida rpida planea una oferta especial que
permita a sus clientes
comprar vasos de diseo especial con conocidos personajes de
caricaturas. Si ms del
15% de los clientes compran estos vasos, se implementar la
promocin. En una
prueba preliminar en varios locales, 88 de 500 clientes los
compraron. Se debe
implantar la promocin especial? Lleve a cabo una prueba de
hiptesis que apoye su
decisin. Use un nivel de significacin de 0,01 Cul es su
recomendacin?
PRUEBA DE HIPTESIS RESPECTO A UNA POBLACIN POBLACIONAL PARA
PRUEBAS
DE DOS COLAS (BILATERAL) DE LA FORMA:
Ho: P = Po
Ha: P Po
Estadstico de prueba
Z =
Regla de rechazo a un nivel de significancia
Rechazar si
Ejemplo
Se establece la siguiente hiptesis:
: P = 0.4
: P
Una muestra de 120 observaciones revel al nivel de significacin
de 0.05
Puede rechazarse la hiptesis nula?
a,. Establezca la regla de decisin.
b.- Calcule el valor estadstico de la prueba.
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
14
c.- Cul es su decisin respecto a la hiptesis nula?
Solucin
a.- Regla de decisin
Rechazar si Z -1,96 Z 1.96
b.- Valor de prueba
Z = -2.24
c.- Se rechaza , pues el estadstico de prueba cae en la zona de
rechazo.
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n 30) RESPECTO A DOS
MEDIAS
POBLACIONALES
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n 30) RESPECTO A DOS
MEDIAS
POBLACIONALES PARA UNA PRUEBA DE DOS COLAS (BILATERAL) DE LA
FORMA
:
:
Estadstico de prueba
Conocida desconocida
Z=
Z=
Donde:
Tamao de muestra
Media muestral
Variancia poblacional
Poblacin 1
Poblacin 2
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
15
Regla de rechazo a nivel de significancia Z
Z
Ejemplo
Una importante compaa de transporte pblico de Chiclayo debe
decidir entre dos
marcas de llantas para su parque automotor, con un nivel de
confianza del 95%. Para
tomar una decisin seleccion una muestra aleatoria de 100 llantas
de cada marca y
encontr que la marca 1 tiene una vida til de 98 000 Km, en
promedio, con una
desviacin estndar de 8 000 Km.
Por otro lado, las estadsticas calculadas para la marca 2 son,
en promedio, de 101 000
Km y desviacin estndar de 12 000 Km
Qu marca de llantas debera adquirir la compaa de transporte si
la diferencia de
precios es mnima?
Solucin
:
= 98 000 = 8 000 =100
= 101 000 = 12 000 = 100
Regla de decisin
Rechazar si: Z Z
Valor de la prueba
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
16
Z =
=
= - 2.08
Como -2.08 est en la zona de rechazo, se rechaza a un nivel de
significancia del
5%. Esto es, existe diferencia significativa entre la vida til
promedio de ambas marcas.
Sin embargo, no hemos contestado a nuestra pregunta inicial de
qu marca de llantas
se debe adquirir. Realizamos una nueva prueba de hiptesis
suponiendo que la vida
til media de la marca 2 es mayor que la de la marca 1. Para lo
cual establecemos la
prueba de hiptesis para una cola
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n RESPECTO A DOS
MEDIAS
POBLACIONALES PARA UNA PRUEBA DE 1 COLA DE LA FORMA:
Pruebas de hiptesis:
: : 0
: : 0
Estadstico de prueba
Conocida desconocida
Z= -
Z -
Regla de rechazo a un nivel de significancia
Rechazar si Z -
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n RESPECTO A DOS
MEDIAS
POBLACIONALES PARA UNA PRUEBA DE 1 COLA DE LA FORMA:
: : 0
: : 0
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
17
Estadstico de prueba
Conocida desconocida
Z
Z
Regla de rechazo a un nivel de significacin
Rechazar si Z
Del ejercicio anterior, para decidir qu marca comprar,
realizamos una nueva prueba
de hiptesis suponiendo que la vida til promedio de la llanta de
marca 2 es mayor
que la vida til promedio de la marca 1, esto es:
:
:
Usando los mismos datos anteriores tenemos
Con los datos mostrados se calcula Z
Z -
=
= - 2.08
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
18
Como 2.08 est en la zona de rechazo tenemos que la marca 2 tiene
mayor vida til
promedio que la marca 1.Por lo tanto, la compaa de transporte
debe abastecerse de
la marca 2
PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n PARA LA
DIFERENCIA
ENTRE DOS PROPORCIONES:
La prueba de hiptesis para la diferencia entre dos proporciones
se realiza cuando
queremos determinar si las proporciones de dos poblaciones son o
no iguales. La
lgica del procedimiento es idntica para la diferencia de las
medias poblacionales.
Tomamos una muestra aleatoria de cada poblacin y calculamos las
proporciones
muestrales; si la diferencia entre estas proporciones se puede
atribuir al azar,
aceptamos la hiptesis de que las dos poblaciones tienen igual
proporciones.
Valor estadstico de prueba.
Z=
Tamao de muestra
Proporcin muestral
Proporcin ponderada
Poblacin 1
Poblacin 2
=
=
Alternativamente
Ejemplo
El departamento de investigacin en la casa Matriz de una compaa
aseguradora,
realiza una investigacin acera de las causas de accidentes
automovilsticos, las
caractersticas de los conductores, etc. Se seleccion una muestra
aleatoria de 400
plizas de seguros expedidas a personas solteras. Se descubri que
en el periodo
anterior de tres aos, 120 sufrieron al menos un accidente
automovilstico. En forma
semejante, una muestra de 600 plizas expedidas a personas
casadas revel que 150
haban tenido al menos un accidente. Al nivel de significancia de
0.05, Hay diferencia
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
19
significativa en las personas solteras y casadas que sufrieron
un accidente durante un lapso de
tres aos?
Solucin
400 600
= 0.30
= 0.25
:
:
Regla de decisin
Rechazar si: Z Z
Valor de la prueba
Z=
=
=
= 0.27
Z=
= 1.74
Como 1.74 est en la regin de aceptacin se acepta , no hay
diferencia significativa entre las proporciones de personas
solteras y casadas que
sufrieron un accidente durante un lapso de tres aos.
PRUEBA DE HIPTESIS PARA MUESTRAS PEQUEAS
En los casos en los que se desconoce y el nmero de observaciones
en la muestra es
menor a 30, se puede utilizar la desviacin estndar muestral, s,
como una estimacin
de , pero no puede utilizar la distribucin de Z como valor
estadstico de prueba. La t
de Student o distribucin t, sirve como valor estadstico de
prueba.
PRUEBA PARA LA MEDIA POBLACIONAL
Se utiliza el mismo procedimiento que en el caso de la muestra
grande pero el valor
estadstico de prueba es el siguiente:
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
20
=
Ejemplo
Por registros pasados se sabe que la vida til promedio de una
pila elctrica que se
utiliza en un reloj digital es de 305 das. La vida til de las
pilas se distribuye
normalmente. Tal elemento elctrico fue modificado recientemente
para que tenga
mayor duracin. Se prob una muestra de 20 pilas modificadas y se
encontr que la
vida media era de 311 das con una desviacin estndar de la
muestra de 12 das. Al
nivel de significancia de 0.05. La modificacin increment la
duracin promedio de la
pila?
a.- Plantear la hiptesis nula y alternativa.
b.- Ilustrar grficamente la regla de decisin.
c.- Calcular t y llegar a una decisin. Resuma la manera breve el
resultado.
Solucin:
Grados de libertad (g.l.): 20 1 = 19
Regla de decisin:
Rechazar si t
Valor de prueba:
t =
= 2.24
Por lo tanto se rechaza porque 2.24 est en la zona de
rechazo.
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
21
PRUEBA DE DOS MEDIAS POBLACIONALES: MUESTRAS ALEATORIAS
INDEPENDIENTES
Caso I
Cuando y son ambas pequeas y se desconoce las varianza
poblacionales se
tiene:
Valor de prueba
t
t con grados de libertad:
Donde:
Grados de libertad: 2
Observacin
Las varianzas son desconocidas, pero iguales:
Donde es un estimador insesgado de
Ejemplo:
Una muestra de calificaciones en un examen presentado en un
curso de Estadstica (en
escala 100) es:
Hombres 72 69 98 66 85 76 79 80 77 Mujeres 87 90 78 81 80 76
Al nivel de significancia de 0.01, La calificacin de las mujeres
es ms alta que la
calificacin de los hombres?
Solucin:
:
:
Tamao de muestra
Media muestral
Variancia ponderada
Poblacin 1
Poblacin 2
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
22
H M
78 82 S 9,49 5,40
n 9 6
Regla de decisin:
Rechazar si t
Valor de la prueba
t
= 66.6153
t
= 0.10
Se acepta porque 0.42 est en la zona de aceptacin. Por lo tanto,
no se puede
afirmar que la calificacin de las mujeres es ms alta que la
calificacin de los
hombres.
b.. Caso II:
Cuando
Variancias poblacionales desconocidas pero diferentes
Las hiptesis son las mismas, pero la prueba estadstica ser:
Los grados de libertad se calculan de la siguiente manera:
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
23
g.l. [
]
[
]
[
]
Los dems pasos son los mismos
PRUEBA PARA LA DIFERENCIA ENTRE DOS MEDIAS POBLACIONALES: UNA
PRUEBA DE
DIFERENCIA PAREADA
< 30
Variancias poblacionales desconocidas pero iguales
1.-Hiptesis nula: Ho: (12) = d = 0
2.- Hiptesis alternativa:
Prueba de una cola Prueba de dos colas
Ha: d> 0 Ha: d 0
Ha: d < 0 3.- Estadstico de prueba:
t =
=
= 1 2
4.- Regin de rechazo: Rechazar Ho cuando
Prueba de una cola Prueba de dos colas
t > t t> t t
Ejemplo.-
Antes de contratar la instalacin de un sistema que trasmita
msica a las oficinas de
una empresa, el gerente selecciona al azar 7 oficinas para
instalarles el nuevo sistema.
El tiempo promedio en minutos que pasaban los empleados fuera de
esas oficinas, fue
registrado antes y despus de instalarse el sistema de msica,
obtenindose los
siguientes resultados
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
24
Sugerira Ud. que el ejecutivo proceda con la instalacin? =
0.05
Solucin
Ho: d = 0
Ha: d > 0
No msica
Con msica
d 8 5 3
9 6 3
5 7 2 6 5 1 5 6 1
10 7 3
7 8 1
=7,14 =6,28 =0,85 =2,6457
t =
=
=
= 1,025
En las tablas 1,943
Conclusin: No hay una evidencia estadstica para afirmar que con
la instalacin de la
msica en las oficinas, los empleados pasaran ms tiempo en
estas.
PRUEBA DE HIPTESIS PARA LA VARIANZA
Hay casos que se tiene el problema de desconocer la varianza, o
desviacin estndar
de la poblacin, en donde las distribuciones son normales. Si se
desea probar una
hiptesis acerca de la varianza se puede hacer utilizando la
distribucin de Ji cuadrada
(Chi cuadrada). As mismo, supngase que se tiene inters en dos
poblaciones
normales independientes, donde las medias y las varianzas de la
poblacin son
desconocidas. Se desea probar la igualdad de las dos varianzas,
ya que para poder
comparar las medias de estas dos poblaciones se ha utilizado la
distribucin de t de
Student, en la cual podemos tener varianzas iguales o diferentes
en la poblacin.
Nmero de oficina 1 2 3 4 5 6 7
No msica 8 9 5 6 5 10 7
Con msica 5 6 7 5 6 7 8
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
25
Par conocer esto ltimo se requiere de la distribucin F de
Fisher, y despus de
utilizarla se tomar la decisin de tener o no varianzas iguales
en la poblacin, dando
pie a realizar la comparacin de las dos medias segn sea el caso.
En un primer caso en
el que las varianzas de la poblacin son desconocidas, pero
iguales, o en un segundo
caso, donde se tiene varianzas desconocidas, pero diferentes
DISTRIBUCION CHI CUADRADO
La distribucin de Chi cuadrado tiene muchas aplicaciones
especialmente en las
ciencias sociales y biolgicas, en donde se estudia una conducta
(lo esperado) en
funcin de una respuesta (lo observado). Si el conjunto de
valores observados sigue el
mismo comportamiento de lo esperado entonces, estadsticamente,
se acepta la
hiptesis que lo observado sigue el comportamiento de lo
esperado.
Esta metodologa puede ser utilizada para una prueba de :
- Frecuencia y bondad de ajuste
- Independencia entre variable
- Homogeneidad de muestras
- Homogeneidad de variancia.
Casos de frecuencia y bondad de ajuste, probar
estadsticamente:
- La relacin de ingresantes a la UNPRG de colegios particulares
a nacionales es
de 2 a 1
- El nmero de accidentes que ocurre en un determinado lugar
sigue una ley de
Poisson
- El nmero de tubrculos daados en planta siguen una ley de
Poisson
- El nmero de artculos defectuosos en caja de 10 , sigue una ley
Binomial
- El nmero de plantas germinadas de paquetes de 10 semillas
sigue una ley
Binomial
Casos de independencia
- Preferencias a ciertos productos y localidades
- Procedencia de colegio nacional y privado y el rendimiento en
la universidad
- El nivel de pobreza y estudio en la zona rural y urbana
Casos de homogeneidad de muestra
- La distribucin de consumo de tipo de carne en distritos de la
provincia de
Chiclayo
- La preferencia o popularidad de candidatos por distritos
- La distribucin de estudiantes por lugar de procedencia en las
universidades del
Depto. De Lambayeque.
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
26
La distribucin Chi Cuadrado permite resolver tal inferencia,
bajo el supuesto que la
variable aleatoria w est definida:
Donde:
- Frecuencia observada en una clase o categora
- Frecuencia esperada en la misma clase o categora
- Distribucin de chi cuadrado, con cierto grado de libertad
Cuando el nmero de grados de libertad es igual a 1, se utiliza
la correccin de Yates
(correccin por continuidad)
| |
Pero cuando los datos son mayores de 50 se puede, obviar la
correccin.
Prueba de frecuencias
Es til en el estudio de la distribucin de frecuencias de una
variable. El nmero de
clases o categoras debe ser al menos 2, lo suficiente como para
no tener frecuencias
menores de 5%. Muchas o pocas categoras, dispersan o concentran
la frecuencia en
las categoras.
Para la prueba estadstica de frecuencia se requiere hallar los
grados de libertad.
Para el caso de frecuencias, los grados de libertad es igual a K
1, donde K es el
nmero de clases o categoras.
Ejemplo
4 candidatos, postulan a la Presidencia de la Republica. Segn
los sondeos se tiene la
siguiente distribucin:
- Candidato A = 34%
- Candidato B = 28%
- Candidato C = 14%
- Candidato D =8 %
- Otros = 16%
El estudio se realiz encuestando a 120 personas, donde el
resultado de las
preferencias fue:
A = 45 B = 30 C =18 D= 6 y otros =21
Se pregunta si la preferencia de los candidatos ser igual para
todos. = 0,10
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
27
Solucin:
Ho: La preferencia de los candidatos se mantiene
Ha: No hay cambios en la preferencia
= 0.10
Candidato Datos observados
Datos esperados
% Terico
A 45 120x0,34=40,8 34
B 30 120x0,28=33,6 28
C 18 120x0,14=16,8 14
D 6 120x0,08=9,6 8
Otros 21 120=0,16=19,2 16
Total 120 12,0 100
=
= 2,4225
El valor critico se busca en la tabla de Chi cuadrado, con k- 1
grados de libertad y con
un nivel de significancia
En las tablas con 4 g.l. y = 0,10 es igual 7,77
El valor calculado es inferior al tabular, por lo tanto se
acepta la hiptesis que las
frecuencias se mantienen (Hiptesis nula).
Ejemplo en proporciones
Las frecuencias esperadas de un cruce gentico entre la prole
estn en una proporcin
fenotipo de 3:1 de normal a mutante. Las frecuencias observadas
fueron:
Fenotipo Datos Observados
Normal 80
Mutante 10
Total 90
Realice la prueba estadstica para la prueba de la proporcin
planteada.
Solucin
Ho. La proporcin fenotipo normal y mutuante es de 3:1
Ha: La proporcin no es 3:1
= 0.10
Calculemos las frecuencias esperadas
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
28
Fenotipo Datos observados
Datos esperados
Normal 80 90x 67,5
Mutante 10 90x 22,5
Total 90 90
Los grados de libertad es igual a 1, no es necesario la
correccin de Yates porque la
muestra es mayor a 50.
El valor de Chi cuadrado ser:
El valor crtico para se busca con gl= 1 y = 0,10 ser 2,705
Se observa que el valor calculado es mayor que el tabular,
entonces se rechaza la
hiptesis nula o planteada, por lo cual se concluye que no hay
suficiente razn
estadstica para tal afirmacin sobre la proporcin planteada.
Aplicacin de Yates (caso de dos categoras y total de
observaciones menor a 50).
Una moneda supuestamente balanceada, se somete a una prueba para
certificar si es
correcta para ser utilizada en una determinada investigacin,
razn por la cual se lanza
25 veces, obtenindose como resultado: Cara 10 veces, sello 15
sello. Con estos
resultados Podemos aceptar la hiptesis?
Ho: Moneda correctamente balanceada
Ha: Moneda no es balanceada
= 0,10
Resultado Datos observado
Datos esperados
Cara 10 25 x 0,50 = 12,5
Sello 15 25 x 0,50 = 12,5
25
| |
| |
| |
El valor de en las tablas para 1 g.l. y = 0,10 es igual a
2,7055
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
29
Por lo tanto se acepta la hiptesis Ho, que dice que la moneda es
balanceada.
PRUEBA DE INDEPENDENCIA TABLAS DE CONTIGENCIA
Las pruebas aplicadas a cuadros de contingencia, algunos la
denominan tambin como
dcimas de independencia. Sin embargo, permiten la realizacin de
pruebas de
homogeneidad. Un cuadro de contingencia, es un arreglo en el
cual un conjunto de
observaciones se dispone conforme a dos criterios de
clasificacin, uno de los cuales se
expresa en columnas y el otro en renglones. Si cada uno de los
criterios admite dos
clasificaciones, se obtiene una tabla de contingencia de 2 x 2.
Si el primer admite tres
clasificaciones y el segundo criterio 4, se denominar como tabla
3 x 4. Si
designamos las columnas por K y los renglones por J, se tendr
una tabla de K x J
Los grados de libertad sern iguales a v=(K 1)(J 1), as en una
tabla de 2 x 2, el
valor de v ser igual a 1, o sea v= (2 1)(2 -1); y en la tabla de
3x 4 ser: v= (3 - 1)(4-
)=6.
Cuando el nmero de grados de libertad es igual a 1, se utiliza
la correccin de Yates
(correccin por continuidad)
| |
Pero cuando los datos son mayores de 50 se puede, obviar la
correccin.
Ejemplo:
En un consultorio se trat a un grupo de personas que se quejaban
de insomnio,
dndole a unas pastillas para dormir y a otras pastillas de azcar
(que hacan creer que
eran para dormir). Despus de someterlos a observacin, se obtuvo
el siguiente
resultado.
Tratamiento Durmieron No durmieron
Total
Pastillas para dormir 35 5 40
Pastillas de azcar 45 15 60
Total 80 20 100
Pruebe a nivel del 5% que no existe diferencia
Solucin:
Ho: No existe diferencia entre los tipos de pastillas
Ha: Si existe diferencia entre los dos tipos de pastillas
Calcular los datos esperados
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
30
Tratamiento Durmieron No durmieron Total
Pastillas para dormir
= 32
= 8 40
Pastillas de azcar
= 48
= 12 60
Total 80 20 100
=
= 2,3437
Buscamos en las tablas , con (2 1) (2 1)= 1
Se acepta la hiptesis nula, la diferencia no es
significativa.
Ejemplo
Una asociacin de profesores universitarios quiere determinar si
la clasificacin en el
trabajo es independiente de la categora acadmica. Para ello se
realiz un estudio
nacional entre los acadmicos universitarios y encontr los
resultados que se
muestran a continuacin, Con al 0.05 haga una prueba para saber
si son
dependientes la satisfaccin en el trabajo y la categora
acadmica
Categora Profesor
Asistente
Profesor
auxiliar
Profesor
asociado
Profesor
principal
Satisfaccin Mucha 40 60 52 63
En el Regular 78 87 82 88
trabajo Poca 57 63 66 64 .
Solucin
Planteamiento de las hiptesis
La satisfaccin en el trabajo y la categora acadmica son
independientes
La satisfaccin en el trabajo y la categora acadmica no son
independientes
Grados de libertad: (r 1) (c 1) = (3 -1) (4 -1) = 6
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
31
Regla de decisin
Rechazar 12.59
Se procede a calcular los valores esperados de cada celda:
Donde: i= fila j = columna
Se toma en cuenta los totales del rengln y la columna
categora
Profesor
asistente
Profesor
auxiliar
Profesor
asociado
Profesor
principal
Total
Satisfaccin
En el
trabajo
Mucha 40 60 52 63 215
Regular 78 87 82 88 335
Poca 57 63 66 64 250
Total 175 210 200 215 800
Valor de la prueba:
+
= 2.75
Como 2.75 es menor que el valor critico 12.59, por lo tanto, no
se rechaza y se
concluye con un = 0.05, que la satisfaccin en el trabajo y la
categora acadmica son
independes
=
= 47.03
=
= 56.44
=
= 53.75
=
= 57.78
=
= 73.28
=
= 87.94
=
= 83.75
=
= 90.03
=
= 54.69
=
= 65.62
=
= 62.50
=
= 62.50
CATEGORA
Profesor
asistente
Profesor
auxiliar
Profesor
asociado
Profesor
principal
Total
Satisfaccin Mucha 47.03 56.44 53.75 57.78 215
En el Regular 73.28 87.94 83.75 90.03 335
trabajo Poca 54.69 65.62 62.50 67.19 250
Total 175 210 200 215 800
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
32
PRUEBA DE HIPTESIS PARA LA VARIANZA DE UN DISTRIBUCIN NORMAL
A continuacin se desarrollar el procedimiento para contrastar
hiptesis sobre la
varianza poblacional , a partir de una muestra aleatoria de n
observaciones de una
poblacin normal.
PRUEBA BILATERAL DE LA VARIANZA DE UNA POBLACIN
Estadstico de prueba:
=
Regla de decisin a un nivel de significancia
Rechazar si:
Ejemplo
Una manera de evaluar la eficacia de un profesor ayudante es
analizar las calificaciones
obtenidas por sus estudiantes en un examen al final del curso.
Evidentemente, es
interesante la puntuacin media, sin embargo, la varianza tambin
contiene
informacin til; algunos profesores tienen un estilo que funciona
muy bien con los
estudiantes ms sobresalientes, pero es ineficiente con los
estudiantes con menos
capacidad o menos motivados. Un profesor realiza un examen al
final de cada
semestre para todas las secciones del curso, la varianza de las
calificaciones de este
examen suelen estar muy prximos a 300 : Un nuevo ayudante tiene
una clase de 30
estudiantes, cuyas calificaciones en el examen tuvieron una
varianza de 480;
considerando estas calificaciones como una muestra aleatoria de
una poblacin
normal, contrastar la hiptesis nula de que la varianza
poblacional de sus calificaciones
es 300 frente a una alternativa bilateral con 0.05
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
33
Regla de decisin
Rechazar si:
Valor de prueba
=
= 46.40
Entonces dado que 45.72, se rechaza , lo cual significa que la
varianza es
diferente de 300
PRUEBA UNILATERAL DERECHA DE LA VARIANZA DE UNA POBLACIN
Estadstico de prueba
=
Regla de decisin a un nivel de significancia
Rechazar si:
Ejemplo
Un producto, se debe maquinar determinada parte con tolerancias
muy estrechas,
para que los clientes la puedan aceptar. Las especificaciones
del producto piden que la
varianza mxima de las longitudes de las partes sea 0.0004.
Suponga que en 30 partes,
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
34
la varianza de la muestra result ser 0.0005. Pruebe con un 0.05
si se ha
violado la especificacin de varianza de la poblacin
Estadstico de prueba
=
=
= 36.25
Regla de decisin a un nivel de significancia
Regla de decisin
Rechazar si:
Entonces dado que , se acepta la Ho, lo cual significa que
las
especificaciones del producto no han sido violadas.
PRUEBA UNILATERAL IZQUIERDA DE LA VARIANZA DE UNA POBLACIN
Estadstico de prueba
Regla de decisin a un nivel de significancia
Rechazar si:
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
35
INFERENCIA ACERCA DE LA VARIANZA DE DOS POBLACIONES NORMALES
DISTRIBUCIN DE F
Denominada as por sir Ronald Fisher, uno de los fundadores de la
ciencia estadstica
moderna. Esta distribucin se utiliza como la entidad estadstica
de prueba en varios
casos, sirve para probar si dos muestras proceden de poblaciones
con varianzas
iguales. Asimismo, tambin sirve cuando se desea comparar
simultneamente varias
medias poblacionales, esta comparacin simultanea de varias de
tales medias se
denomina anlisis de varianza (ANAVA) (ANOVA), en estos dos casos
las poblaciones
deben ser normales.
PRUEBA DE HIPTESIS BILATERAL RESPECTO A LA VARIANZA DE DOS
POBLACIONES
Estadstico de prueba
F
Regla de decisin a un nivel de significacin
Rechaza s: F F
PRUEBA UNILATERAL DERECHA ACERCA DE LA VARIANZA DE DOS
POBLACIONES
NORMALES.
Estadstico de prueba
F
Regla de decisin a un nivel de significacin
Rechaza si: F
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
36
Observacin.- La varianza muestral ms grande se coloca en el
numerador, en
consecuencia, la razn F siempre es mayor a 1. Por lo tanto, el
valor crtico de la cola
de valores superiores es el nico que se necesita
( )
( )
Ejemplo:
La compaa Piura Com. realiz un estudio acerca de los hbitos de
escuchar radio
por parte de los hombres y las mujeres. Un aspecto del estudio
comprendi el tiempo
promedio de audicin. Se descubri que tal tiempo para los varones
es de 35 minutos
al da. La desviacin estndar de la muestra de 11 personas de sexo
masculino que se
estudiaron fue de 10 minutos diarios. El tiempo promedio de
audicin para las 13
mujeres en el estudio fue tambin de 35 minutos, pero la
desviacin estndar de la
muestra, result 12 minutos. Al nivel de significancia de 0.10,
es posible concluir que
existe diferencia en la variacin del nmero de minutos que los
hombres y las mujeres
escuchan la radio?
Recuerde que
0.36
Rechaza s: F F
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
37
Estadstico de prueba
F
1.44
Por lo tanto, al ser F 1.44 se acepta , lo cual significa que la
variacin del nmero
de minutos que escuchan radio los hombres es igual al de las
mujeres.
Ejemplo
En su incansable bsqueda de un sistema de llenado adecuado,
cierta empresa prueba
dos mquinas. Robot Fill se usa para llenar 16 tarros y resulta
una desviacin estndar
de 1.9 onzas en el llenado. Con Automatic Fill se llenan 21
frascos que dan desviacin
estndar de 2.1 onzas. Si la empresa tiene que elegir uno de
estos sistemas en funcin
de la uniformidad de llenado, Cul deber seleccionar? Use un
0.05
Solucin
Robot Fill Automatic Fill
De acuerdo a la tabla de F:
Regla de decisin a un nivel de significacin
Rechaza s: F
Estadstico de prueba
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
38
F
Dado que el valor de F es 1.22 se acepta Ho. Por lo tanto, se
elige el proceso Automatic
Fill porque es el que presenta mejor uniformidad de llenado.
ANLISIS DE REGRESIN Y CORRELACIN
ANLISIS DE CORRELACIN
Conjunto tcnicas estadsticas empleadas para medir la intensidad
y el sentido de la
asociacin de dos ms variables. El concepto de correlacin est
estrechamente
vinculado al concepto de regresin, pues para que una ecuacin de
regresin sea
razonable los puntos muestrales deben estar ceidos a la ecuacin
de regresin,
adems el coeficiente de correlacin debe ser:
- Grande cuando el grado de asociacin es alto (cerca de y
pequeo
cuando es bajo, cerca de cero
- Independiente de las unidades en que se miden las
variables.
DIAGRAMA DE DISPERSIN
Grfica que presenta la relacin entre dos variables.
VARIABLE DEPENDIENTE
Variable que se predice o estima. Se muestra en el eje Y.
VARIABLE INDEPENDIENTE
Variable que proporciona la base para la estimacin. Es la
variable de pronstico. Se
muestra en el eje X.
Ejemplo
La empresa Rzuri Hnos. un negocio familiar que ha vendido al
menudeo en Piura
durante muchos aos, se anuncia ampliamente por radio y
televisin, destacando sus
bajos precios y accesibles condiciones de crdito. Al dueo le
gustara analizar la
relacin entre las ventas y lo que gasta en publicidad. A
continuacin se muestra la
informacin acerca de las ventas y lso gastos de publicidad
durante los ltimos cuatro
meses.
Mes Gastos de publicidad
(miles de dlares)
Ingreso por ventas
(miles de dlares)
Julio 2 7
Agosto 1 3
Setiembre 3 8
Octubre 4 10
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
39
Se plantea la hiptesis de que a medida que aumentan los gastos
de publicidad,
aumentan los ingresos por ventas.
Debemos comenzar por el diagrama de dispersin, que nos permite
tener una idea
sobre el grado (intensidad) y la naturaleza (forma) de la
relacin entre las dos
variables. Entonces podemos dar cuenta si la relacin es lineal o
no lineal, positiva o
negativa, o simplemente no existe una relacin aparente.
Observando el diagrama podremos establecer lo siguiente:
1.- Existe una relacin lineal entre los gastos de publicidad y
el ingreso por ventas en
ese periodo de 4 meses. Por lo tanto, es posible trazar una lnea
recta que se ajuste
a los puntos graficados en el diagrama de dispersin
2.- La relacin no es determinstica; vale decir, cualquiera que
sea la lnea recta que se
trace, la mayora de los puntos estarn por encima o por debajo de
dicha recta.
COEFICIENTE DE CORRELACIN LINEAL SIMPLE (r)
Creado por Karl Pearson alrededor de 1900, describe la fuerza de
la relacin entre dos
conjuntos de variables en escala de intervalo o de razn.
Se designa con la letra r, para calcular el valor numrico del
coeficiente de correlacin
se utiliza la siguiente expresin:
r=
r =
[ ][ ]
Donde:
n = Nmero de pares de observaciones
x = Suma de los valores de la variable x
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
40
y = Suma de los valores de la variable y
= Suma de los valores de x elevados al cuadrado
Cuadrado de la suma de los valores de x
= Suma de los valores de y elevados al cuadrado
= Cuadrado de la suma de los valores de y
xy = Suma del producto de x e y
CARACTERSTICAS DEL COEFICIENTE DE CORRELACIN
1.- El coeficiente de correlacin de la muestra se identifica con
la letra minscula r
2.- Muestra la direccin y la fuerza de la direccin lineal
(recta) entre dos variables en
escala de intervalo o en escala de razn
3.- Vara de -1 hasta +1
4.- Un valor cercano a 0 indica que hay poca asociacin entre las
variables
5.- Un valor cercano a 1 indica una asociacin directa o positiva
entre las variables; es
decir a valores altos de una variable le corresponde valores
altos a la otra variable
6.- Un valor cercano a -1 indica una asociacin inversa o
negativa entre las variables; es
decir a valores altos de una variable le corresponde valores
bajos a la otra variable
y viceversa
COEFICIENTE DE DETERMINACIN ( )
Es el estadstico que mide la proporcin de la variacin total en y
que puede ser
explicada por la variacin en x.
El coeficiente de determinacin se calcula elevando al cuadrado
el coeficiente de
correlacin
Con los datos del problema tenemos:
Total
r=
[ ][ ]
r =
[ ][ ] = 0,96
= 92,16%
x y xy 2 7 14 4 49
1 3 3 1 9
3 8 24 9 64
4 10 40 16 100
10 28 81 30 222
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
41
1 - = 7,84%
PRUEBA DE SIGNIFICANCIA DEL COEFICIENTE DE CORRELACIN
Es importante estudiar si r es significativo (distinto de cero)
ya que ello implica que el
modelo de regresin lineal es significativo.
Planteamiento de hiptesis:
0 (la correlacin en la poblacin es cero)
(La correlacin en la poblacin es distinta de cero)
Estadstico de prueba:
t
, con n 2 grados de libertad
Rechazar si: t ( ) t
(
)
t
=
= 4,84
Comparamos con el valor de las tablas , es decir =4,303
Como el valor calculado es mayor que el valor de la tabla,
existe una fuerte correlacin
entre el gasto en publicidad y el ingreso por ventas. (Aceptamos
hiptesis alternativa)
ANLISIS DE REGRESIN
A travs del anlisis de regresin buscamos que la lnea de ajuste
se aproxime lo mejor
posible a todos los puntos del diagrama de dispersin. La ecuacin
para la lnea recta
empleada para calcular y con base en x se conoce como ecuacin de
regresin.
ECUACIN DE REGRESIN
Expresin matemtica que define la relacin entre dos
variables.
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
42
PRINCIPIO DE MNIMOS CUADRADO
Tcnica empleada para obtener la ecuacin de la regresin,
minimizando la suma de
los cuadrados de las distancias verticales entre los valores y
verdaderos y los valores
pronosticados .
Dicha recta se define como:
y = a +bx
Par determinar la calidad estimadora de esta recta necesitamos
alguna medida de la
distancia de los puntos ( a esta recta. El siguiente grafico
muestra, para un solo
punto, como se mide esta distancia.
Para el valor el correspondiente valor y en nuestra recta es a +
bx mientras que el
valor realmente observado para la variable dependiente es .La
diferencia entre los
dos es:
Ahora bien, cualquier
estimador razonable de la recta de regresin verdadera dejar
algunos de los datos
observados por debajo y otros por encima de la recta estimada.
Por lo tanto, algunos
de los sern positivos y otros negativos
REGRESIN LINEAL SIMPLE
El anlisis de regresin lineal simple trata el problema de
predecir o estimar una
variable, llamada respuesta, a partir de otra variable llamada
predictora o explicativa.
A la primera se le conoce tambin como variable dependiente y se
le representa
generalmente con la letra Y, mientras que a la segunda se le
conoce como variable
independientemente y se representa generalmente con la letra
X
Cuando la relacin funcional entre las variables dependiente (Y)
e independiente (X) es
una lnea recta, se tiene una regresin lineal simple, dada por la
ecuacin
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
43
Donde
- : Es el valor de la ordenada donde la lnea de regresin se
inserta al eje Y
- : El coeficiente de regresin poblacional (pendiente de la
recta)
- : Error
SUPOSICIONES DE LA REGRESION LINEAL
1. Los valores de la variable independientes son fijos
2. La variable X se mide sin error (se desprecia el error de
medicin en X)
3. Existe una subpoblacin de valores Y normalmente distribuido
para cada valor
de X
4. La variancias de las sub poblaciones de Y son todas
iguales
5. Todas las medias de las subpoblaciones de Y estn sobre la
misma recta
6. Los valores de Y estn normalmente distribuidos y son
estadsticamente
independientes
Los supuestos el 3 al 6 equivalen a decir que los errores son
aleatorios, que se
distribuyen normalmente con media cero y variancia
Con los datos muestrales se tomar la siguiente ecuacin:
=
=
=
( )
=
El coeficiente de regresin ( ).- pendiente de la recta de la
regresin, represente la
tasa de cambio de respuesta Y al cambio de una unidad en X
Si 0, se dice que no existe relacin lineal entre las dos
variables
Ejemplo
Los datos siguientes muestran las ventas (en millones) de cajas
y los gastos de
publicidad (en millones de dlares) para 7 marcas principales de
refrescos:
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
44
Marca Gastos de
publicidad
Ventas
de cajas
Coca cola 131.3 1929.2
Pepsi 92.4 1384.6
Kola real 60.4 811.4
Sprite 55.7 541.5
Inca cola 40.2 536.9
Concordia 29.0 535.6
7 up 11.6 219.5
a.- Trace un diagrama de dispersin para estos datos, con los
gastos de publicidad
como variable independiente.
b.- Qu parece indicar este diagrama acerca de la relacin entre
las dos variables?
trace una recta que pase por los datos, para aproximar una
relacin lineal entre los
gastos de publicidad y las ventas.
c.- Aplique el mtodo de mnimos cuadrados para plantear la
ecuacin estimada de
regresin
d.- Presente una interpretacin de la pendiente de esta
ecuacin
Solucin:
Variable independiente: Gastos de publicidad
Variable dependiente: Ventas de cajas
Diagrama de dispersin.
El diagrama parece indicar que la relacin entre las variables es
linealmente positiva.
Ahora encontraremos los valores de r,
Gastos de
Publicidad
Ventas de
cajas
x y xy 131.3 17 239.69 1929.2 3 721 812.64 253 303.96
92.4 8 537.76 1 384.6 1 917 117.16 127 937.04
60.4 3 648.16 811.4 658 369.96 49 008.56
55.7 3 102.49 541.5 293 222.25 30 161.55
40.2 1 616.04 536.9 288 261.61 21 583.38
29 841 535.6 286 867.36 15 532.4
11.6 134.56 219.5 48 180.25 2 546.2
Sumas 420.6 35 119.7 5 958.7 7 213 831.23 500 073.09
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
45
r =
[ ][ ]
r =
[ ][ ] = 0.97810014
Como r se aproxima a uno, entonces diremos que la relacin que
hay entre las dos
variables es bastante fuerte o intensa.
La ecuacin que mejor se ajusta a los datos es una recta, como se
aprecia en el
siguiente grfico.
=
=
= 14.42378282
=
= = - 15.42
Por lo tanto la ecuacin de la regresin lineal seria:
= - 15.42 + 14.424x
La interpretacin que tiene es solo matemtica, esto es el punto
de corte con el
eje y
El valor que toma se interpreta como: por cada incremento en la
variable
dependiente se espera una variacin de 14.424 en la variable
dependiente
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
46
COEFICIENTE DE DETERMINACIN ( ).
En el ejemplo anterior r = 0.9781, el coeficiente de
determinacin ser 0.9567,
luego pude decirse que 95.67% de la variacin en el nmero de
cajas vendidas se
explica por la variacin en los gastos de publicidad.
PRUEBA DE SIGNIFICANCIA DEL COEFICIENTE DE CORRELACIN
Del ejemplo anterior, pruebe la hiptesis de que no existe
correlacin en la poblacin.
Emplee 0.02 de nivel de significancia
Solucin
Planteamiento de hiptesis
0 (la correlacin en la poblacin es nula)
(la correlacin en la poblacin no es nula)
Regla de la decisin
Rechazar si: t t
Estadstico de prueba
t
=
= 10.5093
Se acepta la hiptesis alternativa, es decir existe relacin entre
las variables en estudio
ERROR ESTNDAR DE LA ESTIMACIN:
Mide la dispersin de los valores observados, con respecto a la
recta de regresin.
=
=
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
47
=
=
= 136.21
ESTIMACIN DE LOS INTERVALOS DE CONFIANZA
El error estndar de la estimacin es una medida vlida para
utilizarla al fijar los
intervalos de confianza cuando el tamao de muestra es grande y
de alguna forma la
dispersin con respeto a la recta de la regresin est distribuida
de manera normal.
Un intervalo de confianza se determinar para:
1.- El valor medio de Y para un valor dado de X
2.- Un valor individual de Y para un valor dado de X
t (Syx)
( )
Donde
Y' = es el valor pronosticado para cualquier valor X
seleccionado
X = es cualquier valor seleccionado de X
= es la media de X
n = en el nmero de observaciones
Syx = es el error estndar de la estimacin
t = es el valor de t tomado para n 2
Ejemplo
De acuerdo a los datos anteriores. Calcular los intervalos de
confianza para la venta de
cajas de gaseosas cuando la inversin en publicidad es 100.00
(millones de dlares)
= es 1426.98 para un X igual a 100
= 60.0857 n = 7 Syx = 136.21 t (n 2) = t (7 -2) (0,05)=
2.571
1426.98
Marca
Gastos de
Publicidad
X
Ventas
de
Cajas
y
Rendimiento
Pronosticado
Desviaciones
y -
Desviaciones al
cuadrado
Coca cola 131.3 1929.2 1878.45 50.75 2575.56
Pepsi 92.4 1384.6 1317.35 67.25 4522.56
Kola real 60.4 811.4 855.78 - 44.38 1969.58
Sprite 55.7 541.5 787.99 - 246.49 60757.32
Inca cola 40.2 536.9 564.42 - 27.52 757.35
Concordia 29.0 535.6 402.87 132.73 17617.25
7 up 11.6 219.5 151.89 67.61 4571.11
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
48
1426.98 195.1291 = 1622.1091 y 1231.8509
Interpretacin.-
Cuando se invierte 100 millones de dlares en publicidad, se
espera que la venta de
gaseosas est comprendida entre1622.1091 y 1231.8509 miles de
cajas
Pero cuando a se trata de un valor individual la frmula es:
t(Syx)
( )
Ejemplo.
- Cuanto ser la venta de cajas de Inca cola, cuando esta compaa
invierta 100
millones en publicidad:
1426.98
1426.98 1972.305y 881.655
Interpretacin.-
Con una probabilidad del 0,95 se puede afirmar que cuando la
Inca Cola invierta 100
millones en publicidad sus ventas estarn comprendidas entre
1972.305 y 881.655
cajas.
RELACIN ENTRE COEFICIENTE DE CORRELACIN, COEFICIENTE DE
DETERMINACIN
Y ERROR ESTANDAR DE ESTIMACIN
Un medio conveniente para mostrar la relacin entre estas tres
medidas es la ANAVA,
recordemos que:
El error estndar de la estimacin mide cun cerca de la recta de
regresin se
encuentra los valores reales. Cuando el valor es pequeo indica
que las dos variables
estn relacionadas muy de cerca.
El coeficiente de correlacin mide la fuerza de la asociacin
entre dos variables.
Cundo los puntos del diagrama de dispersin parecen cercanos a la
lnea recta, se
observa que el coeficiente de correlacin tiende a ser grande.
Luego el error estndar
de la estimacin y coeficiente de correlacin indican la misma
informacin, pero
utilizan escalas diferentes.
El coeficiente de determinacin mide el porcentaje de la variacin
de Y que se explica
por la variacin de X
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
49
ANLISIS DE VARIANCIA PARA LA REGRESIN LINEAL SIMPLE:
Cuando cada particin se asocia a una porcin correspondiente del
total de grados de
libertad, la tcnica es conocida como anlisis de variancia
(ANAVA), que generalmente
se presenta en un cuadro de la siguiente manera
A N A V A
Fuentes de
Variacin
Suma de
Cuadrados
Grados de
Libertad
Cuadrado
Medio
Prueba de
significacin
Significacin
estadstica
Regresin SC r =
1
Error SC e = ( ) = SC t SC r
n 2
Total SC t = ( )
n 1
La prueba de F evalua las hiptesis
Ho: 0 No existe una regresin lineal entre X e Y
Ha: Existe regresin lineal de Y en funcin de X
SUMA DE CUADRADOS DEL TOTAL (SCT)
Mide la dispersin (variacin total) en los valores observables de
Y. Este trmino se
utiliza para el clculo de la variancia de la muestra.
SUMA DE CUADRADOS EXPLICADA (SUMA DE CUADRADOS DEBIDO A LA
REGRESIN
(SCR)
Mide la variabilidad total en los valores observados de y en
consideracin a la relacin
lineal entre X e Y
SUMA DE CUADRADOS RESIDUAL (Inexplicada, suma de cuadrados del
error, SCE)
Mide la dispersin de los valores de Y observados respecto a la
recta de la regresin Y
(es la cantidad que minimiza cuando se obtiene la recta de la
regresin)
Fuentes de
Variacin
Suma de
Cuadrados
Grados de
Libertad
Cuadrado
Medio
Prueba de
significacin
Significacin
estadstica
Regresin 1
Error
(Residual)
Diferencia
n 2
Total SCY
n 1
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
50
Con los datos de nuestro ejemplo:
A N A V A
Fuentes de
Variacin
SC GL CM F Sign.
Estad.
Regresin 2048831.882 1 2048831.882 110.4244 **
Error 92770.7449 5 18554.1489
Total 2141530.417 6
F (1,5)= 6.61 (
16.26 (
Interpretacin: Realizado el anlisis de variancia (ANAVA) para la
regresin se
encontr una alta significacin estadstica para la regresin, por
lo tanto podemos
decir que existe asociacin entre ambas variables en estudio
=
= 1
=
= 1
= 0,9567 = 95.67%
El 95.67% de las variaciones de la venta de cajas de gaseosas
(Y) es explicado por la
inversin que se hizo en publicidad (X)
r = = 0.9781 (Coeficiente de correlacin)
1 = 4.33% (Coeficiente de no determinacin)
El error estndar de la estimacin tambin puede ser calculado de
la siguiente forma
S yx=
=
= 136.2136
Por ltimo como se observa conforme la Suma de Cuadrado del error
disminuye esta
y por el contrario, conforme disminuye el error estndar se
incrementa
El ANAVA de una regresin lineal puede ser calculado de la
siguiente manera
y ( ) ( )
( ) ( )
1929,2 1878,5 851,2428 1077,9572 1161991,725 50,75 2575,5625
1027,2072 1055154,632
1384,6 1317,35 851,2428 533,3572 284469,9028 67,25 4522,5625
466,1072 217255,9219
811,4 855,78 851,2428 - 39,8428 1587,4487 - 44,38 1969,5844
4,5372 20,5861
541,5 787,99 851,2428 -309,7428 95940,6021 - 246,49 60757,3201 -
63,2528 4000,9167
536,9 564,42 851,2428 -314,3428 98811,3959 - 27,52 757,3504 -
286,8228 82267,3186
535,6 402,87 851,2428 -315,6428 99630,3771 132,73 17617,2529 -
448,3728 201038,1678
219,5 151,89 851,2428 -631,7428 399098,9654 67,61 4571,1121 -
699,3528 489094,3389
2141530,417
SC Total 92770,7449
SC Error 2048831,882
SC Regresin
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
51
A N A V A
Fuentes de variacin
Suma de cuadrados
Grados de libertad
Cuadrados medios
F
Regresin Debido a
[
]
1
Error Residual
(no explicada)
SC total
n
Total (corregida)
(
)
n
INTERVALOS DE CONFIANZA PARA
En muchos casos es de inters conocer entre que valores se
encuentra el coeficiente
de regresin de la poblacin para un cierto grado de confianza
fijada, este
procedimiento permite hallas los valores llamados lmites de
confianza, as:
{ } 1
Donde
es el valor t tabular a nivel de significancia y n 2 grados de
libertad
REGRESION PARABOLICA SIMPLE
La regresin parablica simple, se aplica a aquellos fenmenos que
se observan que
presentan una concentracin de puntos inicialmente ascendentes y
en seguida
descendentes (puede darse lo contrario). Esta regresin parablica
es utilizada en gran
parte, por los economistas, en las funciones de utilidad,
ingresos, etc.
La ecuacin ser
Ejemplo
Con los siguientes datos, haga un estudio de regresin
parablica
29 23 841 24389 707281 667 19343 529 35 34 1225 42875 1500625
1190 41650 1156
29 26 841 24389 707281 754 21866 676
38 30 1444 54872 2085136 1140 43320 900
40 35 1600 64000 2560000 1400 56000 1225 Total 171 148 5951
210525 7560323 5151 182179 4486
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
52
Ecuaciones normales
Calcular:
148 = 5 . (1)
5151 = 171 (2)
182179 = 5951 . (3)
Trabajamos con ecuacin (1) y (2), multiplicando (1) por 34,2
148 = 5 . (1)
5151 = 171 (2)
Tendremos:
5061,6 = -171
5151 171
89,4 0 (4)
Trabajamos con la ecuacin (1) y (3) multiplicando la ecuacin (1)
por 1190,2
148 = 5 . (1)
182179 = 5951 . (3)
Tendremos:
= - 5951
182179 5951
6029,4 0 (5)
Trabajamos con ecuacin (4) y (5)
89,4 (4)
6029,4 (5)
Tendremos:
619822,32
0 69919,2
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
53
Reemplazamos en ecuacin (4) y encontramos
89,4 (4)
89,4
89,4
102,8
102,8
Reemplazamos en ecuacin (1) y encontramos
148 = 5
148 = 5
148 = 5
148 = 5
5
5
5
Cul ser el valor esperado si X = 29
Ahora encontramos la varianza residual no explicada
( )
23 24,65 2,7225 34 32,0 2,00 4,0000 26 24,65 1,35 1,8225
30 33,34 11,1556 35 33,36 1,64 2,6896
Total 148 148,00 0,00 22,3902
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
54
= 4,4780
7,464 (corregida)
Tambin se puede cualcular usando la siguiente formula:
Reemplazando tenemos:
4,4703
Error estndar de la estimacin
2,1143
(Corregido)
Lmites de confianza para
( )
Cules sern los lmites de confianza, cuando el valor de X
24,65 (3,182)(2,7320)
( )
1
r =
r 0,9109
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
55
REGRESION Y CORRELACION EXPONENCIAL Y LOGARITMICA
Cuando las variables estudiadas presentan un crecimiento o
decrecimiento aritmtico,
la regresin lineal es la ms adecuada, pero si hay un crecimiento
o decrecimiento
geomtrico, se debe adoptar la regresin exponencial.
La funcin exponencial:
Se puede convertir en un funcin lineal cuando trabajamos con
logaritmos, ya sean
neperianos o con base 10, dando una funcin logartmica
Log
Para la representacin grfica se debe utilizar papel
semilogaritmico, cuando la
variable X, localizada en el eje horizontal o abscisa, se
presenta en forma de progresin
aritmtica, mientras que en la ordenada, donde se ubica la
variable Y, se expresa en
forma logaritmica, Si ambas variables tienen crecimiento
geomtrico, la
representacin grfica se hace en papel logartmico.
Ejemplo:
Con los siguientes datos, calcule la regresin exponencial
Clculos para una regresin exponencial
log
log
2 3 4 0,47712 0,95424 0,22764 0,60768 4,05
4 6 16 0,77815 3,11261 0,60552 0,84063 6,93
5 12 25 1,07918 5,39591 1,16463 0,95710 9,06
7 24 49 1,38021 9,66147 1,90498 1,19005 15,50
12 45 144 1,65321 19,83855 2,73312 1,77241 59,21
Total 30 90 238 5,36787 38,96278 6,63588 5,36787 94,75
Nota: debe tenerse en cuenta que:
Las ecuaciones normales son:
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
56
Reemplazando tenemos:
5,36787 = 5 log . (1)
38,96278 (2)
Eliminamos log multiplicando la ecuacin (1) por 6 y lo restamos
de la segunda
ecuacin
- 32,20722 = - 30 log . (1)
38,96278 (2)
6,75556 = 58 log
58 log = 6,75556
log =
log 47
antilog 0,11647
Ahora reemplazamos en la ecuacin (1) luego tenemos:
5,36787 = 5 log
5,36787 = 5 log
5 log = 5,36787
5 log = 5,36787
5 log = 5,36787 3,4941
5 log = 1,87377
log =
log
antilog 0,11647
Reemplazamos en la ecuacin general
log
log
Estimar cuando X = 10, tendremos
log
log
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
57
Log
= antilog 1,53947
= 34,63
Tambin podemos calcular y de la siguiente manera:
log
log
log 0,11647
antilog de 0,11647
1,3075
log
log =
log = 0,37475
2,37
Varianza residual y el error estndar de la estimacin
( )
log log log log ( )
0,47712 0,60768 0,13056 0,0170459
0,77815 0,84063 0,06248 0,0039038
1,07918 0,95710 0,12208 0,0161493
1,38021 1,19005 0,19016 0,0361608
1,65321 1,77241 0,13056 0,0142086
Total 5,36787 5,36787 0,0000 0,0874684
0,01749368
Este valor tambin se puede calcular de la siguiente manera
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
58
Coeficiente de correlacin al cuadrado
Donde
Luego:
0,9012
Tambin:
r
[ ][ ]
r
[ ][ ]
r
ANLISIS DE REGRESIN MLTIPLE
Estudia la influencia de dos o ms variables independientes sobre
la dependencia de
otra variable dependiente.
La ecuacin ser:
= bo + b1X1 +b2X2
X 1, X2 = son las dos variables independientes
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
59
bo = es la interseccin en Y, es decir, la ordenada con el eje
del punto de
interseccin con el eje Y
b1= es el cambio neto en Y por cada cambio unitario de X1
manteniendo x2
constante (o sea sin cambios). Se denomina coeficiente de
regresin
parcial, coeficiente de regresin neta, ms brevemente,
coeficiente
de regresin.
b2 = Es el cambio neto en Y por unidad de cambio en X2,
manteniendo X1
constante (sin cambios). Tambin se denomina coeficiente de
regresin parcial o simplemente coeficiente de regresin.
La ecuacin de la regresin mltiple se puede ampliar a ms
variables independientes.
Y' = bo +b1X1 + b2X2 +b3X3 ++bkXk
El mtodo de mnimos cuadrados, minimiza la suma de cuadrados de
las desviaciones
verticales con respecto a la lnea de la regresin, principios que
se cumple para la
regresin lineal como para la regresin mltiple.
En el caso de dos variables independientes es necesario resolver
las siguientes
ecuaciones: Y = na + b1X1 +b2X2
X1Y = boX1 + b1 + b2X1X2
X2Y = boX2 + b1X1X2 + b2
Este sistema de ecuaciones se puede resolver de diferentes
maneras, una de ellas es
empleando matrices
Ejemplo.-
El director de personal de una empresa que tiene un importante
grupo de
vendedores, debe entrevistar y seleccionar nuevo personal. Ha
diseado una prueba
que ayuda a seleccionar los mejores aspirantes para su personal
de ventas A fin de
verificar la validez de una prueba como instrumento de prediccin
de las ventas
semanales. Eligi al azar a cinco vendedores y aplic la prueba a
cada uno. Los
importes de ventas semanales se aparearon con el puntaje
obtenido en la prueba y
con la calificacin que se les hizo a su desempeo
1.- Cul ser la ecuacin de regresin mltiple?
2. Supngase que un solicitante de empleo en el departamento de
ventas tuvo un
puntaje de 6,0 en la prueba y una calificacin de desempeo de
3,8. Cules son las
ventas semanales estimadas del solicitante?
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
60
Vendedor Ventas semanales
(en miles de soles) Y
Puntaje de la
Prueba Calificacin de
Desempeo Juan 5 4 2
Andrea 12 7 5
Ral 4 3 1
Steffany 8 6 4
Eduardo 11 10 6
Solucin:
1.- La ecuacin podr ser calculada de la siguiente forma:
[
]
[
] =[
]
Total
Reemplazamos en el arreglo matricial
[
]
[
] =[
]
Encontramos determinante de la matriz 3x3
[
] | |
Procedemos a invertir la matriz cuadrada 3x3
*
+ = 320
*
+ = 120
*
+ = 120
*
+ =120
*
+ = 86
*
+ = 110
*
+ = 120
*
+ = 110
*
+ = 150
[
]
Y
5 4 2 16 4 8 20 10
12 7 5 49 25 35 84 60
4 3 1 9 1 3 12 4
8 6 4 36 16 24 48 32
11 10 6 100 36 60 110 66
40 30 18 210 82 130 274 172
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
61
Luego
[
] [
]
=[
]
Calculamos los coeficientes de la regresin mltiple
[ ( ) ]
= 3,5
= [( ) ]
= 0,975
= [ ( ) ]
= 2,875
Luego la ecuacin ser igual a:
= bo + b1X1 + b2X2
= 3, 5 + ( 0,975) X1 + 2,875X2
Y' = 3,5 + (0,975)6,0 + 2,875(3,8)
Y' = 8,575 miles de nuevos soles.
ERROR ESTNDAR MLTIPLE DE LA ESTIMACIN:
El error estndar de la estimacin en el anlisis de la regresin
mltiple mide el error
para valores de Y con respecto al plano de regresin si es que
intervienen dos variables
independientes.
Sy.12 =
Puntaje
de
Prueba
Calificacin
de
Desempeo
Ventas
semanales
(miles de
soles)
Ventas
semanales
Pronosticadas
(miles de soles)
( )
Juan 4 2 5 5,35 0,35 0,1225
Andrea 7 5 12 11,05 0,95 0,9025
Ral 3 1 4 3,45 0,55 0,3025
Steffany 6 4 8 9,15 1,15 1,3225
Eduardo 10 6 11 11,00 0,00 0,0000
Total 0,00 2,6500
Sy.12 =
= 1,151 miles de soles
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
62
COEFICIENTE DE CORRELACIN MULTIPLE. (r)
Es la medida de la fuerza de la asociacin entre la variable
dependiente y dos o ms
variables independientes
Este coeficiente toma valores entre 0 y a 1 inclusive, siempre
es positiva Ejemplo Un
coeficiente de 0,94 indica una asociacin muy fuerte entre las
variables dependiente e
independiente. Un coeficiente de 0,09 revela una relacin muy
dbil
Correlacin Correlacin Correlacin pequea moderada grande
0 0,50 1,00
sin correlacin correlacin perfecta
COEFICIENTE DE DETERMINACIN MLTIPLE (r2).-- Proporcin
(porcentaje) de la
variacin total en la variable dependiente Y que se explica por
medio del conjunto de
variables independientes
COEFICIENTE DE NO DETERMINACIN MLTIPLE (1 r2).- mide la
proporcin de la
variacin total en la variable dependiente Y, que no se debe a
las variables
independiente. A N A V A
Fuentes
de
Variacin
Suma de
Cuadrados
Grados de
Libertad
Cuadrado
Medio
Prueba de
significacin
Significacin
estadstica
Regresin K Error n Total n 1
El coeficiente de determinacin se puede calcular de la siguiente
manera:
Error estndar de la estimacin mltiple ser igual a:
Sy.12 =
Total
y ( ) ( )
( ) ( )
5 5,39 8 3 9 0,35 0,1225 2,65 7,0225 12 11,05 8 4 16 0,95 0,9025
3,05 9,3025
4 3,45 8 4 16 0,55 0,3025 4,55 20,7025 8 9,15 8 0 0 1,15 1,3225
1,15 1,3225 11 11 8 3 9 0 0 3 9
40 40 0 50 0 2,65 0 47,35
-
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II
63
A N A V A
Fuentes de variacin SC GL CM F SIG
Regresin 47.35 2 23.675 17.87 N.S.
Error 2.65 2 1.325
Total 50 4
F(2,2)= 19,00 ( 99,50 (
Coeficiente de determinacin:
=
%