Análisis de varianza con spss
Post on 23-Jun-2015
674 Views
Preview:
DESCRIPTION
Transcript
AUTORES Msc. JORGE ACOSTA PISCOYA. Licenciado En Estadística
Msc. DEBORA MEJIA PACHECO. Licenciado En Estadística DOCENTES ASCRITOS AL DEPARTAMENTO DE ESTADISTICA
DE LA UNPRG – LAMBAYEQUE 2010
ACARGO DE LA ASIGNATURA DE:
ESTADÍSTICA
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
2
Análisis de varianza.
Es una técnica estadística para comparar si son iguales las medias de
más de dos poblaciones mediante el análisis y la comparación de diversos
tipos de varianzas muéstrales insesgados.
El nombre de análisis de varianza (ANOVA) que se da a esta prueba de
varias medias, proviene del hecho que este método se basa en la
comparación de varianzas estimadas de las diversas fuentes.
Cada método de análisis de varianza esta asociada a un modelo
matemático especifico. Si el modelo es de una variable, se denomina de
clasificación simple o de un solo factor, si son de dos variables, el modelo se
denomina de clasificación simple doble o de dos factores.
1.- Análisis de varianza de un Factor: Diseño completamente
Aleatorizado. Sea X una característica que se mide en K poblaciones ( o
tratamientos) diferentes con medias respectivas k ,...,, 21 y varianzas
respectivas 22
2
2
1 ,...,, k .
Las suposiciones del ANOVA son:
1.- Las K poblaciones son independientes (o las K muestras
independientes).
2.- Cada población tiene distribución normal, ),( 2
iN
3.- Las K varianzas son iguales a la varianza común 2
Las K poblaciones juntas constituyen una población mayor cuya media µ se
define por:
K
k
i
i 1
Para cada ki ,...,2,1 sea inii xxx ,...,, 21 , una muestra aleatoria simple de
tamaño ni escogida de la i-esima población.
Estas K muestran constituyen los subgrupos que se suponen pues son
independientes.
En el modelo de clasificación de un solo factor completamente
aleatorizado los valores ijx de las K muestras (j-ésima observación de la i-
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
3
ésima muestra j = 1, 2,…, ni; i = 1, 2,…, k) se registran en un arreglo
tabular como el de la siguiente tabla:
Datos de K muestras aleatorias independientes.
TRATAMIENTOS
1 2 …. I …. k
x11 x12 …. xi1 …. xk1 x21 x22 …. xi2 …. xk2
. . …. . …. .
. . ….. . ….. .
. . ….. . …… .
X1n1 x2n2 …. Xini …. xknk
TOTAL T1. T2. Ti. … TK. T..
ni n1 n2 ni … nk n
MEDIAS .1x .2x .ix … .kx ..x
En donde:
..T : es la suma de los datos de la muestra i
.iT : es el total de datos de las k muestras.
nnnn k ...21 , es el total de observado de las k muestras.
.ix , es la media muestral i (estimación insesgada da la media i )
..x , media total muestral (estimación insesgada de la media )
2.- EL MODELO DEL ANAVA:
Cada observación ijx (i=1,2,…,k; j=1,2,…,ni) de la muestra se
expresa en la forma:
ijijx
ij : mide la desviación del dato observado ijx con respecto a la
media i esta desviación se denomina también error o residuo.
Dado a que la variable aleatoria ijx son independientes y tienen
una distribución normal ),( 2iN las ij son también variables aleatorias
independientes y tienen una distribución normal ),0( 2N .
Cada media i se desvía de la media total con cantidad
ii , que se denomina efecto del i-ésimo tratamiento, observe que:
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
4
k
i
i
1
0
El modelo de clasificación simple o de un factor completamente
aleatorizado es:
ijiijiijx
Donde: i=1,2,…,k; j=1,2,…,ni , nni ,
Las variables aleatorias ijx son independientes y ),( 2N
Las variables aleatorias ij son independientes y ),0( 2N
Es la media total y ii , es el efecto del tratamiento.
3.- LA HIPOTESIS ANOVA:
La hipótesis nula consiste en afirmar que las medias de las k
poblaciones o tratamientos son iguales:
0...: 210 kH
La hipótesis alternativa es:
Caso1: :1H No Todas las medias son iguales.
Caso2: :1H Al menos una de las i no son iguales a cero
Regla de decisión:
Rechazar 0H si Fcal. > C. En el modo p
Si p = P[F>Fcal.], se rechaza la hipótesis nula, si p
TABLA ANOVA DE UN FACTOR COMPLETAMENTE ALEATORIZADO
Fuente de
Variación
Suma de
Cuadrados
Grados de
Libertad
Cuadrado
Medios
Razón F
calculada
* Tratamientos
(columnas)
* Error
SCC
SCE
k-1
n-k
1
K
SCCCMC
kn
SCECME
CME
CMCFcal
TOTAL SCT n-1
Región Crítica
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
5
SCC : Suma de cuadrado de las columnas o entre tratamientos.
SCE : Suma de cuadrado del error o dentro de tratamientos. SCT : Suma del cuadrado del total.
CMC : cuadrado medios para la columna. CME : cuadrados medios para el error.
Fcal : El valor de F calculado.
k
i
n
j
k
i
n
j
ijij
i i
CxxxSCT1 1 1 1
22
.. ; Donde n
TC
2
..
k
i i
ik
i
n
j
k
i
iii Cn
TxxnxxSCC
i
1
2
.
1 1 1
2
.
2
... ..
SCCSCTSCE
Ejemplo1.- Una compañía desea comparar cuatro tipos de neumáticos.
Se asigno aleatoriamente los neumáticos a seis automóviles semejantes.
La duración de los neumáticos en miles de kilómetros se da en la tabla
siguiente:
N1 N2 N3 N4
55 63 48 59
53 67 50 68
50 55 59 57
60 62 50 66
55 70 47 71
65 75 61 73
Al nivel de significancia del 5%
(a) ¿Se puede concluir que existe alguna diferencia en los rendimientos
medios de los tipos de neumáticos?
(b) si se rechaza la hipótesis nula, utilice la prueba t para probar si la
duración media de los neumáticos tipo 1 es distinta a la duración
media de los neumáticos de tipo 4?
SOLUCION
Primera solución por el método tradicional sin utilizar spss
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
6
(a)
N1 N2 N3 N4
55 63 48 59
53 67 50 68
50 55 59 57
60 62 50 66
55 70 47 71
65 75 61 73
T.. 338 392 315 394 T.. = 1439
ni 6 6 6 6 n = 24
.ix 56.33 65.33 52.5 65.67 ..x = 59.96
P.1) 43210 : H
:1H No todas las medias son iguales.
P.2) 05.0
P.3) Estadígrafo de Prueba:
knkFCME
CMCFcal ,1 g.l.
k = 4
n = 24
P.4) Región crítica:
R.R : [3.10,+∞>
P.5) Calculo del estadígrafo de prueba.
04167.8628024
143922
.. n
TC
46.78104167.862806
394315392338 2222
1
2
.
k
i i
i Cn
TSCC
4
1
6
1
2 96.155004167.8628087831i j
ij CxSCT
5.76946.78196.1550 SCCSCTSCE
F0.95,3,20 = 3.10
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
7
TABLA ANOVA
Fuente de
Variación
Suma de
Cuadrados
Grados de
Libertad
Cuadrado
Medios
Razón F
calculada
* Tipos de
Neumáticos
* Error
781.46
769.5
3
20
260.4867
38.475
6.77
TOTAL 1550.96 23
P.6) Decisión: como el valor del F calculado es mayor que el F
tabular (6.77>3.10) se Rechaza la hipótesis nula con un nivel de
significancia del 5%, es decir no todos los rendimientos medios de
los neumáticos son iguales.
(b) P.1) 410 : H
411 : H
P.2) 05.0
P.3) Estadígrafo de Prueba:
lgt
nnCME
xxt .)10(
11
.
41
4.1
P.4) Región de Rechazo:
P.5) Calculo del estadígrafo de prueba:
61.2
6
1
6
1*475.38
67.6533.56
t
P.6) Decisión: con un nivel de significancia del 5% se rechaza H0,
es decir el rendimiento del tipo de neumático 1 es diferente
al rendimiento del tipo de neumático 4.
-2.228 2.228 t0.975,10
R:R <-∞,-2.228] U [2.228, +∞>
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
8
Solución con spps, primero ingresamos los datos, creamos tres
variables, como se muestra:
Como son cuatro tipos de Neumáticos, procedemos a etiquetar la
variable como se muestra:
Como se prueban los neumáticos en seis diferentes tipos de Autos,
etiquetamos la variable Autos.
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
9
Creamos una tercera variable llamada duración, la cual la tenemos
que ponderar, seleccionamos el menú datos y ponderar casos:
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
10
Seleccionamos Ponderar casos mediante frecuencias y Aceptar,
luego nos vamos al menú analizar, Estadísticas descriptivas y
tablas de contingencia y seleccionamos las variables como se
muestra:
Clic en aceptar y la vista de resultados nos muestra la siguiente
tabla:
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
11
Tabla de contingencia Auto * Neumático
Auto Neumático
Total Neumática 1 Neumático 2 Neumático 3 Neumático 4
Auto 1 55 63 48 59 225
Auto 2 53 67 50 68 238
Auto 3 50 55 59 57 221
Auto 4 60 62 50 66 238
Auto 5 55 70 47 71 243
Auto 6 65 75 61 73 274
Total 338 392 315 394 1439
Como se puede apreciar esta tabla es igual a la tabla de la data
original
Para poner a su estado original la base de datos, nos vamos a datos,
ponderar casos y hacemos clic en restablecer, y clic en Aceptar :
Luego seleccionamos la opción analizar, comparación de medias y
seleccionamos Medias:
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
12
Seleccionamos las variables correspondientes a analizar y clic en
aceptar y la ventana de vista de resultados nos proporciona la
siguiente información:
Informe
Frecuencias
Neumático Media N Desv. típ.
Neumático 1 56,33 6 5,354
Neumático 2 65,33 6 6,947
Neumático 3 52,50 6 5,958
Neumático 4 65,67 6 6,439
Total 59,96 24 8,212
Antes de realizar el ANAVA hay que verificar los requisitos, primero
hacemos la prueba de normalidad, seleccionamos analizar,
Estadísticos Descriptivos y explorar,
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
13
Clic en gráficos y aparece la siguiente ventana, donde
seleccionamos gráficos con prueba de Normalidad y continuar:
Luego clic en Aceptar, y la vista de Resultados nos proporciona la
siguiente información:
Pruebas de normalidad
Neumático Kolmogorov-Smirnova Shapiro-Wilk Estadístico gl Sig. Estadístico gl Sig.
duración Neumático 1 ,265 6 ,200* ,940 6 ,662
Neumático 2 ,149 6 ,200* ,990 6 ,990
Neumático 3 ,329 6 ,041 ,823 6 ,094
Neumático 4 ,187 6 ,200* ,923 6 ,526
a. Corrección de la significación de Lilliefors
*. Este es un límite inferior de la significación verdadera.
Escogemos la Prueba de shapiro-wilk, dado a que las muestras son
pequeñas (n<50) observamos que todos los valores de significancia
obtenidos por la prueba de normalidad son mayores al nivel de
significancia de prueba 0.05, por lo tanto existe normalidad en las
muestras de la duración de los diversos tipos de neumáticos.
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
14
Segundo requisito homogeneidad de varianzas, primero lo hacemos
gráficamente, seleccionamos el menú de gráficos, cuadro de
dialogo antiguo, seleccionamos BARRAS ERROR, aparece la
siguiente ventana:
Seleccionamos Simple y clic en definir
En variable ingresamos la duración y en el eje de categoría
Neumáticos, en las barras representan seleccionamos Error típico
de la media multiplicada por 2 y aceptar
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
15
Gráficamente observamos que la duración de los cinco tipos de
neumáticos es homogénea, el punto es el valor de la media y se
extiende a 2 veces el valor de la desviación estándar hacia la
izquierda y hacia la derecha.
Estadísticamente probamos la homogeneidad de las varianzas,
menú analizar, comparación de medias y ANOVA de un factor
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
16
Clic en opciones, seleccionamos Estadísticos Descriptivos, Prueba
de homogeneidad de las varianzas y gráficos de medias:
Clic en continuar y Aceptar , la vista de Resultados nos proporciona
las siguiente información:
1. Una tabla de las estadísticas Descriptivas de los diferentes tipos
de neumáticos.
Descriptivos
duración
N Media Desviaci
ón típica
Error
típico
Intervalo de confianza
para la media al 95%
Mínimo Máximo
Límite
inferior
Límite
superior
Neumático 1 6 56,33 5,354 2,186 50,71 61,95 50 65
Neumático 2 6 65,33 6,947 2,836 58,04 72,62 55 75
Neumático 3 6 52,50 5,958 2,432 46,25 58,75 47 61
Neumático 4 6 65,67 6,439 2,629 58,91 72,42 57 73
Total 24 59,96 8,212 1,676 56,49 63,43 47 75
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
17
2. La prueba de homogeneidad de varianzas, donde el resultado de
significancia del estadístico de Levene es mayor que el nivel de
significancia de la prueba (0.908>0.05) por lo tanto se acepta la
hipótesis nula, es decir existe homogeneidad en las varianzas de
la duración de los 5 tipos de neumáticos.
Prueba de homogeneidad de varianzas
duración
Estadístico de Levene gl1 gl2 Sig.
,181 3 20 ,908
3. El gráfico de medias, donde se observa que el neumático 3, es el
que tiene el menor rendimiento promedio de duración y el tipo de
neumático 4 es el que tiene el mayor rendimiento promedio de
duración.
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
18
4. La tabla de Análisis de Varianza
ANOVA
Frecuencias
Suma de
cuadrados
gl Media
cuadrática
F Sig.
Inter-grupos 781,458 3 260,486 6,770 ,002
Intra-grupos 769,500 20 38,475
Total 1550,958 23
Como el valor del p< (0.002<0.05) se rechaza H0 es decir no
todas las medias son iguales.
Para saber cuales de las medias no son iguales seleccionamos el menú
analizar, comparación de medias y ANOVA de un factor
Seleccionamos la opción POST HOC, dado a que ya se probo que las
varianzas son iguales seleccionamos la prueba de SHEFFE y clic en
continuar y aceptar
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
19
La vista de resultados nos proporciona los siguientes resultados:
(I) Neumático Sig.
(J) Neumático
Neumático
1
Neumático
2
Neumático
3
Neumático
4
Neumático 1 ,132 ,767 ,112
Neumático 2 ,132 ,017 1,000
Neumático 3 ,767 ,017 ,014
Neumático 4 ,112 1,000 ,014
Observamos que la diferencia significativa esta entre el tipo de
neumático 2 con el tipo de neumático 3 y el tipo de neumático 3
con el tipo de neumático 4.
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
20
2.- El gerente de compras de la empresa “Moda” desea comparar la velocidad
de cuatro máquinas de marcas diferentes con el fin de adquirir la más veloz
para su uso en una confección específica. Para esto observo los tiempos
que cada máquina utiliza para producir 6 unidades de la confección en
forma aleatoria. Los tiempos que cada máquina utiliza para producir 6
unidades de la confección en forma aleatoria. Los tiempos registrados en
segundos se presentan en la tabla:
Máquina
1 2 3 4
55 60 64 42
46 58 62 45
45 68 51 52
73 58 57 44
50 63 65 42
63 52 68 56
Totales Ti. 332 359 367 281 T..=1339
ni=r 6 6 6 6 n=24
Media .ix 55.33 59.83 61.17 46.83 ..x =55.79
Solución:
43210 : H
:1H No todas las medias son iguales.
Utilizando SPSS para darle solución, creamos nuestra base de datos,
luego en la barra de menú seleccionamos Analizar, comparación de
Medias y la opción medias introducimos las variables
correspondientes:
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
21
La ventana de Resultados nos proporciona la siguiente información:
Informe
Tiempo
Máquina Media N Desv. típ.
Máquina 1 55,33 6 10,893
Máquina 2 59,83 6 5,382
Máquina 3 61,17 6 6,178
Máquina 4 46,83 6 5,811
Total 55,79 24 8,973
Antes de realizar el ANAVA hay que verificar los requisitos, primero
hacemos la prueba de normalidad, seleccionamos analizar,
Estadísticos Descriptivos y explorar
Luego seleccionamos la opción gráficos y pedimos que realice la
prueba de Normalidad y la vista de resultados nos proporciona la
siguiente información:
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
22
Pruebas de normalidad
Máquina Kolmogorov-Smirnova Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Tiempo Máquina 1 ,188 6 ,200* ,908 6 ,426
Máquina 2 ,200 6 ,200* ,972 6 ,908
Máquina 3 ,220 6 ,200* ,934 6 ,614
Máquina 4 ,290 6 ,124 ,838 6 ,126
a. Corrección de la significación de Lilliefors
*. Este es un límite inferior de la significación verdadera.
Escogemos la Prueba de shapiro-wilk, dado a que las muestras son
pequeñas (n<50) observamos que todos los valores de significancia
obtenidos por la prueba de normalidad son mayores al nivel de
significancia de prueba 0.05, por lo tanto existe normalidad en los
tiempos de confección empleado por los diferentes tipos de máquinas.
Verificamos el Segundo requisito homogeneidad de varianzas, primero
lo hacemos gráficamente, seleccionamos el menú de gráficos, cuadro
de dialogo antiguo, seleccionamos BARRAS ERROR, aparece la
siguiente ventana:
Seleccionamos Simple y clic en definir
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
23
En variable ingresamos el tiempo y en el eje de categoría Máquina, en
las barras representan seleccionamos Error típico de la media
multiplicada por 2 y aceptar
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
24
Gráficamente observamos que la duración de los cinco tipos de
neumáticos es homogénea, el punto es el valor de la media y se
extiende a 2 veces el valor de la desviación estándar hacia la
izquierda y hacia la derecha, observamos también que el tiempo
empleado en la confección por la máquina uno presenta mayor
dispersión.
Estadísticamente probamos la homogeneidad de las varianzas,
menú analizar, comparación de medias y ANOVA de un factor
Clic en opciones, seleccionamos Estadísticos Descriptivos, Prueba
de homogeneidad de las varianzas y gráficos de medias:
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
25
Clic en continuar y Aceptar , la vista de Resultados nos proporciona
las siguiente información:
1. La prueba de homogeneidad de varianzas, donde el resultado de
significancia del estadístico de Levene es mayor que el nivel de
significancia de la prueba (0.216>0.05) por lo tanto se acepta la
hipótesis nula, es decir existe homogeneidad en las varianzas de
los tiempos empleados en la confección por los cuatro tipos de
máquina.
Prueba de homogeneidad de varianzas
Tiempo
Estadístico de Levene gl1 gl2 Sig.
1,622 3 20 ,216
2. Comprobado los requisitos realizamos la interpretación del
Análisis de Varianza
ANOVA
Tiempo Suma de
cuadrados
gl Media
cuadrática
F Sig.
Inter-grupos 754,125 3 251,375 4,579 ,013
Intra-grupos 1097,833 20 54,892
Total 1851,958 23
Como el valor del p< (0.013<0.05) se rechaza H0 es decir no
todas las medias son iguales.
3. En el gráfico de medias, se observa que la máquina 3, es el que
tiene el mayor rendimiento promedio en el tiempo empleado en la
confección de prendas de vestir y el tipo de máquina 4 es el que
tiene menor rendimiento promedio en el tiempo empleado en la
confección de prendas de vestir.
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
26
Como se rechazo la hipótesis nula, Para saber cuales de las medias no
son iguales seleccionamos el menú analizar, comparación de medias y
ANOVA de un factor
Seleccionamos la opción POST HOC, dado a que ya se probo que las
varianzas son iguales seleccionamos la prueba de SHEFFE y clic en
continuar y aceptar
Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco
27
La vista de resultados nos proporciona los siguientes resultados:
(I) Máquina Sig.
(J) Máquina
Máquina
1
Máquina
2
Máquina
3
Máquina
4
Máquina 1 ,776 ,610 ,297
Máquina 2 ,776 ,992 ,051
Máquina 3 ,610 ,992 ,028
Máquina 4 ,297 ,051 ,028
Observamos que la diferencia significativa esta entre el tipo de
Máquina 3 con el tipo de máquina 4.
top related