Quinta parte edición electrónica: Introducción al Diseño Estadístico de Experimentos con SPSS. León Darío Bello Parias ©copyright 2011 www.leondariobello.com ● All Rights Reserved Worldwide
Dec 28, 2015
Quinta parte edición electrónica:
Introducción al Diseño Estadístico de
Experimentos con SPSS. León Darío Bello Parias
©copyright 2011 www.leondariobello.com ● All Rights Reserved Worldwide
www.leondariobello.com www.ciemonline.info/blog [email protected]
Aviso Legal
Este texto no puede ser distribuido por ningún medio impreso, electrónico o cualquier otra forma sin permiso escrito del autor. Para adquirir este ebook sobre Introducción al Diseño Estadístico de Experimentos con SPSS debe visitar uno de los sitios que le menciono a continuación www.leondariobello.com/e-books-estadistica o www.ciemonline.info/blog/libros-electronicos-estadistica, allí encontrará la manera de realizar los pedidos, además, diversa información sobre temas de estadística y de mercadeo online.
En caso de requerir alguna consulta puntual sobre los temas expuestos en el texto, pueden expresarla escribiendo al correo [email protected] o solicitar una charla online en la sala de conferencias en la dirección www.gvowebcast.com/conference,leondario.
Tengo la convicción de que éste libro le será de gran ayuda para mejorar y fortalecer sus conocimientos en el diseño estadístico de experimentos y su posterior aplicación a casos cotidianos en diferentes áreas del conocimiento utilizando el software estadístico SPSS y para algunos procedimientos básicos el Excel.
Adquiera el ebook “Estadística como apoyo a la investigación” modulo 3 en su edición digital, tiene todo el soporte y asesoría personalizada para comprender los diferentes temas abordados en el texto. Con la compra de uno sólo de los ebooks referenciados en nuestros sitios web, tiene derecho a la membrecía del club estadístico y marketing por un año a partir de la fecha de su primera compra.
Adelante y muchos éxitos. León Darío Bello Parias www.leondariobello.com/e-books-estadistica www.ciemonline.info/blog/libros-electronicos-estadistica [email protected]
www.leondariobello.com www.ciemonline.info/blog [email protected]
CAPITULO 1
INTRODUCCIÓN AL DISEÑO DE EXPERIMENTOS-SPSS- Existen múltiples diseños experimentales en la teoría estadística, acá, se abordarán algunos de ellos, todos basados en el análisis de varianza (ANOVA), se seleccionaron aquellos que permiten introducir el tema de manera fácil y que son de uso frecuente en diversas áreas del conocimiento, especialmente en el área social y de salud, sin dejar de reconocer que este es un tema de mucha aplicación industrial, siendo un paso más en el control estadístico de procesos. Uno de los objetivos del diseño de experimentos, es identificar aquellos factores que pueden incidir de una u otra manera en el resultado de otra variable, llamada, variable respuesta o dependiente. Debido a que el diseño de experimentos tiene su propio lenguaje, es importante, definir algunos conceptos básicos. 1.1 CONCEPTOS BÁSICOS EN EL DISEÑO EXPERIMENTAL Se empieza por desagregar el nombre del tema a estudiar.
DISEÑO: Descripción de algo, bien sea con palabras o por medio
de figuras. Para el caso, apunta a definir adecuadamente como se
va a realizar la prueba o ensayo, cuál es el número adecuado de
unidades experimentales, la forma de asignar los tratamientos a
esas unidades. Definir si se requieren agrupaciones de categorías,
cada cuanto hay que seleccionar las unidades de análisis y otros
detalles más, dependiendo del tipo de diseño y de los objetivos del
estudio.
Nada nos engaña tanto como
nuestro propio juicio.
LEONARDO DAVINCI.
www.leondariobello.com www.ciemonline.info/blog [email protected]
EXPERIMENTO: Definición del problema, el cual debe tener en
cuenta la definición y selección de las unidades experimentales, de
los tratamientos y de la variable respuesta.
UNIDAD EXPERIMENTAL: Objeto sobre el que se realiza una
medición u observación. Definir claramente sus características.
FACTOR: Variable independiente que se evalúa en la investigación.
Puede ser cuantitativo, con pocas categorías o cualitativo, son
controlados por el investigador.
NIVEL: Atributos o estados en que se descompone un factor.
Cuando se tiene un sólo factor, los niveles son iguales a los
tratamientos. Se presentan niveles fijos o aleatorios. Si se quiere
determinar que un método de aprendizaje es mejor que otro, por
ejemplo, presencial, semi presencial y semi virtual, el factor es el
método de aprendizaje y tiene 3 niveles que son sus categorías.
Si se desea determinar cual medicamento es más eficiente para
disminuir el dolor de cabeza de un total de 50 analgésicos, y se
seleccionan al azar 5 de ellos, se dice que el diseño es de efectos
aleatorios, por el contrario, si sólo nos interesa abordar el problema
con 4 de ellos y se toman los datos para ellos, se dice que es de
efectos fijos.
TRATAMIENTO: Nivel de un factor o una combinación de ellos.
Para los casos mencionados antes, el nivel del factor corresponde a
un tratamiento, pero si además, se desea identificar los cambios
según grupos de edad, un tratamiento para el caso de los métodos
de aprendizaje, sería: presencial y 10 a 15 años, otro sería,
presencial y 16 a 20 años. La siguiente tabla ilustra el caso.
Métodos de aprendizaje
Grupos de
edad (años)
Presencial Semi
presencial
Semi virtual
10 a 15
16 a 20
21 a 25
www.leondariobello.com www.ciemonline.info/blog [email protected]
Un tratamiento es cada combinación o cruce de categorías, este
modelo se conoce como experimento de dos factores. La idea es
generalizable, es decir, se diseñan experimentos de 3 o más
factores y toman el nombre de experimentos factoriales. En este
texto, se trabajará con experimentos de hasta dos factores. Cuando
se tiene un solo factor, se dice que es un modelo de ANOVA de una
vía, si por el contrario son dos, se dice que es de dos vías y así
sucesivamente.
TRATAMIENTO CONTROL: Es necesario cuando la efectividad
general de los tratamientos es desconocida pero no es consistente
bajo todas las condiciones.
VARIABLE RESPUESTA O DEPENDIENTE: Característica
cuantitativa observada o medida en cada unidad experimental. Se
debe definir como se va a medir. Para el caso que se trae, se tiene
que haber definido como se mide de manera cuantitativa los
cambios en el aprendizaje según las diversas modalidades y grupos
de edad.
BLOQUE: Grupo de unidades experimentales homogéneas, origina
un diseño específico de experimentos.
1.2 ANÁLISIS DE VARIANZA PARAMÉTRICO DE UNA VÌA.
El análisis de la varianza (ANOVA) es una técnica estadística de
contraste de hipótesis con respecto a más de dos promedios, por lo
tanto, es la técnica que nos introduce a técnicas multivariantes. El
ANOVA de una vía relaciona una variable independiente
generalmente nominal y otra dependiente o respuesta de carácter
cuantitativa. El diseño más sencillo es el que utiliza una sola
variable independiente y toma el nombre de: Diseño de una vía o de
un solo factor. El tratado en este texto, se conoce como efecto fijo,
es decir, es de interés solamente inferir sobre los tratamientos
seleccionados.
www.leondariobello.com www.ciemonline.info/blog [email protected]
El ANOVA tiene múltiples aplicaciones, todas ellas, en busca de identificar diferencias dentro de las categorías de la variable independiente. Entre otras se pueden mencionar:
Comparación de métodos de aprendizaje
Comparación de métodos de cualquier tipo
Volumen de ventas por estrato.
Facturación por EPS.
Eficiencia de tratamientos de cualquier índole.
Preferencia de candidatos por municipios.
Producción según métodos.
Como las demás pruebas paramétricas, requiere cumplir algunos supuestos, ellos son:
1. Aleatoriedad de los datos para cada tratamiento. Se valida con la prueba de rachas (Wald-Wolfowitz).
2. Normalidad de los datos de cada uno de los tratamientos. La normalidad con Smirnov- Kolmogorov –Lilliefor y el gráfico de probabilidad normal.
3. Homogeneidad de las varianzas entre los tratamiento. La homogeneidad con la prueba de Levene, aunque en los textos generalmente se mencionan: Bartlett, Hartley y Cochran.
1.3 FASES EN EL ANÁLISIS DE VARIANZA.
Identificar la variable dependiente o respuesta y las variables independientes.
Seleccionar el número de factores y niveles.
Selección del diseño de experimentos.
Realización del experimento.
Análisis de datos.
Conclusiones y recomendaciones.
La diapositiva siguiente muestra como la técnica consiste en desagregar la variabilidad total en partes, una debido a la variabilidad dentro de los tratamientos y otra entre ellos. La parte operativa se basa en construir la tabla de ANOVA.
www.leondariobello.com www.ciemonline.info/blog [email protected]
TECNICA DE ANALISIS DE VARIANZA
CONSIDERACIONES GENERALES
El procedimiento implica separar la variabilidad total en:
La variabilidad entre tratamientos (variación sistemática y
Aleatoria) y la variabilidad dentro de los tratamientos (variación
Aleatoria). Lo que queda por demostrar es si el componente 1
es mayor que el componente 2.
Ecuación: SCTO = SCTR + SCE
N-1 k-1 N-k
El cociente entre la suma de cuadrados sobre sus respectivos
grados de libertad, Generan los cuadrados medios.
MCTR y MCE
Material preparado por:
León Darío Bello Parias
Es importante recalcar que el ANOVA compara medias, no varianzas, para ello requiere de algunos cálculos un poco tediosos y con formulas poco amigables, no obstante, con los ejemplos se verá que no se requiere de ningún conocimiento especial en el área matemática. Además, en la práctica, se utiliza software estadístico y/o otros programas que simplifican los cálculos.
Un hecho a resaltar, es qué hacer cuando no se cumplen los supuestos: Si falla la normalidad, el estadístico F es robusto, lo que implica que no es tan problemático la falla de éste supuesto, no obstante, si la no normalidad se da en la mayoría de tratamientos, se puede preferir la prueba Kruskal Wallis de la estadística no paramétrica o ensayar con algunas transformaciones, para lo cual se espera contar con software adecuado para el caso.
Si el problema es de aleatoriedad en los datos, se puede afirmar el adagio popular, “Apague y vámonos”, es decir, hay que volver a tomar las mediciones, si es que se puede.
El problema de homogeneidad de varianzas, llamado heterocedásticidad, usualmente se arregla con transformaciones, en caso contrario de nuevo se puede preferir la no paramétrica.
www.leondariobello.com www.ciemonline.info/blog [email protected]
De manera sintética se presenta la siguiente figura, donde se esquematiza los tres grandes pasos para llevar a cabo un procedimiento de ANOVA, teniendo en cuenta que primero se debe explorar los datos y obviamente validar los supuestos.
PROCEDIMIENTO
1. HIPOTESIS
Ho:Todos los promedios son iguales.
Ha:Al menos un promedio difiere de los demás.
2. ESTADISTICO DE PRUEBA.
F=MCTR MCE
3. REGLA DE DECISIÓN
Si el valor p (Sig) es menor que , se
rechaza Ho.
Material preparado por:
León Darío Bello Parias
ANOVA
PESO
43,799 2 21,900 54,856 ,000
4,791 12 ,399
48,590 14
Inter-grupos
Intra-grupos
Total
Suma decuadrados gl
Mediacuadrática F Sig.
Como se observa, se sigue con el mismo derrotero desarrollado en los problemas de pruebas de hipótesis. Además, la parte de exploración de datos se sugiere para cualquier procedimiento estadístico.
Una manera general de validar los diferentes supuestos es el gráfico de caja y sesgos, ya que permite observar de manera intuitiva, eso sí, la forma de los datos (normalidad) y la variabilidad (varianzas iguales). Además, ayuda a visualizar si los tratamientos son iguales.
VALIDACION DE SUPUESTOS
Material preparado por:
Profesor León Darío Bello Parias
Pruebas de normalidad
,231 5 ,200* ,812 5 ,120
,248 5 ,200* ,743 5 ,038
,165 5 ,200* ,978 5 ,894
OPERADOR
A
B
C
PESO
Estadístico gl Sig. Estadístico gl Sig.
Kolmogorov-Smirnova Shapiro-Wilk
Este es un límite inferior de la significación verdadera.*.
Corrección de la significación de Lil l ieforsa.
Prueba de homogeneidad de varianzas
PESO
4,720 2 12 ,031
Estadísticode Levene gl1 gl2 Sig.
Prueba de rachas
135,90 136,58 140,00
2 2 2
3 3 3
5 5 5
2 2 3
-,982 -,982 ,000
,326 ,326 1,000
Valor de pruebaa
Casos < Valor deprueba
Casos >= Valor deprueba
Casos en total
Número de rachas
Z
Sig. asintót.(bilateral)
A B C
Medianaa.
www.leondariobello.com www.ciemonline.info/blog [email protected]
El gráfico de caja y sesgo, sugiere que el tratamiento C difiere de los otros dos, además, que el tratamiento B tiene una variabilidad muy baja, como ya se mencionó esto es intuitivo, por ello, usando el programa estadístico SPSS se ejecuta la prueba de rachas para la aleatoriedad, la de Shapiro Wills de normalidad y la de Levene para homogeneidad de varianzas.
La tabla de Análisis de varianza tiene la siguiente presentación:
Tabla de ANOVA
Fuente Suma de cuadrados
g.l Cuadrados medios
Estadístico F
Valor P.
Entre grupos N
Tt
n
k
ii
i
2
1
21
k-1 SCE/(K-1) CME/CMD
Dentro de grupos
SCD=SCTO-SCE
N-k SCD/(N-K)
Total 2
1 1
2
N
Ty
k
i
n
j ij
j N-1
t2i: Suma valores tratamiento i.
ni: Número de observaciones tratamiento i.
N: Número total de observaciones.
K: Número de tratamientos.
T: Suma valores de todos los tratamientos.
yij: Mediciones de cada tratamiento.
SCD: suma de cuadrados dentro de los tratamientos.
SCE: suma de cuadrados entre los tratamientos.
SCTO: suma de cuadrados totales.
Con el siguiente ejemplo se desarrolla el procedimiento, asumiendo que se cumplen los supuestos.
www.leondariobello.com www.ciemonline.info/blog [email protected]
Ejemplo: .Se supone que el tratamiento (después del moldeo) de
un plástico que se usa para lentes ópticos, mejora su visibilidad.
Deben probarse cuatro tratamientos. Para determinar si existe una
diferencia en la visibilidad media entre los tratamientos, se
moldearon 28 piezas a partir de una sola formulación y se asignaron
aleatoriamente siete piezas a cada tratamiento. Se determinó la
visibilidad midiendo el aumento en “Empañamiento” después de
200 ciclos de abrasión(los aumentos menores indican mayor
visibilidad).
Solución manual.
1. Definir hipótesis.
43210H
Ha: Al menos un promedio es diferente de los demás.
2. Calcular el estadístico de prueba, valga decir, construir la tabla ANOVA
Tratamiento
A B C D
9.16 11.95 11.47 11.36
11.97 15.15 9.54 8.73
12.07 14.75 11.26 10
yij 11.97 14.79 13.66 9.75
13.31 14.79 11.18 11.71
12.32 13.47 11.26 12.45
11.78 13.06 14.86 10
Totales (ti) 82.58 97.96 83.23 74 T= 337.77
ni 7 7 7 7 N = 28
k
i
n
j ij
j
y1 1
2 =
9.162+11.972+12.072+...+15.152+14.752+......+12.452+102=
4.164,246
www.leondariobello.com www.ciemonline.info/blog [email protected]
SCT= 4.164,246 -28
77,337 2
= 89,654
SCE= 3868.4228
77,337)7423,8396,9758,82(
7
1 22222
SCD= 89.654-42.3868=47,2671
Fuente Suma de cuadrados
g.l Cuadrados medios
Estadístico F
Valor P.
Entre grupos
42.3868 3 14,1286 7.1738
Dentro de grupos
47,2671 24 1,9694
Total 89,654 27
F=CME/CMD=7.1738
=DISTR.F.INV(0.05,3,24)=3.008
3. Regla de Decisión:
Como Fcalculado> F tabla (7.1738>3.008), se puede afirmar con una
confianza del 95% que existe al menos un promedio diferente de los
demás.
Solución Excel.
Luego de activar la opción Datos +Análisis de datos +Análisis de
varianza de un factor, se define el rango de entrada de los datos y
el de salida, tal como se muestra a continuación.
www.leondariobello.com www.ciemonline.info/blog [email protected]
Para obtener los siguientes resultados.
Los resultados obtenidos, son iguales a los presentados realizando
los cálculos de manera manual. Por lo tanto, las conclusiones e
interpretaciones ya descritas son validas.
Es claro, que se tienen elementos para aplicar la técnica de Análisis
de Varianza de un Factor utilizando el Excel, sin embargo, es
importante tener claridad sobre la importancia de la validez de los
supuestos, ya que, en caso de que no se cumpla alguno de ellos, se
debe procurar su remedio y/o trabajar con la estadística no
paramétrica.
Solución SPSS.
Dada la gama de opciones del programa estadístico SPSS en los
diversos análisis de varianza, se describe el procedimiento para un
factor o una vía.
Luego de abrir el programa, y como es usual en el uso del mismo,
se activa la opción Analizar + Estadísticos descriptivos +
Explorar. Tal como se muestra en la siguiente figura.
www.leondariobello.com www.ciemonline.info/blog [email protected]
Se destaca que la manera de entrar los datos es diferente al
programa Excel, se nota que sólo se requiere de dos columnas, una
para la variable cuantitativa o variable respuesta y otra que tambièn
se debe definir como numérica, sin serlo, para los diferentes
tratamientos, por eso se requiere entrar codigos de nùmeros para
luego colocarles etiquetas.
Posteriormente, se procede a entrar las variables como se presenta
en los cuadros de dialogo del programa.
La variable dependiente es la cuantitativa y el factor es la
independiente, luego de entrar por Opciones, se solicita el gràfico
de normalidad, que entrega las pruebas de Kolmogorov-Smirnov y
Shapiro-Wilk y la estimaciòn de potencia, la cual arroja la prueba de
homogeneidad de la varianza.
www.leondariobello.com www.ciemonline.info/blog [email protected]
Pruebas de normalidad
TRATAMIENTOS
Kolmogorov-Smirnov(a) Shapiro-Wilk
Estadístico Gl Sig.
Estadístico gl Sig.
Empañamiento
A ,352 7 ,009 ,791 7 ,034
B ,309 7 ,043 ,860 7 ,153
C ,308 7 ,044 ,885 7 ,251
D ,241 7 ,200(*) ,948 7 ,708
* Este es un límite inferior de la significación verdadera. a Corrección de la significación de Lilliefors Prueba de homogeneidad de la varianza
Estadístico de Levene gl1 gl2 Sig.
Empañamiento Basándose en la media ,672 3 24 ,577
Basándose en la mediana. ,202 3 24 ,894
Basándose en la mediana y con gl corregido
,202 3 21,337 ,894
Basándose en la media recortada ,669 3 24 ,579
Dado los tamaños de muestra pequeños, se observan los valores Sig de la prueba de Shapiro Wilk, donde sólo el tratamiento A da un valor menor de 0.05, lo que indicaría que sus datos no se distribuyen normal, no obstante, al la mayoría de tratamientos ser normales, se puede proseguir con el ANOVA paramétrico. Con respecto a la homogeneidad de varianzas, la prueba confirma que los tratamientos tienen varianzas similares, por lo tanto, se cumple son estos supuestos. Para validar la aleatoriedad de los datos, supuesto vital para la validez del procedimiento, se requiere primero segmentar el archivo, opción ubicada activando en el menú principal: Datos + Segmentar archivos.
www.leondariobello.com www.ciemonline.info/blog [email protected]
A continuación, se entra por la ruta Analizar + pruebas no paramétricas + Rachas, contrastando la variable Empañamiento como se muestra en la figura anterior, parte derecha. Los resultados obtenidos y ajustados para el texto son:
Prue ba de rachas
11,97
-,380
,704
14,75
-,788
,431
11,26
,684
,494
10,00
,684
,494
Valor de pruebaa
Z
Sig. as intót. (bilateral)
Valor de pruebaa
Z
Sig. as intót. (bilateral)
Valor de pruebaa
Z
Sig. as intót. (bilateral)
Valor de pruebaa
Z
Sig. as intót. (bilateral)
TRATAMIENTOS
A
B
C
D
Empaña
miento
Medianaa.
Si se aprecian los valores de Sig.asintòt. (bilateral), todos ellos, son
mayores de 0.05, con lo cual se concluye que los datos para todos y
cada uno de los tratamientos se comportan de manera aleatoria.
Ahora sí, se puede llevar a cabo el cálculo del ANOVA paramétrico.
No olvide desactivar la segmentación del archivo, sino lo hace, el
procedimiento no se ejecuta.
Analizar + Comparar medias + ANOVA de un factor.
www.leondariobello.com www.ciemonline.info/blog [email protected]
Colocando las variables como se muestra en la salida anterior, se obtiene la siguiente tabla de ANOVA, con resultados iguales a los ya descritos usando el Excel. ANOVA
Empañamiento
Suma de
cuadrados Gl Media
cuadrática F Sig.
Inter-grupos 42,387 3 14,129 7,174 ,001
Intra-grupos 47,268 24 1,969
Total 89,654 27
Como el Sig. Mucho menor de 0.05, se concluye que existe
diferencia en los promedios en al menos uno de los tratamientos.
Para definir cual o cuales son los que difieren, se procede a activar
la opción Post hoc, lo que permite realizar diversas comparaciones,
según diferentes autores, como se presenta a continuación.
¨
Utilizando el de Tukey cuya salida es similar a los otros
procedimientos, se obtiene entre otra información la siguiente:
www.leondariobello.com www.ciemonline.info/blog [email protected]
Empañamiento
TRATAMIENTOS N Subconjunto para alfa =
.05
1 2 1
Tukey B(a)
D 7 10,5714
A 7 11,7971
C 7 11,8900
B 7 13,9943
Se muestran las medias para los grupos en los subconjuntos homogéneos. a Usa el tamaño muestral de la media armónica = 7,000.
Se destaca que el tratamiento B, tal como se había percibido en el
análisis exploratorio es el que difiere de los demás, incluso
detectando que tiene un promedio mayor, en los tratamientos A, C y
D, no hay diferencia en los promedios.
Si se construye el gráfico denominado de barras de errors. Se
confirma lo ya expuesto.
7777N =
Tratamiento
DCBA
95%
IC Ti
empo
16
15
14
13
12
11
10
9
8