Mintab V15 Módulo 4. Estadítica Inferencial P. Reyes / Nov. 2007 Página 1 de 52 MINITAB 15 MÓDULO 4. ESTADÍSTICA INFERENCIAL MÓDULO 4. ESTADÍSTICA INFERENCIAL Se usa para pruebas de hipótesis sobre medias de una y dos poblaciones Requiere un parámetro adicional de Grados de Libertad (gl) = n -1 Excel =Distr.t( valor de t, gl, colas) Área bajo la curva =Distr.t.inv( valor de probabilid Estadístico t para una cierta área El área siempre se divide entre 2 Minitab Calc > Probablity distributions > t Inverse Cumulative probability, Degrees of freedom Input constant (valor de la probabilidad alfa o área bajo la curva) Estadístico t (valor a partir del cual inicia el área bajo la curva alfa) Probabilidad alfa (valor del área bajo la curva corresp. A t) Media = 0 1- Alfa Estadístico t Estadístico t Datos Alfa Minitab en Minitab Excel 10 0.05 0.95 1.83311 1.83311293 10 0.1 0.9 1.38303 1.38302874 Distribución F de Fisher (para probar hipótesis de comparación de varianzas entre dos muestras) Requiere dos parámetros adicionales de Grados de Libertad (gl) = n1 -1 y n2 = 2 Excel =Distr.F( valor de F, gl 1, gl 2) =Distr.F.inv( valor de probabilidad, gl 1, gl 2) Minitab Calc > Probablity distributions > F Inverse Cumulative probability Numerator Degrees of freedom; Denominator Degrees of Freedom Input constant (valor de la probabilidad alfa o área bajo la curva) Estadístico F (valor a partir del cual inicia el área bajo la curva alfa) S1 debe ser mayor a S2 0 Sólo valores positivos en eje horizontal 4.1 Cálculo de probabilidades 4.2 Pruebas de hipótesis de una población 4.3 Pruebas de hipótesis de dos poblaciones 4.4 Tamaño de muestra y potencia 4.5 Análisis de varianza (ANOVA) 4.6 Correlación y Regresión lineal y cuadrática simple 4.7 Regresión Múltiple - Matriz de Correlaciones 4.8 Aplicaciones 4.1 Cálculo de probabilidades Distribución t de Student (para número de muestras menor a 30 o sigma desconocida) Fc= S 1 2 S 2 2
52
Embed
[XLS]icicm.comicicm.com/files/MTB15_ESTADISTICA_INFERENCIAL.xls · Web view1 File > Open worksheet AIRPLANEPIN.MTW. 2 Stat > Basic Statistics > 1 Variance. 3 En la primera línea
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Se usa para pruebas de hipótesis sobre medias de una y dos poblaciones
Requiere un parámetro adicional de Grados de Libertad (gl) = n -1
Excel =Distr.t( valor de t, gl, colas) Área bajo la curva
=Distr.t.inv( valor de probabilidad, gl) Estadístico t para una cierta áreaEl área siempre se divide entre 2
Minitab Calc > Probablity distributions > tInverse Cumulative probability, Degrees of freedomInput constant (valor de la probabilidad alfa o área bajo la curva)
Estadístico t (valor a partir del cual inicia el área bajo la curva alfa)
Probabilidad alfa (valor del área bajo la curva corresp. A t)
Media = 0 1- Alfa Estadístico t Estadístico t
Datos Alfa Minitab en Minitab Excel10 0.05 0.95 1.83311 1.8331129310 0.1 0.9 1.38303 1.38302874
Distribución F de Fisher (para probar hipótesis de comparación de varianzas entre dos muestras)
Requiere dos parámetros adicionales de Grados de Libertad (gl) = n1 -1 y n2 = 2
Excel =Distr.F( valor de F, gl 1, gl 2)
=Distr.F.inv( valor de probabilidad, gl 1, gl 2)
Minitab Calc > Probablity distributions > FInverse Cumulative probabilityNumerator Degrees of freedom; Denominator Degrees of FreedomInput constant (valor de la probabilidad alfa o área bajo la curva)
Estadístico F (valor a partir del cual inicia el área bajo la curva alfa)
S1 debe ser mayor a S20Sólo valores positivos en eje horizontal
4.1 Cálculo de probabilidades4.2 Pruebas de hipótesis de una población4.3 Pruebas de hipótesis de dos poblaciones4.4 Tamaño de muestra y potencia4.5 Análisis de varianza (ANOVA)4.6 Correlación y Regresión lineal y cuadrática simple4.7 Regresión Múltiple - Matriz de Correlaciones4.8 Aplicaciones
4.1 Cálculo de probabilidades
Distribución t de Student (para número de muestras menor a 30 o sigma desconocida)
Distribución Chi Cuadrada (para probar hipótesis de la varianza de una población)
Requiere un parámetro adicional de Grados de Libertad (gl) = n -1
Excel =Distr.Chi( valor de Chi, gl)
=Prueba.Chi.inv( valor de probabilidad, gl)
Minitab Calc > Probablity distributions > Chi SquareInverse Cumulative probabilityDegrees of freedomInput constant (valor de la probabilidad alfa o área bajo la curva)
Estadístico Chi (valor a partir del cual inicia el área bajo la curva alfa)
0Sólo valores positivos en eje horizontalcurva no simétrica
Datos de la 1- Alfa Estadístico Chi Cuadradomuestra Alfa Minitab en Minitab Excel
Referirse a los materiales sobre Pruebas de hipótesis para la teoría de estas pruebasMinitabPruebaHipótesisRes.doc InterConfPruHipo1P.xls Pruebas Hipotesis 2 pob1.xls
Las pruebas de hipótesis permiten probar una afirmación o rechazarla en relacióna parámetros de la población que pueden ser la media, varianza y proporción connivel de confianza que normalmente es del 95% (con 5% de probabilidad de error).
Para las pruebas se toman muestras de las poblaciones y en base a la informaciónque proporcionen se infiere sobre el comportamiento del parámetro en la población.
Caso 1. Prueba de una media poblacional cuando se conoce la varianza de la población (en base a datos históricos)
Ejemplo: Una línea de llenado de paquetes debe llenar 4 kg en cada uno. Se toman20 muestras y se pesan en gramos:
La desviación estándar histórica es de 25 g.
¿Se puede afirmar que el peso promedio es diferente a 4000 g.?
c2
4.2 Pruebas de hipótesis de una población
Ho: Media = valor Ha: Media ¹ Valor
Usar el archivo Pesos.mtw de la hoja Archivos Datos Módulo 4
Ho: Media = 4000 Ha: Media ¹ 4000
Se introducen los valores en una sola columna C1 titulada Pesos del archivo Pesos.mtw anexo:
Esta sección se usa cuando haydatos de media y muestras
Desviación estándar históricaMedia a probar
Nivel de confianza
Hipótesis alternativa, también sepuede probar "Menor que" o"Mayor que"
Permite seleccionar varios tipos de gráficas
Si la Ho queda fuera de la líneaazul, entonces se rechaza la hipótesis nula Ho y se acepta lahipótesis alterna Ha indicandoque los pesos son menores alos 4 Kgs.
One-Sample Z: Pesos Test of mu = 4000 vs not = 4000The assumed standard deviation = 25
Variable N Mean StDev SE Mean 95% CI Z PPesos 20 3985.70 28.18 5.59 (3974.74, 3996.66) -2.56 0.011
Este es el intervalo de confianza del 95% donde se encuentra Él valor P es menorla media del proceso de llenado (población). El 4000 no se a 0.05 por tanto seencuentra en el intervalo por tanto el promedio difiere de lo rechaza la Ho y seque se afirma acepta la alterna en
Pesos4040402040003980396039403920
_X
Ho
Individual Value Plot of Pesos(with Ho and 95% Z-confidence interval for the Mean, and StDev = 25)
Caso 2. Prueba de una media poblacional cuando no se conoce la varianza y el número de datos es menor a 30
Stat > Basic Statistics > 1 - Sample t
Similar al anterior sin requerir el valor de la desviación estándar
One-Sample T: Pesos Test of mu = 4000 vs not = 4000Variable N Mean StDev SE Mean 95% CI T PPesos 20 3985.70 28.18 6.30 (3972.51, 3998.89) -2.27 0.035
Las conclusiones son iguales que en el caso 1
Caso 3. Prueba de hipótesis para una proporción
Ejemplo: Un producto tiene accesorios que se piensa nadie usa, se hace una encuestaa 200 usuarios y 17 si usan los accesorios.
¿Para un 95% de confianza se confirma la sospecha de que menos del 10% deusuarios usan estos accesorios?
Ho: Proporción >= 0.10 Ha: Proporción < 0.10
Stat > Basic Statistics > 1 - ProportionSe usa a mano si np > 5 y n(1-p) > 5
sin embargo Minitab lo calculapor el método exacto
Test and CI for One Proportion Test of p = 0.1 vs p < 0.1 Upper ExactSample X N Sample p Bound P-Value1 17 200 0.085000 0.124771 0.285
No se rechaza Ho ya que la Proporción del 10% de la hipótesis se encuentra en el intervalo de confianza y elP value es mayor a 0.05, no se acepta la hipótesis alterna.
Es válido decir que sólo el 10% de los usuarios utilizan los accesorios
Minitab 15 Caso 4. Prueba de hipotesis para una varianza
Un Pin debe medir 15" en promedio. Su varianza no debe exceder 0.001"2. Su proceso es normal. Se miden 100 pines y se prueba la hipótesis de que su varianza no excede la especificación.
Ho: Media = valor Ha: Media ¹ Valor
1 File > Open worksheet AIRPLANEPIN.MTW.2 Stat > Basic Statistics > 1 Variance.
Test and CI for One Variance: Pin length Pin length Method
14.99 Null hypothesis Sigma-squared = 0.00115.01 Alternative hypothesis Sigma-squared < 0.00114.96 The standard method is only for the normal distribution.15.00 The adjusted method is for any continuous distribution.15.03 Statistics14.96 Variable N StDev VarianceEtc. Pin length 100 0.0267 0.000715
Seleccionar el Método Variable Method for StDev for Varianceestándar ya que los datos Pin length Standard 0.0303 0.000919siguen la distribución norma Adjusted 0.0295 0.000869
Como el valor de la varianza de la hipótesis (0.001 no se encuentra en el intervalo de confianza yel valor P value es menor a 0.05, se acepta la hipótesis Ha de que la varianza es menor a 0.001")
Caso 1. Comparación de dos medias - Muestras independientes
Ejemplo: 10 pieles son curtidas usando el método A y 10 usando el método B, las resistencias a la tracción son las siguientes:
¿Se puede decir que los dos métodos producen resistencias a la tracción diferentes?Usar un nivel de confianza del 95%.
Se colocan los valores en dos columnas diferentes C1 y C2 corresp. A Metodos A y B
Paso 1. Se realiza un análisis de comparación de varianzas poblacionales:
Stat > Basic Statistics > 2 Variances
3 En la primera línea del menu, seleccionar Enter variance.3 En Samples en columns, seleccionar 'Pin length '.4 Seleccionar Perform hypothesis test. En Hypothesized variance, poner 0.001.5 Click Options. En Alternative, seleccionar less than. Click OK.6 Click OK.
4.3 Pruebas de hipótesis de dos poblaciones
H: Media A - Media B = 0 Ha: Media A - Media B ¹ 0
Ho: Varianza A = Varianza B Ha: Varianza A ¹ Varianza B
Test for Equal Variances: Método A, Método B 95% Bonferroni confidence intervals for standard deviationsF-Test (normal distribution)Test statistic = 1.01, p-value = 0.991
Como el P value es mayor a 0.05 no se rechaza la Hipótesis nula de igualdad devarianzas, por tanto se asume que son iguales. Esta inf. se usará a continuación:
Paso 2. Se realiza un análisis de comparación de medias poblacionales
Stat > Basic Statistics > 2 - Sample t
La gráfica de puntos individuales indica diferencia entre las muestras
Y los resultados de la prueba estadística lo confirman:
Two-sample T for Método A vs Método B N Mean StDev SE MeanMétodo A 10 25.14 1.24 0.39Método B 10 23.62 1.24 0.39
Difference = mu (Método A) - mu (Método B)Estimate for difference: 1.5200095% CI for difference: (0.355, 2.685)T-Test of difference = 0 (vs not =): T-Value = 2.74 P-Value = 0.013 DF = 18
Como el cero no se encuentra en el intervalo de confianza de la diferencia de las dos medias y el valor P value es menor a 0.05se rechaza la hipótesis nula de igualdad de medias y se aceptala alterna afirmando que son diferentes
Caso 2. Muestras pareadas - Prueba si las diferencias entre sujetos son iguales.
H: Media A - Media B = 0 Ha: Media A - Media B ¹ 0
Ho: Media de diferencias = 0 Ha: Media de diferencias ¹ 0
Se utilizan cuando se trata de comparar el efecto de dos tratamientos a los mismos sujetos u objetos, por ejemplo el peso de individuos antes y después de una rutina.
También se aplica cuando cuando antes de comparar se hacen parejas de sujetospor ejemplo para comparar los promedios de alumos de dos universidades, primerose forman parejas (dos ingenieros, dos administradores, dos arquitectos, etc.)
Ejemplo: Se hacen dos tratamientos superficiales para lentes A y B, se seleccionan10 personas a las que se les instala uno de esos lentes en cualquier lado al azar.Después de un periodo se mide el deterioro (rayas, desgaste, etc.) de cada lente:
A un 95% de nivel de confianza¿Se puede afirmar que los 2 tratamientos producen diferente deterioro en los lentes?Se colocan los datos en las columnas C1 y C2 para los Lentes A y B.
Stat > Basic Statistics > Paired t
Como el valor de Ho no se encuentra en el intervalo de confianza de la diferencia de lasdos medias, se rechaza Hoy se acepta Ha indicando que eldeterioro es diferentes en los dosmétodos.
Paired T-Test and CI: Lente A, Lente B
Paired T for Lente A - Lente B N Mean StDev SE MeanLente A 10 4.96000 1.02978 0.32564Lente B 10 5.50000 1.13039 0.35746Difference 10 -0.540000 0.343835 0.108730
95% CI for mean difference: (-0.785964, -0.294036)T-Test of mean difference = 0 (vs not = 0): T-Value = -4.97 P-Value = 0.001
Ho: Diferencia de medias = 0 Ha: Diferencia de medias ¹ 0
Differences0.0-0.2-0.4-0.6-0.8-1.0-1.2
_X
Ho
Individual Value Plot of Differences(with Ho and 95% t-confidence interval for the mean)
Como el cero no se encuentra en el intervalo de confianza de la diferencia de las dos medias y el valor P value es menor a 0.05se rechaza la hipótesis nula de igualdad de medias y se aceptala alterna afirmando que los tratamientos producen deterioros diferentes.
Caso 3. Comparación de dos proporciones
Ejemplo: En una encuesta a 300 clientes de la zona A, 33 estan descontentos En otra zona B se encuestaron a 250 clientes y 22 se mostraron descontentos.A un 95% de nivel de confianza o 5% de nivel de sigfinicancia,¿Hay diferencia en las proporciones de clientes descontentos en las dos zonas?
Stat > Basic Statistics > 2 - Proportions
Se usa la sección de datosresumidos
Use Pooled estimate p for test
Test and CI for Two Proportions Sample X N Sample p1 33 300 0.1100002 22 250 0.088000
Difference = p (1) - p (2)Estimate for difference: 0.02295% CI for difference: (-0.0278678, 0.0718678)Test for difference = 0 (vs not = 0): Z = 0.86 P-Value = 0.392
Como el cero si se encuentra en el intervalo de confianza de la diferencia de las dos proporciones y el valor P value es mayor a 0.05no se rechaza la hipótesis nula de igualdad de proporcioneso sea que no hay razón para decir que las proporciones sean diferentes.
Minitab 15 Prueba de una muestra por Poisson
Calcula el intervalo de confianza para la tasa de ocurrencia y el número medio de ocurenciasde eventos en una muestra en un proceso de Poisson, y prueba la hipótesis de que la tasa de ocurrencias es igual a un valor especificado.
Un proceso de Poisson describe el número de ocurrencias de un evento en un cierto periodo de tiempoárea, volumen, etc. Por ejemplo:
Por ejemplo:
La empresa A de receptores de TV cuenta el número de unidades con pantallas defectivas que se producen cada trimestre durante los últimos 10 años.Los directivos establecen que 20 defectivos por cuatrimestre es el máximo aceptable, y quierendeterminar si la producción actual cumple este requerimiento.
Ho: Proporción A = Proporción B Ha: Proporción A ¹ Proporción B
Como Options NC = 95%Alternate = Not equal, Test Dif = 0
· El número de llamadas telefónicas diarias a un centro de servicio a clientes· El número de defectos en un tramo de alambre
1 File > Open the worksheet TVDEFECT.MTW.2 Stat > Basic Statistics > 1-Sample Poisson Rate.3 En Samples in columns, Seleccionar 'Defective A '.
Defective A Defective B18 2018 3521 1914 3019 2614 22
Etc. Etc.
Resultados:Test and CI for One-Sample Poisson Rate: Defective A Test of rate = 20 vs rate < 20 Total Rate of 95% Upper ExactVariable Occurrences N Occurrence BoundComo P value es menorDefective A 713 40 17.8250 18.9628a 0.05, se rechaza Ho y seLength of observation = 1. acepta Ha donde la tasa de
defectos es menor a 20Se puede probar si la empresa A tiene una tasa mayor de defectos que laempresa B. La empresa A mide cada tres meses sus defectos y la empresa B cada seis meses.Se trata de probar cual empresa tiene la menor tasa de defectos mensual.
Test and CI for Two-Sample Poisson Rates: Defective A, Defective B Total "Length" of Rate of MeanVariable Occurrences N Observation Occurrence OccurrenceDefective A 713 40 3 5.94167 17.825Defective B 515 20 6 4.29167 25.750Difference = rate(Defective A) - rate(Defective B)Estimate for difference: 1.6595% CI for difference: (1.07764, 2.22236) Como el valor P valueTest for difference = 0 (vs not = 0): Z = 5.65 P-Va es menor a 0.05, seExact Test: P-Value = 0.000 acepta la hipótesis alterna
que A y B son diferentesDifference = mu (Defective A) - mu (Defective B) donde B tiene la menorEstimate for difference: -7.925 tasa de ocurrencia95% CI for difference: (-10.5053, -5.34474)Test for difference = 0 (vs not = 0): Z = -6.02 P-Value = 0.000Exact Test: P-Value = 0.000
Potencia: Es la capacidad de una prueba para detectar una diferencia cuando realmente existe.
4 Seleccionar Perform hypothesis test. En Hypothesized rate, poner 20.5 Click Options. En Alternative, seleccionar less than.6 Click OK en cada cuadro de diálogo
1 File > Open the worksheet TVDEFECT.MTW.2 Stat > Basic Statistics > 2-Sample Poisson Rate.3 Samples in different columns, Seleccionar 'Defective A '.4 First 'Defective A'5 Second 'Defective B'6 Click Options. En "Length" of observation [time, items, area, volume, etc], poner '3 6' 7 Click OK en cada cuadro de diálogo
Hipótesis NulaDesición Verdadera FalsaNo rechazar Desición correcta Error tipo II
Rechazar Error tipo I Desición correcta
PotenciaLa potencia de la prueba es la probabilidad de de rechazar correctamente la hipótesis nula siendo que en realidad es falsa.
El análisis de potencia puede ayudar a contestar preguntas como:
* ¿Cuántas muestras se deben tomar para el análisis?* ¿Es suficiente el tamaño de muestra?* ¿Qué tan grande es la diferencia que la prueba puede detectar?* ¿Son realmente valiosos los resultados de la prueba?
Para estimar la potencia, Minitab requiere de dos de los siguientes parámetros:
* Tamaños de muestra* Diferencias - un corrimiento significativo de la media que se desea detectar* Valores de potencia - La probabilidad deseada de rechazar Ho cuando es falsa
Caso 1. Prueba t de una media poblacional
Ejemplo: Se tiene una población normal con media de 365 y límites de especificaciónde 360 y 370. Si la media se desplaza 2.5 gramos por arriba de la media, el número dedefectos sería inaceptable, la desviación estándar histórica es de 2.403:
Stat > Power and Sample Size > 1 - Sample tCompletar el diálogo como sigue:
Testing mean = null (versus not = null)Calculating power for mean = null + differenceAlpha = 0.05 Assumed standard deviation = 2.403
Sample Se tiene un 53.76% de Potencia para detectarDifference Size Power una diferencia de 2.5 si se usan 6 muestras 2.5 6 0.537662 O sea que hay una probabilidad del 46.24%
que no se rechaze Ho y se concluya que no hay diferencia significativa.
¿cuántas muestras se requieren para tener un 80% de probabilidad de detectar el corrimiento, y para 85%, 90% y 95%?
Stat > Power and Sample Size > 1 - Sample t
Se cambia este parámetro
Los resultados se muestran a continuación:
Sample TargetDifference Size Power Actual Power 2.5 10 0.80 0.832695 2.5 11 0.85 0.873928 2.5 12 0.90 0.905836 2.5 15 0.95 0.962487
Si la potencia es demasiado alta por decir 99% se pueden detectar diferenciasque realmente no son significativas.
Caso 2. Prueba t de comparación de dos medias poblacionales
Ejemplo: La potencia de una prueba depende de la diferencia que se quiera detectarrespecto a la desviación estándar, para una sigma poner 1 en diferencia y desviaciónestándar, con valores deseados de Potencia de 0.8 y 0.9.
Stat > Power and Sample Size > 2 - Sample t
Power and Sample Siz 2-Sample t TestTesting mean 1 = mean 2 (versus not =)Calculating power for mean 1 = mean 2 + differenceAlpha = 0.05 Assumed standard deviation = 1
Sample TargetDifference Size Power Actual Power 1 17 0.8 0.807037 1 23 0.9 0.912498
Para estimar la potencia, Minitab requiere de dos de los siguientes parámetros:
* Tamaños de muestra* La proporción - una proporción que se desea detectar con alta probabilidad* Valores de potencia - La probabilidad deseada de rechazar Ho cuando es falsa
Suponiendo que se desea detectar una proporción de 0.04 con el 0.8 y 0.9 de nivelesde Potencia:
Proporción que se desea detectar con altaprobabilidad (0.80, 0.90)
Es la proporción de la Hipótesis nula
Test for One ProportionTesting proportion = 0.02 (versus > 0.02)Alpha = 0.05Alternative Sample Target Proportion Size Power Actual Power 0.04 391 0.8 0.800388 0.04 580 0.9 0.900226
Si se desea saber la Potencia si se utiliza un tamaño de muestra de 500 se tiene:
Stat > Power and Sample Size > 2 - Proportions
Options: Greater ThanSignificance Level = 0.05
Test for One ProportionTesting proportion = 0.02 (versus > 0.02)Alpha = 0.05Alternative Sample Proportion Size Power 0.04 500 0.5828
Por tanto con un tamaño de muestra de 500, la potencia de la prueba para detectarun corrimiento de 2% a 4% es del 86.6%
El Análisis de Varianza es una prueba de hipótesis que trata de probar la igualdad de varias medias al mismo tiempo:
Requiere que las poblaciones sean normales y con varianza similar.
ANOVA de una vía con datos de tratamientos en diferentes columnas:
Proportion 1 value 0.02Sample sizes = 500 Alternative values of p = 0.04
4.5 Análisis de varianza (ANOVA)
Para la teoría revisar el artículo anexo en el archivo ANOVARes.Doc
H0=μ1=μ2=μ3=.. . .=μkH1 : Al menos dos medias son diferentes .
Ejemplo: Los técnicos de una fábrica de papel hacen un experimento de un factorpara ver que variedad de árbol produce menos fenoles en los desechos de pasta depapel. Se colectan los siguientes datos en porcentajes:
A B C1.9 1.6 1.31.8 1.1 1.62.1 1.3 1.81.8 1.4 1.1
1.1 1.51.1
A un 95% de nivel de confianza, ¿hay alguna variedad que produzca más fenoles que otra?
Se colocan los datos en tres columnas distintas C1, C2 y C3:
Stat > ANOVA > One Way (Unstacked)
Los residuos deben mostrarun comportamiento normaly aleatorio alrededor de la mediapara que el análisis sea válido
Los resultados se muestran a continuación:
One-way ANOVA: A, B, C Como el valor P value es menor
Source DF SS MS F a 0.05 existe una diferencia Factor 2 0.9000 0.4500 8.44 0significativa entre algunas mediasError 12 0.6400 0.0533Total 14 1.5400S = 0.2309 R-Sq = 58.44% R-Sq(adj) = 51.52%
Individual 95% CIs For Mean Based on Pooled StDev A produce más fenoles que B,CLevel N Mean StDev ----+---------+---------+---------+-----A 4 1.9000 0.1414 (-------*--------)B 5 1.3000 0.2121 (------*-------) La media de A esC 6 1.4000 0.2828 (------*------) diferentes a A y B ----+---------+---------+---------+----- 1.20 1.50 1.80 2.10Pooled StDev = 0.2309 Las medias B y CDesviación estándar poblacional son similares
intervalo de la diferencia B-A A subtracted from: o C-A, A es diferente de B y C Lower Center Upper -----+---------+---------+---------+----B -1.0130 -0.6000 -0.1870 (---------*---------)C -0.8974 -0.5000 -0.1026 (---------*--------) -----+---------+---------+---------+---- -0.80 -0.40 -0.00 0.40
B subtracted from: Lower Center Upper -----+---------+---------+---------+----C -0.2728 0.1000 0.4728 (---------*--------) -----+---------+---------+---------+---- -0.80 -0.40 -0.00 0.40
El intervalo de la diferencia C-B si incluyeel cero por tanto B no es diferentes de C
ANOVA de una vía con datos de tratamientos en una sola columna Respuesta Factor1.9 A
Los datos del ejemplo anterior arreglados en una 1.8 Asola columna se muestran a continuación 2.1 A
Se requiere como dato dos de estos valores, Minitab calcula el tercero.
Los resultados son los siguientes:
Power and Sample Size One-way ANOVAAlpha = 0.05 Assumed standard deviation = 1.64 Number of Levels = 4 SS Sample MaximumMeans Size Power Difference 8 5 0.826860 4The sample size is for each level.
Por tanto si se asignan cinco unidades a cada nivel de tratamiento, se tendrá una potencia de 0.83para detectar una diferencia de 4 o más unidades entre las medias de los tratamientos.
Minitab 15 Análisis de varianza de dos vías
Prueba la igualdad de medias poblacionales cuando la clasificación de tratamientos es por variables o factores, las celdas deben estar balanceadas con el mismo núimero de observaciones y los factoresdeben ser fijos.
Para mostrar las medias en las celdas y sus desviaciones estándar utilizar la opción Cross Tabulation and Chi Square.
Si se desea que ciertos factores sean aleatorios, usar ANOVA balanceado o el Modelo lineal general si se desea comparar medias usando comparaciones múltiples.
Por ejemplo:
Se estudia el plancton en dos lagos. Se preparan doce tanques en el laboratorio, seis con agua de cadauno de los lagos, se agrega uno de tres nutrientes en cada tanque y al mes se cuenta el plancton en cada unidad de volumen de agua. Se utiliza el ANOVA de dos vías para este experimento.
· diferencia mínima detectable entre la media menor y la mayor (diferencia máxima)
1 Stat > Power and Sample Size > One-way ANOVA.2 En Number of levels, poner 4.3 En Sample sizes, poner 5.4 En Values of the maximum difference between means, poner 4.5 En Standard deviation, poner 1.64. Click OK.
1 File > Open worksheet EXH_AOV.MTW.
2 Stat > ANOVA > Two-Way.3 En Response, seleccionar Zooplankton.4 En Row factor, seleccionar Supplement. Seleccionar Display means.5 En Column factor, seleccionar Lake. seleccionar Display means. Click OK.
Two-way ANOVA: Zooplankton versus Supplement, Lake
Source DF SS MS F PSupplement 2 1918.50 959.250 9.25 0.015Lake 1 21.33 21.333 0.21 0.666Interaction 2 561.17 280.583 2.71 0.145Error 6 622.00 103.667Total 11 3123.00
S = 10.18 R-Sq = 80.08% R-Sq(adj) = 63.49%
Individual 95% CIs For Mean Based on Pooled StDevSupplement Mean --+---------+---------+---------+-------1 43.50 (-------*-------)2 68.25 (--------*-------)3 39.75 (--------*-------) --+---------+---------+---------+------- 30 45 60 75
Individual 95% CIs For Mean Based on Pooled StDevLake Mean -----+---------+---------+---------+----Dennison 51.8333 (----------------*----------------)Rose 49.1667 (----------------*----------------) -----+---------+---------+---------+---- 42.0 48.0 54.0 60.0
De la tabla de ANOVA se ve que no hay una interacción significativa entre Supplement*Lake o por Lake.Hay evidencia significativa de que el Supplement afecta al crecimiento para un alfa de 0.05.De la gráfica de medias parece que el Supplement 2 es mejor para el crecimiento del plancton.Para examinar comparaciones múltiples de medias, utilizar el modelo lineal general.
Minitab 15 Análisis de medias
Sirve para realizar un análisis de medias (ANOM) para datos normales, binomiales o de Poisson yopcionalmente imprime una tabla resumen para datos normales o binomiales.
Por ejemplo para datos normales:Se evalúa el efecto de tres tiempos de nvieles de proceso y tres niveles de resitencia en la densidad.Se analizan las medias y un diseño de dos vías para identificar interacciones o efectos principalessignificativos.
Se muestra una gráfica de interacción y de efectos principales para los dos factores.La gráfica ANOM tiene una línea central y límites de decisión, si un punto cae fuera de estos límiteses evidente que es diferente de la gran media. Si la interacción fuera significativa, ya no se consideranlos efectos principales por separado, dado que unos dependen de otros. En este caso no es significat.
El punto que representa la media del nivel 3 del factor Minutes se muestra con un asterisco en rojo,indicando que hay evidencia al nivel de alfa = 0.05 de que difiera significativamente de la media gral.
En el caso de Strenght, hay evidencia de que los efectos principales para los niveles 1 y 3 están fuera de los límites de decisión y son diferentes de la media general.
Los puntos que están fuera se pueden investigar.
Ejemplos con datos binomialesSe cuenta el número de soldaduara rechazadas en muestras de tamaño 80 para identificar que proporciones están fuera de la línea con las otras muestras.Como las muestras tienen dos resultados, la proporción de éxitos es constante y son independientesse usa el análisis de medias para datos binomiales.
WeldRejects3681461818101
Los resultados se muestran a continuación:
1 File > Open worksheet EXH_AOV.MTW.
2 Stat > ANOVA > Analysis of Means.3 En Response, seleccionar WeldRejects.4 Seleccionar Binomial y poner 80 en Sample size. Click OK.
MinutesStrength
181510321321321
2
0
-2
Effe
ct
-1.578
1.578
0
181510
7
6
5
Minutes
Mea
n
5.300
7.145
6.222
321
8
6
4
2
Strength
Mea
n
5.3007.1456.222
Two-Way Normal ANOM for DensityAlpha = 0.05
Interaction Effects
Main Effects for Minutes Main Effects for Strength
La gráfica muestra la proporción de defectos para cada muestra, la línea central representando la proporción promedio, y los límites superior e inferior.
En este caso la muestra cuatro sale de los límites de decisión y es anormal.
Ejemplo con datos de PoissonUna fábrica de juguetes, quiere monitorear el número de defectos de carros de juguete. Se toman 20 muestras de carros y se crea una carta de medias para examinar el número de defectosen cada muestra.
Defects Defects9 411 42 25 515 513 28 37 25 12 6
La gráfica muestra el número de defectos en cada muestra, la línea central representando el promedio de defectos, y los límites de decisión superior e inferior.
En este caso, el número de defectos de los carros cinco y seis son anormales ya que caen fuera de loslímites de decisión.
Mintab 15 ANOVA Balanceado
Se usa para realizar análisis univariado de varianza para cada una de las variables de respuesta.El diseño debe ser balanceado, con las mismas observaciones por celda.
1 File > Open worksheet TOYS.MTW.
2 Stat > ANOVA > Analysis of Means.3 En Response, seleccionar Defects4 Seleccionar Poisson . Click OK.
Los factores pueden ser cruzados o anidados, fijos o aleatorios. Se pueden incluir hasta 50 variables derespuesta con hasta 31 factores al mismo tiempo.
Los factores son predictores (independientes) que se seleccionan a que varien durante el experimentopara determinar su efecto en la variable de respuesta (variable dependiente). Por ejemplo, si se quiere evaluar el acabado superficial de partes metálicas producidas por variasmáquinas y se miden por varios operadores. Tanto "Máquina" como "Operador" son factores en esteexperimento. Los factores pueden ser cruzados o anidados, dependiendo de cómo se colecten los datos.
Factores cruzados:Dos factores son cruzados cuando cada nivel de un factor ocurre en combinación con cada nivel del otro factor. Por ejemplo, los mismos tres operadores evalúan el acabado superficial de las 2 máquinas.
Factores anidados:Dos factores son anidados cuando los niveles de un factor son similares pero no idénticos, y cada unoocurre en combinación con diferentes niveles de otro factor.En este caso, si la máquina 1 está una ciudad y la otra en otra diferente, cada una tendrá diferentes operadores.
Modelo:En la caja de Model solo se especifican las X's no la Y. La opción Make Patterned data, single set ofnumbers puede ayudar a cargar los números de niveles de un factor.
Las reglas para expresar modelos son:
1 * indica un término de interacción, por ejemplo A*B.2 () indica anidado, cuando B está anidado dentro de A, poner B(A). Si C está anidado dentro de A y B poner C(A B). Los términos entre paréntesis son factores del modelo y se separan con espacio.3 Abreviar el modelo con | o ! Para indicar factores cruzados o - para remover términos.
Por ejemplo:Dos factores cruzados: A B A*BTres factores cruzados: A B C A*B A*C B*C A*B*CTres factores anidados: A B(A) C(A B)B anidado dentro de A, y ambos cruzados con C: A B(A) A*C B*C(A)
Para introducir números de niveles para un conjunto de datos:Por ejemplo para un diseño cruzado de tres vías con niveles a, b y c de factores A, B, C, con n observaciones por celda, se tiene:
Ejemplo de ANOVA con dos factores cruzadosSe quiere probar cuanto toma usar una calculadora nueva y una antigua. Seis ingenieros trabajan en ambos un problema estadístico y uno de ingeniería usando cada modelo de calculadora y se tomael tiempo en minutos que toma resolver el problema.Los ingenieros se pueden considerar como bloques del diseño experimental. Hay dos factoresTipo de problema y modelo de calculadora, cada uno con dos niveles. Como cada nivel del factor ocurre en combinación con cada nivel del otro factor, los factores son cruzados.
SolveTime Engineer ProbType Calculator Engineer ProbType Calculator3.1 Jones Stat New Dixon Stat New7.5 Jones Stat Old Dixon Stat Old2.5 Jones Eng New Dixon Eng New
1 Calc>Make Patterned Data > Simple set of numbers, F3 (Reset defaults). Poner A en Store patterned data in. Poner 1 en From first value, niveles de A en To last value. Poner el producto bcn en List the whole sequence. Clik OK
2 Calc>Make Patterned Data > Simple set of numbers, F3 (Reset defaults). Poner B en Store patterned data in. Poner 1 en From first value, niveles de B en To last value. Niveles de A en List each value. Poner el producto cn en List the whole sequence. Clik OK
3 Calc>Make Patterned Data > Simple set of numbers, F3 (Reset defaults). Poner C en Store patterned data in. Poner 1 en From first value, niveles de C en To last value. Producto ab en List each value. Poner el tamaño de muestra n en List the whole sequence. Clik OK
5.1 Jones Eng Old Dixon Eng Old3.8 Williams Stat New Erickson Stat New8.1 Williams Stat Old Erickson Stat Old2.8 Williams Eng New Erickson Eng New5.3 Williams Eng Old Erickson Eng Old3 Adams Stat New Maynes Stat New
7.6 Adams Stat Old Maynes Stat Old2 Adams Eng New Maynes Eng New
4.9 Adams Eng Old Maynes Eng Old3.47.82.75.53.36.92.55.43.6 Los resultados se muestran a continuación:7.8 ANOVA: SolveTime versus Engineer, ProbType, Calculator 2.44.8 Factor Type Levels Values
Engineer random 6 Adams, Dixon, Erickson, Jones, Maynes, WilliamsProbType fixed 2 Eng, StatCalculator fixed 2 New, Old
ProbType Calculator N SolveTimeEng New 6 2.4833Eng Old 6 5.1667Stat New 6 3.3667Stat Old 6 7.6167
Se muestran los factores con su tipo (fijos o aleatorios), número de niveles y valores. Después se muestra la tabla de ANOVA, indicando una interacción significativa entre tipo de problema y calculadora.También se muestran las medias de todos los factores y sus combinaciones como efectos principales.Donde se puede observar que el tiempo se reduce al cambiar de la calculadora antigua a la nueva.
Ejemplo de ANOVA con diseño de mediciones repetidas
Se corre un experimento para ver como afectan los factores la exactitud de ajuste de indicadores.Tres personas realizan las pruebas en uno de dos niveles de ruido. En cada uno de los tres periodosde tiempo, las personas monitorean tres diferentes indicadores y realizan ajustes conforme se requiereLa respuesta es una medida de la exactitud. El ruido, tiempo e indicadores son factores fijos y cruzados
2 Stat > ANOVA > Balanced ANOVA.3 En Responses, seleccionar SolveTime.4 En Model, seleccionar Engineer ProbType | Calculator.5 En Random Factors, seleccionar Engineer.6 Click Results. En Display means corresponding to the terms, poner ProbType | Calculator. 7 Click OK en cada cuadro de diálogo.
La persona en un factor aleatorio, anidado dentro del ruido. El ruido es un factor entre personas, el tiempo e indicadores estan dentro de las personas.
2 Stat > ANOVA > Balanced ANOVA.3 En Responses, seleccionar Score4 En Model, seleccionar Noise Subject(Noise) Etime Noise*ETime ETime*Subject Dial Noise*Dial Dial*Subject ETime*Dial Noise*ETime*Dial.5 En Random Factors, seleccionar Subject6 Click Options.7 Seleccionar Use the restricted form of the mixed model, y click OK.8 Click Results.9 Seleccionar Display expected mean squares and variance components. Click OK en diálogos.
Se muestra la tabla de niveles de factores, la tabla de ANOVA y los cuadrados medios esperados.Esto último permite ver los componentes estimados de la varianza y descubrir cuál término de error es usado para probar los diferentes términos del modelo.
El término de error está en fila 11 de la tabla de cuadrados medios esperados. La columna Error Term" indica que el término 11 se usa para probar los términos 2, 5, 8 y 10. Dial*Subject se numera como 8 y se usa para probar el sexto y séptimo términos. Se puede seguir el patrón para otros términos.
Se puede tener alguna idea de cómo afecta el diseño la sensibilidad de las pruebas F observando loscomponentes de la varianza. Los componentes para probar los factores dentro de las personasson más pequeños (7.139, 1.750, 7.994) que la varianza entre personas (68.315). Es típico que para el modelo de mediciones repetidas, pueda detectar diferencias más pequeñas en medias dentrode personas cuando se compara a la varianza entre personas.
De las cuatro interacciones entre los factores fijos, la interacción de Noise*Etime fue la única significativaP-value = 0.029. Implica que la sensibilidad al ruido de las personas cambia en el tiempo.Tambien es significativo el efecto del indicador Dial P value < 0.0005. Entre términos aleatorios,hay evidencia significativa para tiempo por persona (Etime*Subject con P value = 0.013) y persona(Subject P value < 0.0005).
Modelo de ANOVA mezcladoUna empresa corre experimentos para como diversas condiciones afectyan el espesor de un recubrimiento que fabrican. El experimento se corre en la mañana y en la noche. Se seleccionantres operadores al azar. El proceso de manufactura se ajusta en tres puntos 35, 44, y 52. Se hace dosdeterminaciones de espesor para cada operadoren cada tiempo y punto de ajuste.Así los tres factores son cruzados, un factor "Operator" es aleatorio y los otros dos son fijos.
El modelo estadístico y sus términos se muestran a continuación:
Modelo no restringido ANOVA: Thickness versus Time, Operator, Setting
Factor Type Levels ValuesTime fixed 2 1, 2Operator random 3 1, 2, 3Setting fixed 3 35, 44, 52
Analysis of Variance for Thickness
Source DF SS MS F PTime 1 9.0 9.0 0.29 0.644
2 Stat > ANOVA > Balanced ANOVA.3 En Responses, seleccionar Thickness.4 En Model, seleccionar Time | Operator | Setting.5 En Random Factors, seleccionar Operator.6 Click Options. Seleccionar Use the restricted form of the mixed model. Click OK.7 Click Results. Seleccionar Display expected mean squares and variance components.8 Click OK en cada cuadro de diálogo
1 Repetir pasos 1-8 excepto que, en 6, no seleccionar Use the restricted form of the mixed model.
La organización de la salida es la misma para el modelo restringido o no restringido: - Una tabla de niveles de factores, la tabla ANOVA, y como se requirió, los cuadrados medios esperados. Las diferencias en la salida se encuentran en los cuadrados medios esperados, y las pruebas F para algunos términos del modelo. En este caso la prueba F para el operador se sintetiza para el Operator en el modelo no restringido dado que no puede ser calculada exactamente.
Al examinar la interacción de los tres factores Time*Operator*Setting, la prueba F es la misma en ambos modelos con un P value de 0.001, por tanto el espesor depende de la combinación de tiempo,operador y ajuste. En algunos casos aquí termina este análisis, no siguiendo con los factores.
En los casos donde los modelos dan diferente salida es en: La prueba F para Operator*Setting esdiferente, asi como Time*Operator*Setting, Time*Operator, Operator, Time*Operator, Oper*Setting.
Modelo Lineal general (GLM)
Se usa para hacer análisis univariados de varianza con diseños balanceados y no balanceados, análisis de covarianza y regresión, para cada una de las variables de respuesta.Los cálculos se realizan con el método de regresión para lo caul se requiere un arreglo completo defactores y covariados para hacer una regresión con cada variable de respuesta.Se puede especificar un modelo jerárquico, si se incluye un término de interacción todas las interaccionesde menor orden y los factores que comprende la interacción deben aparecer en el modelo.Los factores pueden ser cruzados, o anidados, fijos o aleatorios. Los covariados pueden ser cruzadosentre sí o con los factores, o anidados dentro de los factores. Se pueden analizar hasta 50 variables derespuesta con hasta 31 factores y 50 covariados al mismo tiempo.
Los modelos de ANOVA balanceado y modelo lineal general (GLM) son procedimientos de ANOVA paraanalizar datos colectados con diversos diseños experimentales. La selección de estos procedimientos
depende del diseño experimental y las opciones disponibles. El diseño experimental se refiere a la selección de unidades o sujetos a medir, la asignación de tratamientos a esas unidades o sujetos, y lasecuencia de las mediciones tomadas en las unidades o sujetos. Ambos modelos pueden ajustar modelos univariados para datos balanceados con hasta 31 factores. Algunas opciones son las siguientes:
ANOVA balanceado GLMPuede ajustar datos no balanceados No Si
Puede especificar factores como Si Sialeatorios y obtener cuadrados medios esperados
Ajusta covariados No Si
Realiza comparaciones múltiples No Si
Ajusta modelos mezclados restringidos y Si Solo no restringidosrestringidos
Se puede usar el ANOVA balanceado para analizar datos de diseños balanceados. Se usa GLM para analizar datos de diseños balanceados, a pesar de que no se puede seleccionar el ajuste para el casorestringido del modelo mezclado, el cual solo el ANOVA balanceado puede ajustarlo.
Para clasificar las variables, determinar si los factores son: - Cruzados o anidados: cruzados cuando cada nivel de un factor ocurre combinado con cada nivel del otro.
Anidados cuando los niveles de un factor son similares pero no idénticos y cada uno ocurre en combinación con diferentes niveles de otro factor.
- Fijos o aleatorios: son fijos si se controla su nivel; son aleatorios si se seleccionan aleatoriamente de los niveles de un factor de una población (por ejemplo seleccionar tres operadores de una población).
- Covariados es un predictor continuo, que puede ser controlable o no controlable. Por ejemplo se puedeestar interesado en el efecto del covariado edad en los ingresos de ventas por Internet.
En un DOE es una variable que es observable pero díficil de controlar. Se introduce al modelo para reducir la varianza del error. Por ejemplo, se tiene intenrés en el efecto delcovariado temperatura en el tiempo de secado de dos diferentes tipos de pintura.
Ejemplo de ajuste de efectos lineales y cuadráticos
Se realiza un experimento para probar el efecto de la temperatura y tipo de vidrio en la luminosidad de unosciloscopio. Hay tres niveles en tipos de vidrio y temperatura: 100, 125 y 150 ºF. Son factores fijos (Montgomery 252).
Cuando un factor es cuantitativo con tres o más niveles, es adecuado particionar la suma de cuadrados deese factor en efectos de órdenes polinomiales. Si hay k niveles del factor, se puede particionar en k-1órdenes de polinomios. Es este ejemplo, el efecto de la temperatura se puede particionar en efectoslineales y efectos cuadráticos, de la misma forma se puede hacer con la interacción. Para esto se debe codificar la variable cuantitativa con los valores del tratamiento real (o sea, códigos de niveles detemperatura en 100, 125, y 150ºF), usar el GLM para analizar los datos, y declarar la variable cuantitativaa ser una covariable.
Obs LightOutput Fit SE Fit Residual St Resid 11 1070.00 1035.00 11.04 35.00 2.24 R 17 1000.00 1035.00 11.04 -35.00 -2.24 R
R denotes an observation with a large standardized residual.
Se muestra la tabla de factores con sus niveles y valores. La segunda tabla da una tabla de ANOVA, seguida por una tabla de coeficientes y una tabla de observaciones no normales.
La suma secuencial de cuadrados se calculan dependiendo de que términos se puedieron primero en el modelo, o sea que depende del orden del modelo. La suma ajustada de cuadrados son las sumas de cuadrados dado que todos los otros términos están en el modelo. Estos valores no dependen del orden en el modelo. Si se selecciona la opción de suma secuencial de cuadrados, estos se usan parala determinación de los valores F.
En el ejemplo, todos los valores P fueron ceo, indicando que hay evidencia significativa de que afectan losfactores de vidrio y temperatura en el brillo así como su interacción lineal y cuadrática.
El valor de R2 indica que el modelo explica el 99.73% de la varianza de la salidad de luz, muy bueno.Las siguientes tablas dan los coeficientes estimados para la covariada, temperatura, y las interacciones,el error estándar, estadísticos t, y valores p. Después se muestran los valores atípicos, con valor estandarizado mayor a 2.
Minitab 15 Ejemplo de comparaciones múltiples con diseños anidados
Cuatro empresas químicas producen insecticidas para mosquitos, pero la composición difiere de empresaa empresa. Se hace un experimento poniendo 400 mosquitos en un contenedor de vidrio y contando losmosquitos vivos cuatro horas después. Se realizan tres réplicas para cada producto. La meta es compararla efectividad del producto de las diferentes empresas. Los factores son fijos. Los factores están anidadosdado que cada uno de los insecticidas de cada empresa es único. Se usa el GLM dado que el diseño no es balanceado y se usan comparaciones múltiples para compararlas respuesta media de cada empresa.
NMosquito Company Product151 A A1135 A A1137 A A1118 A A2132 A A2135 A A2131 A A3137 A A3121 A A3
Company Lower Center Upper --------+---------+---------+--------C -61.48 -49.33 -37.19 (----*----)D -71.10 -60.58 -50.07 (---*---) --------+---------+---------+-------- -50 -25 0
Company = C subtracted from:
Company Lower Center Upper --------+---------+---------+--------D -21.77 -11.25 -0.7347 (----*---) --------+---------+---------+-------- -50 -25 0
Tukey Simultaneous TestsResponse Variable NMosquitoAll Pairwise Comparisons among Levels of CompanyCompany = A subtracted from:
Difference SE of AdjustedCompany of Means Difference T-Value P-Value
2 Stat > ANOVA > General Linear Model.3 En Responses, seleccionar NMosquito.4 En Model, seleccionar Company Product(Company).5 Click Comparisons. En Pairwise Comparisons, seleccionar Company en Terms.6 En Method, seleccionar Tukey. Click OK en cada cuadro de diálogo.
Difference SE of AdjustedCompany of Means Difference T-Value P-ValueC -49.33 4.369 -11.29 0.0000D -60.58 3.784 -16.01 0.0000
Company = C subtracted from:
Difference SE of AdjustedCompany of Means Difference T-Value P-ValueD -11.25 3.784 -2.973 0.0329
Se muestra una tabla de niveles de factores, tabla de ANOVA, comparaciones múltiples de Tukey para diferencias entre empresas y las pruebas de hipótesis correspondientes. La prueba F indica que la empresa es significativa.El valor de R2 indica que el modelo explica el 95.07% de la varianza en el número de mosquitos vivos, siendo adecuado el modelo.
De la comparación de diferencias se observa que las empresas A y B son similares (cero incluido), y ambas diferentes de C y D (cero no incluido).
Minitab 15 ANOVA completamente anidado
Se usa para realizar un ANOVA completamente anidado (jerárquico) y para estimar los componentes de lavarianza para cada variable de respuesta. Todos los factores se asumen como aleatorios, Minitab usasumas secuenciales de cuadrados para los cálculos.Se pueden analizar hasta 50 variables de respuesta con hasta 9 factores a un tiempo.Si el diseño no está anidado jerárquicamente o si se tienen factores fijos, usar ANOVA balanceado o GLMSi el diseño no está completamente balanceado, no se calcularán ni los valores F ni los P.
Por ejemplo:
Se intenta comprender la variabilidad en la fabricación de jarras de vidrio. El proceso de hacer vidrio requiere mezclar materiales en hornos pequeños para lo cual se ajusta la temperatura a 475ºC.La empresa tiene varias plantas de jarras, de las cuales se seleccionan cuatro como muestra aleatoria.Se realiza el experimento y se mide la temperatura del horno para cuatro operadores de cuatro turnosdiferentes. Se toman tres mediciones del lote durante cada turno.
Se muestran tres tablas: 1) ANOVA; 2) Componentes estimados de la varianza; 3) cuadrados medios esprados. Hay cuatro fuentes secuenciales anidadas de variabilidad: Planta, operador, turno y lote.
La tabla ANOVA indica que que hay evidencia significativa de planta y turno para alfa de 0.05.Los estimados de los componentes de la varianza indican que la variabilidad atribuible a lotes, turnos yplantas fue de 52, 27, y 18 porciento resp. De la varianza total.
Si el estimado de un componente de varianza es menor que cero, Minitab lo toma como cero en cálculos.
Minitab 15 Gráficas de intervalos
Se usan las gráficas por intervalos para graficar medias, intervalos de confianza o barras de errores parauna o más variables. La gráfica de intervalos muestra tanto la tendencia central como la variabilidad de losdatos.
Las opciones son las siguientes:
Nota: Por default Minitan muestra los intervalos de confianza para el 95%. Para cambiar el tipo dedespliegue para una gráfica específica, usar el Editor > Edit Interval Bar > Options.Para cambiarlo en todas las gráficas futuras usar Tools > Options > Individual Graphs > Interval Plots.
Ejemplo de gráfica para un intervalo simple:Se quiere examinar la durabilidad de alfombras. Se instalan muestras en cuatro casas y se mide la durabilidad promedio después de 60 días.
Durability Carpet Composition Durability Carpet Composition18.95 1 A 10.92 3 A12.62 1 B 13.28 3 B11.94 1 A 14.52 3 A14.42 1 B 12.51 3 B10.06 2 A 10.46 4 A7.19 2 B 21.4 4 B7.03 2 A 18.1 4 A14.66 2 B 22.5 4 B
Los resultados se muestran a continuación:
La media se observa colocando el cursor en el punto central y es de 13.785el intervalo de confianza se extiende de 11.3632 to 16.2068
Ejemplo de gráfica de intervalos por gruposSe quiere examinar la durabilidad de alfombras. Se instalan muestras en cuatro casas y se mide la durabilidad promedio después de 60 días. Incluir etiquetas de datos para los proimedios.
Los resultados se muestran a continuación:
1 File > Open worksheet CARPET.MTW.
2 Graph > Interval Plot or Stat > ANOVA > Interval Plot.3 En One Y, seleccionar Simple. Click OK.4 En Graph variables, seleccionar Durability. Click OK.
1 File > Open worksheet CARPET.MTW.2 Graph > Interval Plot or Stat > ANOVA > Interval Plot.3 En One Y, seleccionar With Groups. Click OK.4 En Graph variables, seleccionar Durability.5 En Categorical variables for grouping (1-4, outermost first), seleccionar Carpet.6 Click Labels, y click en la ceja de Data Labels.7 En Label, seleccionar Means. Click OK en cada cuadro de diálogo.
La media más grande es para la alfombra 4, y todas se traslapan sugieriendo que no son diferentes.El intervalo de confianza corresponde al 95%, se puede cambiar con:
Ejemplo de gráfica de intervalos para Y múltipleSe usa para mostrar gráficas de intervalo de múltiples variables en la misma gráfica.
Una empresa hace tubos de plástico y está preocupada por la consistencia de sus diámetros. Se miden 10 tubos cada semana durante tres semanas, y se crea una gráfica de intervalo para ver las distribuciones.
Se observa que: - Para la máquina 1, las medias e intervalos de confianza tienen tendencia creceinte cada semana - Para la máquina 2, las medias e intervalos de confianza son consistentes durante las semanas
Minitab 15 Gráfica de medias de Efectos Principales para factores múltiplesSe usa para comparar las magnitudes de los efectos principales.Los puntos en la gráfica son las medias de la variable de respuesta en los diferentes niveles del factor.Se muestra una línea de referencia dibujada como la gran media de la respuesta.
Por ejemplo:Se siembran seis variedades de alfalfa dentro de cuatro campos diferentes, y se pesa el rendimientode los cortes. Se tiene interés en comparar los diferentes rendimientos de las diferentes variedades,y se considera a los campos como bloques. Se quiere revisar los datos y examinar el rendimiento porvariedad y campo usando la gráfica de efectos principales.
Se muestra la media de la respuesta para cada uno de los niveles de los factores en orden si los factores son numéricos o en formato de fecha fecha/hora o en orden alfabético si es texto.Se muestra una línea horizontal como la gran media. Los efectos son las diferencias entre las mediasy la línea de referencia.En este ejemplo los efectos de Variety sobre el rendimiento son grnades comparados con los efectosdel factor Field (la variable de bloqueo):
Minitab 15 Gráfica de interaccionesCrea una gráfica simple de interacción de dos factores, o una matriz de gráficas de interacción para tres a nueve factores.Una interacción se presenta cuando la respuesta en el nivel de un factor, depende de los niveles de otros factores. Las líneas paralelas indican que no hay interacción; entre menos paralelas sean laslíneas mayor será el grado de interacción.
Ejemplo de gráfica de interacciones para dos factoresSe realiza un experimento para probar el efecto de la temperatura y el tipo de vidrio en la luminosidad de un osciloscopio. Hay tres niveles para tipo de vidrio y para temperatura, 100, 125, y 150grados farenheit.
Se muestra una posible interacción entre el tipo de vidrio y la temperatura del lado superior (150ºC).
Minitab 15 MANOVA balanceado
Se usa para realizar análisis multivariado de varianza (MANOVA) para diseños balanceados. Se puedetomar ventaja de la estructura de la covarianza de los datos para probar al mismo tiempo la igualdadde medias de diferentes respuestas.
Por ejemplo:Se quieren determinar las condiciones óptimas para extruir capa de plástico. Se miden tres respuestasresistencia, gloss, y opacidad - cinco veces cada combinación de dos factores - tasa de extrusióny cantidad de aditivo -- cada uno es puesto en niveles bajos y altos. Se usa MANOVA dado que el diseño está balanceado.
ANOVA: Tear, Gloss, Opacity versus Extrusion, Additive
MANOVA for Extrusions = 1 m = 0.5 n = 6.0
Test DFCriterion Statistic F Num Denom PWilks' 0.38186 7.554 3 14 0.003Lawley-Hotelling 1.61877 7.554 3 14 0.003Pillai's 0.61814 7.554 3 14 0.003Roy's 1.61877
SSCP Matrix for Extrusion
Tear Gloss OpacityTear 1.740 -1.504 0.855SS Extrusión para las tres respuestasGloss -1.504 1.301 -0.7395Opacity 0.855 -0.739 0.4205
SSCP Matrix for Error
Tear Gloss OpacityTear 1.764 0.0200 -3.0SSE para las tres respuestas
1 File > Open worksheet EXH_MVAR.MTW.
2 Stat > ANOVA > Balanced MANOVA.3 En Responses, seleccionar Tear Gloss Opacity.4 En Model, seleccionar Extrusion | Additive.5 Click Results. En Display of Results, sel. Matrices (hypot., error, partial corr.) y Eigen analysis.6 Click OK en cada cuadro de diálogo
Tear Gloss OLas correlaciones entre respuestas son débiles y se Tear 1.00000 0.00929 -0pudo haber corrido un ANOVA por separado para cadaGloss 0.00929 1.00000 -0una de las respuestas.Opacity -0.28687 -0.04226 1.00000
Eigenvector 1 2 3Tear 0.6541 0.4315 Aquí la mayor diferencia entre niveles de factores Gloss -0.3385 0.5163 es para Tear, después Gloss y al último OpacityOpacity 0.0359 0.0302 -0.1209
MANOVA for Additives = 1 m = 0.5 n = 6.0
Test DFCriterion Statistic F Num Denom PWilks' 0.52303 4.256 3 14 0.025Lawley-Hotelling 0.91192 4.256 3 14 0.025Pillai's 0.47697 4.256 3 14 0.025Roy's 0.91192
SSCP Matrix for Additive
Tear Gloss OpacityTear 0.7605 0.6825 1.93SS Aditivo para las tres respuestasGloss 0.6825 0.6125 1.732Opacity 1.9305 1.7325 4.901
Se observa que el factor extrusión y el factor aditivo son significativos, con P value < 0.05Aquí la mayor diferencia entre niveles de factores es para Tear, después Gloss y al último Opacity
Minitab 15 MANOVA generalSe usa para realizar análisis multivariado de varianza (MANOVA) para diseños balanceados y nobalanceados si se tienen covariados. Se puede tomar ventaja de la estructura de la covarianza de los datos para probar al mismo tiempo la igualdadde medias de diferentes respuestas.
Los cálculos se hacen por el método de regresión, para lo que es necesaria una mtriz de rango completo formada de factores y covariados donde para cada variable se hace una regresión.
Los factores pueden ser cruzados o anidados, pero no pueden ser declarados aleatorios.Los covariados pueden ser cruzados entre ellos o con los factores, o anidados dentro de los factores.Se pueden analizar hasta 50 variables de respuesta con hasta 31 factores y 50 covariados a un tiempo
Coeficiente de Correlación
Establece si existe una relación entre las variables y responde a la pregunta,”¿Qué tan evidente es esta relación?".
La correlación es una prueba fácil y rápida para eliminar factores que no influyen en la predicción, para una respuesta dada.
* Es una medida de la fuerza de la relación lineal entre dos variables x y y.* Es un número entre -1 y 1* Un valor positivo indica que cuando una variable aumenta, la otra variable aumenta* Un valor negativo indica que cuando una variable aumenta, la otra disminuye* Si las dos variables no están relacionadas, el coeficiente de correlación tiende a 0.
4.6 Correlación y Regresión lineal y cuadrática simple
Revisar el archivo anexo sobre Análisis de RegresiónRes.doc para conceptos de teoría.
Ejemplo:Se utiliza el archivo PULSE.MTW campos Peso (Weight) y Altura (Height) File > Open Worksheet > Pulse.M o copiar los datos del archivo anexo
Antes de calcular el coeficiente de correlación se sugiere hacer un diagramabivariante para identificar posibles valores anómalos, relaciones no lineales, etc.
Graph > Scatterplot: Simple Y = Weight y X = Height
Ahora se calcula el coeficiente de Correlación que mide el grado de relación que existeentre dos variables, como sigue:
Stat > Basic Statistics > Correlation
Los resultados son los siguientes:
Correlations: Weight, Height Pearson correlation of Weight and Height Coeficiente de correlaciónP-Value = 0.000
Como el P value es menor a 0.05, la correlación si es significativa
Todas las correlaciones son significativas, ya que su P value es menor a 0.05
Mintab 15 Covarianza entre cada par de variablesCalcula la covarinaza para todos los pares de columnas. Mide la relación entre dos variables, sinembargo la covarianza no ha sido estandarizada como sucede con el coeficiente de correlación.El coeficiente de correlación se estandariza dividiendo por la desviación estándar de las dos variables.
Analysis of VarianceSource DF SS MS F PRegression 1 31591.6 31591.6 144.38 0.000Error 90 19692.2 218.8Total 91 51283.9 El valor p menor a 0.05 indica que SI
es significativa la Correlación entre Y y X.
Regresión simple:Efectúa un análisis de regresión simple:
Stat > Regression > Regression
Regression Analysis: Weight versus Height
The regression equation isWeight = - 205 + 5.09 Height Ecuación de regresión
Predictor Coef SE Coef T PConstant -204.74 29.16 -7.02 0.000Height 5.0918 0.4237 12.02 0.000
S = 14.7920 R-Sq = 61.6% R-Sq(adj) = 61.2%Coef. De determinación
Analysis of Variance
Source DF SS MS F PRegression 1 31592 31592 144.38 Regresión significativaResidual Error 90 19692 219Total 91 51284
Unusual Observations
Obs Height Weight Fit SE Fit Residual St Resid 9 72.0 195.00 161.87 2.08 33.13 Puntos con un 25 61.0 140.00 105.86 3.62 34.14 residuo estándar 40 72.0 215.00 161.87 2.08 53.13 mayor a 2 84 68.0 110.00 141.50 1.57 -31.50 -2.14R
R denotes an observation with a large standardized residual.
En algunos casos hay puntos que están muy alejados de la mayoría de los puntosse marcan con X y pueden sesgar los resultados, se sugiere investigarlos.
Por ejemplo:
Usando el archivo PUNTOS_RX.MTW anexo:Copiar los datos del archivo a MinitabGraph > Scatterplot: Simple Y = y y X = x
Stat > Regression > Regression
Seleccionar en Response Weight y en Predictors Height
Obs X Y Fit SE Fit Residual St Resid 51 2.5 40.000 24.343 0.483 15.657 4.55R 52 12.0 60.000 63.056 2.178 -3.056 -1.13 X
R denotes an observation with a large standardized residual.X denotes an observation whose X value gives it large influenc
Regresión simple con datos transformados:
En algunos casos el ajuste se mejora mucho si se transforman los datos:
Por ejemplo usando los datos del archivo CEREBRO.MTW anexo que tiene los pesosdel cerebro y los pesos del cuerpo en 62 especies de mamíferos se tiene:
Copiar los datos del archivo a Minitab
Haciendo una gráfica de dispersión bivariada se tiene:
Graph > Scatterplot: Simple Y = Peso cerebro y X = Peso total
En este caso los pesos de los elefantes pueden sesgar la ecuación de la recta no se pueden eliminar como anómalos y se intentará transformarlos en formalogarítmica:
Stat > Regression > Fitted line Plot
Como resultado se obtiene una gráfica mucho más uniforme:
Intervalos deconfianza de Ymediaen base a una X
Seleccionar en Response (Y) Peso Cerebro y en Predictor (X) Peso CuerpoSeleccionar modelo Linear aunque puede ser Quadratic o Cubic
En Options seleccionar lo siguiente:
Peso total (kg)
Peso
cer
ebro
(g)
70006000500040003000200010000
6000
5000
4000
3000
2000
1000
0
Scatterplot of Peso cerebro (g) vs Peso total (kg)
Peso total (kg)
Peso
cer
ebro
(g)
100000.00
10000.00
1000.00
100.00
10.00
1.00
0.10
0.01
S 0.301528R-Sq 92.1%R-Sq(adj) 91.9%
Regression95% CI95% PI
Fitted Line Plotlogten(Peso cerebro (g)) = 0.9271 + 0.7517 logten(Peso total (kg))
Intervalo de predicción de Y paravalores individualesen base a una X
Coeficiente de determinaciónmuy cercano a uno
Regresión simple cuadrática:
Usar el archivo RESIDUOS.MTW anexo o copiar los datos de las columnas X, Y a MinitabStat > Regression > Fitted line Plot
Aparece la gráfica siguiente de residuos que no varian aleatoriamente alrededor de la media, sino más bien con un patrón que sugiere un modelo cuadrático:
Los residuos aparecen en forma aleatoria indicando un modelo adecuado.
Seleccionar en Response (Y) Y, Predictor (X) XSeleccionar modelo Linear En Options seleccionar Display Confidence Interval y Prediction Interval:En Graphs seleccionar Residuals vs Fits
Repitiendo las instrucciones anteriores pero para modelo Quadratic se tiene:
Peso total (kg)
Peso
cer
ebro
(g)
100000.00
10000.00
1000.00
100.00
10.00
1.00
0.10
0.01
S 0.301528R-Sq 92.1%R-Sq(adj) 91.9%
Regression95% CI95% PI
Fitted Line Plotlogten(Peso cerebro (g)) = 0.9271 + 0.7517 logten(Peso total (kg))
Parece que la relación entre Potencia y Velocidad máxima es cuadrática.
Cambiando la escala horizontal del número de cilindros a 4 a 6,se identifica que un coche tiene 5 cilindros, con Brush y Set ID Variables indicando Marca y Modelo se ve que es un VOLVO 850 GLT (renglón 244)
Evaluando la fuerza de la relación entre los predictores por medio de un análisis de correlación se tiene:
S = 9.76245 R-Sq = 89.1% R-Sq(adj) = Coef. De determinaciónAnalysis of VarianceSource DF SS MS F PRegression 3 187887 62629 657.14 0.000Residual Error 240 22873 95Total 243 210760
R residuos conSource DF Seq SS más de 2 sigmasNum.Cil. 1 98419Cil.(cc) 1 19841 X residuos muyPot.(CV) 1 69627 alejados del
R denotes an observation with a large standardized residual.X denotes an observation whose X value gives it large influence.
Predicted Values for New ObservationsObs Fit SE Fit 95% CI 95% PI 1 183.951 1.161 (181.663, 186.239) (164.584, 203.318)Values of Predictors for New Observations
Obs Num.Cil. Cil.(cc) Pot.(CV) 1 4.00 1124 100
Los residuos muestran un comportamiento normal por lo que el modelo es adecuado
Residual
Perc
ent
40200-20-40
99.999
90
50
10
10.1
Fitted Value
Resi
dual
300250200150
20
0
-20
-40
Residual
Freq
uenc
y
20100-10-20-30-40
80
60
40
20
0Observation Order
Resi
dual
240220200180160140120100806040201
20
0
-20
-40
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Predictor Coef SE Coef T PConstant 73.502 2.258 32.56 0.000Num.Cil. -1.4201 0.6770 -2.10 0.037Cil.(cc) -0.006988 0.001202 -5.82 0.Significativo (P value < 0.05)Pot2 12.8232 0.3177 40.36 0.000
S = 7.03547 R-Sq = 94.4% R-Sq(adj) = Mejora el ajuste
Predicted Values for New Observations
Obs Fit SE Fit 95% CI 95% PI 1 1342.286 29.024 (1285.111, 1399.461) (1283.455, 1401.117)XXXX denotes a point that is an extreme outlier in the predictors.
Values of Predictors for New ObservationsObs Num.Cil. Cil.(cc) Pot2 1 4.00 1124 100
Los residuos vs Pot2 ya tienen un mejor comportamiento más aleatorio:
Residual
Perc
ent
40200-20-40
99.999
90
50
10
10.1
Fitted Value
Resi
dual
300250200150
20
0
-20
-40
Residual
Freq
uenc
y
20100-10-20-30-40
80
60
40
20
0Observation Order
Resi
dual
240220200180160140120100806040201
20
0
-20
-40
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Residual Plots for Velo.max
Pot.(CV)Re
sidu
al5004003002001000
30
20
10
0
-10
-20
-30
-40
-50
Residuals Versus Pot.(CV)(response is Velo.max)
Residual
Perc
ent
200-20-40
99.999
90
50
10
10.1
Fitted Value
Resi
dual
300250200150
20
0
-20
-40
Residual
Freq
uenc
y
15.07.50.0-7.5-15.0-22.5-30.0
40
30
20
10
0Observation Order
Resi
dual
240220200180160140120100806040201
20
0
-20
-40
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Permite obtener un "buen modelo" en función de su sencillez o facilidad de interpretación.
Stat > Regression > Stepwise
Variables candidatas a entrar enel modelo
Variables forzadas a entrar en losmodelos
Mínimo numero de variables en el modelo 1
Máximo número de variables en el modelotodas
Número de ecuaciones que aparecen con1, 2, 3.... Variables regresoras
Los resultados son los siguientes:
Best Subsets Regression: Velo.max versus Num.Cil., Cil.(cc), ... Response is Velo.max244 cases used, 3 cases contain missing values N C P u i o m l t . . . C ( ( P i c C o Mallows l c V tVars R-Sq R-Sq(adj) C-p S . ) ) 2 1 92.5 92.5 109.0 8.0783 Buenos modelos 1 86.6 86.5 385.3 10.813 X 2 94.3 94.2 29.3 7.0849 Incluye sólo Cil.(cc) y Pot2 2 93.6 93.6 58.0 7.4544 X X 3 94.8 94.8 3.9 6.7261 X X X 3 94.4 94.3 26.5 7.0355 XIncluye Num.Cil, Cil.(Cc), Pot2 4 94.9 94.8 5.0 6.7269 X X X X
Selección de la mejor ecuación: Stepwise
Se usa cuando el número de variables es muy grande mayor a 31, antes da losmismos resultados que el método anterior: