Dr. Cristian Díaz Vélez Epidemiólogo Clínico Auditor Médico Análisis de la varianza
Dr. Cristian Díaz Vélez
Epidemiólogo Clínico
Auditor Médico
Análisis de la varianza
Concepto
El análisis de la varianza (ANOVA) es una
colección de modelos estadísticos y sus
procedimientos asociados, en el cual
la varianza está particionada en ciertos
componentes debidos a diferentes variables
explicativas.
El análisis de la varianza parte de los
conceptos de regresión lineal.
Concepto
El análisis de varianza (ANOVA) de un factor sirve paracomparar varios grupos en una variable cuantitativa. Setrata, por tanto, de una generalización de la Prueba Tpara dos muestras independientes al caso de diseñoscon más de dos muestras.
A la variable categórica (nominal u ordinal) que definelos grupos que deseamos comparar la llamamosindependiente o factor y la representamos por VI. A lavariable cuantitativa (de intervalo o razón) en la quedeseamos comparar los grupos la llamamosdependiente y la representamos por VD.
Análisis de la varianza de un factor
De un factor, que es el caso más sencillo, la
idea básica del análisis de la varianza es
comparar la variación total de un conjunto de
muestras y descomponerla como:
Análisis de la varianza de un factor
Donde:
es un número real relacionado con la
varianza, que mide la variación debida al "factor",
"tratamiento" o tipo de situación estudiado.
es un número real relacionado con la
varianza, que mide la variación dentro de cada
"factor", "tratamiento" o tipo de situación.
Modelo de efectos fijos
Asume que los datos provienen de poblaciones normales las
cuales podrían diferir únicamente en sus medias. (Modelo 1).
El modelo de efectos fijos de análisis de la varianza se aplica a
situaciones en las que el experimentador ha sometido al grupo o
material analizado a varios factores, cada uno de los cuales le
afecta sólo a la media, permaneciendo la "variable respuesta"
con una distribución normal.
Este modelo se supone cuando el investigador se interesa
únicamente por los niveles del factor presentes en el
experimento, por lo que cualquier variación observada en las
puntuaciones se deberá al error experimental.
Modelo de efectos aleatorios
Asume que los datos describen una jerarquía de diferentes
poblaciones cuyas diferencias quedan restringidas por la
jerarquía.
Ejemplo: El experimentador ha aprendido y ha considerado en el
experimento sólo tres de muchos más métodos posibles, el
método de enseñanza es un factor aleatorio en el experimento.
(Modelo 2).
Modelo de efectos aleatorios
Los modelos de efectos aleatorios se usan para describir
situaciones en que ocurren diferencias incomparables en el
material o grupo experimental. El ejemplo más simple es el de
estimar la media desconocida de una población compuesta de
individuos diferentes y en el que esas diferencias se mezclan
con los errores del instrumento de medición.
Este modelo se supone cuando el investigador está interesado
por una población de niveles, teóricamente infinitos, del factor de
estudio, de los que únicamente una muestra al azar (“t” niveles)
están presentes en el experimento.
Modelo de efectos mixtos
El Modelo de efectos mixtos describen situaciones que éste
puede tomar.
Ejemplo: Si el método de enseñanza es analizado como un
factor que puede influir donde están presentes ambos tipos de
factores: fijos y aleatorios. (Modelo 3)
Supuestos previos
El ANOVA parte de algunos supuestos quehan de cumplirse:
La variable dependiente debe medirse almenos a nivel de intervalo.
Independencia de las observaciones.
La distribución de los residuales debeser normal.
Homocedasticidad: homogeneidad de lasvarianzas.
Pruebas de significación
El análisis de varianza lleva a la realización
de pruebas de significación estadística,
usando la denominada distribución F de
Snedecor.
Leandro Huayanay Falconi
Ejemplo 1
Se desea comparar si cuatro alimentos para
ratones son similares. Para tal fin se lleva a
cabo un experimento, en el cual se asigna a
40 ratones a cuatro alimentos diferentes, y
luego de un período adecuado, se toma el
peso de cada uno de ellos. Al inicio todos los
ratones tenían características similares.
Se obtiene los siguientes datos
Peso de ratones con diferentes alimentos
NUTRI CRECE DESAR BAMBA
8 5 14 5
8 10 16 3
10 12 14 4
10 16 18 6
12 14 12 6
6 12 6 8
8 8 4 10
9 11 5 8
6 12 5 8
8 7 7 6
Peso de Ratones
0
10
20
NUTRI CRECE DESAR BAMBA
alimentos
pe
so
Serie1
Serie2
Serie3
Serie4
Serie5
Serie6
Serie7
Serie8
Serie9
Serie10
3
18
peso
nutri crece desar bamba
¿QUÉ SE VE?
1.- Los gráficos
2.- Como se podría comparar
3.- ¿Que variaciones se puede comparar?
4.- Como lo haría
Que es la varianza
Variación respecto a la media general.
Variación de la media del grupo respecto a la
media general.
Variación dentro de cada grupo.
Variación respecto a la media general
Es la suma de las variaciones de cada
individuo respecto a la media general.
Siempre se suma las diferencia al cuadrado.
1
)( 2
n
xxVar i
NUTRI CRECE DESAR BAMBA
8 0.86 5 15.41 14 25.76 5 15.41
8 0.86 10 1.16 16 50.06 3 35.11
10 1.16 12 9.46 14 25.76 4 24.26
10 1.16 16 50.06 18 82.36 6 8.56
12 9.46 14 25.76 12 9.46 6 8.56
6 8.56 12 9.46 6 8.56 8 0.86
8 0.86 8 0.86 4 24.26 10 1.16
9 0.01 11 4.31 5 15.41 8 0.86
6 8.56 12 9.46 5 15.41 8 0.86
8 0.86 7 3.71 7 3.71 6 8.56
32 130 261 104.2527
Varianza
1
)( 2
n
xxVar i
5.1339
527Var
Variación de la media del grupo respecto a la
media general
Se toma en cuenta la variación de cada
grupo respecto a la media general
Es la variación que existe entre los grupos
1
)(1
2
g
g
k kk
n
xxnVar
NUTRI CRECE DESAR BAMBA
8 5 14 5
8 10 16 3
10 12 14 4
10 16 18 6
12 14 12 6
6 12 6 8
8 8 4 10
9 11 5 8
6 12 5 8
8 7 7 6
8.5 10.7 10.1 6.4
Cálculos
Media 8.5 10.7 10.1 6.4 prom 8.925 8.925 8.925 8.925
Dif cuad 0.18 3.15 1.38 6.38
suma= 11.0875 (pero cada grupo tiene 10 elemento, por lo que multiplicamos por 10)
La variancia entre grupos
= 110.875/3= 36.95
Variación dentro de cada grupo (residuo)
Se puede calcular cual es la variación de
cada uno de los individuos de acuerdo al
grupo que pertenecen
En el ejemplo seria la variación del peso del
individuo respecto al promedio del grupo
gn
xxVar
jij
j
2)(
NUTRI CRECE DESAR BAMBA
8 0.25 5 32.49 14 15.21 5 1.96
8 0.25 10 0.49 16 34.81 3 11.56
10 2.25 12 1.69 14 15.21 4 5.76
10 2.25 16 28.09 18 62.41 6 0.16
12 12.3 14 10.89 12 3.61 6 0.16
6 6.25 12 1.69 6 16.81 8 2.56
8 0.25 8 7.29 4 37.21 10 12.96
9 0.25 11 0.09 5 26.01 8 2.56
6 6.25 12 1.69 5 26.01 8 2.56
8 0.25 7 13.69 7 9.61 6 0.16
8.5 30.25 10.7 98 10.1 247 6.4 40.4415.9
Cálculos
parcial 30.25 + 98 + 247 + 40.4
= 415.9
La variancia dentro de los grupos
= 415.9/36 = 11.55
Distribución F
2
1
/
/
vV
vUF
residual
entre
Var
VarF
Leandro Huayanay Falconi
Cálculos
Var entre=36.95 Var res=11.55
F=36.95/11.55= 3.20
como se interpreta
Distribución F
Ejemplo 02
Si queremos, por ejemplo, averiguar cuál de tres programasdistintos de incentivos aumenta de forma más eficaz elrendimiento de un determinado colectivo, podemosseleccionar tres muestras aleatorias de ese colectivo y aplicara cada una de ellas uno de los tres programas.
Ejemplo 02
Después, podemos medir el rendimiento de cadagrupo y averiguar si existen o no diferencias entreellos. Tendremos una VI categórica (el tipo deprograma de incentivos) cuyos niveles deseamoscomparar entre sí, y una VD cuantitativa (lamedida del rendimiento), en la cual queremoscomparar los tres programas.
El ANOVA de un factor permite obtenerinformación sobre el resultado de esacomparación. Es decir, permite concluir si lossujetos sometidos a distintos programas difieren lamedida de rendimiento utilizada.
El cociente entre estas dos medias cuadráticas nos proporciona
el valor del estadístico F, el cual aparece acompañado de su
correspondiente nivel crítico o nivel de significación observado
(Sig.).
Es decir, de la probabilidad de obtener valores como el obtenido
o mayores bajo la hipótesis de igualdad de medias.
Puesto que el valor del nivel crítico (0,000), es menor que 0,05,
decidimos rechazar la hipótesis de igualdad de medias y
concluimos que las poblaciones definidas por la variable no
poseen el mismo salario medio.
Homogeneidad de varianzas.
El estadístico F del ANOVA de un factor se basa enel cumplimiento de dos supuestos fundamentales:normalidad y homocedasticidad.
Normalidad significa que la variable dependiente sedistribuye normalmente en las J poblacionesmuestreadas (tantas como grupos definidos por lavariable independiente o factor).
No obstante, si los tamaños de los grupos songrandes, el estadístico F se comportarazonablemente bien incluso con distribucionespoblacionales sensiblemente alejadas de lanormalidad.
Homogeneidad de varianzas.
Homocedasticidad o igualdad de varianzas
significa que las J poblaciones muestreadas
poseen la misma varianza. Con grupos de
distinto tamaño, el incumplimiento de este
supuesto debe ser cuidadosamente vigilado.
La opción Homogeneidad de varianzas
permite contrastar este supuesto mediante la
prueba de Levene.