Testes de Hip´oteses sobre a m´ edia: V´ arias Amostras Na aula de hoje veremos como comparar mais deduaspopula¸c˜ oes, baseados em dados forneci- dos por amostras dessas popula¸ c˜ oes. A An´ alise de Variˆ ancia (ANOVA) ´ e uma t´ ecnica usada em Estat´ ıstica para este fim e requer que a vari´ avel sob an´ alise tenha distribui¸ c˜ ao normal. Uma vers˜ ao n˜ ao param´ etrica para a compara- ¸ c˜ ao de v´ ariaspopula¸c˜ oes ´ e o teste de Kruskal- Wallis que tamb´ em ser´ a apresentado na aula de hoje. 1
42
Embed
Testes de Hip oteses sobre a m edia: V arias - im.ufrj.brim.ufrj.br/flavia/mad342/aula08_mad342.pdf · A An alise de Vari^ancia (ANOVA) e uma t ecnica usada em Estat stica para este
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Testes de Hipoteses sobre a media: Varias
Amostras
Na aula de hoje veremos como comparar mais
de duas populacoes, baseados em dados forneci-
dos por amostras dessas populacoes.
A Analise de Variancia (ANOVA) e uma tecnica
usada em Estatıstica para este fim e requer
que a variavel sob analise tenha distribuicao
normal.
Uma versao nao parametrica para a compara-
cao de varias populacoes e o teste de Kruskal-
Wallis que tambem sera apresentado na aula
de hoje.
1
EXEMPLO 1: (ALCOOL E HABILIDADE DE
DIRIGIR)
Trinta e seis (36) pessoas participaram de um
experimento para descobrir os efeitos do alcool
na habilidade de dirigir. Elas foram aleato-
riamente associadas a uma de tres condicoes:
placebo, pouco alcool e muito alcool. A bebida
nao-alcoolica parecia e tinha o mesmo gosto
das demais. Os participantes foram pesados e
tomaram a quantidade apropriada de bebida.
Observe que temos uma situacao de amostras
independentes (interparticipantes), pois os gru-
pos sao diferentes. Uma hora apos beber, os
participantes dirigiram em um simulador du-
rante 10 minutos e o numero de erros que eles
cometeram foi automaticamente registrado por
um computador.
Os dados obtidos estao na tabela a seguir.
2
Placebo Pouco Alcool Muito Alcool5 5 8
10 7 107 9 83 8 95 2 117 5 15
11 6 72 6 113 4 85 4 86 8 176 10 11
x = 5,83 x = 6,17 x = 10,25s = 2,69 s = 2,33 s = 3,05
esima condicao, i = 1,2, ..., nj e j = 1,2, ..., a.
5
O nome em Estatıstica para um experimento
com essa cofiguracao e experimento a um
fator completamente aleatorizado.
No Bioestat a funcao apropriada para esse caso
esta em
Estatısticas,
Analise da Variancia,
ANOVA:um criterio.
6
Um teste de hipoteses apropriado aqui e{H0 : µ1 = µ2 = ... = µaH1 : pelo menos uma das medias e diferente das demais
µj corresponde a media do j-esimo grupo. Neste
exemplo temos tres grupos tal que j = 1,2,3.
A tecnica que iremos trabalhar, Analise de Va-
riancia (ANOVA) requer que as amostras pro-
venham de populacoes normais com variancias
iguais.
O Bioestat tem testes que verificam a norma-
lidade.
A ANOVA busca por diferencas entre as medias
dos grupos. Quando as medias sao bem dife-
rentes, dizemos que existe um alto grau de
variacao entre condicoes.
Se nao existirem diferencas entre as medias dos
grupos, nao existira variacao entre as condicoes.
7
Variancia entre grupos: corresponde a variacao
devida as condicoes que definem os grupos.
Variancia intra-grupos: corresponde a variacao
dentro de cada grupo.
Na ANOVA a um fator com amostras inde-
pendentes a variacao total e decomposta em
duas parcelas correspondentes a variacao entre
grupos e a variacao intra-grupos.
SQTot︸ ︷︷ ︸variacao total
= SQentre︸ ︷︷ ︸variacao entre grupos
+ SQdentro︸ ︷︷ ︸variacao dentro dos grupos
Se a hipotese nula de que todas as medias sao iguais,isto e, de que nao ha variacao entre grupos, e ver-dadeira, segue que a variacao dentro dos grupos tendea ser igual a variacao total.
8
Notacao: SQTot: variacao total, SQentre: va-riacao entre grupos e SQdentro: variacao intragrupos.
QMTot =SQTotN − 1
: e uma media da variacao to-
tal.
N e o numero total de observacoes no pro-blema. No exemplo que estamos considerandoN = 3× 12 = 36.
QMentre =SQentre
a− 1: e uma media da variacao
entre grupos, chamada quadrado medio entregrupos.
a e o numero de grupos (condicoes) no pro-blema. No exemplo que estamos considerandoa = 3.
dentro dosgrupos (residual) SQdentro N − a QMdentro
total SQTot N − 1
QMentre =SQentre
a− 1, QMDentro =
SQdentro
N − a
Se o valor de F for grande, H0 sera rejeitada.
13
Uma outra medida que tambem decorre da
analise de variancia e a chamada porcenta-
gem da variacao total explicada pelo fator
sob consideracao.
Vimos que
SQTot︸ ︷︷ ︸variacao total
= SQentre︸ ︷︷ ︸variacao entre grupos
+ SQdentro︸ ︷︷ ︸variacao dentro dos grupos
Essa equacao leva a seguinte definicao
R2 =SQentre
SQTot
Observe que R2 esta entre 0 e 1. Quanto
maior for o valor de R2, mais o fator explica a
variacao dos dados no problema.
14
O Bioestat tem a funcao ANOVA. No caso do
exemplo apresentado devemos escolher:
Estatısticas, Analise da Variancia, ANOVA: um
criterio.
O quadro a seguir mostra a saıda do Bioestat
para os dados do exemplo sob consideracao.
15
Do quadro anterior podemos ver que o p-valordo teste ANOVA e muito pequeno (menor que0,001), indicando que esses dados trazem evi-dencia muito forte contra a hipotese nula deque as medias sob as diferentes condicoes saoiguais. Observe que o valor da estatıstica deteste F tambem e grande.
Logo, devemos rejeitar H0 em favor da hipotesealternativa de que pelo menos uma das mediase diferente das demais.
Se a hipotese nula, medias iguais, for rejeitada,significa que ha evidencia de que existem dife-rencas nas medias de tratamento.
Observe que a hipotese alternativa e bastantevaga: pelo menos uma media e diferente dasdemais.
A diferenca existente nao e especificada porH1.
16
Dado que rejeitamos H0, sera importante saber,
por exemplo, se as medias sao duas a duas
diferentes entre si, ou se uma delas e diferente
das demais, ou outras possibilidades contem-
pladas por H1.
Existem varios testes de comparacao das me-
dias duas a duas, no caso de rejeicao de H0
na ANOVA. Vamos apresentar aqui o teste de
Tukey.
17
Comparacoes de pares de medias de trata-mento
Vamos ver a seguir o metodo de Tukey desig-nado para este tipo de comparacao:
{H0 : µi = µk, ∀i 6= kH1 : pelo menos um par de medias e desigual
.
Teste de Tukey (1953): Procedimento parao qual o nıvel de significancia global e exata-mente α, quando os tamanhos amostrais saoiguais e no maximo α, quando os tamanhossao desiguais.
Este procedimento tambem pode ser usadopara construir intervalos de confianca sobreas diferencas de todos os pares de medias.Para estes intervalos, o nıvel de confianca si-multaneo e 100(1−α)% para amostras de tama-nhos iguais e pelo menos 100(1 − α)% paraamostras de tamanhos desiguais.
esima condicao, i = 1,2, ..., n e j = 1,2, ..., a.
30
Na ANOVA a um fator com amostras rela-
cionadas a variacao total e decomposta em
tres parcelas correspondentes a variacao entre
grupos, a variacao inerente a cada participante
(variacao dos blocos) e a variacao residual.
SQTot︸ ︷︷ ︸variacao total
= SQentre︸ ︷︷ ︸variacao entre grupos
+ SQBl︸︷︷︸variacao do indivıduo
+ SQres︸ ︷︷ ︸variacao residual
Notacao: SQTot: variacao total, SQentre: variacao entre grupos,SQBl - variacao nos blocos (individual) e SQdentro: variacao residual(dentro de cada grupo).
QMTot =SQTot
N − 1: e uma media da variacao total.
N e o numero total de observacoes no problema.
QMentre =SQentre
a− 1: e uma media da variacao entre grupos, chamada
quadrado medio entre grupos.
a e o numero de grupos (condicoes) no problema.
QMBl =SQBl
n− 1: e uma media da variacao dos blocos, chamada
quadrado medio dos blocos.
n e o numero de observacoes (igual) sob cada condicao.
QMdentro =SQdentro
(a− 1)(n− 1): e uma media da variacao residual, chamada
quadrado medio residual ou intra grupos.
31
A estatıstica do teste realizado pela ANOVA
nesse caso e dada pela razao dos quadrados
medios entre grupos e residual, a saber,
F =QMentre
QMdentro.
Se a hipotese nula e verdadeira, e possıvel mos-
trar que a estatıstica F tem uma distribuicao
F de Snedecor com a−1 e (a−1)(n−1) graus
de liberdade no numerador e denominador, re-
spectivamente.
Se a hipotese nula e verdadeira, espera-se que
a razao entre os quadrados medios entre e den-
tro dos grupos seja pequena. Em geral, re-
jeitaremos H0 quando os valores amostrais de
F forem grandes.
32
A tabvela ANOVA correspondente a esse caso
e dada por
fonte devariacao SQ gl QM F
entregrupos SQentre a− 1 QMentre F = QMentre
QMdentro
blocos(individual) SQBl n− 1 QMBl
dentro dosgrupos
(residual) SQdentro (a− 1)(n− 1) QMdentro
total SQTot N − 1
QMentre =SQentre
a− 1, QMDentro =
SQdentro
(a− 1)(n− 1)
Se o valor de F for grande, H0 sera rejeitada.
O Bioestat tem essa funcao.
Estatısticas, Analise da Variancia, ANOVA: dois criterios.
33
O quadro a seguir mostra a saıda do Bioestat
para os dados do exemplo sob consideracao.
Podemos perceber que o teste ANOVA rejeita
H0, pois o p-valor e muito pequeno. Logo,
faz sentido realizar as comparacoes de medias
duas a duas.
34
O quadro a seguir mostra a saıda do Bioestat
usando o procedimento de Tukey.
35
Cuidado: toda vez que as medidas forem repeti-
das para as mesmas unidades amostrais e fun-
damental rodar a ANOVA a dois criterios, pois
caso contrario a variacao dentro dos grupos
podera ficar inflacionada acarretando na nao
rejeicao de H0 um maior numero de vezes por
conta da variacao residual inflacionada, ou seja,
aumentando a chance de cometer o erro tipo
II.
Se as amostras forem relacionadas, ou seja, se
for um experimento intra-participantes, rode o
a ANOVA a dois criterios.
36
Vamos agora apresentar um metodo nao-para-
metrico para a analise de variancia (ANOVA):
O teste de Kruskal-Wallis
Em situacoes nas quais a suposicao de nor-
malidade nao e justificada, existe um procedi-
mento alternativo ao teste F da ANOVA que
nao depende desta suposicao. Um procedi-
mento desse tipo foi desenvolvido por Kruskal
e Wallis em 1952.
Neste teste, H0 corresponde a hipotese de que
os a tratamentos (grupos ou condicoes) sao
identicos versus a alternativa de que algum
tratamento (grupo ou condicao) gera observa-
coes que sao maiores que as outras geradas pe-
los outros tratamentos (grupos ou condicoes).
37
Como este procedimento e designado para ser
sensıvel para testar diferencas em medias, al-
gumas vezes e conveniente pensar no teste de
Kruskal-Wallis como um teste para a igualdade
de medias de tratamento (grupo ou condicao).
Este teste e uma alternativa nao-parametrica
a ANOVA usual.
Passos no teste Kruskal-Wallis
P1) Designe postos rij as observacoes yij em
ordem crescente das observacoes. Em caso
de empate, designe as observacoes empatadas
a media dos postos correspondentes caso nao
houvesse empate.
yij representa a i-esima observacao do j-esimo
grupo.
38
P2) Calcule a soma dos postos para cada trata-mento (grupo ou condicao), a saber, ri. =ni∑j=1
rij, i = 1,2, ..., a.
P3) Calcule a estatıstica de teste H dada por
H = 1S2
{N
a∑i=1
(Ri. − R..)2
}= 1
S2
[a∑
i=1
R2i.
ni−N(N + 1)2
4
]
com ni o numero de observacoes no i-esimotratamento (grupo), N o numero total de replicacoes,e
S2 = 1N−1
a∑i=1
n∑j=1
(Rij−R..)2 =1
N − 1
a∑i=1
ni∑j=1
R2ij −
N(N + 1)2
4
.Observe que S2 e a variancia amostral dos pos-tos. Se nao existem empates,
S2 = N(N+1)/12 e a estatıstica de teste sim-plifica para