Teste de hipóteses para comparação de duas médias
Teste de hipóteses para comparação de duas médias
Comparação de duas médias
• Objetivo: Comparar as médias amostrais de duas populações.
• 1º passo: Verificar se as variáveis estão ou não relacionadas.
• 2º passo: Considerar a variabilidade associada aos valores populacionais e amostrais.
dependentes
2 amostras
variâncias iguais
independentes
variâncias diferentes
Amostras dependentes (teste t-pareado)
• São comparadas duas médias populacionais sendo que, para cada unidade amostral, realizou-se duas medições da característica de interesse. Correspondem a medidas tomadas antes e após uma dada intervenção.
• Ex: Uma distribuidora de combustíveis deseja verificar se um novo tipo de gasolina é eficaz na revitalização de motores velhos. Selecionou-se 12 automóveis de um mesmo modelo com mais de 8 anos de uso e, após regulagem dos motores, verifica-se o consumo de combustível. Em seguida, o carro é abastecido com o novo tipo de combustível durante 15 semanas e uma nova aferição é feita.
• Como o desempenho dos automóveis foi medido antes e depois das 15 semanas, é razoável assumir que exista alguma dependência entre as variáveis.
• Essa é a típica situação que o teste t-pareadodeve ser utilizado.
• As medidas tomadas antes e após a intervenção realizada serão representadas pelas v.a.s Xi e Yi.
• O efeito produzido pelo i-ésimo indivíduo, pode ser representado pela variável Di= Yi - Xi.
• Supondo, para i=1,...,n, “ASSUMIMOS”, por hipótese, que:
Di ~ N(D ,2D)
Queremos testar as hipóteses:
H0: A intervenção não produz efeito (D = 0)
Ha: A intervenção produziu algum efeito (D 0)
A hipótese alternativa também pode ser unilateral!!!!
• O parâmetro D é estimado pela média amostral de D e sua variância é estimada por:
• O teste de hipóteses é realizado utilizando-se a quantidade :
• Que sob H0, segue uma distribuição t-Student com n-1 graus de liberdade.
.)(1
1 2
1
2 DDn
Sn
i
iD
n
S
Dt
D
D
• Valores observados para os 12 automóveis:
• A média e a variância amostrais de D são:
Dm=2,9 e S2=2,4.
• 1º Passo: Definir as hipóteses nula e alternativa:
H0: D = 0 (O novo combustível não aumenta o rendimento)
Há: D > 0 (o novo combustível aumenta o rendimento)
Autom. 1 2 3 4 5 6 7 8 9 10 11 12
Após (Y) 11,6 8,8 9,9 9,5 11,6 9,1 10,6 10,8 13,4 10,6 10,5 11,4
Antes (X) 8,1 7,9 6,8 7,8 7,6 7,9 5,7 8,4 8,0 9,5 8,0 6,8
D=Y-X 3,5 0,9 3,1 1,7 4,0 1,2 4,9 2,4 5,4 1,1 2,5 4,6
• 2 Passo: Definir a região crítica com base na hipótese alternativa:
Teste unilateral, RC:{xR|x>xc}
• 3 Passo: Identificar a distribuição do estimador e encontrar a estimativa:
Por “HIPÓTESE”, tem-se: D~N(D , 2D/n)
• 4 Passo: Fixar e determinar a região crítica.
=5% t=1,796
n
dD
i
• 5 Passo: Conclusão
Como Dobs = 2,9 e Dobs>0,80, rejeitamos H0 e concluímos que o novo combustível é eficaz na melhora do rendimento.
80,0
12
4,2796,10
124,2
0
c
c
cc
x
x
xt
RC={x : x>0,80}
Amostras independentesVariâncias IGUAIS
• Geralmente não se tem informações a respeito do valor das variâncias das populações. Entretanto, alguns processos nos levam a crer que, apesar de desconhecidas, as variâncias são iguais para duas populações.
• Ex.: Digitadores são treinados em uma empresa em duas turmas distintas. Na primeira (TURMA J) utiliza-se um método japonês, na segunda (TURMA A) utiliza-se um método alemão. Deseja-se comparar os dois métodos. Foram escolhidas duas amostras aleatoriamente (uma de cada turma) e mediu-se o tempo gasto na realização de uma tarefa para cada aluno.
• Apesar de não conhecidas, as variâncias populacionais para as duas turmas são consideradas iguais com base em estudos anteriores.
• Os dados obtidos foram:
• Formalizando o problema temos:
• Supomos que os dados apresentados para as turmas J e A são variáveis aleatórias independentes (X1,...,Xn) e (Y1,...Yn), respectivamente e que seguem a distribuição Normal.
Turma Tempos (min)
J 10 13 9 10 14 13 10 15 12 10 9 10 13 14
A 15 12 18 16 15 17 17 15 16 17 11 17 14
• Portanto
Xi ~ N(X, 2), i= 1, 2, ..., n1
Yj ~ N(Y, 2), j= 1, 2, ..., n2
OBS: Para ambas as populações temos a mesma variância (desconhecida!!!)
Queremos testar se existe diferença entre o tempo médio de digitação dos dois métodos, ou seja:
H0: X = Y
Ha: X Y ou (Ha: X < Y | Ha: X > Y)
• Testar se as médias populacionais são iguais é equivalente a testar se a diferença entre elas é “estatisticamente” igual a 0.
• Logo podemos reescrever as hipóteses em termos de D = X - Y
H0: D = 0
Ha: D 0 ou (Ha: D < 0 | Ha: D > 0)
Desta forma usaremos o estimador (intuitivo)
D = X - Y
• Do TLC tem-se que se n>30
• Se n30 usaremos a distribuição t-Student !!!
• Como as amostras são independentes:
E(D) = E(X-Y) = E(X + (-1)Y) = E(X) + (-1)E(Y) = E(X) - E(Y) = X - Y
Var(D) = Var(X-Y) = Var(X + (-1)Y) = Var(X) + Var(-1Y) =
Var(X) + (-1)2Var(Y) = Var(X) + Var(Y) =
2
2
1
2
,~,~n
NYen
NX YX
2
2
1
2
nn
• Como X e Y têm distribuição normal (se n>30) então:
• Se n 30 usa-se a distribuição t–Student(cuidado com os graus de liberdade!!!)
• Como 2 é desconhecida, precisará ser estimada. Como SX
2 e SY2 são estimadores não
viciados dessa variância, usaremos como estimativa para 2 uma combinação deles dada por:
2
2
1
2
,~nn
ND YX
2
)()(
)1()1(
)1()1(
21
22
21
2
2
2
12
nn
YYXX
nn
SnSnS
jiYXC
SC2 é uma média ponderada entre SX
2 e SY2 e é um
estimador não viciado!!!
Se n30
)2(
21
2 21~
)(
nn
C
YX t
nn
S
Dt
• Logo
=P(Rejeitar H0|H0 verd) = P(t<-tc ou t>tc|H0)
tc é obtido pela tabela da distribuição t-Student com n1+n2 -2 graus de liberdade.
A região crítica será dada por:
RC={tR|t<-tc ou t>tc}
Obtidas as amostras, substituindo as estimativas de D e Sc na expressão de t, obtém-se o valor tobs.
• Rejeita-se H0 se tobs pertencer à região crítica.
Se n>30
Então=P(Rejeitar H0|H0 verd) = P(z<-zc ou z>zc|H0)
zc é obtido pela tabela da distribuição Normal (0,1)
A região crítica será dada por:RC={zR|z<-zc ou z>zc}
)1,0(~)(
21
2N
nn
S
Dz
C
YX
Obtidas as amostras, substituindo as estimativas de D e Sc na expressão de t, obtém-se o valor zobs.
• Rejeita-se H0 se zobs pertencer à região crítica.
• Voltando ao exemplo: Digitadores são treinados em uma empresa em duas turmas distintas. Na primeira (TURMA J) utiliza-se um método japonês, na segunda (TURMA A) utiliza-se um método alemão. Deseja-se comparar os dois métodos. Foram escolhidas duas amostras aleatoriamente (uma de cada turma) e mediu-se o tempo gasto na realização de uma tarefa para cada aluno.
• As amostras forneceram os seguintes valores:
Turma J: n1=14, Xobs=11,57e SX2=4,1
Turma A: n2=13, Yobs= 15,38 e SY2= 4,3
Então:
Dobs = 11,57 – 15,38 = -3,81
Turma Tempos (min)
J 10 13 9 10 14 13 10 15 12 10 9 10 13 14
A 15 12 18 16 15 17 17 15 16 17 11 17 14
2,425
3,4*121,4*13
)1()1(
)1()1(
21
2
2
2
12
nn
SnSnS YX
C
• Como a hipótese alternativa é bilateral e n<30, a região crítica tem a forma:
RC={tR|t<-tc ou t>tc}.
Logo para =0,01, temos:
=P(Rejeitar H0|H0 verd) = P(t<-tc ou t>tc|H0).
Da tabela da t-Student com 25 graus de liberdade, obtemos tc=2,787.
Então RC={tR|t<-2,787 ou t>2,787}.
• Usando a estatística do teste temos:
• Como -4,83 pertence a região crítica, concluímos que os métodos de fato diferem a um nível de significância de 1%.
83,4
1314
2,4
081,3)(
21
2
nn
S
Dt
C
YX
Amostras independentesVariâncias DIFERENTES
• O teste para o caso com as variâncias desconhecidas e desiguais é semelhante ao anterior, mas a quantidade a ser usada para aceitar ou rejeitar H0 se n30 será:
t
n
S
n
S
Dt
yX
YX ~)(
2
2
1
2
• Mas os graus de liberdade são corrigidos pela expressão:
11 2
2
2
2
1
2
1
2
2
2
2
1
2
n
n
S
n
n
S
n
S
n
S
yX
yX
• Se n>30
• A seqüência do teste é igual aos casos anteriores.
)1,0(~)(
2
2
1
2N
n
S
n
S
Dz
yX
YX
RESUMO1) Amostras relacionadas (teste t-pareado)
• Estimadores:
• Estatística do teste:
n
DD
i
1
)( 2
2
n
DDS
i
D
)1(2
~
todoPara
n
D
D t
n
S
Dt
n
)1,0(~
120seaprox.Por
2N
n
S
Dz
n
D
D
2) Amostras independentes com variâncias desconhecidas e iguais
• Estimadores:
• Estatística do teste:
YXD )1()1(
)1()1(
21
2
2
2
12
nn
SnSnS YX
C
)2(
21
2 21~
30Se
nn
C
D t
nn
S
Dt
n
)1,0(~
30Se
21
2N
nn
S
Dz
n
C
D
3) Amostras independentes com variâncias desconhecidas e desiguais
• Estimadores:
• Estatística do teste:
YXD 2
2
1
22
n
S
n
SS YX
D
t
n
S
n
S
Dt
n
yX
D ~
30Se
2
2
1
2
11 2
2
2
2
1
2
1
2
2
2
2
1
2
n
n
S
n
n
S
n
S
n
S
yX
yX
)1,0(~
30Se
2
2
1
2N
n
S
n
S
Dz
n
yX
D
Exercício: Num estudo sobre doenças infantis, desejamos investigar se a incidência de casos de contaminação por vermes é afetada pela idade. Dois grupos de crianças, um com idades de 2 a 4 anos (GRUPO I) e outro, com idades de 7 a 9 anos (GRUPO II) foram escolhidos para serem examinados quanto à ocorrência de vermes. Os dados são apresentados:
Para saber se as duas faixas etárias acima tem o mesmo comportamento, realize um teste de hipóteses envolvendo a proporção de crianças com verminose. Considere =5% e variâncias iguais.
Grupo Amostra Proporção com Verminose
I 120 0,085
II 260 0,103