Aula 14 new

Teste de hipóteses para comparação de duas médias

Comparação de duas médias

• Objetivo: Comparar as médias amostrais de duas populações.

• 1º passo: Verificar se as variáveis estão ou não relacionadas.

• 2º passo: Considerar a variabilidade associada aos valores populacionais e amostrais.

dependentes

2 amostras

variâncias iguais

independentes

variâncias diferentes

Amostras dependentes (teste t-pareado)

• São comparadas duas médias populacionais sendo que, para cada unidade amostral, realizou-se duas medições da característica de interesse. Correspondem a medidas tomadas antes e após uma dada intervenção.

• Ex: Uma distribuidora de combustíveis deseja verificar se um novo tipo de gasolina é eficaz na revitalização de motores velhos. Selecionou-se 12 automóveis de um mesmo modelo com mais de 8 anos de uso e, após regulagem dos motores, verifica-se o consumo de combustível. Em seguida, o carro é abastecido com o novo tipo de combustível durante 15 semanas e uma nova aferição é feita.

• Como o desempenho dos automóveis foi medido antes e depois das 15 semanas, é razoável assumir que exista alguma dependência entre as variáveis.

• Essa é a típica situação que o teste t-pareadodeve ser utilizado.

• As medidas tomadas antes e após a intervenção realizada serão representadas pelas v.a.s Xi e Yi.

• O efeito produzido pelo i-ésimo indivíduo, pode ser representado pela variável Di= Yi - Xi.

• Supondo, para i=1,...,n, “ASSUMIMOS”, por hipótese, que:

Di ~ N(D ,2D)

Queremos testar as hipóteses:

H0: A intervenção não produz efeito (D = 0)

Ha: A intervenção produziu algum efeito (D 0)

A hipótese alternativa também pode ser unilateral!!!!

• O parâmetro D é estimado pela média amostral de D e sua variância é estimada por:

• O teste de hipóteses é realizado utilizando-se a quantidade :

• Que sob H0, segue uma distribuição t-Student com n-1 graus de liberdade.

.)(1

1 2

1

2 DDn

Sn

i

iD

n

S

Dt

D

D

• Valores observados para os 12 automóveis:

• A média e a variância amostrais de D são:

Dm=2,9 e S2=2,4.

• 1º Passo: Definir as hipóteses nula e alternativa:

H0: D = 0 (O novo combustível não aumenta o rendimento)

Há: D > 0 (o novo combustível aumenta o rendimento)

Autom. 1 2 3 4 5 6 7 8 9 10 11 12

Após (Y) 11,6 8,8 9,9 9,5 11,6 9,1 10,6 10,8 13,4 10,6 10,5 11,4

Antes (X) 8,1 7,9 6,8 7,8 7,6 7,9 5,7 8,4 8,0 9,5 8,0 6,8

D=Y-X 3,5 0,9 3,1 1,7 4,0 1,2 4,9 2,4 5,4 1,1 2,5 4,6

• 2 Passo: Definir a região crítica com base na hipótese alternativa:

Teste unilateral, RC:{xR|x>xc}

• 3 Passo: Identificar a distribuição do estimador e encontrar a estimativa:

Por “HIPÓTESE”, tem-se: D~N(D , 2D/n)

• 4 Passo: Fixar e determinar a região crítica.

=5% t=1,796

n

dD

i

• 5 Passo: Conclusão

Como Dobs = 2,9 e Dobs>0,80, rejeitamos H0 e concluímos que o novo combustível é eficaz na melhora do rendimento.

80,0

12

4,2796,10

124,2

0

c

c

cc

x

x

xt

RC={x : x>0,80}

Amostras independentesVariâncias IGUAIS

• Geralmente não se tem informações a respeito do valor das variâncias das populações. Entretanto, alguns processos nos levam a crer que, apesar de desconhecidas, as variâncias são iguais para duas populações.

• Ex.: Digitadores são treinados em uma empresa em duas turmas distintas. Na primeira (TURMA J) utiliza-se um método japonês, na segunda (TURMA A) utiliza-se um método alemão. Deseja-se comparar os dois métodos. Foram escolhidas duas amostras aleatoriamente (uma de cada turma) e mediu-se o tempo gasto na realização de uma tarefa para cada aluno.

• Apesar de não conhecidas, as variâncias populacionais para as duas turmas são consideradas iguais com base em estudos anteriores.

• Os dados obtidos foram:

• Formalizando o problema temos:

• Supomos que os dados apresentados para as turmas J e A são variáveis aleatórias independentes (X1,...,Xn) e (Y1,...Yn), respectivamente e que seguem a distribuição Normal.

Turma Tempos (min)

J 10 13 9 10 14 13 10 15 12 10 9 10 13 14

A 15 12 18 16 15 17 17 15 16 17 11 17 14

• Portanto

Xi ~ N(X, 2), i= 1, 2, ..., n1

Yj ~ N(Y, 2), j= 1, 2, ..., n2

OBS: Para ambas as populações temos a mesma variância (desconhecida!!!)

Queremos testar se existe diferença entre o tempo médio de digitação dos dois métodos, ou seja:

H0: X = Y

Ha: X Y ou (Ha: X < Y | Ha: X > Y)

• Testar se as médias populacionais são iguais é equivalente a testar se a diferença entre elas é “estatisticamente” igual a 0.

• Logo podemos reescrever as hipóteses em termos de D = X - Y

H0: D = 0

Ha: D 0 ou (Ha: D < 0 | Ha: D > 0)

Desta forma usaremos o estimador (intuitivo)

D = X - Y

• Do TLC tem-se que se n>30

• Se n30 usaremos a distribuição t-Student !!!

• Como as amostras são independentes:

E(D) = E(X-Y) = E(X + (-1)Y) = E(X) + (-1)E(Y) = E(X) - E(Y) = X - Y

Var(D) = Var(X-Y) = Var(X + (-1)Y) = Var(X) + Var(-1Y) =

Var(X) + (-1)2Var(Y) = Var(X) + Var(Y) =

2

2

1

2

,~,~n

NYen

NX YX

2

2

1

2

nn

• Como X e Y têm distribuição normal (se n>30) então:

• Se n 30 usa-se a distribuição t–Student(cuidado com os graus de liberdade!!!)

• Como 2 é desconhecida, precisará ser estimada. Como SX

2 e SY2 são estimadores não

viciados dessa variância, usaremos como estimativa para 2 uma combinação deles dada por:

2

2

1

2

,~nn

ND YX

2

)()(

)1()1(

)1()1(

21

22

21

2

2

2

12

nn

YYXX

nn

SnSnS

jiYXC

SC2 é uma média ponderada entre SX

2 e SY2 e é um

estimador não viciado!!!

Se n30

)2(

21

2 21~

)(

nn

C

YX t

nn

S

Dt

• Logo

=P(Rejeitar H0|H0 verd) = P(t<-tc ou t>tc|H0)

tc é obtido pela tabela da distribuição t-Student com n1+n2 -2 graus de liberdade.

A região crítica será dada por:

RC={tR|t<-tc ou t>tc}

Obtidas as amostras, substituindo as estimativas de D e Sc na expressão de t, obtém-se o valor tobs.

• Rejeita-se H0 se tobs pertencer à região crítica.

Se n>30

Então=P(Rejeitar H0|H0 verd) = P(z<-zc ou z>zc|H0)

zc é obtido pela tabela da distribuição Normal (0,1)

A região crítica será dada por:RC={zR|z<-zc ou z>zc}

)1,0(~)(

21

2N

nn

S

Dz

C

YX

Obtidas as amostras, substituindo as estimativas de D e Sc na expressão de t, obtém-se o valor zobs.

• Rejeita-se H0 se zobs pertencer à região crítica.

• Voltando ao exemplo: Digitadores são treinados em uma empresa em duas turmas distintas. Na primeira (TURMA J) utiliza-se um método japonês, na segunda (TURMA A) utiliza-se um método alemão. Deseja-se comparar os dois métodos. Foram escolhidas duas amostras aleatoriamente (uma de cada turma) e mediu-se o tempo gasto na realização de uma tarefa para cada aluno.

• As amostras forneceram os seguintes valores:

Turma J: n1=14, Xobs=11,57e SX2=4,1

Turma A: n2=13, Yobs= 15,38 e SY2= 4,3

Então:

Dobs = 11,57 – 15,38 = -3,81

Turma Tempos (min)

J 10 13 9 10 14 13 10 15 12 10 9 10 13 14

A 15 12 18 16 15 17 17 15 16 17 11 17 14

2,425

3,4*121,4*13

)1()1(

)1()1(

21

2

2

2

12

nn

SnSnS YX

C

• Como a hipótese alternativa é bilateral e n<30, a região crítica tem a forma:

RC={tR|t<-tc ou t>tc}.

Logo para =0,01, temos:

=P(Rejeitar H0|H0 verd) = P(t<-tc ou t>tc|H0).

Da tabela da t-Student com 25 graus de liberdade, obtemos tc=2,787.

Então RC={tR|t<-2,787 ou t>2,787}.

• Usando a estatística do teste temos:

• Como -4,83 pertence a região crítica, concluímos que os métodos de fato diferem a um nível de significância de 1%.

83,4

1314

2,4

081,3)(

21

2

nn

S

Dt

C

YX

Amostras independentesVariâncias DIFERENTES

• O teste para o caso com as variâncias desconhecidas e desiguais é semelhante ao anterior, mas a quantidade a ser usada para aceitar ou rejeitar H0 se n30 será:

t

n

S

n

S

Dt

yX

YX ~)(

2

2

1

2

• Mas os graus de liberdade são corrigidos pela expressão:

11 2

2

2

2

1

2

1

2

2

2

2

1

2

n

n

S

n

n

S

n

S

n

S

yX

yX

• Se n>30

• A seqüência do teste é igual aos casos anteriores.

)1,0(~)(

2

2

1

2N

n

S

n

S

Dz

yX

YX

RESUMO1) Amostras relacionadas (teste t-pareado)

• Estimadores:

• Estatística do teste:

n

DD

i

1

)( 2

2

n

DDS

i

D

)1(2

~

todoPara

n

D

D t

n

S

Dt

n

)1,0(~

120seaprox.Por

2N

n

S

Dz

n

D

D

2) Amostras independentes com variâncias desconhecidas e iguais

• Estimadores:


YXD )1()1(

)1()1(

21

2

2

2

12

nn

SnSnS YX

C

)2(

21

2 21~

30Se

nn

C

D t

nn

S

Dt

n

)1,0(~

30Se

21

2N

nn

S

Dz

n

C

D

3) Amostras independentes com variâncias desconhecidas e desiguais

• Estimadores:


YXD 2

2

1

22

n

S

n

SS YX

D

t

n

S

n

S

Dt

n

yX

D ~

30Se

2

2

1

2

11 2

2

2

2

1

2

1

2

2

2

2

1

2

n

n

S

n

n

S

n

S

n

S

yX

yX

)1,0(~

30Se

2

2

1

2N

n

S

n

S

Dz

n

yX

D

Exercício: Num estudo sobre doenças infantis, desejamos investigar se a incidência de casos de contaminação por vermes é afetada pela idade. Dois grupos de crianças, um com idades de 2 a 4 anos (GRUPO I) e outro, com idades de 7 a 9 anos (GRUPO II) foram escolhidos para serem examinados quanto à ocorrência de vermes. Os dados são apresentados:

Para saber se as duas faixas etárias acima tem o mesmo comportamento, realize um teste de hipóteses envolvendo a proporção de crianças com verminose. Considere =5% e variâncias iguais.

Grupo Amostra Proporção com Verminose

I 120 0,085

II 260 0,103

Aula 14 new

Documents