Top Banner
Teste de hipóteses para comparação de duas médias
31

Aula 14 new

Jul 06, 2015

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Aula 14 new

Teste de hipóteses para comparação de duas médias

Page 2: Aula 14 new

Comparação de duas médias

• Objetivo: Comparar as médias amostrais de duas populações.

• 1º passo: Verificar se as variáveis estão ou não relacionadas.

• 2º passo: Considerar a variabilidade associada aos valores populacionais e amostrais.

Page 3: Aula 14 new

dependentes

2 amostras

variâncias iguais

independentes

variâncias diferentes

Page 4: Aula 14 new

Amostras dependentes (teste t-pareado)

• São comparadas duas médias populacionais sendo que, para cada unidade amostral, realizou-se duas medições da característica de interesse. Correspondem a medidas tomadas antes e após uma dada intervenção.

• Ex: Uma distribuidora de combustíveis deseja verificar se um novo tipo de gasolina é eficaz na revitalização de motores velhos. Selecionou-se 12 automóveis de um mesmo modelo com mais de 8 anos de uso e, após regulagem dos motores, verifica-se o consumo de combustível. Em seguida, o carro é abastecido com o novo tipo de combustível durante 15 semanas e uma nova aferição é feita.

Page 5: Aula 14 new

• Como o desempenho dos automóveis foi medido antes e depois das 15 semanas, é razoável assumir que exista alguma dependência entre as variáveis.

• Essa é a típica situação que o teste t-pareadodeve ser utilizado.

• As medidas tomadas antes e após a intervenção realizada serão representadas pelas v.a.s Xi e Yi.

• O efeito produzido pelo i-ésimo indivíduo, pode ser representado pela variável Di= Yi - Xi.

Page 6: Aula 14 new

• Supondo, para i=1,...,n, “ASSUMIMOS”, por hipótese, que:

Di ~ N(D ,2D)

Queremos testar as hipóteses:

H0: A intervenção não produz efeito (D = 0)

Ha: A intervenção produziu algum efeito (D 0)

A hipótese alternativa também pode ser unilateral!!!!

Page 7: Aula 14 new

• O parâmetro D é estimado pela média amostral de D e sua variância é estimada por:

• O teste de hipóteses é realizado utilizando-se a quantidade :

• Que sob H0, segue uma distribuição t-Student com n-1 graus de liberdade.

.)(1

1 2

1

2 DDn

Sn

i

iD

n

S

Dt

D

D

Page 8: Aula 14 new

• Valores observados para os 12 automóveis:

• A média e a variância amostrais de D são:

Dm=2,9 e S2=2,4.

• 1º Passo: Definir as hipóteses nula e alternativa:

H0: D = 0 (O novo combustível não aumenta o rendimento)

Há: D > 0 (o novo combustível aumenta o rendimento)

Autom. 1 2 3 4 5 6 7 8 9 10 11 12

Após (Y) 11,6 8,8 9,9 9,5 11,6 9,1 10,6 10,8 13,4 10,6 10,5 11,4

Antes (X) 8,1 7,9 6,8 7,8 7,6 7,9 5,7 8,4 8,0 9,5 8,0 6,8

D=Y-X 3,5 0,9 3,1 1,7 4,0 1,2 4,9 2,4 5,4 1,1 2,5 4,6

Page 9: Aula 14 new

• 2 Passo: Definir a região crítica com base na hipótese alternativa:

Teste unilateral, RC:{xR|x>xc}

• 3 Passo: Identificar a distribuição do estimador e encontrar a estimativa:

Por “HIPÓTESE”, tem-se: D~N(D , 2D/n)

• 4 Passo: Fixar e determinar a região crítica.

=5% t=1,796

n

dD

i

Page 10: Aula 14 new

• 5 Passo: Conclusão

Como Dobs = 2,9 e Dobs>0,80, rejeitamos H0 e concluímos que o novo combustível é eficaz na melhora do rendimento.

80,0

12

4,2796,10

124,2

0

c

c

cc

x

x

xt

RC={x : x>0,80}

Page 11: Aula 14 new

Amostras independentesVariâncias IGUAIS

• Geralmente não se tem informações a respeito do valor das variâncias das populações. Entretanto, alguns processos nos levam a crer que, apesar de desconhecidas, as variâncias são iguais para duas populações.

• Ex.: Digitadores são treinados em uma empresa em duas turmas distintas. Na primeira (TURMA J) utiliza-se um método japonês, na segunda (TURMA A) utiliza-se um método alemão. Deseja-se comparar os dois métodos. Foram escolhidas duas amostras aleatoriamente (uma de cada turma) e mediu-se o tempo gasto na realização de uma tarefa para cada aluno.

Page 12: Aula 14 new

• Apesar de não conhecidas, as variâncias populacionais para as duas turmas são consideradas iguais com base em estudos anteriores.

• Os dados obtidos foram:

• Formalizando o problema temos:

• Supomos que os dados apresentados para as turmas J e A são variáveis aleatórias independentes (X1,...,Xn) e (Y1,...Yn), respectivamente e que seguem a distribuição Normal.

Turma Tempos (min)

J 10 13 9 10 14 13 10 15 12 10 9 10 13 14

A 15 12 18 16 15 17 17 15 16 17 11 17 14

Page 13: Aula 14 new

• Portanto

Xi ~ N(X, 2), i= 1, 2, ..., n1

Yj ~ N(Y, 2), j= 1, 2, ..., n2

OBS: Para ambas as populações temos a mesma variância (desconhecida!!!)

Queremos testar se existe diferença entre o tempo médio de digitação dos dois métodos, ou seja:

H0: X = Y

Ha: X Y ou (Ha: X < Y | Ha: X > Y)

Page 14: Aula 14 new

• Testar se as médias populacionais são iguais é equivalente a testar se a diferença entre elas é “estatisticamente” igual a 0.

• Logo podemos reescrever as hipóteses em termos de D = X - Y

H0: D = 0

Ha: D 0 ou (Ha: D < 0 | Ha: D > 0)

Desta forma usaremos o estimador (intuitivo)

D = X - Y

Page 15: Aula 14 new

• Do TLC tem-se que se n>30

• Se n30 usaremos a distribuição t-Student !!!

• Como as amostras são independentes:

E(D) = E(X-Y) = E(X + (-1)Y) = E(X) + (-1)E(Y) = E(X) - E(Y) = X - Y

Var(D) = Var(X-Y) = Var(X + (-1)Y) = Var(X) + Var(-1Y) =

Var(X) + (-1)2Var(Y) = Var(X) + Var(Y) =

2

2

1

2

,~,~n

NYen

NX YX

2

2

1

2

nn

Page 16: Aula 14 new

• Como X e Y têm distribuição normal (se n>30) então:

• Se n 30 usa-se a distribuição t–Student(cuidado com os graus de liberdade!!!)

• Como 2 é desconhecida, precisará ser estimada. Como SX

2 e SY2 são estimadores não

viciados dessa variância, usaremos como estimativa para 2 uma combinação deles dada por:

2

2

1

2

,~nn

ND YX

Page 17: Aula 14 new

2

)()(

)1()1(

)1()1(

21

22

21

2

2

2

12

nn

YYXX

nn

SnSnS

jiYXC

SC2 é uma média ponderada entre SX

2 e SY2 e é um

estimador não viciado!!!

Se n30

)2(

21

2 21~

)(

nn

C

YX t

nn

S

Dt

Page 18: Aula 14 new

• Logo

=P(Rejeitar H0|H0 verd) = P(t<-tc ou t>tc|H0)

tc é obtido pela tabela da distribuição t-Student com n1+n2 -2 graus de liberdade.

A região crítica será dada por:

RC={tR|t<-tc ou t>tc}

Obtidas as amostras, substituindo as estimativas de D e Sc na expressão de t, obtém-se o valor tobs.

• Rejeita-se H0 se tobs pertencer à região crítica.

Page 19: Aula 14 new

Se n>30

Então=P(Rejeitar H0|H0 verd) = P(z<-zc ou z>zc|H0)

zc é obtido pela tabela da distribuição Normal (0,1)

A região crítica será dada por:RC={zR|z<-zc ou z>zc}

)1,0(~)(

21

2N

nn

S

Dz

C

YX

Page 20: Aula 14 new

Obtidas as amostras, substituindo as estimativas de D e Sc na expressão de t, obtém-se o valor zobs.

• Rejeita-se H0 se zobs pertencer à região crítica.

• Voltando ao exemplo: Digitadores são treinados em uma empresa em duas turmas distintas. Na primeira (TURMA J) utiliza-se um método japonês, na segunda (TURMA A) utiliza-se um método alemão. Deseja-se comparar os dois métodos. Foram escolhidas duas amostras aleatoriamente (uma de cada turma) e mediu-se o tempo gasto na realização de uma tarefa para cada aluno.

Page 21: Aula 14 new

• As amostras forneceram os seguintes valores:

Turma J: n1=14, Xobs=11,57e SX2=4,1

Turma A: n2=13, Yobs= 15,38 e SY2= 4,3

Então:

Dobs = 11,57 – 15,38 = -3,81

Turma Tempos (min)

J 10 13 9 10 14 13 10 15 12 10 9 10 13 14

A 15 12 18 16 15 17 17 15 16 17 11 17 14

2,425

3,4*121,4*13

)1()1(

)1()1(

21

2

2

2

12

nn

SnSnS YX

C

Page 22: Aula 14 new

• Como a hipótese alternativa é bilateral e n<30, a região crítica tem a forma:

RC={tR|t<-tc ou t>tc}.

Logo para =0,01, temos:

=P(Rejeitar H0|H0 verd) = P(t<-tc ou t>tc|H0).

Da tabela da t-Student com 25 graus de liberdade, obtemos tc=2,787.

Então RC={tR|t<-2,787 ou t>2,787}.

Page 23: Aula 14 new

• Usando a estatística do teste temos:

• Como -4,83 pertence a região crítica, concluímos que os métodos de fato diferem a um nível de significância de 1%.

83,4

1314

2,4

081,3)(

21

2

nn

S

Dt

C

YX

Page 24: Aula 14 new

Amostras independentesVariâncias DIFERENTES

• O teste para o caso com as variâncias desconhecidas e desiguais é semelhante ao anterior, mas a quantidade a ser usada para aceitar ou rejeitar H0 se n30 será:

t

n

S

n

S

Dt

yX

YX ~)(

2

2

1

2

Page 25: Aula 14 new

• Mas os graus de liberdade são corrigidos pela expressão:

11 2

2

2

2

1

2

1

2

2

2

2

1

2

n

n

S

n

n

S

n

S

n

S

yX

yX

Page 26: Aula 14 new

• Se n>30

• A seqüência do teste é igual aos casos anteriores.

)1,0(~)(

2

2

1

2N

n

S

n

S

Dz

yX

YX

Page 27: Aula 14 new

RESUMO1) Amostras relacionadas (teste t-pareado)

• Estimadores:

• Estatística do teste:

n

DD

i

1

)( 2

2

n

DDS

i

D

)1(2

~

todoPara

n

D

D t

n

S

Dt

n

)1,0(~

120seaprox.Por

2N

n

S

Dz

n

D

D

Page 28: Aula 14 new

2) Amostras independentes com variâncias desconhecidas e iguais

• Estimadores:

• Estatística do teste:

YXD )1()1(

)1()1(

21

2

2

2

12

nn

SnSnS YX

C

)2(

21

2 21~

30Se

nn

C

D t

nn

S

Dt

n

)1,0(~

30Se

21

2N

nn

S

Dz

n

C

D

Page 29: Aula 14 new

3) Amostras independentes com variâncias desconhecidas e desiguais

• Estimadores:

• Estatística do teste:

YXD 2

2

1

22

n

S

n

SS YX

D

t

n

S

n

S

Dt

n

yX

D ~

30Se

2

2

1

2

11 2

2

2

2

1

2

1

2

2

2

2

1

2

n

n

S

n

n

S

n

S

n

S

yX

yX

Page 30: Aula 14 new

)1,0(~

30Se

2

2

1

2N

n

S

n

S

Dz

n

yX

D

Page 31: Aula 14 new

Exercício: Num estudo sobre doenças infantis, desejamos investigar se a incidência de casos de contaminação por vermes é afetada pela idade. Dois grupos de crianças, um com idades de 2 a 4 anos (GRUPO I) e outro, com idades de 7 a 9 anos (GRUPO II) foram escolhidos para serem examinados quanto à ocorrência de vermes. Os dados são apresentados:

Para saber se as duas faixas etárias acima tem o mesmo comportamento, realize um teste de hipóteses envolvendo a proporção de crianças com verminose. Considere =5% e variâncias iguais.

Grupo Amostra Proporção com Verminose

I 120 0,085

II 260 0,103