Infer en CIA

5/8/2018 Infer en CIA - slidepdf.com

http://slidepdf.com/reader/full/infer-en-cia-559bf3d88babd 1/23

Probabilidade Estatística - Professor: Hiron Pereira Farias

1 Inferência Estatística

Seja X uma variável aleatória com função de densidade( ou de probabilidade) que abreviaremos

por f.d.p. (f.p.) e que denotaremos por f(x|θ). Chamaremos de inferência estatística o problema

que consiste em especificar um ou mais valores para θ , baseado em um conjunto de valores obser-

vados de X. No caso de um problema de estimação, o objetivo é procurar, segundo algum critério

especificado, valores que representem adequadamente os parâmetros desconhecidos. No caso de

testes de hipóteses, o objetivo é verificar a validade de afirmações sobre o valor do parâmetro de-

sconhecido. Por exemplo, quando o interesse é verificar se a proporção θ de eleitores de determindo

candidato é igual a 50%, as hipóteses a serem testadas são H 0 : θ = 0,5 versus H 1 : θ = 0,5.

1.1 Definições importantes

1) O conjunto de valores de uma característica (observável) associada a uma coleção de indivíduos

ou objetos de interesse é dito ser uma população.

2) Uma amostra aleatória simples (AAS) de tamanho n de uma variável aleatória X, com dada

distribuição, é o conjunto de n variáveis independentes X 1, X 2, . . . , X n, cada uma com a mesma

distribuição de X.

3) As quantidades da população, em geral desconhecidas e sobre as quais temos interesse, são de-

nominados parâmetros e geralmente denotados por letras gregas tais como θ, µ, σ2 entre outros.

4) O conjunto Θ em que θ toma valores é denominado espaço paramétrico.

5) Qualquer estatística que assuma valores em Θ é um estimador para θ.

6) Qualquer estatística que assuma valores somente no conjunto dos possíveis valores de g(θ) é um

estimador para g(θ).

7) Qualquer função da amostra que não depende de parâmetros desconhecidos é denominada uma

estatística.

8) À combinação dos elementos da amostra, construídos com a finalidade de representar, ou esti-

mar, um parâmetro de interesse na população, denominamos estimador. Em geral, denotamos os



estimadores por símbolos com acento circunflexo: θ, µ, σ2 e P . Aos valores númericos assumi-

dos pelos estimadores denominamos estimativas pontuais ou simplesmente estimativas.

Notamos que um estimador, digamos θ, é uma função das variáveis aleatórias constituinte da

amostra, isto é,

θ = f (X 1, X 2, . . . , X n). Logo, um estimador também é uma variável aleatória.

a correspondente distribuição de probabilidade formará a base das argumentações probabilísticasutilizadas na extrapolação da informação da amostra para os parâmetros da população.

Os estimadores mais comuns são:

X =X 1 + X 2 + . . . + X n

n=

1

n

ni=1

xi “ média amostra ”;

S 2 =1

n− 1

n−1i=1

(X i −X )2 “ variância amostral ”.

P = Y n “ proporção amostral ”.

em que, Y é uma variável aleatória que determina o número de elementos na amostra com a

característica de interesse.

1.2 Propriedades dos Estimadores

Uma propriedade desejável de um estimador é que ele esteja “ próximo", de alguma maneira

do verdadeiro valor do parâmetro desconhecido. Formalmente, dizemos que θ é um estimador

não-viciado do parâmetro θ se

E ( θ) = θ.

Isto é, θ é um estimador não-viciado de θ se, "na média", seus valores forem iguais a θ. Note que

isso é equivalente a se exigir que a média da distribuição amostral de θ seja igual a θ.

Se o estimador for viesado, então a diferença

E ( θ)− θ

é denominada de Viés do estimador θ .

Muito embora seja desejável que uma estimativa seja não-viesada (ou tendenciosa), haverá ocasiões



em que poderemos preferir estimativa tendênciosa. È possível encontrar mais de uma estimativa

não tendenciosa para o parâmetro desconhecido. a fim de realizar a escolha plausível em tais

situações, introduziremos o conceito.

Definição: Seja

θ uma estimativa não tendenciosa de θ. Diremos que

θ é uma estimativa não-

tendenciosa de variância mínima (ENTVM) de θ, se para todas as estimativas θ∗ tais que E (θ∗) =

θ, tivermos V ( θ) ≤ V (θ∗) para todo θ. Isto é, dentre todas as estimativas não-tendenciosas de θ, θtem a variância menor de todas.

È possível obter um limite inferior para a variância de todos os estimadores não-viesados do

parâmetro θ. Seja θ um estimador não viciado do parâmetro θ, com base em uma amostra aleatória

de n observações, e denote por f(x, θ) a distribuição de probabilidade da variável aleatória X. Então,

o limite inferior da variância dos estimadores não viciados de θ é:

LI (θ) =1

nE

∂lnf (X |θ)

∂θ

2

Definição: Se X 1, X 2, . . . , X n for uma amostra de tamanho n, proviniente de uma distribuição com

média µ e variância σ2 , então a média da amostra, X , será o ENTVM para µ.

Definição: O erro-padrão de um estimador

θ é o seu desvio-padrão, dado por

σ θ

=

V (

θ). Se

o erro-padrão envolver parâmetros desconhecidos que possam ser estimados, então a substituição

daquele(s) valor(es) em σ θproduzirá um erro padrão estimado, denotado por S θ

ou e.p.( θ).

Definição: O erro quadrático médio (EQM) de um estimador θ do parâmetro θ é dado por

EQM [ θ] = E

( θ − θ)2

= E θ −E ( θ) + E ( θ)− θ

2= E

( θ −E ( θ)) + (E ( θ) − θ))

2=

E θ −E ( θ)

2+ E

E ( θ)− θ)

2 − 2E ( θ −E ( θ))(E ( θ)− θ)) = V ar[ θ] + B2( θ), em que

B( θ) = E [ θ] − θ

é denominado o vício do estimador

θ. Dizemos que um estimador

θ é não viciado para θ se

E [ θ] = θ,

para todo θ ∈ Θ, ou seja B( θ)= 0, para todo θ ∈ Θ. No caso em que θ é um estimador não viciado

para θ, temos que

EQM[ θ] = Var[ θ],

ou seja, o erro quadrático médio de θ reduz à sua variância.



Definição: Chamamos de eficiência de um estimador θ, não viciado para o parâmetro θ, o quo-

ciente

e( θ) =LI (θ)

V ar(

θ)

,

onde LI(θ) é o limite inferior da variância dos estimadores não viciados de θ.

e(θ)= 1 quando LI(θ)= Var( θ), ou seja, quando a variância de θ coincide com o limite inferior davariância dos estimadores não viciados de θ. Nesse caso, θ é dito ser eficiente.

1.3 O Método de Máxima Verossimilhança

Definição: Sejam X 1, X 2, . . . , X n uma amostra aleatória de tamanho n da variável aleatória X

com função de densidade ( ou de probabilidade) f(x| θ), com θ ∈ Θ , onde Θ é o espaço paramétrico.

A função de verossimilhança de θ correspondente à amostra aleatória observada é dada por

L(θ; x) =m

j=1

f (xi|θ).

Definição: O estimador de máxima verossimilhança de θ é o valor θ ∈ Θ que maximiza a função

de verossimilhança L(θ; x).

O logaritmo natural da função de verossimilhança de θ é denotado por

l(θ; x)=ln L(θ; x).

Não é dificil verificar que o valor de θ que maximiza a função de verossimilhança L(θ; x), também

maximiza l(θ; x).

1.4 Verossimilhança para Amostras Independentes

Existem situações em que temos duas ou mais amostras independentes de distribuições que

dependem de um parâmetro θ de interesse. No caso de duas amostras aleatórias independentes,

X 1, X 2, . . . , X n e Y 1, Y 2, . . . , Y n, podemos escrever

L(θ; x, y) = L(θ; x) L(θ; y),

devido à independência entre as amostras. Portanto a verossimilhança conjunta é igual ao produto

da verossimilhança correspondente à amostra X 1, X 2, . . . , X n pela verossimilhança correspondente

à amostra Y 1, Y 2, . . . , Y n. De modo que podemos escrever

l(θ; x, y) = l(θ; x) + l(θ; y),

de modo que o logaritmo da verossimilhança conjunta é igual ao produto da verossimilhanças



correspondentes a cada uma das amostras.

1.5 Teorema Limite Central

No que foi estudado até o presente momento, consideramos a distribuição amostral da média

X , calculada em uma amostra cuja elementos são constituídos por variáveis aleatórias indepen-

dentes e com distribuição normal. Na prática, muitas vezes não temos informações a respeito da

distribuição das variáveis constituintes da amostra, o que nos impede de utilizar o resultado ap-

resentado. Felizmente satisfeitas certas condições, pode ser mostrado que, para um tamanho de

amostra suficientemente grande, a distribuição de probabilidade da média amostral pode ser aprox-

imada por uma distribuição normal.

Esse resultado, fundamental na teoria da Inferência Estatística, é conhecido como Teorema Limite

Central.

definição: Para amostras aleatórias simples (X 1, X 2, . . . , X n), retiradas de uma população com

média µ e variância σ2 finita, a distribuição amostral da média X aproxima-se, para n grande, de

uma distribuição normal, com média µ e variânciaσ2

n.

Esse resultado sugere que, quando o tamanho da amostra aumenta, independentemente da forma

da distribuição da população, a distribuição amostral de X aproxima-se cada vez mais de uma

distribuição normal.

1.6 Determinação do tamanho de uma amostra

Em nossas considerações anteriores fizemos a suposição que o tamanho da amostra, n, era

conhecido e fixo. Podemos, em certas ocasiões, querer determinar o tamanho da amostra a ser

escolhida de uma população, de modo a obter um erro de estimação previamente estipulado, com

determinado grau de confiança.

Suponha que estejamos estimando a média µ populacional e para tanto usaremos a média amostral,X , baseada numa amostra de tamanho n. Suponha que se queira determinar o valor de n de modo

que

P (|X − µ| ≤ ε) ≥ γ,



com 0 < γ < 1 e ε é o erro amostral máximo que podemos suportar, ambos valores fixados.

Sabemos que

X ∼ N (µ;σ2

n) , logo X − µ ∼ N (0;

σ2

n) e portanto

P (−ε ≤ X − µ ≤ ε) = P −√

nε

σ ≤√

n(X −

µ)

σ ≤√

nε

σ de modo que

√nε

σ= zγ

do que obtemos finalmente n =σ2z2γ

ε2

1.7 Estimação por Intervalos

Até aqui, somente estimadores pontuais foram considerados, pois fornecem como estimativa

um único valor numérico para o parâmetro de interesse. Em muitos problemas de estimação,

entretanto, prefere-se um intervalo que expresse a precisão do estimador. Por serem variáveis

aleatórias, os estimadores possuem uma distribuição d probabilidade e, levando este fato em con-

sideração, podemos apresentar uma estimativa mais informativa para o parâmetro de interesse que

inclua uma medida de precisão do valor obtido. Esse método de estimação, denominado intervalo

de confiânça, incorpora, à estimativa pontual do parâmetro, informações a respeito de sua varia-

bilidade. Intervalos de confiânça são obtidos atráves da distribuição amostral dos estimadores. A

interpretação de um intervalo de confiânça é de que se muitas amostras forem coletadas e se for

calculado um intervalo de confiânça de 100(1 − α)% de confiança para o parâmetro θ a partir de

cada amostra, então 100(1 − α)% desses intervalos conterão o verdadeiro valor de θ. Na prática,

obtemos apenas uma amostra aleatória e calculamos um intervalo de confiânça. Como esse inter-

valo conterá, ou não, o verdadeiro valor de θ , não é razoavel atribuir um nível de probabilidade a

esse evento específico.

O comprimento do intervalo de confiânça bilateral é uma medida importante da qualidade da infor-

mação obtida da amostra. O comprimento do semi-intervalo, é chamado de precisão do estimador.

Quanto maior o intervalo de confiânça, mais confiantes estaremos de que o intervalo contenha real-

mente o verdadeiro valor de θ. Por outro lado, quanto maior o intervalo, menos informação temos



sobre o verdadeiro valor de θ. Em uma situação ideal, obtemos um intervalo relativemente pequeno

com alta confiânça. como o comprimento do intervalo de confiânça mede a precisão da estimação,

vemos que a precisão está inversamente relacionada ao nível de confiânça. È altamente desejável

obter um intervalo de confiânça que seja pequeno o bastante para o proposito de tomada de decisão,

mas que tenha, também, a confiânça adequada. Uma maneira de conseguir isso é escolhendo-se otamanho n da amostra grande o suficiente para resultar em um intervalo de tamanho especificado

com a confiânça prescrita.

1.7.1 Intervalo de Confiânça para Populações Normais

Suponha-se que X tenha distribuição N(µ; σ2), onde se supõe σ2 conhecido, enquanto µ é

o parâmetro desconhecido. Seja X 1, X 2, . . . , X n uma amostra aleatória de X e seja X a média

amostral.

Sabemos que X tem distribuição N(µ; σ2

n), portanto, Z =

√n(X − µ)

σtem distribuição N(0;1).

Observa-se que, muito embora Z depende de µ , sua distribuição de probabilidade não depende.

Empregamos este fato a nosso favor da seguinte maneira:

Fixado um valor γ tal que 0 < γ < 1, podemos encontrar um valor tal que :

P (|Z | < zγ

2

) = P (−zγ

2

< Z < z γ

2

) = γ .

Para γ fixo o valor zγ

2

pode ser obtido da tabela normal padrão.

P (−z ≤ Z ≤ z) = P (−z ≤ √n(X − µ)σ

≤ z) = P (−z σ√ n≤ X − µ ≤ z σ√

n) =

P (X − z σ√ n≤ µ ≤ X + z σ√

n) = 2Φ(z)− 1

Assim o intervalo de confiança para µ , com coeficiente de confiança γ , é dadao por

IC(µ; γ ) = [X − zγ

2

σ√ n

; X + zγ

2

σ√ n

].

A amplitude do intervalo de confiança é dada pela diferença entre o extremo superior e inferior,

isto é, X + zγ

2

σ√ n−X + zγ

2

σ√ n

= 2zγ

2

σ√ n

, o que claramente indica que ela depende da confiança γ

, do desvio-padrão σ e do tamanho da amostra n. É usual se referir à semi-amplitude, como o erro

envolvido na estimação.

De modo geral o intervalo de confiança para um parâmetro θ é dado por

IC(θ; γ )= [ θ − vt ep( θ); θ + vt ep( θ)]

em que vt é um valor tabelado da distribuição de θ e ep( θ) o erro-padrão do estimador θ.

Sabemos que sabemos que a proporção amostral, P , tem distribuição normal com média P e vari-



ânciaP (1− p)

n, isto é, P ∼ N

P,

P (1− p)

n

e que

P − P p(1− p)

n

∼ N (0; 1).

Assim o intervalo de confiança para P , com coeficiente de confiança γ , é dado por

IC(P ; γ ) =

P − zγ

2

p(1− p)

n;

P + zγ

2

p(1− p)

n

.

Como não conhecemos P, que o parâmetro a ser estimado, primeiro ao fazermos P = P , temos

IC(P ; γ ) = P − zγ

2

P (1− P )n

; P + zγ

2

P (1− P )n

.

e para P = 12

, obtemos

IC(P ; γ ) = P − zγ

2

14n

; P + zγ

2

14n

.

Consideremos o caso em que temos X 1, X 2, . . . , X n , uma amostra aleatória da variável aleatória

X ∼ N (µ1; σ21) e Y 1, Y 2, . . . , Y m , uma amostra aleatória da variável aleatória Y ∼ N (µ2; σ2

2), onde

X e Y são independentes. Sabemos que

(X −

Y )∼

N µ1 −

µ2;σ21

n+

σ22

m de modo que , sendo θ = µ1 − µ2 , consideremos a quantidade

(X − Y )− (µ1 − µ2) σ21

n+

σ22

m

∼ N (0;1)

Sendo σ21 e σ2

2 conhecidas, temos , como no caso anterior, o intervalo

IC(µ1 − µ2; γ ) =

(X − Y )− zγ

2

σ21

n+

σ22

m; (X − Y ) + zγ

2

σ21

n+

σ22

m

Se as variâncias σ

2

1 e σ

2

2 são conhecidas, e se os tamanhos amostrais n e m são iguais, então paradeterminar o tamanho amostral necessário tal que o erro na estimativa de µ1−µ2 usando X 1−X 2

seja menor do que ε com γ % de confiânça. O tamanho de cada amostra é

n =zγ

2

ε

2(σ2

1 + σ22).

Suponha que X seja normalmente distribuída, com média µ e variância desconhecidas. Seja

X 1, X 2, . . . , X n uma amostra aleatória de tamanho n, e seja S 2 a variância amostral. Já demostrou-

se que a distribuição amostral de(n

−1)S 2

σ2 ∼ χ

2

(n−1).

Portanto dado γ , podemos determinar q1 e q2 de modo que

P

q1 ≤ (n− 1)S 2

σ2≤ q2

= γ.



Considerando o intervalo simétrico, ou seja, P [χ2n−1 ≥ q2] = P [χ2

n−1 ≤ q1] = 1−γ 2

, temos o

intervalo de confiança para σ2, dado por

IC (σ2; γ ) =(n− 1)S 2

q2;

(n− 1)S 2

q1

1.8 Distribuição t de Student

Sejam Z ∼ N (0, 1) e V ∼ χ2n variáveis aleatórias independentes. A variável aleatória

T =Z V n

∼ tn

tem distribuição t com n graus de liberdade, denotado por T

∼tn.

Teorema: Se (X 1, X 2, . . . , X n) é uma amostra aleatória de tamanho n da distribuição N(0,1), então

√n(X − µ)

s∼ t(n−1).

Prova:

Notemos que podemos escrever

√n(X − µ)

s

=

√n(X − µ)

σsσ

=

X−µσ√ n (n−1)S 2(n−1)σ2 ∼

t(n−1)

1.8.1 Intervalo de confiança para µ com variância desconhecida

Quando a variância é desconhecida, construímos intervalos de confiânça para a média popula-

cional utilizando a distribuição t-Student. Supondo uma amostra aleatória (X 1, X 2, . . . , X n) obtida

de uma população com distribuição Normal com média e varância desconhecidas, temos que

√n(X

−µ)

s ∼ t(n−1).

Desta forma, fixando-se o coeficiente de confiança γ (0 < γ < 1) e utilizando a tabela da dis-

tribuição t-Student com n-1 graus de liberdade, obteremos o valor de tγ2

tal que

P −tγ

2

≤√

n(X − µ)

S ≤ tγ

2

.



Logo, o intervalo com coeficiente de confiança γ para µ , com varância desconhecida, será dado

por

IC(µ; γ ) =

X − tγ2

S √ n

; X + tγ2

S √ n

.

1.8.2 Intervalo de confiança para diferença entre médias

Seja (X 1, X 2, . . . , X n) uma amostra aleatória de tamanho n de uma distribuição normal com

média µ1 e variância σ21 desconhecida, e seja (Y 1, Y 2, . . . , Y m) uma amostra aleatória de tamanho

m de uma distribuição normal com média µ2 e variância σ22 desconhecida. Assumiremos que

as duas amostras são independentes uma da outra e que há homogeneidade das variâncias, isto é,

σ21 = σ2

2 = σ2. Queremos uma estimação intervalar da diferença das médias populacionais µ2−µ1.

Sabemos que (Y −X ) é normalmente distribuída com média µ2 − µ1 e variância σ2n

+ σ2m , isto é

(X − Y ) ∼ N

µ1 − µ2;σ21

n+

σ22

m

e

(X − Y )− (µ1 − µ2) σ2

n+ σ2

m

∼ N (0;1)

Sabemos também que

(X i −X )2

σ2=

(n− 1)S 2

σ2

tem distribuição qui-quadrado com n-1 graus de liberdade, e

(Y i − Y )2

σ2=

(m− 1)S 2

σ2

tem distribuição qui-quadrado com m-1 graus de liberdade, então

V = (X i −X )2

σ2 + (Y i − Y )2

σ2 =

(n

−1)S 2

σ2 +

(m

−1)S 2

σ2 ∼ t(m+n−2)

. Finalmente, temos que a variável aleatória

T =Z V

m+n−2

∼ t(m+n−2)



tem distribuição t com (m+n-2) graus de liberdade.

Fazendo

S 2 p =(m− 1)S 2 + (n− 1)S 2

m + n− 2,

temos que a estatística

T = (X − Y )− (µ1 − µ2)

S P

1n

+ 1m

,

tem distribuição t com m+n-2 graus de liberdade. Dai

IC(µ1 − µ2; γ ) =

(X − Y )− tγ2

S P

1n

+ 1m

; (X − Y ) + tγ2

S P

1n

+ 1m

O estimador combinado de σ2, denotado por S 2P e definido por

S 2 p =(m− 1)S 2 + (n− 1)S 2

m + n

−2

,

pode ser escrito como

S 2 p =(m− 1)S 2

m + n− 2+ S 2 p =

(n− 1)S 2

m + n− 2= wS 21 + (1− w)S 22 ,

sendo 0 < w ≤ 1. Logo, S 2P é uma média ponderada das duas variâncias das amostras S 21 e

S 22 , em que os pesos w e 1-w dependeram dos tamanhos das amostras n1 e n2. Obviamente, se

n1 = n2 = n , então w = 0,5 e S 2P será exatamente igual à média aritmética entre S 21 e S 22 .

1.9 Distribuição F de Snedecor

Sejam U e V variáveis aleatórias independentes com m e n graus de liberdade respectivamente.

Então a variável aleatória

X =U mV n

tem distribuição F com m graus de liberdade no numerador e n graus de liberdade no denominador,

denotaremos por X ∼ F(m, n).

Se X 1, X 2, . . . , X m é uma amostra aleatória de tamanho m de uma população normal com média

µX e variância σ2X , e seja também Y 1, Y 2, . . . , Y n uma amostra aleatória de tamanho n de uma

população Normal com média µY e variância σ2Y , e se as duas amostras são independentes, então



isto resulta que1

σ2

mi=1

(X i −X )2

tem distribuição qui-quadrado com m-1 graus de liberdade, e

1σ2

n j=1

(Y i − Y )2

tem distribuição qui-quadrado com n-1 graus de liberdade, assim a estatística

F =

1

(m− 1)σ2X

mi=1

(X i −X )2

1

(n

−1)σ2

Y

n

j=1(Y i − Y )2

=

S 2X

σ2X

S 2Y

σ2Y

tem uma distribuição F com m-1 e n-1 graus de liberdade.

Um procedimento de teste de hipóteses para a igualdade de duas variâncias é baseado no seguinte

resultado. Sujeita a hipótese nula H 0 : σ2X = σ2

Y , a estatística

F =S 2XS 2Y

,

distribuição F com m-1 e n-1 graus de liberdade.



EXERCÍCIOS

Professor: Hiron Pereira Farias

Disciplina: Probabilidade e Estatística

Questão 1: Uma amostra de 25 observações de uma Normal (µ; 16) foi coletada e forneceu uma

média amostral de 8. Construa intervalos com confiança 80%, 85%, 90% e 95%

Resp. a) [6,97; 9,03] ; b) [6,85; 9,15] ; c) [6,69; 9,31] d) [6,43; 9,57].

Questão 2: Por analogia a produtos similares, o tempo de reação de um novo medicamento pode

ser considerado como tendo distribuição Normal com desvio padrão igual a 2 minutos. Vinte

pacientes foram sorteados, receberam o medicamento e tiveram seu tempo de reação anotado. Os

dados foram os seguintes ( em minutos ): 2,9; 3,4; 3,5; 4,1; 4,6; 4,7; 4,5; 3,8; 5,3; 4,9; 4,8; 5,7; 5,8;

5; 3,4; 5,9; 6,3; 4,6; 5,5 e 6,2. Obtenha um intervalo de confiança para o tempo médio de reação.

Use γ = 96%

Resp. IC(µ;96%) = [3,83 ; 5,67]

Questão 3: Será coletada uma amostra de uma população Normal com desvio-padrão igual a 9.

Para uma confiança de γ = 90%, determine a amplitude do intervalo de confiança para a média

populacional nos casos em que o tamanho da amostra é 30, 50 ou 100.

Resp. para n = 30 A = 5,42; para n = 50 A = 4,2; para n = 100 A = 2,97;

Questão 4: Para uma Normal (5; 10) coletou-se uma amostra de tamanho 25. Calcule:

a) P(X ≤ 4,8); ( Resp. 0,3745 )

b) P(4,5 ≤ X ≤ 5,3); ( Resp. 0,466 )

c) P(X ≤ 4,7 ou X ≥ 5,1) ( Resp. 0,7556 ).

Questão 5: Qual deve ser o tamanho de uma amostra cujo desvio padrão é 10 para que a diferença

da média amostral para a média da população, em valor absoluto, seja menor que 1. com coefi-

ciente de confiança igual a:

(a) 95% (Resp. n = 385 ) (b) 99% (Resp. n = 666 )

Questão 6: Uma população tem desvio padrão igual a 10.

(a) Que tamanho deve ter uma amostra para que, com probabilidade 8%, o erro em estimar a média

seja superior a uma unidade?( Resp. n = 307)

(b) Supondo-se colhida a amostra no caso anterior, qual o intervalo de confiança, se X = 5? Resp.

[49 ; 51]



Questão 7: A vida de um componente usado em um motor de uma turbina de um avião a jato é uma

variável aleatória, com média de 5.000 h e desvio-padrão de 40h. A distribuição da vida efetiva é

razoavelmente próxima da distribuição Normal. O fabricante do motor introduz uma melhoria no

processo de fabricação para esse componente, que aumenta a vida média para 5.050 h e diminui

o desvio-padrão para 30h. Suponha que uma amostra aleatória de n1 = 16 componentes seja se-lecionada do processo antigo e uma amostra aleatória de n2 = 25 componentes seja selecionada

do processo melhorado. Considere que o processo antigo e o melhorado possam ser considerados

como populações independentes.

i) Qual a probabilidade de que a diferença nas duas médias amostrais X 2 − X 1 seja no mínimo de

25h? ii) Construir um intervalo de confiança para a diferença entre as médias populacionais dos

dois processos?

Questão 8: Suponha que amostras de tamanho n = 25 sejam selecionadas, ao acaso, de uma po-pulação normal, com média igual a 100 e desvio-padrão igual a 10. Qual a probabilidade de que a

média amostral caia no intervalo de µX − 1,8σX a µX + 1,0σX?

Questão 9: Numa pesquisa de mercado para estudar a preferência da população de uma cidade em

relação a um determinado produto, colheu-se uma amostra aleatória de 300 indivíduos, dos quais

180 preferiam esse produto.

(a) Determine o intervalo de confiança para a proporção da população que prefere o produto em

estudo; tome γ = 0,90. (Resp. [0,553 ; 0,647] )(b) Determine a probabilidade de que a estimativa pontual dessa proporção não difira do verdadeiro

valor em mais de 0,001. (Resp. 2,7%)

Questão 10: Antes de uma eleição em que existam dois candidatos, A e B, foi feita uma pesquisa

com 400 eleitores escolhidos ao acaso, e verificou-se que 208 deles pretendiam votar no candidato

a. Construa um intervalo de confiança, com c.c. γ = 0,95, para a porcentagem de eleitores fa-

voráveis ao candidato A na época das eleições. (Resp. [0,471 ; 0,569])

Questão 11: Uma amostra aleatória de 625 donas de casa revela que 70% delas preferem a marcaA de detergente. Construir um intervalo de confiança para p = proporção das donas de casa que

preferem A. Utilize (γ = 90%).

Questão 12: Numa pesquisa com 50 eleitores o candidato José João obteve 35% da preferência

dos eleitores. Construa, para a confiança de 94%, os intervalos otmista e conservador de confiança



para a proporção de votos a serem recebidos pelo candidato mencionado, supondo que a eleição

fosse nesse momento.

Questão 13: Antes de uma eleição, um determinado partido está interessado em estimar a pro-

porção p de eleitores favoráveis ao seu candidato. Uma amostra piloto de tamanho 100 revelou que

60% dos eleitores eram favoráveis ao candidato em questão.a) Determine o tamanho da amostra necessário para que o erro cometido na estimação seja de , no

máximo, 0,01 com probabilidade de 80%; (Resp. n = 3.994)

b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55% dos eleitores

eram favoráveis ao candidato em questão, construa um intervalo de confiança para a proporção p.

Utilize (γ = 95%).

Questão 14: Suponha que estejamos interessados em estimar a porcentagem de consumidores de

um certo produto. Se a amostra de tamanho 300 forneceu 100 indivíduos que consomem o dadoproduto, determine:

a) o intervalo de confiança de p, com coeficiente de confiança de 95%; (Resp. [0,280 ; 0,386])

b) o tamanho da amostra para que o erro da estimativa não exceda a 0,02 unidades com probabili-

dade de 95%. (Resp. n = 2.133 ou n = 2.401)

Questão 15: Com auxílio da tabela t-Student calcule:

a) P(−3,365 ≤ t5 ≤ 3,365); (Resp. 0,98)

b) P(|t8| < 1,4); (Resp. 0,80)c) O valor de b tal que P(t16 ≤ b) = 0,05; (Resp. -1,746)

d) O valor de c tal que P(|t11| ≤ c) = 0,10; (Resp. 0,129)

Questão 16: Uma amostra com 10 observações de uma variável aleatória Normal forneceu média

de 5,5 e variância amostral 4. Determine o intervalo de confiança para µ com coeficiente de confi-

ança γ = 95%

Questão 17: Admitindo que a pressão sanguínea arterial em homens siga o mdelo Normal, 7 pa-

cientes foram sorteados e tiveram sua pressão medida com os seguintes resultados: 84, 81, 77, 85,69, 80 e 79. Determine o intervalo de confiança para µ com coeficiente de confiança γ = 98%

Questão 18: Uma amostra com 10 observações de uma variável aleatória Normal forneceu média

de 5,5 e variância amostral 4. Determine o intervalo de confiança para µ com coeficiente de confi-

ança γ = 95%



Questão 19: Encontre o c.c. de um intervalo de confiança para p, se n = 100, p= 0,6 e a amplitude

do intervalo deve ser igual a 0,090. (Resp. γ = 0,64)

Questão 20: Estão sendo estudados dois processos para conservar alimentos, cuja principal va-

riável de interesse é o tempo de duração destes. No processo A, o tempo X de duração segue a

distribuição N(µA;100), e processo B o tempo Y obedece à distribuição N(µB;100). Sorteiam-seduas amostras independentes: a de A, com 16 latas, apresentou tempo médio de duração igual a 50,

e a de B, com 25 latas, duração média igual a 60.

(a) Construa um IC para µA e µB , separadamente.

(b) Para verificar se os dois processos podem ter o mesmo desempenho, decidiu-se construir um IC

para a diferença µA− µB. Caso o zero pertença ao intervalo, pode-se concluir que existe evidência

de igualdade dos processos. Qual seria sua resposta?

Questão 21: O tempo de reação de uma pessoa a certa droga é uma variável aleatória com média5 minutos e desvio padrão 3 minutos. Esse tempo foi medido em uma amostra de 80 pessoas esco-

lhidas, sem reposição, na cidade de São Paulo. Pergunta-se a probabilidade:

(a) O tempo médio amostral ser inferior a 5,5? (Resp. 0,9319)

(b) O tempo médio na amostra não diferir da verdadeira média por mais de 0,4? (Resp. 0,7660)

Questão 22: Numa pesquisa de mercado desejamos estimar a proporção de pessoas que compram

o sabonete Bom-cheiro.

(a) Que tamanho de amostra devemos colher para que, com probabilidade 0,9; a estimativa não sedesvie do verdadeiro valor por mais de 0,05? (Resp. n 269)

(b) Se tivermos a informação adicional de que a aceitação do sabonete Bom-cheiro é no mínimo

0,8, qual deve ser então o tamanho da amostra? (Resp. n 173)

(c) Decidimos colher uma amostra de tamanho 81. Qual o erro máximo cometemos com probabi-

lidade 0,9? (Resp. 0,09 )

(d) Para uma amostra de tamanho 81, qual a probabilidade de que o erro máximo seja 0,08? (Resp.

0,8502 )



Questão 23: Um pesquisador está estudando a resistência de um determinado material sob de-

terminadas condições. Ele sabe que essa variável é normalmente distribuída com desvio padrão de

duas unidades.

(a) Utilizando os valores 4,9; 7; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades, obtidos de uma amostra

de tamanho 9, determine o intervalo de confiança para a resistência média com um coeficienteγ = 0,90.

(Resp. [5,13 ; 7,32])

(b) Qual o tamanho da amostra necessário para que o erro cometido, ao estimarmos a resistência

média, não seja superior a 0,01 unidade com probabilidade 0,90? (Resp. n = 108.900)

(c) Suponha que no item (a) não fosse conhecido o desvio padrão, determine o intervalo de confi-

ança para a resistência média com um coeficiente γ = 0,90.

Questão 24: Uma amostra aleatória de n1 = 49 é selecionada de uma população µ1 normal comuma média de 75 e um desvio -padrão igual a 8. Uma segunda amostra aleatória de tamanho

n2 = 9 é retirada de uma outra população µ2 normal com média 70 e desvio-padrão 12. Faça X 1 e

X 2 serem duas médias amostrais. Encontre:

a) a probabilidade de X 1 −X 2 exceder 4;

b) a probabilidade de 3,5 X 1 −X 2 5,5;

c) construir um intervalo de confiança para a diferença µ1 − µ2



2 Teste de Hipóteses

Em muitas situações temos interesse em tomar a decisão de aceitar ou rejeitar determinda afir-

mação baseando-se em um conjunto de evidências.

A construção de um teste de hipóteses, para um parâmetro populacional, pode ser colocado doseguinte modo. Existe uma variável X associada a dada população e tem-se uma hipótese sobre

determinado parâmetro θ dessa população. Por exemplo, afirmamos que o verdadeiro valor de θ é

θ0 . Colhe-se uma amostra aleatória de elementos dessa população, e com ela deseja-se comprovar

ou não tal hipótese.

Qualquer que seja a decisão tomada, estamos sujeitos a cometer erros. São dois os erros que

podem ser cometidos ao se realizar um teste de hipótese, são eles:

Erro tipo I: rejeitar a hipótese nula quando essa é verdadeira. Chamaremos de α a probabilidadede cometer esse erro, isto é,

α = P(erro tipo I) = P(rejeitar H 0|H 0 é verdadeira).

Erro tipo II: não rejeitar H 0 quando H 0 é falsa. A probabilidade de cometer esse erro é denotado

por β , logo

β = P(erro tipo II) = P(não rejeitar H 0|H 0 é falsa).

O objetivo do teste de hipótese é dizer, usando uma estatística

θ, se a hipótese H 0 é ou não

aceitável. Essa decisão é tomada através da consideração de uma região crítica RC. Caso o valorobservado da estatística pertença a essa região, rejeitamos H 0; caso contrário, não rejeitamos H 0.

Esta região é construída de modo que P( θ ∈ RC |H 0 é verdadeira) seja igual a α, fixado a priori.

A probabilidade α de cometer um erro de tipo I é um valor arbitrário e recebe o nome de nível

de significância ou tamanho do teste. O resultado da amostra é tanto mais significante para re-

jeitar H 0 quanto menor for esse nível α, ou seja, quanto menor α menor é a probabilidade de se

obter uma amostra com estatística (estimativa) pertencente à região crítica, sendo pouco provável

a obtenção de uma amostra da população para a qual H 0 seja verdadeira. Geralmente, o valor de αé fixado em 10%, 5% ou 1%.



Passos para construção de um teste de hipóteses:

I) Estabelecer as hipóteses nula e alternativa;

II) Fixar α;

III) Definir a forma da região crítica, com base na hipótese alternativa;

IV) Identificar a distribuição do estimador e obter sua estimativa;V) Concluir o teste com base na estimativa e na região crítica.

2.1 P-valor

Ao realizarmos um teste de hipóteses, partimos de um valor de α , pré-fixado, para construir

a regra de decisão uma alternativa é deixar a cargo de quem vai utilizar as conclusões do teste a

escolha do valor para a probabilidade α , que não precisará ser fixado à priori. A idéia consiste em

calcular, supondo que a hipótese nula seja verdadeira, a probabilidade de se obter estimativas mais

desfavoráveis ou extremas (à luz da hipótese alternativa) do que a que está sendo fornecida pela

amostra. Esta probabilidade será o P-valor, denotado por P. Valores pequenos de P evidenciam que

a hipótese nula é falsa, pois, sendo a amostra nossa ferramenta de inferência sobre a população,

ela fornece uma estimativa que teria probabilidade muito pequena de acontecer, se H 0 fosse ver-

dadeira. O conceito do que é “pequeno"fica a cargo do pesquisador, que assim decide qual α usar

para comparar com o valor P. Daremos agora uma definição formal de um valor P.

definição: O P-valor é o menor nível de significância que conduz à rejeição da hipótese nula H 0

com dados fornecidos pela amostra. Assim, um valor P carrega informação sobre o peso da evidên-

cia contra H 0.

2.2 Distribuição F de Snedecor

Sejam U e V variáveis aleatórias independentes tendo ambas distribuição qui-quadrado com m

e n graus de liberdade respectivamente. Então a variável aleatória

X =U mV n



tem distribuição F com m graus de liberdade no numerador e n graus de liberdade no denominador,

denotaremos por X ∼ F(m, n).

Se X 1, X 2, . . . , X m é uma amostra aleatória de tamanho m de uma população normal com média

µX e variância σ2X , e seja também Y 1, Y 2, . . . , Y n uma amostra aleatória de tamanho n de uma

população Normal com média µY e variância σ2Y , e se as duas amostras são independentes, entãoisto resulta que

1

σ2

mi=1

(X i −X )2

tem distribuição qui-quadrado com m-1 graus de liberdade, e

1

σ2

n j=1

(Y i − Y )2

tem distribuição qui-quadrado com n-1 graus de liberdade, assim a estatística

F =

1

(m− 1)σ2X

mi=1

(X i −X )2

1

(n− 1)σ2Y

n j=1

(Y i − Y )2=

S 2Xσ2X

S 2Y σ2Y

tem uma distribuição F com m-1 e n-1 graus de liberdade.

Um procedimento de teste de hipóteses para a igualdade de duas variâncias é baseado no seguinte

resultado. Sujeita a hipótese nula H 0 : σ2X = σ2

Y , a estatística

F =S 2XS 2Y

,

distribuição F com m-1 e n-1 graus de liberdade.



EXERCÍCIOS

Questão 1: Uma máquina automática para encher pacotes de café enche-os segundo uma dis-

tribuição normal, com média µ e variância sempre igual a 400 g2. A máquina foi regulada para

µ = 500g. Desejamos, periodicamente, escolher uma amostra de 16 pacotes e verificar se a pro-

dução está sob controle, isto é, se µ = 500g ou não. Se uma dessas amostras apresentasse uma

média x= 492 g, você pararia ou não a produção para regular a máquina?

Questão 2: Um relatório de uma companhia afirma que 40% de toda a água obtida, através de

poços artesianos no nordeste, é salobra. Há muitas controvérsias sobre essa informação, alguns

dizem que a proporção é maior, outros que é menor. Para dirimir as dúvidas, 400 poços foram

sorteados e observou-se, em 120 deles, água salobra. Qual a conclusão ao nível de 3%.

Questão 3: Deseja-se investigar se uma certa moléstia que ataca o rim altera o consumo de ox-

igênio desse órgão. Para indivíduos sadios, admite-se que esse consumo tem distribuição Normal

com média 12cm3/min. Os valores medidos em cinco pacientes com a moléstia foram: 14,4; 12,9;

15; 13,7 e 13,5. Qual seria a conclusão, ao nível de 1% de significância?

Questão 4: Uma estação de televisão afirma que 60% dos televisores estavam ligados no seu pro-

grama especial da última segunda-feira. Uma rede competidora deseja contestar essa afirmação e

decide usar uma amostra de 200 famílias para um teste. Admitindo que, da pesquisa realizada com

as 200 famílias, obtivemos 104 pessoas que estavam assistindo ao programa. Qual a conclusão ao

nível de 5% de significância?

Questão 5: Um pesquisador deseja estudar o efeito de certa substância no tempo de reação de

seres vivos a um certo tipo de estímulo. Um experimento é desenvolvido com cobaias, que são

inoculadas com a substância e submetidas a um estimulo elétrico, com seus tempos de reação (em

segundos) anotados. Os seguintes valores foram obtidos: 9,1; 9,3; 7,2; 7,5; 13,3; 10,9; 7,2; 9,9; 8;

8,6. Admite-se que o tempo de reação segue, em geral, o modelo Normal com média 8 e desvio-

padrão σ = 2 segundos. O pesquisador desconfia, entretanto, que o tempo médio sofre alteração

por influência da substância. Qual a conclusão ao nível de 6% de significância?

Questão 6: Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina. Uma

amostra de 25 cigarros forneceu média de 31,5 mg e desvio padrão de 3 mg. No nível de 5%, os

dados refutam ou não a afirmação do fabricante?



Questão 7: Para verificar se duas populações têm a mesma média,amostras independêntes foram

retiradas. Sabendo que a população I é Normal (µ1, 25) e a população II Normal (µ2, 40), que con-

clusão pode ser retirada, ao nível 2% ? Os valores obtidos foram:

População DadosI 12 14 15 14 13 17 14 13

II 13 17 14 13 16 17 18 16

Questão 8: As variáveis X e Y seguem a distribuição Normal com mesma variância. Deseja-se

testar se, também, têm a mesma média. Doze observações de cada variável foram escolhidas e os

resultados foram os seguintes:12

i=1 xi = 48 ;12

i=1 yi = 56 ;12

i=1 x2i = 4.900 ;

12

i=1 y2i = 5.650.

Qual é a conclusão ao nível de significância de 5% ?

Questão 9: Para comparar as médias de duas populações Normais, amostras aleatórias foram obti-

das. Sabe-se que as variâncias populacionais são diferentes, sendo seus valores desconhecidos.

Amostra I 7 9 3 8 11 5 9

Amostra II 2 7 5 15 9 16 8O que pode ser dito a respeito das médias das populações, com α = 0,05 ?

Questão 10: Dois medicamentos para tratamento de infecções bucais estão sendo sendo estudadose o melhor desempenho é definido pela rapidez em eliminar a infecção. Pacientes escolhidos ao

acaso receberam um dos medicamentos e tiveram a sua cura classificada em rápida ou não. Deseja-

se testar, ao nível 10% , se os medicamentos são equivalentes. os dados obtidos são apresentados a

seguir.

Amostra Pacientes com cura rápida

Medicamento A 50 32

Medicamento B 100 48Qual é sua conclusão? Indique as hipóteses do teste e as suposições necessárias.



Questão 11: Para comparar o grau de diversidade de duas populações primitivas, uma medida

antropométrica foi obtida em fósseis coletados em sítios arqueológicos, fornecendo a tabela a

seguir.

característica Sítio A (n = 17) Sítio B (n = 23)

Média (cm ) 15,12 12,21Variância (cm2) 0,124 0,184

O que pode ser concluído a respeito das variâncias? E das médias populacionais?

Questão 12: Um fabricante de esferas para rolamentos desenvolveu um novo método de produção,

mais barato. Entretanto, ele desconfia que os novos lotes apresentam variabilidade diferente daque-

les produzidos pelo método, ele selecionou aleatoriamente 15 esferas que forneceram os seguintes

diâmetros ( em mm):

X 29,9 29,8 29,8 29,7 29,9 29,8 29,9 29,9 30,1 29,9 30,0 30,0 29,6 30,4

Y 29,8 29,8 30,4 29,8 30,5 29,6 29,3 29,4 30,3 29,9 29,7 30,3 30,4 29,1

Questão 13: Uma linha de montagem produz peças cujos pesos, em gramas, obedecem ao modelo

Normal com variância 30 g2. Os equipamentos foram modernizados e, para verificar se o processo

continua sob controle, foi tomada uma amostra de 23 peças, forneceu s2obs = 40g2. Existem ev-

idências indicando que a variância mudou, considerando α = 10% ?

Questão 14: Para avaliar o nível de tensão ocasionada por exames escolares, doze alunos foram

escolhidos e sua pulsação medida antes e depois do exame.Estudante 1 2 3 4 5 6 7 8 9 10 11 12

Antes 87 78 85 93 76 80 82 77 91 74 76 79

Depois 83 84 79 88 75 81 74 71 78 73 76 71Faça um teste, com nível de significância de 1% , para verificar se existe maior tensão (isto é, maior

pulsação) antes da realização dos exames. Indique as suposições necessárias.

Infer en CIA

Documents