Probabilidade Estatística - Professor: Hiron Pereira Farias 1 Infe rên cia Estatí sti ca Seja X uma variável aleatória com função de densidade( ou de probabilidade) que abreviaremos por f.d.p. (f.p.) e que denotaremos por f( x|θ). Chamaremos de inferência estatísticao problema que consiste em especificar um ou mais valores para θ , baseado em um conjunto de valores obser- vados de X. No caso de um problema de estimação, o objetivo é procurar, segundo algum critério especi ficado, valore s que represen tem adequada mente os parâmetros desconhe cidos. No caso de testes de hipóteses, o objetivo é verificar a validade de afirmações sobre o valor do parâmetro de- sconhecido. Por exemplo, quando o interesse é verificar se a proporção θde eleitores de determindo candidato é igual a 50%, as hipóteses a serem testadas são H0 : θ = 0,5 versus H1 : θ = 0 ,5. 1.1 Defi niç ões imp ortantes 1) O conjunto de valores de uma característica (observável) associada a uma coleção de indivíduos ou objetos de interesse é dito ser uma população. 2) Uma amostra aleatória simples (AAS) de tamanho n de uma variável aleatória X, com dada distribuição, é o conjunto de n variáveis independentes X1 , X2 ,...,X n , cada uma com a mesma distribuição de X. 3) As quantidades da população, em geral desconhecidas e sobre as quais temos interesse, são de- nominadosparâmetrose geralmente denotados por letras gregas tais como θ , µ, σ 2 entre outros. 4) O conjunto Θem que θ toma valores é denominado espaço paramétrico. 5) Qualquer estatística que assuma valores em Θé umestimadorpara θ . 6) Qualquer estatística que assuma valores somente no conjunto dos possíveis valores de g( θ) é um estimador para g(θ). 7) Qualquer função da amostra que não depende de parâmetros desconhecidos é denominada uma estatística. 8) À combinação dos elementos da amostra, construídos com a finalidade de representar, ou esti- mar, um parâmetro de interesse na população, denominamos estimador. Em geral, denotamos os
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
estimadores por símbolos com acento circunflexo: θ, µ, σ2 e P . Aos valores númericos assumi-
dos pelos estimadores denominamos estimativas pontuais ou simplesmente estimativas.
Notamos que um estimador, digamos θ, é uma função das variáveis aleatórias constituinte da
amostra, isto é,
θ = f (X 1, X 2, . . . , X n). Logo, um estimador também é uma variável aleatória.
a correspondente distribuição de probabilidade formará a base das argumentações probabilísticasutilizadas na extrapolação da informação da amostra para os parâmetros da população.
Os estimadores mais comuns são:
X =X 1 + X 2 + . . . + X n
n=
1
n
ni=1
xi “ média amostra ”;
S 2 =1
n− 1
n−1i=1
(X i −X )2 “ variância amostral ”.
P = Y n “ proporção amostral ”.
em que, Y é uma variável aleatória que determina o número de elementos na amostra com a
característica de interesse.
1.2 Propriedades dos Estimadores
Uma propriedade desejável de um estimador é que ele esteja “ próximo", de alguma maneira
do verdadeiro valor do parâmetro desconhecido. Formalmente, dizemos que θ é um estimador
não-viciado do parâmetro θ se
E ( θ) = θ.
Isto é, θ é um estimador não-viciado de θ se, "na média", seus valores forem iguais a θ. Note que
isso é equivalente a se exigir que a média da distribuição amostral de θ seja igual a θ.
Se o estimador for viesado, então a diferença
E ( θ)− θ
é denominada de Viés do estimador θ .
Muito embora seja desejável que uma estimativa seja não-viesada (ou tendenciosa), haverá ocasiões
Definição: Chamamos de eficiência de um estimador θ, não viciado para o parâmetro θ, o quo-
ciente
e( θ) =LI (θ)
V ar(
θ)
,
onde LI(θ) é o limite inferior da variância dos estimadores não viciados de θ.
e(θ)= 1 quando LI(θ)= Var( θ), ou seja, quando a variância de θ coincide com o limite inferior davariância dos estimadores não viciados de θ. Nesse caso, θ é dito ser eficiente.
1.3 O Método de Máxima Verossimilhança
Definição: Sejam X 1, X 2, . . . , X n uma amostra aleatória de tamanho n da variável aleatória X
com função de densidade ( ou de probabilidade) f(x| θ), com θ ∈ Θ , onde Θ é o espaço paramétrico.
A função de verossimilhança de θ correspondente à amostra aleatória observada é dada por
L(θ; x) =m
j=1
f (xi|θ).
Definição: O estimador de máxima verossimilhança de θ é o valor θ ∈ Θ que maximiza a função
de verossimilhança L(θ; x).
O logaritmo natural da função de verossimilhança de θ é denotado por
l(θ; x)=ln L(θ; x).
Não é dificil verificar que o valor de θ que maximiza a função de verossimilhança L(θ; x), também
maximiza l(θ; x).
1.4 Verossimilhança para Amostras Independentes
Existem situações em que temos duas ou mais amostras independentes de distribuições que
dependem de um parâmetro θ de interesse. No caso de duas amostras aleatórias independentes,
X 1, X 2, . . . , X n e Y 1, Y 2, . . . , Y n, podemos escrever
L(θ; x, y) = L(θ; x) L(θ; y),
devido à independência entre as amostras. Portanto a verossimilhança conjunta é igual ao produto
da verossimilhança correspondente à amostra X 1, X 2, . . . , X n pela verossimilhança correspondente
à amostra Y 1, Y 2, . . . , Y n. De modo que podemos escrever
l(θ; x, y) = l(θ; x) + l(θ; y),
de modo que o logaritmo da verossimilhança conjunta é igual ao produto da verossimilhanças
No que foi estudado até o presente momento, consideramos a distribuição amostral da média
X , calculada em uma amostra cuja elementos são constituídos por variáveis aleatórias indepen-
dentes e com distribuição normal. Na prática, muitas vezes não temos informações a respeito da
distribuição das variáveis constituintes da amostra, o que nos impede de utilizar o resultado ap-
resentado. Felizmente satisfeitas certas condições, pode ser mostrado que, para um tamanho de
amostra suficientemente grande, a distribuição de probabilidade da média amostral pode ser aprox-
imada por uma distribuição normal.
Esse resultado, fundamental na teoria da Inferência Estatística, é conhecido como Teorema Limite
Central.
definição: Para amostras aleatórias simples (X 1, X 2, . . . , X n), retiradas de uma população com
média µ e variância σ2 finita, a distribuição amostral da média X aproxima-se, para n grande, de
uma distribuição normal, com média µ e variânciaσ2
n.
Esse resultado sugere que, quando o tamanho da amostra aumenta, independentemente da forma
da distribuição da população, a distribuição amostral de X aproxima-se cada vez mais de uma
distribuição normal.
1.6 Determinação do tamanho de uma amostra
Em nossas considerações anteriores fizemos a suposição que o tamanho da amostra, n, era
conhecido e fixo. Podemos, em certas ocasiões, querer determinar o tamanho da amostra a ser
escolhida de uma população, de modo a obter um erro de estimação previamente estipulado, com
determinado grau de confiança.
Suponha que estejamos estimando a média µ populacional e para tanto usaremos a média amostral,X , baseada numa amostra de tamanho n. Suponha que se queira determinar o valor de n de modo
sobre o verdadeiro valor de θ. Em uma situação ideal, obtemos um intervalo relativemente pequeno
com alta confiânça. como o comprimento do intervalo de confiânça mede a precisão da estimação,
vemos que a precisão está inversamente relacionada ao nível de confiânça. È altamente desejável
obter um intervalo de confiânça que seja pequeno o bastante para o proposito de tomada de decisão,
mas que tenha, também, a confiânça adequada. Uma maneira de conseguir isso é escolhendo-se otamanho n da amostra grande o suficiente para resultar em um intervalo de tamanho especificado
com a confiânça prescrita.
1.7.1 Intervalo de Confiânça para Populações Normais
Suponha-se que X tenha distribuição N(µ; σ2), onde se supõe σ2 conhecido, enquanto µ é
o parâmetro desconhecido. Seja X 1, X 2, . . . , X n uma amostra aleatória de X e seja X a média
amostral.
Sabemos que X tem distribuição N(µ; σ2
n), portanto, Z =
√n(X − µ)
σtem distribuição N(0;1).
Observa-se que, muito embora Z depende de µ , sua distribuição de probabilidade não depende.
Empregamos este fato a nosso favor da seguinte maneira:
Fixado um valor γ tal que 0 < γ < 1, podemos encontrar um valor tal que :
P (|Z | < zγ
2
) = P (−zγ
2
< Z < z γ
2
) = γ .
Para γ fixo o valor zγ
2
pode ser obtido da tabela normal padrão.
P (−z ≤ Z ≤ z) = P (−z ≤ √n(X − µ)σ
≤ z) = P (−z σ√ n≤ X − µ ≤ z σ√
n) =
P (X − z σ√ n≤ µ ≤ X + z σ√
n) = 2Φ(z)− 1
Assim o intervalo de confiança para µ , com coeficiente de confiança γ , é dadao por
IC(µ; γ ) = [X − zγ
2
σ√ n
; X + zγ
2
σ√ n
].
A amplitude do intervalo de confiança é dada pela diferença entre o extremo superior e inferior,
isto é, X + zγ
2
σ√ n−X + zγ
2
σ√ n
= 2zγ
2
σ√ n
, o que claramente indica que ela depende da confiança γ
, do desvio-padrão σ e do tamanho da amostra n. É usual se referir à semi-amplitude, como o erro
envolvido na estimação.
De modo geral o intervalo de confiança para um parâmetro θ é dado por
IC(θ; γ )= [ θ − vt ep( θ); θ + vt ep( θ)]
em que vt é um valor tabelado da distribuição de θ e ep( θ) o erro-padrão do estimador θ.
Sabemos que sabemos que a proporção amostral, P , tem distribuição normal com média P e vari-
Assim o intervalo de confiança para P , com coeficiente de confiança γ , é dado por
IC(P ; γ ) =
P − zγ
2
p(1− p)
n;
P + zγ
2
p(1− p)
n
.
Como não conhecemos P, que o parâmetro a ser estimado, primeiro ao fazermos P = P , temos
IC(P ; γ ) = P − zγ
2
P (1− P )n
; P + zγ
2
P (1− P )n
.
e para P = 12
, obtemos
IC(P ; γ ) = P − zγ
2
14n
; P + zγ
2
14n
.
Consideremos o caso em que temos X 1, X 2, . . . , X n , uma amostra aleatória da variável aleatória
X ∼ N (µ1; σ21) e Y 1, Y 2, . . . , Y m , uma amostra aleatória da variável aleatória Y ∼ N (µ2; σ2
2), onde
X e Y são independentes. Sabemos que
(X −
Y )∼
N µ1 −
µ2;σ21
n+
σ22
m de modo que , sendo θ = µ1 − µ2 , consideremos a quantidade
(X − Y )− (µ1 − µ2) σ21
n+
σ22
m
∼ N (0;1)
Sendo σ21 e σ2
2 conhecidas, temos , como no caso anterior, o intervalo
IC(µ1 − µ2; γ ) =
(X − Y )− zγ
2
σ21
n+
σ22
m; (X − Y ) + zγ
2
σ21
n+
σ22
m
Se as variâncias σ
2
1 e σ
2
2 são conhecidas, e se os tamanhos amostrais n e m são iguais, então paradeterminar o tamanho amostral necessário tal que o erro na estimativa de µ1−µ2 usando X 1−X 2
seja menor do que ε com γ % de confiânça. O tamanho de cada amostra é
n =zγ
2
ε
2(σ2
1 + σ22).
Suponha que X seja normalmente distribuída, com média µ e variância desconhecidas. Seja
X 1, X 2, . . . , X n uma amostra aleatória de tamanho n, e seja S 2 a variância amostral. Já demostrou-
se que a distribuição amostral de(n
−1)S 2
σ2 ∼ χ
2
(n−1).
Portanto dado γ , podemos determinar q1 e q2 de modo que
Questão 7: A vida de um componente usado em um motor de uma turbina de um avião a jato é uma
variável aleatória, com média de 5.000 h e desvio-padrão de 40h. A distribuição da vida efetiva é
razoavelmente próxima da distribuição Normal. O fabricante do motor introduz uma melhoria no
processo de fabricação para esse componente, que aumenta a vida média para 5.050 h e diminui
o desvio-padrão para 30h. Suponha que uma amostra aleatória de n1 = 16 componentes seja se-lecionada do processo antigo e uma amostra aleatória de n2 = 25 componentes seja selecionada
do processo melhorado. Considere que o processo antigo e o melhorado possam ser considerados
como populações independentes.
i) Qual a probabilidade de que a diferença nas duas médias amostrais X 2 − X 1 seja no mínimo de
25h? ii) Construir um intervalo de confiança para a diferença entre as médias populacionais dos
dois processos?
Questão 8: Suponha que amostras de tamanho n = 25 sejam selecionadas, ao acaso, de uma po-pulação normal, com média igual a 100 e desvio-padrão igual a 10. Qual a probabilidade de que a
média amostral caia no intervalo de µX − 1,8σX a µX + 1,0σX?
Questão 9: Numa pesquisa de mercado para estudar a preferência da população de uma cidade em
relação a um determinado produto, colheu-se uma amostra aleatória de 300 indivíduos, dos quais
180 preferiam esse produto.
(a) Determine o intervalo de confiança para a proporção da população que prefere o produto em
estudo; tome γ = 0,90. (Resp. [0,553 ; 0,647] )(b) Determine a probabilidade de que a estimativa pontual dessa proporção não difira do verdadeiro
valor em mais de 0,001. (Resp. 2,7%)
Questão 10: Antes de uma eleição em que existam dois candidatos, A e B, foi feita uma pesquisa
com 400 eleitores escolhidos ao acaso, e verificou-se que 208 deles pretendiam votar no candidato
a. Construa um intervalo de confiança, com c.c. γ = 0,95, para a porcentagem de eleitores fa-
voráveis ao candidato A na época das eleições. (Resp. [0,471 ; 0,569])
Questão 11: Uma amostra aleatória de 625 donas de casa revela que 70% delas preferem a marcaA de detergente. Construir um intervalo de confiança para p = proporção das donas de casa que
preferem A. Utilize (γ = 90%).
Questão 12: Numa pesquisa com 50 eleitores o candidato José João obteve 35% da preferência
dos eleitores. Construa, para a confiança de 94%, os intervalos otmista e conservador de confiança
para a proporção de votos a serem recebidos pelo candidato mencionado, supondo que a eleição
fosse nesse momento.
Questão 13: Antes de uma eleição, um determinado partido está interessado em estimar a pro-
porção p de eleitores favoráveis ao seu candidato. Uma amostra piloto de tamanho 100 revelou que
60% dos eleitores eram favoráveis ao candidato em questão.a) Determine o tamanho da amostra necessário para que o erro cometido na estimação seja de , no
máximo, 0,01 com probabilidade de 80%; (Resp. n = 3.994)
b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55% dos eleitores
eram favoráveis ao candidato em questão, construa um intervalo de confiança para a proporção p.
Utilize (γ = 95%).
Questão 14: Suponha que estejamos interessados em estimar a porcentagem de consumidores de
um certo produto. Se a amostra de tamanho 300 forneceu 100 indivíduos que consomem o dadoproduto, determine:
a) o intervalo de confiança de p, com coeficiente de confiança de 95%; (Resp. [0,280 ; 0,386])
b) o tamanho da amostra para que o erro da estimativa não exceda a 0,02 unidades com probabili-
dade de 95%. (Resp. n = 2.133 ou n = 2.401)
Questão 15: Com auxílio da tabela t-Student calcule:
a) P(−3,365 ≤ t5 ≤ 3,365); (Resp. 0,98)
b) P(|t8| < 1,4); (Resp. 0,80)c) O valor de b tal que P(t16 ≤ b) = 0,05; (Resp. -1,746)
d) O valor de c tal que P(|t11| ≤ c) = 0,10; (Resp. 0,129)
Questão 16: Uma amostra com 10 observações de uma variável aleatória Normal forneceu média
de 5,5 e variância amostral 4. Determine o intervalo de confiança para µ com coeficiente de confi-
ança γ = 95%
Questão 17: Admitindo que a pressão sanguínea arterial em homens siga o mdelo Normal, 7 pa-
cientes foram sorteados e tiveram sua pressão medida com os seguintes resultados: 84, 81, 77, 85,69, 80 e 79. Determine o intervalo de confiança para µ com coeficiente de confiança γ = 98%
Questão 18: Uma amostra com 10 observações de uma variável aleatória Normal forneceu média
de 5,5 e variância amostral 4. Determine o intervalo de confiança para µ com coeficiente de confi-
Questão 19: Encontre o c.c. de um intervalo de confiança para p, se n = 100, p= 0,6 e a amplitude
do intervalo deve ser igual a 0,090. (Resp. γ = 0,64)
Questão 20: Estão sendo estudados dois processos para conservar alimentos, cuja principal va-
riável de interesse é o tempo de duração destes. No processo A, o tempo X de duração segue a
distribuição N(µA;100), e processo B o tempo Y obedece à distribuição N(µB;100). Sorteiam-seduas amostras independentes: a de A, com 16 latas, apresentou tempo médio de duração igual a 50,
e a de B, com 25 latas, duração média igual a 60.
(a) Construa um IC para µA e µB , separadamente.
(b) Para verificar se os dois processos podem ter o mesmo desempenho, decidiu-se construir um IC
para a diferença µA− µB. Caso o zero pertença ao intervalo, pode-se concluir que existe evidência
de igualdade dos processos. Qual seria sua resposta?
Questão 21: O tempo de reação de uma pessoa a certa droga é uma variável aleatória com média5 minutos e desvio padrão 3 minutos. Esse tempo foi medido em uma amostra de 80 pessoas esco-
lhidas, sem reposição, na cidade de São Paulo. Pergunta-se a probabilidade:
(a) O tempo médio amostral ser inferior a 5,5? (Resp. 0,9319)
(b) O tempo médio na amostra não diferir da verdadeira média por mais de 0,4? (Resp. 0,7660)
Questão 22: Numa pesquisa de mercado desejamos estimar a proporção de pessoas que compram
o sabonete Bom-cheiro.
(a) Que tamanho de amostra devemos colher para que, com probabilidade 0,9; a estimativa não sedesvie do verdadeiro valor por mais de 0,05? (Resp. n 269)
(b) Se tivermos a informação adicional de que a aceitação do sabonete Bom-cheiro é no mínimo
0,8, qual deve ser então o tamanho da amostra? (Resp. n 173)
(c) Decidimos colher uma amostra de tamanho 81. Qual o erro máximo cometemos com probabi-
lidade 0,9? (Resp. 0,09 )
(d) Para uma amostra de tamanho 81, qual a probabilidade de que o erro máximo seja 0,08? (Resp.
Questão 23: Um pesquisador está estudando a resistência de um determinado material sob de-
terminadas condições. Ele sabe que essa variável é normalmente distribuída com desvio padrão de
duas unidades.
(a) Utilizando os valores 4,9; 7; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades, obtidos de uma amostra
de tamanho 9, determine o intervalo de confiança para a resistência média com um coeficienteγ = 0,90.
(Resp. [5,13 ; 7,32])
(b) Qual o tamanho da amostra necessário para que o erro cometido, ao estimarmos a resistência
média, não seja superior a 0,01 unidade com probabilidade 0,90? (Resp. n = 108.900)
(c) Suponha que no item (a) não fosse conhecido o desvio padrão, determine o intervalo de confi-
ança para a resistência média com um coeficiente γ = 0,90.
Questão 24: Uma amostra aleatória de n1 = 49 é selecionada de uma população µ1 normal comuma média de 75 e um desvio -padrão igual a 8. Uma segunda amostra aleatória de tamanho
n2 = 9 é retirada de uma outra população µ2 normal com média 70 e desvio-padrão 12. Faça X 1 e
X 2 serem duas médias amostrais. Encontre:
a) a probabilidade de X 1 −X 2 exceder 4;
b) a probabilidade de 3,5 X 1 −X 2 5,5;
c) construir um intervalo de confiança para a diferença µ1 − µ2
Em muitas situações temos interesse em tomar a decisão de aceitar ou rejeitar determinda afir-
mação baseando-se em um conjunto de evidências.
A construção de um teste de hipóteses, para um parâmetro populacional, pode ser colocado doseguinte modo. Existe uma variável X associada a dada população e tem-se uma hipótese sobre
determinado parâmetro θ dessa população. Por exemplo, afirmamos que o verdadeiro valor de θ é
θ0 . Colhe-se uma amostra aleatória de elementos dessa população, e com ela deseja-se comprovar
ou não tal hipótese.
Qualquer que seja a decisão tomada, estamos sujeitos a cometer erros. São dois os erros que
podem ser cometidos ao se realizar um teste de hipótese, são eles:
Erro tipo I: rejeitar a hipótese nula quando essa é verdadeira. Chamaremos de α a probabilidadede cometer esse erro, isto é,
α = P(erro tipo I) = P(rejeitar H 0|H 0 é verdadeira).
Erro tipo II: não rejeitar H 0 quando H 0 é falsa. A probabilidade de cometer esse erro é denotado
por β , logo
β = P(erro tipo II) = P(não rejeitar H 0|H 0 é falsa).
O objetivo do teste de hipótese é dizer, usando uma estatística
θ, se a hipótese H 0 é ou não
aceitável. Essa decisão é tomada através da consideração de uma região crítica RC. Caso o valorobservado da estatística pertença a essa região, rejeitamos H 0; caso contrário, não rejeitamos H 0.
Esta região é construída de modo que P( θ ∈ RC |H 0 é verdadeira) seja igual a α, fixado a priori.
A probabilidade α de cometer um erro de tipo I é um valor arbitrário e recebe o nome de nível
de significância ou tamanho do teste. O resultado da amostra é tanto mais significante para re-
jeitar H 0 quanto menor for esse nível α, ou seja, quanto menor α menor é a probabilidade de se
obter uma amostra com estatística (estimativa) pertencente à região crítica, sendo pouco provável
a obtenção de uma amostra da população para a qual H 0 seja verdadeira. Geralmente, o valor de αé fixado em 10%, 5% ou 1%.
Questão 7: Para verificar se duas populações têm a mesma média,amostras independêntes foram
retiradas. Sabendo que a população I é Normal (µ1, 25) e a população II Normal (µ2, 40), que con-
clusão pode ser retirada, ao nível 2% ? Os valores obtidos foram:
População DadosI 12 14 15 14 13 17 14 13
II 13 17 14 13 16 17 18 16
Questão 8: As variáveis X e Y seguem a distribuição Normal com mesma variância. Deseja-se
testar se, também, têm a mesma média. Doze observações de cada variável foram escolhidas e os
resultados foram os seguintes:12
i=1 xi = 48 ;12
i=1 yi = 56 ;12
i=1 x2i = 4.900 ;
12
i=1 y2i = 5.650.
Qual é a conclusão ao nível de significância de 5% ?
Questão 9: Para comparar as médias de duas populações Normais, amostras aleatórias foram obti-
das. Sabe-se que as variâncias populacionais são diferentes, sendo seus valores desconhecidos.
Amostra I 7 9 3 8 11 5 9
Amostra II 2 7 5 15 9 16 8O que pode ser dito a respeito das médias das populações, com α = 0,05 ?
Questão 10: Dois medicamentos para tratamento de infecções bucais estão sendo sendo estudadose o melhor desempenho é definido pela rapidez em eliminar a infecção. Pacientes escolhidos ao
acaso receberam um dos medicamentos e tiveram a sua cura classificada em rápida ou não. Deseja-
se testar, ao nível 10% , se os medicamentos são equivalentes. os dados obtidos são apresentados a
seguir.
Amostra Pacientes com cura rápida
Medicamento A 50 32
Medicamento B 100 48Qual é sua conclusão? Indique as hipóteses do teste e as suposições necessárias.