8/10/2019 Bacen Econometria - aula 8.pdf http://slidepdf.com/reader/full/bacen-econometria-aula-8pdf 1/25 CURSO ON-LINE – ECONOMETRIA PARA ANALISTA DO BACEN PROFESSORES: ALEXANDRE DE LIMA E ANDRÉ CUNHA PONTO DOS CONCURSOS Econometria BACEN Aula 8 Alexandre Barbosa de Lima e André Cunha 15/01/2010 Este documento aborda os seguintes tópicos: Estimação de intervalos de confiança e testes de hipóteses.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Nesta aula estudaremos a inferência estatística no modelo deRegressão Linear Múltipla (RLM) introduzido na Aula 7.
2. Intervalos de confiança (IC)
Lembrando que nosso modelo de RLM pode ser descrito pelaseguinte equação:
ikik iii x x x y ε β β β β +++++= ...33221 , (1)
com k – 1 variáveis independentes, uma variável independentee k coeficientes (parâmetros) βi a serem estimados.
A estimação de IC para os βi no modelo de RLM é feitapraticamente do mesmo modo utilizado no modelo de RLS, a únicaparte que muda é em relação aos graus de liberdade (gl).
Se os pressupostos do modelo se verificam, inclusive o danormalidade dos erros, então tem-se que
is
t ii
k n β
β β
ˆ
ˆ −=
− segue distribuição t com (n – k) graus de liberdade,
onde
i
s β ˆ é a raiz quadrada da variância amostral do estimador i β ̂ de i β ,
fornecida pela matriz de variância-covariância
⎥⎥⎥⎥⎥
⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎢
⎣
⎡
=−
)ˆvar(...)ˆ,ˆcov()ˆ,ˆcov()ˆ,ˆcov(
...............
)ˆ,ˆcov(...)ˆvar()ˆ,ˆcov()ˆ,ˆcov(
)ˆ,ˆcov(...)ˆ,ˆcov()ˆvar()ˆ,ˆcov(
)ˆ,ˆcov(...)ˆ,ˆcov()ˆ,ˆcov()ˆvar(
)(
321
333231
232221
131211
12
k k k k
k
k
k
t X X
β β β β β β β
β β β β β β β
β β β β β β β
β β β β β β β
σ (2)
O número de graus de liberdade, n – k, é igual ao número deobservações menos o número de parâmetros do modelo.
• Os desvios padrão serão fornecidos pelo exercício, o que émenos garantido no caso k = 2.
Passemos agora aos testes de hipóteses, onde temos maisnovidades em relação ao modelo de RLS.
3. Teste de Hipótese
No modelo de RLM, estimamos o vetor β com os k parâmetrosβ1, β2, ... , βk.
Para a prova precisamos saber 2 tipos de teste de hipótese. Oprimeiro testa um único coeficiente isoladamente, ao passo que osegundo testa mais de um.
3.1. Teste de Hipótese para apenas um coeficiente
No item 4 da Aula 5 vimos teste de hipóteses no modelo deRLS. O teste de hipótese para um único coeficiente no modelo deRLM é essencialmente igual. A única mudança é em relação aos grausde liberdade. Por esse motivo, neste subitem 3.1 não se decepcionecom o “ctrl + c, ctrl + v” com adaptações que faremos agora. Não há
vantagem alguma em ser diferente.
3.1.1. Componentes do Teste de Hipóteses
a) A hipótese nula H0
b) A hipótese alternativa H1
c) A estatística de teste t c
d) A região de rejeição
3.1.1.1. A hipótese nula H0
A hipótese nula é geralmente o oposto do que queremosprovar. Por exemplo, no modelo de RLM
ikik iii x x x y ε β β β β +++++= ...33221 , ao calcularmos i β ̂ , i = 1,...,k,estamos supondo que existe uma relação entre as variáveis Xi e Y.Assim, uma hipótese nula muito comum é H0: i
A hipótese alternativa contradiz a hipótese nula. Por exemplo,quando a hipótese nula é H0:
i
β =0 a hipótese alternativa pode serH1: i
β ≠0 ou H1: i β <0 ou ainda H1: i
β >0. Relembramos que apreocupação de definir as hipóteses é do examinador, nós só teremosde testá-las. E para isso precisaremos de uma estatística de teste.
3.1.1.3. Estatística de Teste t n-k
Vimos no item 2 quei
st ii
k n
β
β β
ˆ
ˆ −=− segue distribuição t com (n
– k) graus de liberdade.
Se a hipótese nula H0: i β = c for verdadeira, então
i
s
ct i
k n
β
β
ˆ
ˆ −=−
também possui distribuição t com (n - k) graus de liberdade. Estaserá a estatística usada no teste. Assim como no modelo de RLS(onde k = 2), na maioria dos exercícios, a hipótese nula é H0: i
β = 0
ei
st
i
k n β
β
ˆ
ˆ=
− , embora isso nem sempre ocorra.
3.1.1.4. A Região de Rejeição
Se a estatísticai
s
ct i
k n
β
β
ˆ
ˆ −=− for muito grande em módulo,
rejeitamos H0. A lógica está no fato de, se i β ̂ ficar muito distante dec, provavelmente H0 está errada.
Mais uma vez: o quão grande tem de ser a estatística acimapara rejeitarmos H0 em favor de H1: i
β ≠ 0? A resposta a essapergunta é a escolha de um nível de significância α . A região derejeição é composta por valores t tais que Pr{t ≥ tc} = Pr{t ≤ -tc} =
Erro tipo I: Ocorre quando rejeitamos a hipótese nula,indevidamente. Neste caso, H0 é verdadeira e
α β
β
−=≤−
≤− 1}ˆ
Pr{ˆ
c
i
i
c t s
ct , pois
i
i
s
c
β
β
ˆ
ˆ − segue a distribuição tn-k.
Assim, a probabilidade de cometer um erro tipo I é α .
Erro tipo II: Ocorre quando não rejeitamos a hipótese nula,indevidamente. Neste caso, H0 é falsa. Entretanto, essaprobabilidade não pode ser calculada, pois não sabemos overdadeiro valor do parâmetro. Mas podemos dizer que aprobabilidade de um erro nível II aumenta à medida quediminui a probabilidade de um erro nível I, quando se escolheum menor nível de significância α .
3.1.3. Valor-p
Para o valor-p não há mudança alguma em relação ao item 4.4da Aula 5.
significância), omitiremos1. Na prova será dado o Fc ou uma tabelacom o nível de significância requerido pelo exercício.
F é dada por)/(
/)(
k nSQE
mSQE SQE F
U
U R
−
−= (5), onde
• RSQE é a soma dos quadrados do modelo restrito,supondo verdadeira a hipótese nula;
• U SQE é a soma dos quadrados do modelo original ouirrestrito (O índice “u” vem do inglês unrestricted );
• m é o número de parâmetros que supomos nulos;
• n é o número de observações;
• k o número de parâmetros do modelo original.
Vimos na Aula 7 que, ao se acrescentar uma variávelexplanatória ao modelo, SQE diminui ou permanece igual, o quegarante que 0≥− U R
SQE SQE .
Se a hipótese nula H0 for verdadeira, então)/(
/)(
k nSQE
mSQE SQE F
U
U R
−
−=
possui distribuição F(m,n-k) com m graus de liberdade no numeradore (n - k) graus de liberdade no denominador.
3.2.1. A Região de Rejeição
Se a estatística)/(
/)(
k nSQE
mSQE SQE F
U
U R
−
−= for muito grande em
módulo, rejeitamos H0. A lógica está no fato de, se RSQE for muitomaior que U SQE , provavelmente H0 está errada.
Para mensurar esse “muito maior” escolhemos um nível de
significância α , que é a probabilidade de um valor de umadistribuição F com m graus de liberdade no numerador e (n - k) grausde liberdade no denominador estar à direita do valor crítico Fc. Nafigura 4, α = 5%
1 Sugerimos ao aluno consultar as tabelas F no site http://www.dim.fm.usp.br/info/tabelaF/index.php,
C1 – O valor-p para o teste F é definido de forma idêntica àdefinida para o teste t.
C2 – Ao testar uma hipótese do tipo H0: i β =c contra Ha: ci ≠ β
podemos usar tanto um teste t quanto um F, pois os dois sãoequivalentes. Se a hipótese alternativa for i β > c ou i β < c,devemos usar somente o teste t unicaudal.
C3 – Fazer um teste F para m parâmetros não é equivalente a
aplicar m testes t separadamente, pois o teste F leva emconsideração a correlação existente entre os estimadores demínimos quadrados.
3.3. Teste de Hipótese para mais de um coeficiente: casoparticular
Vimos no item anterior o teste F para testar a hipótese conjuntade m coeficientes serem nulos.
Um caso particular interessante, chamado de teste designificância do modelo de RLM, consiste em testar a hipótese detodos os coeficientes serem nulos (exceção ao intercepto); emoutras palavras, serem irrelevantes para explicar a variação de y.
Queremos então testar a hipótese conjunta β2= β3= ... = βk=0.
Temos então:
Modelo irrestrito: ikik iii x x x y ε β β β β +++++= ...33221
Como este caso é particular do teste visto no item 3.2, asconsiderações, as observações e a região de rejeição permanecemválidos.
4. Exercícios de Fixação
As questões 1 e 2 baseiam-se no enunciado seguinte:
Um investigador está interessado em estudar a função consumode um determinado setor da economia. Com base em seuconhecimento de Teoria Econômica postula que o consumo (C) deinteresse deve variar com a renda real percapita do país (R) e comum relativo de preços (P) do setor. Neste contexto observa uma sériede 17 observações nessas variáveis ao longo do tempo, obtendo umaseqüência de realizações Ct, Rt e Pt que satisfazem o modelo log-linear log (Ct )= α + β log (Rt)+ δ log(Pt)+vt. Nesta expressão o log é
tomado na base neperiana, α, β e δ são parâmetros desconhecidos eos vt são erros não correlacionados, normalmente distribuídos com
média zero e variância constante ơ2 > 0. Alguns resultados do ajustedesse modelo pelo método de mínimos quadrados são apresentados aseguir:
1. (Analista BACEN – 2001/ESAF) Assinale a opção que dá aestimativa da variação esperada em log (C) decorrente do decréscimode duas unidades no log (P) e do aumento de uma unidade nolog (R).
A) 1,97B) 2,8
C) 2,0
D) 1,0
E) 3,0
2. (Analista BACEN – 2001/ESAF) Assinale a opção que dá o valorda estatística necessária para o teste da hipótese β = δ = 0.
A) 2,0
B) 1,0
C) 2,5
D) 25
E) 5,0
Com base nas informações abaixo, julgue as questões de 3 a 7.
Foram encontrados os seguintes resultados para estimar umaregressão linear com duas variáveis explicativas para uma amostrade tamanho 10.
3. (ANPEC - 1999) A equação de regressão estimada é
21 .03,1.26,13,223ˆ X X Y −−= .
4. (ANPEC – 1999 - Adaptado) A um nível de significância de 5%podemos afirmar que a regressão existe. Porém, após elaborarmos ostestes de hipóteses para os coeficientes individuais, aceitamos ahipótese (a um nível de significância de 1%) de que o coeficientepara a variável X2 é zero. Dado: F(2,7) = 4,74, para o nível de
significância de 5%.
5. (ANPEC - 1999) O coeficiente de determinação indica que 81,2%da variação amostral de Y podem ser atribuídos as variações de X1 eX2.
6. (ANPEC - 1999) O valor estimado para Y quando X1 = 15 e X2 =80 é 220.
7. (ANPEC - 1999) Os valores teóricos das estatísticas “t” utilizadaspara testar os coeficientes das variáveis explicativas devem sercalculados para 7 graus de liberdade.
Com base nas informações abaixo, julgue as questões 8 e 9.
É correto afirmar a respeito do modelo de regressão linear
clássico multivariado: ε γ +=
X Y , com n observações e k > 2 variáveisexplicativas, incluindo-se o intercepto:
8. (ANPEC - 2002) Para testar a hipótese conjunta de que
0...32 ==== k γ γ γ , pode-se utilizar o teste)])(1[(
)1(2
2
)(),1(;k n R
k RF k nk
−−
−=−−α ,
em que R2 é o coeficiente de determinação do modelo.
9. (ANPEC - 2002) Sempre que o modelo tiver pelo menos duasvariáveis explicativas além do intercepto, o R2 será maior ou igual aoR2 ajustado.
Com base no enunciado a seguir, julgue as questões de 10 a 14.
O método dos mínimos quadrados ordinários foi empregadopara estimar o modelo de regressão abaixo, cujo objetivo é explicaras variações de renda entre 526 indivíduos:
,526,441,0
,00058,0029,0080,0297,0417,0)log(
2
2
)00010,0()005,0()007,0()036,0()099,0(
==
+−++−=
n R
uexper exper educsexorenda
em que sexo é uma variável dicotômica (valor 1, se for homem e 0,caso contrário), educ é o número de anos de escolaridade, exper éexperiência profissional, também medida em anos. Os números entre
parênteses são os erros-padrão das estimativas)4.,,.,..1,0( =is
ib . Com
base nos resultados acima, é correto afirmar:
10. (ANPEC - 2003) A regressão não é estatisticamentesignificante, pois o coeficiente de determinação é menor do que 0,5.
11. (ANPEC - 2003) A diferença de renda entre homens e mulheresnão é estatisticamente significante.
12. (ANPEC - 2003) Um ano a mais de escolaridade, mantidosconstantes todos os demais fatores, aumenta em 0,08% a renda deum indivíduo do sexo feminino.
13. (ANPEC - 2003) A significância conjunta das variáveis educ eexper não pode ser medida por meio da estatística t . Para isto, oteste F deve ser utilizado.
14. (ANPEC - 2003) O modelo é incapaz de captar diferenças nosretornos da educação entre homens e mulheres.
As questões 1 e 2 baseiam-se no enunciado seguinte:
Um investigador está interessado em estudar a função consumode um determinado setor da economia. Com base em seuconhecimento de Teoria Econômica postula que o consumo (C) deinteresse deve variar com a renda real percapita do país (R) e comum relativo de preços (P) do setor. Neste contexto observa uma sériede 17 observações nessas variáveis ao longo do tempo, obtendo uma
seqüência de realizações Ct, Rt e Pt que satisfazem o modelo log-linear log (Ct )= α + β log (Rt)+ δ log(Pt)+vt. Nesta expressão o log é
tomado na base neperiana, α, β e δ são parâmetros desconhecidos eos vt são erros não correlacionados, normalmente distribuídos com
média zero e variância constante ơ2 > 0. Alguns resultados do ajustedesse modelo pelo método de mínimos quadrados são apresentados aseguir:
1. (Analista BACEN – 2001/ESAF) Assinale a opção que dá aestimativa da variação esperada em log (C) decorrente do decréscimode duas unidades no log (P) e do aumento de uma unidade no
log (R).A) 1,97
B) 2,8
C) 2,0
D) 1,0
E) 3,0
Resolução
log (Ct )= α + β log (Rt)+ δ log(Pt)+vt
Variação esperada em log (C) decorrente do decréscimo de duasunidades no log (P) = -2 δ
Variação esperada em log (C) decorrente do aumento de umaunidade no log (R) = β
Assim, a variação que procuramos é β-2 δ = 1,14 – 2(-0,83) = 2,80
GABARITO: B
2. (Analista BACEN – 2001/ESAF) Assinale a opção que dá o valorda estatística necessária para o teste da hipótese β = δ = 0.
De (1): ikik iii x x x y ε β β β β +++++= ...33221
Aplicando os valores esperados
kik iii x x x y β β β β ˆ...ˆˆˆˆ 33221 ++++=
No exercício foi utilizada notação ligeiramente diferente danossa, a saber, X1 e X2 no lugar de x2 e x3, mas a afirmação estácorreta.
Cuidado! Poderia ser feita a afirmativa “A equação de regressãoestimada é i X X Y ε +−−= 21 .03,1.26,13,223ˆ .”, que estaria errada, pois nãosabemos o valor do termo de erro, somente que sua média é zero.
GABARITO: CERTO
4. (ANPEC – 1999 - Adaptado) A um nível de significância de 5%podemos afirmar que a regressão existe. Porém, após elaborarmos ostestes de hipóteses para os coeficientes individuais, aceitamos ahipótese (a um nível de significância de 1%) de que o coeficientepara a variável X2 é zero. Dado: F(2,7) = 4,74, para o nível designificância de 5%.
Resolução
Entendemos que a regressão existe se o modelo forsignificativo. Logo, nossa hipótese H0: β2= β3=0 contra Ha: β2 ou β3 diferentes de zero.
A estatística de teste é dada pela equação (6) ou (7), sendoessa última a mais indicada por ter sido dado o R2.
Bastaria fazer )/()1(
)1/(2
2
k n R
k R
F −−
−
= , R2
=0,812, k = 3 e n = 10, eacharíamos F = 15,1. Entretanto, o enunciado nos facilitoufornecendo este valor.
Como 15,1 > 4,74 = F(2,7), rejeitamos H0 a um nível designificância de 5%. Ou seja, a regressão existe. Frisamos que F(a,b)é notação que usamos para a variável F com a graus de liberdade nonumerador e b graus de liberdade no denominador.
Assim, a primeira parte da afirmação está correta.
Agora lembremos da regra prática da Aula 5:Se p ≤ α , rejeitamos H0
Assim, o valor-p dado de 0,752 é maior que o nível designificância de 0,01. Portanto, não rejeitamos H0 e a segunda parteda afirmação também está correta.
Nota: Na tabela dada, não foi dito explicitamente que o valor daestatística t é para testar hipóteses de nulidade de coeficientes.Poderíamos ter H0: β = 1 ou H0: β = -1, por exemplo. Entretanto, oproblema nos dá uma indicação de que H0: β = 0 foi considerada parao cálculo da estatística t constante da tabela, pelo próprio enunciadoda questão 5. Ademais, poderíamos calcular t partindo de H0: β = 0.
Estatística teste para a variável X2 é dada por .ˆ
ˆi
s
ct i
k n
β
β −=−
H0: β = 0 para X2, ou c = 0.
Assim, .32,0213,3
003,1310 −=
−−=−t
GABARITO: CERTO
5. (ANPEC - 1999) O coeficiente de determinação indica que 81,2%
da variação amostral de Y podem ser atribuídos as variações de X1 eX2.
Resolução
R2 representa o percentual da variação de Y explicada portodas as variáveis explanatórias em conjunto.
GABARITO: CERTO
6. (ANPEC - 1999) O valor estimado para Y quando X1 = 15 e X2 =80 é 220.
Resolução
2201228003,11526,13,223.03,1.26,13,223ˆ21 ≠=×−×−=−−= X X Y
7. (ANPEC - 1999) Os valores teóricos das estatísticas “t” utilizadaspara testar os coeficientes das variáveis explicativas devem sercalculados para 7 graus de liberdade.
Resolução
Os graus de liberdade das estatísticas “t” em questão sãocalculados como o número de observações menos o número deparâmetros, n – k. Para 10 observações e 3 parâmetros, gl = 7.
GABARITO: CERTO
Com base nas informações abaixo, julgue as questões 8 e 9.
É correto afirmar a respeito do modelo de regressão linearclássico multivariado: ε γ += X Y , com n observações e k > 2 variáveisexplicativas, incluindo-se o intercepto:
8. (ANPEC - 2002) Para testar a hipótese conjunta de que
0...32 ==== k γ γ γ , pode-se utilizar o teste )])(1[(
)1(2
2
)(),1(;k n R
k RF k nk
−−
−=−−α ,
em que R2 é o coeficiente de determinação do modelo.
9. (ANPEC - 2002) Sempre que o modelo tiver pelo menos duasvariáveis explicativas além do intercepto, o R2 será maior ou igual aoR2 ajustado.
Resolução
É o que diz a Nota 2 do item 7 da Aula 7.
Como)(
)1(1
)1/(
)/(12
k n
n
SQT
SQE
nSQT
k nSQE R
−
−⋅−=
−
−−= e
SQT
SQE R −=1
2 , segue que, quando o modelo tiver pelo menos duas
variáveis explicativas além do intercepto (k > 2), .22 R R >
GABARITO: CERTO
Com base no enunciado a seguir, julgue as questões de 10 a 14.
O método dos mínimos quadrados ordinários foi empregadopara estimar o modelo de regressão abaixo, cujo objetivo é explicar
as variações de renda entre 526 indivíduos:
,526,441,0
,00058,0029,0080,0297,0417,0)log(
2
2
)00010,0()005,0()007,0()036,0()099,0(
==
+−++−=
n R
uexper exper educsexorenda
em que sexo é uma variável dicotômica (valor 1, se for homem e 0,caso contrário), educ é o número de anos de escolaridade, exper éexperiência profissional, também medida em anos. Os números entre
parênteses são os erros-padrão das estimativas)4.,,.,..1,0( =is
ib . Com
base nos resultados acima, é correto afirmar:
10. (ANPEC - 2003) A regressão não é estatisticamentesignificante, pois o coeficiente de determinação é menor do que 0,5.
Resolução
A questão faz uma afirmação que deveria ser confirmada por
um teste de significância do modelo, e não pelo R2
11. (ANPEC - 2003) A diferença de renda entre homens e mulheresnão é estatisticamente significante.
Resolução
O enunciado nos leva a testar a hipótese H0: 2 β =0 contra Ha:
2 β ≠0, onde 2 β é o coeficiente da variável “sexo”.
Para isso calculamos a estatística t abaixo:
25,8036,0
0297,0ˆ
5526
ˆ
2
2
−=−−
=⇒−
= −− t s
ct k n
β
β
O valor da estatística t, em módulo, é muito alto, fato que podeser verificado na tabela I. Com 521 graus de liberdade, podemosverificar na última linha (gl = infinito) que, para um nível designificância de 0,1%, tc = 3,291. Como -8,25 < - 3,291, para 0,1%de nível de significância, rejeitamos H0 e concluímos que a diferençade renda entre homens e mulheres é estatisticamente significante, ea afirmação está errada.
A questão não foi muito rigorosa no seu enunciado por não citaro nível de significância. Espera-se na prova do BACEN que isto nãoocorra.
Isto posto, cabe aqui, mais que nas outras questões, um poucode bom senso. Como o domínio da variável t é o conjunto dosnúmeros reais, existe um nível de significância α gerador de um tc talque -8,25 > - tc para o qual não rejeitamos H0. Este nível designificância α é muito inferior a 0,1%. Para todos os efeitos práticos,repetimos, a diferença de renda entre homens e mulheres é
estatisticamente significante.
GABARITO: ERRADO
12. (ANPEC - 2003) Um ano a mais de escolaridade, mantidosconstantes todos os demais fatores, aumenta em 0,08% a renda deum indivíduo do sexo feminino.
Da equação apresentada, só podemos concluir que log (renda)aumenta 0,08 quando acrescentamos um ano de escolaridade.
Note que esse aumento é para qualquer indivíduo, não só dosexo feminino. Entretanto o erro da questão não vem desse fato.
GABARITO: ERRADO
13. (ANPEC - 2003) A significância conjunta das variáveis educ eexper não pode ser medida por meio da estatística t . Para isto, oteste F deve ser utilizado.
Resolução
A afirmação está correta. O teste F é o indicado para análise designificância conjunta de variáveis.
GABARITO: CERTO
14. (ANPEC - 2003) O modelo é incapaz de captar diferenças nos
retornos da educação entre homens e mulheres.
Resolução
A afirmação está correta. Um modelo capaz de captardiferenças nos retornos da educação entre homens e mulherespoderia ter variáveis do tipo “educhomem” e “educmulher”.