Econometria – Prof. Adriano M. R. Figueiredo 1 UNIVERSIDADE FEDERAL DE MATO GROSSO FACULDADE DE ECONOMIA Econometria Básica Prof. Adriano Marcos Rodrigues Figueiredo Versão de 21/03/2012 1 http://br.groups.yahoo.com/group/econometria_ufmt/ CUIABÁ – MT 2012 1 Os direitos de reprodução pertencem ao autor e requer citação apropriada.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Econometria – Prof. Adriano M. R. Figueiredo
1
UNIVERSIDADE FEDERAL DE MATO GROSSO FACULDADE DE ECONOMIA
Econometria Básica Prof. Adriano Marcos Rodrigues Figueiredo
1 Os direitos de reprodução pertencem ao autor e requer citação apropriada.
Econometria – Prof. Adriano M. R. Figueiredo
2
Not everything that can be counted
counts, and not everything that
counts can be counted.
Albert Einstein, (atribuído)
Cientista, Físico Alemão (1879 -
1955)
Econometria – Prof. Adriano M. R. Figueiredo
3
SUMÁRIO
1. Introdução.......................................................................................................................... 4 2. Pressuposições do Modelo de Regressão Linear Clássico .............................................. 12
2.1. Pressuposição 1: a relação entre Y e X é linear ........................................................ 12 2.2. Pressuposição 2: O erro aleatório tem média zero ................................................... 15
2.3. Pressuposição 3: O erro aleatório tem variância constante (presença de
homocedasticidade) ............................................................................................................. 18 2.4. Pressuposição 4: Os erros aleatórios são independentes (ou não
autocorrelacionados) ............................................................................................................ 18 2.5. Pressuposição 5: As variáveis explicativas são não aleatórias (são fixas) ............... 21 2.6. Pressuposição 6: O erro tem distribuição normal, com média zero e variância
4 Violações nas Pressuposições Clássicas do Modelo de Regressão Linear ..................... 36
4.1. Pressuposição 1: A relação entre Y e X é linear....................................................... 36
4.2. Pressuposição 2: O erro aleatório tem média zero ................................................... 43 4.3. Pressuposição 3: O erro aleatório tem variância constante (presença de
A questão é: quais as consequências de α, em razão da inclusão de Zt, sobre β?
As consequências da inclusão de uma variável irrelevante serão menos problemáticas
que no caso da omissão de uma variável relevante. Primeiro, a presença das variáveis
“irrelevantes” não viesa as outras estimativas. Segundo, aumentam-se a variância dos
parâmetros e o desvio-padrão. Tende, portanto, a fazer com que “α” seja não significativo,
mas aumenta o coeficiente R2.
2.2. Pressuposição 2: O erro aleatório tem média zero
Econometria – Prof. Adriano M. R. Figueiredo
16
Significa que o erro tem uma distribuição de probabilidade centralizada em zero (com
média zero). O erro é o efeito das variáveis que não consigo explicar no modelo. A média
pode ser considerada como o valor esperado do erro, ou seja,
Ou na forma matricial,
Dado que
Portanto, E(Y) = Xβ e o modelo fornece soluções adequadas estatisticamente. Essa
pressuposição é importante para ter confiança na estimação por β = (X´X)-1
X´Y. Caso os
erros não tenham média zero, o estimador β = (X´X)-1
X´Y será tendencioso.
Observe na figura que traz as taxas de retorno observadas e estimadas para a ação das
Lojas Americanas S.A., verifique que existem momentos em que os pontos vermelhos (com
marcador quadrado) estão acima que os verdes (com marcador de x) e em outros momentos
estão abaixo. O gráfico dos resíduos obtidos fazendo resíduo igual a diferença entre o
observado e o estimado, tem-se valores positivos e negativos. A pressuposição prevê que
estes, na média, sejam nulos. Ainda, no gráfico de dispersão de RLAME x RREN, pode-se
observar que existem resíduos ui positivos e negativos e que a reta de regressão estimada
como a reta de tendência passa aproximadamente no meio da nuvem de pontos.
Econometria – Prof. Adriano M. R. Figueiredo
17
-.3
-.2
-.1
.0
.1
.2
.3
-.4
-.2
.0
.2
.4
2005 2006 2007 2008 2009 2010 2011
Residual = observado menos estimadoActual - observado
Fitted - estimado
Resultados de RLAME = f(RREN, RBVSP) e resíduos
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
RLAME x RREN
RREN Linear (RREN)
ui>0
ui<0
Econometria – Prof. Adriano M. R. Figueiredo
18
2.3. Pressuposição 3: O erro aleatório tem variância constante (presença de homocedasticidade)
A variância é calculada com base no valor esperado do quadrado da diferença entre a
média e o valor esperado da média. Ou seja, a definição estatística é
V(ei) = E [ei – E (ei)]2
V(ei) = E (ei2) =
2 (populacional) para todo i
ou seja, presença de Homocedasticidade nos resíduos. A presença da homocedasticidade
implica que a variância para todos os resíduos é a mesma.
O caso contrário será:
V(ei) = E (ei2) = i
2 presença de Heterocedasticidade
O problema de heterocedasticidade é típico de dados de seção cruzada. Pode
significar, por exemplo, uma heterogeneidade da amostra. A dispersão dos valores para cada
observação é diferente entre as observações. A amostra vem de uma população onde os erros
não são homogêneos. Na figura 3.2 de Pindyck e Rubinfeld (2004), observa-se que a nuvem
de pontos não tem uma dispersão constante em torno da reta estimada, o que caracteriza a
variabilidade distinta ao longo da amostra de X. A variância dos resíduos reduz com X no
caso (a) e aumenta no caso (b), caracterizando a presença de heterocedasticidade.
2.4. Pressuposição 4: Os erros aleatórios são independentes (ou não autocorrelacionados)
Neste caso pressupõe-se que os erros de uma observação não afetam os erros do
período seguinte, e assim sucessivamente.
Econometria – Prof. Adriano M. R. Figueiredo
19
COV(ei ,ej) = E { [ei – E(ei)] [ej – E(ej)] }
E (ei, ej) = 0, i j
esta pressuposição é denominada “ausência de autocorrelação”. A violação desta
pressuposição é um problema típico de séries temporais.
Quando se trabalha com ajustamentos de séries temporais, essa pressuposição em geral
não é obedecida, visto que nas séries temporais como, por exemplo, as séries de preços, de
salários e de produção têm no seu comportamento o reflexo de movimentos cíclicos e/ou
sazonais. Observa-se na figura 3.3. de Pindyck e Rubinfeld (2004) que existem relações entre
os resíduos das observações à medida que X aumenta – correlação negativa (caso a) e positiva
(caso b).
Algumas causas da autocorrelação nos resíduos estão relacionadas a variáveis não
especificadas no modelo, forma funcional inadequada e inércia temporal no fenômeno.
A principal consequência da violação desta pressuposição é a ineficiência dos
estimadores de MQO, mas continuam não tendenciosos. Nesta situação, da mesma forma que
para a heterocedasticidade, é melhor utilizar o método de Mínimos Quadrados Generalizados
(MQG).
Uma forma usual é olhar os gráficos de dispersão entre os resíduos da regressão.
Padrões geométricos podem indicar o tipo de correlação, como na Figura de Gujarati (2006).
Econometria – Prof. Adriano M. R. Figueiredo
20
2.4.1 Investigação acerca da Matriz de Variância e Covariância dos resíduos
A análise da Matriz de Variância e Covariância dos resíduos, doravante chamada de
Var-cov(εε´), permite interpretar as pressuposições de presença de homocedasticidade dos
resíduos e presença da não autocorrelação dos resíduos numa mesma matriz.
Seja o vetor de resíduos ε do tipo:
1
2
x 1n n
Então, sua transposta será: 1 2 1 x n n' . Assim, a matriz var-cov(εε´) será:
Econometria – Prof. Adriano M. R. Figueiredo
21
1
2
2
1 2 1
2
2 1 2
2
1 2
2
2
2
2
0 0
0 0
0 0
n
n
n
n n
Var Cov E E
E I E
Assim, ao escrever que var-cov(εε´) = 2.I, ao mesmo tempo se diz que as variâncias são
homocedásticas iguais a 2 (diagonal principal tem todos os valores iguais a
2, i=j) e que as
autocorrelações entre resíduos de observações distintas são nulas (valores nulos fora da
diagonal principal, i≠j).
2.5. Pressuposição 5: As variáveis explicativas são não aleatórias (são fixas)
Neste caso, pressupõem-se fixos os valores da variável explicativa e observa-se o que
ocorre com a variável dependente. Se o X é aleatório, mas independente do erro, pode-se
mostrar que os parâmetros estimados serão não tendenciosos. Assim, a confirmação esta
pressuposição significa dizer que as variáveis explicativas são distribuídas independentemente
dos resíduos.
Em linguagem matemática, pode-se dizer que a covariância entre os resíduos ui e Xi é
igual a zero ( . Formalmente,
Entretanto, se as variáveis explicativas e os termos aleatórios forem correlacionados,
haverá inconsistência dos estimadores de mínimos quadrados ordinários. Deve-se utilizar o
estimador de variáveis instrumentais. O método de Variáveis instrumentais prevê que
β = (Z´X)-1
Z´Y , e Z é uma matriz de instrumentos independentes dos erros aleatórios.
Econometria – Prof. Adriano M. R. Figueiredo
22
2.6. Pressuposição 6: O erro tem distribuição normal, com média zero e variância constante:
Esta pressuposição pode ser especificada da forma:
εi ∼ N (0, 2) , i = 1, 2, ..., n
As consequências associadas a não normalidade dos resíduos são parâmetros
estimados não normais e não será possível fazer os testes de hipóteses com distribuições
baseadas na normal, como os usuais testes “t” e “F” para avaliar a qualidade dos
ajustamentos, e para construir intervalos de confiança para os parâmetros conforme exposto
ao longo do curso. Em termos gráficos, pode-se plotar o histograma da série de resíduos e
comparar com a distribuição normal teórica como na figura.
Os estimadores continuam sendo os Melhores Estimadores Lineares Não-
Tendenciosos (MELNT).
2.7. Pressuposição 7: Ausência de relação linear exata entre as variáveis explicativas (não multicolinearidade)
0
2
4
6
8
10
-.3 -.2 -.1 .0 .1 .2 .3
Histogram Normal
De
nsit
y
RESID01
Econometria – Prof. Adriano M. R. Figueiredo
23
A multicolinearidade é um problema relacionado com fortes relações entre as variáveis
explicativas no modelo de regressão. Considere a matriz de variáveis explicativas como
composta por colunas das variáveis X1, X2, ... , Xn e ainda uma coluna de “1” para incluir o
intercepto.
A pressuposição prevê a não existência de qualquer relação linear entre as variáveis
explicativas X, como por exemplo,
X1 = 2.X2
X1 + 3.X2 = X5
No método de mínimos quadrados ordinários, a existência de uma relação linear entre
os X´s representa uma redução no oposto da matriz (X) e o determinante de X´X será próximo
de zero. No caso de uma relação linear exata, haverá uma singularidade perfeita na matriz
X´X e seu determinante será zero. Como o método de mínimos quadrados ordinários prevê a
inversão da matriz X´X, o determinante próximo de zero fará com que os parâmetros sejam
indeterminados. A matriz (X´X)-1
não existirá e não será possível estimar o modelo. No caso
exato, o sistema interrompe e acusará erro. Em muitos casos aplicados, o que se observa são
valores de determinantes muito próximo de zeros, e muitas vezes o sistema não interrompe,
requerendo a observância das estatísticas de teste.
O problema da correlação entre as variáveis explicativas pode ser visto da seguinte
maneira:
1) ausência de correlação ou ausência de multicolinearidade: a regressão múltipla dá o mesmo
resultado que as regressões simples quando as correlações parciais entre as variáveis
explicativas forem nulas;
2) correlação perfeita ou multicolinearidade perfeita: a relação linear perfeita entre os X´s
causa a indeterminação de β = (X´X)-1
X´Y pois (X´X)-1
é singular;
3) alto grau de correlação entre os X´s ou multicolinearidade imperfeita: multicolinearidade
O enfoque é diferente das outras pressuposições: é um problema da amostra, enquanto
as outras pressuposições se referiam mais ao erro e à população, enquanto esta se refere mais
à amostra. Não se trata, portanto, de testar a pressuposição, mas sim de pensar como lidar com
o problema.
Consequências da multicolinearidade:
Teóricas: consequências sobre as propriedades dos estimadores de M.Q.O.; a
multicolinearidade não afeta em nada as propriedades dos estimadores de M.Q.O.,
que continuam os melhores estimadores lineares não tendenciosos (MELNT);
Econometria – Prof. Adriano M. R. Figueiredo
24
Práticas:
1. aumenta as variâncias dos parâmetros estimados:
aumenta V(β) = s2(X´X)
-1
(X´X)-1
= (1/|X´X|) . Adj(X´X)
como |X´X| → 0 => (X´X)-1
→ ∞ e V(β) → ∞
2. aumenta erro-padrão
3. reduz “t” => induz à não significância => estarei aceitando o fato de que a
variável não é importante no modelo em virtude da multicolinearidade, mas
que na realidade a variável poderá ser importante ao corrigir o modelo
4. Estimativas muito sensíveis: tirando uma ou duas observações, as estimativas
alteram muito => é melhor ter um modelo onde as alterações não alteram
muito as estimativas, uma certa estabilidade do modelo em termos de
magnitudes e sinais
2.8. Resumo das pressuposições
Apresentadas as pressuposições, o Quadro 1 tem um resumo com a expressão
matemática em forma escalar e matricial, assim como o problema que se tem caso as
pressuposições sejam violadas ou não atendidas. Em geral, pode-se dizer que se testará o
modelo e, em caso de violação, se “tratará” ou corrigirá adequadamente.
Econometria – Prof. Adriano M. R. Figueiredo
25
Quadro 1. Pressuposições do Modelo de Regressão Linear Clássico Normal
Pressuposição
Expressão Matemática* Problema (o que acontece se as pressuposições
não forem atendidas) Notação Escalar Notação Matricial
1. Relação Linear Yi=β0 + β1 Xi1 + ... + βk Xik + εi
em que i =1, 2, 3,..., n Y = Xβ + ε
Não linearidade, Erro de especificação dos X´s
2 . Média do erro é zero E(εi) = 0 para todo i E(ε) = 0, onde ε e 0 são vetores nX1 Erro de especificação
3. Variância do erro é constante E(εi²) = δ², para todo i E(εε´) = δ² I
Heterocedasticidade
4. Erros independentes E(εiεj) = 0, i ≠ j Autocorrelação
5. Variáveis explicativas são não estocásticas ou fixas
X1, X2, ..., Xk são fixos Cov(Xij, εi) = 0
p/ j= 1, 2, 3, ..., n
A matriz X é não estocástica Cov(X, ε) = 0
Erros nas variáveis, Variável dependente defasada, Relações
simultâneas
6. Independência linear entre as variáveis explicativas
Ausência de relação linear entre os X´s
Posto de X igual ao seu número de colunas, isto é,
ρ(X) = p < n Multicolinearidade
7. Erro tem distribuição normal εi ~ N (0, δ²)
i = 1, 2, 3, ..., n ε ~ N (0, δ²I) Erros não normais
* Em que Y = [Yi] é um vetor (n x 1) das observações da variável dependente; X = [Xij] é uma matriz (n x p) das observações das variáveis independentes; ε = [εi] é um vetor (nx1) dos erros aleatórios; β = [βj], j = 0, 1, 2, ..., k é um vetor pX1 de parâmetros a serem estimados; δ² é a variância do erro, também a ser estimada; I é uma matriz identidade de ordem (m x n); k é o número de variáveis independentes; p = (K + 1) é o número de parâmetros; n é o número de observações; E significa valor esperado ou esperança matemática.
Econometria – Prof. Adriano M. R. Figueiredo
26
3 Estimação
A estimação dos parâmetros do modelo linear pressupõe a satisfação aos pressupostos
básicos anteriormente mencionados. O princípio que norteia os cálculos é “obter valores de
parâmetros que minimizem a Soma do Quadrado dos Resíduos - SQRes”, ou comumente
chamado de Mínimos Quadrados Ordinários - MQO.
Ou seja, para o modelo Y = Xβ + ε a estimação requer a minimização conforme a seguir:
FORMA ALGÉBRICA: Min Σ εi2 =
Σ (Yi – β0 – β1X1i – β2X2i)2
FORMA MATRICIAL: Min ε’ε ou Min SQRes
O problema matemático é de otimizar, ou seja, minimizar um produto de um vetor
linha por um vetor coluna. Portanto, deriva-se e iguala a zero obtendo a solução para o vetor
de parâmetros. Segue abaixo:
1
2 2 0
ˆ ˆ' Y X Y X
ˆ ˆ ˆ ˆ' Y Y Y X X Y X X
( ' ) ˆX Y X Xˆ
ˆX X X Y
ˆ X X X Y
Portanto, o estimador dos parâmetros pelo método de Mínimos Quadrados Ordinários
(MQO) é:
1
(k+1 x 1)ˆ X X X Y
Assim, com as matrizes X e Y posso obter os parâmetros estimados.
O estimador da variância dos resíduos será s2, para os (n-p) Graus de Liberdade (GL =
número de observações, n, menos o número de parâmetros, p):
2 SQRes SQRese es
n p n p G.L.
A matriz de variância-covariância dos parâmetros será:
Sistema de equações normais dos
mínimos quadrados
Válida para não multicolinearidade de X
Econometria – Prof. Adriano M. R. Figueiredo
27
1
1 1 1
1
1
1 1
1 1
ˆ ˆ ˆVar Cov( ) E
mas
ˆ X X X Y
ˆ X X X X X X X X X X X
ˆ I . X X X
ˆ X X X
ˆVar Cov( ) E X X X X X X
ˆVar Cov( ) E X X X X X X
Mas como X são fixas, independentes dos resíduos, o valor esperado se reduz a:
1 1
1 12
ˆVar Cov( ) X X X E X X X
ˆVar Cov( ) X X X IX X X
Ou seja,
1 12
12
12
12
ˆVar Cov( ) X X X X X X
ˆVar Cov( ) I X X
ˆVar Cov( ) X X
ou
ˆVar Cov( ) s X X
Desta forma, têm-se as equações essenciais para a estimação. Segue quadro resumo
abaixo, com os estimadores de MQO.
Quadro 2. Estimadores de Mínimos Quadrados Ordinários.
1
2
12
SQRes SQRes
ˆ X X X Y
e es
n p n p G.L.
ˆVar Cov( ) s X X
Estimadores dos
parâmetros
Estimador da
variância-
covariância dos
resíduos
Estimador da
variância-
covariância dos
parâmetros
Econometria – Prof. Adriano M. R. Figueiredo
28
O valor dos erros padrões dos parâmetros será obtido a partir da raiz da variância dos
parâmetros, ou seja, tirando-se a raiz da diagonal principal da var-cov(β).
Os parâmetros devem ter análise de significância, por meio de um teste de hipótese do
tipo t:
0
1
0
0
j
j
j
j
calculado n p
G.L.ˆ
H :
H : ( bilateral )
ˆt ~ t
s
Os softwares econométricos em geral disponibilizam o valor da probabilidade (p-
value) associado ao valor de t calculado. Desta forma, pode-se comparar com níveis
predeterminados de significância para rejeitar ou não a hipótese nula. Em geral, costuma-se
observar os valores das probabilidades comparando a 10%, 5% ou 1% para concluir a respeito
da hipótese nula. Espera-se, para que a variável X tenha efeito não nulo sobre Y, que se rejeite
a hipótese nula e que assim, os valores calculados dos parâmetros permitam uma interpretação
econômica deste efeito.
Para auxiliar o entendimento, é possível decompor a variação de Y como abaixo:
Variação total = variação explicada por X + variação não explicada
: variação devida à regressão
SQTot=SQReg + SQRes
Y
X
+ (reta estimada)
Econometria – Prof. Adriano M. R. Figueiredo
29
Em que SQTot é a soma dos quadrados totais (relativa à variação total), SQRes é a
soma do quadrado dos resíduos (relativa à variação não explicada) e SQReg é a soma dos
quadrados da regressão (relativa à variação explicada por X).
22 2 2 2
2
22 2
SQTot 2
SQRes
SQReg
SQTot SQReg + SQRes
i i i i i i
i
i i
ˆ ˆ ˆ ˆy y y e e Y Y Y Y nY
ˆe e' e Y Y X Y
ˆ ˆ ˆy Y Y Y Y nY
O coeficiente de determinação (R2
– R-squared ou R quadrado) é utilizado para avaliar
quanto da variação total é explicada. Define-se como:
Seu intervalo de variação é de zero a um em condições normais: 0 < R2 < 1.
Se SQRes=SQT então R2=0.
Se SQRes ≈ 0 então R2=1.
Ou seja, mede quanto da Variação de Y está sendo explicada por Variações de X, ou
seja, mede a qualidade do ajustamento. Procura-se estimar um modelo com o maior R2
possível. Em geral, acredita-se ter um modelo bem ajustado para valores maiores que 0,8, mas
sempre se deve ter cautela quanto a esses indicadores usualmente aceitos.
Na forma matricial, o cálculo será;
22
2 21
ˆ ˆX Y nY Y Y X YR
Y Y nY Y Y nY
Outro indicador útil, principalmente para comparações entre modelos é o R2
ajustado
(adjusted R-squared). Ele recebe este nome, pois se faz um ajustamento de SQRes e de SQTot
quanto aos graus de liberdade da respectiva variação. Assim, tem-se:
2
SQRes
n-p1
SQTot
n-1
R
Em geral, quanto maior o número de variáveis X, maior é o valor de R2, mas para o R
2
ajustado esta regra não vale. Justamente para evitar a inclusão equivocada de variáveis
Econometria – Prof. Adriano M. R. Figueiredo
30
explicativas é que se usa o R2
ajustado. Assim, a inclusão de uma variável irrelevante poderá
elevar o valor de R2, mas não necessariamente elevará o valor de R
2 ajustado.
Se n for grande e p pequeno em relação a n, a diferença entre 2R (R quadrado
ajustado) e R² será pequena. Se n for pequeno e p grande em relação a n, a diferença entre
ambos pode ser grande e o valor ajustado será mais importante.
Outro indicador é o Teste F da regressão (F-statistic). Procura-se saber se o modelo
tem suporte estatístico. É o Teste de significância global da regressão: os X’s em conjunto
explicam Y de forma significativa. A hipótese nula é de que todos os parâmetros em conjunto
são nulos. A Hipótese alternativa prevê pelo menos um parâmetro não nulo.
0 1 2
1
0 0 0
0
k
i
H : , ,...,
H : pelo menos um
Define-se a estatística de teste F como:
1
SQReg
p-1
SQRes
n-p
p ,n p
G.L.
F ~ F
Se Fcalculado > Ftabelado , então rejeita-se H0 e concluo pela existência de ao menos um X
explicando Y. Deseja-se um P-value (F de significação) menor que 10%, 5% ou 1%,
similarmente ao teste de t dos parâmetros.
Esses indicadores em geral são obtidos em todos os softwares econométricos ou
MO 426444.0 90390.39 4.717802 0.0000 MO^2 -365960.5 130236.2 -2.809975 0.0059
R-squared 0.280643 Mean dependent var 1663.833 Adjusted R-squared 0.220136 S.D. dependent var 2943.689 S.E. of regression 2599.568 Akaike info criterion 18.64567 Sum squared resid 7.23E+08 Schwarz criterion 18.88176 Log likelihood -1080.772 F-statistic 4.638220 Durbin-Watson stat 1.549746 Prob(F-statistic) 0.000034
Econometria – Prof. Adriano M. R. Figueiredo
53
Observe que no exemplo dado, existem indícios de que há heterocedasticidade.
Sabendo anteriormente que ocorre erro de especificação e que os dados originais são de série
temporal, conclui-se pela existência de erro de especificação, mas deve-se analisar com maior
detalhe a questão da homocedasticidade, pois esta geralmente não ocorre em séries temporais,
mas sim em seção cruzada. Talvez o resultado do teste possa estar mais ligado à dependência
dos resultados em relação aos regressores.
Num outro exemplo, com os dados de Gujarati (2000:p.388), para gastos com P&D
em relação as vendas, obteve-se o teste de White com cross terms e os resultados a seguir.
Primeiro apresenta-se os resultados da estimação sem a correção para heterocedasticidade,
faz-se o teste de White e depois re-estima-se o modelo com a correção de White.
Tabela 4. Resultados da estimação inicial.
Dependent Variable: RD Method: Least Squares Date: 06/06/03 Time: 18:38 Sample: 1 18 Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
SALES 0.031900 0.008329 3.830033 0.0015 C 192.9931 990.9858 0.194749 0.8480
R-squared 0.478303 Mean dependent var 3056.856 Adjusted R-squared 0.445697 S.D. dependent var 3705.973 S.E. of regression 2759.153 Akaike info criterion 18.78767 Sum squared resid 1.22E+08 Schwarz criterion 18.88660 Log likelihood -167.0891 F-statistic 14.66916 Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476
Tabela 5. Teste de White para o exemplo de Gujarati, p.388.
White Heteroskedasticity Test:
F-statistic 3.057178 Probability 0.076975 Obs*R-squared 5.212492 Probability 0.073811
Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 06/06/03 Time: 18:32 Sample: 1 18 Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
C -6219665. 6459809. -0.962825 0.3509 SALES 229.3508 126.2197 1.817077 0.0892
SALES^2 -0.000537 0.000449 -1.194952 0.2507
R-squared 0.289583 Mean dependent var 6767046. Adjusted R-squared 0.194861 S.D. dependent var 14706011 S.E. of regression 13195639 Akaike info criterion 35.77968 Sum squared resid 2.61E+15 Schwarz criterion 35.92808 Log likelihood -319.0171 F-statistic 3.057178 Durbin-Watson stat 1.694567 Prob(F-statistic) 0.076975
Econometria – Prof. Adriano M. R. Figueiredo
54
Neste caso, com os dados em seção cruzada (indústrias dos EUA), não foi possível
deixar de rejeitar a hipótese nula de homocedasticidade ao nível de 10% de significância,
como observado pelo valor da probabilidade de Obs*R-squared = 0,073811, menor que 0,10.
Existe problema de heterocedasticidade nos resíduos.
Mostram-se agora os resultados com a correção de White, obtidos no Eviews fazendo
alteração na janela da estimação, clicando em Options e selecionando a caixa
heteroskedasticity, e clicando em White. Os resultados são:
Tabela 6. Resultados da estimação com a correção de White para heterocedasticidade.
Dependent Variable: RD Method: Least Squares Date: 06/06/03 Time: 18:42 Sample: 1 18 Included observations: 18 White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable Coefficient Std. Error t-Statistic Prob.
SALES 0.031900 0.010147 3.143815 0.0063 C 192.9931 533.9317 0.361457 0.7225
R-squared 0.478303 Mean dependent var 3056.856 Adjusted R-squared 0.445697 S.D. dependent var 3705.973 S.E. of regression 2759.153 Akaike info criterion 18.78767 Sum squared resid 1.22E+08 Schwarz criterion 18.88660 Log likelihood -167.0891 F-statistic 14.66916 Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476
Observe que agora na saída do Eviews, indica-se que foi utilizada a opção White
Heteroskedasticity-Consistent Standard Errors & Covariance, e pode-se comparar os
resultados com os da Tabela 4, sem essa opção de White. De modo geral, nesse exemplo, os
erros-padrões estavam subestimados. Pode-se observar que o modelo com heterocedasticidade
apresenta viés nos erros padrões, podendo ser negativo ou positivo, dependendo do estudo.
Quanto aos parâmetros, não ocorrem alterações.
Após a correção de White não cabe mais a nova realização do teste, pois os resultados
já foram obtidos com os resíduos alterados pelo critério de White.
Econometria – Prof. Adriano M. R. Figueiredo
55
Anexo Roteiro para estimação no Eviews – Heterocedasticidade Gujarati, Tabela 11.5 (Table11-5.wf1), p. 388 – Teste de Glejser 1. estimar modelo normalmente:
Estimation Command: ===================== LS (PD) (VENDAS) C Estimation Equation: ===================== PD = C(1)*VENDAS + C(2) Substituted Coefficients: ===================== PD = 0.03190033243*VENDAS + 192.9931098 Dependent Variable: PD Method: Least Squares Date: 03/04/05 Time: 16:00 Sample: 1 18 Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
VENDAS 0.031900 0.008329 3.830033 0.0015 C 192.9931 990.9858 0.194749 0.8480
R-squared 0.478303 Mean dependent var 3056.856 Adjusted R-squared 0.445697 S.D. dependent var 3705.973 S.E. of regression 2759.153 Akaike info criterion 18.78767 Sum squared resid 1.22E+08 Schwarz criterion 18.88660 Log likelihood -167.0891 F-statistic 14.66916 Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476
Econometria – Prof. Adriano M. R. Figueiredo
56
Gerar séries de resíduos em Procs/Make residual series:
Econometria – Prof. Adriano M. R. Figueiredo
57
Fazer série de resíduos absolutos: me=@abs(e)
Estimar “me” em função de Vendas: ou seja, módulo dos resíduos em função de vendas:
Econometria – Prof. Adriano M. R. Figueiredo
58
Dependent Variable: ME Method: Least Squares Date: 03/04/05 Time: 18:18 Sample: 1 18 Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
VENDAS 0.011939 0.005704 2.093059 0.0526 C 578.5710 678.6950 0.852476 0.4065
R-squared 0.214951 Mean dependent var 1650.432 Adjusted R-squared 0.165886 S.D. dependent var 2069.046 S.E. of regression 1889.657 Akaike info criterion 18.03062 Sum squared resid 57132868 Schwarz criterion 18.12955 Log likelihood -160.2756 F-statistic 4.380896 Durbin-Watson stat 1.743294 Prob(F-statistic) 0.052633
Econometria – Prof. Adriano M. R. Figueiredo
59
Me em função da raiz de vendas:
Dependent Variable: ME Method: Least Squares Date: 03/04/05 Time: 18:18 Sample: 1 18 Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
SQR(VENDAS) 7.971957 3.363146 2.370387 0.0307 C -507.0202 1007.684 -0.503154 0.6217
R-squared 0.259901 Mean dependent var 1650.432 Adjusted R-squared 0.213645 S.D. dependent var 2069.046 S.E. of regression 1834.761 Akaike info criterion 17.97166 Sum squared resid 53861578 Schwarz criterion 18.07059 Log likelihood -159.7449 F-statistic 5.618732 Durbin-Watson stat 1.785727 Prob(F-statistic) 0.030672
Econometria – Prof. Adriano M. R. Figueiredo
60
Me em função de 1/vendas:
Dependent Variable: ME Method: Least Squares Date: 03/04/05 Time: 18:20 Sample: 1 18 Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
1/(VENDAS) -19924566 12318138 -1.617498 0.1253 C 2273.702 604.6990 3.760056 0.0017
R-squared 0.140538 Mean dependent var 1650.432 Adjusted R-squared 0.086822 S.D. dependent var 2069.046 S.E. of regression 1977.188 Akaike info criterion 18.12118 Sum squared resid 62548360 Schwarz criterion 18.22011 Log likelihood -161.0906 F-statistic 2.616300 Durbin-Watson stat 1.505561 Prob(F-statistic) 0.125313
Correção: Fazer PD/(SQR(Vendas)) em função de 1/(SQR(Vendas)) e de (SQR(Vendas))
Econometria – Prof. Adriano M. R. Figueiredo
61
Dependent Variable: PD/SQR(VENDAS) Method: Least Squares Date: 03/04/05 Time: 18:23 Sample: 1 18 Included observations: 18
R-squared 0.364889 Mean dependent var 8.855264 Adjusted R-squared 0.325195 S.D. dependent var 8.834378 S.E. of regression 7.257134 Akaike info criterion 6.906286 Sum squared resid 842.6560 Schwarz criterion 7.005216 Log likelihood -60.15658 F-statistic 9.192455 Durbin-Watson stat 2.885313 Prob(F-statistic) 0.007933
Econometria – Prof. Adriano M. R. Figueiredo
62
Método de White: TESTE
White Heteroskedasticity Test:
F-statistic 3.057178 Probability 0.076975 Obs*R-squared 5.212492 Probability 0.073811
Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 03/04/05 Time: 18:32 Sample: 1 18 Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
C -6219665. 6459809. -0.962825 0.3509 VENDAS 229.3508 126.2197 1.817077 0.0892
VENDAS^2 -0.000537 0.000449 -1.194952 0.2507
R-squared 0.289583 Mean dependent var 6767046. Adjusted R-squared 0.194861 S.D. dependent var 14706011 S.E. of regression 13195639 Akaike info criterion 35.77968 Sum squared resid 2.61E+15 Schwarz criterion 35.92808 Log likelihood -319.0171 F-statistic 3.057178 Durbin-Watson stat 1.694567 Prob(F-statistic) 0.076975
Rejeita-se a hipótese nula , portanto temos presença de erros heterocedásticos a 10% de significância. Não teríamos se fosse considerado 5%!!!!
Econometria – Prof. Adriano M. R. Figueiredo
63
Correção de heterocedasticidade pelo método de White:
Dependent Variable: PD Method: Least Squares Date: 03/04/05 Time: 18:29 Sample: 1 18 Included observations: 18 White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable Coefficient Std. Error t-Statistic Prob.
C 192.9931 533.9317 0.361457 0.7225 VENDAS 0.031900 0.010147 3.143815 0.0063
R-squared 0.478303 Mean dependent var 3056.856 Adjusted R-squared 0.445697 S.D. dependent var 3705.973 S.E. of regression 2759.153 Akaike info criterion 18.78767 Sum squared resid 1.22E+08 Schwarz criterion 18.88660 Log likelihood -167.0891 F-statistic 14.66916 Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476
Observar que os erros-padrões entre a regressão principal e a regressão com correção de White se alteraram, ou seja, a correção de White retirou os vieses nos erros-padrões estimados.
Econometria – Prof. Adriano M. R. Figueiredo
64
4.4. Pressuposição 4: Os erros aleatórios são independentes (ou não autocorrelacionados)
A principal conseqüência da violação desta pressuposição é a ineficiência dos
estimadores de M.Q.O. mas, continuam não-tendenciosos. Nesta situação, da mesma forma
que para a heterocedasticidade, é melhor utilizar o método de Mínimos Quadrados
Generalizados (M.Q.G.).
Imagine um modelo mais comum, com autocorrelação de 1ª. Ordem:
ttt 1
em que ρ é o parâmetro de autocorrelação e υ é um termo de erro “bem comportado”, ou seja,
não autocorrelacionado normal de média zero e variância σ2
υ, ou também chamado de ruído
branco (white noise).
O coeficiente de autocorrelação ρ pode ser obtido pela expressão
2/1
1t
2/1
t
1tt
)](Var[)](Var[
),(Covˆ
O teste mais comum para detectar a presença de erros autocorrelacionados é o Teste de
Durbin-Watson. A hipótese nula a ser testada é que
R-squared 0.936090 Mean dependent var 3.721145 Adjusted R-squared 0.925864 S.D. dependent var 0.447149 S.E. of regression 0.121749 Akaike info criterion -1.222692 Sum squared resid 0.370573 Schwarz criterion -0.989160 Log likelihood 23.34039 F-statistic 91.54312 Durbin-Watson stat 0.954940 Prob(F-statistic) 0.000000
Neste caso, DW=0.9549 Para gl=30, k’=4, dl=1,143 e du=1,739, portanto, DW<dl => rejeita Ho, tenho indicação de autocorrelação positiva Teste LM para AR(1): Breusch-Godfrey Serial Correlation LM Test:
F-statistic 10.02749 Probability 0.004163 Obs*R-squared 8.840634 Probability 0.002946
Test Equation: Dependent Variable: RESID Method: Least Squares Date: 03/07/05 Time: 21:12
Anexo Erros Normais: Equation/View/Residual Tests/Histogram – Normality Test
Econometria – Prof. Adriano M. R. Figueiredo
78
4.6. Pressuposição 5: As variáveis explicativas são não aleatórias (são fixas)
Se as variáveis explicativas e os termos aleatórios forem correlacionados, haverá
inconsistência dos estimadores de mínimos quadrados ordinários. Deve-se utilizar o estimador
de variáveis instrumentais. O método de Variáveis instrumentais prevê que
β = (Z´X)-1
Z´Y , e Z é uma matriz de instrumentos independentes dos erros aleatórios.
Não se tem testes formais para investigar esta pressuposição. O que é feito em geral é
investigar as correlações entre as variáveis explicativas e os termos aleatórios via matriz de
correlações entre eles.
Outra alternativa é fazer o Teste de exogeneidade das variáveis utilizando o
procedimento de Hausmann.
4.7. Pressuposição 7: Ausência de relação linear exata entre as variáveis explicativas (não multicolinearidade)
A detecção do problema passa por diversas análises:
1. Ocorrência de R2 alto e “t”´s não-significativos;
2. Altas correlações simples entre as variáveis explicativas, por exemplo, acima de 0,8;
3. Altas correlações parciais entre os X´s: verificar o coeficiente de correlação parcial quando
algumas variáveis são consideradas constantes;
4. Regressões auxiliares: fazer a regressão considerando o Xi como variável dependente das
demais variáveis Xj
X1 = f(X2, X3, X4, ... , Xn)
X2 = g(X1, X3, X4, ... , Xn)
X3 = h(X1, X2, X4, ... , Xn)
Etc
Esta alternativa permite identificar quais variáveis estão mais relacionadas. Se o R2 da
regressão auxiliar for alto, então se tem a indicação de multicolinearidade;
5. Regra de Klein: a multicolinearidade não é prejudicial se
R2
Y∙ X1, X2, ... , Xk > R2
Xi ∙ X1, X2... , Xk
Econometria – Prof. Adriano M. R. Figueiredo
79
6. Verificar a estabilidade das estimativas
Y = f(X1)
Y = f(X1,X2)
Y = f(X1, X2, X3)
As soluções para a presença de multicolinearidade passam pela retirada de variáveis
problemáticas, ou omissão de variáveis, deixando aquela mais relevante para a pesquisa. As
regressões auxiliares auxiliarão na escolha entre as variáveis para decidir qual será retirada do
modelo. O problema com a omissão de variáveis é a inserção de erro de especificação. Outra
opção é aumentar o tamanho da amostra, caso possível. O aumento da amostra é o mesmo que
reduzir a micronumerosidade e com isto ganha-se observações que tendem a não estar
observando uma perfeita relação com outras variáveis. Uma terceira opção é transformar as
variáveis problemáticas, fazendo razões entre elas (Xi/Xj), como os preços relativos. A
limitação com este procedimento é que se perde a relação direta, ficando apenas com
parâmetros que refletem relações para a razão.
O cálculo das correlações parciais não é direto nem simples quando se tratar de
regressão múltipla. Uma alternativa é usar pacotes que já contêm a rotina, como por exemplo
o Stata, fazendo uso de comandos como a seguir, para o exemplo dado em Greene
(2002:p.30): . pcorr y year g interest p
Partial correlation of y with
Variable | Corr. Sig.
-------------+------------------
year | -0.9385 0.000
g | 0.9693 0.000
interest | -0.5410 0.069
p | 0.0153 0.962
Ou seja, retorna as correlações parciais de y com respeito a cada variável da lista (year,
g, interest, p).
Outro método é a análise do Fator de variância inflacionária (FVI), ou no inglês
Variance Inflation Factor (VIF), ou ainda, Fator de inflação da Variância (Gujarati, 2006:
Econometria – Prof. Adriano M. R. Figueiredo
80
p.282), para cada variável explicativa. Neste caso, faz-se a estimação de
e obtém-se o para cada variável. O FVI da variável i será:
Se o conjunto de variáveis explicativas for independente, não-correlacionado, o FVI
será igual a um ( ). O gretl estabelece uma comparação de FVI com 10, ou seja,
valores superiores a FVI= 10 indicariam multicolinearidade entre estas variáveis. Já Santana
(2003: p.244) recomenda o valor de FVI = 5. Já Greene (2002: p.58) cita autores os quais
recomendam atenção para valores de FVI maiores que 20. Acredito ser mais prudente ficar
com o valor de FIV = 5, a favor da segurança! Gujarati (2006: p.284) faz uma análise
interessante para averiguar a tolerância implícita no modelo.
A seguir tem-se uma saída do Gretl. Na janela da estimação do modelo, clicando em
Testes e em Colinearidade, tem-se a saída do teste de FVI (ou Factores de Inflaccionamento
da Variância – VIF – no Gretl).
Econometria – Prof. Adriano M. R. Figueiredo
81
No exemplo reproduzido acima, as variáveis índex e G apresentam multicolinearidade
preocupante, com valores da ordem de 24, bem acima dos 10,0 recomendados pelo Gretl.
Naquele caso, a variável G é o crescimento do PIB e índex é uma variável tendência, que
normalmente apresentam colinearidade.
Econometria – Prof. Adriano M. R. Figueiredo
82
4.8. Resumo
Pressuposição Teste Hipótese Nula: H0 Problema
1. Relação Linear / especificação RESET de Ramsey H0: Não há erro de especificação Se rejeitar H0
2 . Média do erro é zero Teste de hipótese simples (t) H0: média igual a zero Se rejeitar H0
3. Variância do erro é constante
Glejser H0: β1=0 => variável de β1 não
causa heterocedasticidade Se rejeitar H0
White H0:β=0 => não há
heterocedasticidade Se rejeitar H0
Breusch-Pagan LM Test H0: não há heterocedasticidade Se rejeitar H0
4. Erros independentes
Durbin-Watson (DW) H0: erros não autocorrelacionados Se rejeitar H0
h-Durbin H0: erros não autocorrelacionados Se rejeitar H0
LM de Breusch-Godfrey H0: erros não autocorrelacionados Se rejeitar H0
5. Variáveis explicativas são não-estocásticas ou fixas
Matriz de correlação Não há correlação
6. Independência linear entre as variáveis explicativas
Equações auxiliares e regra de Klein
H0: R2
Y∙ X1, X2, ... , Xk > R2 Xi ∙ X2, ... , Xk R
2Y∙ X1, X2, ... , Xk < R
2 Xi ∙ X2, ... , Xk
7. Erro tem distribuição normal Bera-Jarque H0: erros são normais Se rejeitar H0
* Em que Y = [Yi] é um vetor nX1 das observações da variável dependente; X = [Xij] é uma matriz nXp das observações das variáveis independentes; ε = [εi] é um vetor nX1 dos erros aleatórios; β = [βj], j = 0, 1, 2, ..., k é um vetor pX1 de parâmetros a serem estimados; δ² é a variância do erro, também a ser estimada; I é uma matriz identidade de ordem mXn; k é o número de variáveis independentes; p = K + 1 é o número de parâmetros; n é o número de observações; E significa valor esperado ou esperança matemática.
6.
Econometria – Prof. Adriano M. R. Figueiredo
83
5 Referências Bibliográficas
GREENE, W. Econometric analysis. 5th
Edition. New Jersey: Prentice-Hall, 2002.
GUJARATI, D.N. Econometria Básica. 4.ed. São Paulo: Campus, 2006.
HILL, C.; GRIFFITHS, W.; JUDGE, G. Econometria. São Paulo: Saraiva, 1999.
KENNEDY, P. A guide to econometrics. Cambridge: The MIT Press, 1998.
MATOS, O.C. Econometria Básica: teoria e aplicações. São Paulo: Atlas, 1995.
PINDYCK, Robert S.; RUBINFELD, Daniel L. Econometria: modelos e previsões. 4.ed.
Rio de Janeiro: Elsevier/Campus, 2004.
SANTANA, Antônio Cordeiro. Métodos Quantitativos em Economia: elementos e
aplicações. Belém: UFRA, 2003.
VASCONCELLOS, M.A.S.; ALVES, D. (coords.). Manual de econometria. São Paulo:
Atlas, 2000.
WOOLDRIDGE, J.M. Introdução a Econometria: uma abordagem moderna. São Paulo: