Daniel Brandão de Castro Página 1 A previsão do Ibovespa através de um modelo de regressão linear múltipla Resumo: O índice Ibovespa tem forte correlação com os demais índices de bolsa de valores e indicadores de mercado de modo que surgiu a ideia de se criar um modelo estatístico obtido através de uma regressão linear de múltiplas variáveis com o objetivo de se prever o valor projetado do índice e assim conseguir operar no mercado de futuros na BM&F com o objetivo de se obter ganhos financeiros acima do índice Ibovespa baseados nos desvios observados entre o valor real e o seu projetado. Palavras chave: Ibovespa, previsão, modelo
22
Embed
A previsão do ibovespa através de um modelo de regressão linear múltipla - Daniel Brandão de Castro
O índice Ibovespa tem forte correlação com os demais índices de bolsa de valores e indicadores de mercado de modo que surgiu a ideia de se criar um modelo estatístico obtido através de uma regressão linear de múltiplas variáveis com o objetivo de se prever o valor projetado do índice e assim conseguir operar no mercado de futuros na BM&F com o objetivo de se obter ganhos financeiros acima do índice Ibovespa baseados nos desvios observados entre o valor real e o seu projetado.
Palavras chave: Ibovespa, previsão, modelo
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Daniel Brandão de Castro Página 1
A previsão do Ibovespa através de um modelo de regressão linear múltipla
Resumo:
O índice Ibovespa tem forte correlação com os demais índices de bolsa de valores e indicadores de mercado de
modo que surgiu a ideia de se criar um modelo estatístico obtido através de uma regressão linear de múltiplas variáveis
com o objetivo de se prever o valor projetado do índice e assim conseguir operar no mercado de futuros na BM&F com
o objetivo de se obter ganhos financeiros acima do índice Ibovespa baseados nos desvios observados entre o valor real e
o seu projetado.
Palavras chave: Ibovespa, previsão, modelo
Daniel Brandão de Castro Página 2
I. Formulação do modelo
Para formular um modelo estatístico que explique o comportamento de uma variável de interesse, adequado a
indivíduos heterogêneos, é necessário expressar formalmente dois componentes essenciais:
1 - A tendência desta variável Y mudar com as características dos indivíduos de uma forma sistemática.
2 - A dispersão em torno desta tendência.
Estas duas condições são incorporadas por um modelo de regressão múltipla por postular que:
1 - A média de Y varia sistematicamente, de alguma forma, com as especificações dos indivíduos.
2 - Existe uma distribuição de probabilidade de Y para cada vetor de características fixado.
a. Definição Matemática
O modelo de regressão linear múltipla consiste de uma função linear
Y = Xβ + ε, (1)
Onde
ββ
β =
0
M
p
,Y
Y
Yn
=
1
M , X =
1 X X
X X
11 1p
n1 np
L
M M O M
L1
, εε
ε=
1
M
n
;
Y i → Variável resposta ou variável dependente da i-ésima observação;
X i1, Xi2,..., Xip →Variáveis explicativas, covariáveis ou variáveis independentes da i-ésima observação;
εi → Erro estocástico da i-ésima observação.
São feitas, ainda, as 5 (cinco) suposições abaixo:
Daniel Brandão de Castro Página 3
1 - As variáveis explicativas são números reais que não contêm nenhuma perturbação aleatória;
2 - O número de observações, n, é superior ao número de covariáveis, p, e não deve existir uma correlação significativa
entre quaisquer variáveis explicativas;
3 - Os erros são variáveis aleatórias com valor esperado nulo e variância constante, isto é,
( ) ( )E iε ε σ= =0 2 e Var i , respectivamente;
4 - Os erros são não correlacionados, isto é,
( )E iε ε j i j;= ∀ ≠0,
5 - A distribuição dos erros é normal. Como os erros são não correlacionados, pode-se afirmar, sob a hipótese de
normalidade, que estes são independentes.
b. Importantes Fatos do Modelo
Para tornar mais claro o modelo anteriormente definido são relevantes as seguintes observações:
1 - O valor observado de Y no i-ésimo indivíduo é a soma de dois componentes: um termo constante Xiβ e um termo
aleatório εi. Logo, Yi é uma variável aleatória;
2 - O valor esperado de Yi , já que ( ) ,0E i =ε obtido de (1) é
( )E Y X Xi i p ip= + + +β β β0 1 1 L ;
3 - A variância de Yi , obtida por aplicar as propriedades básicas da variância, é igual a de ε i , ou seja,
Daniel Brandão de Castro Página 4
( )Var Yi = σ 2 .
Além disso, como o erro de Yi não afeta Y j , já que os erros são independentes, as observações são
independentes;
c. Estimação dos Parâmetros
Um estimador de um parâmetro ou um vetor de parâmetros desconhecidos é uma estatística, ou seja, uma
variável aleatória cujo valor pode ser calculado a partir de uma amostra. O vetor de parâmetros β pode ser estimado por
vários métodos, porém neste trabalho, serão estudados apenas o Método dos Mínimos Quadrados e o Método da Máxima
Verossimilhança, que são os mais utilizados. No primeiro, as hipóteses 3, 4 e 5 não são necessárias, porém não é possível
construir intervalos de confiança e testar hipóteses. O segundo é desenvolvido com a maximização da função de
verossimilhança, a qual é um conceito fundamental para toda teoria estatística, permitido, assim, a construção de
intervalos de confiança para os parâmetros e valores ajustados e a formulação de testes de hipótese para verificar se o
modelo descreve o fenômeno estudado adequadamente.
d. Estimador de Mínimos Quadrados de β
A ideia do método é encontrar uma estimativa para o vetor de parâmetros β de modo que o somatório dos
quadrados das distâncias entre cada ponto observado e seu valor estimado pelo modelo seja mínima. Este cálculo é feito
pela minimização da função:
Q = ε ii
n2
1=∑ = ε’ ε,
que é equivalente a
Q = (Y-Xβ)’(Y- X β)
Daniel Brandão de Castro Página 5
Desenvolvendo-se esta expressão, obtêm-se
Q = Y’Y-2β’X’Y+ β’X’X β
O vetor de derivadas parciais desta função em relação a β é dado por
∂∂βQ
=-2 X’Y+2X’X β
Logo, pelo método padrão de minimização de uma função, tem-se que
$ ( ' ) 'β = −X X X Y1
é o valor de β que minimiza Q .
O método dos mínimos quadrados fornece um estimador com importantes propriedades, mas que é pouco
robusto a observações extremas. Este método também é chamado de mínimos quadrados ordinários porque atribui pesos
iguais às observações. Essa suposição é equivalente à constância da variância de Y que é conhecida como
homocedasticidade.
Em vários problemas que surgem na análise de dados é mais conveniente supor que a variância do erro não é
constante e esta condição é denominada heterocedasticidade. Se, por exemplo, Y tem distribuição de Poisson, a sua
variância é igual à média e, neste caso, a heterocedasticidade é inerente à natureza da distribuição de Y .
Para obter um ajuste com diferentes pesos para as observações é preciso utilizar o critério de minimização
Q= ci ii
n
ε 2
1=∑ ,
onde ci é o peso da i-ésima observação. Expressando ε i em função das variáveis, resposta e explicativas, obtêm-se
Q= ( )c Y X Xi i i p ipi
n
− − − −=∑ β β β0 1 1
2
1
...
Daniel Brandão de Castro Página 6
O vetor de derivadas parciais, neste caso, é
∂∂β
βQX CY X CX= − +2 2' ' ,
onde C é uma matriz diagonal com os elementos C cii i= .
Logo,
$ ( ' ) 'β = −X CX X CY1
é o valor que minimiza Q .
Este método de estimação é denominado de mínimos quadrados ponderados. Se C for a matriz identidade este
estimador reduz-se ao estimador de mínimos quadrados ordinários apresentado anteriormente.
Os pesos são calculados por
ci
i
= σσ
2
2,
onde σ i2 é a variância de Yi . Procedendo-se desta maneira, atribui-se um peso menor às observações que possuem
uma variância maior.
É possível estimar β levando-se em conta a covariância entre as componentes de Y . Este procedimento é
chamado de mínimos quadrados generalizados. Para chegar a este resultado, seja
( )A Cov Y Yij i j= , ,
o que significa que A é a matriz de covariância de Y , a qual pode ser arbitrária, bastando definir a matriz de pesos
como
C A= −1 ,
Daniel Brandão de Castro Página 7
e o estimador de β , usando esta matriz de pesos, tem a mesma expressão do estimador de mínimos quadrados
ponderados.
e. Inferência em Análise de Regressão
O objetivo da inferência estatística é usar os valores observados das variáveis aleatórias para obter informação
sobre o seu comportamento probabilístico. Portanto, além de estimar pontualmente os parâmetros populacionais a partir
da amostra, é necessário quantificar a incerteza sobre eles. Em análise de regressão isto é feito com os intervalos de
confiança e testes de hipótese que serão estudados adiante.
f. Principais Testes de Hipótese da Regressão Múltipla
Os intervalos de confiança permitem estabelecer limites para o valor de um bem e para os coeficientes do
modelo. Agora serão apresentados os testes de hipóteses, os quais são a primeira etapa da verificação do modelo, que
prossegue com a análise de resíduos.
O teste de hipótese usado no modelo é o da significância da regressão, que consiste em verificar se existe uma
correlação linear entre a resposta e algumas das variáveis explicativas, o que corresponde testar as hipóteses:
H0: β β1 0= = =L p
HA: β j ≠ 0 para pelo menos um j.
Para avaliar a significância de um modelo de regressão é necessário utilizar o teste da razão de verossimilhança.
Uma demonstração deste resultado é dada por Graybill (1961), e aqui serão apresentados os principais fatos da
formulação deste teste. Para definir a estatística do teste são necessárias as seguintes somas de quadrados:
SQT=Y’Y -
Yi
n
i
n
=
∑
1
2
{soma de quadrados total};
Daniel Brandão de Castro Página 8
SQE=Y’Y - $β ’X’Y {soma de quadrados do erro};
SQR= $β ’ X’Y-
Yi
n
i
n
=
∑
1
2
{soma de quadrados da regressão}.
As duas últimas somas de quadrados são uma decomposição da soma total, ou seja,
SQT = SQR + SQE.
A estatística obtida pela razão de verossimilhança é
FMQR
EMQ0 = ,
As fórmulas de MQR, média dos quadrados da regressão e EMQ, erro médio quadrático, são fornecidas na
Tabela 1.
Sob a hipótese nula que especifica a adequação do modelo, F0 tem distribuição F de Snedecor com p graus
de liberdade no numerador e n-p-1 graus de liberdade no denominador.
A regra de decisão do teste é rejeitar H0 se
F p n p0 1 F> − −( , , )α ,
onde F p n p( , , )α − −1 é o percentil da distribuição F de Snedecor a um nível α de significância.
Dos resultados anteriores observa-se que sempre ( )E EMQ = σ 2 e que ( )E MQR = σ 2 apenas quando
β β1 0= = =L p . A ideia principal do teste é comparar MQR com EMQ, isto é, se o quociente entre estas duas
Daniel Brandão de Castro Página 9
quantidades for pequeno, isto significa que a variação de Y explicada pela regressão é próxima daquela explicada pelo
erro, ou seja, não é significativa.
Particionar a soma dos quadrados de Y corresponde a uma metodologia que é comumente chamada de análise
de variância.
Tabela 1 - Análise de Variância para Significância de uma Regressão Múltipla.
Fonte de Variação Soma de
Quadrados
Graus de
liberdade
Quadrado
Médio
F0
Regressão SQR p MQR
SQR
p=
MQR
EMQ
Resíduo SQE n p− − 1 EMQ
SQE
n p=
− −( ) 1
Total SQT n − 1 QMT
SQT
n=
− 1
Uma medida muito utilizada na análise de regressão é o percentual da variação dos dados explicado pelo
modelo, que é dado por
RMQR
QMT2 = .
Depois de repassar a parte teórica da estatística cabe agora desenvolver um modelo que consiga prever o índice
Ibovespa e que seja aplicável no mercado de capitais.
Para tal segue a figura 1 com as diferentes etapas para a seleção e criação de um modelo
Daniel Brandão de Castro Página 10
Figura 1 - Etapas para Seleção de Um Modelo
II. É possível prever o Ibovespa?
Esta talvez seja a pergunta que a maioria dos operadores de mercado gostaria de poder responder.
Dentro do exposto anteriormente através da estatística relativa à regressão linear múltipla, o objetivo aqui é
conseguir elaborar um modelo que possa prever o índice Ibovespa e para tal é preciso buscar variáveis e indicadores com
liquidez diária e testá-las a exaustão conforme a Figura 1 para a seleção de um modelo.
Após várias tentativas se chegou ao modelo abaixo (Modelo 1):