Una introducción muy general a los modelos ARIMAgis.jp.pr.gov/Externo_Econ/Talleres/Junta seminario de series de...Una introducción muy general a los modelos ARIMA WILFREDO TOLEDO,

Una introducción muy general a los modelos ARIMA

W I L F R E D O T O L E D O, P h . D .

Ta l l e r O f r e c i d o e l 2 0 d e d i c i e m b r e d e 2 0 1 3 e n L a J u n t a d e P l a n i f i c a c i ó n d e P u e r t o R i c o

Modelos de PredicciónUnivariables

Tasas de crecimiento

Modelos de tendencia

Modelos ARIMAs

Las predicciones de los modelos ARIMAs son óptimas dentro de los modelos univariables.

Métodos multivariados

UniecuacionalesModelos multi-

ecuacionales estructuralesTienen variables exógenas ¿Cómo predecirlas?

Modelos VARTodas las variables endógenas

Dos tipos de datos para los análisis estadísticos:

Corte seccional: Muestras aleatorias. Son

observaciones que provienen de algún experimento

aleatorio. En el caso de muestras aleatorias simples, toda

muestra de tamaño ”n” tiene la misma probabilidad de ser

seleccionada.

Todas la inferencia estadística clásica está basada en

muestras aleatorias donde las observaciones son i.i.d. (Xi)

Series cronológicas (de tiempo): Son observaciones

secuenciales ordenadas a través del tiempo (Xt o

X(t)).

No son i.i.d. Exhiben correlación temporal.

¿Cómo es posible utilizar Xt para hacer análisis

estadísticos?

Claramente no son observaciones i.i.d.

Corr(Xt,Xt-k≠0))

Fundamento TeóricoExiste un proceso estocástico que genera la serie (X(t)) .

La serie observada [X(t)] es una realización del proceso. Pudo haber sucedido otra serie con distintos valores.

Corte seccional

Universo (población) y muestra

Series de tiempo

Proceso y realización

Condiciones para utilizar análisis estadístico inferencial con datos de series de tiempo

1. Estacionariedad

a. Definición: Un proceso estocástico es estacionario en sentido estricto o fuerte cuando la distribución de probabilidad conjunta de la serie es invariante con respecto al tiempo.

),...,,(),...,,( 211 sktktktkttt xxxFxxxF

Condiciones para utilizar análisis estadístico inferencial con datos de series de tiempo

B. Un proceso estocástico es estacionario en el sentido débil si los primeros dos momentos (promedio y varianza) son constantes a través del tiempo.

E(x(t))=U

Var(X(t))=Sigma2

2. Ergodicidad

Las observaciones muy lejanas en el tiempo no están correlacionadas.

Es necesaria para poder contar con suficientes observaciones independientes para estimar los parámetros del modelo.

Transformaciones útiles1. Si la variable no tiene un promedio constante, Box y Jenkins recomiendan usar las primeras diferencias de la serie.

(Raíces unitarias, tendencias estocásticas, tendencias deterministas: temas para otro taller)

2. Si la variabilidad aumenta a través del tiempo usar logaritmos.

3. Si suceden ambas condiciones:

DLog(X(t))= Log X(t)-Log(X(t-1))

Algunos Procesos estocásticos

Si X es una variable estacionaria:

a. Proceso puramente aleatorio (ruido blanco)

Xt=ϵt E[ϵt]=0 y Var(ϵt)=sigma2

b. AR(1) en general AR(p)

Xt=ϕXt-1+ϵt

c. MA(1) en general MA(q)

Xt=ψϵt-1+ϵt

Los 2 últimos procesos pueden tener intercepto

Un proceso puede representarse de ambas formas:

AR(1) se puede representar como un MA(∞)

MA(1) se puede representar como un AR(∞)

Procesos más complejos se pueden representar como

una combinación de ambos tipos de procesos:

ARMA(1,1) en general ARMA(p,q)

X(t)=ϕXt-1+ ψϵt-1+ϵt

Algunos Procesos estocásticos

ARIMA(p,d,q) d= las veces que la serie tiene que

ser diferenciada para que sea estacionaria

ARIMA(1,1,1)

∆Xt=ϕ∆Xt-1+ ψϵt-1+ϵt

El Procedimiento Box-Jenkins, desarrollado por: BOX, G. E. P., AND G. M. JENKINS y que apareció en el libro: Time Series Analysis, Forecasting and Control, (Holden- Day, San Francisco, CA, 1970 (y la 2nda edición en 1976)), Parte de la premisa de que toda ( o casi toda) serie de tiempo puede ser ajustada por un modelo ARIMA.

Procedimiento Box-Jenkins

El procedimiento de modelación Box-Jenkins

consiste en:

1. Identificación: Se escoge un modelo ARIMA

o más como posibles candidatos

2.Estimación

3.Diagnóstico del modelo, si el mismo es

adecuado:

4.Realizar la Predicción

Identificación de los modelos(Box y Jenkins (B-J)sugieren un mínimo de 50 observaciones para los análisis)

1. Herramientas para la identificación de los modelos

A. Funciones de auto-correlación (ACF) y auto-correlación parcial (PACF)

ACF: Correlación de X(t) con sus valores pasados:

ρk=Cov(Xt,Xt-k)/Var(Xt)

B. Funciones de auto-correlación parcial: Correlación de X(t) con X(t-K), descontando el efecto

de la correlación entre X(t) con (X(t-(k+s)), k>0,s>0.

Xt+1=ϕ11Xt-1+ϵt correlación parcial de orden 1

Xt+2= ϕ21Xt-1+ ϕ22Xt-2+ϵt correlación parcial de orden 2

¿Cuántas correlaciones usar? B-J sugieren T/4.

ACF y PACF de un AR(1)

1

2

3

4

5

6

1

2

3

4

5

6

1

2

3

4

5

6

1

2

3

4

5

6

ACF Y PACF de MA(1)

1

2

3

4

5

6

1

2

3

4

5

6

1

2

3

4

5

6

1

2

3

4

5

6

Identificación de los modelos: Resumen

PROCESO ACF PACF

AR(p) Decrece

exponencialmente.

Hace un pico en el

rezago p y se va a

cero.

MA(q) Hace un pico en el

rezago q y se va a

cero.

Decrece

exponencialmente.

ARMA(1,1) Decrece

exponencialmente.

Decrece

exponencialmente.

ARMA(p,q) Decrece

exponencialmente.

Decrece

exponencialmente.

Estimación

Los modelos AR puros pueden ser estimados por MCO.

Los MAs se estiman por mínimos cuadrados no lineales (MCNL).

En general los ARIMA se estiman por MCNL

Diagnóstico:

1. Examinar estacionariedad: AR(1)

Valor absoluto de ϕ1<1

2. Examinar invertibilidad: MA(1)

Valor absoluto de ψ1<1

Otros procesos son más complicados, pero usualmente los programas estadísticos indican si el proceso es estacionario o no.

3. Significancia estadística de los parámetros estimados

Diagnóstico:

4. Residuos deben ser un proceso puramente aleatorio

5. Coeficiente de determinación alto: ajuste del modelo

6. Estabilidad de los parámetros estimados

7. Estimar modelo en sub-periodos y evaluar predicción

Docimasia para aleatoriedad de los residuos: Estadístico-Q

Series con componente estacional

Es necesario remover ese elemento antes del modelaje de la serie.

Diferenciación estacional

DXt= Xt -Xt-s ; s=4 con datos trimestrales, s=12 con datos mensuales.

Resumen: características de un buen modelo ARIMA

Es estacionario, si AR

Es invertible, si MA

Parámetros estimados de alta calidad (estadístico-t)

Tiene el número mínimo de parámetros: es parsimonioso

Residuos son un proceso de ruido blanco

Ajusta bien los datos (R2)

Tiene un error de predicción relativamente bajo.

PrediccionesAR(1)

Xt= C+ ϕXt-1+ϵt C=Constante

Xt+1= C+ ϕXt+ϵt+1

E[Xt+1/ It]= C+ ϕXt+ϵt+1= C+ ϕXt

It= conjunto de información disponible en el período t.

Regla recursiva.

PrediccionesMA(1)

X(t)=D + ψϵt-1+ϵt

Un período hacia adelante:

Xt+1= D + ψϵt+ϵt+1 D= Constante

E[Xt+1/It]=D+ ψϵt

Dos períodos hacia adelante:

Xt+2=D+ ψϵt+1+ϵt+2

E[Xt+2/It]=D

EjemplosEjemplo 1: Empleo de Servicios (LSERV)

0

40

80

120

160

200

240

280

1991 1992 1993 1994 1995

Empleo en el sector de Servicios

En

Mile

s

Año

Correlograma(ACF y PACF): Niveles de la serie(LSERV)

Date: 12/01/13 Time: 10:34

Sample: 1991M01 1995M12

Included observations: 60

Autocorrelation Partial Correlation AC PAC Q-Stat Prob

. |******| . |******| 1 0.851 0.851 45.618 0.000

. |***** | . | . | 2 0.730 0.022 79.759 0.000

. |**** | . | . | 3 0.616 -0.034 104.55 0.000

. |**** | . |*. | 4 0.569 0.174 126.06 0.000

. |**** | . | . | 5 0.537 0.063 145.58 0.000

. |**** | . | . | 6 0.516 0.040 163.89 0.000

. |*** | .*| . | 7 0.450 -0.117 178.12 0.000

. |*** | .*| . | 8 0.359 -0.126 187.35 0.000

. |** | . |*. | 9 0.304 0.080 194.12 0.000

. |** | . | . | 10 0.261 -0.024 199.19 0.000

. |** | . |*. | 11 0.285 0.184 205.37 0.000

. |** | . | . | 12 0.287 -0.018 211.73 0.000

. |** | . | . | 13 0.269 -0.044 217.46 0.000

. |** | . |*. | 14 0.250 0.096 222.52 0.000

. |** | . | . | 15 0.229 -0.030 226.84 0.000

. |** | . | . | 16 0.215 -0.002 230.76 0.000

. |** | . | . | 17 0.216 0.009 234.78 0.000

. |*. | . | . | 18 0.209 -0.057 238.64 0.000

. |*. | .*| . | 19 0.145 -0.159 240.54 0.000

. | . | .*| . | 20 0.052 -0.195 240.79 0.000

. | . | . | . | 21 -0.017 0.019 240.82 0.000

. | . | . | . | 22 -0.057 -0.004 241.14 0.000

. | . | . |*. | 23 -0.036 0.132 241.27 0.000

. | . | .*| . | 24 -0.048 -0.067 241.50 0.000

.*| . | .*| . | 25 -0.080 -0.068 242.19 0.000

.*| . | . | . | 26 -0.136 -0.009 244.22 0.000

.*| . | . | . | 27 -0.172 -0.010 247.56 0.000

.*| . | . | . | 28 -0.191 -0.038 251.81 0.000

Correlograma(ACF y PACF): Primeras Diferencias de la serie (D(LSERV,1,1))

Date: 12/01/13 Time: 10:40

Sample: 1991M03 1995M12



****| . | ****| . | 1 -0.554 -0.554 18.772 0.000

. |*. | **| . | 2 0.102 -0.297 19.420 0.000

. | . | **| . | 3 -0.049 -0.222 19.574 0.000

. | . | **| . | 4 -0.015 -0.217 19.589 0.001

.*| . | **| . | 5 -0.076 -0.343 19.967 0.001

. |*. | **| . | 6 0.107 -0.277 20.739 0.002

. |*. | . | . | 7 0.105 0.025 21.494 0.003

.*| . | . | . | 8 -0.156 -0.038 23.187 0.003

. |*. | . |*. | 9 0.123 0.084 24.260 0.004

**| . | **| . | 10 -0.244 -0.225 28.570 0.001

. |*. | .*| . | 11 0.190 -0.138 31.239 0.001

. | . | . |*. | 12 0.015 0.079 31.255 0.002

.*| . | .*| . | 13 -0.093 -0.103 31.926 0.002

. |*. | . |*. | 14 0.176 0.100 34.368 0.002

.*| . | . | . | 15 -0.168 0.003 36.665 0.001

. | . | . | . | 16 0.004 -0.043 36.666 0.002

. | . | . | . | 17 -0.024 -0.046 36.716 0.004

. |*. | .*| . | 18 0.093 -0.104 37.471 0.005

. | . | . | . | 19 -0.009 0.038 37.479 0.007

. | . | . | . | 20 0.027 0.032 37.544 0.010

. | . | . |*. | 21 0.016 0.146 37.569 0.014

**| . | .*| . | 22 -0.221 -0.105 42.281 0.006

. |*. | .*| . | 23 0.209 -0.066 46.605 0.003

.*| . | . |*. | 24 -0.083 0.083 47.302 0.003

Ejemplo 1: Estimación (LSERV)Dependent Variable: D(LSERV,1,1)

Method: Least Squares

Date: 12/01/13 Time: 10:42

Sample (adjusted): 1991M03 1995M12

Included observations: 58 after adjustments

Convergence achieved after 16 iterations

MA Backcast: 1991M02

Variable Coefficient Std. Error t-Statistic Prob.

C 0.016581 0.070250 0.236025 0.8143

MA(1) -0.968411 0.025897 -37.39415 0.0000

R-squared 0.565116 Mean dependent var -0.017241

Adjusted R-squared 0.557350 S.D. dependent var 11.60836

S.E. of regression 7.723269 Akaike info criterion 6.960227

Sum squared resid 3340.337 Schwarz criterion 7.031276

Log likelihood -199.8466 Hannan-Quinn criter. 6.987902

F-statistic 72.76994 Durbin-Watson stat 2.353432

Prob(F-statistic) 0.000000

Inverted MA Roots .97

Correlograma de los residuos(LSERV)

Date: 12/01/13 Time: 10:43

Sample: 1991M03 1995M12


Q-statistic

probabilities adjusted

for 1 ARMA term(s)


.*| . | .*| . | 1 -0.197 -0.197 2.3627

. | . | .*| . | 2 -0.053 -0.096 2.5384 0.111

.*| . | .*| . | 3 -0.132 -0.170 3.6354 0.162

.*| . | **| . | 4 -0.120 -0.207 4.5676 0.206

.*| . | **| . | 5 -0.086 -0.216 5.0564 0.282

. |*. | . | . | 6 0.141 -0.000 6.3932 0.270

. |*. | . |*. | 7 0.126 0.089 7.4736 0.279

.*| . | .*| . | 8 -0.154 -0.173 9.1312 0.243

. | . | .*| . | 9 -0.052 -0.152 9.3244 0.316

**| . | **| . | 10 -0.236 -0.343 13.373 0.146

. |*. | . | . | 11 0.159 -0.042 15.239 0.124

. |*. | . | . | 12 0.114 0.018 16.218 0.133

. | . | .*| . | 13 0.020 -0.146 16.250 0.180

. |*. | . |*. | 14 0.165 0.091 18.399 0.143

.*| . | .*| . | 15 -0.177 -0.125 20.948 0.103

. | . | . | . | 16 -0.063 -0.045 21.275 0.128

. | . | . | . | 17 -0.007 -0.011 21.279 0.168

. |*. | . | . | 18 0.134 -0.003 22.845 0.154

. | . | . | . | 19 0.029 0.068 22.921 0.194

. | . | . | . | 20 0.033 0.001 23.022 0.236

.*| . | . | . | 21 -0.080 0.022 23.631 0.259

**| . | .*| . | 22 -0.229 -0.141 28.709 0.121

. |*. | . |*. | 23 0.155 0.092 31.090 0.094

. | . | . |*. | 24 0.001 0.094 31.090 0.121

Predicción: LSERV

220

240

260

280

300

320

340

95M12 96M01 96M02 96M03 96M04 96M05 96M06

LSERVF ± 2 S.E.

Predicción: LSERV

Predicción de la Variable

Fecha observación Predicción % de error

1996M01 271 275.453 0.0164

1996M02 281 276.704 -0.0153

1996M03 273 277.972 0.0182

1996M04 264 279.257 0.0578

1996M05 276 280.558 0.0165

1996M06 275 281.8756 0.025

Ejemplo 2: Tasa de los Fondos Federales EEUU: (Fed-Fund)

Date: 12/19/13 Time: 11:13

Sample: 1985Q2 2010Q4



.|***** | .|***** | 1 0.646 0.646 44.241 0.000

.|*** | .|. | 2 0.408 -0.015 62.088 0.000

.|** | .|. | 3 0.284 0.045 70.824 0.000

.|* | *|. | 4 0.112 -0.146 72.206 0.000

.|. | .|. | 5 0.006 -0.031 72.209 0.000

.|. | .|. | 6 -0.046 -0.023 72.444 0.000

*|. | .|. | 7 -0.109 -0.065 73.772 0.000

**|. | *|. | 8 -0.218 -0.172 79.165 0.000

**|. | .|. | 9 -0.250 -0.036 86.330 0.000

**|. | *|. | 10 -0.279 -0.095 95.353 0.000

**|. | .|. | 11 -0.298 -0.061 105.79 0.000

**|. | .|. | 12 -0.258 -0.021 113.68 0.000

**|. | **|. | 13 -0.313 -0.217 125.48 0.000

**|. | *|. | 14 -0.337 -0.105 139.27 0.000

**|. | *|. | 15 -0.330 -0.131 152.69 0.000

**|. | .|. | 16 -0.266 -0.009 161.47 0.000

Correlograma de la Serie: Primera diferencia

Dependent Variable: D(FEDFUNDS)

Method: Least Squares

Date: 12/19/13 Time: 11:10

Sample (adjusted): 1985Q3 2010Q4

Included observations: 102 after adjustments

Convergence achieved after 3 iterations

Variable Coefficient Std. Error t-Statistic Prob.

C -0.065944 0.104593 -0.630484 0.5298

AR(1) 0.646138 0.075730 8.532156 0.0000

R-squared 0.421289 Mean dependent var -0.075850

Adjusted R-squared 0.415501 S.D. dependent var 0.488687

S.E. of regression 0.373614 Akaike info criterion 0.888224

Sum squared resid 13.95872 Schwarz criterion 0.939694

Log likelihood -43.29944 Hannan-Quinn criter. 0.909066

F-statistic 72.79768 Durbin-Watson stat 1.946191

Prob(F-statistic) 0.000000

Inverted AR Roots .65

Estimación: (Fed-Fund)

Correlograma de los residuos (Fed-Fund)

Date: 12/19/13 Time: 11:12

Sample: 1985Q3 2010Q4


Q-statistic probabilities

adjusted for 1 ARMA

term(s)


.|. | .|. | 1 0.022 0.022 0.0522

.|. | .|. | 2 -0.031 -0.031 0.1513 0.697

.|* | .|* | 3 0.103 0.105 1.2913 0.524

*|. | *|. | 4 -0.072 -0.080 1.8602 0.602

.|. | .|. | 5 -0.064 -0.054 2.3133 0.678

.|. | .|. | 6 0.021 0.009 2.3613 0.797

.|. | .|. | 7 0.027 0.039 2.4454 0.875

*|. | *|. | 8 -0.115 -0.112 3.9459 0.786

.|. | *|. | 9 -0.065 -0.070 4.4229 0.817

*|. | *|. | 10 -0.070 -0.084 4.9931 0.835

*|. | *|. | 11 -0.142 -0.118 7.3525 0.692

.|. | .|* | 12 0.071 0.074 7.9488 0.718

*|. | *|. | 13 -0.088 -0.116 8.8744 0.714

*|. | *|. | 14 -0.109 -0.100 10.301 0.669

*|. | *|. | 15 -0.115 -0.167 11.903 0.614

*|. | *|. | 16 -0.097 -0.106 13.053 0.598

*|. | *|. | 17 -0.070 -0.096 13.670 0.623

.|. | .|. | 18 0.003 -0.042 13.671 0.690

.|. | *|. | 19 -0.002 -0.099 13.671 0.750

.|. | .|. | 20 0.046 -0.001 13.941 0.787

Serie, Valores Ajustados y Residuos (FED-FUND)

-1.5

-1.0

-0.5

0.0

0.5

1.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

86 88 90 92 94 96 98 00 02 04 06 08 10

Residual Actual Fitted

Una introducción muy general a los modelos ARIMAgis.jp.pr.gov/Externo_Econ/Talleres/Junta seminario de series de...Una introducción muy general a los modelos ARIMA WILFREDO TOLEDO,

Documents