68 CAPITULO 2. ANALISIS UNIVARIANTE DE SERIES TEMPORALES: MODELOS ARIMA. 2.1. INTRODUCCIÓN Una serie temporal es una sucesión de observaciones de una variable en distintos momentos del tiempo. Aunque el tiempo es, en realidad, una variable continua, en la práctica utilizaremos mediciones en periodos aproximadamente equidistantes. Por ejemplo, la sucesión de valores del PNB pm para un país desde 1900 hasta 1990. Básicamente, lo que se pretende con el estudio univariante de las series temporales es el conocimiento de una variable a lo largo del tiempo para, a partir de este conocimiento y bajo el supuesto de que no van a producirse cambios estructurales, poder realizar predicciones. Hay casos en los que la variable observada tiene un patrón de comportamiento fijo. En términos estadísticos estamos ante una serie determinista. Por el contrario hay series que resultan impredecibles. Su pauta de comportamiento no responde a un patrón fijo, por lo que son puramente aleatorias. Un ejemplo típico es la sucesión de números premiados en un sorteo de loterías. En general, las series económicas contienen una componente determinista y una componente aleatoria. Hasta el primer cuarto del siglo XX, los métodos de análisis de series temporales se basaban en los modelos de descomposición. Según éstos, las series reales resultan de la agregación de cuatro componentes básicas: tendencia, componente estacional, componente cíclica y componente irregular. Cada una de estas componentes se estudia por separado mediante el uso de métodos matemáticos. La tendencia se corresponde con la evolución de la serie a largo plazo, evolución que puede ser creciente, decreciente o estable. Suele estar reflejada por una línea alrededor de la cual oscilan los valores de la serie. En la figura 2.1.1. se aprecia la representación gráfica de una serie simulada con tendencia creciente. Los movimientos cíclicos son variaciones o movimientos oscilatorios de amplitud superior al año, en general no periódicos y se suelen apreciar cuando la serie tiene gran longitud. La duración del ciclo no se mantiene constante. En economía, una explicación sobre la aparición
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
68
CAPITULO 2. ANALISIS UNIVARIANTE DE SERIES TEMPORALES: MODELOS
ARIMA.
2.1. INTRODUCCIÓN
Una serie temporal es una sucesión de observaciones de una variable en distintos
momentos del tiempo. Aunque el tiempo es, en realidad, una variable continua, en la práctica
utilizaremos mediciones en periodos aproximadamente equidistantes. Por ejemplo, la sucesión
de valores del PNBpm para un país desde 1900 hasta 1990.
Básicamente, lo que se pretende con el estudio univariante de las series temporales es el
conocimiento de una variable a lo largo del tiempo para, a partir de este conocimiento y bajo el
supuesto de que no van a producirse cambios estructurales, poder realizar predicciones.
Hay casos en los que la variable observada tiene un patrón de comportamiento fijo. En
términos estadísticos estamos ante una serie determinista. Por el contrario hay series que
resultan impredecibles. Su pauta de comportamiento no responde a un patrón fijo, por lo que
son puramente aleatorias. Un ejemplo típico es la sucesión de números premiados en un sorteo
de loterías. En general, las series económicas contienen una componente determinista y una
componente aleatoria.
Hasta el primer cuarto del siglo XX, los métodos de análisis de series temporales se
basaban en los modelos de descomposición. Según éstos, las series reales resultan de la
agregación de cuatro componentes básicas: tendencia, componente estacional, componente
cíclica y componente irregular. Cada una de estas componentes se estudia por separado
mediante el uso de métodos matemáticos.
La tendencia se corresponde con la evolución de la serie a largo plazo, evolución que
puede ser creciente, decreciente o estable. Suele estar reflejada por una línea alrededor de la
cual oscilan los valores de la serie. En la figura 2.1.1. se aprecia la representación gráfica de una
serie simulada con tendencia creciente.
Los movimientos cíclicos son variaciones o movimientos oscilatorios de amplitud
superior al año, en general no periódicos y se suelen apreciar cuando la serie tiene gran longitud.
La duración del ciclo no se mantiene constante. En economía, una explicación sobre la aparición
69
de los ciclos, es la existencia de los períodos de prosperidad y recesión de los países (la serie
observada puede ser la renta per cápita).
Tiempo
Ser
ie
Figura 2.1.1.
La figura 2.1.2. presenta un ejemplo de serie con componente cíclica y con tendencia
constante o estacionaria. Las ondas periódicas plurianuales son los ciclos de la serie.
Tiempo
Ser
ie
Figura 2.1.2.
La estacionalidad se refiere a las oscilaciones que acontecen dentro del año y que se
repiten en años sucesivos. Es consecuencia de factores climáticos, organizativos y
administrativos, fundamentalmente. Considérese como ejemplo, el aumento de la venta de
juguetes durante la fiesta de Reyes cada año.
70
Así como los ciclos se caracterizan por su irregularidad, en la componente estacional se
pueden encontrar movimientos parecidos de un año a otro. El gráfico de la figura 2.1.3.
representa una serie estacionaria con movimientos estacionales.
Tiempo
Ser
ie
Tiempo
Ser
ie
Figura 2.1.3.
La componente irregular contiene variaciones esporádicas que no responden a ningún
patrón fijo, y que son originadas por acontecimientos singulares. Recoge los efectos sobre la
serie de hechos no previsibles, como pueden ser las catástrofes o huelgas, o factores
inapreciables no explicables a causa de la conducta impredecible de los sujetos.
Estos elementos se pueden combinar de forma aditiva, multiplicativa o mixta, para
formar el valor total de la serie temporal.
En el esquema aditivo, el valor total de la serie es la suma de sus elementos:
Yt = Tt + Ct + Et + It
En el esquema multiplicativo:
Yt = Tt Ct Et It
Un modelo mixto, puede ser:
Yt = Tt Ct Et + It
T es la tendencia, C los movimientos cíclicos, E la estacionalidad e I la componente
irregular.
71
El análisis clásico tiene como fin describir la pauta de comportamiento que siguen cada
una de estas componentes, con el fin de reproducir su conducta y realizar predicciones. Se parte
de un esquema previo y se trata de aislar cada uno de los componentes.
Posteriormente surgió la concepción moderna o estocástica, basada en la teoría de los
procesos aleatorios. Se trata de los modelos estocásticos de series temporales, los cuales se
representan mediante relaciones analíticas que conectan los valores de la variable con
combinaciones lineales o no, de parámetros y variables. Entre estas variables, al menos, una
tiene carácter probabilístico, hecho que confiere a la serie un rasgo aleatorio. En este sentido, los
modelos predictivos univariantes de series temporales propuestos por Box y Jenkins (1970),
serán el punto de atención de este capítulo. Son los denominados modelos ARIMA.
La parte aleatoria de una serie no debe confundirse con el movimiento irregular, debido
a que éste no está sujeto a periodicidad alguna pero puede ser previsible (por ejemplo, el efecto
de una huelga en la producción). El componente aleatorio se caracteriza por no ser previsible.
2.2. MODELOS LINEALES DE SERIES TEMPORALES: MODELOS ARIMA
2.2.1. PROCESOS ESTOCÁSTICOS
Un proceso estocástico es una familia de variables aleatorias que corresponden a
momentos sucesivos del tiempo. En cada período o momento temporal se dispone de una
variable que tendrá su correspondiente distribución de probabilidad.
Sea el proceso Yt. Para t = 1, por ejemplo, Y1 es una variable aleatoria que tomará
diferentes valores con diferentes probabilidades. Lo mismo ocurre para todo t =1, 2, ....
En la metodología ARIMA, una serie temporal es una muestra de un proceso
estocástico. Está formada por una sola observación de cada una de las variables que componen
el proceso, es decir, es una realización del mismo1. Dicho de otra forma, la serie ha sido
generada por un proceso estocástico, y, por tanto, tiene carácter aleatorio2.
1 La notación Yt puede representar tanto una variable aleatoria como una observación muestral, depende del contexto. 2 No se pueden obtener los valores de la serie de forma exacta a través de una función matemática del tiempo, por ejemplo Yt = 2t.
72
Por ejemplo, el PIBpm desde 1970 hasta 1990 de un país es, en cada año, una variable
aleatoria que puede tomar infinitos valores con distintas probabilidades. La sucesión de
observaciones efectuadas cada año en ese país formaría la serie temporal.
Un proceso estocástico Yt, se suele describir mediante las siguientes características:
esperanza matemática, varianza, autocovarianzas y coeficientes de autocorrelación.
La esperanza matemática de Yt se traduce en la sucesión de las esperanzas matemáticas
de las variables que componen el proceso, a lo largo del tiempo.
E(Yt) = µt, t = 1,2,3,...
La varianza de un proceso aleatorio es una sucesión de varianzas, una para cada variable
del proceso.
Var (Yt) = E(Yt - µt)2, t =1,2,3,...
Las autocovarianzas son las covarianzas entre cada par de variables del proceso.
Se trata de buscar un proceso ARMA que de forma verosímil haya podido generar la
serie temporal, es decir, que se adapte mejor a las características de la misma. Pero esos
procesos son estacionarios, por lo que habrá que efectuar un análisis de la estacionariedad de
los datos. Con tal fin se utilizan los siguientes instrumentos:
- Representación gráfica. Si el gráfico de la serie temporal presenta fluctuaciones cuya amplitud
cambia para distintos intervalos del período muestral, se pensará que el proceso que genera la
serie es no estacionario. Lo mismo sucede cuando la tendencia es creciente o decreciente con el
tiempo.
91
- El correlograma. El hecho de que la función de autocorrelación simple decrece muy
lentamente al aumentar el retardo, ha demostrado ser una señal de tendencia no estacionaria.
Puesto que en la práctica se dispone de una realización de un proceso estocástico, podemos
obtener los coeficientes de autocorrelación muestral y, a partir de ellos, el correlograma
muestral. Una vez representado el correlograma muestral, se conoce si la serie es o no
estacionaria.
- Mediante los contrastes de raíces unitarias. Son válidos para determinar si existe tendencia
determinística o estocástica5.
- A través del gráfico desviación típica-media. Si conforme crece la media, la desviación típica
aumenta, la varianza del proceso es creciente.
Si la serie temporal no es estacionaria se aplican las transformaciones adecuadas con
objeto de convertirla en estacionaria. Cuando la serie presente no estacionariedad en media, se
suele aplicar el proceso de diferenciación. Pero, a veces, la toma de diferencias no es suficiente
para obtener series estacionarias en media y en varianza. Una solución consiste en fijar
logaritmos de la serie, teniendo en cuenta que posteriormente hay que deshacer el cambio de
variable. En series económicas que están afectadas por una fuerte tendencia, suele ser necesario
efectuar alguna transformación del tipo Box-Cox, para obtener una serie estacionaria en
varianza. Esta transformación se define por:
Yt(λ) =
=λ≠λλ−λ
0LnY
0/)1Y(
t
t
Una vez estacionaria, se determinará el orden de la parte autorregresiva (p) y el de la
parte de medias móviles (q) del proceso ARMA, que se considere haya podido generar la serie
estacionaria. Para tal fin se utilizan el correlograma estimado y la función de autocorrelación
parcial estimada. Esta última puede obtenerse de dos formas alternativas, prácticamente
equivalentes: mediante el sistema de Yule-Walker, y mediante el método de regresión.
Se puede utilizar el sistema de Yule-Walker para estimar los coeficientes de
autocorrelación parcial a partir de los simples estimados:
5 Estos términos se desarrollarán con amplitud en el tercer capítulo.
92
111 ˆˆ ρ=φ = 0
1
ˆ
ˆ
γγ
,
ρρ
⋅
ρ
ρ=
φφ
−
2
11
1
1
22
21
ˆ
ˆ
1ˆ
ˆ1ˆ
ˆ ,
ρρρ
⋅
ρρρρρρ
=
φφφ −
3
2
11
12
11
21
33
32
31
ˆ
ˆ
ˆ
1ˆˆ
ˆ1ˆ
ˆˆ1
ˆ
ˆ
ˆ
.....
Se escogen los coeficientes ,...ˆ,ˆ,ˆ332211 φφφ para configurar la FAP estimada.
La otra opción para el cálculo de la FAP, consiste en obtener los coeficientes mediante
las siguientes regresiones sucesivas:
tktkk2t2k1t1kt
t2t221t21t
t1t11t
Yˆ...YˆYˆY
...
YˆYˆY
YˆY
ε+φ++φ+φ=
ε+φ+φ=
ε+φ=
−−−
−−
−
Así, kkφ es la correlación estimada existente entre Yt e Yt-k, después de eliminar de
ambas el efecto de Yt-1, Yt-2, ..., Yt-k+1.
En los modelos AR(p), la FAP presenta los p primeros coeficientes distintos de cero y el
resto nulos. La FAS presenta un decrecimiento rápido de tipo exponencial, sinusoidal o ambos.
En los modelos MA(q), sucede el patrón opuesto: la FAS se anula para retardos superiores a q y
la FAP decrece exponencial o sinusoidalmente. Sin embargo, la especificación de los modelos
ARMA no se ajusta a unas normas tan bien definidas. Por ejemplo, en un modelo AR(1), la
FAP es cero para k>1, pero esto no ocurre en un ARMA(1,1), pues a la componente AR(1) hay
que superponer la MA(1) cuya FAP converge exponencialmente a cero. En la práctica, se puede
especificar una de las componentes y analizar sus residuos. Si el modelo considerado es un
ARMA (2,1) se especifica inicialmente la componente AR(2). Se analizarán estos residuos a
través del correlograma y si siguen un MA (1), el proceso completo será un ARMA (2,1)6. Para
que una serie sea fácilmente identificable hay que considerar un tamaño muestral elevado
(mayor a 50).
No puede olvidarse que cuando se trabaja con series reales, los correlogramas
resultantes se refieren a los estimados por la muestra. Si el proceso es estacionario, las
6 Puesto que en la práctica se observan las FAS y FAP estimadas, éstas no concordarán exactamente con sus valores teóricos. Lo único que se pretende es buscar la mayor similitud posible entre las funciones teóricas y muestrales
93
correlaciones muestrales estiman considerablemente las poblacionales y existe la posibilidad de
constrastar hipótesis respecto a la nulidad de cada coeficiente teórico de la FAS y FAP. De
hecho, si hay evidencia de que algún coeficiente es estadísticamente no significativo, puede
considerarse nulo.
El estimador �ρk es una variable aleatoria cuya varianza se estima de forma aproximada
(Barlett, 1946) por:
Var ( kρ ) ≅1
n)ˆ21(
1k
1i
2i∑
−
=
ρ+
Con un tamaño muestral suficientemente grande, kρ se aproxima a una distribución
normal. Se puede, por tanto, construir un intervalo de confianza al 95%, para contrastar la
hipótesis nula de que ρk = 0:
)ˆ(Var2 kρ±
Si los coeficientes muestrales caen dentro del intervalo, se concluye que los coeficientes
de autocorrelación no son significativamente distintos de cero. En la práctica, esta fórmula
permite identificar procesos de media móvil, para los cuales ρk se anula a partir de algún k>q.
Para la FAP, se ha demostrado (Quenouille, 1949) que, en un proceso AR(p):
Var n
1)ˆ( kk ≅φ , k>p
Entonces, el intervalo de confianza, al 95%, para contrastar 0ˆkk =φ es igual a:
)ˆ(Var2 kkφ± =n
12±
Es posible, pues, verificar si una muestra procede de un proceso autorregresivo de un
orden p* dado, comprobando si �φ kk cae dentro del intervalo (es significativamente igual a cero)
para todo k>p*. En la práctica, se utiliza empíricamente para calcular intervalos de confianza
94
para todos los coeficientes de autocorrelación parcial estimados, con independencia de cuál sea
el tipo de proceso, el cual se desconoce de antemano.
También hay que identificar la inclusión o no de término independiente. La media del
proceso está ligada al mismo, por tanto, si la media observada se considera significativamente
igual a cero, no se introducirá término independiente en el modelo.
Esta etapa suele plantear ciertas dificultades y su objetivo consiste, en general, en la
especificación tentativa de unos pocos modelos con estructuras sencillas. La etapa de estimación
y la posterior validación de los resultados confirmarán los indicios o, por el contrario, servirán
de fundamento para la reformulación de los modelos propuestos.
2.3.2. FASE DE ESTIMACIÓN
Una vez identificado el modelo de series temporales ARIMA(p,d,q), se procederá a
estimar sus parámetros.
Sea Yt ≈ ARIMA(p,d,q), donde ωt = (1-L)dYt ≈ ARMA(p,q):
El término de error no es función lineal del parámetro a diferencia de lo que sucede con
los modelos autorregresivos. El modelo se puede estimar a través de un proceso iterativo de
estimación no lineal, que utiliza los dos primeros términos de la aproximación de εt a través del
desarrollo en serie de Taylor7 (se consideran despreciables los términos de segundo orden y
superior).
εt ≅ + −
=
ε θ θ∂ε∂θ
θ θ
tt0
1 10
11 1
0
( )
ε 0t es el valor que toma el residuo después de sustituir θ1 por el valor inicial θ0
1. Por
tanto, hay que partir de un valor inicial para el parámetro.
∂ε∂θ
θ θ
t
11 1
0
=
es la derivada de los errores respecto a θ1, sustituyendo θ1 por su valor
inicial.
En este modelo ∂ε∂θ
εtt
11= − . Entonces:
7 Si y =f(x1,x2) es una función no lineal de dos variables X1 y X2, se puede igualar a una serie de Taylor, en torno a unos valores numéricos de las variables x10 y x20:
...
xxxx
2x
1x
f2)xx)(xx(
xxxx
2x
f22)xx(
2
1
xxxx
1x
f22)xx(
2
1
xxxx
2x
f)xx(
xxxx
1x
f)xx()x,x(fy
2010
2010
2010
2010
20
10
2
1
202101
2
1
202
2
1
101
2
1
202
2
1
1012010
+
==∂∂
∂−−+
==∂
∂−+
+
==∂
∂−+
==∂
∂−+
==∂
∂−+=
El resto de los términos son despreciables.
97
εt 1t00
110t
1
t011
0t )()(
011
−
θ=θ
εθ−θ+ε=
∂θ∂ε
θ−θ+ε≅ =
1t0
1t1t00
10t1t
011t
001
0t −−−− εθ−ε=εθ−ε⇒εθ+εθ−ε= ⇒
⇒ tt1t xw ε+θ=
donde wt = 1t00
10t −εθ−ε y xt = 1t
0−ε−
Es una ecuación de regresión lineal que se puede estimar mediante MCO. También es
posible establecer la ecuación en función de )( 011 θ−θ y obtendríamos el estimador de
)( 011 θ−θ : MCOβ = )ˆ( 0
11 θ−θ ⇒ 01MCO1
ˆˆ θ+=θ β . Entonces, 1θ constituye la primera iteración del
proceso. Este valor se utiliza para realizar una segunda iteración, como valor inicial, y así
sucesivamente.
La fórmula de actualización de las estimaciones sucesivas sería la siguiente:
)ˆ( 1h1hh −− β−β+β=β
Si h = 0, tenemos el valor inicial.
Si h = 1, tenemos la primera iteración.
Si h = 2, la segunda iteración.
......
El procedimiento finaliza cuando se cumple algún criterio de convergencia
satisfactorio, como el que establece que la diferencia entre dos estimaciones sucesivas en valor
absoluto sea menor que una cantidad pequeña fijada de antemano (0,001, por ejemplo):
001,01hh <β−β −
Otro criterio de convergencia alternativo consistiría en detener el proceso si la
variación producida en la suma de los cuadrados de los residuos es pequeña (por ejemplo,
inferior al 1%).
Un criterio más exigente sería el de aceptar la convergencia del proceso cuando se
cumplan a la vez los dos criterios citados.
98
Este procedimiento, aplicado a un modelo MA(2), generaría la siguiente aproximación:
εt
021
011
021
011 2
t021
1
t011
0t )()(
θ=θθ=θ
θ=θθ=θ
∂θ∂ε
θ−θ+
∂θ∂ε
θ−θ+ε≅ ⇒
ε 0t es el valor que toma el residuo después de sustituir θ1 por el valor inicial θ01 y θ2 por
θ02.
1t1
t−ε=
∂θ∂ε
y 2t2
t−ε=
∂θ∂ε
Se tiene:
εt
021
011
021
011 2
t022
1
t011
0t )()(
θ=θθ=θ
θ=θθ=θ
∂θ∂ε
θ−θ+
∂θ∂ε
θ−θ+ε≅ =
2t0
21t0
1t2t00
21t00
10t
2t0
22t00
21t0
11t00
10t
−−−−
−−−−
εθ−εθ−ε=εθ−εθ−ε⇒
⇒εθ+εθ−εθ+εθ−ε=
⇒ tt22t11t xxw ε+θ+θ=
donde wt = 2t00
21t00
10t −− εθ−εθ−ε , x1t = − −ε0
1t y x2t = 2t0
−ε−
Este método se puede extender a cualquier proceso MA(q) y ARMA(p,q):
Ahora habrá que estimar el vector de p+q parámetros β =
β
ββ
+qp
2
1
..., p de la parte AR y q
de la parte MA, siendo el procedimiento igual al visto anteriormente.
99
Con objeto de obtener un proceso de convergencia rápido, se introducen ciertos
refinamientos en el proceso. En este sentido, el algoritmo de Marquardt (1963) es muy utilizado
en los paquetes de ordenador.
También un proceso AR puede estimarse desde el punto de vista de este procedimiento
iterativo, siguiendo los mismos pasos.
Para efectuar contrastes estadísticos, en la iteración final se calcula la estimación de la
matriz de varianzas y covarianzas de los estimadores mediante la expresión:
V = 112 )(qpn
)(ˆ −−
−−=σ XX'
ee'XX'
El procedimiento iterativo no siempre es convergente. Si se produce divergencia el
modelo se puede volver a estimar una o más veces, utilizando diferentes pronósticos iniciales,
con la esperanza de obtener convergencia. Puede también producirse por una mala
especificación del modelo, es decir porque no sea el que mejor representa la estructura del
proceso estocástico que generó la serie temporal objeto de análisis. En este caso, habría que
elegir una nueva especificación.
Obtención de valores iniciales para los parámetros del modelo
Los valores numéricos de la FAS y FAP estimadas pueden utilizarse para obtener
estimaciones iniciales de los coeficientes. La convergencia del proceso de estimación puede que
sea más ràpida si el pronóstico inicial es bueno.
Si el modelo identificado es un AR(p), las ecuaciones de Yule-Walker proporcionan los
valores de los parámetros del modelo a partir de los coeficientes de autocorrelación estimados.
Si, por el contrario, se ha elegido un modelo MA(1), entonces recordando que
21
11
1ˆ
θ+θ−
=ρ , podemos deducir un valor para el parámetro, teniendo en cuenta que el modelo
debe cumplir la condición de invertibilidad.
Para procesos de orden superior, el método es más complejo aunque similar.
100
Enfoque condicionado y no condicionado en la fase de estimación
Si en el modelo ωt = δ + φ1ωt-1 + φ2ωt-2 + ...+ φpωt-p + εt - θ1εt-1 - θ2εt-2 -...- θqεt-q se dan
valores desde t =1...n, se nota que para determinar el valor de los εt = ωt- δ - φ1ωt-1 - φ2ωt-2 - ...-
φpωt-p + θ1εt-1 + θ2εt-2 +...+ θqεt-q, se necesitan los valores anteriores y no observables de εt y ωt:
ω0, ω-1, ..., ε0,..... Estos valores constituyen las condiciones iniciales y los estimadores
mínimocuadráticos que obtengamos, dependerán de los valores elegidos para ellos.
El método de estimación puede seguir un enfoque condicional o un enfoque no
condicional. El enfoque condicional asigna unos valores apropiados a las condiciones iniciales
basados en las hipótesis estadísticas del modelo: los errores se igualan a su media teórica, es
decir, cero, y los primeros datos de la serie son utilizados para estimar los valores iniciales ω0,
ω-1, ...8 (a veces, se consideran igual a cero, es decir a su media teórica, en caso de no incluir
término constante en el modelo, pero esta solución no es demasiado realista).
El enfoque no condicional se caracteriza porque los valores iniciales no se consideran
como datos, sino que se determinan dentro del proceso de estimación, conjuntamente con los
parámetros del modelo. Este procedimiento es más eficiente que el condicional.
2.3.3.FASE DE VALIDACIÓN
En esta etapa se comprobará la capacidad de ajuste del modelo propuesto y estimado a
los datos. Si éste no supera satisfactoriamente este paso, es necesario reformularlo. Cabe decir
que los resultados de la comprobación de la validez del modelo, suelen dar insinuaciones para
proceder a la especificación de uno diferente.
Para la aceptación del modelo, éste debe cumplir algunos requisitos:
• Análisis de los residuos:
8 La muestra se divide en dos partes, la primera de las cuales sirve para determinar los valores previos o iniciales y la otra para el proceso de estimación.
101
Se parte de la hipótesis de que el término de error de un modelo ARIMA es ruido
blanco. Estos errores son inobservables, pero no ocurre lo mismo con los residuos. Cualquier
test sobre la perturbación aleatoria debe basarse en los residuos del modelo, los cuales deben
seguir, pues, el comportamiento de un proceso puramente aleatorio normal. En caso contrario,
contendrían información relevante para la predicción.
Con el objeto de estudiar si los residuos se aproximan al comportamiento de un proceso
ruido blanco, se disponen de las siguientes herramientas:
Contraste independencia de Box-Pierce
Está destinado a contrastar la independencia o no autocorrelación de los residuos. La
autocorrelación se mide por los coeficientes de autocorrelación de los residuos rk. Es un
contraste global (contraste de “portmanteau”) acerca de la no autocorrelación de los residuos de
las observaciones separadas un número determinado de periodos.
Ho : r1 = r2 =...= rk = 0
Se utiliza el siguiente estadístico propuesto por Box y Pierce (1970): Q (k) = n∑=
k
1t
2tr
�rt es el coeficiente de autocorrelación estimado de orden t de los residuos, t = 1...k.
La elección de k es arbitraria. Cuanto mayor sea k el test se extenderá a desfases
mayores, pero la precisión en la estimación de los rk es menor y disminuye la potencia del
contraste, es decir, la probabilidad de rechazar la hipótesis nula cuando es falsa.
Bajo la hipótesis nula, la distribución asintótica del estadístico es: Q(k) ∼χk
Se rechazará la hipótesis nula si el valor de Q experimental es superior que el teórico o
tabulado de la distribución a un nivel de significación dado.
Box y Pierce han demostrado que utilizando k elevado, el estadístico Q es apropiado si
se supone que sigue una distribución Q(k) ∼χk-(p+q).
102
La versión mas actual de ese estadístico es la de Ljung-Box (1978), para disminuir el
sesgo en pequeñas muestras.
Bajo la hipótesis nula: Q*(k) = n (n+2) ∑= −
k
1t
2t
tn
r ∼χk-(p+q)
Sabiendo que kr = ∑
∑
=
−
=−
1t
2t
kn
1tktt
e
ee
es el coeficiente de autocorrelación de orden k y et son
los residuos.
A veces, en lugar de fijar a priori un nivel de significación para el contraste, el contraste
se puede contemplar a través del nivel de significación crítico. Éste es un indicador del nivel de
admisibilidad de la hipótesis nula. Cuanto mayor sea el nivel de significación crítico mayor
confianza podemos tener para aceptar la hipótesis nula y viceversa: si toma el valor cero,
podemos rechazar la hipótesis nula al 100% de confianza.
Representación de la función de autocorrelación simple y parcial de los residuos
La serie de residuos es aleatoria si los coeficientes de autocorrelación simple y parcial
son significativamente cero.
Anderson (1942) ha demostrado que los coeficientes de autocorrelación muestrales
procedentes de un proceso ruido blanco, siguen asintóticamente, la siguiente distribución:
�rk )n/1,0(N≈
En consecuencia, bajo la hipótesis de que rk = 0 , se construye un intervalo de confianza
al 95% de la siguiente forma: n
2± . Si algún �rk cae fuera de los límites, se rechaza la hipótesis
de no autocorrelación. En este caso hay evidencia de no aleatoriedad de la serie.
Además, los errores deberán alternar el signo de su coeficiente de autocorrelación sin
ningún criterio obvio.
103
También, los coeficientes de la FAP deben ser significativamente cero. En la práctica se
construyen bandas de confianza utilizando la distribución de una variable ruido blanco cuya
varianza es 1/n según se ha visto anteriormente.
Hay que tener en cuenta que esta aproximación realizada sobre la varianza no es muy
adecuada tanto para la FAS como para la FAP especialmente en los retardos bajos. Se podría
concluir que un coeficiente es estadísticamente no significativo cuando en realidad lo es.
La FAS y la FAP de los residuos del modelo estimado son instrumentos valiosos a la
hora de reformular el modelo, en caso de que no se comporten como un proceso ruido blanco.
Supongamos que se ha estimado un AR(1): Yt = 1φ Yt-1 ⇒ et = Yt- 1φ Yt-1. Después de examinar
la FAS y la FAP de la serie et, se llega a la conclusión de que sigue un modelo MA (1), no un
proceso ruido blanco : et = εt - θ1εt-1. Sustituyendo en el modelo AR (1) : Yt = φ1Yt-1+ εt - θ1εt-1,
se puede concluir que Yt es un ARMA (1,1).
Representación gráfica de los residuos
La representación de los residuos en el tiempo permite observar si la varianza es
constante y si la media está próxima a cero. Además, se puede verificar si se ajustan a una
distribución normal y la existencia de residuos atípicos. Un residuo se considera atípico si el
valor absoluto excede en tres o cuatro veces su desviación típica (siendo su media cero).
Para contrastar la existencia de heteroscedasticidad se puede realizar el contraste de
White (1980). Su hipótesis nula es que el término de perturbación es homocedástico e
independiente de los regresores y que la especificación lineal es correcta. El procedimiento es el
siguiente:
a) Estimación del modelo original ignorando la posible heteroscedasticidad.
b) Estimación de una regresión del cuadrado de los residuos anteriores sobre una constante, los
regresores del modelo original, sus cuadrados y productos cruzados de segundo orden.
c) El output es un estadístico nR2, donde n es el tamaño muestral y R2 es el coeficiente de
determinación de la última regresión, que sigue una distribución asintótica chi-cuadrado con
grados de libertad igual al número de regresores en el contraste de regresión anterior.
d) Bajo la hipótesis nula de homoscedasticidad, asintóticamente el coeficiente de
determinación tenderá a cero, excepto cuando la varianza del término de error del modelo
104
depende de sus variables explicativas. En tal caso nR2 permanecerá lejos de cero y es de
esperar que sea mayor que el valor de las tablas de la distribución chi-cuadrado.
Para contrastar la normalidad se utiliza el contraste de Jarque-Bera (1987). Se trata de
una prueba de grandes muestras, que primero calcula la asimetría (A) y la curtosis o
apuntamiento (K) de los residuos de la estimación del modelo y después utiliza el siguiente
estadístico de contraste:
−+=24
)3K(
6
AnJB
22
Bajo la hipótesis nula de que los residuos están normalmente distribuidos,
asintóticamente JB sigue una distribución 22χ . Si el valor del estadístico supera el valor
tabulado de la distribución chi- cuadrado, se rechazará la hipótesis nula a un determinado nivel
de confianza. O si el nivel de significación crítico (p-valor) es suficientemente pequeño, se
puede rechazar la hipótesis de que los residuos siguen una distribución normal.
• Análisis de los coeficientes estimados
Primero hay que verificar si los coeficientes son significativos. El estadístico de
contraste está construido bajo la hipótesis nula de que el coeficiente es cero y sigue una
distribución t-student con n-m grados de libertad, con m igual al número de parámetros
incluidos. Si concluimos que alguno no es significativo se puede suprimir.
Ho: φi = 0 , t*= mni
ii t)(S
)(E−≈
φφ−φ
Ho: θi = 0, t*= mni
ii t)(S
)(E−≈
θθ−θ
Ho: δ = 0, t*= mnt)(S
)(E−≈
δδ−δ
La aplicación del test anterior requiere un contraste de dos colas, pues la hipótesis
alternativa considera que puede tomar el coeficiente cualquier valor distinto de cero. Si *t es
mayor que el teórico tabulado, se rechaza la hipótesis nula y el parámetro es significativo.
105
Otro aspecto importante es el examen del cumplimiento de las condiciones de
estacionariedad e invertibilidad:
Si alguna de las raíces de:
0Lˆ...LˆLˆ1 pp
221 =φ−φ−φ−
0Lˆ...LˆLˆ1 pp
221 =θ−θ−θ−
fuesen inferior a la unidad, el modelo se rechazaría.
Si alguna de las raíces de 0Lˆ...LˆLˆ1 pp
221 =φ−φ−φ− , estuviese próxima a uno, es
posible que la serie original esté subdiferenciada, por lo que puede que precise alguna
diferenciación adicional.
Si alguna de las raíces de 0Lˆ...LˆLˆ1 pp
221 =θ−θ−θ− está próxima a uno, es posible
que el modelo esté sobrediferenciado.
Si existen raíces comunes, se podría utilizar para las predicciones un modelo con dos
parámetros menos, es decir, el modelo sería un ARMA (p-1, q-1).
Es conveniente también examinar la matriz de correlación entre los coeficientes
estimados. Cuando la correlación entre dos coeficientes es próxima a uno, los coeficientes
estimados son muy inestables, con lo que podrían cambiar bastante de una muestra a otra. El
modelo estimado para el período muestral puede diferir del que se obtendría para los períodos
de predicción. Puede existir este problema siempre que alguna de las correlaciones entre
estimadores tome un valor superior a 0,6. Para evitar este problema puede ser eficaz eliminar
algún parámetro aún a costa de que el grado de ajuste sea más pequeño. No obstante, si todos
los coeficientes son significativos no sería aconsejable eliminar coeficientes del modelo.
• Análisis de la bondad del ajuste:
Se suele utilizar el coeficiente de determinación R2 o el corregido R2 :
106
STC
SCR1R2 −=
Es una medida de la proporción de la variación total de la variable que es explicada por
el modelo.
1n/STC
mn/SCR1R2
−−−=
donde SCR = n
et
2t∑
es la suma de los cuadrados de los residuos y
n
)(
STC
2
Tt∑ ω−ω
= la suma total de los cuadrados.
El coeficiente de determinación corregido penaliza la introducción de parámetros
adicionales en el modelo. Si se introducen parámetros adicionales aunque no sean apropiados
pueden incrementar R2. Para evitar este problema se suele utilizar el coeficiente corregido.
El modelo se ajusta en mayor medida a los datos cuanto más próximos a la unidad estén
los coeficientes de determinación. Pero sólo son comparables en modelos en los que se hayan
tomado idéntico número de diferencias, debido a que para que este sea un elemento de
comparación directa la varianza de la variable debe ser la misma. Si se calcula el coeficiente de
determinación con la varianza de la variable diferenciada una vez, el resultado no será
comparable con el calculado a partir del ajuste a un modelo sobre la variable original.
Para paliar el anterior inconveniente, se han propuesto medidas alternativas destacando
el estadístico AIC (Akaike Information Criterion), formulado por Akaike (1974). Consiste en
seleccionar aquél modelo para el que se obtenga un AIC más bajo. Otra medida es SC (Schwarz
Criterion) y cuanto menor sea ésta, mejor es el ajuste.
• Análisis de la estabilidad
La construcción de un modelo ARIMA está justificada por su utilización para la
predicción. Conviene saber si el modelo estimado para el período muestral sigue siendo válido
107
para períodos futuros. Para esta finalidad se puede aplicar el test de estabilidad estructural de
Chow:
m2n,mn
1t
2t2
n
1t
2t1
n
1t
2t2
n
1t
2t1
n
1t
2t
F
m2n/ee
m/eee
F21
21
−
==
===≈
−
+
+−
=
∑∑
∑∑∑
m es el número de parámetros a estimar.
N = n1+n2
et es el residuo del modelo utilizando todo el período muestral.
e1t es el residuo utilizando los n1 primeros datos.
e2t es el residuo utilizando los n2 últimos datos.
Se pretende contrastar si el último tramo muestral ha estado generado por la misma
estructura que el resto de las observaciones. Algunos autores aconsejan tomar como segundo
tramo muestral un tercio o un cuarto de la muestra.
Si la F calculada o experimental es mayor que la tabulada o teórica a un determinado
nivel de significación, se rechaza la hipótesis de estabilidad estructural.
2.3.4. FASE DE PREDICCIÓN.
Una vez que el modelo ha sido estimado y sometido a la fase de diagnosis, se convierte
en un instrumento útil para la predicción. Sea el modelo estimado ARMA(p,q), para la serie ωt,
siendo la serie original Yt ≈ ARIMA(p,d,q). Se trata de predecir los valores para la serie no
estacionaria Yt, una vez se haya realizado para la serie ωt estacionaria.
Por ejemplo, si ωt =Yt-Yt-1 , donde ωt es estacionaria. La predicción para esa serie en el
período n+1 es 1nˆ +ω . La correspondiente predicción para �Yn+1 es 1nˆ +ω +Yn.
Si se aplica una diferencia de segundo orden ωt = Yt –2Yt-1 +Yt-2, entonces 1nY + =
= 1nˆ +ω + 2Yn –Yn-1
108
Si se ha fijado en algún momento la transformación logarítmica, se tomarán
antilogaritmos para deshacer el cambio: ωt = LnYt ⇒ Yt = eωt
Un criterio que se suele establecer para realizar predicciones es elegir aquellas con
mínimo error cuadrático medio. El error cuadrático medio es igual a la esperanza matemática
del cuadrado de los errores de predicción. La mejor predicción puntual desde este punto de vista
es aquélla que se obtiene mediante la esperanza matemática condicional a toda la información
disponible hasta el período de predicción. La expresión de este predictor es la siguiente: