Estimacion de Par´ ametros de la´ Distribucion Birnbaum ...

Estimacion de Parametros de la

Distribucion Birnbaum-Saunders

Generalizada Matrizvariada

Trabajo final presentado por:Luis Daniel Sanchez Melo

Becario CONICYT

Para optar al grado de:Magıster en Estadıstica

Profesor guıa:Dr. Vıctor Leiva

Profesor guıa co-referente:Dr. Francisco Caro

Valparaıso, Abril 2013

Agradecimientos

Esta tesis constituye la parte final de mis estudios de magıster, razon por la cualaprovecho para agradecer a las personas que me han ayudado directa o indirecta-mente en esta etapa de mi vida.

Agradezco a mi Dios, quien por su buena voluntad me ha dado fuerzas y lascapacidades para realizar estos dos anos de estudio.

A mis padres y hermanos, por su constante apoyo aun estando lejos de ellos.A mi querida iglesia, a la cual pertenezco, por llevarme en sus oraciones cons-

tantemente para que todo el esfuerzo llegara a buen termino.A CONICYT por el financiamiento otorgado para realizar con tranquilidad

mis estudios de magıster y todo lo que implica esto ultimo.A mi profesor guıa de tesis, el Dr. Vıctor Leiva, por su valioso apoyo desde

incluso antes de llegar a Valparaıso a estudiar, y durante estos dos anos. Por susconstantes gestos de aprecio y todo el apoyo academico que recibı de el.

A mis profesores del programa de magıster, por su buen trato y transmisionde conocimientos y experiencias utiles para mi formacion profesional.

Al profesor Francisco Caro, quien nos ayudo bastante en la ultima etapa de latesis, haciendonos muy buenas aclaraciones y sugerencias sobre el trabajo, y siemprecon buena disponibilidad y amabilidad en todo.

A mis companeros de magıster, por las buenas experiencias y amabilidad conque me trataron.

Resumen

Este trabajo esta basado en una version matrizvariada de una distribucion de proba-bilidades asimetrica llamada distribucion Birnbaum-Saunders generalizada. En estetrabajo se propone un metodo para estimar los parametros de dos casos particu-lares de esta distribucion matrizvariada usando el metodo de verosimilitud maxima.Dado que los parametros son matrices, se presenta un problema de dimensionalidadalta. Esto exige el uso de un procedimiento de calculo computacional eficiente. Unavez resuelto el problema de estimacion, se realiza un estudio de simulacion de MonteCarlo para evaluar el comportamiento del metodo de estimacion. Finalmente, losresultados de este estudio son aplicados a datos reales.

Palabras clave: curtosis; distribuciones elıpticas; distribuciones matrizvariadas;generacion de matrices aleatorias; metodo de Monte Carlo.

Indice general

Objetivos 3

Revision Bibliografica 4

1 Formulacion del Problema 6

1.1 La distribucion BSG univariada . . . . . . . . . . . . . . . . . . . . . 61.1.1 Genesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.1.2 Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.1.3 Estimacion por verosimilitud maxima . . . . . . . . . . . . . . 8

1.2 La distribucion BSG multivariada . . . . . . . . . . . . . . . . . . . . 101.3 La distribucion BSG matrizvariada . . . . . . . . . . . . . . . . . . . 10

1.3.1 Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.4 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.5 Estimacion de parametros . . . . . . . . . . . . . . . . . . . . . . . . 13

2 Generacion de Matrices Aleatorias BSGM 16

2.1 Relacion entre modelos CE matrizvariados y multivariados . . . . . . 162.2 Matrices aleatorias BSGM . . . . . . . . . . . . . . . . . . . . . . . . 182.3 Implementacion en R-project . . . . . . . . . . . . . . . . . . . . . . 18

3 Metodos de Optimizacion para Problemas de Dimensionalidad

Alta 20

3.1 Metodos clasicos de optimizacion . . . . . . . . . . . . . . . . . . . . 203.2 Algoritmos SANE y DF-SANE . . . . . . . . . . . . . . . . . . . . . 213.3 Otros algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.4 Aplicacion al problema de estimacion . . . . . . . . . . . . . . . . . . 233.5 Evaluacion de metodos de optimizacion . . . . . . . . . . . . . . . . . 24

1

Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez

4 Un procedimiento de estimacion para el modelo BSGM 41

4.1 Relacion entre modelos BSG . . . . . . . . . . . . . . . . . . . . . . . 414.2 Procedimiento de estimacion . . . . . . . . . . . . . . . . . . . . . . . 424.3 Simulacion por metodo de Monte Carlo . . . . . . . . . . . . . . . . . 42

5 Aplicacion 46

5.1 El conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.2 Ajuste de modelos CE matrizvariados a los datos . . . . . . . . . . . 475.3 Ajuste de modelos BSGM a los datos . . . . . . . . . . . . . . . . . . 515.4 Seleccion del mejor modelo . . . . . . . . . . . . . . . . . . . . . . . . 535.5 Estimacion de la media de la forma . . . . . . . . . . . . . . . . . . . 55

Conclusiones y Trabajos Futuros 59

Bibliografıa 61

Anexo A. Funciones R para BSGM 66

Anexo B. Datos de “dıgito 3” manuscrito 79

Anexo C. Codigos para aplicacion 81

2

Objetivos

Los objetivos de este trabajo se presentan a continuacion.

Objetivo general

Estimar los parametros de la distribucion Birnbaum-Saunders generalizada matriz-variada (BSGM) para los casos de kernels normal y t-Student.

Objetivos especıficos

1. Desarrollar un generador de matrices aleatorias para la distribucion BSGMpara los casos de kernels normal y t-Student.

2. Proponer un algoritmo de estimacion de los parametros de la distribucionBSGM mediante el metodo de verosimilitud maxima (VM) para los dos casosparticulares mencionados anteriormente.

3. Desarrollar un paquete en el software R donde se implemente la generacion dematrices aleatorias BSGM y el algoritmo de estimacion propuesto.

4. Aplicar la distribucion BSGM a datos reales.

3

Revision Bibliografica

La distribucion normal univariada ha sido la base de la estadıstica teorica y apli-cada por mas de 100 anos. Las propiedades de esta distribucion son bien conocidasy extensamente usadas; ver Johnson, Kotz & Balakrishnan (1994, pp. 80-206). Sinembargo, muchos fenomenos son descritos mediante variables aleatorias multiples.Un analisis estadıstico basado en variables aleatorias correlacionadas es conocidocomo analisis multivariado, donde la distribucion normal, ahora en su version mul-tivariada, constituye nuevamente su base; ver Kotz, Balakrishnan & Johnson (2000,pp. 105-333).

La distribucion normal multivariada puede ser generalizada mediante el usode la familia de distribuciones de contornos elıpticos (CE), obteniendo un nivel deflexibilidad mayor sobre la curtosis de esta. Esto quiere decir que con esta gener-alizacion se obtienen distribuciones con colas mas pesadas y/o mas livianas que lascolas de la distribucion normal. Tal situacion permite describir diferentes tipos dedatos multivariados. Ademas, las distribuciones CE tienen varias propiedades es-tadısticas y probabilısticas interesantes. Para mas detalles acerca de distribucionesCE multivariadas, ver Fang, Kotz & Ng (1990), Fang & Zhang (1990), Gupta &Varga (1993), Dıaz-Garcıa, Leiva & Galea (2002), Caro, Dıaz & Gonzalez (2010)y Riquelme, Leiva, Galea & Sanhueza (2011). Una gran parte de la teorıa normalesta siendo reconstruida mediante distribuciones CE. El uso de tales distribucionescomo una generalizacion de la distribucion normal no esta basado ni en razonesempıricas ni en leyes fısicas, en general, su razonamiento es puramente estadısticoy/o matematico en el sentido que: (i) la teorıa basada en la distribucion normales un caso particular de la que se deriva desde distribuciones CE, (ii) muchas delas propiedades de la distribucion normal pueden ser extendidas al caso CE y (iii)algunos resultados importantes de la teorıa estadıstica sobre normalidad son invari-antes bajo la familia de distribuciones CE. Ademas, modelos estadısticos basados endistribuciones CE proveen procedimientos de estimacion robustos, contrario a lo queocurre con el caso normal; ver, por ejemplo, Lange, Little & Taylor (1989), Lucas(1997), Barros, Paula & Leiva (2008) y Paula, Leiva, Barros & Liu (2012). Entonces,existen varias razones para usar distribuciones CE en lugar de la distribucion normal.

4


Un analisis multivariado basado en distribuciones CE es conocido comoanalisis multivariado generalizado. Aunque este tipo de analisis estadıstico es dealto interes practico, no se ha puesto mucha atencion en el analisis matricial devariables aleatorias correlacionadas (conocido como analisis matrizvariado), inclusopara el caso normal; ver Tulino & Verdu (2004) y Anderson, Guionnet & Zeitouni(2009). La utilidad de distribuciones matrizvariadas es ampliamente conocida eneconomıa, fısica, psicologıa y en varios otros campos; ver, por ejemplo, Gupta &Nagar (1999). Por un lado, las dificultades matematicas que aparecen desde elproblema matrizvariado pueden ser simplificadas debido a la simetrıa de las dis-tribuciones CE. Por otro lado, hay muchos fenomenos que demandan ser modeladosmediante distribuciones asimetricas y este hecho no favorece el uso de distribucionesCE.

Muchas distribuciones univariadas asimetricas han sido propuestas y discuti-das en la literatura. Una de tales distribuciones, definida sobre la lınea real positiva,con dos parametros (forma y escala) y asimetrıa positiva, es el modelo Birnbaum-Saunders (BS). Este modelo ha recibido una atencion considerable debido principal-mente a sus propiedades y su relacion con la distribucion normal; ver Birnbaum &Saunders (1969a) y Johnson, Kotz & Balakrishnan (1995, pp. 651-663). Aunque ladistribucion BS tiene su genesis en ingenierıa, este modelo ha sido aplicado en otroscampos tales como ciencias actuariales, de la tierra, medioambientales, financierasy medicas; ver Podlaski (2008), Leiva, Barros, Paula & Sanhueza (2008), Barros,Paula & Leiva (2008), Bhatti (2010) y Paula, Leiva, Barros & Liu (2012).

Una generalizacion del modelo BS que se basa en distribuciones CE es ladistribucion Birnbaum-Saunders generalizada (BSG). Esta generalizacion permitehacer flexible la curtosis de la distribucion BS. La distribucion BSG fue derivadapor Dıaz-Garcıa & Leiva (2005) y tiene a la distribucion BS como un caso particular.Las distribuciones BS y BSG univariadas han sido implementadas en el lenguaje decomputacion R por Leiva, Hernandez & Riquelme (2006) y Barros, Paula & Leiva(2009), respectivamente. Extensiones bivariada, multivariada y matriz-variada dela distribucion BS han sido estudiadas por Dıaz-Garcıa & Domınguez-Molina (2006,2007), Kundu, Balakrishnan & Jamalizadeh (2010) y Caro, Leiva & Balakrishnan(2012). Sin embargo, en cuanto a la estimacion de parametros de las versionesmultivariada y matriz-variada no se encuentran trabajos en la literatura.

Gupta & Varga (1994) estudiaron la familia CE matrizvariada y suspropiedades y relaciones con los casos multivariados y univariados, lo que pareceser una muy buena base para el procedimiento de estimacion que se esta explorandoen este trabajo.

5

Capıtulo 1

Formulacion del Problema

En este capıtulo se presentan los elementos teoricos que dan lugar al problema enestudio. Primero se presenta la formulacion matematica del modelo BSGM, y luegose establece cual es el problema que se intenta solucionar.

1.1 La distribucion BSG univariada

1.1.1 Genesis

El modelo BS es una distribucion de probabilidad con asimetrıa positiva y de dosparametros (forma y escala), y que esta relacionada a la distribucion normal. Masexactamente, si Z ∼ N(0, 1), entonces la variable aleatoria T dada por

T = β

αZ

2+

√

(

αZ

2

)2

+ 1

2

(1.1)

tiene una distribucion BS con parametros de forma α > 0 y escala β > 0, lo quees denotado por T ∼ BS(α, β). La variable T tiene un recorrido positivo y latransformacion (1.1) es uno a uno, lo que permite establecer que, si T ∼ BS(α, β),entonces

Z =1

α

[√

T

β−√

β

T

]

∼ N(0, 1).

Dıaz-Garcıa & Leiva (2005) propusieron una generalizacion del modelo BSbasada en la familia de distribuciones CE. La motivacion principal de esta extension

6


es hacer flexible la curtosis de la distribucion BS. Una variable aleatoria Z tiene unadistribucion CE (simetrica en el caso univariado) estandar en R con funcion kernelg, lo que es denotado por Z ∼ S(g), si su funcion de densidad de probabilidad (fdp)esta dada por

fZ(z) = c g(z2), z ∈ R, (1.2)

con c siendo una constante de normalizacion tal que∫

∞

−∞g(z2)dz = 1/c. En-

tonces, la variable aleatoria T definida como en (1.1) tiene una distribucion BSGcon parametros de forma α > 0, escala β > 0 y kernel g, lo que es denotado porT ∼ BSG(α, β; g).

Comentario 1. Si Z ∼ N(0, 1), entonces se tiene el caso BS univariado.

Comentario 2. Si Z ∼ t(ν) (t-Student), entonces se tiene la distribucion BS-t.

1.1.2 Propiedades

Se presentan a continuacion solo algunas caracterısticas de la distribucion BSG,tales como su fdp, su funcion de distribucion acumulativa (fda) y algunas transfor-maciones. Para mas detalles de estas y otras caracterısticas de la distribucion BSGse puede revisar: origen de la distribucion y su fdp en Dıaz-Garcıa & Leiva (2005);fda, funciones cuantil, sobrevivencia y de riesgo, y momentos en Leiva, Barros, Paula& Sanhueza (2008); y transformaciones, analisis de forma y estimacion por metodode VM en Sanhueza, Leiva & Balakrishnan (2008).

Teorema 3. Sea T ∼ BSG(α, β; g). Entonces, su fdp y fda son, respectivamente,

(i) fT (t) =c

2αβ1/2t−3/2 (t+ β) g

(

1

α2

[

t

β− β

t− 2

])

, con t > 0 y donde c esta dado

en (1.2).

(ii) FT (t) = FZ

(

1

α

[

√

t

β−√

β

t

])

, donde F (·) es la fda de una variable aleatoria

con distribucion simetrica estandar, lo que se denota por Z ∼ S(g).

Demostracion. Se sigue directo desde la definicion de la distribucion BSG.

Teorema 4. Sea T ∼ BSG(α, β; g). Entonces,

(i) a T ∼ BSG(α, cβ; g), con a > 0.

(ii) T−1 ∼ BSG(α, β−1; g).

Demostracion. Es directa usando el teorema de transformacion de variablesaleatorias.

En adelante c y g seran la constante de normalizacion y su kernel, respectiva-mente.

7


1.1.3 Estimacion por verosimilitud maxima

La funcion de log-verosimilitud basada en una muestra T1, T2, . . . , Tn con Ti ∼BSG(α, β; g), para i = 1, . . . , n, esta dada por

ℓ(α, β) = k − n log(α)− n

2log(β) +

n∑

i=1

log(ti + β) +n∑

i=1

log(g(κti)), (1.3)

donde k es una constante que no depende de α ni de β, y κti =[1/α2] (ti/β + β/ti − 2). Las primeras derivadas de l(α, β) con respecto a α y β,denotadas por ℓα y ℓβ, respectivamente, son

ℓα =n∑

i=1

viα3

[

tiβ+

β

ti− 2

]

− n

α

y

ℓβ =n∑

i=1

1

ti + β−

n∑

i=1

vi2α2

[

1

ti− ti

β2

]

− n

2β,

donde vi = −2 g′

(κti)/g(κti). Con esto, las ecuaciones de verosimilitud ℓα = 0 yℓβ = 0, conducen a

α =

∑ni=1 vi

[

tiβ+ β

ti− 2]

n

1/2

y β =

(

12α2

∑ni=1

viti−∑n

i=11

ti+β+ n

2β

12α2

∑ni=1 viti

)1/2

.

(1.4)Se puede notar que el estimador de VM de β no posee forma explıcita, ası quemetodos numericos deben ser usados para su estimacion. Para el caso BS, Birn-baum & Saunders (1969b) encontraron los estimadores de VM de α y β y usaron elestimador media-media (MM) como un valor inicial para hallar el valor estimado deβ. En sıntesis, su procedimiento se basa en la formula iterativa

βn+1 = βn +h(βn)

h′(βn), n = 0, 1, . . . , (1.5)

donde

β0 =√s · r (estimador MM) y h(z) = z2 − z [2r +K(z)] + r [s+K(z)] , (1.6)

con

K(z) =

[

1

n

n∑

i=1

(z + ti)−1

]−1

, s =1

n

n∑

i=1

ti y r =

[

1

n

n∑

i=1

t−1i

]−1

.

8


Birnbaum & Saunders (1969b) demostraron que, bajo ciertas condiciones, esta se-cuencia converge al estimador de VM de β y el estimador de α se obtiene mediante

α =

√

s

β+

β

r− 2. (1.7)

Este algoritmo ha sido implementado en el lenguaje R por Leiva, Hernandez &Riquelme (2006) y Barros, Paula & Leiva (2009). La funcion mlebs del paquete gbsdesarrollado por Barros, Paula & Leiva (2009) implementa el algoritmo anterior, yes la funcion que se utiliza en la simulacion del Capıtulo 3.

Recientemente, Balakrishnan, Leiva, Sanhueza & Vilca (2009) usaron el algo-ritmo EM para estimar los parametros de las distribuciones BS basadas en modelosmezcla de escala normal, de las que la distribucion BS-t es un caso particular. Ellosdemostraron que, al usar este algoritmo con la distribucion BS-t, se obtiene un pro-cedimiento similar al presentado por Birnbaum & Saunders (1969b), con los cambiossiguientes:

h(z) = hu(z) = z2 − z [2ru u+K(z)] + ru [su + uK(z)] ,

s = su =1

n

n∑

i=1

uiti,

r = ru =

[

1

n

n∑

i=1

uit−1i

]−1

,

con

u =1

n

n∑

i=1

ui y ui =ν + 1

ν + κti

.

Balakrishnan, Leiva, Sanhueza & Vilca (2009) propusieron como punto inicial parahallar las estimaciones de VM de α y β aquellos de la distribucion BS. Este algoritmopuede ser visto como una generalizacion del procedimiento propuesto por Birnbaum& Saunders (1969b), pues en efecto, si ui = 1, para i = 1, 2, . . . , n, se obtiene el casode la distribucion BS.

Debido a que el proceso iterativo dado en (1.5) corresponde a iteracionesbasadas en el metodo de Newton-Raphson para resolver h(z) = 0 (que no siempreconverge), una variante para los metodos anteriores es usar un algoritmo de busquedade ceros en lugar de iteraciones de Newton-Raphson. Brent (1973) desarrollo unalgoritmo de busqueda de ceros que combina el metodo de biseccion, el metodo dela secante e interpolacion cuadratica inversa que garantiza la convergencia al cero dela funcion y que no requiere de punto inicial. Este metodo esta implementado en elprograma R, mediante la funcion uniroot(). Para efectos de esta tesis, se hara usode este algoritmo de busqueda de ceros para obtener los estimadores en el caso BS,

9


mientras que para el caso BS-t se mantendra el algoritmo de Balakrishnan, Leiva,Sanhueza & Vilca (2009) usando como punto inicial aquel obtenido desde el casoBS. Estos dos algoritmos modificados son simulados en el Capıtulo 4 y se usaranen la aplicacion del Capıtulo 5, y los codigos que los implementan seran parte delpaquete que se desarrollara para la distribucion BSGM.

1.2 La distribucion BSG multivariada

La distribucion BSG puede ser extendida al caso multivariado mediante el uso dedistribuciones CE multivariadas. Mas exactamente, sea x ∈ R

n un vector aleatoriocon distribucion CE multivariada caracterizada por un vector de localizacion µ ∈ R

n,una matriz de escala Σ ∈ R

n×n, con rango(Σ) = n, y el kernel correspondiente g, loque es denotado por x ∼ CEn(µ,Σ; g). Entonces, la fdp de x esta dada por

fx(x) = c |Σ|−1/2g([x− µ]⊤Σ−1[x− µ]), x ∈ Rn. (1.8)

Sea z = (Z1, Z2, . . . , Zn)⊤ ∼ CEn(0, In; g) y t = (T1, T2, . . . , Tn)

⊤, donde para todoi = 1, . . . , n, Zi, Ti, αi y βi satisfacen la relacion (1.1). Entonces, el vector aleatorio tgenera la distribucion BSG multivariada, lo que es denotado por t ∼ BSGn(α,β; g),donde α = (α1, α2, . . . , αn)

⊤ y β = (β1, β2, . . . , βn)⊤. Mas detalles de la distribucion

BSG multivariada pueden verse en Dıaz-Garcıa & Domınguez-Molina (2006, 2007)y Kundu, Balakrishnan & Jamalizadeh (2010).

1.3 La distribucion BSG matrizvariada

Es posible extender aun mas la distribucion BSG mediante la familia de distribu-ciones CE matrizvariadas. Especıficamente, sea X = (Xij) ∈ R

n×k una matrizaleatoria con distribucion CE matrizvariada caracterizada por una matriz de local-izacion M ∈ R

n×k, matrices de escala Ω ∈ Rk×k, con rango(Ω) = k, y Σ ∈ R

n×n,con rango(Σ) = n, y kernel g, lo que es denotado por X ∼ CEn×k(M ,Ω,Σ; g).Entonces, la fdp de X esta dada por

fX (X) = c |Ω|−n/2|Σ|−k/2g(tr(Ω−1[X −M ]⊤Σ−1[X −M ])), X ∈ Rn×k. (1.9)

Ahora, sea Z = (Zij) ∼ CEn×k(0, Ik, In; g) y T = (Tij), donde

Tij = βij

αijZij

2+

√

(

αijZij

2

)2

+ 1

2

,

para αij > 0 y βij > 0, con i = 1, . . . , n y j = 1, . . . , k. Entonces, la matrizaleatoria T genera la distribucion BSG matrizvariada (BSGM), lo que es denotadopor T ∼ BSGn×k(A,B; g), donde A = (αij) y B = (βij).

10


Comentario 5. En estricto rigor, el modelo BSGM definido anteriormente deberıallamarse modelo BSG matrizvariado central e isotropico, pues la distribucion quelo genera tiene por matriz de localizacion la matriz nula y, por matrices de escala,matrices identidad. No obstante, se hablara simplemente del modelo BSGM teniendoen cuenta esta aclaracion.

1.3.1 Propiedades

Caro, Leiva & Balakrishnan (2012) establecieron tres representaciones de la fdpdel modelo BSGM: una que involucra los elementos de las matrices T , A y B;otra que usa matrices diagonales relacionadas a T , A y B; y por ultimo, unarepresentacion en terminos de las matrices originales mediante el uso del productoHadamard. Ellos establecieron estas representaciones con el objetivo permitir unarepresentacion de la fdp del modelo BSGM en terminos de matrices originales paradesarrollar transformaciones matriciales y procedimientos estadısticos como analisisde datos multivariados y teorıa estadıstica de forma. Se proporcionan a continuacionestas tres representaciones.

Teorema 6. Sea T = (Tij) ∼ BSGn×k(A,B; g), con A = (αij) y B = (βij).Entonces, la fdp T esta dada por

fT (t) =c

2nkg

(

n∑

i=1

k∑

j=1

1

α2ij

[

tijβij

+βij

tij− 2

]

)

n∏

i=1

k∏

j=1

t−3/2ij [tij + βij]

αij

√

βij

, (1.10)

con tij > 0, para i = 1, . . . , n y j = 1, . . . , k.

Demostracion. Ver Caro, Leiva & Balakrishnan (2012, p. 135).

Para la segunda representacion de la fdp BSGM se necesita definir la operacionde diagonalizacion. Si H = (hij) es una matriz n × k, se define la matriz dediagonalizacion Hd de dimensiones nk × nk como

Hd = diag (h11, . . . , h1k, h21, . . . , h2k, . . . , hn1, . . . , hnk) , (1.11)

es decir, Hd es una matriz diagonal que contiene en su diagonal todos los elementosde la matrix H . Con esto, se puede establecer el resultado siguiente.

Teorema 7. Sea T = (Tij) ∼ BSGn×k(A,B; g), con A = (αij) y B = (βij).Entonces, la fdp de T esta dada por

fT (t) =c

2nk∣

∣t−3d ·A−2

d ·B−1d

∣

∣

1/2 |td +Bd|·g(

tr(td ·A−2d ·B−1

d + t−1d ·A−2

d ·Bd − 2A−2d ))

. (1.12)

11


Demostracion. Ver Caro, Leiva & Balakrishnan (2012, p. 136).

La tercera representacion de la fdp BSGM requiere de algunas definiciones previas.Sea P12···k el conjunto de las k permutaciones cıclicas de 12 · · · k dado por

P12···k = 12 · · · (k − 1)k, 23 · · · (k − 1)k1, . . . , k123 · · · (k − 2)(k − 1).Si ai es la columna i-esima de la matriz A ∈ R

k×k, entonces, para un elementoparticular p = p1p2 · · · pk de P12···k, se define

A(p) = (ap1 |ap2 | · · · |apk), (1.13)

es decir, A(p) es la matriz A con las columnas permutadas de acuerdo a la per-mutacion p ∈ P12···k. Note que A(p) = A · I(p), donde I es la matriz identidad k× k.Ademas, para una matriz B ∈ R

k×k, se define

B[p] =

bp11 bp22 · · · bpkkbp11 bp22 · · · bpkk...

.... . .

...bp11 bp22 · · · bpkk

. (1.14)

Mas aun, el producto Hadamard entre dos matrices A = (aij) y B = (bij) dedimensiones m× n esta dado por A⊙B = (aij bij). Desde esta definicion, se puedever que tal producto es conmutativo, asociativo y su elemento neutro es la matrizJ = 1n · 1⊤

m ∈ Rm×n. Las potencias de exponente a ∈ R para A estan dadas por

AaH = (aaij). Ası, la matriz Hadamard inversa de A esta dada por A−H = (1/aij),siempre que aij 6= 0, para todo i, j. Con estas precisiones, se establece el resultadosiguiente.

Teorema 8. Sea T = (Tij) ∼ BSGn×k(A,B; g), con A = (αij) y B = (βij).Entonces, la densidad de T esta dada por

fT (t) =c

2nk

∣

∣

∣

(

A−H ⊙B−H/2 ⊙ t−H/2 +A−H ⊙BH/2 ⊙ t−3H/2)

d

∣

∣

∣

· g

∑

p∈P1···k

tr(

(A−H ⊙B−H/2 ⊙ tH/2)(p) ⊙ ((A−H)⊤ ⊙ (B−H/2)⊤ ⊙ (tH/2)⊤)[p]

+(A−H ⊙BH/2 ⊙ t−H/2)(p) ⊙ ((A−H)⊤ ⊙ (BH/2)⊤ ⊙ (t−H/2)⊤)[p]

− 2(A−H ⊙B−H/2 ⊙ tH/2)(p) ⊙ ((A−H)⊤ ⊙ (BH/2)⊤ ⊙ (t−H/2)⊤)[p]

)

)

.

Demostracion. Ver Caro, Leiva & Balakrishnan (2012, p. 136-137).

Para efectos de este trabajo, contar con estas tres representaciones de la fdp BSGMpuede favorecer la estimacion de parametros en el sentido que la funcion de ve-rosimilitud puede quedar expresada en distintas formas (algunas mas simples queotras).

12


Kernel u1 u2 u3 u4

N(0,1) 1 3 15 105

t(ν) νν−2

, 3ν2

(ν−2)(ν−4), 15ν3

(ν−2)(ν−4)(ν−6), 105ν4

(ν−2)(ν−4)(ν−6)(ν−8),

ν > 2 ν > 4 ν > 6 ν > 8

Tabla 1.1: valores de E(Uk) = uk si U ∼ Gχ2(1; g), con k = 1, 2, 3, 4, para loskernels (g) indicados.

1.4 Momentos

Sea T ∼ BSGn×k(A,B; g). Considere T k, donde k ∈ N, la potencia k-esima deT segun el producto Hadamard, es decir, T k = T kH . Usando la expresion generalpara los momentos de una variable T ∼ BSG(α, β; g) dada en Leiva, Barros, Paula& Sanhueza (2008, p. 240), se tiene que el momento k-esimo de T esta dado por

E(T k) = BkHk∑

j=0

(

2k

2j

) j∑

i=0

E(Uk+i−j)

(

A

2

)2(k+i−j)H

, (1.15)

donde U sigue una distribucion chi-cuadrado generalizada con un grado de libertad,lo que se denota por U ∼ Gχ2(1; g). Los cuatro primeros momentos de U para loscasos de kernels N(0,1) y t(ν) se presentan en la Tabla 1.1.

Desde la expresion (1.15), se obtiene que los cuatro primeros momentos de Testan dados por

µ1 =B

2(2 + u1A

2H), (1.16)

µ2 =B2H

2(2 + 4u1A

2 + u2A4H), (1.17)

µ3 =B3H

2(2 + 9u1A

2H + 6u2A4H + u3A

6H) (1.18)

y

µ4 =B4H

2(2 + 16u1A

2H + 20u2A4H + 8u3A

6H + u4A8H). (1.19)

1.5 Estimacion de parametros

Para estimar los parametros de la distribucion BSGM se usara el metodo de VM.Sea T (1), . . . ,T (m) una muestra aleatoria de tamano m desde una distribucionBSGn×k(A,B; g). Usando la representacion de la fdp dada en (1.10), se puede

13


escribir la funcion de log-verosimilitud como

ℓ(A,B) =m∑

r=1

ℓr(A,B),

donde

ℓr(A,B) = logc

2nk+ log

(

g

(

n∑

i=1

k∑

j=1

1

α2ij

[

t(r)ij

βij

+βij

t(r)ij

− 2

]))

−n∑

i=1

k∑

j=1

3

2log(

t(r)ij

)

+ log(αij) +1

2log(βij)− log(t

(r)ij + βij)

.

Sea

ur =n∑

i=1

k∑

j=1

1

α2ij

[

t(r)ij

βij

+βij

t(r)ij

− 2

]

= tr(

A−H ⊙B−H/2 ⊙ (t(r))H/2 −A−H ⊙BH/2 ⊙ (t(r))−H/2)

·(

A−H ⊙B−H/2 ⊙ (t(r))H/2 −A−H ⊙BH/2 ⊙ (t(r))−H/2)⊤

.

Entonces, se obtienen las derivadas

∂

∂αij

(ℓr(A,B)) =g

′

(ur)

g(ur)

[

− 2

α3ij

(

t(r)ij

βij

+βij

t(r)ij

− 2

)]

− 1

αij

y

∂

∂βij

(ℓr(A,B)) =g

′

(ur)

g(ur)

(

−t(r)ij

α2ijβ

2ij

+1

α2ijt

(r)ij

)

− 1

2βij

+1

t(r)ij + βij

,

para i = 1, . . . , n y j = 1, . . . , k. Usando el producto Hadamard, estas expresionespueden escribirse como

∂

∂A(ℓr(A,B)) = −2

g′

(ur)

g(ur)·(

A−3H ⊙ t(r) ⊙B−H +A−3H ⊙ (t(r))−H

⊙ B − 2A−3H)

−A−H

y

∂

∂B(ℓr(A,B)) =

g′

(ur)

g(ur)

(

−t(r) ⊙A−2H ⊙B−2H +A−2H ⊙ (t(r))−H)

−1

2B−H + (t(r) +B)−H ,

14


para r = 1, 2, . . . ,m. Finalmente, las ecuaciones de verosimilitud pueden escribirseen forma matricial como

0n×k =m∑

r=1

(−2)g

′

(ur)

g(ur)·(

A−3H ⊙ t(r) ⊙B−H

+ A−3H ⊙ (t(r))−H ⊙B − 2A−3H)

−mA−H

y

0n×k =m∑

r=1

g′

(ur)

g(ur)

(

−t(r) ⊙A−2H ⊙B−2H +A−2H ⊙ (t(r))−H)

−m

2B−H +

m∑

r=1

(t(r) +B)−H .

Ademas, se puede obtener para estas ecuaciones una forma vectorial mediante eluso de la operacion vectorizacion, denotada por vec(·). Con esto, se puede escribir

0nk×1 = −2m∑

r=1

g′

(ur)

g(ur)· vec(A−3H)⊙

(

vec(t(r))⊙ vec(B−H)

+ vec((t(r))−H)⊙ vec(B)− 2vec(J))

−m vec(A−H) (1.20)

y

0nk×1 = −m∑

r=1

g′

(ur)

g(ur)vec(A−2H)⊙

(

vec(T (r))⊙ vec(B−2H)

− vec((t(r))−H))

− m

2vec(B−H) +

m∑

r=1

vec((t(r) +B)−H). (1.21)

La fdp, la funcion de log-verosimilitud y el gradiente (vectorizado) correspondientesal modelo BSGM se han implementado mediante las funciones dGBSM, loglikGBSMy gradGBSM, respectivamente, y se encuentran disponibles en el Anexo A. Estasfunciones son ultiles para efectos de estimacion de parametros y para el desarrollode algun paquete que implemente la distribucion BSGM.

El problema de estimacion puede ser visto como un sistema de ecuacionesno-lineales de dimensionalidad alta. Desde las expresiones anteriores, es claro queno existe forma explıcita para los estimadores de A y B. Ası, el uso de metodosnumericos de optimizacion es requerido. En el Capıtulo 3 se presentan una seriede metodos de optimizacion para problemas de dimensionalidad alta, algunos delos cuales usan la funcion de verosimilitud y otros las ecuaciones (1.20) y (1.21).Estos metodos son aplicados a algunos casos particulares de A y B. En el Capıtulo4 se presenta un algoritmo de estimacion que usa los procedimientos descritos enla Seccion 1.1.3 y, por lo tanto, no requieren ni de la funcion de verosimilitud delmodelo BSGM ni de las ecuaciones (1.20) y (1.21).

15

Capıtulo 2

Generacion de Matrices

Aleatorias BSGM

En este capıtulo se presenta el metodo para generar matrices aleatorias desde unadistribucion BSGM, para los casos de kernels normal y t. Se comienza describiendoalgunos resultados que relacionan las distribuciones CE matrizvariadas y los modelosCE multivariados, y luego se establece el metodo de generacion de matrices aleatoriasBSGM.

2.1 Relacion entre modelos CE matrizvariados y multivariados

Gupta & Varga (1994) presentaron una relacion biunıvoca entre los modelos CEmatrizvariados y multivariados. Para enunciar esta relacion se necesita la definiciondel producto Kronecker.

El producto Kronecker entre dos matrices C ∈ Rm×n y D ∈ R

p×q, denotadopor C ⊗D, es la matriz mp× nq definida como

C ⊗D =

c11D c22D · · · c1nDc21D c22D · · · c2nD...

.... . .

...cm1D cm2D · · · cmnD

. (2.1)

Ademas, para matricesX,Y ∈ Rp×n, A ∈ R

p×p yB ∈ Rn×n, se tienen las relaciones

siguientes que involucran al producto Kronecker:

16


(i) tr(X⊤AY B) = (vec(X⊤))⊤(A⊗B⊤)vec(Y ⊤).

(ii) |A⊗B| = |A|n|B|p.

(iii) (A⊗B)−1 = A−1 ⊗B−1, si A y B son invertibles.

Basados en Gupta & Varga (1994, p. 258), se establece el teorema siguiente.

Teorema 9. Sea X ∈ Rn×k una matriz aleatoria y x = vec(X⊤). Entonces,

X ∼ CEn×k(M ,Ω,Σ; g) si y solo si x ∼ CEnk(vec(M⊤),Σ⊗Ω; g).

Demostracion. X ∼ CEn×k(M ,Ω,Σ; g) si y solo si

fX (X) = c |Ω|−n/2|Σ|−k/2g(tr(Ω−1[X −M ]⊤Σ−1[X −M ])), X ∈ Rn×k. (2.2)

Ademas, x ∼ CEnk(vec(M⊤),Σ⊗Ω; g) si y solo si

fx(x) = c |Σ⊗Ω|−1/2g([x− vec(M⊤)]⊤(Σ⊗Ω)−1[x− vec(M⊤)]), x ∈ Rnk.

Sea x = vec(X⊤). Entonces,

fx(x) = c |Σ⊗Ω|−1/2g(

[vec(X⊤)− vec(M⊤)]⊤(Σ⊗Ω)−1[vec(X⊤)− vec(M⊤)])

= c |Σ⊗Ω|−1/2g(

[vec((X −M )⊤)]⊤(Σ⊗Ω)−1vec((X −M)⊤))

. (2.3)

Usando las propiedades (i), (ii) y (iii), se tiene que

|Σ⊗Ω|−1/2 = |Ω|−n/2|Σ|−k/2,

(Σ⊗Ω)−1 = Σ−1 ⊗Ω−1

y

[vec((X −M )⊤)]⊤(Σ⊗Ω)−1vec((X −M )⊤) = tr(Ω−1[X −M ]⊤Σ−1[X −M ]),

de donde se sigue que las expresiones (2.2) y (2.3) son identicas. Esto completa lademostracion.

Desde el teorema anterior es claro que siX ∼ CEn×k(0n×k, In, Ik; g), entoncesx = vec(X⊤) ∼ CEnk(0nk×1, Ink; g) y viceversa. Esto permite reducir el problemade generacion de matrices aleatorias desde un modelo matrizvariado a la generaciondesde un modelo multivariado. En la literatura no se discuten metodos de generacionde matrices aleatorias, pero sı metodos sobre el caso multivariado; ver, por ejemplo,Gentle (1998), Muirhead (2005) y Parrish (1990).

17


2.2 Matrices aleatorias BSGM

Basados en los resultados dados en la Seccion 2.1, es posible generar matricesaleatorias BSGM, usando vectores aleatorios CE multivariados. Este procedimientose describe a continuacion.

Algoritmo. Dados n, k, A = (αij) ∈ Rn×k, B = (βij) ∈ R

n×k y g, una matrizaleatoria desde la distribucion BSGn×k(A,B; g) puede ser generada mediante lospasos siguientes:

P1 Generar un vector aleatorio z ∈ Rnk desde la distribucion CEnk(0nk, Ink; g).

P2 Crear una matriz Z = (zij) ∈ Rn×k usando el vector z llenando la matriz por

filas, es decir, si

z =

z1

z2...zn

→ Z =

z⊤1

z⊤2...z⊤n

. (2.4)

P3 Para cada elemento zij de la matriz Z, obtener el elemento tij de la siguientemanera

tij = βij

[

αijzij2

+

√

(αijzij2

)2

+ 1

]2

. (2.5)

La matriz T = (tij) es una observacion de la distribucion BSGn×k(A,B; g).

2.3 Implementacion en R-project

El software R-project, en su repositorio CRAN, tiene disponibles los paquetesmnormt y mvtnorm. Estos paquetes implementan, cada uno por separado, las dis-tribuciones normal y t-Student multivariadas. Dentro de sus funciones, existenalgunas para generar vectores aleatorios provenientes desde estas distribuciones, nonecesariamente con el mismo metodo. Sin embargo, cualquiera de los dos paqueteses util para el objetivo de esta tesis, y se ha optado por el uso del paquete mnormt.

Con la ayuda del paquete mnormt, se desarrollo una funcion en el programaR que implementa el algoritmo de la Seccion 2.2, la que se ha llamado rgbsm yque se encuentra disponible en el Anexo A. Esta funcion toma como argumentos eltamano de la muestra (m), las matrices de parametros (A, B), el kernel (g que puedeser “normal” o “t”) y los grados de libertad (nu, en caso de usar el kernel “t”).Esta funcion devuelve una matriz (digamos M ) tal que si t1, t2, . . . , tm es la muestraaleatoria generada desde el modelo BSGM, entonces M = (t1 t2 · · · tm).

18


A modo de ilustracion, suponga que se quiere generar una muestra aleatoriade tamano 4 desde una distribucion BSG2×2(A,B; g) con

A =

(

1 35 9

)

y B =

(

1 120 4

)

,

para los casos de kernel g normal y t(5). Entonces, los comandos del programa Rpara producir esto son:

> parA <- matrix(c(1,3,5,9), byrow=T, ncol=2)

> parB <- matrix(c(1,1,20,4), byrow=T, ncol=2)

> M <- rgbsm(m=4, A=parA, B=parB, kernel="normal")

> M

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 1.504512 5.53717 0.869402 0.3760622 2.20364 0.13734747

[2,] 1.905121 261.05232 6.193385 90.1305575 93.36264 0.06320293

[,7] [,8]

[1,] 0.467514 1.617083

[2,] 328.806574 0.124078

> N <- rgbsm(m=4, A=parA, B=parB, kernel="t", nu=5)

> N

[,1] [,2] [,3] [,4]

[1,] 0.4042375 0.1927220 0.8772293 0.06858746

[2,] 133.7305439 0.0435163 322.6771638 0.01765019

[,5] [,6] [,7] [,8]

[1,] 1.006031 6.96769528 1.025699 0.8677161

[2,] 9.575684 0.02841166 87.785104 35.2281124

Con esto, se han creado las matrices M y N que contienen las muestras aleatoriascorrespondientes en cada caso.

19

Capıtulo 3

Metodos de Optimizacion para

Problemas de Dimensionalidad

Alta

Recuerde que el problema de estimacion de la Seccion 1.5 puede ser visto como unproblema de optimizacion del tipo

(

max f(x)x ∈ R

p+

)

. (3.1)

En este capıtulo se exploran algunos metodos de optimizacion creados especialmentepara problemas en que el argumento de la funcion objetivo es un vector de dimen-sionalidad alta. Primero se presentan algunos aspectos teoricos de tales metodosy luego estos son ilustrados con algunos ejemplos con el objetivo de ver como secomportan para el problema en estudio dado en (3.1).

3.1 Metodos clasicos de optimizacion

El problema de optimizar una funcion f(x), donde x ∈ Rp y f : Rp → R, puede ser

resuelto mediante la ecuacionF (x) = 0, (3.2)

donde F (x) = ∇f(x) = ∇xf(x) y F : Rp → Rp. Dentro de los metodos mas

conocidos y mejores para resolver (3.2) estan el metodo de Newton y los metodoscuasi-Newton; ver Ortega & Rheinboldt (1970) y Dennis & Schnabel (1983).

20


El metodo de Newton emplea una aproximacion cuadratica de la funcion f entorno a un valor estimado de la solucion y lo mejora siguiendo el esquema iterativo

xk+1 = xk − J(xk)−1 · F (xk), (3.3)

donde J : Rp → Rp × R

p es el jacobiano de F . Se sabe que este metodo no siempreconverge a una solucion de (3.2). Para que sı lo haga, se requiere de un puntoinicial suficientemente cerca del optimo local, convergiendo a una velocidad de tipocuadratica. Una de las desventajas de este metodo es que se requiere el calculo dela matriz J(xk) o J(xk)

−1 la cual, sobre todo cuando la dimension del problema esalta, es de muy alto costo computacional.

Los metodos cuasi-Newton intentan evitar el calculo de J o su inversa me-diante alguna aproximacion conveniente. Uno de los metodos cuasi-Newton es el al-goritmo BFGS (Broyden - Fletcher- Goldfarb- Shanno) que usa alguna aproximacionconveniente Hk (donde generalmente H0 es la matriz identidad) paraHk = J(xk)

−1

y se sigue el esquema iterativo siguiente:

Hk+1 = Hk +

(

1 +q⊤k Hkqk

q⊤k pk

)

pkp⊤k

p⊤k qk

− pkq⊤k Hk + Hkqkp

⊤k

p⊤k qk

, (3.4)

donde pk = xk+1−xk y qk = ∇f(xk+1)−∇f(xk). El algoritmo BFGS es consideradoactualmente como el mejor algoritmo para este tipo de problemas. Para mayoresdetalles de los algoritmos de Newton y BFGS, ver Nocedal & Wright (1999).

Cuando el dominio de la funcion f se restringe a D ⊆ Rp, entonces estos

algoritmos podrıan no funcionar correctamente. En este caso se debe cuidar quecada punto xk de las iteraciones pertenezca a D.

Los dos metodos anteriores estan implementados en el software R-project me-diante las funciones nlm y optim. La funcion optim de R-project incorpora entresus opciones el algoritmo L-BFGS-B, que permite agregar restricciones al dominiode la funcion objetivo; ver Byrd, Lu, Nocedal & Zhu (1995).

3.2 Algoritmos SANE y DF-SANE

Recientemente, dos algoritmos eficientes, llamados SANE y DF-SANE, han sidopropuestos en la literatura de analisis numerico para resolver sistemas de ecuacionesno lineales de gran escala; ver La Cruz & Raydan (2003) y La Cruz, Martınez &Raydan (2006). Estos metodos son una extension del metodo de Barzilai-Borweinpara encontrar mınimos locales; ver Barzilai & Borwein (1988) y Raydan (1997).Ellos usan ±F (x) como direcciones de busqueda en una manera sistematica, conuno de los coeficientes espectrales como largo de paso, y una tecnica de lınea debusqueda no-monotona para convergencia global. La simplicidad de la direccion debusqueda y el largo de paso resultan en un bajo costo por iteracion.

21


El enfoque espectral para sistemas no lineales esta definido por la iteracion

xk = xk + λk dk, k = 0, 1, . . . , (3.5)

donde λk es el largo de paso y dk es la direccion de busqueda, la que se define como

dk =

−F (xk) ; para DF-SANE±F (xk) ; para SANE

El unico largo de paso considerado por La Cruz & Raydan (2003) y La Cruz,Martınez & Raydan (2006) es

λk =p⊤k−1pk−1

p⊤k−1qk−1

, k = 1, 2, . . . (3.6)

Para lograr convergencia global, el esquema iterativo (3.5) debe ser combinado conuna tecnica de busqueda lineal apropiada. Detalles de esta tecnica para SANEy DF-SANE pueden verse en La Cruz & Raydan (2003) y La Cruz, Martınez &Raydan (2006), respectivamente. Estos algoritmos se generalizan en el paquete BB

de R-project, mediante la funcion BBsolve que agrega diferentes largos de paso λk

a cada algoritmo. Para mayores detalles, ver Varadhan & Gilbert (2009).

3.3 Otros algoritmos

En el repositorio CRAN de R-project existen tambien otros paquetes utiles, almenos en teorıa, para el problema (3.1). Se proporciona a continuacion una brevedescripcion de cada uno de estos paquetes.

dfoptim. Este paquete implementa dos algoritmos de optimizacion que no usanderivadas, los cuales son Nelder-Mead y Hooke & Jeeves y que no requiereninformacion del gradiente. Estos algoritmos pueden ser usados para resolverproblemas de optimizacion no-suave. Este paquete abarca los casos de optimizacionrestringida y no restringida. Para mas detalles de estos metodos, ver Kelley (1999).

genoud. Este paquete entrega una funcion que combina algoritmos de busquedaevolucionariamente con metodos basados en derivadas (Newton o cuasi-Newton).Esto con el objetivo de resolver problemas de optimizacion difıciles. Esta funcionpuede ser usada para problemas de optimizacion para los cuales las derivadas noexisten. Mayores detalles en Mebane & Sekhon (2011).

minqa. Este paquete entrega algoritmos de optimizacion que no usan derivadas.Dentro de sus algoritmos, existe uno para problemas de optimizacion restringida,

22


que usa un metodo de region de confianza (trust-region). Mas detalles en Powell(2009).

nleqlsv. Este paquete proporciona una funcion para resolver sistemas de ecua-ciones no lineales, usando o el metodo de Broyden o un metodo Newton con eleccionde estrategia global, tal como busqueda lineal o region de confianza. Existenopciones para un jacobiano analıtico o numerico. Mayores detalles en Dennis &Schnabel (1983).

subplex. Subplex es un metodo simplex de busqueda en subespacio para opti-mizacion no restringida de funciones multivariadas generales. Es muy apropiadopara funciones objetivo “ruidosas”. Mas detalles en Rowan (1990).

3.4 Aplicacion al problema de estimacion

En esta seccion se evalua el funcionamiento, para algunos casos particulares, delmodelo BSGM, de los algoritmos siguientes:

Paquete Funcion-algoritmo ¿Optimizacion restringida?nlm no

optim: L-BFGS-B sıBB dfsane noBB sane no

dfoptim hjkb sıdfoptim nmkb sırgenoud rgenoud sıminqa bobyqa sı

nleqslv nleqslv nosubplex subplex no

No se ha hablado especıficamente acerca de la convergencia de estos algoritmosdebido a que interesa ver como funcionan para el problema que se esta analizandoy dado en (3.1), lo que se detectara al estimar los parametros correctamente. Todosestos metodos requieren de un punto inicial y se ha elegido este como las estimacionesde VM del modelo BS para cada αij y βij de las matrices de parametros, las cualesson hechas usando la funcion mlebs del paquete gbs implementado por Barros,Paula & Leiva (2009).

Para evaluar el comportamiento de estos metodos, se realiza la estimacion deparametros del modelo BSGn×k(A,B; g) para los casos siguientes:

• Tamanos de muestra m =10, 50 y 100.

23


• Kernels g: N(0,1), t(2), t(8) y t(20).

• Matrices de parametros:

(i) A1 =

(

1 32 4

)

; B1 =

(

1 65 8

)

.

(ii) A2 =

2 6 102 8 14 9 8

; B2 =

1 9 43 1 208 1 2

.

(iii) A3 =

1 201 41 314 56 77 92 7

; B3 =

9 13 3018 62 27 78 915 9

.

Para cada combinacion de casos, la estimacion se repite 50 veces, y se calcula elpromedio de las estimaciones de los parametros y el promedio del tiempo computa-cional involucrado (∆t) en segundos.

Evaluaciones preliminares muestran que los algoritmos rgenoud y subplex

producen en varias ocasiones errores (la funcion rgenoud definitivamente no se com-porta bien, al menos para el caso del problema (3.1)). Por esta razon, se ha descar-tado el uso de los dos metodos anteriores y optado por considerar los 8 algoritmosrestantes.

3.5 Evaluacion de metodos de optimizacion

Las Tablas 3.1 - 3.15 presentan la simulacion de los metodos mencionados en laSeccion 3.4. Desde los resultados puede observarse que

• Las estimaciones de todos los metodos que se indican son practicamente lasmismas bajo un mismo caso. Es decir, producen los mismos resultados de lasestimaciones.

• Las estimaciones de los metodos se acercan bastante al valor real de losparametros. Solo en el caso de kernel t(2) hay problemas de estimacion, dondese puede apreciar grandes diferencias, sobre todo en el caso cuando el tamanode la muestra es pequeno (m = 10).

• Los metodos mas rapidos son sane, dfsane y nlesqv, mientras que el maslento es bobyqa. En todo caso, los metodos tradicionales nlm y optim +

24


L-BFGS-B son buenas alternativas para estos casos cuando el numero deparametros aumenta.

A los comentarios anteriores debe agregarse que todos estos algoritmos funcionanbien cuando se les proporciona un buen punto inicial, pero si la eleccion de tal puntoes incorrecta, los resultados podrıan cambiar dramaticamente. Ademas de todo loanterior, existe la incertidumbre de si estos algoritmos funcionan bien cuando elnumero de parametros aumenta.

Como solucion a estas interrogantes, en el Capıtulo 4 se propone un procedi-miento de estimacion que supera a los anteriores y que se basa en relaciones entrelos modelos BSG matrizvariados y univariados. Este metodo constituye el centro deesta tesis y es el aporte que se sugiere para la solucion del problema planteado en elCapıtulo 1, y que soluciona las interrogantes anteriores ya que reduce la dimensio-nalidad del problema y el problema del punto inicial.

25


Tabla 3.1: estimacion caso A = A1, B = B1 y m = 10Metodo ∆t α11 α21 α12 α22 β11 β21 β12 β22

kernel = N(0, 1)nlm 0.0216 0.9301 1.7735 2.7807 3.4367 1.0822 5.4886 7.5241 8.8457optim 0.3732 0.9301 1.7735 2.7807 3.4367 1.0822 5.4886 7.5241 8.8457sane 0.0008 0.9301 1.7735 2.7807 3.4367 1.0822 5.4886 7.5241 8.8457dfsane 0.0014 0.9301 1.7735 2.7807 3.4367 1.0822 5.4886 7.5241 8.8457hjkb 0.6012 0.9301 1.7735 2.7807 3.4367 1.0822 5.4886 7.5241 8.8457nmkb 0.7062 0.9301 1.7735 2.7807 3.4367 1.0822 5.4886 7.5241 8.8457bobyqa 0.2366 1.0333 1.7829 2.7807 3.4367 1.1163 5.4886 7.5241 8.8457nlesqv 0.0020 0.9301 1.7735 2.7807 3.4367 1.0822 5.4886 7.5241 8.8457

kernel = t(2)nlm 0.0184 1.8220 3.1425 4.5500 6.6199 1.8673 6.6511 9.2253 18.8099optim 0.3252 1.8220 3.1425 4.5500 6.6199 1.8673 6.6511 9.2253 18.8099sane 0.0008 1.8220 3.1425 4.5500 6.6199 1.8673 6.6511 9.2253 18.8099dfsane 0.0010 1.8220 3.1425 4.5500 6.6199 1.8673 6.6511 9.2253 18.8099hjkb 0.6070 1.8220 3.1425 4.5500 6.6199 1.8673 6.6511 9.2253 18.8099nmkb 0.7124 1.8220 3.1425 4.5500 6.6199 1.8673 6.6511 9.2253 18.8099bobyqa 1.4476 1.8369 3.1425 4.5500 6.6199 1.8916 6.6511 9.2253 18.8098nlesqv 0.0024 1.8220 3.1425 4.5500 6.6199 1.8673 6.6511 9.2253 18.8099



26







27







28


Tabla 3.4: estimacion caso A = A2, B = B2 y m = 10Metodo ∆t α11 α21 α31 α12 α22 α32 α13 α23 α33

kernel = N(0, 1)nlm 0.0482 1.8544 1.7259 3.7657 5.5613 7.2112 7.9141 8.7944 0.9032 7.0332optim 0.9304 1.8544 1.7259 3.7657 5.5613 7.2112 7.9141 8.7944 0.9032 7.0332sane 0.0012 1.8544 1.7259 3.7657 5.5613 7.2112 7.9141 8.7944 0.9032 7.0332dfsane 0.0012 1.8544 1.7259 3.7657 5.5613 7.2112 7.9141 8.7944 0.9032 7.0332hjkb 1.5554 1.8544 1.7259 3.7657 5.5613 7.2112 7.9141 8.7944 0.9032 7.0332nmkb 2.3598 1.8544 1.7259 3.7657 5.5613 7.2112 7.9141 8.7944 0.9032 7.0332bobyqa 7.5398 1.8736 1.7230 3.7650 5.5609 7.2561 7.9358 8.8183 0.8999 7.0332nlesqv 0.0022 1.8544 1.7259 3.7657 5.5613 7.2112 7.9141 8.7944 0.9032 7.0332

kernel = t(2)nlm 0.0420 3.4855 3.3824 6.8520 8.9795 11.8895 15.9766 15.2988 1.8579 13.9679optim 0.8208 3.4855 3.3824 6.8520 8.9795 11.8895 15.9766 15.2988 1.8579 13.9679sane 0.0016 3.4855 3.3824 6.8520 8.9795 11.8895 15.9766 15.2988 1.8579 13.9679dfsane 0.0000 3.4855 3.3824 6.8520 8.9795 11.8895 15.9766 15.2988 1.8579 13.9679hjkb 1.3538 3.4855 3.3824 6.8520 8.9795 11.8895 15.9766 15.2988 1.8579 13.9679nmkb 1.9984 3.4855 3.3824 6.8520 8.9795 11.8895 15.9766 15.2988 1.8579 13.9679bobyqa 7.2416 3.5337 3.3691 6.8463 8.9747 11.9286 16.0364 15.3212 1.8408 14.0311nlesqv 0.0026 3.4855 3.3824 6.8520 8.9795 11.8895 15.9766 15.2988 1.8579 13.9679



29


Tabla 3.5: estimacion caso A = A2, B = B2 y m = 10. ContinuacionMetodo ∆t β11 β21 β31 β12 β22 β32 β13 β23 β33





30







31







32







33







34

DistribucionBirnbaum-SaundersGeneralizadaMatrizvariada

Luis

Sanchez

Tabla 3.10: estimacion caso A = A3, B = B3 y m = 10Metodo ∆t α11 α21 α31 α41 α51 α61 α71 α12 α22 α32 α42 α52 α62 α72

kernel = N(0, 1)nlm 0.0652 0.9301 0.8943 0.9163 3.7657 5.2667 6.2630 1.8107 18.5896 3.4367 28.2909 4.3731 6.2471 8.0864 6.2760optim 1.3666 0.9301 0.8943 0.9163 3.7657 5.2667 6.2630 1.8107 18.5896 3.4367 28.2909 4.3731 6.2471 8.0864 6.2760sane 0.0018 0.9301 0.8943 0.9163 3.7657 5.2667 6.2630 1.8107 18.5896 3.4367 28.2909 4.3731 6.2471 8.0864 6.2760dfsane 0.0012 0.9301 0.8943 0.9163 3.7657 5.2667 6.2630 1.8107 18.5896 3.4367 28.2909 4.3731 6.2471 8.0864 6.2760hjkb 2.3836 0.9301 0.8943 0.9163 3.7657 5.2667 6.2630 1.8107 18.5896 3.4367 28.2909 4.3731 6.2471 8.0864 6.2760nmkb 3.9918 0.9301 0.8943 0.9163 3.7657 5.2667 6.2630 1.8107 18.5896 3.4367 28.2909 4.3731 6.2471 8.0864 6.2760bobyqa 7.4906 1.0328 0.9558 0.9697 3.8037 5.2667 6.2630 1.8111 18.6657 3.4367 28.2908 4.3921 6.2471 8.0864 6.2760nlesqv 0.0044 0.9301 0.8943 0.9163 3.7657 5.2667 6.2630 1.8107 18.5896 3.4367 28.2909 4.3731 6.2471 8.0864 6.2760

kernel = t(2)nlm 0.0692 1.8220 1.6145 1.5512 6.8520 10.5215 12.2150 3.4929 29.8146 6.6199 53.2192 8.9121 11.7814 15.6802 11.3452optim 1.2772 1.8220 1.6145 1.5512 6.8520 10.5215 12.2150 3.4929 29.8146 6.6199 53.2192 8.9121 11.7814 15.6802 11.3452sane 0.0016 1.8220 1.6145 1.5512 6.8520 10.5215 12.2150 3.4929 29.8146 6.6199 53.2192 8.9121 11.7814 15.6802 11.3452dfsane 0.0004 1.8220 1.6145 1.5512 6.8520 10.5215 12.2150 3.4929 29.8146 6.6199 53.2192 8.9121 11.7814 15.6802 11.3452hjkb 2.4244 1.8220 1.6145 1.5512 6.8520 10.5215 12.2150 3.4929 29.8146 6.6199 53.2192 8.9121 11.7814 15.6802 11.3452nmkb 4.0200 1.8220 1.6145 1.5512 6.8520 10.5215 12.2150 3.4929 29.8146 6.6199 53.2192 8.9121 11.7814 15.6802 11.3452bobyqa 14.2146 1.8445 1.6079 1.5475 6.9372 10.5199 12.2145 3.4877 29.9267 6.6179 53.2176 8.9503 11.7809 15.6790 11.3444nlesqv 0.0024 1.8220 1.6145 1.5512 6.8520 10.5215 12.2150 3.4929 29.8146 6.6199 53.2192 8.9121 11.7814 15.6802 11.3452



35


Luis

Sanchez

Tabla 3.11: estimacion caso A = A3, B = B3 y m = 10. ContinuacionMetodo ∆t β11 β21 β31 β41 β51 β61 β71 β12 β22 β32 β42 β52 β62 β72





36


Luis

Sanchez






37


Luis

Sanchez






38


Luis

Sanchez






39


Luis

Sanchez






40

Capıtulo 4

Un procedimiento de estimacion

para el modelo BSGM

En este capıtulo proponemos un procedimiento para estimar los parametros del mo-delo BSGM por el metodo de VM, y constituye el principal aporte de esta tesisya que simplifica y soluciona el problema planteado en el Capıtulo 1. Este proce-dimiento se basa en ciertas relaciones entre los modelos BSG matrizvariado y uni-variado. Primero se presentan estas relaciones y luego se establece el procedimientopropuesto para la estimacion.

4.1 Relacion entre modelos BSG

La relacion entre los modelos CE matrizvariados y multivariados fue presentada enel Teorema 9. Una relacion entre los modelos CE matrizvariados y univariados seenuncia en el teorema siguiente.

Teorema 10. Sea X ∼ CEn×k(M ,Ω,Σ; g) con X = (Xij), M = (mij), Ω = (ωij)y Σ = (σij). Entonces Xij ∼ CE1(mij, ωijσij ; g).

Demostracion. Ver Gupta & Varga (1994, p. 261).

Desde el Teorema 10 se tiene que si X = (Xij) ∼ CEn×k(0, Ik, In; g), entoncesXij ∼ CE1(0, 1; g) ≡ S(g). Con esto, se puede establecer el corolario siguiente.

Corolario 1. Si T ∼ BSGn×k(A,B; g), con T = (Tij), A = (αij) y B = (βij),entonces Tij ∼ BSG(αij, βij ; g).

41


Demostracion. Por la definicion de la distribucion BSGM dada en la Seccion 1.3, setiene que T = h(X), donde h es una transformacion uno a uno de R

n×k en Rn×k

y X ∼ CEn×k(0, Ik, In; g). Mas exactamente, Tij y Xij satisfacen la relacion (1.1)para αij y βij . Como cada Xij ∼ S(g), se concluye que Tij ∼ BS(αij, βij ; g).

4.2 Procedimiento de estimacion

Usando el Corolario 1 se concluye que los estimadores de VM del modelo BSGMpueden ser obtenidos mediante los estimadores de VM de modelos BSG univariadosde la manera expresada en el teorema siguiente.

Teorema 11. Sea T (1), . . . ,T (m) una muestra aleatoria de tamano m desde unadistribucion BSGn×k(A,B; g), donde T (r) = (T

(r)ij ), para r = 1, . . . ,m, A = (αij) y

B = (βij). Entonces, los estimadores de VM del modelo BSGM pueden ser obtenidos

como A = (αij) y B = (βij) donde αij y βij son los estimadores de VM del modelo

BSG(αij, βij ; g) para la muestra aleatoria T(1)ij , T

(2)ij , . . . , T

(m)ij .

Demostracion. Si T (1), . . . ,T (m) siguen una distribucion BSGn×k(A,B; g), entonces

T(1)ij , T

(2)ij , . . . , T

(m)ij siguen una distribucion BSG(αij, βij ; g), y por lo tanto, los

parametros αij y βij son estimados mediante αij y βij . Luego, los estimadores de

VM de A y B son A = (αij) y B = (βij).

En otras palabras, el Teorema 11 dice que el problema de estimacion en unmodelo BSGM de dimension n×k es resuelto mediante nk estimaciones en modelosBSG univariados. Este procedimiento es mucho mas eficiente que los algoritmosdescritos en el Capıtulo 3 aplicados al problema de estimacion, pues la dimensiondel problema (Rn×k) se “reduce” siempre a R

2.Como puede verse, se necesita, pues, un buen algoritmo de estimacion para el

modelo BSG univariado. En esta tesis se ha optado por el uso de los dos algoritmosdescritos al final de la Seccion 1.1.3 para los modelos BS y BS-t y cuya evaluacion desu eficiencia se describe en la Seccion 4.3. En el caso BS, el criterio de convergenciaes el heredado de la funcion uniroot() (que obtiene soluciones de f(x) = 0) quedeclara convergencia cuando f(xn) = 0 o cuando |xn − xn−1| < 10−5, donde xn es laestimacion actual y xn−1 la estimacion anterior. Para el caso BS-t se ha establecido

como criterio de convergencia

∣

∣

∣

∣

xn − xn−1

xn−1

∣

∣

∣

∣

≤ 10−8.

4.3 Simulacion por metodo de Monte Carlo

La calidad de los metodos de estimacion univariados a utilizar es evaluada usandosimulaciones de Monte Carlo desde la distribucion BSG univariada, las cuales usan el

42


generador de numeros aleatorios propuestos por Leiva, Sanhueza, Sen & Paula (2008)y que se encuentra implementado en el paquete gbs de R-project. Los metodos deestimacion para los casos BS y BS-t se han implementado mediante las funcionesmleBS y mleBSt disponibles en Anexo A.

Las simulaciones se llevaron a cabo bajo diferentes escenarios, los que incluyen:el tamano de la muestra, m; el parametro de forma, α (fijando el parametro de escalaβ = 1.0, sin perdida de generalidad); y el kernel, g. En particular, los escenariosconsiderados son:

(E1) tamanos de muestra m =10, 25 y 100, cubriendo valores pequeno, moderadoy grande;

(E2) valores para el parametro de forma α = 0.2, 0.5 y 1.0, donde estos valoresimplican asimetrıa baja, media y alta, respectivamente.

(E3) kernels normal y t(ν), con ν = 2, 8 y 50, donde el valor ν = 2 corresponde aalta curtosis y el valor ν = 50 a baja curtosis, en relacion al caso normal.

La calidad de los metodos de estimacion es estudiada mediante el sesgo y el errorcuadratico medio (ECM) de los estimadores de VM. Las muestras son generadasdesde el modelo BSG con un kernel especıfico (normal o t(ν)), llamado “kernelverdadero” y la estimacion de parametros es calculada desde muestras obtenidasusando el mismo u otro kernel, llamado “kernel asumido”. Los valores del sesgo yel ECM empıricos son los promedios de los valores desde 500 muestras simuladaspara cada combinacion de m, α y kernel (escenarios E1-E3). Los resultados de lassimulaciones son presentados en las Tablas 4.1 y 4.2 para los estimadores de α y β,respectivamente. En aquellos casos donde los modelos verdadero y asumido son elmismo, la calidad de la estimacion es evaluada mediante el sesgo de los estimadoresde α y β. Se obtienen los resultados esperados en el analisis de sesgo. Por ejemplo,el sesgo es mas pequeno cuando el tamano de la muestra es mas grande; el sesgoes mas grande cuando la asimetrıa aumenta; y el sesgo es mas pequeno cuando lacurtosis aumenta. Ademas, se observa que el sesgo es mas grande cuando se estimaβ en lugar de α. La sensibilidad del metodo de estimacion es estudiada a travesdel ECM de los estimadores de α y β. En general, cuando el modelo asumido estamas lejos del modelo verdadero, el ECM de los estimadores se incrementa, tal comose esperaba. El ECM es mas pequeno cuando el tamano de la muestra aumenta ytambien cuando la asimetrıa disminuye. Ademas, el ECM es mas pequeno cuandola curtosis aumenta. Se aprecia que el ECM es mas grande cuando se estima β enlugar de α.

43


Luis

Sanchez

Tabla 4.1: sesgo y ECM basados en simulaciones de Monte Carlo para el valor indicado del parametro (β = 1.0)α m Kernel Estimador de α

asumido Kernel verdaderot(2) t(8) t(50) N(0, 1)

Sesgo ECM Sesgo ECM Sesgo ECM Sesgo ECM0.2 10 t(2) 0.0105 22.2270 -0.0520 230.2836 -0.0619 325.6787 -0.0637 344.9938

t(8) 0.1281 1467.5143 -0.0110 11.4962 -0.0269 62.2200 -0.0296 74.6671t(50) 0.1988 3537.0828 0.0063 2.5591 -0.0132 15.1023 -0.0163 22.6524N(0, 1) 0.2098 3933.6863 0.0097 6.6124 -0.0105 9.5444 -0.0136 15.8887

25 t(2) -0.0012 0.1289 -0.0462 175.8259 -0.0567 269.6943 -0.0586 289.8757t(8) 0.0977 828.3516 -0.0035 0.7140 -0.0213 37.5644 -0.0243 49.6062t(50) 0.2380 5035.1340 0.0179 30.4565 -0.0055 2.3118 -0.0092 7.0068N(0, 1) 0.2693 6414.8665 0.0229 48.7980 -0.0019 0.2852 -0.0058 2.8068

100 t(2) -0.0009 0.0565 -0.0439 160.9442 -0.0534 237.9221 -0.0550 252.8456t(8) 0.0957 773.4384 -0.0012 0.1419 -0.0184 28.4349 -0.0212 37.5669t(50) 0.2175 4019.9898 0.0223 41.7939 -0.0017 0.2610 -0.0053 2.3626N(0, 1) 0.3087 8256.0501 0.0286 69.5751 0.0023 0.4364 -0.0016 0.2142

0.5 10 t(2) 0.0227 81.4655 -0.1307 1456.1471 -0.1553 2053.1715 -0.1598 2174.0133t(8) 0.3198 9104.2274 -0.0287 77.7917 -0.0682 398.4436 -0.0747 476.7560t(50) 0.4432 17366.6967 0.0132 11.1482 -0.0344 102.2248 -0.0420 150.8155N(0, 1) 0.4635 18954.8687 0.0215 31.9993 -0.0277 66.7404 -0.0355 108.0689

25 t(2) -0.0033 0.9361 -0.1157 1104.8576 -0.1419 1691.6079 -0.1468 1817.4387t(8) 0.2861 7531.5838 -0.0092 4.9012 -0.0536 237.0536 -0.0610 312.4244t(50) 0.5689 28513.1554 0.0438 182.7772 -0.0142 15.4642 -0.0233 45.4182N(0, 1) 0.6225 34099.8350 0.0560 292.1420 -0.0054 2.1807 -0.0150 18.7739

100 t(2) -0.0022 0.3703 -0.1097 1007.2418 -0.1335 1488.4024 -0.1377 1581.7044t(8) 0.2395 4843.8046 -0.0032 0.9345 -0.0461 178.1541 -0.0531 235.2332t(50) 0.5532 26169.0209 0.0554 258.7067 -0.0044 1.7116 -0.0134 14.9676N(0, 1) 0.7424 47642.7153 0.0712 429.3340 0.0056 2.5979 -0.0040 1.4139

1.0 10 t(2) 0.0647 538.3001 -0.2647 5979.3301 -0.3138 8385.3840 -0.3227 8870.3306t(8) 0.6051 32617.1284 -0.0626 366.1950 -0.1402 1685.1977 -0.1531 2004.4449t(50) 0.7913 54994.6895 0.0160 15.1174 -0.0754 490.0319 -0.0903 698.4243N(0, 1) 0.8242 59540.2845 0.0311 64.6059 -0.0628 341.8406 -0.0781 523.6061

25 t(2) -0.0069 4.3570 -0.2327 4473.2889 -0.2850 6822.8397 -0.2946 7322.2455t(8) 0.5886 31052.2329 -0.0199 23.6693 -0.1082 969.3512 -0.1230 1272.0289t(50) 1.0799 102265.3445 0.0837 669.1006 -0.0305 72.0317 -0.0487 197.7851N(0, 1) 1.1668 119348.9224 0.1069 1066.4790 -0.0135 13.3139 -0.0325 87.5766

100 t(2) -0.0046 1.5145 -0.2199 4041.1881 -0.2673 5966.8113 -0.2757 6340.1815t(8) 0.4812 19564.1900 -0.0068 4.1554 -0.0926 716.5365 -0.1065 944.8609t(50) 1.1424 112845.5432 0.1097 1014.3695 -0.0093 7.6288 -0.0272 61.8104N(0, 1) 1.4443 179952.9048 0.1406 1673.7603 0.0105 9.2328 -0.0087 6.4085

44


Luis

Sanchez

Tabla 4.2: sesgos y ECM basados en simulaciones de Monte Carlo para el valor indicado del parametro (β = 1.0).Continuacion.

α m Kernel Estimador de βasumido Kernel verdadero

t(2) t(8) t(50) N(0, 1)Sesgo ECM Sesgo ECM Sesgo ECM Sesgo ECM

0.2 10 t(2) 0.0919 1576.6487 0.0006 0.6400 0.0002 0.6054 0.0002 0.6188t(8) 0.1038 1992.0073 0.0003 0.2801 -0.0003 0.2459 -0.0001 0.3029t(50) 0.1066 2061.9378 0.0002 0.1696 -0.0002 0.1689 0.0000 0.2491N(0, 1) 0.1081 2103.4275 0.0002 0.1553 -0.0002 0.1563 0.0000 0.2417

25 t(2) -0.0014 0.3762 -0.0014 0.2809 -0.0014 0.2698 -0.0014 0.2784t(8) -0.0020 0.3745 -0.0007 0.1508 -0.0011 0.1637 -0.0012 0.1772t(50) 0.0226 149.3643 0.0000 0.2284 -0.0007 0.1544 -0.0010 0.1554N(0, 1) 0.0284 198.3857 0.0002 0.2868 -0.0006 0.1602 -0.0009 0.1548

100 t(2) -0.0013 0.2229 -0.0010 0.1283 -0.0011 0.1413 -0.0010 0.1356t(8) -0.0014 0.1342 -0.0006 0.0554 -0.0007 0.0641 -0.0006 0.0559t(50) 0.0028 0.9252 -0.0001 0.0336 -0.0003 0.0352 -0.0003 0.0318N(0, 1) 0.0160 21.0647 0.0001 0.0342 -0.0002 0.0325 -0.0002 0.0297

0.5 10 t(2) 0.3148 16932.7757 0.0116 21.7245 0.0102 19.1565 0.0101 19.4204t(8) 0.3301 18189.3673 0.0100 12.5342 0.0076 9.9317 0.0080 11.3049t(50) 0.3613 20669.0928 0.0103 10.3651 0.0078 8.7037 0.0083 10.7021N(0, 1) 0.3679 21213.5205 0.0105 10.1232 0.0079 8.5671 0.0085 10.7163

25 t(2) 0.0021 4.9951 0.0008 2.9082 0.0004 2.6271 0.0004 2.7486t(8) 0.0853 1753.9220 0.0022 2.7055 0.0006 1.7458 0.0000 1.6358t(50) 0.1693 4409.6394 0.0046 5.4157 0.0015 2.1349 0.0007 1.7740N(0, 1) 0.1879 5121.1432 0.0054 6.6533 0.0018 2.3354 0.0010 1.8751

100 t(2) -0.0021 0.7173 -0.0015 0.4339 -0.0016 0.4859 -0.0015 0.4608t(8) -0.0007 0.7928 -0.0002 0.1938 -0.0007 0.2020 -0.0006 0.1772t(50) 0.0403 133.3174 0.0013 0.3611 0.0003 0.1906 0.0003 0.1678N(0, 1) 0.1161 1160.3032 0.0019 0.5101 0.0005 0.2273 0.0005 0.1943

1.0 10 t(2) 0.7157 83984.2187 0.0528 309.4183 0.0484 274.2287 0.0483 278.9167t(8) 0.7913 94255.8031 0.0449 178.0408 0.0372 145.2769 0.0380 159.0326t(50) 0.8313 99975.2384 0.0470 173.4506 0.0375 137.1411 0.0384 154.8427N(0, 1) 0.8378 100785.8572 0.0478 176.1843 0.0378 137.2471 0.0387 155.8030

25 t(2) 0.0208 70.0405 0.0140 39.3795 0.0121 33.8068 0.0117 33.7354t(8) 0.2437 9993.0000 0.0158 37.5923 0.0098 19.8730 0.0083 17.6019t(50) 0.4213 22667.7008 0.0223 66.0820 0.0118 23.7163 0.0097 19.2681N(0, 1) 0.4426 24421.7635 0.0244 76.7724 0.0126 25.5794 0.0103 20.3074

100 t(2) -0.0003 1.2123 0.0006 0.9234 0.0001 0.8049 0.0002 0.7347t(8) 0.0107 24.9487 0.0036 1.7885 0.0018 0.8290 0.0018 0.7424t(50) 0.1737 2788.6308 0.0077 5.7383 0.0038 2.0680 0.0034 1.6756N(0, 1) 0.2672 6333.1582 0.0093 7.8943 0.0043 2.5993 0.0039 2.0469

45

Capıtulo 5

Aplicacion

En este capıtulo se presenta la aplicacion del modelo BSGM a un conjunto de datosreales con el objetivo de ver el funcionamiento del metodo de estimacion y comparardistintos modelos BSGM.

5.1 El conjunto de datos

Una muestra aleatoria de codigos postales britanicos manuscritos ha sido recolectaday digitalizada. Dryden & Mardia (1998, pp. 318-320) presentaron los datos de“landmarks” correspondientes al dıgito “3” manuscrito.

Un landmark es un punto de correspondencia sobre cada objeto que coincideentre y dentro de poblaciones; ver Dryden & Mardia (1998, p. 3). En la Figura 5.1se presentan los 13 landmarks de una imagen de dıgito “3” manuscrito. El landmark1 esta en la parte inferior extrema izquierda, el 4 esta en la curvatura maxima delarco inferior, el 7 esta en el punto extremo de protuberancia central, el 10 estaen la curvatura maxima del arco superior y el 13 es el punto izquierdo superiorextremo. Los otros landmarks son “pseudo-landmarks” ubicados aproximadamenteen intervalos iguales entre los landmarks anteriores.

Hay m = 30 dıgitos manuscritos (tamano de la muestra) con n = 13 land-marks y k = 2 dimensiones (el dıgito manuscrito es considerado en un sistemacartesiano). En la Figura 5.2 se observa la muestra aleatoria de los 30 dıgitosmanuscritos. En el Anexo B se presenta el conjunto de datos donde cada par delıneas corresponden a una observacion del dıgito 3 manuscrito, y las coordenadasestan en el orden (x1, y1), (x2, y2), . . . , (xn, yn). Los landmarks fueron digitalizados

46


Figura 5.1: landmarks para dıgito 3 manuscrito

por Anderson (1997).Es de interes examinar la media de la forma y la variabilidad de la forma,

pues, esta puede ser usada como un modelo para el reconocimiento de dıgitos desdeimagenes de codigos postales manuscritos; ver Dryden & Mardia (1998, p. 13).Por tanto, estimar la media de la forma es de mucha importancia. Para hacer estaestimacion, una alternativa es suponer un modelo para los datos y estimar su mediabajo esa distribucion.

El objetivo de estudio de este conjunto de datos, para esta aplicacion, esestimar la media de la forma del dıgito “3” manuscrito. Para ello, primero se suponeque los datos siguen una distribucion CE y luego que estos siguen una distribucionBSGM. Se escogera el mejor modelo entre los anteriores y luego se estimara la mediade la forma.

5.2 Ajuste de modelos CE matrizvariados a los datos

En esta seccion, se ajustan dos modelos CE matrizvariados a los datos: el modelonormal y el modelo t-Student con ν = 3, 8 y 50 (considerando curtosis alta ν = 3y baja ν = 50). Las matrices de escala son escogidas como Ω = σ2 I2, donde σ2

corresponde a un parametro de dispersion, y Σ = I13. Esta eleccion de las matricesde escala se debe a que con esto se tiene un caso isotropico ası como lo es el modeloBSGM. Entonces, los parametros a estimar son σ2 y M (la media del modelo).

Debido a la relacion biunıvoca entre los modelos CE matrizvariados y multi-

47


Figura 5.2: muestra aleatoria de dıgito 3 manuscrito.

variados dada en el Teorema 9, se puede desarrollar el procedimiento de estimacionusando modelos CE multivariados equivalentes, ası pues el modelo sobre el cualse debe hacer la estimacion puede ser considerado como CE26(µ, σ

2 I26; g), dondeµ = vec(M⊤).

La funcion de log-verosimilitud basada en una muestra x1,x2, . . . ,xn conxi ∼ CEp(µ, σ

2 Ip; g), para i = 1, 2, . . . , n, esta dada por

ℓ(µ, σ2) = m log(c)− mp

2log(σ2) +

n∑

i=1

log

g

(

1

σ2(xi − µ)⊤(xi − µ)

)

. (5.1)

Para el caso normal, es decir, g(u) = e−u/2 y c = c1 = (2π)−p/2, la funcion de

48


log-verosimilitud queda expresada como

ℓ(µ, σ2) = −np

2log(2π)− np

2log(σ2)− 1

2σ2

n∑

i=1

(xi − µ)⊤(xi − µ), (5.2)

desde donde las primeras derivadas con respecto a µ y σ2, denotadas por ℓµ y ℓσ2 ,respectivamente, son

ℓµ = − 1

2σ2(−2

n∑

i=1

xi + 2nµ)

y

ℓσ2 = − np

2σ2+

1

2σ4

n∑

i=1

(xi − µ)⊤(xi − µ).

Igualando a cero estas expresiones se obtienen formas explıcitas para los estimadoresde VM de µ y σ2, dados por

µN =1

n

n∑

i=1

xi

y

σ2N =

1

np

n∑

i=1

(xi − µ)⊤(xi − µ).

En cuanto al caso t, donde g(u) = (1+1

νu)−(ν+p)/2 y c = c2 =

(νπ)−p/2Γ((ν + p)/2)

Γ(ν/2),

la funcion de log-verosimilitud se expresa como

ℓ(µ, σ2) = n log(c2)−np

2log(σ2)−

(

ν + p

2

) n∑

i=1

log

(

1 +1

νσ2(xi − µ)⊤(xi − µ)

)

.

(5.3)Las primeras derivadas con respecto a µ y σ2 son

ℓµ = −(

ν + p

νσ2

) n∑

i=1

µ− xi

1 + siν

y

ℓσ2 = − np

2σ2+

ν + p

2σ2

n∑

i=1

siν

1 + siν

,

donde si = 1σ2 (xi − µ)⊤(xi − µ). Igualando a cero las expresiones anteriores se

obtienen ecuaciones implıcitas para los estimadores de VM, esto es,

µt =

∑ni=1

xi

ν+si∑n

i=11

ν+si

49


y

σ2t =

ν + p

np

n∑

i=1

(xi − µ)⊤(xi − µ)

ν + si.

Usando el software R-project se han obtenido las estimaciones de VM para estoscuatro casos: normal, t(3), t(8) y t(50). Para el caso t se ha usado la funcion optim

con el metodo L-BFGS-B sobre la funcion de log-verosimilitud. Las estimaciones sepresentan a continuacion:

(i) Caso normal:

M1 =

13.3667 38.433319.3667 40.333327.4000 39.466731.6000 34.400029.0333 29.166723.9000 26.433318.0000 25.500022.5000 23.933325.6667 21.533327.1667 18.333324.2000 15.433317.6667 14.500011.6333 15.2000

y σ21 = 19.7130

(ii) Caso t(3):

M2 =

14.0576 38.845919.8927 40.203227.2996 39.037430.8704 34.005428.2512 28.791822.9471 26.248117.3756 25.925922.0327 24.457225.5007 21.898927.4817 18.340424.5527 15.279117.8412 14.551412.1077 15.6311

y σ22 = 12.0416

(iii) Caso t(8):

50


M3 =

13.9340 38.827519.8352 40.307727.3968 39.159631.0851 34.068628.4093 28.825423.1013 26.227917.4012 25.750622.0840 24.326625.5180 21.821827.4373 18.332824.5181 15.311717.8616 14.511112.0995 15.4718

y σ23 = 13.0665

(iv) Caso t(50):

M4 =

13.6284 38.697619.6380 40.426427.5206 39.378731.4969 34.228428.7728 28.953323.5003 26.271017.5804 25.495822.2579 24.069425.5839 21.650727.3152 18.322124.3837 15.387417.8136 14.481611.9306 15.2417

y σ24 = 16.3321.

5.3 Ajuste de modelos BSGM a los datos

Usando el metodo de estimacion propuesto en la Seccion 4.2, se ha ajustado elmodelo BSGM usando los kernels: N(0,1), t(3), t(8) y t(50). Los valores ν = 3, 8 y50 son escogidos para variar la curtosis del modelo BSGM, considerando curtosis alta(ν = 3) y baja (ν = 50). Las estimaciones de VM para las matrices de parametrosA y B son:

51


(i) Caso kernel N(0,1):

A1 =

0.4365 0.09520.2439 0.08370.1748 0.08730.1347 0.10160.1519 0.14130.2038 0.15830.3977 0.15100.2377 0.15570.1847 0.18840.1864 0.21700.2229 0.27600.3097 0.32120.7378 0.3617

y B1 =

12.1970 38.260118.8071 40.192626.9874 39.317031.3159 34.223528.7021 28.878523.4136 26.106016.6738 25.212621.8816 23.646825.2363 21.157726.7029 17.911523.6129 14.866516.8562 13.78689.0338 14.2620

(ii) Caso kernel t(3):

A2 =

0.3469 0.06110.2032 0.06360.1411 0.07610.1169 0.08740.1339 0.11470.1468 0.11930.2608 0.12030.1776 0.11860.1489 0.14370.1541 0.17380.1729 0.20650.2270 0.23760.4089 0.2570

y B2 =

13.0256 38.738319.4314 40.524227.3225 39.643631.1008 34.461128.4134 29.050723.1543 26.761517.3786 25.715222.0528 24.169025.4177 21.549126.9817 18.047224.0705 15.216017.4440 14.351911.2807 15.3127

(iii) Caso kernel t(8):

A3 =

0.3906 0.07380.2272 0.07230.1579 0.08250.1272 0.09530.1442 0.13020.1746 0.14190.3225 0.13740.2088 0.13970.1670 0.16690.1714 0.19420.1975 0.24310.2662 0.27960.5250 0.3068

y B3 =

12.6100 38.567319.0513 40.391827.1965 39.444931.2372 34.305828.5938 28.935723.3910 26.395617.1638 25.441722.0225 23.876225.3520 21.349126.7753 18.000223.8649 15.082817.2214 14.108710.5798 14.8229

52


(iv) Caso kernel t(50):

A4 =

0.4275 0.08990.2411 0.08120.1715 0.08640.1334 0.10040.1506 0.13940.1979 0.15560.3822 0.14860.2324 0.15300.1813 0.18440.1836 0.21240.2180 0.27020.3010 0.31360.6936 0.3508

y B4 =

12.2790 38.351118.8464 40.242027.0338 39.338231.3037 34.235728.6848 28.886123.4309 26.155816.7972 25.252921.9151 23.685425.2618 21.194726.7094 17.935023.6660 14.909116.9387 13.85189.3736 14.3765

.

En todos los casos considerados se han obtenido las estimaciones de VM sin proble-mas de calculo.

5.4 Seleccion del mejor modelo

Para seleccionar el mejor modelo (de entre un conjunto de modelos) para los datos,existen criterios de seleccion de modelos basados en perdida de informacion, talescomo Akaike (AIC) y bayesiano de Schwarz (BIC). Estos criterios permiten compararmodelos para el mismo conjunto de datos y estan dados por

AIC = 2p− 2ℓ(θ)

yBIC = p log(m)− 2ℓ(θ),

donde θ es el vector (o matriz) de parametros estimado, ℓ(θ) es la funcion de log-verosimilitud evaluada en θ, m es el tamano de la muestra y p es el numero deparametros del modelo. Un modelo cuyo criterio de informacion es menor es mejor;ver Spiegelhalter, Best, Carlin & Van der Linde (2002). En la Tabla 5.1 se muestranlos valores AIC y BIC para los diferentes modelos matrizvariados presentados en lassecciones 5.2 y 5.3, desde donde, segun ambos criterios, se concluye que el mejor deentre estos es el modelo BS-t(3)13×2.

Generalmente, las diferencias entre dos valores del criterio de informacion noson muy evidentes. En ese caso, el factor de Bayes (FB) puede ser usado paradestacar tales diferencias, si ellas existen. Para definir el FB, se asume que losdatos D pertenecen a uno de dos modelos hipoteticos, llamense M1 y M2, segun

53


Modelo matrizvariado AIC BICNormal 4592.943 4630.775t(3) 4474.200 4512.032t(8) 4475.490 4513.322t(50) 4531.207 4569.039

BS-t(3) 2627.361 2700.223BS-t(8) 3414.185 3487.048BS-t(50) 4281.617 4354.479

BS 4643.942 4716.804

Tabla 5.1: valores AIC y BIC para modelos CE y BSGM con kernels: N(0,1), t(3),t(8) y t(50).

2 log(B12) Evidencia en favor de M1

< 0 Negativa (M2 es aceptado)[0, 2) Debil[2, 6) Positiva[6, 10) Fuerte≥ 10 Muy fuerte

Tabla 5.2: interpretacion de 2 log(B12) asociado con FB.

las probabilidades P(D | M1) y P(D | M2), respectivamente. El FB que permitecomparar M1 (modelo considerado como correcto) a M2 (modelo a ser contrastadocon M1) esta dado por

B12 =P(D | M1)

P(D | M2). (5.4)

Basado en (5.4), se puede usar la aproximacion

2 log(B12) ≈ 2[

ℓ(θ1)− ℓ(θ2)]

− [p1 − p2] log(m), (5.5)

donde ℓ(θk) es la funcion de log-verosimilitud para el parametro θk bajo el modeloMk evaluado en θ = θk y pk es la dimension de θk, para k = 1, 2. Note que laaproximacion en (5.5) es calculada sustrayendo al valor BIC del modelo M2, dadopor BIC2 = −2ℓ(θ2) + p2 log(m), el valor BIC del modelo M1, dado por BIC1 =−2ℓ(θ1) + p1 log(m).

En general, el FB es informativo porque presenta rangos de valores en loscuales el grado de superioridad de un modelo con respecto a otro puede ser cuan-tificado. Una interesante interpretacion del FB es mostrado en la Tabla 5.2; verVilca, Santana, Leiva & Balakrishnan (2011) y sus referencias dentro. La Tabla 5.3presenta el calculo del FB aplicado a la comparacion entre el modelo BS-t(3)13×2

54


Modelo matrizvariado M2 2 log(B12) Evidencia en favor de M1

Normal 1930.552 Muy fuertet(3) 1811.809 Muy fuertet(8) 1813.099 Muy fuertet(50) 1868.816 Muy fuerte

BS-t(8) 786.825 Muy fuerteBS-t(50) 1654.256 Muy fuerte

BS 2016.581 Muy fuerte

Tabla 5.3: valores del FB (2 log(B12)) entre M1 y M2.

(modelo M1) y los restantes (cada uno considerado como modelo M2). Se apreciaque en todos los casos, hay una evidencia muy fuerte para preferir el modelo M1

en lugar de cualquiera de los otros. Interesantemente, el modelo BSGM, que esasimetrico, se ajusta mejor que los modelos CE. Por lo tanto, por estos tres criterios(AIC, BIC y FB) la preferencia del modelo BS-t(3)13×2 es justificada, y es el modeloa usar para estimar la media de la forma de los datos. Los codigos en el softwareR-project para obtener tanto las estimaciones de A y B como los valores de AIC yBIC para cada modelo estan disponibles en el Anexo C.

5.5 Estimacion de la media de la forma

Recuerde que la media de una variable aleatoria T ∼ BSGn×k(A,B; g) esta dadapor la expresion (1.16), es decir,

E(T ) = µ =B

2⊙ (2 + u1 A

2H).

En el caso de los kernels t(3), t(8), t(50) y N(0,1) se tiene u1 = 3, 4/3, 25/24 y 1,respectivamente; ver Tabla 1.1. Uniendo las coordenadas de los landmarks porsegmentos de lınea recta, se pueden apreciar las formas de las observaciones delconjunto de datos y la de las medias estimadas. La Figura 5.3 presenta las mediasestimadas bajo los modelos normal, t(3), t(8) y t(50) matrizvariados, donde nose aprecia, visualmente, una diferencia significativa. Lo mismo se ha hecho en laFigura 5.4 para los modelos matrizvariados BS, BS-t(3), BS-t(8) y BS-t(50), dondese aprecia que la media de la forma estimada bajo el modelo BS-t(3) se diferenciabastante de las demas. Finalmente, en la Figura 5.5 se presentan las ocho mediasestimadas bajo los modelos anteriores (con los mismos colores) y nuevamente sepuede apreciar que la media estimada bajo el modelo BS-t(3) escapa de la tendenciade las otras.

En cuanto al calculo numerico de la media de la forma estimada bajo en modeloBS-t(3)13×2, este se obtiene reemplazando las estimaciones A2 y B2 en (1.16), y ası,

55


10 15 20 25 30 35 40

1020

3040

x

y

Figura 5.3: media estimada bajo los modelos matrizvariados normal (curva negra),t(3) (roja), t(8) (verde) y t(50) (azul).

10 15 20 25 30 35 40

1020

3040

x

y

Figura 5.4: media estimada bajo los modelos matrizvariados BS (curva gris), BS-t(3)(turquesa), BS-t(8) (magenta) y BS-t(50) (amarillo).

56


10 15 20 25 30 35 40

1020

3040

x

y

Figura 5.5: media estimada bajo los modelos CE y BSG matrizvariados.

una estimacion para la media de la forma del dıgito 3 es

µ =

15.3762 38.955520.6353 40.770328.1387 39.987831.7388 34.856029.1770 29.624323.9033 27.333019.1515 26.273323.0961 24.679126.2634 22.216327.9433 18.865425.1499 16.189018.7918 15.567314.1099 16.8298

.

En la Figura 5.6 se presenta un grafico que superpone las observaciones de la muestra(curvas anaranjadas) y la media estimada de la forma (curva azul), desde donde seaprecia una tendencia clara a ampliar mas la curva superior del dıgito 3 que la dela parte inferior y, visiblemente, una estimacion adecuada de esta media.

57


0 10 20 30 40 50

010

2030

4050

x

y

Figura 5.6: superposicion de la media estimada (curva azul) y las observaciones dela muestra (curvas anaranjadas).

58

Conclusiones y Trabajos

Futuros

En este trabajo se ha propuesto un procedimiento de estimacion para los parametrosdel modelo BSGM propuesto por Caro, Leiva & Balakrishnan (2012). Es-pecıficamente,

• Mediante el estudio de las relaciones matematicas entre los modelos CE yBSG, se ha propuesto un generador de matrices aleatorias BSGM.

• Se ha desarrollado un procedimiento de estimacion de los parametros del mo-delo BSGM, para los casos de kernels normal y t-Student, basado en estima-ciones de parametros de modelos BSG univariados.

• Se ha evaluado el funcionamiento del metodo de estimacion propuesto me-diante simulaciones de Monte Carlo, las que muestran el muy buen fun-cionamiento de este procedimiento.

• Se ha aplicado el modelo BSGM a un conjunto de datos reales para ilustrar laestimacion de parametros y comparar distintos modelos BSGM.

• Se ha elaborado en el software R-project una serie de funciones para el usodel modelo BSGM, que incluyen la generacion de matrices aleatorias y laestimacion de parametros.

Dentro de los posibles trabajos futuros que se pueden desarrollar, teniendocomo base esta tesis, estan los siguientes:

(i) Estudiar la generacion del modelo BSGM bajo los siguientes escenarios:

– Cuando la matriz M de la distribucion CE que genera el modelo BSGMes no nula;

59


– Cuando las matrices de escala Σ y Ω son diferentes de la matriz identidad(es decir, estructura de covarianza no trivial); y

– Mezclando los dos escenarios anteriores.

(ii) Estudiar bajo los escenarios descritos en (i), los temas siguientes:

– Las representaciones de la densidad del modelo BSGM. ¿Podrıan estable-cerse los mismos tipos de representaciones mostradas en el Capıtulo 1?

– La generacion de matrices aleatorias BSGM.

– Proponer un procedimiento de estimacion. ¿Que dificultades desde elpunto de vista teorico y computacional existirıan? ¿Puede usarse unprocedimiento similar al propuesto en el Capıtulo 4?

60

Bibliografıa

Anderson, C.R. (1997). Object recognition using statistical shape analysis. PhD the-sis, University of Leeds.

Anderson, G.W., Guionnet, A., Zeitouni, O. (2009) An Introduction to RandomMatrices. Cambridge University Press, Cambridge, England.

Balakrishnan, N., Leiva, V., Sanhueza, A., Vilca, F. (2009) Estimation in theBirnbaum-Saunders distribution based on scale-mixture of normals and the EM-algorithm. Statistics and Operations Research Transactions, 33, 171-192.

Barros, M., Paula, G.A., Leiva, V. (2008) A new class of survival regression modelswith heavy-tailed errors: robustness and diagnostics. Lifetime Data Analysis, 14,316-332.

Barros, M., Paula, G.A., Leiva, V. (2009) An R implementation for generalizedBirnbaum-Saunders distributions. Computational Statistics and Data Analysis,53, 1511-1528.

Barzilai, J., Borwein, J.M. (1988) Two-point step size gradient methods. IMA Jour-nal of Numerical Analysis, 8, 141-148.

Bhatti, C.R. (2010) The Birnbaum-Saunders autoregressive conditional durationmodel. Mathematics and Computers in Simulation, 80, 2062-2078.

Birnbaum, Z.W., Saunders, S.C. (1969a) A new family of life distributions. Journalof Applied Probability, 6, 637-52.

Birnbaum, Z.W., Saunders, S.C. (1969b) Estimation for a family of life distributionswith applications to fatigue. Journal of Applied Probability, 6, 328–347.

Brent, R. (1973) Algorithms for Minimization without Derivatives. Englewood Cliffs,Prentice-Hall, New Jersey.

61


Byrd, R. H., Lu, P., Nocedal, J., Zhu, C. (1995) A limited memory algorithmfor bound constrained optimization. SIAM Journal on Scientific Computing, 16,1190–1208.

Caro, F.J., Dıaz, J.A., Gonzalez, G. (2010) Noncentral elliptic configuration density.Journal of Multivariate Analysis, 101, 32-43.

Caro, F.J., Leiva, V., Balakrishnan, N. (2012) Connection between the Hadamardand matrix products with an application to a matrix-variate Birnbaum-Saundersdistribution. Journal of Multivariate Analysis, 104, 126-139.

Dennis, JE., Schnabel, RB. (1983) Numerical Methods for Unconstrained Optimiza-tion and Nonlinear Equations. Englewood Cliffs, Prentice-Hall, New Jersey.

Dennis, JE., Schnabel, RB. (1996) Numerical Methods for Unconstrained Optimiza-tion and Nonlinear Equations. SIAM Publications, Philadelphia.

Dıaz-Garcıa, J.A., Domınguez-Molina, J.R. (2006) Some generalizations ofBirnbaum-Saunders and sinh-normal distributions. International MathematicalForum, 1, 1709-1727.

Dıaz-Garcıa, J.A., Domınguez-Molina, J.R. (2007) A new family of life distributionsfor dependent data: estimation. Computational Statistics and Data Analysis, 51,5927-5939.

Dıaz-Garcıa, J.A., Leiva, V. (2005) A new family of life distributions based onelliptically contoured distributions. Journal of Statistical Planning and Inference,128, 445-457.

Dıaz-Garcıa, J.A., Leiva, V., Galea, M. (2002) Singular elliptic distribution: densityand applications. Communications in Statistics: Theory and Methods, 31, 665-681.

Dryden, I.L, Mardia, K.V. (1998). Statistical Shape Analysis. Wiley, Chichester.

Fang, K.T., Kotz, S., Ng, K.W. (1990) Symmetric Multivariate and Related Distri-butions. Chapman, London.

Fang, K.T., Zhang, Y.T. (1990) Generalized Multivariate Analysis. Springer, Berlin.

Gentle, J.E. (1998) Random Number Generation and Monte Carlo Methods.Springer, New York.

Gupta, A. K., Nagar, D. K. (1999) Matrix variate distributions. Chapman &Hall/CRC, Boca Raton, FL.

62


Gupta, A.K., Varga, T. (1993) Elliptically Contoured Models in Statistics. KluwerAcademic Publishers, Boston.

Gupta, A.K., Varga, T. (1994) A new class of matrix variate elliptically contoureddistributions. Journal of Indian Statistical Association, 3, 255-270.

Hastie, T., Tibshirani, R. (1992) Handwritten digit recognition via deformable pro-totypes. Technical report, AT&T Bell Laboratories.

Hull, J. J. (1990) Character recognition: the reading of text by computer. In Shapiro,S. C. editor, Encyclopedia of Artificial Intelligence, Vols. 1,2, pages 82-88. WileyInterscience, New York.

Johnson, N.L., Kotz, S., Balakrishnan, N. (1994) Continuous Univariate Distribu-tions-Vol. 1. Wiley, New York.

Johnson, N.L., Kotz, S., Balakrishnan, N. (1995) Continuous Univariate Distribu-tions-Vol. 2. Wiley, New York.

Kelley, C.T. (1999) Iterative Methods for Optimization. SIAM, Philadelphia.

Kotz, S., Balakrishnan, N., Johnson, N.L. (2000) Continuous Multivariate Distribu-tions-Vol. 1. Wiley, New York.

Kundu, D., Balakrishnan, N., Jamalizadeh, A. (2010) Bivariate Birnbaum-Saundersdistribution and associated inference. Journal of Multivariate Analysis, 101, 113-125.

La Cruz, W., Martınez, J.M., Raydan, M. (2006) Spectral residual method with-out gradient information for solving large-scale nonlinear systems of equations.Mathematics of Computation, 75, 14-29.

La Cruz, W., Raydan, M. (2003) Spectral methods for large-scale nonlinear systems.Optimization Methods and Software, 18, 583-599.

Lange, K.L., Little, J.A., Taylor, M.G. (1989) Robust statistical modelling usingthe t distribution. Journal of the American Statistical Association, 84, 881-896.

Leiva, V., Barros, M., Paula, G.A., Sanhueza, A. (2008) Generalized Birnbaum-Saunders distribution applied to air pollutant concentration. Environmetrics, 19,235-249.

Leiva, V., Hernandez, H., Riquelme, M. (2006) A new package for the Birnbaum-Saunders distribution. R Journal, 6, 35-40.

63


Leiva, V., Sanhueza, A., Sen, P.K., Paula, G.A. (2008) Random number genera-tors for the generalized Birnbaum–Saunders distribution. Journal of StatisticalComputation and Simulation, 78, 1105-1118.

Lucas, A. (1997) Robustness of the student t based M-estimator. Communicationsin Statistics: Theory and Methods, 26, 1165-1182.

Mebane, W., Sekhon, J. (2011) Genetic optimization using derivatives:the rgenoud package for R. Journal of Statistical Software, 42, 1-26.http://sekhon.berkeley.edu/rgenoud/

Muirhead, R. (2005) Aspects of Multivariate Statistical Theory. Wiley, New Jersey.

Nocedal, J., Wright, S.J. (1999) Numerical Optimization. Springer, New York.

Ortega, JM., Rheinboldt, WC. (1970) Iterative Solution of Non-Linear Equationsin Several Variables. Academic Press, New York.

Parrish, R.S. (1990). Generating random deviates from multivariate Pearson distri-butions. Computational Statistics and Data Analysis, 9, 283-295.

Paula, G.A., Leiva, V., Barros, M., Liu, S. (2012) Robust statistical modeling usingthe Birnbaum-Saunders-t distribution applied to insurance. Applied StochasticModels in Business and Industry, 28, 16-34.

Podlaski, R. (2008) Characterization of diameter distribution data in near-naturalforests using the Birnbaum- Saunders distribution. Canadian Journal of ForestResearch, 18, 518-526.

Powell, M. (2009) The BOBYQA algorithm for bound constrained optimization with-out derivatives. Report No. DAMTP 2009/NA06, Centre for Mathematical Sci-ences. University of Cambridge, UK.

Raydan, M. (1997) The Barzilai and Borwein gradient method for the large scaleunconstrained minimization problem. SIAM Jornal on Optimization, 7, 26-33.

Riquelme, M., Leiva, V., Galea, M., Sanhueza, A. (2011) Influence diagnostics on thecoefficient of variation of elliptically contoured distributions. Journal of AppliedStatistics, 38, 513-532.

Rowan, T. (1990) Functional Stability Analysis of Numerical Algorithms. Ph.D. the-sis, Department of Computer Sciences, University of Texas at Austin, Texas.

Sanhueza, A., Leiva, V., Balakrishnan, N., (2008) The generalized Birnbaum-Saunders distribution and its theory, methodology and application. Communi-cations in Statistics: Theory and Methods, 37, 645-670.

64


Simard, P., Le Cun, Y., Denker, J. (1993) Efficient pattern recognition using anew transformation distance. In Hanson, S., Cowan, J., and Giles, C., editors,Advances in Neural Information Processing Systems, Vol. 5, San Mateo. MorganKaufmann.

Spiegelhalter, D.J., Best, N.G., Carlin, B.P., Van der Linde, A. (2002) Bayesianmeasures of model complexity and fit. Journal of the Royal Statistical Society,Series B, 64, 583-616.

Tulino, A.M., Verdu, S. (2004) Random Matrix Theory and Wireless Communica-tions. Now Publishers, Hanover, MA.

Varadhan, R., Gilbert, P.D. (2009) BB: an R package for solving a largesystem of nonlinear equations and for optimizing a high-dimensionalnonlinear objective function. Journal of Statistical Software, 32, 4.http://www.jstatsoft.org/v32/i04/

Vilca, F., Santana, L., Leiva, V., Balakrishnan, N. (2011) Estimation of extreme per-centiles in Birnbaum–Saunders distributions. Computational Statistics and DataAnalysis, 55, 1665–1678.

65

Anexo A. Funciones R para el

modelo BSGM

################################################################

# Esta funcion genera una m.a. GBS matrizvariada normal ########

################## o GBS matrizvariada t #######################

################################################################

require(mnormt)

‘rgbsm‘ <- function(m,

A,

B,

nu = 1.0,

kernel = "normal")

n <- nrow(A)

k <- ncol(A)

if (kernel=="normal")

G <- rmnorm(m, mean = rep(0, n*k), varcov = diag(n*k))

if (kernel=="t")

G <- rmt(m, mean = rep(0, n*k), S = diag(n*k), df = nu)

Z <- matrix(G[1,], ncol = k, byrow = T)

M <- B*(A*Z/2 + sqrt( (A*Z/2)^2 +1))^2

66


for(i in 2:m)

Z <- matrix(G[i,], ncol = k, byrow = T)

H <- B*(A*Z/2 + sqrt( (A*Z/2)^2 +1))^2

M <- cbind(M, H)

return(M)

################################################################

## Esta funcion devuelve un vector de valores u_r ##############

################################################################

‘argur‘ <- function(A,

B,

M,

m)

# m es el tama~no de la m.a.

# A y B son las matrices de parametros de GBS matricial

# M es la matriz ampliada que contiene la m.a.

u <- c() # vector que contiene los valores de u_r

for(r in 1:m)

p <- (r-1)*ncol(A)+1

q <- r*ncol(A)

Tr <- M[,p : q]

u[r] <- sum(diag( (A^(-1)* B^(-1/2) * Tr^(1/2)-A^(-1) *

B^(1/2) * Tr^(-1/2))%*% t(A^(-1) * B^(-1/2) *

Tr^(1/2)- A^(-1) * B^(1/2) * Tr^(-1/2)) ))

return(u)

67


###############################################################

## Funcion que obtiene g’ sobre g #############################

###############################################################

‘gpOverg‘ <- function(x,

nu = 1.0,

kernel = "normal")


wg= -1/2

if (kernel == "t")

wg= -(nu+1)/(2*(nu+x))

return(wg)

##############################################################

## Funcion kernel - g ########################################

##############################################################

‘g‘ <- function(x,

nu = 1.0,

kernel = "normal")


gx = exp(-x/2)

if (kernel=="t")

gx = (1+x/nu)^(-(nu+1)/2)

return(gx)

68


#############################################################

## Funcion que entrega la constante c #######################

#############################################################

‘const‘ <- function(n,

k,

nu = 1.0,

kernel = "normal")


c = (2*pi)^(-n*k/2)

if (kernel=="t")

c = ((nu * pi)^(-n*k/2)*gamma(nu/2 + n*k/2)) / gamma(nu/2)

return(c)

#############################################################

## Densidad GBSM ############################################

#############################################################

‘dGBSM‘ <- function(T,

A,

B,

nu = 1.0,

kernel = "normal")

# T es la matriz de valores aleatorios

# A y B son los parametros

n <- nrow(A)

k <- ncol(A)

vr <- sum(A^(-2)*T*B^(-1)+A^(-2)*B*T^(-1)-2*A^(-2))

return((const(n, k, nu=nu, kernel=kernel)/2^(n*k))*

69


g(vr, nu=nu, kernel=kernel)*

prod(T^(-3/2)*A^(-1)*B^(-1/2)*(T+B)))

###############################################################

## Devuelve el elemento T_r de la m.a. ########################

###############################################################

‘Tr‘ <- function(M, m, r)

p <- (r-1)*(ncol(M))/m + 1

q <- r*(ncol(M))/m

T_r <- M[,p : q]

return(T_r)

###############################################################

## Funcion de verosimilitud ###################################

###############################################################

‘likGBSM‘ <- function(A,

B,

M,

nu = 1.0,

kernel = "normal")

# M es la matriz que contiene la m.a. GBSM

m <- ncol(M) / ncol(A)

f <- 1

for(i in 1:m)

f <- f*dGBSMV(Tr(M, m, i), A, B, nu=nu, kernel=kernel)

70


return(f)

##############################################################

## Una forma para la log-verosimilitud #######################

##############################################################

‘loglikGBSM‘ <- function(A,

B,

M,

nu = 1.0,

kernel = "normal")

m <- ncol(M) / ncol(A)

n <- nrow(A)

k <- ncol(A)

h <- 0

for(r in 1:m)

h <- h + sum(log(Tr(M, m, r)+B))

return(m*log((const(n, k, nu=nu, kernel=kernel))/2^(n*k))+

sum(log(g(argur(A, B, M, m), nu=nu, kernel=kernel)))-

(3/2)*sum(log(M))-m*sum(log(A))-(m/2)*sum(log(B))+ h)

###############################################################

## Obtiene el vector score de la log-verosimilitud ############

###############################################################

‘gradGBSM‘ <- function(a,

M,

nu=1.0,

kernel="normal")

71


# El parametro a corresponde a un vector que

# contiene las matrices A y B vectorizadas por

# columnas y en ese mismo orden.

n <- nrow(M)

k <- length(a) / (2*n)

m <- ncol(M) / k

A <- matrix(nrow=n, ncol=k)

B <- matrix(nrow=n, ncol=k)

J <- matrix(rep(1, n*k), nrow=n, ncol=k)

p <- 0

for(j in 1:ncol(A))

for(i in 1:nrow(A))

p <- p+1

A[i,j] <- a[p]

B[i,j] <- a[n*k+p]

z <- 0

w <- 0

for(r in 1:m)

p <- (r-1)*k+1

q <- r*k

Tr <- M[,p : q] # Es el elemento r-esimo de la m.a. GBSM

z <- z - 2 * gpOverg(argur(A, B, M, m)[r], nu=nu,

kernel=kernel)* as.vector(A^(-3))*(as.vector(Tr)*

as.vector(B^(-1))+as.vector(Tr^(-1))*as.vector(B)-

2*as.vector(J)) - as.vector(A^(-1))

w <- w + gpOverg(argur(A, B, M, m)[r], nu=nu,

kernel=kernel)* as.vector(A^(-2))*(as.vector(Tr^(-1))-

as.vector(Tr)*as.vector(B^(-2)))-(1/2)*

72


as.vector(B^(-1))+(as.vector(Tr+B))^(-1)

return(c(z, w))

####################################################################

### Este codigo implementa el metodo de estimacion para el caso BS #

### clasico ########################################################

####################################################################

## Funcion que entrega la funcion g(X) que se iguala a 0 en ########

## Birnbaum & Saunders (1969b, pp. 329-330) ########################

‘ec_beta‘ <- function(beta,

m = c() )

s <- mean(m)

r <- (mean(m^(-1)))^(-1)

k_b <- ( mean((beta+m)^(-1)) )^(-1)

return(beta^2 - beta * (2*r+k_b) + r*(s+ k_b))

## Funcion que entrega las estimaciones de MV de alpha y beta ######

## para el modelo BS #

‘mleBS‘ <- function(x)

s1 <- mean(x)

r1 <- (mean(x^(-1)))^(-1)

73


beta1 <- uniroot(ec_beta, c(0.00001, 1000000),

tol = 0.00001, m=x)$root

alpha1 = (s1/beta1 + beta1/r1 - 2 )^(1/2)

return(list(alpha = alpha1, beta = beta1))

###################################################################

### Este codigo implementa el metodo de estimacion para el caso ###

### BS-t ##########################################################

### Permite estimar para nu fijo ##################################

###################################################################

# Definicion de at

at <- function(y, alpha = 1.0, beta = 1.0)

value <- (1 / alpha) * (((y / beta) ^ (1 / 2)) -

((beta / y) ^ (1 / 2)))

return(value)

# E[U|T]: distribucion t-Student:

expectationStudent <- function(t, alpha, beta, nu)

a <- alpha

b <- beta

at <- at(y = t, alpha = a, beta = b)

value <- (nu + 1) / (nu + at ^ (2))

return(value)

# Algoritmo EM

# Esta funcion estima los parametros alpha y beta con nu fijo.

74


mleBSt <- function(x,

nu = 1.0)

t <- x

estimates <- mleBS(x)

a <- estimates$alpha

b <- estimates$beta

u <- expectationStudent(t, alpha = a, beta = b, nu)

ubar <- mean(u)

n <- length(t)

s <- (1 / n) * sum(t * u)

r <- ((1 / n) * sum((t ^ (-1)) * u)) ^ (-1)

K <- function(x)

arg1 <- ((x + t) ^ (-1))

arg2 <- ((1 / n) * sum(arg1)) ^ (-1)

return(arg2)

g <- function(x)

res <- (x ^ 2) - (x * ((2 * r * ubar) + K(x))) +

(r * (s + (K(x) * ubar)))

return(res)

tol <- 1e-8

val <- 5

xn <- b # Usa el EMV de beta como punto inicial.

res <- 1

cont <- 0

while(val > tol)

res <- uniroot(g, c(0.00001, 1000000), tol = 0.00001)$root

val <- (abs(res - xn) / xn)

xn <- res

alf <- sqrt(((s / xn) + (xn / r) - (2 * ubar)))

u <- expectationStudent(t, alpha = alf, beta = xn, nu)

75


ubar <- mean(u)

s <- (1 / n) * sum(t * u)

r <- ((1 / n) * sum((t ^ (-1)) * u)) ^ (-1)

cont <- cont + 1

betaResult <- res

alphaResult <- alf

listResult <- list(beta.start = b,

alpha = alphaResult,

beta = betaResult,

iteration = cont)

return(listResult)

###############################################################

#### Esta funcion entrega las estimaciones de A y B ##########

#### desde una muestra M ######################################

#### M es la matriz que contiene la m.a #######################

###############################################################

‘estGBSM‘ <- function(M,

n,

k,

kernel = "normal",

nu = 1.0)

tm <- ncol(M)/k

EstA <- matrix(ncol=k, nrow=n)

EstB <- matrix(ncol=k, nrow=n)

if (kernel == "normal")

for (i in 1:n)

for (j in 1:k)

Z <- M[i, j]

76


for (s in 2:tm)

Z <- cbind(Z, M[i, (s-1)*k+j])

EstA[i,j] = mleBS(Z)$alpha

EstB[i,j] = mleBS(Z)$beta

if (kernel == "t")

for (i in 1:n)

for (j in 1:k)

Z <- M[i, j]

for (s in 2:tm)

Z <- cbind(Z, M[i, (s-1)*k+j])

EstA[i,j] = mleBSt(Z, nu = nu)$alpha

EstB[i,j] = mleBSt(Z, nu = nu)$beta

77


return(list(AgbsEstimate=EstA, BgbsEstimate=EstB))

78

Anexo B. Datos de “dıgito 3”

manuscrito

El conjunto de datos usado y explicado en el Capıtulo 5 es el siguiente:

9 27 12 31 17 36 26 39 34 37 36 33 38 27 35 19 30 15 21 14 21 8

16 6 8 5

17 40 21 38 26 36 27 32 25 28 22 27 19 29 24 25 26 20 28 16 26 13

18 14 15 17

19 38 24 38 29 33 30 29 27 24 21 25 17 26 27 24 30 22 31 19 31 16

27 15 24 15

9 40 15 43 24 41 29 36 24 30 20 26 12 22 20 22 24 20 21 16 18 14

13 12 9 10

14 41 21 42 29 42 35 37 32 33 26 30 16 26 25 26 29 24 33 20 30 16

23 11 16 12

24 39 28 40 35 38 38 35 34 30 29 27 22 24 27 24 29 22 31 19 28 15

20 11 13 12

9 39 15 39 21 40 25 36 23 31 21 27 19 25 21 25 23 24 25 22 22 19

15 17 8 17

8 38 14 41 25 43 29 38 25 33 18 29 8 28 12 27 16 25 18 23 13 21

7 21 1 22

4 34 12 39 22 42 31 36 27 30 23 28 11 25 20 25 22 24 22 22 19 19

13 18 8 18

21 36 25 37 31 36 33 32 32 28 29 25 27 22 29 21 31 20 31 18 28 16

24 16 20 16

14 40 20 39 25 37 27 31 26 28 20 29 16 31 21 28 25 23 28 16 25 13

17 15 13 18

12 40 20 42 30 42 36 33 31 24 23 22 16 23 25 22 31 18 33 13 31 9

24 8 17 8

9 35 17 36 26 34 30 31 26 27 20 25 13 27 19 25 23 21 26 15 22 12

79


12 12 7 13

17 38 24 39 30 37 34 34 31 28 22 25 16 28 21 26 27 24 30 20 26 15

18 14 10 17

21 35 27 36 36 35 39 28 38 22 34 18 28 19 31 18 33 17 31 15 26 15

20 17 14 20

16 40 20 43 25 39 27 31 24 24 19 21 17 23 19 22 21 21 23 21 22 18

19 16 15 16

15 41 21 45 34 44 40 39 36 35 26 30 16 29 24 25 28 20 31 16 28 14

21 14 12 12

11 42 22 42 32 39 35 34 32 29 25 26 20 27 25 26 31 23 35 19 31 14

21 12 16 15

5 44 15 43 24 41 29 36 22 28 13 28 5 29 14 28 24 26 29 22 26 19

17 17 10 20

14 37 19 39 25 38 28 32 25 26 20 22 14 23 17 23 21 20 23 17 21 15

16 15 11 15

16 35 22 38 30 36 32 29 29 23 23 20 17 20 20 19 24 17 26 14 21 11

16 12 12 15

14 38 17 40 25 42 28 38 27 32 24 28 20 25 23 25 26 24 28 21 24 18

18 17 10 18

7 40 13 43 22 45 31 42 27 38 21 34 13 32 18 31 24 30 27 27 23 23

15 22 6 22

14 35 21 36 26 34 31 30 28 26 25 22 21 18 21 17 22 16 23 15 20 12

13 10 5 10

10 46 17 47 27 43 29 36 26 30 22 29 16 28 20 27 21 25 23 21 21 19

15 20 9 20

18 39 24 42 33 41 38 35 37 30 32 28 28 27 33 22 37 18 41 15 37 13

29 11 21 12

18 38 22 42 30 42 34 36 33 32 29 30 22 28 25 26 28 24 28 20 27 19

22 18 18 18

9 41 17 43 30 40 34 31 30 23 23 19 11 19 15 17 18 13 21 10 17 8

12 7 5 7

8 36 12 42 20 43 25 38 24 35 23 33 21 32 20 31 20 30 20 27 16 25

9 24 2 25

19 41 24 45 33 45 38 38 36 31 28 27 21 23 24 22 26 20 28 17 26 14

20 13 14 11

Estos datos estan presentados de la manera siguiente. Por ejemplo, la primeraobservacion de la muestra esta representada por las dos primeras lıneas, las cualescontienen las coordenadas de los 13 landmarks de la manera siguiente: (x1, y1) =(9, 27), (x2, y2) = (12, 31), . . . , (x13, y13) = (8, 5). Y lo mismo para cada observacionsiguiente.

80

Anexo C. Codigos para

aplicacion

Los comandos necesarios para obtener los calculos de la Seccion 5.2 estan contenidosen el script siguiente.

####################################################################

### Este script carga la data "digit_3" y calcula las estimaciones #

### de VM como tambien los valores de AIC y BIC para los distintos #

### modelos ########################################################

####################################################################

## Carga los datos desde un archivo txt

data1 <- read.table("D:/User/Admin/Documentos/Daniel/Tesis BS/

Tesis GBS matriz-variada/Ejemplo_aplicacion/

data_digit_3.txt")

## Trasforma la base de datos en una matriz de dim. 30 X 26

data2 <- as.matrix(data1)

## Genera la matriz M, matriz que contiene la m.a.,

## desde data2

G1 <- data2[1,]

M <- matrix(G1, ncol=2, byrow=T)

for (i in 2:30)

G2 <- data2[i,]

M2 <- matrix(G2, ncol=2, byrow=T)

M <- cbind(M, M2)

81


## Estimacion suponiendo kernel normal

A1 <- estGBSM(M, n=13, k=2)$AgbsEstimate

B1 <- estGBSM(M, n=13, k=2)$BgbsEstimate

## Estimacion suponiendo kernel t, nu=3

A2 <- estGBSM(M, n=13, k=2, kernel="t", nu=3)$AgbsEstimate

B2 <- estGBSM(M, n=13, k=2, kernel="t", nu=3)$BgbsEstimate







## Si se quiere redondear usar round(obj, n_decim)

## Valor criterio - AIC

C1 <- 2*52-2 * loglikgbsm(A1, B1, M)

C2 <- 2*52-2 * loglikgbsm(A2, B2, M, nu=3, kernel="t")



## Valor criterio - BIC

D1 <- 52*log(30) - 2 * loglikgbsm(A1, B1, M)

D2 <- 52*log(30) - 2 * loglikgbsm(A2, B2, M, nu=3, kernel="t")



## Muestra los distintos valores AIC

cbind(C1, C2, C3, C4)

## Muestra los diferentes valores BIC

cbind(D1, D2, D3, D4)

## Estimacion de la media de la forma BS-t(3)

82


MediaBS3 <- B2*(2+3*A2^2)/2


MediaBS8 <- B3*(2+(4/3)*A3^2)/2


MediaBS50 <- B4*(2+(25/24)*A4^2)/2

## Estimacion de la media de la forma BS

MediaBS <- B1*(2+1*A1^2)/2

83

Estimacion de Par´ ametros de la´ Distribucion Birnbaum ...

Documents