Estimaci ´ on de Par ´ ametros de la Distribuci ´ on Birnbaum-Saunders Generalizada Matrizvariada Trabajo final presentado por: Luis Daniel S´ anchez Melo Becario CONICYT Para optar al grado de: Mag´ ıster en Estad´ ıstica Profesor gu´ ıa: Dr. V´ ıctor Leiva Profesor gu´ ıa co-referente: Dr. Francisco Caro Valpara´ ıso, Abril 2013
86
Embed
Estimacion de Par´ ametros de la´ Distribucion Birnbaum ...
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Estimacion de Parametros de la
Distribucion Birnbaum-Saunders
Generalizada Matrizvariada
Trabajo final presentado por:Luis Daniel Sanchez Melo
Becario CONICYT
Para optar al grado de:Magıster en Estadıstica
Profesor guıa:Dr. Vıctor Leiva
Profesor guıa co-referente:Dr. Francisco Caro
Valparaıso, Abril 2013
Agradecimientos
Esta tesis constituye la parte final de mis estudios de magıster, razon por la cualaprovecho para agradecer a las personas que me han ayudado directa o indirecta-mente en esta etapa de mi vida.
Agradezco a mi Dios, quien por su buena voluntad me ha dado fuerzas y lascapacidades para realizar estos dos anos de estudio.
A mis padres y hermanos, por su constante apoyo aun estando lejos de ellos.A mi querida iglesia, a la cual pertenezco, por llevarme en sus oraciones cons-
tantemente para que todo el esfuerzo llegara a buen termino.A CONICYT por el financiamiento otorgado para realizar con tranquilidad
mis estudios de magıster y todo lo que implica esto ultimo.A mi profesor guıa de tesis, el Dr. Vıctor Leiva, por su valioso apoyo desde
incluso antes de llegar a Valparaıso a estudiar, y durante estos dos anos. Por susconstantes gestos de aprecio y todo el apoyo academico que recibı de el.
A mis profesores del programa de magıster, por su buen trato y transmisionde conocimientos y experiencias utiles para mi formacion profesional.
Al profesor Francisco Caro, quien nos ayudo bastante en la ultima etapa de latesis, haciendonos muy buenas aclaraciones y sugerencias sobre el trabajo, y siemprecon buena disponibilidad y amabilidad en todo.
A mis companeros de magıster, por las buenas experiencias y amabilidad conque me trataron.
Resumen
Este trabajo esta basado en una version matrizvariada de una distribucion de proba-bilidades asimetrica llamada distribucion Birnbaum-Saunders generalizada. En estetrabajo se propone un metodo para estimar los parametros de dos casos particu-lares de esta distribucion matrizvariada usando el metodo de verosimilitud maxima.Dado que los parametros son matrices, se presenta un problema de dimensionalidadalta. Esto exige el uso de un procedimiento de calculo computacional eficiente. Unavez resuelto el problema de estimacion, se realiza un estudio de simulacion de MonteCarlo para evaluar el comportamiento del metodo de estimacion. Finalmente, losresultados de este estudio son aplicados a datos reales.
Palabras clave: curtosis; distribuciones elıpticas; distribuciones matrizvariadas;generacion de matrices aleatorias; metodo de Monte Carlo.
5.1 El conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.2 Ajuste de modelos CE matrizvariados a los datos . . . . . . . . . . . 475.3 Ajuste de modelos BSGM a los datos . . . . . . . . . . . . . . . . . . 515.4 Seleccion del mejor modelo . . . . . . . . . . . . . . . . . . . . . . . . 535.5 Estimacion de la media de la forma . . . . . . . . . . . . . . . . . . . 55
Conclusiones y Trabajos Futuros 59
Bibliografıa 61
Anexo A. Funciones R para BSGM 66
Anexo B. Datos de “dıgito 3” manuscrito 79
Anexo C. Codigos para aplicacion 81
2
Objetivos
Los objetivos de este trabajo se presentan a continuacion.
Objetivo general
Estimar los parametros de la distribucion Birnbaum-Saunders generalizada matriz-variada (BSGM) para los casos de kernels normal y t-Student.
Objetivos especıficos
1. Desarrollar un generador de matrices aleatorias para la distribucion BSGMpara los casos de kernels normal y t-Student.
2. Proponer un algoritmo de estimacion de los parametros de la distribucionBSGM mediante el metodo de verosimilitud maxima (VM) para los dos casosparticulares mencionados anteriormente.
3. Desarrollar un paquete en el software R donde se implemente la generacion dematrices aleatorias BSGM y el algoritmo de estimacion propuesto.
4. Aplicar la distribucion BSGM a datos reales.
3
Revision Bibliografica
La distribucion normal univariada ha sido la base de la estadıstica teorica y apli-cada por mas de 100 anos. Las propiedades de esta distribucion son bien conocidasy extensamente usadas; ver Johnson, Kotz & Balakrishnan (1994, pp. 80-206). Sinembargo, muchos fenomenos son descritos mediante variables aleatorias multiples.Un analisis estadıstico basado en variables aleatorias correlacionadas es conocidocomo analisis multivariado, donde la distribucion normal, ahora en su version mul-tivariada, constituye nuevamente su base; ver Kotz, Balakrishnan & Johnson (2000,pp. 105-333).
La distribucion normal multivariada puede ser generalizada mediante el usode la familia de distribuciones de contornos elıpticos (CE), obteniendo un nivel deflexibilidad mayor sobre la curtosis de esta. Esto quiere decir que con esta gener-alizacion se obtienen distribuciones con colas mas pesadas y/o mas livianas que lascolas de la distribucion normal. Tal situacion permite describir diferentes tipos dedatos multivariados. Ademas, las distribuciones CE tienen varias propiedades es-tadısticas y probabilısticas interesantes. Para mas detalles acerca de distribucionesCE multivariadas, ver Fang, Kotz & Ng (1990), Fang & Zhang (1990), Gupta &Varga (1993), Dıaz-Garcıa, Leiva & Galea (2002), Caro, Dıaz & Gonzalez (2010)y Riquelme, Leiva, Galea & Sanhueza (2011). Una gran parte de la teorıa normalesta siendo reconstruida mediante distribuciones CE. El uso de tales distribucionescomo una generalizacion de la distribucion normal no esta basado ni en razonesempıricas ni en leyes fısicas, en general, su razonamiento es puramente estadısticoy/o matematico en el sentido que: (i) la teorıa basada en la distribucion normales un caso particular de la que se deriva desde distribuciones CE, (ii) muchas delas propiedades de la distribucion normal pueden ser extendidas al caso CE y (iii)algunos resultados importantes de la teorıa estadıstica sobre normalidad son invari-antes bajo la familia de distribuciones CE. Ademas, modelos estadısticos basados endistribuciones CE proveen procedimientos de estimacion robustos, contrario a lo queocurre con el caso normal; ver, por ejemplo, Lange, Little & Taylor (1989), Lucas(1997), Barros, Paula & Leiva (2008) y Paula, Leiva, Barros & Liu (2012). Entonces,existen varias razones para usar distribuciones CE en lugar de la distribucion normal.
4
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
Un analisis multivariado basado en distribuciones CE es conocido comoanalisis multivariado generalizado. Aunque este tipo de analisis estadıstico es dealto interes practico, no se ha puesto mucha atencion en el analisis matricial devariables aleatorias correlacionadas (conocido como analisis matrizvariado), inclusopara el caso normal; ver Tulino & Verdu (2004) y Anderson, Guionnet & Zeitouni(2009). La utilidad de distribuciones matrizvariadas es ampliamente conocida eneconomıa, fısica, psicologıa y en varios otros campos; ver, por ejemplo, Gupta &Nagar (1999). Por un lado, las dificultades matematicas que aparecen desde elproblema matrizvariado pueden ser simplificadas debido a la simetrıa de las dis-tribuciones CE. Por otro lado, hay muchos fenomenos que demandan ser modeladosmediante distribuciones asimetricas y este hecho no favorece el uso de distribucionesCE.
Muchas distribuciones univariadas asimetricas han sido propuestas y discuti-das en la literatura. Una de tales distribuciones, definida sobre la lınea real positiva,con dos parametros (forma y escala) y asimetrıa positiva, es el modelo Birnbaum-Saunders (BS). Este modelo ha recibido una atencion considerable debido principal-mente a sus propiedades y su relacion con la distribucion normal; ver Birnbaum &Saunders (1969a) y Johnson, Kotz & Balakrishnan (1995, pp. 651-663). Aunque ladistribucion BS tiene su genesis en ingenierıa, este modelo ha sido aplicado en otroscampos tales como ciencias actuariales, de la tierra, medioambientales, financierasy medicas; ver Podlaski (2008), Leiva, Barros, Paula & Sanhueza (2008), Barros,Paula & Leiva (2008), Bhatti (2010) y Paula, Leiva, Barros & Liu (2012).
Una generalizacion del modelo BS que se basa en distribuciones CE es ladistribucion Birnbaum-Saunders generalizada (BSG). Esta generalizacion permitehacer flexible la curtosis de la distribucion BS. La distribucion BSG fue derivadapor Dıaz-Garcıa & Leiva (2005) y tiene a la distribucion BS como un caso particular.Las distribuciones BS y BSG univariadas han sido implementadas en el lenguaje decomputacion R por Leiva, Hernandez & Riquelme (2006) y Barros, Paula & Leiva(2009), respectivamente. Extensiones bivariada, multivariada y matriz-variada dela distribucion BS han sido estudiadas por Dıaz-Garcıa & Domınguez-Molina (2006,2007), Kundu, Balakrishnan & Jamalizadeh (2010) y Caro, Leiva & Balakrishnan(2012). Sin embargo, en cuanto a la estimacion de parametros de las versionesmultivariada y matriz-variada no se encuentran trabajos en la literatura.
Gupta & Varga (1994) estudiaron la familia CE matrizvariada y suspropiedades y relaciones con los casos multivariados y univariados, lo que pareceser una muy buena base para el procedimiento de estimacion que se esta explorandoen este trabajo.
5
Capıtulo 1
Formulacion del Problema
En este capıtulo se presentan los elementos teoricos que dan lugar al problema enestudio. Primero se presenta la formulacion matematica del modelo BSGM, y luegose establece cual es el problema que se intenta solucionar.
1.1 La distribucion BSG univariada
1.1.1 Genesis
El modelo BS es una distribucion de probabilidad con asimetrıa positiva y de dosparametros (forma y escala), y que esta relacionada a la distribucion normal. Masexactamente, si Z ∼ N(0, 1), entonces la variable aleatoria T dada por
T = β
αZ
2+
√
(
αZ
2
)2
+ 1
2
(1.1)
tiene una distribucion BS con parametros de forma α > 0 y escala β > 0, lo quees denotado por T ∼ BS(α, β). La variable T tiene un recorrido positivo y latransformacion (1.1) es uno a uno, lo que permite establecer que, si T ∼ BS(α, β),entonces
Z =1
α
[√
T
β−√
β
T
]
∼ N(0, 1).
Dıaz-Garcıa & Leiva (2005) propusieron una generalizacion del modelo BSbasada en la familia de distribuciones CE. La motivacion principal de esta extension
6
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
es hacer flexible la curtosis de la distribucion BS. Una variable aleatoria Z tiene unadistribucion CE (simetrica en el caso univariado) estandar en R con funcion kernelg, lo que es denotado por Z ∼ S(g), si su funcion de densidad de probabilidad (fdp)esta dada por
fZ(z) = c g(z2), z ∈ R, (1.2)
con c siendo una constante de normalizacion tal que∫
∞
−∞g(z2)dz = 1/c. En-
tonces, la variable aleatoria T definida como en (1.1) tiene una distribucion BSGcon parametros de forma α > 0, escala β > 0 y kernel g, lo que es denotado porT ∼ BSG(α, β; g).
Comentario 1. Si Z ∼ N(0, 1), entonces se tiene el caso BS univariado.
Comentario 2. Si Z ∼ t(ν) (t-Student), entonces se tiene la distribucion BS-t.
1.1.2 Propiedades
Se presentan a continuacion solo algunas caracterısticas de la distribucion BSG,tales como su fdp, su funcion de distribucion acumulativa (fda) y algunas transfor-maciones. Para mas detalles de estas y otras caracterısticas de la distribucion BSGse puede revisar: origen de la distribucion y su fdp en Dıaz-Garcıa & Leiva (2005);fda, funciones cuantil, sobrevivencia y de riesgo, y momentos en Leiva, Barros, Paula& Sanhueza (2008); y transformaciones, analisis de forma y estimacion por metodode VM en Sanhueza, Leiva & Balakrishnan (2008).
Teorema 3. Sea T ∼ BSG(α, β; g). Entonces, su fdp y fda son, respectivamente,
(i) fT (t) =c
2αβ1/2t−3/2 (t+ β) g
(
1
α2
[
t
β− β
t− 2
])
, con t > 0 y donde c esta dado
en (1.2).
(ii) FT (t) = FZ
(
1
α
[
√
t
β−√
β
t
])
, donde F (·) es la fda de una variable aleatoria
con distribucion simetrica estandar, lo que se denota por Z ∼ S(g).
Demostracion. Se sigue directo desde la definicion de la distribucion BSG.
Teorema 4. Sea T ∼ BSG(α, β; g). Entonces,
(i) a T ∼ BSG(α, cβ; g), con a > 0.
(ii) T−1 ∼ BSG(α, β−1; g).
Demostracion. Es directa usando el teorema de transformacion de variablesaleatorias.
En adelante c y g seran la constante de normalizacion y su kernel, respectiva-mente.
7
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
1.1.3 Estimacion por verosimilitud maxima
La funcion de log-verosimilitud basada en una muestra T1, T2, . . . , Tn con Ti ∼BSG(α, β; g), para i = 1, . . . , n, esta dada por
ℓ(α, β) = k − n log(α)− n
2log(β) +
n∑
i=1
log(ti + β) +n∑
i=1
log(g(κti)), (1.3)
donde k es una constante que no depende de α ni de β, y κti =[1/α2] (ti/β + β/ti − 2). Las primeras derivadas de l(α, β) con respecto a α y β,denotadas por ℓα y ℓβ, respectivamente, son
ℓα =n∑
i=1
viα3
[
tiβ+
β
ti− 2
]
− n
α
y
ℓβ =n∑
i=1
1
ti + β−
n∑
i=1
vi2α2
[
1
ti− ti
β2
]
− n
2β,
donde vi = −2 g′
(κti)/g(κti). Con esto, las ecuaciones de verosimilitud ℓα = 0 yℓβ = 0, conducen a
α =
∑ni=1 vi
[
tiβ+ β
ti− 2]
n
1/2
y β =
(
12α2
∑ni=1
viti−∑n
i=11
ti+β+ n
2β
12α2
∑ni=1 viti
)1/2
.
(1.4)Se puede notar que el estimador de VM de β no posee forma explıcita, ası quemetodos numericos deben ser usados para su estimacion. Para el caso BS, Birn-baum & Saunders (1969b) encontraron los estimadores de VM de α y β y usaron elestimador media-media (MM) como un valor inicial para hallar el valor estimado deβ. En sıntesis, su procedimiento se basa en la formula iterativa
βn+1 = βn +h(βn)
h′(βn), n = 0, 1, . . . , (1.5)
donde
β0 =√s · r (estimador MM) y h(z) = z2 − z [2r +K(z)] + r [s+K(z)] , (1.6)
con
K(z) =
[
1
n
n∑
i=1
(z + ti)−1
]−1
, s =1
n
n∑
i=1
ti y r =
[
1
n
n∑
i=1
t−1i
]−1
.
8
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
Birnbaum & Saunders (1969b) demostraron que, bajo ciertas condiciones, esta se-cuencia converge al estimador de VM de β y el estimador de α se obtiene mediante
α =
√
s
β+
β
r− 2. (1.7)
Este algoritmo ha sido implementado en el lenguaje R por Leiva, Hernandez &Riquelme (2006) y Barros, Paula & Leiva (2009). La funcion mlebs del paquete gbsdesarrollado por Barros, Paula & Leiva (2009) implementa el algoritmo anterior, yes la funcion que se utiliza en la simulacion del Capıtulo 3.
Recientemente, Balakrishnan, Leiva, Sanhueza & Vilca (2009) usaron el algo-ritmo EM para estimar los parametros de las distribuciones BS basadas en modelosmezcla de escala normal, de las que la distribucion BS-t es un caso particular. Ellosdemostraron que, al usar este algoritmo con la distribucion BS-t, se obtiene un pro-cedimiento similar al presentado por Birnbaum & Saunders (1969b), con los cambiossiguientes:
Balakrishnan, Leiva, Sanhueza & Vilca (2009) propusieron como punto inicial parahallar las estimaciones de VM de α y β aquellos de la distribucion BS. Este algoritmopuede ser visto como una generalizacion del procedimiento propuesto por Birnbaum& Saunders (1969b), pues en efecto, si ui = 1, para i = 1, 2, . . . , n, se obtiene el casode la distribucion BS.
Debido a que el proceso iterativo dado en (1.5) corresponde a iteracionesbasadas en el metodo de Newton-Raphson para resolver h(z) = 0 (que no siempreconverge), una variante para los metodos anteriores es usar un algoritmo de busquedade ceros en lugar de iteraciones de Newton-Raphson. Brent (1973) desarrollo unalgoritmo de busqueda de ceros que combina el metodo de biseccion, el metodo dela secante e interpolacion cuadratica inversa que garantiza la convergencia al cero dela funcion y que no requiere de punto inicial. Este metodo esta implementado en elprograma R, mediante la funcion uniroot(). Para efectos de esta tesis, se hara usode este algoritmo de busqueda de ceros para obtener los estimadores en el caso BS,
9
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
mientras que para el caso BS-t se mantendra el algoritmo de Balakrishnan, Leiva,Sanhueza & Vilca (2009) usando como punto inicial aquel obtenido desde el casoBS. Estos dos algoritmos modificados son simulados en el Capıtulo 4 y se usaranen la aplicacion del Capıtulo 5, y los codigos que los implementan seran parte delpaquete que se desarrollara para la distribucion BSGM.
1.2 La distribucion BSG multivariada
La distribucion BSG puede ser extendida al caso multivariado mediante el uso dedistribuciones CE multivariadas. Mas exactamente, sea x ∈ R
n un vector aleatoriocon distribucion CE multivariada caracterizada por un vector de localizacion µ ∈ R
n,una matriz de escala Σ ∈ R
n×n, con rango(Σ) = n, y el kernel correspondiente g, loque es denotado por x ∼ CEn(µ,Σ; g). Entonces, la fdp de x esta dada por
fx(x) = c |Σ|−1/2g([x− µ]⊤Σ−1[x− µ]), x ∈ Rn. (1.8)
Sea z = (Z1, Z2, . . . , Zn)⊤ ∼ CEn(0, In; g) y t = (T1, T2, . . . , Tn)
⊤, donde para todoi = 1, . . . , n, Zi, Ti, αi y βi satisfacen la relacion (1.1). Entonces, el vector aleatorio tgenera la distribucion BSG multivariada, lo que es denotado por t ∼ BSGn(α,β; g),donde α = (α1, α2, . . . , αn)
⊤ y β = (β1, β2, . . . , βn)⊤. Mas detalles de la distribucion
BSG multivariada pueden verse en Dıaz-Garcıa & Domınguez-Molina (2006, 2007)y Kundu, Balakrishnan & Jamalizadeh (2010).
1.3 La distribucion BSG matrizvariada
Es posible extender aun mas la distribucion BSG mediante la familia de distribu-ciones CE matrizvariadas. Especıficamente, sea X = (Xij) ∈ R
n×k una matrizaleatoria con distribucion CE matrizvariada caracterizada por una matriz de local-izacion M ∈ R
n×k, matrices de escala Ω ∈ Rk×k, con rango(Ω) = k, y Σ ∈ R
n×n,con rango(Σ) = n, y kernel g, lo que es denotado por X ∼ CEn×k(M ,Ω,Σ; g).Entonces, la fdp de X esta dada por
fX (X) = c |Ω|−n/2|Σ|−k/2g(tr(Ω−1[X −M ]⊤Σ−1[X −M ])), X ∈ Rn×k. (1.9)
Ahora, sea Z = (Zij) ∼ CEn×k(0, Ik, In; g) y T = (Tij), donde
Tij = βij
αijZij
2+
√
(
αijZij
2
)2
+ 1
2
,
para αij > 0 y βij > 0, con i = 1, . . . , n y j = 1, . . . , k. Entonces, la matrizaleatoria T genera la distribucion BSG matrizvariada (BSGM), lo que es denotadopor T ∼ BSGn×k(A,B; g), donde A = (αij) y B = (βij).
10
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
Comentario 5. En estricto rigor, el modelo BSGM definido anteriormente deberıallamarse modelo BSG matrizvariado central e isotropico, pues la distribucion quelo genera tiene por matriz de localizacion la matriz nula y, por matrices de escala,matrices identidad. No obstante, se hablara simplemente del modelo BSGM teniendoen cuenta esta aclaracion.
1.3.1 Propiedades
Caro, Leiva & Balakrishnan (2012) establecieron tres representaciones de la fdpdel modelo BSGM: una que involucra los elementos de las matrices T , A y B;otra que usa matrices diagonales relacionadas a T , A y B; y por ultimo, unarepresentacion en terminos de las matrices originales mediante el uso del productoHadamard. Ellos establecieron estas representaciones con el objetivo permitir unarepresentacion de la fdp del modelo BSGM en terminos de matrices originales paradesarrollar transformaciones matriciales y procedimientos estadısticos como analisisde datos multivariados y teorıa estadıstica de forma. Se proporcionan a continuacionestas tres representaciones.
Teorema 6. Sea T = (Tij) ∼ BSGn×k(A,B; g), con A = (αij) y B = (βij).Entonces, la fdp T esta dada por
fT (t) =c
2nkg
(
n∑
i=1
k∑
j=1
1
α2ij
[
tijβij
+βij
tij− 2
]
)
n∏
i=1
k∏
j=1
t−3/2ij [tij + βij]
αij
√
βij
, (1.10)
con tij > 0, para i = 1, . . . , n y j = 1, . . . , k.
Demostracion. Ver Caro, Leiva & Balakrishnan (2012, p. 135).
Para la segunda representacion de la fdp BSGM se necesita definir la operacionde diagonalizacion. Si H = (hij) es una matriz n × k, se define la matriz dediagonalizacion Hd de dimensiones nk × nk como
es decir, Hd es una matriz diagonal que contiene en su diagonal todos los elementosde la matrix H . Con esto, se puede establecer el resultado siguiente.
Teorema 7. Sea T = (Tij) ∼ BSGn×k(A,B; g), con A = (αij) y B = (βij).Entonces, la fdp de T esta dada por
fT (t) =c
2nk∣
∣t−3d ·A−2
d ·B−1d
∣
∣
1/2 |td +Bd|·g(
tr(td ·A−2d ·B−1
d + t−1d ·A−2
d ·Bd − 2A−2d ))
. (1.12)
11
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
Demostracion. Ver Caro, Leiva & Balakrishnan (2012, p. 136).
La tercera representacion de la fdp BSGM requiere de algunas definiciones previas.Sea P12···k el conjunto de las k permutaciones cıclicas de 12 · · · k dado por
P12···k = 12 · · · (k − 1)k, 23 · · · (k − 1)k1, . . . , k123 · · · (k − 2)(k − 1).Si ai es la columna i-esima de la matriz A ∈ R
k×k, entonces, para un elementoparticular p = p1p2 · · · pk de P12···k, se define
A(p) = (ap1 |ap2 | · · · |apk), (1.13)
es decir, A(p) es la matriz A con las columnas permutadas de acuerdo a la per-mutacion p ∈ P12···k. Note que A(p) = A · I(p), donde I es la matriz identidad k× k.Ademas, para una matriz B ∈ R
k×k, se define
B[p] =
bp11 bp22 · · · bpkkbp11 bp22 · · · bpkk...
.... . .
...bp11 bp22 · · · bpkk
. (1.14)
Mas aun, el producto Hadamard entre dos matrices A = (aij) y B = (bij) dedimensiones m× n esta dado por A⊙B = (aij bij). Desde esta definicion, se puedever que tal producto es conmutativo, asociativo y su elemento neutro es la matrizJ = 1n · 1⊤
m ∈ Rm×n. Las potencias de exponente a ∈ R para A estan dadas por
AaH = (aaij). Ası, la matriz Hadamard inversa de A esta dada por A−H = (1/aij),siempre que aij 6= 0, para todo i, j. Con estas precisiones, se establece el resultadosiguiente.
Teorema 8. Sea T = (Tij) ∼ BSGn×k(A,B; g), con A = (αij) y B = (βij).Entonces, la densidad de T esta dada por
Demostracion. Ver Caro, Leiva & Balakrishnan (2012, p. 136-137).
Para efectos de este trabajo, contar con estas tres representaciones de la fdp BSGMpuede favorecer la estimacion de parametros en el sentido que la funcion de ve-rosimilitud puede quedar expresada en distintas formas (algunas mas simples queotras).
12
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
Kernel u1 u2 u3 u4
N(0,1) 1 3 15 105
t(ν) νν−2
, 3ν2
(ν−2)(ν−4), 15ν3
(ν−2)(ν−4)(ν−6), 105ν4
(ν−2)(ν−4)(ν−6)(ν−8),
ν > 2 ν > 4 ν > 6 ν > 8
Tabla 1.1: valores de E(Uk) = uk si U ∼ Gχ2(1; g), con k = 1, 2, 3, 4, para loskernels (g) indicados.
1.4 Momentos
Sea T ∼ BSGn×k(A,B; g). Considere T k, donde k ∈ N, la potencia k-esima deT segun el producto Hadamard, es decir, T k = T kH . Usando la expresion generalpara los momentos de una variable T ∼ BSG(α, β; g) dada en Leiva, Barros, Paula& Sanhueza (2008, p. 240), se tiene que el momento k-esimo de T esta dado por
E(T k) = BkHk∑
j=0
(
2k
2j
) j∑
i=0
E(Uk+i−j)
(
A
2
)2(k+i−j)H
, (1.15)
donde U sigue una distribucion chi-cuadrado generalizada con un grado de libertad,lo que se denota por U ∼ Gχ2(1; g). Los cuatro primeros momentos de U para loscasos de kernels N(0,1) y t(ν) se presentan en la Tabla 1.1.
Desde la expresion (1.15), se obtiene que los cuatro primeros momentos de Testan dados por
µ1 =B
2(2 + u1A
2H), (1.16)
µ2 =B2H
2(2 + 4u1A
2 + u2A4H), (1.17)
µ3 =B3H
2(2 + 9u1A
2H + 6u2A4H + u3A
6H) (1.18)
y
µ4 =B4H
2(2 + 16u1A
2H + 20u2A4H + 8u3A
6H + u4A8H). (1.19)
1.5 Estimacion de parametros
Para estimar los parametros de la distribucion BSGM se usara el metodo de VM.Sea T (1), . . . ,T (m) una muestra aleatoria de tamano m desde una distribucionBSGn×k(A,B; g). Usando la representacion de la fdp dada en (1.10), se puede
13
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
escribir la funcion de log-verosimilitud como
ℓ(A,B) =m∑
r=1
ℓr(A,B),
donde
ℓr(A,B) = logc
2nk+ log
(
g
(
n∑
i=1
k∑
j=1
1
α2ij
[
t(r)ij
βij
+βij
t(r)ij
− 2
]))
−n∑
i=1
k∑
j=1
3
2log(
t(r)ij
)
+ log(αij) +1
2log(βij)− log(t
(r)ij + βij)
.
Sea
ur =n∑
i=1
k∑
j=1
1
α2ij
[
t(r)ij
βij
+βij
t(r)ij
− 2
]
= tr(
A−H ⊙B−H/2 ⊙ (t(r))H/2 −A−H ⊙BH/2 ⊙ (t(r))−H/2)
·(
A−H ⊙B−H/2 ⊙ (t(r))H/2 −A−H ⊙BH/2 ⊙ (t(r))−H/2)⊤
.
Entonces, se obtienen las derivadas
∂
∂αij
(ℓr(A,B)) =g
′
(ur)
g(ur)
[
− 2
α3ij
(
t(r)ij
βij
+βij
t(r)ij
− 2
)]
− 1
αij
y
∂
∂βij
(ℓr(A,B)) =g
′
(ur)
g(ur)
(
−t(r)ij
α2ijβ
2ij
+1
α2ijt
(r)ij
)
− 1
2βij
+1
t(r)ij + βij
,
para i = 1, . . . , n y j = 1, . . . , k. Usando el producto Hadamard, estas expresionespueden escribirse como
∂
∂A(ℓr(A,B)) = −2
g′
(ur)
g(ur)·(
A−3H ⊙ t(r) ⊙B−H +A−3H ⊙ (t(r))−H
⊙ B − 2A−3H)
−A−H
y
∂
∂B(ℓr(A,B)) =
g′
(ur)
g(ur)
(
−t(r) ⊙A−2H ⊙B−2H +A−2H ⊙ (t(r))−H)
−1
2B−H + (t(r) +B)−H ,
14
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
para r = 1, 2, . . . ,m. Finalmente, las ecuaciones de verosimilitud pueden escribirseen forma matricial como
0n×k =m∑
r=1
(−2)g
′
(ur)
g(ur)·(
A−3H ⊙ t(r) ⊙B−H
+ A−3H ⊙ (t(r))−H ⊙B − 2A−3H)
−mA−H
y
0n×k =m∑
r=1
g′
(ur)
g(ur)
(
−t(r) ⊙A−2H ⊙B−2H +A−2H ⊙ (t(r))−H)
−m
2B−H +
m∑
r=1
(t(r) +B)−H .
Ademas, se puede obtener para estas ecuaciones una forma vectorial mediante eluso de la operacion vectorizacion, denotada por vec(·). Con esto, se puede escribir
0nk×1 = −2m∑
r=1
g′
(ur)
g(ur)· vec(A−3H)⊙
(
vec(t(r))⊙ vec(B−H)
+ vec((t(r))−H)⊙ vec(B)− 2vec(J))
−m vec(A−H) (1.20)
y
0nk×1 = −m∑
r=1
g′
(ur)
g(ur)vec(A−2H)⊙
(
vec(T (r))⊙ vec(B−2H)
− vec((t(r))−H))
− m
2vec(B−H) +
m∑
r=1
vec((t(r) +B)−H). (1.21)
La fdp, la funcion de log-verosimilitud y el gradiente (vectorizado) correspondientesal modelo BSGM se han implementado mediante las funciones dGBSM, loglikGBSMy gradGBSM, respectivamente, y se encuentran disponibles en el Anexo A. Estasfunciones son ultiles para efectos de estimacion de parametros y para el desarrollode algun paquete que implemente la distribucion BSGM.
El problema de estimacion puede ser visto como un sistema de ecuacionesno-lineales de dimensionalidad alta. Desde las expresiones anteriores, es claro queno existe forma explıcita para los estimadores de A y B. Ası, el uso de metodosnumericos de optimizacion es requerido. En el Capıtulo 3 se presentan una seriede metodos de optimizacion para problemas de dimensionalidad alta, algunos delos cuales usan la funcion de verosimilitud y otros las ecuaciones (1.20) y (1.21).Estos metodos son aplicados a algunos casos particulares de A y B. En el Capıtulo4 se presenta un algoritmo de estimacion que usa los procedimientos descritos enla Seccion 1.1.3 y, por lo tanto, no requieren ni de la funcion de verosimilitud delmodelo BSGM ni de las ecuaciones (1.20) y (1.21).
15
Capıtulo 2
Generacion de Matrices
Aleatorias BSGM
En este capıtulo se presenta el metodo para generar matrices aleatorias desde unadistribucion BSGM, para los casos de kernels normal y t. Se comienza describiendoalgunos resultados que relacionan las distribuciones CE matrizvariadas y los modelosCE multivariados, y luego se establece el metodo de generacion de matrices aleatoriasBSGM.
2.1 Relacion entre modelos CE matrizvariados y multivariados
Gupta & Varga (1994) presentaron una relacion biunıvoca entre los modelos CEmatrizvariados y multivariados. Para enunciar esta relacion se necesita la definiciondel producto Kronecker.
El producto Kronecker entre dos matrices C ∈ Rm×n y D ∈ R
p×q, denotadopor C ⊗D, es la matriz mp× nq definida como
C ⊗D =
c11D c22D · · · c1nDc21D c22D · · · c2nD...
.... . .
...cm1D cm2D · · · cmnD
. (2.1)
Ademas, para matricesX,Y ∈ Rp×n, A ∈ R
p×p yB ∈ Rn×n, se tienen las relaciones
siguientes que involucran al producto Kronecker:
16
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
(i) tr(X⊤AY B) = (vec(X⊤))⊤(A⊗B⊤)vec(Y ⊤).
(ii) |A⊗B| = |A|n|B|p.
(iii) (A⊗B)−1 = A−1 ⊗B−1, si A y B son invertibles.
Basados en Gupta & Varga (1994, p. 258), se establece el teorema siguiente.
Teorema 9. Sea X ∈ Rn×k una matriz aleatoria y x = vec(X⊤). Entonces,
X ∼ CEn×k(M ,Ω,Σ; g) si y solo si x ∼ CEnk(vec(M⊤),Σ⊗Ω; g).
Demostracion. X ∼ CEn×k(M ,Ω,Σ; g) si y solo si
fX (X) = c |Ω|−n/2|Σ|−k/2g(tr(Ω−1[X −M ]⊤Σ−1[X −M ])), X ∈ Rn×k. (2.2)
Ademas, x ∼ CEnk(vec(M⊤),Σ⊗Ω; g) si y solo si
fx(x) = c |Σ⊗Ω|−1/2g([x− vec(M⊤)]⊤(Σ⊗Ω)−1[x− vec(M⊤)]), x ∈ Rnk.
Sea x = vec(X⊤). Entonces,
fx(x) = c |Σ⊗Ω|−1/2g(
[vec(X⊤)− vec(M⊤)]⊤(Σ⊗Ω)−1[vec(X⊤)− vec(M⊤)])
= c |Σ⊗Ω|−1/2g(
[vec((X −M )⊤)]⊤(Σ⊗Ω)−1vec((X −M)⊤))
. (2.3)
Usando las propiedades (i), (ii) y (iii), se tiene que
de donde se sigue que las expresiones (2.2) y (2.3) son identicas. Esto completa lademostracion.
Desde el teorema anterior es claro que siX ∼ CEn×k(0n×k, In, Ik; g), entoncesx = vec(X⊤) ∼ CEnk(0nk×1, Ink; g) y viceversa. Esto permite reducir el problemade generacion de matrices aleatorias desde un modelo matrizvariado a la generaciondesde un modelo multivariado. En la literatura no se discuten metodos de generacionde matrices aleatorias, pero sı metodos sobre el caso multivariado; ver, por ejemplo,Gentle (1998), Muirhead (2005) y Parrish (1990).
17
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
2.2 Matrices aleatorias BSGM
Basados en los resultados dados en la Seccion 2.1, es posible generar matricesaleatorias BSGM, usando vectores aleatorios CE multivariados. Este procedimientose describe a continuacion.
Algoritmo. Dados n, k, A = (αij) ∈ Rn×k, B = (βij) ∈ R
n×k y g, una matrizaleatoria desde la distribucion BSGn×k(A,B; g) puede ser generada mediante lospasos siguientes:
P1 Generar un vector aleatorio z ∈ Rnk desde la distribucion CEnk(0nk, Ink; g).
P2 Crear una matriz Z = (zij) ∈ Rn×k usando el vector z llenando la matriz por
filas, es decir, si
z =
z1
z2...zn
→ Z =
z⊤1
z⊤2...z⊤n
. (2.4)
P3 Para cada elemento zij de la matriz Z, obtener el elemento tij de la siguientemanera
tij = βij
[
αijzij2
+
√
(αijzij2
)2
+ 1
]2
. (2.5)
La matriz T = (tij) es una observacion de la distribucion BSGn×k(A,B; g).
2.3 Implementacion en R-project
El software R-project, en su repositorio CRAN, tiene disponibles los paquetesmnormt y mvtnorm. Estos paquetes implementan, cada uno por separado, las dis-tribuciones normal y t-Student multivariadas. Dentro de sus funciones, existenalgunas para generar vectores aleatorios provenientes desde estas distribuciones, nonecesariamente con el mismo metodo. Sin embargo, cualquiera de los dos paqueteses util para el objetivo de esta tesis, y se ha optado por el uso del paquete mnormt.
Con la ayuda del paquete mnormt, se desarrollo una funcion en el programaR que implementa el algoritmo de la Seccion 2.2, la que se ha llamado rgbsm yque se encuentra disponible en el Anexo A. Esta funcion toma como argumentos eltamano de la muestra (m), las matrices de parametros (A, B), el kernel (g que puedeser “normal” o “t”) y los grados de libertad (nu, en caso de usar el kernel “t”).Esta funcion devuelve una matriz (digamos M ) tal que si t1, t2, . . . , tm es la muestraaleatoria generada desde el modelo BSGM, entonces M = (t1 t2 · · · tm).
18
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
A modo de ilustracion, suponga que se quiere generar una muestra aleatoriade tamano 4 desde una distribucion BSG2×2(A,B; g) con
A =
(
1 35 9
)
y B =
(
1 120 4
)
,
para los casos de kernel g normal y t(5). Entonces, los comandos del programa Rpara producir esto son:
> parA <- matrix(c(1,3,5,9), byrow=T, ncol=2)
> parB <- matrix(c(1,1,20,4), byrow=T, ncol=2)
> M <- rgbsm(m=4, A=parA, B=parB, kernel="normal")
> N <- rgbsm(m=4, A=parA, B=parB, kernel="t", nu=5)
> N
[,1] [,2] [,3] [,4]
[1,] 0.4042375 0.1927220 0.8772293 0.06858746
[2,] 133.7305439 0.0435163 322.6771638 0.01765019
[,5] [,6] [,7] [,8]
[1,] 1.006031 6.96769528 1.025699 0.8677161
[2,] 9.575684 0.02841166 87.785104 35.2281124
Con esto, se han creado las matrices M y N que contienen las muestras aleatoriascorrespondientes en cada caso.
19
Capıtulo 3
Metodos de Optimizacion para
Problemas de Dimensionalidad
Alta
Recuerde que el problema de estimacion de la Seccion 1.5 puede ser visto como unproblema de optimizacion del tipo
(
max f(x)x ∈ R
p+
)
. (3.1)
En este capıtulo se exploran algunos metodos de optimizacion creados especialmentepara problemas en que el argumento de la funcion objetivo es un vector de dimen-sionalidad alta. Primero se presentan algunos aspectos teoricos de tales metodosy luego estos son ilustrados con algunos ejemplos con el objetivo de ver como secomportan para el problema en estudio dado en (3.1).
3.1 Metodos clasicos de optimizacion
El problema de optimizar una funcion f(x), donde x ∈ Rp y f : Rp → R, puede ser
resuelto mediante la ecuacionF (x) = 0, (3.2)
donde F (x) = ∇f(x) = ∇xf(x) y F : Rp → Rp. Dentro de los metodos mas
conocidos y mejores para resolver (3.2) estan el metodo de Newton y los metodoscuasi-Newton; ver Ortega & Rheinboldt (1970) y Dennis & Schnabel (1983).
20
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
El metodo de Newton emplea una aproximacion cuadratica de la funcion f entorno a un valor estimado de la solucion y lo mejora siguiendo el esquema iterativo
xk+1 = xk − J(xk)−1 · F (xk), (3.3)
donde J : Rp → Rp × R
p es el jacobiano de F . Se sabe que este metodo no siempreconverge a una solucion de (3.2). Para que sı lo haga, se requiere de un puntoinicial suficientemente cerca del optimo local, convergiendo a una velocidad de tipocuadratica. Una de las desventajas de este metodo es que se requiere el calculo dela matriz J(xk) o J(xk)
−1 la cual, sobre todo cuando la dimension del problema esalta, es de muy alto costo computacional.
Los metodos cuasi-Newton intentan evitar el calculo de J o su inversa me-diante alguna aproximacion conveniente. Uno de los metodos cuasi-Newton es el al-goritmo BFGS (Broyden - Fletcher- Goldfarb- Shanno) que usa alguna aproximacionconveniente Hk (donde generalmente H0 es la matriz identidad) paraHk = J(xk)
−1
y se sigue el esquema iterativo siguiente:
Hk+1 = Hk +
(
1 +q⊤k Hkqk
q⊤k pk
)
pkp⊤k
p⊤k qk
− pkq⊤k Hk + Hkqkp
⊤k
p⊤k qk
, (3.4)
donde pk = xk+1−xk y qk = ∇f(xk+1)−∇f(xk). El algoritmo BFGS es consideradoactualmente como el mejor algoritmo para este tipo de problemas. Para mayoresdetalles de los algoritmos de Newton y BFGS, ver Nocedal & Wright (1999).
Cuando el dominio de la funcion f se restringe a D ⊆ Rp, entonces estos
algoritmos podrıan no funcionar correctamente. En este caso se debe cuidar quecada punto xk de las iteraciones pertenezca a D.
Los dos metodos anteriores estan implementados en el software R-project me-diante las funciones nlm y optim. La funcion optim de R-project incorpora entresus opciones el algoritmo L-BFGS-B, que permite agregar restricciones al dominiode la funcion objetivo; ver Byrd, Lu, Nocedal & Zhu (1995).
3.2 Algoritmos SANE y DF-SANE
Recientemente, dos algoritmos eficientes, llamados SANE y DF-SANE, han sidopropuestos en la literatura de analisis numerico para resolver sistemas de ecuacionesno lineales de gran escala; ver La Cruz & Raydan (2003) y La Cruz, Martınez &Raydan (2006). Estos metodos son una extension del metodo de Barzilai-Borweinpara encontrar mınimos locales; ver Barzilai & Borwein (1988) y Raydan (1997).Ellos usan ±F (x) como direcciones de busqueda en una manera sistematica, conuno de los coeficientes espectrales como largo de paso, y una tecnica de lınea debusqueda no-monotona para convergencia global. La simplicidad de la direccion debusqueda y el largo de paso resultan en un bajo costo por iteracion.
21
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
El enfoque espectral para sistemas no lineales esta definido por la iteracion
xk = xk + λk dk, k = 0, 1, . . . , (3.5)
donde λk es el largo de paso y dk es la direccion de busqueda, la que se define como
dk =
−F (xk) ; para DF-SANE±F (xk) ; para SANE
El unico largo de paso considerado por La Cruz & Raydan (2003) y La Cruz,Martınez & Raydan (2006) es
λk =p⊤k−1pk−1
p⊤k−1qk−1
, k = 1, 2, . . . (3.6)
Para lograr convergencia global, el esquema iterativo (3.5) debe ser combinado conuna tecnica de busqueda lineal apropiada. Detalles de esta tecnica para SANEy DF-SANE pueden verse en La Cruz & Raydan (2003) y La Cruz, Martınez &Raydan (2006), respectivamente. Estos algoritmos se generalizan en el paquete BB
de R-project, mediante la funcion BBsolve que agrega diferentes largos de paso λk
a cada algoritmo. Para mayores detalles, ver Varadhan & Gilbert (2009).
3.3 Otros algoritmos
En el repositorio CRAN de R-project existen tambien otros paquetes utiles, almenos en teorıa, para el problema (3.1). Se proporciona a continuacion una brevedescripcion de cada uno de estos paquetes.
dfoptim. Este paquete implementa dos algoritmos de optimizacion que no usanderivadas, los cuales son Nelder-Mead y Hooke & Jeeves y que no requiereninformacion del gradiente. Estos algoritmos pueden ser usados para resolverproblemas de optimizacion no-suave. Este paquete abarca los casos de optimizacionrestringida y no restringida. Para mas detalles de estos metodos, ver Kelley (1999).
genoud. Este paquete entrega una funcion que combina algoritmos de busquedaevolucionariamente con metodos basados en derivadas (Newton o cuasi-Newton).Esto con el objetivo de resolver problemas de optimizacion difıciles. Esta funcionpuede ser usada para problemas de optimizacion para los cuales las derivadas noexisten. Mayores detalles en Mebane & Sekhon (2011).
minqa. Este paquete entrega algoritmos de optimizacion que no usan derivadas.Dentro de sus algoritmos, existe uno para problemas de optimizacion restringida,
22
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
que usa un metodo de region de confianza (trust-region). Mas detalles en Powell(2009).
nleqlsv. Este paquete proporciona una funcion para resolver sistemas de ecua-ciones no lineales, usando o el metodo de Broyden o un metodo Newton con eleccionde estrategia global, tal como busqueda lineal o region de confianza. Existenopciones para un jacobiano analıtico o numerico. Mayores detalles en Dennis &Schnabel (1983).
subplex. Subplex es un metodo simplex de busqueda en subespacio para opti-mizacion no restringida de funciones multivariadas generales. Es muy apropiadopara funciones objetivo “ruidosas”. Mas detalles en Rowan (1990).
3.4 Aplicacion al problema de estimacion
En esta seccion se evalua el funcionamiento, para algunos casos particulares, delmodelo BSGM, de los algoritmos siguientes:
Paquete Funcion-algoritmo ¿Optimizacion restringida?nlm no
No se ha hablado especıficamente acerca de la convergencia de estos algoritmosdebido a que interesa ver como funcionan para el problema que se esta analizandoy dado en (3.1), lo que se detectara al estimar los parametros correctamente. Todosestos metodos requieren de un punto inicial y se ha elegido este como las estimacionesde VM del modelo BS para cada αij y βij de las matrices de parametros, las cualesson hechas usando la funcion mlebs del paquete gbs implementado por Barros,Paula & Leiva (2009).
Para evaluar el comportamiento de estos metodos, se realiza la estimacion deparametros del modelo BSGn×k(A,B; g) para los casos siguientes:
• Tamanos de muestra m =10, 50 y 100.
23
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
• Kernels g: N(0,1), t(2), t(8) y t(20).
• Matrices de parametros:
(i) A1 =
(
1 32 4
)
; B1 =
(
1 65 8
)
.
(ii) A2 =
2 6 102 8 14 9 8
; B2 =
1 9 43 1 208 1 2
.
(iii) A3 =
1 201 41 314 56 77 92 7
; B3 =
9 13 3018 62 27 78 915 9
.
Para cada combinacion de casos, la estimacion se repite 50 veces, y se calcula elpromedio de las estimaciones de los parametros y el promedio del tiempo computa-cional involucrado (∆t) en segundos.
Evaluaciones preliminares muestran que los algoritmos rgenoud y subplex
producen en varias ocasiones errores (la funcion rgenoud definitivamente no se com-porta bien, al menos para el caso del problema (3.1)). Por esta razon, se ha descar-tado el uso de los dos metodos anteriores y optado por considerar los 8 algoritmosrestantes.
3.5 Evaluacion de metodos de optimizacion
Las Tablas 3.1 - 3.15 presentan la simulacion de los metodos mencionados en laSeccion 3.4. Desde los resultados puede observarse que
• Las estimaciones de todos los metodos que se indican son practicamente lasmismas bajo un mismo caso. Es decir, producen los mismos resultados de lasestimaciones.
• Las estimaciones de los metodos se acercan bastante al valor real de losparametros. Solo en el caso de kernel t(2) hay problemas de estimacion, dondese puede apreciar grandes diferencias, sobre todo en el caso cuando el tamanode la muestra es pequeno (m = 10).
• Los metodos mas rapidos son sane, dfsane y nlesqv, mientras que el maslento es bobyqa. En todo caso, los metodos tradicionales nlm y optim +
24
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
L-BFGS-B son buenas alternativas para estos casos cuando el numero deparametros aumenta.
A los comentarios anteriores debe agregarse que todos estos algoritmos funcionanbien cuando se les proporciona un buen punto inicial, pero si la eleccion de tal puntoes incorrecta, los resultados podrıan cambiar dramaticamente. Ademas de todo loanterior, existe la incertidumbre de si estos algoritmos funcionan bien cuando elnumero de parametros aumenta.
Como solucion a estas interrogantes, en el Capıtulo 4 se propone un procedi-miento de estimacion que supera a los anteriores y que se basa en relaciones entrelos modelos BSG matrizvariados y univariados. Este metodo constituye el centro deesta tesis y es el aporte que se sugiere para la solucion del problema planteado en elCapıtulo 1, y que soluciona las interrogantes anteriores ya que reduce la dimensio-nalidad del problema y el problema del punto inicial.
25
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
Tabla 3.1: estimacion caso A = A1, B = B1 y m = 10Metodo ∆t α11 α21 α12 α22 β11 β21 β12 β22
En este capıtulo proponemos un procedimiento para estimar los parametros del mo-delo BSGM por el metodo de VM, y constituye el principal aporte de esta tesisya que simplifica y soluciona el problema planteado en el Capıtulo 1. Este proce-dimiento se basa en ciertas relaciones entre los modelos BSG matrizvariado y uni-variado. Primero se presentan estas relaciones y luego se establece el procedimientopropuesto para la estimacion.
4.1 Relacion entre modelos BSG
La relacion entre los modelos CE matrizvariados y multivariados fue presentada enel Teorema 9. Una relacion entre los modelos CE matrizvariados y univariados seenuncia en el teorema siguiente.
Teorema 10. Sea X ∼ CEn×k(M ,Ω,Σ; g) con X = (Xij), M = (mij), Ω = (ωij)y Σ = (σij). Entonces Xij ∼ CE1(mij, ωijσij ; g).
Demostracion. Ver Gupta & Varga (1994, p. 261).
Desde el Teorema 10 se tiene que si X = (Xij) ∼ CEn×k(0, Ik, In; g), entoncesXij ∼ CE1(0, 1; g) ≡ S(g). Con esto, se puede establecer el corolario siguiente.
Corolario 1. Si T ∼ BSGn×k(A,B; g), con T = (Tij), A = (αij) y B = (βij),entonces Tij ∼ BSG(αij, βij ; g).
41
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
Demostracion. Por la definicion de la distribucion BSGM dada en la Seccion 1.3, setiene que T = h(X), donde h es una transformacion uno a uno de R
n×k en Rn×k
y X ∼ CEn×k(0, Ik, In; g). Mas exactamente, Tij y Xij satisfacen la relacion (1.1)para αij y βij . Como cada Xij ∼ S(g), se concluye que Tij ∼ BS(αij, βij ; g).
4.2 Procedimiento de estimacion
Usando el Corolario 1 se concluye que los estimadores de VM del modelo BSGMpueden ser obtenidos mediante los estimadores de VM de modelos BSG univariadosde la manera expresada en el teorema siguiente.
Teorema 11. Sea T (1), . . . ,T (m) una muestra aleatoria de tamano m desde unadistribucion BSGn×k(A,B; g), donde T (r) = (T
(r)ij ), para r = 1, . . . ,m, A = (αij) y
B = (βij). Entonces, los estimadores de VM del modelo BSGM pueden ser obtenidos
como A = (αij) y B = (βij) donde αij y βij son los estimadores de VM del modelo
BSG(αij, βij ; g) para la muestra aleatoria T(1)ij , T
(2)ij , . . . , T
(m)ij .
Demostracion. Si T (1), . . . ,T (m) siguen una distribucion BSGn×k(A,B; g), entonces
T(1)ij , T
(2)ij , . . . , T
(m)ij siguen una distribucion BSG(αij, βij ; g), y por lo tanto, los
parametros αij y βij son estimados mediante αij y βij . Luego, los estimadores de
VM de A y B son A = (αij) y B = (βij).
En otras palabras, el Teorema 11 dice que el problema de estimacion en unmodelo BSGM de dimension n×k es resuelto mediante nk estimaciones en modelosBSG univariados. Este procedimiento es mucho mas eficiente que los algoritmosdescritos en el Capıtulo 3 aplicados al problema de estimacion, pues la dimensiondel problema (Rn×k) se “reduce” siempre a R
2.Como puede verse, se necesita, pues, un buen algoritmo de estimacion para el
modelo BSG univariado. En esta tesis se ha optado por el uso de los dos algoritmosdescritos al final de la Seccion 1.1.3 para los modelos BS y BS-t y cuya evaluacion desu eficiencia se describe en la Seccion 4.3. En el caso BS, el criterio de convergenciaes el heredado de la funcion uniroot() (que obtiene soluciones de f(x) = 0) quedeclara convergencia cuando f(xn) = 0 o cuando |xn − xn−1| < 10−5, donde xn es laestimacion actual y xn−1 la estimacion anterior. Para el caso BS-t se ha establecido
como criterio de convergencia
∣
∣
∣
∣
xn − xn−1
xn−1
∣
∣
∣
∣
≤ 10−8.
4.3 Simulacion por metodo de Monte Carlo
La calidad de los metodos de estimacion univariados a utilizar es evaluada usandosimulaciones de Monte Carlo desde la distribucion BSG univariada, las cuales usan el
42
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
generador de numeros aleatorios propuestos por Leiva, Sanhueza, Sen & Paula (2008)y que se encuentra implementado en el paquete gbs de R-project. Los metodos deestimacion para los casos BS y BS-t se han implementado mediante las funcionesmleBS y mleBSt disponibles en Anexo A.
Las simulaciones se llevaron a cabo bajo diferentes escenarios, los que incluyen:el tamano de la muestra, m; el parametro de forma, α (fijando el parametro de escalaβ = 1.0, sin perdida de generalidad); y el kernel, g. En particular, los escenariosconsiderados son:
(E1) tamanos de muestra m =10, 25 y 100, cubriendo valores pequeno, moderadoy grande;
(E2) valores para el parametro de forma α = 0.2, 0.5 y 1.0, donde estos valoresimplican asimetrıa baja, media y alta, respectivamente.
(E3) kernels normal y t(ν), con ν = 2, 8 y 50, donde el valor ν = 2 corresponde aalta curtosis y el valor ν = 50 a baja curtosis, en relacion al caso normal.
La calidad de los metodos de estimacion es estudiada mediante el sesgo y el errorcuadratico medio (ECM) de los estimadores de VM. Las muestras son generadasdesde el modelo BSG con un kernel especıfico (normal o t(ν)), llamado “kernelverdadero” y la estimacion de parametros es calculada desde muestras obtenidasusando el mismo u otro kernel, llamado “kernel asumido”. Los valores del sesgo yel ECM empıricos son los promedios de los valores desde 500 muestras simuladaspara cada combinacion de m, α y kernel (escenarios E1-E3). Los resultados de lassimulaciones son presentados en las Tablas 4.1 y 4.2 para los estimadores de α y β,respectivamente. En aquellos casos donde los modelos verdadero y asumido son elmismo, la calidad de la estimacion es evaluada mediante el sesgo de los estimadoresde α y β. Se obtienen los resultados esperados en el analisis de sesgo. Por ejemplo,el sesgo es mas pequeno cuando el tamano de la muestra es mas grande; el sesgoes mas grande cuando la asimetrıa aumenta; y el sesgo es mas pequeno cuando lacurtosis aumenta. Ademas, se observa que el sesgo es mas grande cuando se estimaβ en lugar de α. La sensibilidad del metodo de estimacion es estudiada a travesdel ECM de los estimadores de α y β. En general, cuando el modelo asumido estamas lejos del modelo verdadero, el ECM de los estimadores se incrementa, tal comose esperaba. El ECM es mas pequeno cuando el tamano de la muestra aumenta ytambien cuando la asimetrıa disminuye. Ademas, el ECM es mas pequeno cuandola curtosis aumenta. Se aprecia que el ECM es mas grande cuando se estima β enlugar de α.
En este capıtulo se presenta la aplicacion del modelo BSGM a un conjunto de datosreales con el objetivo de ver el funcionamiento del metodo de estimacion y comparardistintos modelos BSGM.
5.1 El conjunto de datos
Una muestra aleatoria de codigos postales britanicos manuscritos ha sido recolectaday digitalizada. Dryden & Mardia (1998, pp. 318-320) presentaron los datos de“landmarks” correspondientes al dıgito “3” manuscrito.
Un landmark es un punto de correspondencia sobre cada objeto que coincideentre y dentro de poblaciones; ver Dryden & Mardia (1998, p. 3). En la Figura 5.1se presentan los 13 landmarks de una imagen de dıgito “3” manuscrito. El landmark1 esta en la parte inferior extrema izquierda, el 4 esta en la curvatura maxima delarco inferior, el 7 esta en el punto extremo de protuberancia central, el 10 estaen la curvatura maxima del arco superior y el 13 es el punto izquierdo superiorextremo. Los otros landmarks son “pseudo-landmarks” ubicados aproximadamenteen intervalos iguales entre los landmarks anteriores.
Hay m = 30 dıgitos manuscritos (tamano de la muestra) con n = 13 land-marks y k = 2 dimensiones (el dıgito manuscrito es considerado en un sistemacartesiano). En la Figura 5.2 se observa la muestra aleatoria de los 30 dıgitosmanuscritos. En el Anexo B se presenta el conjunto de datos donde cada par delıneas corresponden a una observacion del dıgito 3 manuscrito, y las coordenadasestan en el orden (x1, y1), (x2, y2), . . . , (xn, yn). Los landmarks fueron digitalizados
46
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
Figura 5.1: landmarks para dıgito 3 manuscrito
por Anderson (1997).Es de interes examinar la media de la forma y la variabilidad de la forma,
pues, esta puede ser usada como un modelo para el reconocimiento de dıgitos desdeimagenes de codigos postales manuscritos; ver Dryden & Mardia (1998, p. 13).Por tanto, estimar la media de la forma es de mucha importancia. Para hacer estaestimacion, una alternativa es suponer un modelo para los datos y estimar su mediabajo esa distribucion.
El objetivo de estudio de este conjunto de datos, para esta aplicacion, esestimar la media de la forma del dıgito “3” manuscrito. Para ello, primero se suponeque los datos siguen una distribucion CE y luego que estos siguen una distribucionBSGM. Se escogera el mejor modelo entre los anteriores y luego se estimara la mediade la forma.
5.2 Ajuste de modelos CE matrizvariados a los datos
En esta seccion, se ajustan dos modelos CE matrizvariados a los datos: el modelonormal y el modelo t-Student con ν = 3, 8 y 50 (considerando curtosis alta ν = 3y baja ν = 50). Las matrices de escala son escogidas como Ω = σ2 I2, donde σ2
corresponde a un parametro de dispersion, y Σ = I13. Esta eleccion de las matricesde escala se debe a que con esto se tiene un caso isotropico ası como lo es el modeloBSGM. Entonces, los parametros a estimar son σ2 y M (la media del modelo).
Debido a la relacion biunıvoca entre los modelos CE matrizvariados y multi-
47
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
Figura 5.2: muestra aleatoria de dıgito 3 manuscrito.
variados dada en el Teorema 9, se puede desarrollar el procedimiento de estimacionusando modelos CE multivariados equivalentes, ası pues el modelo sobre el cualse debe hacer la estimacion puede ser considerado como CE26(µ, σ
2 I26; g), dondeµ = vec(M⊤).
La funcion de log-verosimilitud basada en una muestra x1,x2, . . . ,xn conxi ∼ CEp(µ, σ
2 Ip; g), para i = 1, 2, . . . , n, esta dada por
ℓ(µ, σ2) = m log(c)− mp
2log(σ2) +
n∑
i=1
log
g
(
1
σ2(xi − µ)⊤(xi − µ)
)
. (5.1)
Para el caso normal, es decir, g(u) = e−u/2 y c = c1 = (2π)−p/2, la funcion de
48
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
log-verosimilitud queda expresada como
ℓ(µ, σ2) = −np
2log(2π)− np
2log(σ2)− 1
2σ2
n∑
i=1
(xi − µ)⊤(xi − µ), (5.2)
desde donde las primeras derivadas con respecto a µ y σ2, denotadas por ℓµ y ℓσ2 ,respectivamente, son
ℓµ = − 1
2σ2(−2
n∑
i=1
xi + 2nµ)
y
ℓσ2 = − np
2σ2+
1
2σ4
n∑
i=1
(xi − µ)⊤(xi − µ).
Igualando a cero estas expresiones se obtienen formas explıcitas para los estimadoresde VM de µ y σ2, dados por
µN =1
n
n∑
i=1
xi
y
σ2N =
1
np
n∑
i=1
(xi − µ)⊤(xi − µ).
En cuanto al caso t, donde g(u) = (1+1
νu)−(ν+p)/2 y c = c2 =
(νπ)−p/2Γ((ν + p)/2)
Γ(ν/2),
la funcion de log-verosimilitud se expresa como
ℓ(µ, σ2) = n log(c2)−np
2log(σ2)−
(
ν + p
2
) n∑
i=1
log
(
1 +1
νσ2(xi − µ)⊤(xi − µ)
)
.
(5.3)Las primeras derivadas con respecto a µ y σ2 son
ℓµ = −(
ν + p
νσ2
) n∑
i=1
µ− xi
1 + siν
y
ℓσ2 = − np
2σ2+
ν + p
2σ2
n∑
i=1
siν
1 + siν
,
donde si = 1σ2 (xi − µ)⊤(xi − µ). Igualando a cero las expresiones anteriores se
obtienen ecuaciones implıcitas para los estimadores de VM, esto es,
µt =
∑ni=1
xi
ν+si∑n
i=11
ν+si
49
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
y
σ2t =
ν + p
np
n∑
i=1
(xi − µ)⊤(xi − µ)
ν + si.
Usando el software R-project se han obtenido las estimaciones de VM para estoscuatro casos: normal, t(3), t(8) y t(50). Para el caso t se ha usado la funcion optim
con el metodo L-BFGS-B sobre la funcion de log-verosimilitud. Las estimaciones sepresentan a continuacion:
Usando el metodo de estimacion propuesto en la Seccion 4.2, se ha ajustado elmodelo BSGM usando los kernels: N(0,1), t(3), t(8) y t(50). Los valores ν = 3, 8 y50 son escogidos para variar la curtosis del modelo BSGM, considerando curtosis alta(ν = 3) y baja (ν = 50). Las estimaciones de VM para las matrices de parametrosA y B son:
51
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
En todos los casos considerados se han obtenido las estimaciones de VM sin proble-mas de calculo.
5.4 Seleccion del mejor modelo
Para seleccionar el mejor modelo (de entre un conjunto de modelos) para los datos,existen criterios de seleccion de modelos basados en perdida de informacion, talescomo Akaike (AIC) y bayesiano de Schwarz (BIC). Estos criterios permiten compararmodelos para el mismo conjunto de datos y estan dados por
AIC = 2p− 2ℓ(θ)
yBIC = p log(m)− 2ℓ(θ),
donde θ es el vector (o matriz) de parametros estimado, ℓ(θ) es la funcion de log-verosimilitud evaluada en θ, m es el tamano de la muestra y p es el numero deparametros del modelo. Un modelo cuyo criterio de informacion es menor es mejor;ver Spiegelhalter, Best, Carlin & Van der Linde (2002). En la Tabla 5.1 se muestranlos valores AIC y BIC para los diferentes modelos matrizvariados presentados en lassecciones 5.2 y 5.3, desde donde, segun ambos criterios, se concluye que el mejor deentre estos es el modelo BS-t(3)13×2.
Generalmente, las diferencias entre dos valores del criterio de informacion noson muy evidentes. En ese caso, el factor de Bayes (FB) puede ser usado paradestacar tales diferencias, si ellas existen. Para definir el FB, se asume que losdatos D pertenecen a uno de dos modelos hipoteticos, llamense M1 y M2, segun
53
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
Tabla 5.1: valores AIC y BIC para modelos CE y BSGM con kernels: N(0,1), t(3),t(8) y t(50).
2 log(B12) Evidencia en favor de M1
< 0 Negativa (M2 es aceptado)[0, 2) Debil[2, 6) Positiva[6, 10) Fuerte≥ 10 Muy fuerte
Tabla 5.2: interpretacion de 2 log(B12) asociado con FB.
las probabilidades P(D | M1) y P(D | M2), respectivamente. El FB que permitecomparar M1 (modelo considerado como correcto) a M2 (modelo a ser contrastadocon M1) esta dado por
B12 =P(D | M1)
P(D | M2). (5.4)
Basado en (5.4), se puede usar la aproximacion
2 log(B12) ≈ 2[
ℓ(θ1)− ℓ(θ2)]
− [p1 − p2] log(m), (5.5)
donde ℓ(θk) es la funcion de log-verosimilitud para el parametro θk bajo el modeloMk evaluado en θ = θk y pk es la dimension de θk, para k = 1, 2. Note que laaproximacion en (5.5) es calculada sustrayendo al valor BIC del modelo M2, dadopor BIC2 = −2ℓ(θ2) + p2 log(m), el valor BIC del modelo M1, dado por BIC1 =−2ℓ(θ1) + p1 log(m).
En general, el FB es informativo porque presenta rangos de valores en loscuales el grado de superioridad de un modelo con respecto a otro puede ser cuan-tificado. Una interesante interpretacion del FB es mostrado en la Tabla 5.2; verVilca, Santana, Leiva & Balakrishnan (2011) y sus referencias dentro. La Tabla 5.3presenta el calculo del FB aplicado a la comparacion entre el modelo BS-t(3)13×2
54
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
Modelo matrizvariado M2 2 log(B12) Evidencia en favor de M1
Normal 1930.552 Muy fuertet(3) 1811.809 Muy fuertet(8) 1813.099 Muy fuertet(50) 1868.816 Muy fuerte
BS-t(8) 786.825 Muy fuerteBS-t(50) 1654.256 Muy fuerte
BS 2016.581 Muy fuerte
Tabla 5.3: valores del FB (2 log(B12)) entre M1 y M2.
(modelo M1) y los restantes (cada uno considerado como modelo M2). Se apreciaque en todos los casos, hay una evidencia muy fuerte para preferir el modelo M1
en lugar de cualquiera de los otros. Interesantemente, el modelo BSGM, que esasimetrico, se ajusta mejor que los modelos CE. Por lo tanto, por estos tres criterios(AIC, BIC y FB) la preferencia del modelo BS-t(3)13×2 es justificada, y es el modeloa usar para estimar la media de la forma de los datos. Los codigos en el softwareR-project para obtener tanto las estimaciones de A y B como los valores de AIC yBIC para cada modelo estan disponibles en el Anexo C.
5.5 Estimacion de la media de la forma
Recuerde que la media de una variable aleatoria T ∼ BSGn×k(A,B; g) esta dadapor la expresion (1.16), es decir,
E(T ) = µ =B
2⊙ (2 + u1 A
2H).
En el caso de los kernels t(3), t(8), t(50) y N(0,1) se tiene u1 = 3, 4/3, 25/24 y 1,respectivamente; ver Tabla 1.1. Uniendo las coordenadas de los landmarks porsegmentos de lınea recta, se pueden apreciar las formas de las observaciones delconjunto de datos y la de las medias estimadas. La Figura 5.3 presenta las mediasestimadas bajo los modelos normal, t(3), t(8) y t(50) matrizvariados, donde nose aprecia, visualmente, una diferencia significativa. Lo mismo se ha hecho en laFigura 5.4 para los modelos matrizvariados BS, BS-t(3), BS-t(8) y BS-t(50), dondese aprecia que la media de la forma estimada bajo el modelo BS-t(3) se diferenciabastante de las demas. Finalmente, en la Figura 5.5 se presentan las ocho mediasestimadas bajo los modelos anteriores (con los mismos colores) y nuevamente sepuede apreciar que la media estimada bajo el modelo BS-t(3) escapa de la tendenciade las otras.
En cuanto al calculo numerico de la media de la forma estimada bajo en modeloBS-t(3)13×2, este se obtiene reemplazando las estimaciones A2 y B2 en (1.16), y ası,
55
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
10 15 20 25 30 35 40
1020
3040
x
y
Figura 5.3: media estimada bajo los modelos matrizvariados normal (curva negra),t(3) (roja), t(8) (verde) y t(50) (azul).
10 15 20 25 30 35 40
1020
3040
x
y
Figura 5.4: media estimada bajo los modelos matrizvariados BS (curva gris), BS-t(3)(turquesa), BS-t(8) (magenta) y BS-t(50) (amarillo).
56
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
10 15 20 25 30 35 40
1020
3040
x
y
Figura 5.5: media estimada bajo los modelos CE y BSG matrizvariados.
una estimacion para la media de la forma del dıgito 3 es
En la Figura 5.6 se presenta un grafico que superpone las observaciones de la muestra(curvas anaranjadas) y la media estimada de la forma (curva azul), desde donde seaprecia una tendencia clara a ampliar mas la curva superior del dıgito 3 que la dela parte inferior y, visiblemente, una estimacion adecuada de esta media.
57
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
0 10 20 30 40 50
010
2030
4050
x
y
Figura 5.6: superposicion de la media estimada (curva azul) y las observaciones dela muestra (curvas anaranjadas).
58
Conclusiones y Trabajos
Futuros
En este trabajo se ha propuesto un procedimiento de estimacion para los parametrosdel modelo BSGM propuesto por Caro, Leiva & Balakrishnan (2012). Es-pecıficamente,
• Mediante el estudio de las relaciones matematicas entre los modelos CE yBSG, se ha propuesto un generador de matrices aleatorias BSGM.
• Se ha desarrollado un procedimiento de estimacion de los parametros del mo-delo BSGM, para los casos de kernels normal y t-Student, basado en estima-ciones de parametros de modelos BSG univariados.
• Se ha evaluado el funcionamiento del metodo de estimacion propuesto me-diante simulaciones de Monte Carlo, las que muestran el muy buen fun-cionamiento de este procedimiento.
• Se ha aplicado el modelo BSGM a un conjunto de datos reales para ilustrar laestimacion de parametros y comparar distintos modelos BSGM.
• Se ha elaborado en el software R-project una serie de funciones para el usodel modelo BSGM, que incluyen la generacion de matrices aleatorias y laestimacion de parametros.
Dentro de los posibles trabajos futuros que se pueden desarrollar, teniendocomo base esta tesis, estan los siguientes:
(i) Estudiar la generacion del modelo BSGM bajo los siguientes escenarios:
– Cuando la matriz M de la distribucion CE que genera el modelo BSGMes no nula;
59
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
– Cuando las matrices de escala Σ y Ω son diferentes de la matriz identidad(es decir, estructura de covarianza no trivial); y
– Mezclando los dos escenarios anteriores.
(ii) Estudiar bajo los escenarios descritos en (i), los temas siguientes:
– Las representaciones de la densidad del modelo BSGM. ¿Podrıan estable-cerse los mismos tipos de representaciones mostradas en el Capıtulo 1?
– La generacion de matrices aleatorias BSGM.
– Proponer un procedimiento de estimacion. ¿Que dificultades desde elpunto de vista teorico y computacional existirıan? ¿Puede usarse unprocedimiento similar al propuesto en el Capıtulo 4?
60
Bibliografıa
Anderson, C.R. (1997). Object recognition using statistical shape analysis. PhD the-sis, University of Leeds.
Anderson, G.W., Guionnet, A., Zeitouni, O. (2009) An Introduction to RandomMatrices. Cambridge University Press, Cambridge, England.
Balakrishnan, N., Leiva, V., Sanhueza, A., Vilca, F. (2009) Estimation in theBirnbaum-Saunders distribution based on scale-mixture of normals and the EM-algorithm. Statistics and Operations Research Transactions, 33, 171-192.
Barros, M., Paula, G.A., Leiva, V. (2008) A new class of survival regression modelswith heavy-tailed errors: robustness and diagnostics. Lifetime Data Analysis, 14,316-332.
Barros, M., Paula, G.A., Leiva, V. (2009) An R implementation for generalizedBirnbaum-Saunders distributions. Computational Statistics and Data Analysis,53, 1511-1528.
Barzilai, J., Borwein, J.M. (1988) Two-point step size gradient methods. IMA Jour-nal of Numerical Analysis, 8, 141-148.
Bhatti, C.R. (2010) The Birnbaum-Saunders autoregressive conditional durationmodel. Mathematics and Computers in Simulation, 80, 2062-2078.
Birnbaum, Z.W., Saunders, S.C. (1969a) A new family of life distributions. Journalof Applied Probability, 6, 637-52.
Birnbaum, Z.W., Saunders, S.C. (1969b) Estimation for a family of life distributionswith applications to fatigue. Journal of Applied Probability, 6, 328–347.
Brent, R. (1973) Algorithms for Minimization without Derivatives. Englewood Cliffs,Prentice-Hall, New Jersey.
61
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
Byrd, R. H., Lu, P., Nocedal, J., Zhu, C. (1995) A limited memory algorithmfor bound constrained optimization. SIAM Journal on Scientific Computing, 16,1190–1208.
Caro, F.J., Dıaz, J.A., Gonzalez, G. (2010) Noncentral elliptic configuration density.Journal of Multivariate Analysis, 101, 32-43.
Caro, F.J., Leiva, V., Balakrishnan, N. (2012) Connection between the Hadamardand matrix products with an application to a matrix-variate Birnbaum-Saundersdistribution. Journal of Multivariate Analysis, 104, 126-139.
Dennis, JE., Schnabel, RB. (1983) Numerical Methods for Unconstrained Optimiza-tion and Nonlinear Equations. Englewood Cliffs, Prentice-Hall, New Jersey.
Dennis, JE., Schnabel, RB. (1996) Numerical Methods for Unconstrained Optimiza-tion and Nonlinear Equations. SIAM Publications, Philadelphia.
Dıaz-Garcıa, J.A., Domınguez-Molina, J.R. (2006) Some generalizations ofBirnbaum-Saunders and sinh-normal distributions. International MathematicalForum, 1, 1709-1727.
Dıaz-Garcıa, J.A., Domınguez-Molina, J.R. (2007) A new family of life distributionsfor dependent data: estimation. Computational Statistics and Data Analysis, 51,5927-5939.
Dıaz-Garcıa, J.A., Leiva, V. (2005) A new family of life distributions based onelliptically contoured distributions. Journal of Statistical Planning and Inference,128, 445-457.
Dıaz-Garcıa, J.A., Leiva, V., Galea, M. (2002) Singular elliptic distribution: densityand applications. Communications in Statistics: Theory and Methods, 31, 665-681.
Gentle, J.E. (1998) Random Number Generation and Monte Carlo Methods.Springer, New York.
Gupta, A. K., Nagar, D. K. (1999) Matrix variate distributions. Chapman &Hall/CRC, Boca Raton, FL.
62
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
Gupta, A.K., Varga, T. (1993) Elliptically Contoured Models in Statistics. KluwerAcademic Publishers, Boston.
Gupta, A.K., Varga, T. (1994) A new class of matrix variate elliptically contoureddistributions. Journal of Indian Statistical Association, 3, 255-270.
Hastie, T., Tibshirani, R. (1992) Handwritten digit recognition via deformable pro-totypes. Technical report, AT&T Bell Laboratories.
Hull, J. J. (1990) Character recognition: the reading of text by computer. In Shapiro,S. C. editor, Encyclopedia of Artificial Intelligence, Vols. 1,2, pages 82-88. WileyInterscience, New York.
Johnson, N.L., Kotz, S., Balakrishnan, N. (1994) Continuous Univariate Distribu-tions-Vol. 1. Wiley, New York.
Johnson, N.L., Kotz, S., Balakrishnan, N. (1995) Continuous Univariate Distribu-tions-Vol. 2. Wiley, New York.
Kelley, C.T. (1999) Iterative Methods for Optimization. SIAM, Philadelphia.
Kundu, D., Balakrishnan, N., Jamalizadeh, A. (2010) Bivariate Birnbaum-Saundersdistribution and associated inference. Journal of Multivariate Analysis, 101, 113-125.
La Cruz, W., Martınez, J.M., Raydan, M. (2006) Spectral residual method with-out gradient information for solving large-scale nonlinear systems of equations.Mathematics of Computation, 75, 14-29.
La Cruz, W., Raydan, M. (2003) Spectral methods for large-scale nonlinear systems.Optimization Methods and Software, 18, 583-599.
Lange, K.L., Little, J.A., Taylor, M.G. (1989) Robust statistical modelling usingthe t distribution. Journal of the American Statistical Association, 84, 881-896.
Leiva, V., Barros, M., Paula, G.A., Sanhueza, A. (2008) Generalized Birnbaum-Saunders distribution applied to air pollutant concentration. Environmetrics, 19,235-249.
Leiva, V., Hernandez, H., Riquelme, M. (2006) A new package for the Birnbaum-Saunders distribution. R Journal, 6, 35-40.
63
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
Leiva, V., Sanhueza, A., Sen, P.K., Paula, G.A. (2008) Random number genera-tors for the generalized Birnbaum–Saunders distribution. Journal of StatisticalComputation and Simulation, 78, 1105-1118.
Lucas, A. (1997) Robustness of the student t based M-estimator. Communicationsin Statistics: Theory and Methods, 26, 1165-1182.
Mebane, W., Sekhon, J. (2011) Genetic optimization using derivatives:the rgenoud package for R. Journal of Statistical Software, 42, 1-26.http://sekhon.berkeley.edu/rgenoud/
Muirhead, R. (2005) Aspects of Multivariate Statistical Theory. Wiley, New Jersey.
Nocedal, J., Wright, S.J. (1999) Numerical Optimization. Springer, New York.
Ortega, JM., Rheinboldt, WC. (1970) Iterative Solution of Non-Linear Equationsin Several Variables. Academic Press, New York.
Parrish, R.S. (1990). Generating random deviates from multivariate Pearson distri-butions. Computational Statistics and Data Analysis, 9, 283-295.
Paula, G.A., Leiva, V., Barros, M., Liu, S. (2012) Robust statistical modeling usingthe Birnbaum-Saunders-t distribution applied to insurance. Applied StochasticModels in Business and Industry, 28, 16-34.
Podlaski, R. (2008) Characterization of diameter distribution data in near-naturalforests using the Birnbaum- Saunders distribution. Canadian Journal of ForestResearch, 18, 518-526.
Powell, M. (2009) The BOBYQA algorithm for bound constrained optimization with-out derivatives. Report No. DAMTP 2009/NA06, Centre for Mathematical Sci-ences. University of Cambridge, UK.
Raydan, M. (1997) The Barzilai and Borwein gradient method for the large scaleunconstrained minimization problem. SIAM Jornal on Optimization, 7, 26-33.
Riquelme, M., Leiva, V., Galea, M., Sanhueza, A. (2011) Influence diagnostics on thecoefficient of variation of elliptically contoured distributions. Journal of AppliedStatistics, 38, 513-532.
Rowan, T. (1990) Functional Stability Analysis of Numerical Algorithms. Ph.D. the-sis, Department of Computer Sciences, University of Texas at Austin, Texas.
Sanhueza, A., Leiva, V., Balakrishnan, N., (2008) The generalized Birnbaum-Saunders distribution and its theory, methodology and application. Communi-cations in Statistics: Theory and Methods, 37, 645-670.
64
Distribucion Birnbaum-Saunders Generalizada Matrizvariada Luis Sanchez
Simard, P., Le Cun, Y., Denker, J. (1993) Efficient pattern recognition using anew transformation distance. In Hanson, S., Cowan, J., and Giles, C., editors,Advances in Neural Information Processing Systems, Vol. 5, San Mateo. MorganKaufmann.
Spiegelhalter, D.J., Best, N.G., Carlin, B.P., Van der Linde, A. (2002) Bayesianmeasures of model complexity and fit. Journal of the Royal Statistical Society,Series B, 64, 583-616.
Tulino, A.M., Verdu, S. (2004) Random Matrix Theory and Wireless Communica-tions. Now Publishers, Hanover, MA.
Varadhan, R., Gilbert, P.D. (2009) BB: an R package for solving a largesystem of nonlinear equations and for optimizing a high-dimensionalnonlinear objective function. Journal of Statistical Software, 32, 4.http://www.jstatsoft.org/v32/i04/
Vilca, F., Santana, L., Leiva, V., Balakrishnan, N. (2011) Estimation of extreme per-centiles in Birnbaum–Saunders distributions. Computational Statistics and DataAnalysis, 55, 1665–1678.
Estos datos estan presentados de la manera siguiente. Por ejemplo, la primeraobservacion de la muestra esta representada por las dos primeras lıneas, las cualescontienen las coordenadas de los 13 landmarks de la manera siguiente: (x1, y1) =(9, 27), (x2, y2) = (12, 31), . . . , (x13, y13) = (8, 5). Y lo mismo para cada observacionsiguiente.
80
Anexo C. Codigos para
aplicacion
Los comandos necesarios para obtener los calculos de la Seccion 5.2 estan contenidosen el script siguiente.