-
Mster Universitario en Estadstica Aplicada - Curso 2010/2011
Universidad de Granada
MTODOS DE REGRESIN NO PARAMTRICOS PARA
EL ANLISIS DE DATOS LONGITUDINALES
Trabajo Fin de Mster
Lnea de Investigacin: Estimacin no paramtrica de curvas en R
Realizado por: Jos Antonio Linero Morante
D.N.I.: 74912127-T
Tutora: Dra. D. Mara Dolores Martnez Miranda
Fecha: Diciembre 2011
-
ndice de contenidos
Captulo 1: Introduccin 1
1.1. Motivacin de ejemplos de datos longitudinales 1
1.1.1. Datos de progesterona 2
1.2. Modelizacin de efectos mixtos: de paramtrico a no
paramtrico 6
1.2.1. Modelos paramtricos de efectos mixtos 6
1.2.2. Regresin no paramtrica y suavizacin 7
1.2.3. Modelos no paramtricos de efectos mixtos 10
Captulo 2: Modelos paramtricos de efectos mixtos 12
2.1. Introduccin 12
2.2. Modelo lineal de efectos mixtos 12
2.2.1. Especificacin del modelo 12
2.2.2. Estimacin de los efectos fijos y aleatorios 15
2.2.3. Interpretacin bayesiana 16
2.2.4. Estimacin de los componentes de varianza 18
2.2.5. Los algoritmos EM 20
Captulo 3: Suavizadores en regresin no paramtrica 24
3.1. Introduccin 24
3.2. Suavizador del ncleo polinomial local 27
3.2.1. Grado general del suavizador LPK 27
3.2.2. Suavizadores lineal y constante local 29
3.2.3. Funcin del ncleo 31
3.2.4. Seleccin del ancho de banda 32
3.2.5. Un ejemplo ilustrativo 34
Captulo 4: Mtodos localmente polinomiales 35
4.1. Introduccin 35
4.2. Modelo no paramtrico para la media poblacional 36
4.2.1. Mtodo del ncleo polinomial local 37
4.2.2. Mtodo del ncleo polinomial local GEE 40
4.3. Modelo no paramtrico de efectos mixtos 44
4.4. Modelado de efectos mixtos polinomial local 45
4.4.1. Aproximacin polinomial local 45
4.4.2. Estimacin por mxima verosimilitud local 46
-
4.4.3. Estimacin a partir de la verosimilitud local marginal
48
4.4.4. Estimacin a partir de la verosimilitud local conjunta
50
4.4.5. Estimacin de los componentes 53
4.5. Eleccin de buenos anchos de banda 54
4.5.1. Validacin cruzada dejar-un-sujeto-fuera 55
4.5.2. Validacin cruzada dejar-un-punto-fuera 56
4.6. Aplicacin a los datos de progesterona 56
Apndice: Cdigo en R generado para las aplicaciones 60
Referencias 74
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
1
Captulo 1: Introduccin
Los datos longitudinales tales como mediciones repetidas tomadas
en cada uno
de una serie de sujetos a travs del tiempo surgen con frecuencia
de muchos estudios
biomdicos y clnicos as como de otras reas cientficas. Estudios
actualizados sobre
anlisis de datos longitudinales se pueden encontrar en Demidenko
(2004) y Diggle,
Heagerty, Liang y Zeger (2002), entre otros. Los modelos
paramtricos de efectos
mixtos son una herramienta poderosa para modelar la relacin
entre una variable
respuesta y las covariables en estudios longitudinales. Los
modelos lineales de efectos
mixtos (linear mixed-effects (LME)) y los modelos no lineales de
efectos mixtos
(nonlinear mixed-effects (NLME)) son los dos ejemplos ms
populares. Varios libros se
han publicado para resumir los logros en estas reas (Jones 1993,
Davidian y Giltinan
1995, Vonesh y Chinchilli 1996, Pinheiro y Bates 2000, Verbeke y
Molenberghs 2000,
Diggle, Heagerty, Liang y Zeger 2002, y Demidenko 2004, entre
otros). Sin embargo,
para muchas aplicaciones, los modelos paramtricos pueden ser
demasiado restrictivos
o limitados, y a veces no estn disponibles al menos para el
anlisis de los datos
preliminares. Para superar esta dificultad, las tcnicas de
regresin no paramtricas se
han desarrollado para el anlisis de datos longitudinales en los
ltimos aos. Con este
trabajo se tiene la intencin de estudiar los mtodos existentes e
introducir tcnicas de
reciente desarrollo que combinan ideas de modelado de efectos
mixtos y tcnicas de
regresin no paramtricas para el anlisis de datos
longitudinales.
1.1. Motivacin de ejemplos de datos longitudinales
En los estudios longitudinales, los datos de los individuos se
coleccionan varias
veces a travs del tiempo mientras que en los estudios de corte
transversal slo se
obtiene un dato puntual para cada sujeto individual (es decir,
un solo punto en el tiempo
por sujeto). Por lo tanto, la diferencia clave entre los datos
longitudinales y los datos de
corte transversal es que los datos longitudinales estn
generalmente correlacionados en
un sujeto y son independientes entre sujetos, mientras que los
datos de corte transversal
a menudo son independientes.
Un desafo para el anlisis de datos longitudinales es cmo dar
cuenta de las
correlaciones intra-sujeto. Los modelos LME y NLME son
herramientas poderosas para
el manejo de un problema cuando adecuados modelos paramtricos
estn disponibles
para relacionar una variable de respuesta longitudinal a sus
covariables. Muchos
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
2
ejemplos de datos de la vida real han sido presentados en la
literatura que emplea
tcnicas de modelado LME y NLME (Jones 1993, Davidian y Giltinan
1995, Vonesh y
Chinchilli 1996, Pinheiro y Bates 2000, Verbeke y Molenberghs
2000, Diggle,
Heagerty, Liang y Zeger 2002, y Demidenko 2004, entre otros).
Sin embargo, para
muchos otros ejemplos de datos prcticos, adecuados modelos
paramtricos pueden no
existir o son difciles de encontrar. Ejemplos de estudios
biomdicos y clnicos se
presentarn y se utilizarn en este trabajo a modo de ilustracin.
En estos ejemplos, los
modelos LME y NLME ya no son aplicables, y tcnicas de modelado
de efectos mixtos
no paramtricos (nonparametric mixed-effects (NPME)), que son los
temas centrales de
este trabajo, son una opcin natural al menos en la fase inicial
de anlisis exploratorios.
Aunque los ejemplos de datos longitudinales en este trabajo son
de estudios biomdicos
y clnicos, las metodologas propuestas en este trabajo son tambin
aplicables a datos de
panel o datos agrupados de otros campos cientficos. Todos los
conjuntos de datos y los
correspondientes anlisis de cdigos a travs del ordenador en este
trabajo son de libre
acceso en la siguiente pgina web: (Adems, debemos notar que
dicho cdigo est
escrito mediante el programa Matlab y nosotros en este trabajo
escribimos el cdigo
mediante R, nuestro cdigo escrito en R se puede ver en el
apndice titulado Cdigo en
R generado para las aplicaciones que se encuentra al final del
trabajo.)
http://www.urmc.rochester.edu/smd/biostat/people/faculty/WuSite/publications.htm.
1.1.1. Datos de progesterona
Los datos de progesterona fueron recogidos en un estudio de la
prdida temprana
del embarazo realizado por el Instituto de Toxicologa y Salud
Ambiental en la Seccin
de Epidemiologa Reproductiva del Departamento de Servicios de
Salud de California,
Berkeley, EE.UU. Las Figuras 1.1 y 1.2 muestran los niveles de
progesterona en el
metabolito urinario en el transcurso de los ciclos menstruales
de las mujeres (das). Las
observaciones procedan de pacientes con la funcin reproductiva
sana inscritos en una
clnica de inseminacin artificial donde los intentos de
inseminacin fueron oportunos
para cada ciclo menstrual. Los datos haban sido alineados por el
da de la ovulacin
(Da 0), determinado por la hormona luteinizante en suero, y
truncado en cada extremo
para presentar curvas de igual longitud. Las mediciones se
registran una vez al da por
cada ciclo de 8 das antes del da de la ovulacin y hasta 15 das
despus de la
ovulacin. Una mujer puede tener uno o varios ciclos. La duracin
del perodo de
observacin es de 24 das. Algunas mediciones de algunos sujetos
estaban perdidas por
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
3
diversas razones. El conjunto de datos consiste en dos grupos:
las curvas de
progesterona conceptiva (22 ciclos menstruales) y las curvas de
progesterona no
conceptiva (69 ciclos menstruales). Para ms detalles sobre este
conjunto de datos, ver
Yen y Jaffe (1991), Brumback y Rice (1998), y Fan y Zhang
(2000), entre otros.
La Figura 1.1 (a) presenta un diagrama espagueti de las 22
curvas en bruto de
progesterona conceptiva. Los puntos indican el nivel de
progesterona observados en
cada ciclo, y estn conectados con segmentos de lnea recta. El
problema de los valores
perdidos no es muy serio aqu ya que cada curva de ciclo tiene
por lo menos 17 de las
24 mediciones. En general, las curvas en bruto presentan un
patrn similar: antes del da
de la ovulacin (Da 0), las curvas en bruto son planas, pero
despus del da de la
ovulacin, por lo general se mueven hacia arriba. Sin embargo, es
fcil ver que en una
curva de ciclo, las mediciones varan en torno a alguna curva
subyacente que parece ser
suave, y para ciclos diferentes, las curvas suaves subyacentes
son diferentes unas de
otras. La Figura 1.1 (b) presenta las medias punto a punto
(curva de color negro con
puntos en la traza) con banda de desviacin estndar (standard
deviation (SD)) punto a
punto del 95% (curvas de color rojo con puntos en la traza).
Fueron obtenidos de una
manera sencilla: en cada punto de tiempo distinto , la media y
la desviacin estndar se
calculan utilizando los datos de corte transversal en . Se puede
observar que la curva
media punto a punto es bastante suave, aunque no es difcil
descubrir que todava hay
algo de ruido aparecido en la curva media punto a punto.
-5 0 5 10 15
-4-2
02
4
Figura 1.1 (a) Grupo conceptivo
dias
log (prog)
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
4
La Figura 1.2 (a) presenta un diagrama espagueti de las 69
curvas en bruto de
progesterona no conceptiva. Comparada con las curvas de
progesterona conceptiva,
estas curvas se comportan muy similares antes del da de la
ovulacin, pero por lo
general muestran una tendencia diferente despus del da de la
ovulacin. Es fcil ver
que, al igual que en las curvas de progesterona conceptiva, los
ciclos individuales
subyacentes de las curvas de progesterona no conceptiva parecen
ser suaves, y tambin
lo es su curva media subyacente. Una estimacin ingenua de la
curva media subyacente
es la curva media punto a punto, que se muestra como curva de
color negro con puntos
en la traza en la Figura 1.2 (b). La banda del 95% SD punto a
punto (curvas de color
rojo con puntos en la traza) proporciona una estimacin
aproximada de la exactitud de
la estimacin ingenua.
-5 0 5 10 15
-2-1
01
23
Figura 1.1 (b) Grupo conceptivo
dias
log (prog)
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
5
Los datos de progesterona se han utilizado para ilustraciones de
los mtodos de
regresin no paramtricos por varios autores. Por ejemplo, Fan y
Zhang (2000) los
utiliz para ilustrar su mtodo de dos pasos para estimar la
funcin media subyacente de
los datos longitudinales o de los datos funcionales, Brumback y
Rice (1998) los utiliz
para ilustrar una tcnica de modelado de efectos mixtos con
alisamiento spline para
estimar ambas funciones media e individual, mientras que Wu y
Zhang (2002a) los
utiliz para ilustrar un enfoque de modelado de efectos mixtos
polinomial local.
-5 0 5 10 15
-4-2
02
4
Figura 1.2 (a) Grupo no conceptivo
dias
log (prog)
-5 0 5 10 15
-2-1
01
2
Figura 1.2 (b) Grupo no conceptivo
dias
log (prog)
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
6
1.2. Modelizacin de efectos mixtos: de paramtrico a no
paramtrico
1.2.1. Modelos paramtricos de efectos mixtos
Para la modelizacin de datos longitudinales, los modelos
paramtricos de
efectos mixtos, tales como modelos lineales y no lineales de
efectos mixtos, son una
herramienta natural. Los modelos lineales o no lineales de
efectos mixtos se pueden
especificar como modelos lineales y no lineales jerrquicos,
desde una perspectiva
bayesiana.
Los modelos lineales de efectos mixtos (linear mixed-effects
(LME)) se utilizan
cuando la relacin entre una variable respuesta longitudinal y
sus covariables se puede
expresar a travs de un modelo lineal. El modelo LME introducido
por Harville (1976,
1977), y Laird y Ware (1982) en general se puede escribir
como
donde y son, respectivamente, los vectores de respuestas y los
errores de medicin
para el -simo sujeto, y son, respectivamente, los vectores de
efectos fijos
(parmetros de la poblacin) y efectos aleatorios (parmetros
individuales), y y
son las matrices de diseo asociadas a los efectos fijos y a los
efectos aleatorios. Es fcil
notar que la media y la matriz de covarianza de est dada por
Los modelos no lineales de efectos mixtos (nonlinear
mixed-effects (NLME)) se
utilizan cuando la relacin entre una variable respuesta
longitudinal y sus covariables se
puede expresar a travs de un modelo no lineal, el cual es
conocido a excepcin de
algunos parmetros. Un modelo no lineal jerrquico general o
modelo NLME se puede
escribir como (Davidian y Giltinan 1995, Vonesh y Chinchilli
1996):
donde con siendo una funcin conocida,
una matriz de diseo y un parmetro especifico de sujeto para
el
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
7
-simo sujeto. En el anterior modelo NLME, la es una funcin
conocida de las
matrices de diseo y , el vector de efectos fijos y el vector de
efectos aleatorios
. Como ejemplo, un modelo lineal simple para puede escribirse
como
. La media marginal y la varianza-covarianza de no puede ser
dada para un modelo NLME general. Se pueden aproximar utilizando
tcnicas de
linealizacin (Sheiner, Rosenberg y Melmon 1972, Sheiner y Beal
1980, y Lindstrom y
Bates 1990, entre otros).
Definiciones ms detalladas de los modelos LME y NLME se darn en
el
Captulo 2. Ya sea en un modelo LME o en un modelo NLME, las
variaciones entre-
sujeto e intra-sujeto se cuantifican separadamente por los
componentes de varianza y
. En un estudio longitudinal, los datos de sujetos diferentes se
suponen
por lo general que son independientes, pero los datos del mismo
sujeto pueden estar
correlacionados. Las correlaciones pueden ser causadas por la
variacin entre-sujeto
(heterogeneidad entre los sujetos) y/o la correlacin serial del
error de medicin. Hacer
caso omiso de la correlacin existente de los datos
longitudinales puede llevar a
conclusiones incorrectas e ineficientes. Por lo tanto, un
requisito clave para el anlisis
de datos longitudinales es un modelo apropiado y estimar con
precisin los
componentes de varianza as que las funciones media e individual
subyacente deben ser
modeladas de manera eficiente. Esta es la razn por la cual el
anlisis de datos
longitudinales es ms difcil tanto en el desarrollo terico y
aplicacin prctica en
comparacin con el anlisis de datos de corte transversal.
La aplicacin con xito de un modelo LME o un modelo NLME al
anlisis de
datos longitudinales depende en gran medida de la suposicin
(hiptesis) de un modelo
lineal o no lineal adecuado para la relacin entre la variable
respuesta y las covariables.
A veces esta hiptesis puede ser no vlida para un conjunto de
datos longitudinales
dado. En este caso, la relacin entre la variable respuesta y las
covariables tiene que ser
modelada no paramtricamente. Por lo tanto, tenemos que extender
los modelos
paramtricos de efectos mixtos a los modelos no paramtricos de
efectos mixtos.
1.2.2. Regresin no paramtrica y suavizacin
Un modelo paramtrico de regresin requiere el supuesto de que la
forma de la
funcin de regresin subyacente se conoce a excepcin de los
valores de un nmero
finito de parmetros. La seleccin de un modelo paramtrico depende
en gran medida
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
8
del problema en cuestin. A veces el modelo paramtrico se puede
derivar de las teoras
mecanicistas detrs del problema cientfico, mientras que en otras
ocasiones el modelo
se basa en la experiencia o es simplemente deducido de los
grficos de dispersin de los
datos. Un grave inconveniente del modelado paramtrico es que un
modelo paramtrico
puede ser demasiado restrictivo en algunas aplicaciones. Si un
modelo paramtrico
inadecuado es utilizado, es posible producir conclusiones
errneas a partir del anlisis
de regresin. En otras situaciones, un modelo paramtrico no puede
estar disponible
para su uso. Para superar las dificultades causadas por el
supuesto restrictivo de una
forma paramtrica de la funcin de regresin, se puede quitar la
restriccin de que la
funcin de regresin pertenece a una familia paramtrica. Este
enfoque conduce a la
llamada regresin no paramtrica.
Existen muchos mtodos de regresin no paramtrica y suavizacin.
Los
mtodos ms populares incluyen suavizacin del ncleo, ajuste
polinomial local,
regresin (polinomial) splines, suavizacin splines, y penalizado
splines. Algunos otros
enfoques, tales como grfico de dispersin localmente ponderado
suavizado (locally
weighted scatter plot smoothing (LOWESS)), mtodos basados en
wavelet y otros
enfoques basados en series ortogonales tambin son de uso
frecuente en la prctica. La
idea bsica de estos enfoques no paramtricos es dejar que los
datos determinen la
forma ms adecuada de las funciones. Hay uno o dos llamados
parmetros de
suavizacin en cada uno de estos mtodos para controlar la
complejidad del modelo y la
compensacin entre el sesgo y la varianza del estimador. Por
ejemplo, el ancho de
banda en la suavizacin del ncleo local determina la suavidad de
la funcin de
regresin y la bondad de ajuste del modelo a los datos as que
cuando , el modelo
no paramtrico local se convierte en un modelo paramtrico global,
y cuando , la
estimacin que resulta esencialmente interpola los puntos de
datos. Por lo tanto, la
frontera entre el modelado paramtrico y no paramtrico no puede
estar bien definida si
se toma el parmetro de suavizacin en cuenta. Los mtodos no
paramtricos y
paramtricos de regresin no deben considerarse como competidores,
sino que se
complementan entre s. En algunas situaciones, las tcnicas no
paramtricas se pueden
utilizar para validar o sugerir un modelo paramtrico. Una
combinacin de ambos
mtodos no paramtricos y paramtricos es ms poderoso que un nico
mtodo en
muchas aplicaciones prcticas.
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
9
Existe una vasta literatura sobre la suavizacin y los mtodos no
paramtricos de
regresin para datos de corte transversal. Buenos estudios sobre
estos mtodos se
pueden encontrar en los libros de de Boor (1978), Eubank (1988),
Hrdle (1990),
Wahba (1990), Green y Silverman (1994), Wand y Jones (1995), Fan
y Gijbels (1996),
y Ruppert, Wand y Carroll (2003), entre otros. Sin embargo, muy
poco se ha hecho para
desarrollar los mtodos no paramtricos de regresin para el
anlisis de datos
longitudinales hasta los ltimos aos. Mller (1988) fue el primero
en abordar el
anlisis de datos longitudinales con los mtodos no paramtricos de
regresin. Sin
embargo, en esta monografa anterior, el enfoque bsico es el de
estimar la curva de
cada individuo por separado, por lo tanto, la correlacin
intra-sujeto de los datos
longitudinales no se consider en el modelaje. Las metodologas de
Mller (1988) son
esencialmente similares a los mtodos no paramtricos de regresin
para datos de corte
transversal.
En aos recientes, ha habido un auge en el desarrollo de mtodos
no
paramtricos de regresin para el anlisis de datos longitudinales
que incluyen la
utilizacin de mtodos de suavizacin tipo-ncleo (Hoover, Rice, Wu
y Yang 1998, Wu
y Chiang 2000, Wu, Chiang y Hoover 1998, Fan y Zhang 2000, Lin y
Carroll 2001a, b,
Wu y Zhang 2002a, Welsh, Lin y Carroll 2002, Cai, Li y Wu 2003,
Wang 2003, Wang,
Carroll y Lin 2005), mtodos de suavizacin spline (Brumback y
Rice 1998, Wang
1998a, b, Zhang, Lin, Raz y Sowers 1998, Lin y Zhang 1999, Guo
2002a, b) y mtodos
de regresin (polinomial) spline (Shi, Weiss y Taylor 1996, Rice
y Wu 2001, Huang,
Wu y Zhou 2002, Wu y Zhang 2002b, Liang, Wu y Carroll 2003). Hay
una gran
cantidad de literatura reciente en esta rea de investigacin, y
es imposible tener una
lista completa aqu. La importancia de los mtodos no paramtricos
de modelado ha
sido reconocido en el anlisis de datos longitudinales y para las
aplicaciones prcticas,
ya que los mtodos no paramtricos son flexibles y robustos frente
a supuestos
paramtricos. Dicha flexibilidad es til para la exploracin y
anlisis de datos
longitudinales, cuando apropiados modelos paramtricos no estn
disponibles. En este
trabajo, no tenemos la intencin de cubrir todas las tcnicas no
paramtricas de
regresin. En cambio, nos vamos a centrar en el mtodo de
suavizacin polinomial
local. Incorporamos este procedimiento no paramtrico de
suavizacin en los modelos
de efectos mixtos para proponer tcnicas no paramtricas de
modelado de efectos
mixtos para el anlisis de datos longitudinales.
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
10
1.2.3. Modelos no paramtricos de efectos mixtos
Un conjunto de datos longitudinales tal como los datos de
progesterona
presentados en la Seccin 1.1, pueden expresarse en una forma
comn como
donde indican los puntos de tiempo de diseo (por ejemplo, das en
los datos de
progesterona), la respuesta observada en (por ejemplo, log(prog)
en los datos
de progesterona), el nmero de observaciones para el -simo
sujeto, y es el
nmero de sujetos. Para tal conjunto de datos longitudinales, no
asumimos un modelo
paramtrico para la relacin entre la variable respuesta y la
covariable en el tiempo. En
cambio, justamente asumimos que las funciones individual y de
media poblacional son
funciones sin problemas en el tiempo , y dejamos que los propios
datos determinen la
forma de las funciones subyacentes. Siguiendo Wu y Zhang
(2002a), introducimos un
modelo no paramtrico de efectos mixtos (nonparametric
mixed-effects (NPME)) como
donde modela la funcin de media poblacional del conjunto de
datos
longitudinales, llamada funcin de efecto fijo, modela la salida
de la -sima
funcin individual de la funcin de media poblacional , llamada la
-sima funcin
de efecto aleatorio, y son los errores de medicin que no se
pueden explicar por
las funciones de efecto fijo y las funciones de efecto
aleatorio.
En general se supone que son realizaciones i.i.d. de un
proceso suave (smooth process (SP)) subyacente, , con funcin de
media 0 y
funcin de covarianza , y son realizaciones i.i.d. de un proceso
de ruido
blanco no correlacionado, , con funcin de media 0 y funcin de
covarianza
. Esto es, y . Aqu
cuantifica la variacin entre-sujeto mientras que cuantifica la
variacin intra-
sujeto. Cuando se habla de las inferencias basadas en la
verosimilitud o la interpretacin
Bayesiana, por simplicidad, generalmente asumimos que los
procesos asociados son
Gausianos, es decir, , y .
En el marco de modelado NPME, necesitamos llevar a cabo las
siguientes tareas:
(1) estimar la funcin (media poblacional) de efecto fijo ; (2)
predecir las funciones
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
11
de efecto aleatorio y las funciones individuales
; (3) estimar la funcin de covarianza ; y (4) estimar la funcin
de
varianza de ruido .
La , y caracterizan las caractersticas de la poblacin de una
respuesta longitudinal mientras que y capturan las
caractersticas
individuales. Para simplificar, la funcin media poblacional y
las funciones
individuales se refieren a veces como las curvas de poblacin y
las curvas
individuales, respectivamente. Debido a que en el modelo NPME
(1.4), las cantidades
de destino , , y son todas no paramtricas, la combinacin de
tcnicas de suavizacin y enfoques de modelado de efectos mixtos
es necesario para la
estimacin de estas cantidades desconocidas.
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
12
Captulo 2: Modelos paramtricos de efectos mixtos
2.1. Introduccin
Los modelos paramtricos de efectos mixtos o los modelos de
efectos aleatorios
son herramientas poderosas para el anlisis de datos
longitudinales. Los modelos
lineales o no lineales de efectos mixtos (incluyendo los modelos
lineales o no lineales
generalizados de efectos mixtos) han sido ampliamente utilizados
en muchos estudios
longitudinales. Buenos estudios sobre estos enfoques se pueden
encontrar en los libros
de Searle, Casella y McCulloch (1992), Davidian y Giltinan
(1995), Vonesh y
Chinchilli (1996), Verbeke y Molenberghs (2000), Pinheiro y
Bates (2000), Diggle,
Heagerty, Liang y Zeger (2002), y Demidenko (2004), entre otros.
En este captulo,
vamos a revisar los modelos lineales de efectos mixtos y haremos
hincapi en los
mtodos que vamos a utilizar en captulos posteriores. El enfoque
de este trabajo es
presentar las ideas de modelado de efectos mixtos en suavizacin
y regresin no
paramtrica para el anlisis de datos longitudinales, es
importante entender los
conceptos bsicos y las propiedades clave de los modelos
paramtricos de efectos
mixtos.
2.2. Modelo lineal de efectos mixtos
2.2.1. Especificacin del modelo
Harville (1976, 1977) y Laird y Ware (1982) propusieron por
primera vez el
siguiente modelo general lineal de efectos mixtos (linear
mixed-effects (LME)):
donde , y denotan la respuesta y el error de medicin de la -
sima medicin del -simo sujeto, los parmetros desconocidos y
generalmente se llaman el vector de efectos fijos y los vectores
de efectos aleatorios,
respectivamente (para simplificar, a menudo se refieren como
parmetros de efectos
fijos y efectos aleatorios del modelo LME), y y son los
asociados a los vectores
covariables de efectos fijos y efectos aleatorios. En la
expresin anterior, y ,
son conocidas como las componentes de varianza del modelo LME.
En el
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
13
modelo LME anterior, para simplificar, asumimos que y son
independientes con
distribuciones normales, y las mediciones entre-sujeto son
independientes.
El modelo LME (2.1) se escribe a menudo en la forma
siguiente:
donde ,
, y
.
El modelo LME anterior incluye modelos lineales de coeficientes
aleatorios
(Longford 1993) y modelos para mediciones repetidas como casos
especiales. Por
ejemplo, un modelo de dos etapas lineal de coeficiente aleatorio
para curvas de
crecimiento (Longford 1993) se puede escribir como
donde , , y se definen de manera similar como en (2.2), es un
vector
de coeficientes aleatorios del -simo sujeto, y es una matriz de
diseo que
contiene las covariables entre sujetos. Es fcil ver que el
modelo lineal de coeficiente
aleatorio (2.3) puede escribirse en la forma del modelo general
LME (2.2) una vez que
se establece .
De hecho, se puede escribir un modelo general de dos etapas
lineal de
coeficiente aleatorio en la forma del modelo general LME (2.2).
Un modelo general de
dos etapas de coeficiente aleatorio se puede escribir como
(Davidian y Giltinan 1995,
Vonesh y Chinchilli 1996)
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
14
donde es una matriz de diseo con elementos de 0 y 1 organizados
para
determinar los componentes de que son al azar, y es el asociado
al vector de
efectos aleatorios -dimensional. Este modelo general de dos
etapas de coeficiente
aleatorio se puede escribir en la forma del modelo general LME
(2.2):
una vez que se establece y
. De hecho, es
fcil demostrar que el modelo general de dos etapas de
coeficiente aleatorio (2.4) es
equivalente al modelo general LME (2.2). En particular, cuando ,
el modelo
general de dos etapas de coeficiente aleatorio (2.4) se reduce
al modelo de coeficiente
aleatorio (2.3) para curvas de crecimiento. Ntese que el modelo
general de dos etapas
de coeficiente aleatorio (2.4) tambin se conoce como modelo de
efectos mixtos de dos
etapas y el modelo general LME (2.2) tambin se llama modelo
lineal jerrquico.
En notacin matricial, el modelo general LME (2.2) se puede
escribir adems
como
donde
Por lo general se asume que las mediciones repetidas de sujetos
diferentes son
independientes y estn correlacionadas solamente cuando vienen
del mismo sujeto.
Basado en el modelo general LME (2.5), tenemos
donde la matriz de covarianza del vector de
mediciones repetidas para el -simo sujeto es . Podemos ver
que la correlacin entre las mediciones repetidas puede ser
inducida o a travs del
trmino de variacin entre-sujeto o a travs de la matriz de
covarianza intra-
sujeto . Por lo tanto, incluso si los errores de medicin
intra-sujeto ( )
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
15
son independientes, las mediciones repetidas pueden estar an
correlacionadas
debido a la variacin entre-sujeto. En algunos problemas, la
correlacin puede provenir
de dos fuentes. Sin embargo, para simplificar, podemos asumir
que la correlacin es
inducida nicamente a travs de la variacin entre-sujeto o asumir
que es diagonal en
el desarrollo de metodologas.
2.2.2. Estimacin de los efectos fijos y aleatorios
Las inferencias de y para el modelo general LME (2.2)
pueden basarse en el mtodo de verosimilitud o el mtodo de mnimos
cuadrados
generalizados. Conocidas y , las estimaciones de y
se pueden obtener minimizando el siguiente logaritmo dos veces
negativas de
la funcin de densidad conjunta de y (hasta una
constante):
Puesto que son los vectores de parmetros de efectos
aleatorios, la expresin (2.7) no es un logaritmo de
verosimilitud (log-likelihood)
convencional. Para mayor comodidad, a partir de ahora y a lo
largo de este trabajo,
llamamos a (2.7) un logaritmo de verosimilitud generalizado
(generalized log-likelihood
(GLL)) de los parmetros de efectos mixtos ( , ). Tenga en cuenta
que
el primer trmino del lado derecho de (2.7) es un residuo
ponderado tomando la
variacin intra-sujeto en cuenta, y el trmino es una penalizacin
debido a los
efectos aleatorios tomando la variacin entre-sujeto en
cuenta.
Para determinadas y , minimizar el criterio GLL (2.7) es
equivalente a resolver las denominadas ecuaciones del modelo
mixto (Harville 1976,
Robinson 1991):
donde , , , , y se definen en (2.6). Utilizando el algebra
matricial, las
ecuaciones de rendimiento del modelo mixto
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
16
donde y . Las matrices de
covarianzas de y son:
2.2.3. Interpretacin bayesiana
Es conocido que el modelo general LME (2.2) tiene una estrecha
relacin con un
modelo Bayesiano en el sentido de que las soluciones (2.8) y
(2.9) son las expectativas a
posteriori de los parmetros de un modelo Bayesiano en virtud de
no informativas
probabilidades (distribuciones) a priori.
Antes de seguir adelante, manifestamos los siguientes dos lemas
tiles cuyas
demostraciones se pueden encontrar en algunos libros de texto
estndar multivariante,
por ejemplo, Anderson (1984).
Lema 2.1 Sean , y matrices , y tales que y son
invertibles. Entonces
En particular, cuando , y donde es un vector , tenemos
Lema 2.2 Sea
donde es invertible. Entonces
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
17
Definimos ahora el siguiente problema Bayesiano:
con distribucin a priori para y :
donde , y son independientes unas de otras, y se define en
(2.6).
Ntese que la especificacin de es flexible. Por ejemplo, podemos
dejar que
. Esto indica que los componentes de son independientes unos de
otros.
Adems, cuando , tenemos . Esto indica que el lmite a priori
en no es informativo.
Teorema 2.1 Los mejores predictores imparciales lineales (2.8) y
(2.9) que minimizan
el criterio GLL (2.7) son los mismos que las expectativas del
lmite a posteriori del
problema Bayesiano definido en (2.14) y (2.15) con . Esto
es,
Adems, como , tenemos las siguientes distribuciones a
posteriori:
donde y
Ntese que y implican los parmetros desconocidos y . Si
sustituimos
las estimaciones puntuales de y (vamos a discutir cmo estimarlos
en las siguientes
subsecciones), las estimaciones Bayesianas, y se refieren
generalmente como
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
18
estimaciones empricas de Bayes, aunque la estimacin emprica de
Bayes se aplica
convencionalmente slo a los efectos aleatorios .
El Teorema 2.1 da las distribuciones del lmite a posteriori de ,
y en el
marco Bayesiano (2.14) y (2.15) cuando o cuando lo a priori en
no es
informativo. A veces, es interesante conocer la distribucin a
posteriori de y cuando
est dada, por ejemplo, cuando . En realidad, este conocimiento
es la base para
el algoritmo EM basado en la mxima verosimilitud que vamos a
revisar en el siguiente
apartado. El siguiente teorema da los resultados
relacionados.
Teorema 2.2 Bajo el marco Bayesiano (2.14) y (2.15), tenemos
Vale la pena notar que, segn el Teorema 2.2, tenemos y
.
2.2.4. Estimacin de los componentes de varianza
Si las matrices de covarianza, y , son desconocidas, pero sus
estimaciones
puntuales, por ejemplo, y , estn disponibles, entonces podemos
tener
. Las estimaciones de y por lo tanto pueden ser obtenidas
por
sustitucin de y en (2.8) y (2.9). Sus correspondientes errores
estndar estn dados
por (2.10) y (2.12) despus de sustituir y por sus estimaciones.
Sin embargo, estos
errores estndar estn subestimados ya que los errores de
estimacin de y no se
contabilizan.
Bajo el supuesto de normalidad, el mtodo de mxima verosimilitud
(maximum
likelihood (ML)) y el mtodo de mxima verosimilitud restringida
(restricted maximum
likelihood (REML)) son dos tcnicas populares para estimar los
componentes
desconocidos de y , aunque esto puede no ser adecuado si la
hiptesis de
normalidad es cuestionable.
Bajo los supuestos de normalidad siguientes,
, , ,
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
19
la funcin de verosimilitud generalizada se puede escribir
como
donde es la dimensin de y . Si el vector de efectos aleatorios
es
integrable, podemos obtener la siguiente funcin de verosimilitud
convencional:
El mtodo ML para la estimacin de componentes de varianza es
maximizar la
siguiente funcin de log-verosimilitud:
con respecto a los componentes de varianza para un determinado .
Sin embargo, la
maximizacin conjunta con respecto a los componentes de varianza
, y el vector de
parmetros de efectos fijos tambin da lugar a la estimacin de en
(2.8).
El mtodo REML se utiliza para integrar a y de con el fin de
ajustar la prdida de grados de libertad debido a la estimacin de
del mtodo ML, es
decir, para maximizar
Se puede demostrar que
donde como se define en (2.18). Por lo tanto,
tenemos que
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
20
Las estimaciones REML de componentes de varianza se pueden
obtener a travs
de la maximizacin
Derivaciones ms detalladas de estos resultados se pueden
encontrar en
Davidian y Giltinan (1995).
2.2.5. Los algoritmos EM
La implementacin de los mtodos ML y REML no es trivial. Para
superar esta
dificultad de implementacin, los mtodos de algoritmo EM y de
Newton-Raphson han
sido propuestos (Laird y Ware 1982, Dempster, Rubin y Tsutakawa
1981, Laird, Lange
y Stram 1987, Jenrich y Schluchter 1986, Lindstrom y Bates
1990). Los libros de
Searle, Casella y McCulloch (1992), Davidian y Giltinan (1995),
Vonesh y Chinchilli
(1996) y Pinheiro y Bates (2000) tambin proporcionan una buena
revisin de estos
mtodos de implementacin. El paquete estndar de software
estadstico tal como R
ofrece funciones convenientes para implementar estos mtodos (por
ejemplo, la funcin
lme de R). Haremos una breve revisin del algoritmo EM aqu.
Recordemos que por lo general asumimos que tiene la forma
simple
siguiente:
Cuando y se conocen, bajo el supuesto de normalidad, las
estimaciones
naturales ML de y sern
Este es el paso M del algoritmo EM. Debido a que y no se
conocen, las
estimaciones anteriores no son computables. Hay dos maneras de
superar esta
dificultad, asociadas, respectivamente, con el algoritmo EM
basado en el ML o REML.
Ntese que las estimaciones ML de y se obtienen a travs de la
maximizacin de la funcin de log-verosimilitud (2.20) con el
vector de parmetros de
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
21
efectos fijos dado. Por lo tanto, la clave para el algoritmo EM
basado en el ML
es sustituir la y en (2.23) con
respectivamente. El razonamiento subyacente es que los
componentes de varianza y
se estiman sobre la base de los residuos despus de que la
componente de efectos
fijos estimada se elimina de los datos en bruto, y la estimacin
no tomar la
variacin de en cuenta. Este es el paso E del algoritmo EM basado
en el ML.
Usando el Teorema 2.2, podemos demostrar el siguiente
teorema.
Teorema 2.3 Supongamos que el modelo Bayesiano definido en
(2.14) y (2.15) se
cumple, y supongamos que satisface (2.22). Entonces tenemos
que
En el lado derecho de las expresiones (2.25), los componentes de
varianza y
an son desconocidas. Sin embargo, cuando se sustituyen por los
valores actuales
disponibles, los valores actualizados de y se pueden obtener. En
otras palabras,
proporcionando algunos valores iniciales de y , se pueden
actualizar y
utilizando (2.25) hasta la convergencia. Esta es la idea
principal del algoritmo EM. Para
simplificar, los valores iniciales pueden tomarse como y . El
ciclo
principal para el algoritmo EM basado en el ML es el
siguiente:
(a) Dados y , calcular y utilizando (2.8) y (2.9).
(b) Dados y , actualizar y utilizando (2.25).
(c) Alternar entre (a) y (b) hasta la convergencia.
Sea el ndice de secuencia de las iteraciones, y , los
valores estimados de y en la iteracin . Otras notaciones tales
como , se
definen de forma similar. A continuacin, ms formalmente, el
algoritmo EM basado en
el ML puede ser escrito como sigue:
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
22
Algoritmo EM basado en el ML
Paso 0. Establecer . Sea , y .
Paso 1. Establecer . Actualizar y utilizando
donde
Paso 2. Actualizar y utilizando
donde
Paso 3. Repetir los pasos 1 y 2 hasta la convergencia.
El algoritmo EM basado en el REML puede ser igualmente descrito.
Las
principales diferencias son:
(a) El algoritmo EM basado en el REML se ha desarrollado para
encontrar las
estimaciones REML de y que maximizan (2.21).
(b) La clave para el algoritmo EM basado en el REML es
reemplazar y en
(2.23) por y en lugar de sus expectativas condicionadas a y
como se indica en (2.24). Estas expectativas condicionales se
pueden obtener
fcilmente utilizando el Teorema 2.1 y las presentaremos en el
Teorema 2.4 a
continuacin para facilitar su consulta.
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
23
(c) El algoritmo EM basado en el REML puede ser obtenido
simplemente a travs
de sustituir todos los en el Paso 2 del algoritmo EM basado en
el ML
anterior con , donde
El Teorema 2.4 a continuacin es similar al Teorema 2.3 pero se
basa en el
Teorema 2.1.
Teorema 2.4 Supongamos que el modelo Bayesiano definido en
(2.14) y (2.15) se
cumple, y supongamos que satisface (2.22). Entonces como ,
donde
.
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
24
Captulo 3: Suavizadores en regresin no paramtrica
3.1. Introduccin
En el Captulo 2, hemos revisado los modelos paramtricos de
efectos mixtos
para datos longitudinales, en particular hemos visto los modelos
lineales de efectos
mixtos. Estos modelos paramtricos de efectos mixtos han sido
ampliamente estudiados
y aplicados para analizar datos longitudinales en la literatura
(Lindsey 1993, Diggle,
Liang y Zeger 1994, Davidian y Giltinan 1995, Vonesh y
Chinchilli 1996, Pinheiro y
Bates 2000, Verbeke y Molenberghs 2000). Uno de los supuestos
bsicos de estos
modelos es que la variable de respuesta (o a travs de una funcin
de enlace conocida)
es una funcin paramtrica conocida de ambos efectos fijos y
efectos aleatorios. Es
decir, para cada individuo, la relacin subyacente entre la
respuesta y las covariables de
efectos mixtos es paramtrica. Sin embargo, esta suposicin no
siempre se cumple en
las aplicaciones prcticas.
Tomamos los datos de progesterona, introducidos en la Seccin
1.1.1 del
Captulo 1, como un ejemplo. La Figura 3.1 muestra la grfica de
los datos con puntos
(crculos) individuales de progesterona de un sujeto seleccionado
(hemos seleccionado
el sujeto nmero 2 del ciclo 5 del grupo no conceptivo). Se
presentan ejemplos de algn
polinomio de menor grado ajustado (curvas continuas de color
negro) a los datos. El
panel (a) representa un ajuste del modelo lineal, que no se
ajusta adecuadamente a los
datos. Esta dificultad puede ser superada por el aumento del
grado de los polinomios,
por ejemplo de lineal a cuadrtico, cbico o cuartico como se
muestran en los paneles
(b), (c) y (d), respectivamente. Se ve que cuanto mayor sea el
grado del polinomio, ms
adecuadamente se ajustan los datos. Se ve que tanto los modelos
polinomiales cbico y
cuartico son generalmente bien ajustados a los datos, pero los
ajustes siguen siendo
pobres antes del Da 0.
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
25
Se obtuvieron resultados similares cuando reemplazamos el sujeto
seleccionado
por algunos otros sujetos elegidos. Por lo tanto, un modelo
polinomial de menor grado
puede no ajustarse bien a los datos de progesterona. Estos datos
son slo un ejemplo de
conjuntos de datos prcticos que no pueden ser bien ajustados por
polinomios de grado
menor. Hrdle (1990), Fan y Gijbels (1996), Green y Silverman
(1994), y Ramsay y
Silverman (1997, 2002), entre otros, proporcionaron ejemplos de
datos donde no es
posible ajustar adecuadamente los datos mediante polinomios de
cualquier grado o
cualquiera de los modelos paramtricos. En estos casos, las
tcnicas no paramtricas de
modelado son necesarias.
Los datos de progesterona para el sujeto seleccionado,
presentados como
crculos en la Figura 3.1, se pueden denotar como
-5 0 5 10 15
-10
12
3
Figura 3.1 (a) Lineal
dias
log
(p
rog
)
-5 0 5 10 15
-10
12
3
Figura 3.1 (b) Cuadrtico
dias
log
(p
rog
)
-5 0 5 10 15
-10
12
3
Figura 3.1 (c) Cbico
dias
log
(p
rog
)
-5 0 5 10 15
-10
12
3Figura 3.1 (d) Cuartico
dias
log
(p
rog
)
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
26
donde son conocidos como puntos en tiempo de diseo, y
son las respuestas a los puntos en tiempo de diseo. Los puntos
en tiempo de
diseo pueden ser igualmente espaciados en un intervalo de
inters, o ser considerado
como una muestra aleatoria de una densidad de diseo continua,
concretamente, .
Para simplificar, vamos a denotar el intervalo de inters, o el
soporte de como ,
que puede ser un intervalo finito, por ejemplo, o toda la recta
real . Las
respuestas se observan a menudo con errores.
Para un conjunto de datos como el anterior, un modelo de
regresin no
paramtrica simple se suele escribir como
donde modela la funcin de regresin subyacente que queremos
estimar, pero no
puede ser aproximada utilizando un modelo paramtrico adecuado,
y
denota los errores de medicin que no pueden ser explicados por
la funcin de regresin
. Matemticamente, es la esperanza condicionada de , dado , es
decir,
Para los datos longitudinales, el conjunto de datos (3.1)
describe la estructura de
datos para un sujeto individual donde es la funcin de los
individuos, y
son los puntos en tiempo de diseo de los individuos con
mediciones.
Hay muchos suavizadores existentes que pueden ser utilizados
para estimar la
en (3.2). Diferentes suavizadores tienen diferentes puntos
fuertes en uno u otro
aspecto. Por ejemplo, la suavizacin splines puede ser buena para
el manejo de la
escasez de datos, mientras que los suavizadores polinomial local
pueden ser
computacionalmente ventajosos para el manejo de diseos densos.
En este captulo,
revisaremos los suavizadores polinomial local (Wand y Jones
1995, Fan y Gijbels 1996)
en la Seccin 3.2. En captulos posteriores, se desarrollan la
media de la poblacin no
paramtrica y modelos de efectos mixtos para datos longitudinales
basados en estos
suavizadores.
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
27
3.2. Suavizador del ncleo polinomial local
3.2.1. Grado general del suavizador LPK
La idea principal del suavizado del ncleo polinomial local
(local polynomial
kernel (LPK)) es aproximar localmente la en (3.2) por un
polinomio de menor grado.
Su fundamento es la expansin de Taylor, que establece que
cualquier funcin suave
puede ser localmente aproximada por un polinomio de menor
grado.
En concreto, sea un punto arbitrario en un tiempo fijo donde la
funcin en
(3.2) ser estimada. Supongamos que tiene -primera derivada
continua para
algn entero en . Por la expansin de Taylor, puede ser
localmente
aproximada por un polinomio de grado . Es decir,
en una zona de que permita la expansin anterior donde denota la
derivada
-sima de en .
Fijamos , . Sea los
minimizadores del siguiente criterio de mnimos cuadrados
ponderados (weighted least
squares (WLS)):
donde , que se obtiene a travs de re-escalar una funcin del
ncleo
con una constante , llamado el ancho de banda o parmetro de
suavizado. El
ancho de banda se utiliza principalmente para especificar el
tamao de la zona local,
concretamente,
donde el ajuste local se lleva a cabo. La funcin del ncleo, ,
determina cmo las
observaciones dentro de contribuyen al ajuste en . Discutiremos
las funciones
del ncleo en la Seccin 3.2.3. Denotemos la estimacin de la
derivada -sima
como . Entonces
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
28
En particular, el resultado del -simo grado del estimador LPK de
es
.
Una expresin explcita para es til y puede hacerse a travs de
la
notacin de matrices. Sea
y
la matriz de diseo y la matriz de pesos para el ajuste LPK
alrededor de . Entonces el
criterio WLS (3.3) se puede reescribir como
donde y
. Resulta que
donde denota un vector unitario -dimensional cuya -primera
entrada es 1 y las otras entradas son 0, y
Cuando se ejecuta sobre todo el soporte de los puntos en tiempo
de diseo,
una estimacin de todo el rango de se obtiene. El estimador
derivado
se suele llamar suavizador LPK de la funcin derivada
subyacente
. El suavizador derivado se suele calcular en una cuadrcula de s
en .
En este captulo, slo nos centramos en la curva ms suave
a menos que discutamos la estimacin derivada. Fijamos para ser
el valor
ajustado de . Por (3.6), se observa que
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
29
donde es
despus de sustituir con . Sea que
denota el valor ajustado en todos los puntos en tiempo de diseo.
Entonces se puede
expresar como
donde
se conoce como la matriz suavizadora del suavizador LPK. Puesto
que no depende
del vector de respuesta , el suavizador LPK se conoce como
suavizador lineal.
3.2.2. Suavizadores lineal y constante local
Los suavizadores lineal y constante local son los dos ms simples
y ms tiles
suavizadores LPK. El suavizador constante local se conoce como
el estimador
Nadaraya-Watson (Nadaraya 1964, Watson 1964). Este suavizador
resulta del
suavizador LPK (3.6) simplemente tomando :
Dentro de una zona local , se ajusta a los datos con una
constante. Es decir, es el minimizador del siguiente criterio
WLS:
El estimador Nadaraya-Watson es fcil de entender y fcil de
calcular. Sea
que denota la funcin indicadora de un conjunto . Cuando la
funcin del ncleo es
el ncleo Uniforme
el estimador Nadaraya-Watson (3.9) es exactamente la media local
de s que estn
dentro de la zona local (3.4):
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
30
donde denota el nmero de observaciones que caen dentro de la
zona local
. Sin embargo, cuando est en la frontera de , menos puntos de
diseo estn
dentro de la zona de modo que tiene una tasa de convergencia ms
lenta
que el caso cuando est en el interior de . Para una explicacin
detallada de este
efecto frontera, se remite al lector a Fan y Gijbels (1996) y
Cheng, Fan y Marron
(1997).
El suavizador lineal local (Stone 1984, Fan 1992, 1993) se
obtiene a travs de
ajustar un conjunto de datos a nivel local con una funcin
lineal. Sea que
minimiza el siguiente criterio WLS:
Entonces el suavizador lineal local es . Se puede obtener
fcilmente
del suavizador LPK (3.6) simplemente tomando . Se le conoce como
un
suavizador con un efecto de frontera libre (Cheng, Fan y Marron
1997). Es decir, tiene
la misma tasa de convergencia en cualquier punto de . Tambin
exhibe muchas buenas
propiedades que los otros suavizadores lineales pueden carecer.
Buenas discusiones
sobre estas propiedades se pueden encontrar en Fan (1992, 1993),
Hastie y Loader
(1993), y Fan y Gijbels (1996, Captulo 2), entre otros. Un
suavizador lineal local puede
ser simplemente expresado como
donde
Por lo general, la eleccin del grado de ajuste LPK, , no es tan
importante
como la eleccin del ancho de banda, . Un suavizador constante
local o lineal
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
31
local a menudo es lo suficientemente bueno para la mayora de los
problemas
de aplicacin si la funcin del ncleo y el ancho de banda son
adecuadamente
determinados. Fan y Gijbels (1996, Captulo 3) seal que para la
estimacin de la
curva (no vlido para la estimacin derivada) un impar es
preferible. Esto es as
porque un ajuste LPK con , introduce un parmetro adicional
en
comparacin con un ajuste LPK con , pero no aumenta la varianza
del estimador
asociado LPK. Sin embargo, el sesgo asociado puede ser reducido
significativamente,
especialmente en las regiones de frontera (Fan 1992, 1993,
Hastie y Loader 1993, Fan y
Gijbels 1996, Cheng, Fan y Marron 1997). Por lo tanto, el
suavizador lineal local es
altamente recomendable para la mayora de los problemas en la
prctica.
3.2.3. Funcin del ncleo
La funcin del ncleo utilizada en el suavizador LPK (3.6) es
generalmente
una funcin de densidad de probabilidad simtrica. Mientras que el
ancho de banda
especifica el tamao de la zona local , el ncleo especifica cmo
las
observaciones contribuyen al ajuste LPK en .
Hemos visto anteriormente el ncleo Uniforme (3.10) y ahora vemos
el ncleo
Gaussiano (funcin de densidad de probabilidad normal
estndar)
Cuando el ncleo Uniforme se utiliza, todos los s dentro de la
zona local
contribuyen igualmente (los pesos son los mismos) en el ajuste
LPK en ,
mientras que todos los s fuera de la zona no contribuyen en
nada. Cuando el ncleo
Gaussiano se utiliza, sin embargo, la contribucin de los s se
determina por la
distancia de a , es decir, cuanto menor es la distancia , mayor
es la
contribucin. Esto es porque el ncleo Gaussiano es con forma de
campana y alcanza su
punto mximo en el origen. El ncleo Uniforme tiene un soporte
limitado que permite al
ajuste LPK utilizar los datos slo en la zona . Esto hace una
implementacin
rpida del posible ajuste LPK, lo cual es ventajoso sobre todo
para grandes conjuntos de
datos. El uso del ncleo Gaussiano a menudo resulta en buenos
efectos visuales de los
suavizadores LPK, pero paga un precio de requerir ms esfuerzo
computacional.
Los ncleos Uniforme y Gaussiano son dos miembros especiales de
la siguiente
bien conocida familia Beta simtrica (Marron y Nolan 1989):
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
32
donde y denota una funcin beta con parmetros y .
La eleccin de conducen a las funciones ncleo Uniforme,
Epanechnikov, Biweight y Triweight, respectivamente. El ncleo
Gaussiano es el lmite
de la familia (3.13) cuando . El ncleo Epanechnikov se conoce
como el ncleo
ptimo (Fan y Gijbels 1996) para la suavizacin LPK.
La eleccin de un ncleo no suele ser tan importante, ya que no
determina la tasa
de convergencia del suavizador LPK (3.6) a la curva subyacente.
Sin embargo,
determina la eficiencia relativa del suavizador LPK. Para ms
discusin sobre la
eleccin del ncleo, consulte Gasser, Mller y Mammitzsch (1985),
Fan y Gijbels
(1996), Zhang y Fan (2000) y sus referencias.
3.2.4. Seleccin del ancho de banda
Un suavizador se considera que es bueno si produce un pequeo
error de
prediccin, por lo general medido por el Error Cuadrtico Medio
(Mean Squared Error
(MSE)) o el Error Cuadrtico Medio Integrado (Mean Integrated
Squared Error
(MISE)) del suavizador. Para el suavizador LPK , sus MSE y MISE
se definen
como
donde
se conocen como el sesgo y la varianza de , y es una funcin de
peso, a
menudo utilizada para especificar un rango concreto de
inters.
Bajo ciertas condiciones de regularidad como que es un punto
interior,
podemos demostrar que como ,
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
33
donde significa est acotada en la probabilidad. Vase, por
ejemplo,
Fan y Gijbels (1996, Captulo 3) para ms detalles. De esto,
podemos ver que el ancho
de banda controla el equilibrio entre el sesgo al cuadrado y la
varianza del suavizador
LPK . Cuando es pequeo, el sesgo al cuadrado es pequeo pero la
varianza es
grande. Por otro lado, cuando es grande, el sesgo al cuadrado es
grande mientras que
la varianza es pequea. Una buena eleccin de por lo general
compensar estos dos
trminos para que el MSE o MISE asociado se reduzca al mnimo.
El papel desempeado por el ancho de banda tambin se puede
ver
intuitivamente. Como se mencion anteriormente, el ancho de banda
especifica el
tamao de la zona local . Cuando es pequeo,
contiene slo unas pocas observaciones de modo que puede estar
bien ajustado
en base al criterio WLS (3.3) para aproximarse cerca de . Esto
implica un pequeo
sesgo de . Sin embargo, ya que slo unas pocas observaciones estn
involucradas
en el ajuste LPK, la varianza del estimador es muy grande. Con
un razonamiento
similar, cuando es grande, contiene muchas observaciones de modo
que
tiene un sesgo grande pero una varianza pequea.
Es entonces natural seleccionar un ancho de banda global para
que el MISE
(MSE para un ancho de banda local) de se reduzca al mnimo.
Desafortunadamente, el MISE (3.14) no es calculable ya que es,
despus de todo,
desconocido y es el objetivo que se estima. Este problema se
puede superar mediante la
seleccin de para minimizar algn estimador del MISE. Un estimador
del MISE se
puede obtener a travs de la estimacin de las cantidades
desconocidas en la expresin
asinttica MISE usando algn grado superior del ajuste LPK, dando
como resultado el
llamado complemento de los selectores de ancho de banda (Fan y
Gijbels 1992,
Ruppert, Sheather y Wand 1995). El MISE tambin se puede estimar
mediante
validacin cruzada o sus versiones modificadas: validacin cruzada
generalizada
(Wahba 1985), criterio de informacin Akaike (Akaike 1973) y
criterio de informacin
Bayesiano (Schwarz 1978), entre otros.
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
34
3.2.5. Un ejemplo ilustrativo
Para una rpida implementacin del suavizador LPK, referimos a los
lectores a
Fan y Marron (1994) donde una tcnica de agrupacin se propone
para el manejo de
grandes conjuntos de datos. Ahora aplicamos el suavizador LPK
(3.6) a los datos
presentados en la Figura 3.1. Como ejemplo ilustrativo, se emple
el ajuste lineal local
con tres diferentes anchos de banda. En la Figura 3.2, los tres
ajustes lineales
locales se presentan. La curva continua de color rojo casi
interpola los datos ya que
utiliza un ancho de banda , que es demasiado
pequeo. Este es el caso de infra-suavizado. La curva continua de
color azul no se ajusta
bien a los datos ya que utiliza un ancho de banda ,
que es demasiado grande. Este es el caso de sobre-suavizado. La
curva continua de
color negro produce un buen ajuste a los datos ya que utiliza un
ancho de banda
seleccionado por GCV, que no es demasiado
pequeo o demasiado grande.
-5 0 5 10 15
-10
12
3
Figura 3.2 Ajustes lineales locales
dias
log
(pro
g)
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
35
Captulo 4: Mtodos localmente polinomiales
4.1. Introduccin
Las tcnicas de suavizado localmente polinomiales han sido bien
desarrolladas
para datos i.i.d. o transversales (Wand y Jones 1995, Fan y
Gijbels 1996). Con el fin de
aplicar estas tcnicas al anlisis de datos longitudinales, los
esfuerzos se han hecho
considerables para incorporar las caractersticas de los datos
longitudinales en los
mtodos de suavizado del ncleo (Hoover, Rice, Wu y Yang 1998, Wu,
Chiang y
Hoover 1998, Fan y Zhang 2000, Lin y Carroll 2000, Wu y Chiang
2000, Wu y Zhang
2002a, Welsh, Lin y Carroll 2002, Wang 2003, Park y Wu 2005). En
los estudios
longitudinales, los datos recogidos del mismo sujeto en el
tiempo tienden a estar
correlacionados, aunque los datos de diferentes sujetos se
supone que son
independientes. Las variaciones intra-sujeto y entre-sujeto son
diferentes y necesitan ser
modeladas apropiadamente.
Hoover, Rice, Wu y Yang (1998), Wu, Chiang y Hoover (1998) y Wu
y Chiang
(2000) propusieron por primera vez el mtodo de estimacin del
ncleo para modelos
con coeficientes variando en el tiempo con datos longitudinales.
Sin embargo, las
caractersticas de los datos longitudinales no se incorporan
directamente en sus
mtodos, aunque el criterio de validacin-cruzada
dejar-un-sujeto-fuera se propone
para la seleccin del parmetro de suavizado en el que los datos
de sujeto-basados en
clusters son reconocidos. Para los datos correlacionados del
modelo no paramtrico,
tales como datos longitudinales, Diggle y Hutchinson (1989),
Altman (1991), Hart
(1991), Rice y Silverman (1991) y otros han propuesto
modificaciones para el criterio
de seleccin del parmetro de suavizado tales como la
validacin-cruzada (cross-
validation (CV)) o la validacin-cruzada generalizada
(generalized cross-validation
(GCV)) o el uso de CV o GCV dejar-un-sujeto-fuera de forma
indirecta en cuenta de
las correlaciones entre los datos. Lin y Carroll (2000)
propusieron un mtodo de
ecuacin de estimacin generalizada del ncleo polinomial local
(local polynomial
kernel generalized estimating equation (LPK-GEE)) para clustered
(agrupados) o datos
longitudinales. Ellos mostraron que la mejor estrategia es
ignorar la estructura de
correlacin de los datos longitudinales (fingir como si los datos
dentro de un grupo o
sujeto son independientes) en el estimador LPK-GEE. Sin embargo,
sus conclusiones se
basan en los resultados asintticos a condicin de que el nmero de
sujetos o grupos
tiende a infinito y el nmero de mediciones de cada sujeto es
finito. El estimador
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
36
working-independence de Lin y Carroll no puede ser el mejor para
los casos de muestra
finita. De hecho, algunos nuevos resultados han demostrado que
es necesaria la
incorporacin de las correlaciones de datos longitudinales en el
estimador con el fin de
lograr una mayor eficacia en situaciones de muestras finitas (Wu
y Zhang 2002a,
Welsh, Lin y Carroll 2002, Wang 2003). Fan y Zhang (2000)
sugiere un enfoque en dos
etapas (primero con un promedio local o de regresin, luego
suavizado) de forma
indirecta en cuenta de la correlacin de datos. Un enfoque de
modelado de efectos
mixtos localmente polinomial, el cual ms apropiadamente modela
las correlaciones
intra-sujeto, fue propuesto por Wu y Zhang (2002a). Este mtodo
ser uno de los temas
centrales de este captulo.
Se amplan los modelos lineales de efectos mixtos (Captulo 2) a
una
configuracin de modelo no paramtrico ms general en este captulo.
El resto de este
captulo est organizado de la siguiente manera. En primer lugar
se revisan los mtodos
para la estimacin de la funcin de media poblacional para datos
longitudinales en la
Seccin 4.2. Un mtodo polinomial local simple y un mtodo LPK-GEE
se describen
brevemente. La Seccin 4.3 introduce un modelo no paramtrico de
efectos mixtos
(nonparametric mixed-effects (NPME)) y la Seccin 4.4 presenta la
tcnica de
modelado de efectos mixtos localmente polinomial. Se discuten
diferentes estrategias de
seleccin del ancho de banda en la Seccin 4.5. Para ilustrar las
metodologas, una
aplicacin a los datos de progesterona se presenta en la Seccin
4.6. La mayora de los
materiales de las Secciones 4.3~4.6 provienen de dos artculos de
Wu y Zhang (2002a)
y Park y Wu (2005).
4.2. Modelo no paramtrico para la media poblacional
Un conjunto de datos longitudinales, por ejemplo, los datos de
progesterona
introducidos en la Seccin 1.1.1 del Captulo 1, son normalmente
coleccionados
mediante mediciones repetidas de una serie de sujetos durante un
perodo de tiempo.
Los puntos en tiempo de diseo pueden ser diferentes para sujetos
diferentes y tambin
lo son el nmero de mediciones. Sea el nmero de sujetos, y sea el
-simo
punto en tiempo de diseo del -simo sujeto y la respuesta
asociada donde
con denotando el nmero de mediciones del -simo sujeto. Tal
conjunto
de datos longitudinales puede ser simblicamente expresado
como
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
37
Si un modelo paramtrico no est disponible para el modelado de la
funcin de
media poblacional de los anteriores datos longitudinales, es
natural modelar en no
paramtrica. Es decir, asumimos justamente que la funcin de media
poblacional es
suave. Tal modelo no paramtrico de media poblacional
(nonparametric population
mean (NPM)) se puede escribir como
donde es la funcin suave de media poblacional, y son las salidas
de las
mediciones longitudinales de la funcin de media poblacional.
Este modelo es
comparable con el modelo de regresin no paramtrica estndar (3.2)
del Captulo 3,
pero difiere en que los errores en el modelo NPM (4.2) son por
lo general no
independientes.
Dado que no est disponible la forma paramtrica para el modelado
de , las
tcnicas de suavizado no paramtricas son necesarias para ser
utilizadas. De hecho,
varias tcnicas no paramtricas se han propuesto para los modelos
de coeficientes
variando en el tiempo que incluyen el modelo NPM (4.2) como un
caso especial. En
esta seccin, se revisan dos tcnicas: un mtodo del ncleo
polinomial local (local
polynomial kernel (LPK)) (Hoover, Rice, Wu y Yang 1998); y un
mtodo LPK-GEE
(Lin y Carroll 2000).
4.2.1. Mtodo del ncleo polinomial local
El mtodo LPK para los modelos de coeficientes variando en el
tiempo para
datos longitudinales fue propuesto y estudiado por primera vez
por Hoover, Rice, Wu y
Yang (1998). Como fue el caso del suavizado LPK de datos
independientes revisado en
la Seccin 3.2 del Captulo 3, la idea principal de este mtodo LPK
es ajustar un
polinomio de cierto grado a localmente.
Sea un punto arbitrario en tiempo fijo. Supongamos que tiene un
mximo
de -primeras derivadas continuas para algn entero en . Entonces
por la
expansin de Taylor, se puede aproximar localmente por un
polinomio de grado
. Es decir,
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
38
donde y
con
,
. Sea el estimador de obtenido al minimizar el
siguiente criterio de mnimos cuadrados ponderados (weighted
least squared (WLS)):
donde con una funcin del ncleo y un ancho de banda. Al igual
que con el suavizado de datos independientes descrito en la
Seccin 3.2, el ancho de
banda se utiliza para especificar el tamao de la zonal local y
el ncleo
se utiliza para especificar el efecto de los puntos de datos de
acuerdo a la distancia
entre y . Por lo general, mientras ms cerca la distancia est, ms
grande el efecto
es.
Para dar una expresin explcita para en la notacin de matrices,
sea
la matriz de diseo y la matriz de peso para el -simo sujeto,
respectivamente. Adems,
se denota
y . Entonces el criterio WLS (4.4)
se puede reescribir como
donde
con siendo el vector respuesta del -simo
sujeto. Se deduce de minimizar (4.5) con respecto a que
Sea un vector unitario -dimensional cuya -sima entrada es 1 y
las
dems son 0. Entonces es fcil ver que a partir de las
definiciones de
que los estimadores de las derivadas son
En particular, el estimador LPK para la funcin de media
poblacional es
.
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
39
Al igual que con suavizado en datos i.i.d. que se describe en la
Seccin 3.2,
puede ser tomado como 0 y 1 por simplicidad. Por ejemplo, cuando
, tenemos
, un vector de -dimensiones de s y el estimador LPK resultante
es
generalmente conocido como el denominado estimador del ncleo
constante local de
donde es el nmero de mediciones totales para todos los sujetos.
A
partir de (4.6), el estimador del ncleo constante local de tiene
la siguiente
expresin sencilla:
Cuando , es decir, hay solo una medicin por sujeto, el estimador
(4.8) se
reduce al estimador de datos i.i.d. en (3.9). El estimador (4.8)
se llama un estimador del
ncleo constante local ya que es igual al minimizador, , del
siguiente criterio WLS:
En otras palabras, es la mejor constante que se aproxima a en la
zona local
en lo que respecta a la minimizacin (4.9).
Cuando , el estimador LPK asociado es generalmente conocido
como
el estimador del ncleo lineal local de . A partir de (4.6), el
estimador del ncleo
lineal local puede ser expresado como
donde
Del mismo modo, el estimador (4.10) se llama un estimador del
ncleo lineal
local ya que se obtiene mediante aproximacin de en una zona
local utilizando una
funcin lineal , es decir, minimizando el siguiente criterio
WLS:
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
40
Basado en los resultados de Hoover, Rice, Wu y Yang (1998), es
fcil demostrar
que cuando , bajo ciertas condiciones de regularidad,
tenemos
donde el trmino de primer orden en la expresin de se
relaciona con la variacin intra-sujeto solamente, mientras que
el trmino de segundo
orden se asocia con la variacin entre-sujeto. De ello se
desprende que
las propiedades asintticas de son diferentes cuando es limitada,
en
comparacin a cuando no es acotado (limitado). De hecho, cuando
todos los son
limitados, la en (4.12) est dominada por el trmino de primer
orden para que
; cuando todos los tienden a infinito, la est
dominada por el trmino de segundo orden para que
. En particular, supongamos entonces como
, tenemos . En este caso, es -consistente.
A partir de (4.12), el ancho de banda ptimo terico que
minimiza
es del orden de cuando es limitada. Rice y
Silverman (1991) propusieron un mtodo de validacin cruzada
dejar-un-sujeto-fuera
para la seleccin de un ancho de banda adecuado para datos
longitudinales. Esta
estrategia de seleccin de ancho de banda fue empleada por
Hoover, Rice, Wu y Yang
(1998).
4.2.2. Mtodo del ncleo polinomial local GEE
El mtodo LPK-GEE fue propuesto y estudiado por Lin y Carroll
(2000). Para el
modelo NPM (4.2), basado en la notacin como , , y definido en el
apartado
anterior, el asociado LPK-GEE es
donde con y siendo una matriz de correlacin de
trabajo especificado por el usuario. Cuando , el LPK-GEE (4.13)
se puede
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
41
obtener a travs de diferenciar el criterio WLS (4.5) con
respecto a y se establece
igual a 0. La solucin del anterior LPK-GEE con respecto a lleva
al llamado
estimador LPK-GEE
Los estimadores para y sus derivadas se pueden obtener
fcilmente
utilizando (4.7).
La matriz de correlacin de trabajo en la formulacin LPK-GEE
(4.13) se
utiliza para tener en cuenta parcialmente la estructura de
correlacin subyacente de .
En particular, cuando tomamos , tenemos de manera
que la estructura de correlacin verdadera se tiene en cuenta
aunque esto es casi
imposible en aplicaciones reales.
El resultado contrario a la intuicin de Lin y Carroll (2000) es
que el ms
eficiente estimador LPK-GEE se obtiene haciendo caso omiso de la
correlacin intra-
sujeto en lugar de especificar correctamente la correlacin
intra-sujeto, es decir,
suponiendo . Argumentaron que, asintticamente, no hay necesidad
de tomar en
cuenta la correlacin porque cuando el ancho de banda es reducido
a 0 como el tamao
de la muestra , la posibilidad de que ms de dos observaciones
sean del mismo
sujeto es pequea y por lo tanto los datos utilizados en la
estimacin local son de sujetos
diferentes que se supone que son independientes. Esto implica
que la matriz de
covarianza verdadera para los datos que contribuyen a la
estimacin local es
asintticamente diagonal. Por lo tanto, el estimador LPK-GEE
working independence
es asintticamente ptimo (Lin y Carroll 2000). Esto est en
contraste con la
paramtrica habitual GEE (Liang y Zeger 1986) en que la mejor
estrategia es utilizar la
verdadera correlacin de los datos. Como se mencion en Hoover,
Rice, Wu y Yang
(1998), debemos interpretar los resultados asintticos con
precaucin ya que en
aplicaciones de datos reales, el ancho de banda adecuado
seleccionado por un selector
de ancho de banda no suele ser tan pequeo y los resultados
asintticos pueden no ser
aplicables. En otras palabras, tomando adecuadamente en cuenta
la correlacin puede
ser necesaria para anlisis de datos de muestras finitas.
Se puede observar que el mtodo LPK-GEE utiliza el peso del ncleo
para
controlar los sesgos. Con el fin de reducir los sesgos, todos
los datos localizados lejos
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
42
del punto de estimacin se ponderan hacia abajo aunque estos
datos pueden contener
informacin til debido a la correlacin con los datos cerca del
punto de estimacin del
mismo sujeto. Por lo tanto, la eficiencia de la estimacin se
puede perder ya que es
difcil controlar los sesgos y reducir la varianza de forma
simultnea. Para hacer frente a
este problema, Wang (2003) propuso un procedimiento de dos
pasos. La idea bsica es
la siguiente: Para utilizar de manera eficiente toda la
informacin relacionada a un
sujeto, una vez que un punto de datos de un sujeto o grupo se
encuentra cerca del punto
de estimacin (por ejemplo, a ) y contribuye significativamente a
la estimacin local,
todos los puntos de datos de este sujeto o grupo se utilizarn.
Para evitar sesgos, las
contribuciones de todos estos puntos de datos excepto el punto
de datos cerca del punto
de estimacin local son a travs de sus residuos. Se define como
una matriz
con la -sima fila
y 0 en otro caso. El
procedimiento de dos pasos para el modelo NPM (4.2) puede ser
descrito de la siguiente
manera (Wang 2003):
Paso 1. Obtener un estimador inicial consistente de , por
ejemplo . Por
ejemplo, el estimador working independence puede ser tomado como
.
Paso 2. Obtener la estimacin final de , por ejemplo ,
resolviendo la
ecuacin estimada del ncleo ponderado
donde el -simo elemento de es
cuando con estando a un margen
del punto de tiempo ; y el -simo elemento de es cuando .
La estructura de est diseada de manera que, para un cuyo tiempo
de
medicin no est a un margen de , el residuo , en lugar de ,
contribuye a la estimacin local . Esto garantizar el estimador
propuesto
para ser asintticamente insesgado en el peor caso.
Para el modelo NPM (4.2), podemos expresar el estimador de dos
pasos como
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
43
donde
denota la -sima entrada de con siendo la matriz de
covarianza
de trabajo para el -simo sujeto. Comparando (4.16) al estimador
working
independence , es decir,
vemos que los datos correlacionados pero no en un margen de se
incorporan en el
estimador de dos pasos mediante la adicin de sus residuos
ponderados obtenidos a
partir del primer paso, y el peso es su correlacin (covarianza)
hasta el -simo punto de
datos que est en un margen de . La ventaja del estimador en dos
pasos es una
reduccin de la varianza sin la ampliacin de los sesgos al menos
asintticamente. El
anterior mtodo de dos pasos puede ser mejorado mediante la
iteracin de los dos pasos.
Sin embargo, las investigaciones tericas muestran, a la primera
orden, que el estimador
de dos pasos alcanza las mismas propiedades asintticas que el
estimador totalmente
reiterado. Wang (2003) muestra que el estimador de dos pasos
supera de manera
uniforme el estimador working independence (Lin y Carroll 2000)
en trminos de la
varianza asinttica si la covarianza verdadera se ha especificado
correctamente.
El mtodo de dos pasos de Wang proporciona una forma inteligente
de
incorporar correlaciones intra-sujeto de datos longitudinales
con el fin de utilizar
eficientemente los datos disponibles para mejorar el estimador
working independence.
Sin embargo, el uso de un margen de de para determinar si los
datos o sus
residuos deben ser utilizados para estimar es totalmente
arbitrario. No sabemos
cmo esto afecta a la seleccin del ancho de banda. Con el fin de
implementar el
mtodo de Wang, la covarianza de trabajo tiene que ser estimada
separadamente. En la
Seccin 4.4, presentaremos el enfoque de modelado de efecto mixto
para incorporar las
correlaciones intra-sujeto de una manera ms natural.
Chen y Jin (2005) recientemente propusieron utilizar simplemente
el mtodo
local de mnimos cuadrados generalizado (generalized least
squares (GLS)) para
explicar las correlaciones de datos longitudinales. Su mtodo no
es nada nuevo y se
puede considerar como un caso especial del modelo de efectos
mixtos localmente
polinomial descrito en la Seccin 4.4. Adems, su mtodo tambin
requiere determinar
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
44
o estimar la matriz de covarianza separadamente, y una estimacin
precisa de la matriz
de covarianza es generalmente difcil de obtener.
4.3. Modelo no paramtrico de efectos mixtos
En la seccin anterior, se revisaron dos populares tcnicas no
paramtricas para
el ajuste del modelo NPM (4.2) para datos longitudinales. Un
problema crtico de las
tcnicas anteriores es que las caractersticas de los datos
longitudinales no se incorporan
directamente en los estimadores y estimaciones de las funciones
individuales no son
consideradas. En muchos estudios longitudinales, estimacin e
inferencia de las
funciones individuales son tan importantes como la funcin de
media poblacional. En
esta seccin, extendemos el modelo NPM (4.2) a un modelo que
incorpora la funcin de
media poblacional y las funciones individuales de los datos
longitudinales de forma
simultnea. El nuevo modelo se puede expresar como
donde como en el modelo NPM (4.2), modela la funcin de media
poblacional
suave de los datos longitudinales, tambin llamada funcin de
efecto fijo; modela
la salida de la -sima funcin individual de la funcin de media
poblacional ,
llamada la -sima funcin de efectos individual
(sujeto-especificado) o funcin de
efecto aleatorio; y la funcin de error de medicin que no se
puede explicar ni por
las funciones de efecto fijo o de efecto aleatorio. Es fcil ver
que el trmino de error,
, del modelo (4.2), ahora se convierte en dos trminos, y , del
nuevo
modelo (4.18). El modelo (4.18) se le llama modelo no paramtrico
de efectos mixtos
(nonparametric mixed-effects (NPME)) ya que tanto las funciones
de efecto fijo y efecto
aleatorio son no paramtricas.
Por conveniencia, a menudo asumimos que las funciones de efecto
aleatorio no
observables son copias i.i.d. de un proceso suave (smooth
process
(SP)) subyacente con funcin media 0 y funcin covarianza , y que
los
procesos de error de medicin no observables son copias i.i.d. de
un proceso de
ruido blanco incorrelado con funcin media 0 y funcin
covarianza
. Esto es, y . En este trabajo, cuando se trata
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
45
con inferencias bayesianas o basadas en la probabilidad, por lo
general asumimos que
los procesos asociados son Gausianos, es decir,
Ntese que , y caracterizan los rasgos generales de una
poblacin longitudinal de modo que son caractersticas de la
poblacin, mientras que
las funciones de efecto aleatorio y las funciones
individuales
son especificas de sujeto de modo que son caractersticas de
los
individuos. El objetivo principal del modelado NPME es estimar
el efecto de la
poblacin y predecir los efectos individuales para un estudio
longitudinal. Para
simplificar, la funcin de media poblacional y las funciones
individuales
tambin se les conoce como curvas de la poblacin e individual.
Debido a que las
cantidades objetivo , y son todas no paramtricas, el modelado
NPME
requiere una combinacin de una tcnica de suavizado y un enfoque
de modelado de
efectos mixtos.
4.4. Modelado de efectos mixtos polinomial local
En el resto de este captulo, se aplican tcnicas de suavizado del
ncleo
polinomial local (local polynomial kernel (LPK)) al modelo NPME
(4.18) para analizar
datos longitudinales. Los principios de probabilidad local
(Tibshirani y Hastie 1987) se
utilizan para guiar el desarrollo de las metodologas.
4.4.1. Aproximacin polinomial local
Las cantidades objetivo , y se pueden estimar a travs de la
aproximacin a nivel local en el modelo NPME (4.18) por un
polinomio basado en el
modelo LME. Esto se puede lograr a travs de la expansin de
Taylor de y
en torno a una zona de inters.
Supongamos que y en el modelo NPME (4.18) es suave, por
ejemplo,
tienen un mximo de -veces derivadas continuas en cada punto
dentro de algn
intervalo de inters, llamado , donde es un entero no negativo.
Por la expansin de
Taylor, para cualquier fijo, y en se puede aproximar por un
polinomio de grado -simo dentro de una zona de :
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
46
donde y
De ello se sigue que, dentro de una zona de , el modelo NPME
(4.18) puede ser
razonablemente aproximado por un modelo LME:
donde denota las medicin y errores en el modelo de aproximacin,
y denota los
efectos aleatorios. Bajo el supuesto Gausiano (4.19),
Basado en el modelo NPME (4.18), los componentes de varianza
y . Ntese que como el
vector de efectos fijos y la matriz de covarianza son las
funciones de la ubicacin
local , por conveniencia, las llamamos la versin localizada del
vector de efectos fijos
y la versin localizada de la matriz de covarianza,
respectivamente, o en general los
parmetros localizados.
4.4.2. Estimacin por mxima verosimilitud local
Tibshirani y Hastie (1987) propusieron por primera vez el mtodo
de mxima
verosimilitud local. Staniswalis (1989) y Fan, Farmen y Gijbels
(1998) estudiaron ms a
fondo las propiedades de los estimadores de mxima verosimilitud
local del ncleo
ponderado. En esta subseccin, aplicamos el mtodo de mxima
verosimilitud local a
-
Trabajo Fin de Mster en Estadstica Aplicada 2010/2011
47
datos longitudinales en los que las correlaciones entre-sujeto
normalmente existen (Park
y Wu 2005).
Supongamos que es un vector de observaciones
obtenido