Kreuter Valliant 2007

1

Efectos del diseo muestral en el anlisis de encuestas* Kreuter, F. y Valliant, R.

Resumen. Este artculo examina asuntos relativos al anlisis de datos de encuestas complejas y describe alguna de las capacidades de Stata para los anlisis de este tipo. Revisa de forma resumida los elementos clave del diseo de encuestas y explica los efectos de algunas caractersticas del diseo en el sesgo y la varianza. Compara diferentes mtodos de estimaciones de varianza para muestras estratificadas y por conglomerados, y aborda la forma de tratar los pesos de una encuesta. Tambin, entrega ejemplos de la importancia prctica de las capacidades de Stata para el anlisis de encuestas. Palabras clave: st0118, diseo complejo, estimacin de varianza, muestra estratificada, muestra por conglomerados, no respuesta, pesos, DEFECT, NHANES, NHIS, PISA 1 Elementos a tener en cuenta al analizar datos de encuestas Los datos de encuestas son usados en la mayor parte de los trabajos empricos en las ciencias sociales y del comportamiento, en economa y en salud pblica. Durante los ltimos aos, ha habido cada vez ms conciencia respecto de que los investigadores deben considerar el diseo muestral al analizar datos de encuestas. Esta creciente conciencia llev a varios de los principales paquetes de software estadsticos a expandir sus caractersticas para analizar datos de encuestas complejas. Los estadsticos de encuestas reconocen a Stata como uno de los paquetes ms poderosos. Sin embargo, investigadores principalmente de ciencias aplicadas no siempre consideran la informacin del diseo de encuestas como parte de su prctica habitual. Este artculo, por lo tanto, provee una breve gua para los distintos mtodos de Stata que son apropiados para analizar datos de encuestas y debiera ayudar a responder las siguientes preguntas:

- Cules son las caractersticas del diseo de encuestas que se deberan tomar en cuenta?

- Por qu se necesita tomar en cuenta estas caractersticas del diseo de encuestas? Cmo estas caractersticas de las encuestas afectan el sesgo y la varianza?

- Cmo considerar diseos complejos en la prctica?

El objetivo de este artculo no es explicar todos los diseos de encuestas posibles,

sino cubrir algunos vacos de conocimiento sobre asuntos que es necesario considerar en el anlisis de datos. Comenzaremos con una breve revisin de los elementos comunes de los diseos de encuestas complejas en la seccin 2, y abordaremos las consecuencias de excluir estos elementos en la seccin 3. Los lectores que ya estn familiarizados con los diseos muestrales pueden leer rpidamente estas secciones y continuar con la seccin

* N del T: Este texto corresponde a la traduccin de una parte del artculo de Kreuter, F. y Valliant, R. (2007) A survey on survey statistics: What is donde and can be done in Stata, The Stata Journal, 7, Number 1, pp. 121, que fue traducido especialmente para el curso Mtodos de Anlisis Aplicados a los Mercados de Suelo en Amrica Latina referente a las caractersticas y capacidades del software Stata.

2

4, donde revisamos dos importantes mtodos de estimacin de varianza para encuestas complejas: Linearizacin de Taylor y replicacin. En la seccin 5, mostramos el uso de los procedimientos de Stata al analizar datos de uso pblico para dos encuestas de gran escala. El artculo finaliza con un breve resumen. 2 Caractersticas del diseo de encuestas Las estimaciones generadas por los procedimientos estndar en los paquetes estadsticos normalmente ignoran las caractersticas del diseo de encuestas y asumen que los datos observados son valores obtenidos de variables independientes aleatorias o que los datos fueron recolectados a partir de un muestreo aleatorio simple (MAS). Sin embargo, la muestra de una encuesta involucra tres caractersticas que potencialmente tienen consecuencias significativas para las estimaciones: pesos, estratificacin y muestreo por conglomerados. Describiremos brevemente estas caractersticas antes de abordar sus efectos y problemas relacionados.

Otra caracterstica de muchas encuestas es que, en la prctica, el muestreo normalmente se realiza sin reemplazos para evitar la seleccin mltiple de una misma unidad muestral. La diferencia resultante en las estimaciones de varianza para una muestra con y sin- reemplazos es insignificante si la muestra es una pequea proporcin de la poblacin. Dado que esta proporcin es pequea en nuestros ejemplos, al igual que en muchos datos de encuestas, no profundizaremos en este asunto.

La mayora de las encuestas comienzan con una muestra probabilstica obtenida de un marco de poblacin. Cuando la poblacin es relativamente pequea, el marco puede ser una lista de todas las unidades de la poblacin. Por ejemplo, si una encuesta es aplicada a todas las escuelas bsicas de una regin, una lista se podra obtener de una agencia gubernamental de educacin. En pases con registros de poblacin, stos pueden ser usados como marcos muestrales para encuestas de hogares. A veces, el marco no cubre la poblacin objetivo, pero el proceso de pesos (o expansin), descrito ms adelante, busca corregir esto. Pesos: Los pesos de una encuesta estn diseados para expandir la muestra al nivel de la poblacin que esa muestra representa. En una muestra probabilstica, las unidades son seleccionadas utilizando probabilidades conocidas. En algunas encuestas, todas las unidades tienen la misma probabilidad de seleccin, pero es ms frecuente que exista alguna variacin en las probabilidades. En una encuesta de individuos, se puede planear un anlisis separado de grupos de acuerdo a la edad, gnero y raza-etnia. En consecuencia, esos grupos pueden ser seleccionados con diferentes tasas para obtener tamaos muestrales adecuados para cada uno. Las probabilidades de seleccin dan cuenta de las diferentes tasas de muestreo usadas para diferentes tipos de unidades. El inverso de la probabilidad de seleccin de una unidad muestral es conocido como su peso base. Por ejemplo, si los hombres fueron seleccionados con una probabilidad de 0.01 y las mujeres con una probabilidad de 0.05, la ponderacin base para los hombres y mujeres sera 100 y 20, respectivamente.

Muchas bases de datos de encuestas son publicadas con lo que se denominan pesos finales, que no solo toman en cuenta las probabilidades de la muestra sino que tambin estn diseados para ajustar la no respuesta, los problemas de cobertura, y otros usos de datos auxiliares externos a la encuesta.

3

Estratificacin: Con la estratificacin, los elementos de una poblacin son divididos en estratos: subgrupos mutuamente excluyentes y exhaustivos. Es decir, alguna informacin para cada elemento debe estar en el marco de elementos de la poblacin para poder dividirlos en estratos. Por ejemplo, los nmeros de telfono para las encuestas de hogares en EE.UU. se suelen dividir en estratos geogrficos. Para hacer esto, el investigador debe ser capaz de identificar la regin geogrfica de cada nmero telefnico en el marco muestral. El cuadrado de la izquierda en la figura 1 muestra una poblacin dividida en cinco estratos (indicados por las lneas continuas). El muestreo se realiza dentro de cada uno de estos estratos. Las x en el cuadrado de la izquierda de la figura 1 indican cuatro unidades muestrales seleccionadas en cada uno de los cinco estratos. Una razn para estratificar es para poder realizar comparaciones entre los subgrupos que conforman los estratos, y la estratificacin asegura que las unidades de cada grupo sean seleccionadas en la muestra. Por esta razn se usan frecuentemente regiones polticas o geogrficas como estratos.

Figura 1: Muestras por estratos y por conglomerados Diseo por conglomerados: Las muestras por conglomerados son aquellas donde se especifican grupos de unidades de la poblacin, y una muestra de dichos grupos (unidad primaria de muestreo [UPM]) se selecciona primero en vez de las unidades individuales. Las lneas punteadas en el cuadrado derecho de la figura 1 muestran esos conglomerados dentro de los estratos. Aqu, dos UPMs son seleccionadas en cada uno de los cinco estratos. En este ejemplo simple de muestreo por conglomerados, todos los elementos dentro de cada conglomerado son seleccionados como parte de la muestra. Los investigadores usualmente deciden utilizar una muestra por conglomerados en vez de un diseo ms simple por razones organizaciones o financieras. La ausencia de un registro general de poblacin en muchos pases hace virtualmente imposible realizar una encuesta a individuos por medio de un MAS. Seleccionar la muestra en varias etapas, una de ellas al nivel de pequeos conglomerados geogrficos, facilita la seleccin de los entrevistados sin la ayuda de un registro de datos. Esta modalidad es usada en muchas encuestas de hogares cuando se levanta la informacin por medio de entrevistas individuales y una lista de todos los hogares no est disponible. En estos casos, se seleccionan reas geogrficas hasta que, en el ltimo nivel, se pueden listar y seleccionar los hogares. Diseos ms complejos pueden tener selecciones posteriores dentro de los conglomerados. Tambin, una muestra en la que primero se seleccionan conglomerados geogrficos es ms eficiente en trminos de costos para una encuesta presencial, dado que los entrevistados que viven cerca reducen los costos de traslado.

4

3 Hacindose cargo del diseo de encuestas: Efectos en el sesgo y la

varianza Dos desafos surgen al enfrentarse con datos de encuestas: (1) obtener correctas estimaciones (evitando sesgos) y (2) calcular correctas varianzas y errores estndar (ESs). Los tres elementos descritos previamente (pesos, estratificacin y muestreo por conglomerados), tienen efectos diferentes en el sesgo y la varianza. 3.1 Pesos Si la muestra es seleccionada con probabilidades de seleccin desiguales, ignorar los pesos muestrales puede generar estimaciones sesgadas al estimar totales de la poblacin, medias, u otras medidas ms complicadas. Si los pesos son usados en modelos, las estimaciones resultantes son de modelos que estaran ajustados si se tuviera en la muestra a la totalidad de la poblacin. Pero incluso si una muestra es seleccionada con idnticas probabilidades de seleccin, los analistas se podran enfrentar con pesos en la base de datos de resultados. Esos pesos usualmente son diseados para ajustar por la no respuesta o por errores de cobertura (o ambos). Tpicamente, los usuarios no crean por su cuenta esos pesos. Las bases de dato normalmente son publicadas con variables de pesos diseados por el productor de los datos.

La mayora de las muestras complejas sufren algn grado de no respuesta. La no respuesta puede ocurrir por diversas razones. Por ejemplo, en una encuesta de hogares, puede que nunca se logre contactar a algunos hogares porque no es posible encontrar a nadie en casa durante el perodo de encuestaje. Otros que s son contactados pueden negarse a participar. Slo si los encuestados pueden ser tratados de forma segura como una submuestra aleatoria de la muestra total, las estimaciones de medidas como medias y proporciones estaran no-sesgadas. La no respuesta puede generar un sesgo si el mecanismo de respuesta est relacionado con la variable resultante (Groves et al. 2004). Por ejemplo, si es menos probable que las personas mayores respondan en una encuesta de salud que las personas jvenes y es ms probable que estn enfermas, entonces una estimacin de la proporcin de personas enfermas sera muy baja. Un mtodo estndar para compensar la prdida de unidades por no respuesta es clasificar todas las unidades de la muestra (a los que responden y a los que no) en celdas, sobre la base de caractersticas que puedan predecir si una unidad efectivamente responde. En el ejemplo previo, la edad sera una caracterstica de ese tipo. Por tanto, quienes responden tendran un peso asignado que compensa los casos faltantes en cada celda. Este mtodo requiere no slo un conocimiento sobre caractersticas relevantes, sino tambin que quienes responden en una celda puedan ser tratados como una muestra aleatoria de la muestra inicial, por ejemplo, que cada unidad en un determinado grupo etario tenga la misma probabilidad de responder. Otras tcnicas ms elaboradas utilizando puntajes de predisposicin estn disponibles (ver Little and Rubin 2002, sec. 3.3).

Para corregir por falta de cobertura de la poblacin objetivo, los investigadores suelen usar variables auxiliares o predictivas para postestratificar los datos. Este mtodo se utiliza comnmente en las encuestas de hogares e involucra el ajuste de pesos de los encuestados para forzar a que sumen como los valores poblacionales para diferentes grupos. Por ejemplo, la mayora de las encuestas de hogares de EE.UU. no cubren adecuadamente ciertos grupos demogrficos. En la Current Population Survey, las estimaciones del nmero de hombres jvenes negros son slo cerca de 3/4 de los valores

5

del censo previo a la postestratificacin (Kostanich and Dippo 2002). Por tanto, los postestratos pueden ser definidos por grupos etarios cruzados con gnero y raza. Los pesos de los encuestados en el postestrato seran ajustados para sumar como los valores de ese grupo en el censo ms reciente. En la Current Population Survey, los ajustes por postestratificacin aumentan los pesos de los hombres jvenes negros en cerca de 4/3. De forma similar al ajuste por no respuesta, la postestratificacin supone que las personas no cubiertas pueden ser tratadas como faltantes aleatorios en cada postestrato.

Cuando se utilizan ambos ajustes, por no respuesta y por postestratificacin, el peso final de la encuesta para una unidad encuestada j tiene la forma de wjfNRjfPSj, donde wj es el peso base y fNRj y fPSj son los ajustes por no respuesta y por postestratificacin aplicados a la unidad j. El peso final aparece en el registro de datos de cada encuestado como una variable para ser usada en el anlisis de datos. Algunas bases de datos proveen tanto los componentes individuales (pesos base, pesos de no respuesta, pesos de postestrato) como el producto final (Groves et al. 2004), pero contar slo con el peso final es probablemente lo ms comn. Este peso final es todo lo que se necesita para la mayora de los anlisis.

Si los supuestos son realizados sobre por qu hay datos faltantes, la aplicacin de pesos puede reducir el sesgo en las estimaciones de medias, proporciones, totales, etc. Al mismo tiempo, los ESs pueden aumentar debido al uso de los pesos. El aumento en los ESs a veces se utiliza como un argumento en contra de los pesos. Sin embargo, excluir los pesos genera estimaciones que podran aplicarse slo para la muestra y no para la poblacin en su conjunto. 3.2 Estratificacin Dividir el marco de elementos de la poblacin en estratos para asegurar la posibilidad de realizar comparaciones dentro de esos estratos (e.g., regiones geogrficas) es slo una razn para estratificar. Otra razn es la reduccin en la varianza del estimador que uno puede alcanzar con la estratificacin: la variacin de una muestra a otra est restringida a la variacin dentro de los estratos. Usualmente, los estratos reflejan grupos que son ms homogneos que la poblacin en su conjunto. En este caso, una muestra generada con estratificacin y una asignacin eficiente para los estratos llevar a ESs ms pequeos para la estimacin de estadsticas de una poblacin que aquellos de una muestra sin estratificacin. El efecto de la estratificacin en las estimaciones se reflejar en la forma en que los pesos son calculados. Supongamos que se utilizan estratos geogrficos y que la variable de inters de la encuesta es el cncer de piel. Asumamos que la prevalencia de cncer de piel vara con la exposicin al medioambiente en diferentes regiones geogrficas. En este caso, la muestra estratificada asegurara la seleccin de elementos de cada regin como parte de la muestra. La variacin de una muestra a otra en la exposicin al medioambiente se limita a la variacin dentro de la regin.

Por consiguiente, si los datos son recolectados utilizando un diseo muestral estratificado, los analistas debieran tomar en cuenta la informacin de la estratificacin al calcular los ESs; de lo contrario, los ESs resultantes sern incorrectos. En muestras estratificadas que no involucran conglomerados, los ESs usualmente sern muy grandes si los estratos son ignorados. Esto es especialmente cierto cuando los estratos forman grupos homogneos. Incluso si los estratos no son particularmente homogneos, considerarlos genera ESs aproximadamente no sesgados. Desde el punto de vista de un

6

analista, la potencial disminucin de los ESs es un incentivo para no ignorar el diseo muestral. 3.3 Muestreo por conglomerados Si bien tener grupos homogneos es una ventaja para la estratificacin donde los elementos son tomados de cada estrato, es una desventaja para muestras por conglomerados donde slo algunos conglomerados resultan seleccionados para cualquier muestra dada. En la prctica, las unidades en los conglomerados usados para encuestas de hogares suelen estar cercas para ahorrar costos de traslado al encuestador. Y es probable que las personas que viven cerca sean similares en su nivel econmico, educacional, o en la infraestructura a la que tienen acceso. Si los conglomerados son ms homogneos que la poblacin, las estimaciones de una muestra por conglomerados tendrn ESs ms grandes que las estimaciones de una muestra aleatoria simple de igual tamao por dos razones. Primero, si slo un subconjunto de estos conglomerados homogneos es seleccionado, los datos resultantes pueden variar de una muestra a otra muestra ms de lo que lo haran si un MAS (u otro tipo de muestreo por una etapa) se hubiera usado. Segundo, la semejanza dentro de los conglomerados se puede considerar de una manera equivalente a una disminucin en el tamao muestral. En un caso extremo, donde todos los elementos del conglomerado tienen el mismo valor para la variable de inters, el tamao muestral efectivamente se reducira al nmero de conglomerados. Por ejemplo, en la figura 2 dos conglomerados son seleccionados dentro de cada estrato. Los elementos dentro de cada conglomerado son todos iguales, y son diferentes de aquellos dentro del segundo conglomerado en cada estrato. Los ocho elementos seleccionados en los dos conglomerados dentro de cada estrato contienen la misma informacin que se hubiera obtenido con un elemento de cada conglomerado. El tamao muestral efectivo en cada estrato se reduce de 8 a 2 observaciones. Una reduccin en el tamao muestral, sin embargo, aumenta las varianzas. Tambin, la similitud inducida por el conglomerado quebrantar el supuesto estndar de tener observaciones independientes. Aunque no considerar la informacin del muestreo por conglomerados proveer estimaciones correctas, los ESs de muchas estadsticas estarn subestimados, lo que significa que los resultados aparentarn falsamente ser estadsticamente significativos.

Figura 2: Muestra con conglomerados homogneos Los investigadores debieran pensar sobre los efectos del muestreo por conglomerados en su propia rea de experticia. Los conglomerados pueden ser

7

estudiantes como subconjunto de profesores, pacientes de doctores, o empleados de negocios. Para los datos de encuestas, revisamos los efectos de la relativa homogeneidad de los encuestados dentro de una misma rea geogrfica. Sin embargo, incluso en muestras que no se disean por conglomerados geogrficos, como encuestas telefnicas de nmeros discados aleatoriamente, las diferentes respuestas de los encuestados pueden estar correlacionadas (Groves 1989, 318). Los datos del estudio del efecto diseo (DEFECT) en Alemania (Schenell and Kreuter 2000) muestran el efecto adicional de conglomerado que proviene de los encuestadores en entrevistas presenciales (Schenell and Kreuter 2005). En estos casos, tambin parece que para ciertos tems el efecto homogeneizador de los encuestadores es incluso mayor que el efecto homogeneizador del rea geogrfica. 3.4 Ejemplos NHANES: Las estimaciones en la tabla 1 muestran un potencial efecto de sesgo inducido de muestras complejas. La estimacin del porcentaje de personas que sufren de hipertensin sera 5.4% al usar datos sin pesos de la National Health and Nutrition Examination Survey (NHANES) III, Phase 2. Sin embargo, la NHANES es una muestra de hogares estratificada geogrficamente, multietpica, por conglomerados, con grupos de edad, sexo, y raza-etnia seleccionados con diferentes tasas. El diseo incluye 23 estratos con dos UPM por estrato. La estimacin de hipertensin es 5.4% cuando se ignora toda la informacin del diseo. La estimacin del ES es 0.25, de nuevo ignorando todas las caractersticas del diseo. Si la estratificacin y el muestreo por conglomerados se consideran, el ES aumenta a 0.34. La estimacin del porcentaje de personas que sufren hipertensin se mantiene en 5.4%. La estimacin cambia cuando los pesos son aplicados. En particular, la estimacin del porcentaje que sufre de hipertensin disminuye a 3.9% (ver la columna de ms a la derecha en la tabla 1). La disminucin ocurre porque grupos con mayores tasas de hipertensin tambin son sobremuestreados en la NHANES. Por tanto, aquellos grupos tienen pesos ms pequeos que los grupos con menor incidencia, provocando que la proporcin ponderada sea substancialmente menos que la proporcin no ponderada. Considerar los pesos tiene un efecto adicional en la estimacin de los ESs.

Tabla 1: Porcentaje de hipertensin entre 8,344 adultos encuestados en NHANES III

Considerando toda la informacin del diseo (estratificacin, muestreo por conglomerados y los pesos), el ES es 0.43. La razn de 0.432 (varianza considerando la complejidad) a 0.252 (varianza para el modelo de especificacin incorrecta) se denomina el efecto de especificacin incorrecta (meff). En este caso, la varianza est incorrectamente especificada en 2.96 si todo el diseo de la encuesta y las caractersticas de estimacin son ignoradas al realizar un anlisis y cuando la muestra es considerada como si hubiera sido elegida por medio de un muestreo aleatorio simple sin reemplazo.

8

As, el ES correctamente estimado es aproximadamente 2.96 = 1.7 veces el ES estimado incorrectamente. La estimacin intermedia de 0.34, aunque es mayor que 0.25, no es una medida de error aceptable porque no considera el sesgo de la estimacin no ponderada, lo que es esencial en la NHANES. En un anlisis ms complicado que el descrito previamente, un analista puede correr una regresin de mnimos cuadrados ordinaria en una muestra de hogares por conglomerados donde los hispanos fueron seleccionados con una tasa mayor que los no hispanos. Usar mnimos cuadrados ordinarios implicara al menos dos tipos de especificaciones incorrectas. Primero, la proporcin de hispanos en la muestra sera mucho mayor que en la poblacin; ignorando los pesos no se logra corregir este desequilibrio. Segundo, los mnimos cuadrados ordinarios ignoran el muestreo por conglomerados, que tpicamente llevan a subestimar los ESs de las estimaciones de los parmetros de un modelo. Junto a meff existe una segunda medida llamada deff* (Kish 1965) usada en estadsticas de encuestas. El deff se define como la razn de la varianza considerando la complejidad del diseo sobre la varianza si un MAS se hubiera usado para seleccin la muestra. Si los pesos son los mismos para todos los elementos de la muestra, deff y meff toman valores iguales. El deff se usa para la planificacin del diseo de encuestas, particularmente si las variables necesarias para corregir los ESs no son provistas con los archivos de datos. Los efectos en los ESs normalmente se reportan como deft = deff (Kish 1965). PISA: Los efectos a veces drsticos de ignorar la informacin del diseo muestral se presentan en la figura 3, que muestra los intervalos de confianza para el promedio de los puntajes de lectura en Dinamarca comparado con EE.UU. utilizando datos del Programme for International Student Assessment (PISA) en 2000 auspiciado por la Organizacin para la Cooperacin Econmica y Desarrollo (OECD). En PISA, una muestra de escuelas y estudiantes dentro de estas escuelas fueron seleccionados para medir conocimientos en lectura, matemticas y ciencia en 32 pases. Las estimaciones entre los dos pases difieren por siete puntos con un puntaje promedio de 496.56 para Dinamarca y 503.71 para EE.UU. Un ingenuo test de diferencias de medias ignorando la informacin del diseo llevara a la falsa impresin de que existe una diferencia significativa entre los puntajes de lectura de estos dos pases [F(1,8080) = 7.75 y un valor-p de 0.0054]. En la figura 3 para Dinamarca, el tamao de los ESs no cambia mucho cuando se toma en cuenta el diseo complejo, y los intervalos de confianza slo son levemente mayores. Sin embargo, para los EE.UU., los intervalos de confianza son ampliamente subestimados cuando los ESs son calculados como si esos datos provinieran de un MAS. Cuando consideramos el diseo complejo, la diferencia entre EE.UU. y Dinamarca ya no es significativa [F(1,79) = 0.93 y un valor-p de 0.3380].

* N del T: Efecto diseo

9

Figura 3: Diferencias de los puntajes de lectura entre Dinamarca y EE.UU. Las lneas continuas indican los intervalos de confianza alrededor de las medias ponderadas pero ignorando la informacin de estratificacin y conglomerados. Las lneas discontinuas reflejan los intervalos de confianza despus de calcular los ESs correctos. 4 Estimacin de la varianza Los analistas han utilizado tres estrategias bsicas para considerar diseos complejos al estimar ESs de estadsticas descriptivas o parmetros de un modelo. La primera es simplemente multiplicar los ESs de un anlisis estndar por la estimacin (externa) de un deft. El segundo enfoque, usado al adecuar un modelo, es incluir trminos que implcitamente consideran caractersticas del diseo. La tercera estrategia es usar un software que estima directamente los ESs que se consideran para el diseo complejo. A continuacin abordamos cada una de stas. Qu mtodo usar depende del nivel de complejidad del diseo y de las variables provistas con los datos para considerar esa complejidad. Poco se puede hacer si no se entregan pesos y variables del diseo. La primera estrategia, mencionada previamente, es ejecutar un anlisis usando algn software estndar que ignore el diseo muestral y luego ajustar los ESs por medio de un deft. El anlisis inicial puede o no incorporar los pesos de la encuesta. Los defts pueden provenir tanto de valores publicados como aparecer en descripciones de los datos o documentacin o del uso de reglas de amplia aplicacin como deft = 1.4 (Kostanich and Dippo 2002). Una regla de amplia aplicacin debera basarse en encuestas que sean similares a la que se est analizando. Sin embargo, esta modalidad es usualmente muy burda porque los defts varan dependiendo de todos los factores descritos en la seccin 2 y en el anlisis particular que se est realizando. El segundo enfoque, al adecuar un modelo, es incluir trminos que implcitamente consideran caractersticas del diseo. Por ejemplo, se pueden incluir variables ficticias para estratos como variables independientes adicionales en el modelo. Este mtodo tambin es poco probable que considere adecuadamente las caractersticas del diseo. Esto es especialmente cierto en muestras por conglomerado si nada se hace para considerar la correlacin entre unidades dentro de los conglomerados.

10

Las primeras dos aproximaciones se pueden utilizar cuando slo se cuenta con informacin parcial del diseo. Sin embargo, ambas son tcnicas de larga data histrica que fueron utilizadas cuando la capacidad de los software y computadores limitaban la capacidad del analista para calcular ESs correctos. El tercer y mejor enfoque es usar paquetes de software que permiten la estimacin de ESs con mtodos que consideran los diseos complejos. Los dos mtodos generales de hacer esto son la linearizacin y la replicacin. La estimacin de ESs para los datos de encuestas requiere que informacin sobre el diseo de la encuesta sea parte de las bases de datos. La informacin sobre estratificacin y muestreo por conglomerados es provista de dos maneras en las bases de datos. Los datos deben contener variables que indiquen los estratos diseados y los conglomerados diseados o debe contener un conjunto de pesos de replicacin. Si las variables del diseo (estratos y conglomerados) estn disponibles, se pueden usar frmulas exactas o linearizacin (tambin conocida como series de Taylor). Frmulas exactas se pueden utilizar para estimadores simples, como totales, de diseos bsicos como MAS estratificado. Las frmulas exactas son casos especiales de los ms generales estimadores de linearizacin. La linearizacin se necesita para estimadores ms complejos, incluso cuando el diseo mismo es simple. Si los pesos de replicacin son provistos en los datos, alguna forma de mtodo de replicacin se usar para estimar los ESs correctos. De forma similar a la linearizacin, la replicacin se puede utilizar para estimadores complicados incluso si el diseo es simple.1 Las bases de datos de encuestas se pueden configurar para usar tanto la linearizacin como la replicacin, y Stata trabaja con ambas. Stata tambin permite crear pesos de replicacin usando variables del diseo. En las secciones 4.1 y 4.2, esquematizamos brevemente los mecanismos detrs de estas dos tcnicas. El resto de esta seccin tambin listar algunas de las ventajas y desventajas relativas de los mtodos de linearizacin y replicacin, y resume alguna de las razones por las que los usuarios querran que ambas opciones estn disponibles. Un resumen de pros (+) y contras () se muestra en la tabla 2. Ambas modalidades son buenas para la mayora de los puntos, y la informacin provista con la base de datos usualmente determina la eleccin.

1 Las complicaciones al estimar varianzas derivan del hecho de que los estimadores usualmente son no lineares. El ser no linear no es nico de las encuestas, y las opciones de estimar varianzas para estimadores no lineares son las mismas que para el resto de las estadsticas. Con los datos de encuestas incluso estadsticas simples como una media puede ser no linear, dado que las medias son estimadas como una suma ponderada de datos dividida por una suma de pesos. Dado que el denominador de este tipo de razn de medias es aleatorio en muchos diseos muestrales, la media misma es una razn de valores aleatorios y por lo tanto no lineares. Los ajustes por no respuesta y la postestratificacin, mencionadas previamente, tambin llevan a estimaciones no lineales.

11

Tabla 2: Comparando la estimacin de varianza a travs de linearizacin de Taylor y de replicacin

4.1 Linearizacin La linearizacin, tambin conocida como series de Taylor o mtodo delta, involucra hacer una aproximacin linear a la estadstica no linear que se est analizando. Una frmula de varianza, apropiada al diseo muestral, luego se aplica a esa aproximacin. Stata y otros software estadsticos han programado las aproximaciones para muchas estadsticas y requieren que el usuario slo especifique el anlisis y cierta informacin sobre el diseo muestral. La teora que justifica este mtodo exige que sean seleccionadas muchas unidades de primera etapa, e.g., UPMs (Krewski and Rao 1981). De este modo, diseos con un nmero limitado de estratos y muchas UPMs por estrato o pocas UPMs por estrato pero muchos estratos, ambos califican. Posiblemente la formulacin ms general de los estimadores de linearizacin para encuestas complejas es el de Binder (1983). El estimador de Huber que aborda Binder (1983) es implementado en los procedimientos de encuestas en Stata (StataCopr 2005, 264). Como todos los mtodos, la linearizacin tiene ventajas y desventajas. Algunas con inherentes al mtodo, mientras otras tienen que ver con la implementacin. La linearizacin aplica a muchas de las estadsticas que son calculadas de las muestras de encuestas como razones, parmetros de estimaciones de regresin, y combinaciones especializadas que los usuarios pueden construir. El mtodo no se aplica directamente para estimar la varianza de cuantiles, como medianas, pero ha sido adaptado por Francisco y Fuller (1991); sin embargo, su mtodo todava no est disponible en Stata. Un paquete debe tener un estimador de linearizacin separado programado para cada tipo de estimacin (e.g., media, total, parmetro de regresin). Este requerimiento limita a la mayora de los usuarios a los ESs slo para las estadsticas que estn preprogramadas. En principio, se puede aplicar cualquier frmula de varianza apropiadas, sin importar cun complicada, a la aproximacin linear para una estadstica no linear. Por

12

ejemplo, una muestra en dos etapas con UPMs seleccionadas con diversas probabilidades y unidades de segunda etapa seleccionadas a travs de un MAS tendr un estimador de varianza particular (para estimaciones lineares) que involucra probabilidades de inclusin de primer y segundo orden para las UPMs (Srndal, Swensson, and Wretman 1992). Stata 9 permite especificar varias estapas de muestreo y algunos casos especiales de frmulas de varianza para diseos multietpicos como esos. En la estimacin de varianza, usualmente se utilizan frmulas para muestras de UPMs con reemplazo, incluso cuando las UPMs se han seleccionado sin reemplazo.2 En muestreos con reemplazo, se pueden usar una frmula simple de varianza que involucre slo totales ponderados de UPMs. Al usar esta frmula, slo se tiene que especificar la UPM en Stata y no otras posteriores etapas del muestreo (para los procedimientos de anlisis de encuestas, ver las preguntas frecuentes [FAQs] de Stata en http://www.stata.com/support/faqs/stat/#survey). Al usar frmulas de varianza con reemplazo para un diseo sin reemplazo normalmente lleva a algn grado de sobreestimacin. Para contrarrestar este efecto, a veces se inserta un factor finito de correccin de poblacin (fpc, por sus siglas en ingls). Stata 9 permite especificaciones de fcp en cada etapa de muestreo. En rigor, estos fcp son apropiados slo para etapas donde las unidades son seleccionadas a travs de un MAS sin reemplazo, pero de todas formas ayudarn a reducir el grado de sobreestimacin. Las variables que definen los estratos y las UPMs deben ser incluidos en un archivo de datos de modo que los usuarios puedan calcular apropiadamente estimaciones de linearizacin de varianza. Para proteger la confidencialidad, los identificadores actuales de estratos y UPMs pueden ser enmascarados o si no ocultados. Este mtodo se ha utilizado en la base de datos de uso pblico de NHANES de 1999-2000 y 2001-2002 (http://www.cdc.gov/nchs/nhanes.htm) y para los archivos de datos de la National Health Interview Surveys (NHIS) usada en la seccin 3.4. Otra manera de proteger la confidencialidad es el uso de pesos de replicacin en vez de revelar informacin de los estratos y UPMs. En ese caso, es necesario un mtodo diferente de estimacin de varianza, el cual describiremos en la seccin siguiente. 4.2 Mtodo de replicacin Para un estimador de replicacin de varianza, la muestra se divide en submuestras. La estimacin deseada se calcula para cada submuestra, y la varianza se calcula entre las estimaciones de la submuestra. Cmo se forman las submuestras depende del tipo de varianza de replicacin, y puede ser traslapado o discontinuo. Grupos aleatorios, jackknife, replicacin repetida balanceada (BRR, por sus siglas en ingls), y el bootstrap son los mtodos de replicacin utilizados en el muestreo de encuestas.3 Rust y Rao (1996) y Shao (1996) realizan una buena revisin de la teora y aplicacin de la replicacin en encuestas complejas. Del mismo modo que la linearizacin, la replicacin se aplica a estimacione lineales y a combinaciones no lineares de

2 Ese es el caso en parte porque especificar varias etapas era o no es posible en muchos paquetes y en parte porque la informacin del diseo necesaria (e.g., probabilidades de seleccin continuas de unidades diferentes en cada etapa del diseo) usualmente no son publicadas con los datos de las encuestas para anlisis secundarios. 3 BRR y jackknife son los mtodos usados ms frecuentemente en la prctica y son los que implementa Stata.

13

estimaciones lineares. Algunos tipos de replicacin tambin se pueden aplicar directamente en casos donde la linearizacin resulta difcil, como la estimacin de la varianza de un cuantil. Por razones destacadas ms adelante, el mtodo preferido de implementacin es que el generador de la base de datos calcule los pesos y anexe una serie de pesos de replicacin para cada registro en el archivo. Luego, el usuario especifica en el software el mtodo de replicacin (e.g., jackknife, BRR) y los nombres de los campos que contienen los pesos de replicacin. Este mtodo de creacin de los pesos puede ayudar a la proteccin de la confidencialidad dado que los cdigos de estratos y UPM no necesariamente tienen que ser incluidos en el archivo de datos. El generador de la base de datos tambin puede repetir los ajustes por no respuesta, postestratificacin, u otro paso de ajuste de los pesos de forma separada para cada replicacin. Generalmente, ajustar cada replicacin de forma separada es necesario para producir estimaciones de varianza consistentes cuando se usan mltiples pasos de ponderacin (Yung and Rao 1996; Valliant 1993). Cada ajuste de pesos, e.g., no respuesta y postestratificacin, afecta las varianzas de las estimaciones. Repetir los ajustes de pesos para cada replicacin captura apropiadamente su impacto en la varianza. Esta repeticin es una ventaja sobre la mayora de las implementaciones de la linearizacin que tiende a considerar a lo ms un tipo de ajuste de pesos, como la postestratificacin. Menos deseable (usualmente) es que el usuario genere los pesos de replicacin. Esta modalidad requiere del conocimiento de los identificadores de los estratos y UPMs, y un usuario generalmente no tendr la informacin detallada que se necesita para repetir todos los pasos en el clculo de los pesos de forma separada para cada replicacin. En Stata, por ejemplo, una opcin es dejar que el software divida la muestra en replicaciones jackknife y utilice los subconjuntos resultantes para calcular varianzas. Slo los ajustes bsicos de pesos de replicacin son hechos con esta modalidad, que no incluye ajustes por no respuesta u otro uso de datos auxiliares. Por consiguiente, ni el aumento de la varianza debido al ajuste por no respuesta ni ningn beneficio de la postestratificacin u otro uso de datos auxiliares en la construccin de los pesos es reflejado. Otra ventaja de la replicacin es que no se necesita ninguna derivacin analtica para obtener una aproximacin linear a una estadstica. El software puede simplemente repetir el clculo para una estadstica para cada replicacin y luego combinarlas usando la frmula de varianza apropiada para el mtodo de replicacin. Este procedimiento se puede usar con cualquier comando de estimacin de Stata que permita pesos de encuestas. Por ejemplo, una regresin logstica de la cobertura de un seguro (NOTCOV) en edad y raza (RACEERPI2) realizada utilizando los datos de la NHIS puede ser ejecutada con svy jackknife: logistic NOTCOV AGE RACEERPI2. Esta tcnica es especialmente prctica para los archivos ado escritos por el usuario y hace que la replicacin sea ms fcil de aplicar que la linearizacin para usuarios sofisticados. Una desventaja de la replicacin es que puede ser intensiva desde un punto de vista computacional. Para estimaciones simples, como medias o totales, este es un tema menor, pero para procedimientos iterativos como regresiones logsticas, el tiempo de clculo puede ser inconvenientemente largo. Otra desventaja es que el tamao de los archivos puede ser grande si hay cientos de pesos de replicacin anexados a cada registro. El tiempo de clculo y el tamao de los archivos, por supuesto, estn dejando de ser un tema problemtico por los continuos avances en el hardware, pero todava es una preocupacin para muchos analistas. Para reducir el tiempo de clculo y el tamao de los

14

archivos, los generadores de las bases de datos usualmente combinan estratos y/o UPMs para limitar el nmero de replicaciones (Rust and Kalton 1987). Este mtodo resulta en menores grados de libertad para las estimaciones de varianza. Los generadores de bases de datos usualmente van a tratar de minimizar la prdida de grados de libertad que esto implica. 5 Aplicaciones en Sata* 6 Resumen Este artculo examina elementos clave para el anlisis de datos de encuestas complejas. Es importante tomar en cuenta los pesos de una encuesta as como la informacin sobre estratificacin y muestreo por conglomerados. Omitindolos se corre el riesgo de generar estimaciones sesgadas y ESs errneos. Los pesos son necesarios cuando se estiman totales de la poblacin para expandir los datos de la muestra al tamao de la poblacin completa. Sin embargo, las estimaciones de medias y proporciones tambin pueden estar sesgadas si no se utilizan los pesos, como se demostr en el ejemplo que estimaba la proporcin de hipertensos de los datos de la NHANES. Cuando los datos son recolectados utilizando un diseo por conglomerados, los ESs normalmente son ms grandes que aquellos de una muestra no por conglomerados. Ignorar el muestreo por conglomerados en un caso as puede llevar a estimar ESs muy pequeos, intervalos de confianza muy estrechos, y pruebas de hiptesis con tasas de error tipo I infladas. La implementacin actual de los procedimientos de encuestas en Stata es sencillo, por lo que gracias a StataCorp, obtener las estimaciones correctas es ms fcil que nunca. Stata, SUDAAN, y R actualmente son los nicos paquetes de software estadstico importantes que permiten el uso flexible de pesos de replicacin o la linearizacin de Taylor para estimar ESs de los datos de encuestas. Los usuarios de los datos de encuestas debieran familiarizarse con ambos, dado que ambos pueden ser necesarios al analizar archivos de datos disponibles pblicamente. 7 Referencias Adams, R., and M. Wu. 2002. PISA 2000 technical report. Technical report, OECD, Paris.

http://www.pisa.oecd.org/dataoecd/53/19/33688233.pdf. Binder, D. A. 1983. On the variances of asymptotically normal estimators from complex

surveys. International Statistical Review 51: 279292. Francisco, C., and W. Fuller. 1991. Quantile estimation with a complex survey design.

Annals of Statistics 19: 454469. Groves, R. 1989. Survey Errors and Survey Costs. New York: Wiley. Groves, R. M., F. J. Fowler, M. P. Couper, J. M. Lepkowski, E. Singer, and R.

Tourangeau. 2004. Survey Methodology. Hoboken, NJ: Wiley. * N del T: Seccin omitida en la traduccin.

15

Judkins, D. R. 1990. Fays method for variance estimation. Journal of Official Statistics 6:

223239. Kish, L. 1965. Survey Sampling. New York: Wiley. Kostanich, D., and C. Dippo. 2002. Current population survey: Design and methodology.

Technical Report 63RV, Department of Commerce, Washington, DC. Krewski, D., and J. Rao. 1981. Inference from stratified samples: Properties of the

linearization, jackknife, and balanced repeated replication methods. Annals of Statistics 9: 10101019.

Little, R. J. A., and D. B. Rubin. 2002. Statistical Analysis with Missing Data. 2nd ed. New

York: Wiley. Rust, K., and G. Kalton. 1987. Strategies for collapsing strata for variance estimation.

Journal of Official Statistics 3: 6981. Rust, K., and J. Rao. 1996. Variance estimation for complex surveys using replication.

Statistical Methods in Medical Research 5: 283310. Srndal, C.-E., B. Swensson, and J. Wretman. 1992. Model Assisted Survey Sampling.

New York: Wiley. Schnell, R., and F. Kreuter. 2000. Das DEFECT-Projekt: Sampling-Errors und

Nonsampling-Errors in Komplexen Bevlkerungsstichproben. ZUMA-Nachrichten 47: 89101.

. 2005. Separating interviewer and sampling-point effects. Journal of Official

Statistics 21: 123. Shao, J. 1996. Resampling methods in sample surveys (with discussion). Statistics 27:

203254. StataCorp. 2005. Stata 9 Survey Data Reference Manual. College Station, TX: Stata

Press. Valliant, R. 1993. Post-stratification and conditional variance estimation. Journal of the

American Statistical Association 88: 8996. Yung, W., and J. Rao. 1996. Jackknife linearization variance estimators under stratified

multi-stage sampling. Survey Methodology 22: 2331.

Kreuter Valliant 2007

Documents