Proyecto Fin de M´ aster en T´ ecnicas Estad´ ısticas Estimaci´ on en ´areas peque˜ nas: el ingreso medio mensual por comarca en los hogares gallegos Autor: Roberto Dom´ ınguez G´ omez Directores: Mar´ ıa Jos´ e Lombard´ ıa Corti˜ na Wenceslao Gonz´ alez Manteiga Fecha: Junio 2009
44
Embed
Proyecto Fin de M aster en T ecnicas Estad sticas - USCeio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto_409.pdf · Os Ancares, Terra de Lemos, Chantada, Quiroga y Sarria.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Proyecto Fin de Master enTecnicas Estadısticas
Estimacion en areas pequenas:el ingreso medio mensual por comarca
en los hogares gallegos
Autor: Roberto Domınguez Gomez
Directores: Marıa Jose Lombardıa CortinaWenceslao Gonzalez Manteiga
Fecha: Junio 2009
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
1
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
2
1 Introduccion
El Instituto Galego de Estatıstica (IGE), consciente de la creciente demanda deestadısticas de calidad cada vez mas desagregadas, incluyo en el programa anualdel ano 2007 una actividad estadıstica titulada ”Investigacion y desarrollo demetodos de estimacion de areas pequenas” que tiene como objetivo mejorar laspredicciones o estimaciones de variables y parametros de interes en las encuestasrealizadas por el IGE, considerando un nivel de desagregacion mayor de aquelpara el que se diseno la encuesta. Para llevar a cabo esta actividad estadısticael IGE firmo un convenio de colaboracion con el Departamento de Estadıstica eInvestigacion Operativa de la Universidad de Santiago de Compostela. El trabajoque aquı se presenta se realizo en el marco de este convenio y hace referencia ala Encuesta de condiciones de vida de las familias, encuesta llevada a cabo por elIGE desde el ano 1999. El estudio se centrara en la estimacion a nivel de comarcasdel ingreso medio mensual y el ingreso equivalente por hogar.
Debido a la novedad y complejidad metodologica que suponen este tipo de tra-bajos, este documento tiene como objetivo fundamental describir de forma por-menorizada los estimadores y modelos utilizados, tanto para los valores totalescomo para los errores cuadraticos medios.
Teniendo en cuenta que el IGE quiere seguir investigando en la metodologıa uti-lizada en este trabajo es necesario destacar que los datos estadısticos presentadosen este documento tienen el caracter de datos experimentales y por lo tanto no sepueden considerar como estadıstica oficial.
El ingreso medio mensual por hogar es un indicador de la situacion socioeconomicay por lo tanto es de principal interes para la sociedad en general, y en particularpara la administracion local y regional que necesitan la informacion para diferentesprogramas economicos y sociales. La efectividad de estos programas depende delconocimiento de la situacion socioeconomica a traves de informacion estadısticafiable. En consecuencia, hoy en dıa los estudios y las investigaciones a nivel re-gional y local son de gran interes.
El problema surge cuando a partir de una encuesta se quiere ofrecer datos conun nivel de desagregacion inferior a provincia o agrupacion comarcal. En parti-cular, el IGE realiza encuestas para dar estimaciones directas para las provinciaso agrupaciones comarcales pero no es habitual ofrecer datos con un nivel de des-agregacion inferior, debido a que las encuestas no estan disenadas para dar esti-maciones directas para este nivel de desagregacion. Un area es considerada comoarea pequena cuando la muestra en el area no es suficientemente grande para con-seguir estimaciones directas fiables. Ejemplos de areas pequenas pueden ser areasgeograficas (estados, provincias, municipios, comarcas, distritos escolares), grupossocio-demograficos (grupos especıficos por edad-sexo-raza) y otras subpoblacionescomo un conjunto de firmas de empresas.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
3
Un modo de afrontar el problema en areas pequenas es aumentar el tamano mues-tral. Sin embargo, un aumento de tamano de muestra lleva, entre otras cosas, a unaumento en el coste del estudio, una mayor carga de respuesta a los informantesy mayores errores ajenos al muestreo, lo que, en general, se trata de evitar. Otraalternativa es utilizar tecnicas mas complejas, asistidas y basadas en modelos. Lasestimaciones basadas en el modelo estan siendo de gran interes en los ultimos anospor sus buenos resultados. Una propiedad importante de estos estimadores es subajo error cuadratico medio (MSE) comparado con los estimadores directos. No-tamos que es importante que el modelo este bien especificado y que las variablesauxiliares contengan informacion relevante. La inclusion de efectos aleatorios dearea en el modelo es comun en la estimacion para areas pequenas. Estos efectosrecogen la variacion en las areas que no esta explicada por las variables auxiliares.
En general se dispone de la informacion auxiliar a traves del censo u otras fuentesadministrativas. Si se cuenta con informacion auxiliar relevante para cada unidadde la poblacion, entonces los modelos se pueden definir a nivel de individuo. Sinembargo, existen casos donde la informacion a nivel de individuo no esta actuali-zada u otros donde no se dispone de informacion a nivel de individuo por razonesde privacidad. Normalmente en estos casos es posible conseguir datos agregadospor area, lo que nos llevarıa a un modelo de area.
El objetivo en este trabajo es la estimacion del ingreso medio mensual por hogaren las 53 comarcas de Galicia. En este caso las areas pequenas son las comarcas,pues existen algunas con muy poca informacion muestral, en particular se cuentacon 5 comarcas con un tamano muestral de solo 16 hogares. Para compensar lafalta de informacion muestral se necesita informacion auxiliar de alguna fuenteexterna, en este caso se va a utilizar informacion relacionada con el impuesto so-bre la renta de las personas fısicas (IRPF) a nivel comarcal.
El documento esta organizado de la siguiente forma. En la seccion 2 se describela metodologıa de la Encuesta de condiciones de vida de las familias, se mues-tran resultados de un estudio descriptivo previo y se presentan los estimadoresdel ingreso medio mensual y de su error cuadratico medio. En la seccion 3 sepresenta el estudio de simulacion para evaluar los estimadores propuestos en laseccion anterior y en la seccion 4, se describe la aplicacion de los estimadores alcaso real. Finalmente, se presentan algunas conclusiones del estudio.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
4
2 Analisis descriptivo
El objetivo del estudio es la estimacion del ingreso medio mensual por hogary el ingreso equivalente mensual por hogar en las 53 comarcas de Galicia,aplicando tecnicas de estimacion en areas pequenas. Hay que tener en cuenta lassiguientes definiciones:
• Hogar: persona o conjunto de personas que ocupan en comun una viviendaprincipal o parte de ella, y que consumen y/o comparten alimentos o bienescon cargo a un mismo presupuesto.
• Ingreso medio mensual del hogar: la media mensual de los ingresosnetos monetarios de todos los miembros del hogar en el ano anterior al dela encuesta.
• Ingreso equivalente mensual del hogar: el ingreso medio mensual delhogar dividido por la raız cuadrada del numero de miembros del hogar.
A continuacion se explica el diseno muestral empleado, seguidamente se definenlos estimadores apropiados para el estudio y finalmente se da una estimacion delerror cuadratico medio (MSE) de estos estimadores dentro de las comarcas.
2.1 Diseno muestral
La muestra disponible proviene de la Encuesta de Condiciones de Vida delas familias (ECV) del ano 2005. La ECV es una operacion estadıstica anual querealiza el IGE desde 1999. Se trata de una encuesta dirigida a los hogares gallegoscon el objetivo de obtener informacion sobre sus caracterısticas socioeconomicas.
Algunos aspectos tecnicos del trabajo:
• Areas geograficas:Las provincias gallegas estan divididas en las siguientes areas geograficas:
Provincia de A Coruna
– A Coruna oriental: representada por las comarcas de Arzua, Betan-zos, Eume, Melide, Ordes y Ortegal.
– A Coruna occidental: representada por las comarcas de A Barcala,A Barbanza, Bergantinos, Terra de Soneira, Muros, Fisterra, O Sar,Noia y Xallas.
– Comarca de Santiago.
– Comarca de A Coruna.
– Comarca de Ferrol.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
5
Provincia de Lugo
– Lugo sur: representada por las comarcas de A Ulloa, A Fonsagrada,Os Ancares, Terra de Lemos, Chantada, Quiroga y Sarria.
– Comarca de Lugo.
– Lugo norte: representada por las comarcas de Terra Cha, A MarinaCentral, A Marina Oriental, A Marina Occidental y Meira.
Provincia de Ourense
– Ourense occidental: representada por las comarcas de Allariz eMaceda, A Baixa Limia, Terra de Caldelas, O Carballino, Terra deCelanova y O Ribeiro.
– Comarca de Ourense.
– Ourense oriental: representada por las comarcas de Terra de Trives,Valdeorras, Verın, Viana y A Limia.
Provincia de Pontevedra
– Pontevedra occidental: representada por las de comarcas O Morra-zo, O Baixo Mino, Caldas y O Salnes.
– Pontevedra oriental: representada por las comarcas de Tabeiros-Terra de Montes, O Condado, Deza y A Paradanta.
– Comarca de Pontevedra.
– Comarca de Vigo.
• Estratos:Cada area geografica esta dividida en estratos de acuerdo con la siguienteclasificacion:
– Estrato 0: ayuntamientos autorrepresentados.
– Estrato 1: ayuntamientos de mas de 20.000 habitantes.
– Estrato 2: ayuntamientos de 15.000 a 20.000 habitantes.
– Estrato 3: ayuntamientos de 10.000 a 15.000 habitantes.
– Estrato 4: ayuntamientos de 5.000 a 10.000 habitantes.
– Estrato 5: ayuntamientos de menos de 5.000 habitantes.
En algunas areas geograficas es necesario unir estratos para evitar la exis-tencia de estratos con poca representatividad. Los ayuntamientos autorre-presentados son A Coruna, Ferrol, Santiago, Lugo, Ourense, Pontevedra yVigo. Estos ayuntamientos son autorrepresentados pues dada su categorıadentro de la provincia deben tener siempre secciones en la muestra.
• Seccion censal:Subdivision de los terminos municipales empleada, habitualmente, para aque-llos trabajos para los que es necesaria una division inframunicipal.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
6
• Tipo de muestreo:Dentro de cada area geografica, definidas anteriormente, el muestreo esbietapico con estratificacion previa de las unidades de primera etapa. Lasunidades de primera etapa son las secciones censales y las unidades de se-gunda etapa son los hogares.
– 1a etapa: dentro de cada estrato, definidos anteriormente, las seccionesmuestrales se seleccionan con probabilidad proporcional a su tamano.
– 2a etapa: en cada una de estas secciones muestrales, los hogares seseleccionan mediante muestreo sistematico con arranque aleatorio.
• Tamano de muestra:La muestra resultante consta de 394 secciones censales repartidas por lasprovincias de la siguiente forma:
– A Coruna: 162 secciones
– Lugo: 56 secciones
– Ourense: 52 secciones
– Pontevedra: 124 secciones
En cada seccion muestral se seleccionan 16 hogares, lo que resulta en unamuestra total de 6304 hogares. Dentro de cada hogar seleccionado se entre-vista a todos sus miembros.
Mas detalles sobre la metodologıa empleada en la encuesta y diseno muestral estandisponibles en:
En la ECV fueron entrevistadas 18669 personas pertenecientes a 6304 hogares.Despues de explorar las variables en la base de datos, las variables de interes parael estudio son:
• cod comarca: codigo de la comarca.
• nome comarca: nombre de la comarca.
• estrato: codigo del estrato.
• ftotPersoa: ingreso total mensual por persona.
• frep: factor de elevacion calibrado del hogar al que pertenece la persona.
Todas las demas variables incluidas en la base de datos son variables de caracterpersonal, por ejemplo grupo de edad, sexo y nivel de estudios. No es posibleagregar estas variables adecuadamente para los hogares, que es precisamente loque nos interesa.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
7
Se agregan adecuadamente los datos de la encuesta para los 6304 hogares y depaso se construyen nuevas variables:
• ftotPersoa hogar: ingreso total mensual por hogar.
• pers hogar: numero de personas por hogar.
• ftot equiv hogar: ingreso equivalente mensual por hogar:
ftot equiv hogarj =ftotPersoa hogarj√
pers hogarj, j = 1, . . . , 6304
• w: factor de elevacion teorico del hogar:
wj =Mh
mh1j∈h, j = 1, . . . , 6304, h = 1, . . . , 39
siendo Mh y mh respectivamente el total poblacional y el total muestral depersonas por estrato h.
Nuestro objetivo es dar una estimacion para el ingreso medio mensual por hogarpara la comarca d:
Y 1d =
∑Nd
j=1 ftotPersoa hogarj
Nd, d = 1 . . . 53,
y el ingreso equivalente mensual por hogar para la comarca d:
Y 2d =
∑Nd
j=1 ftot equiv hogarj
Nd, d = 1 . . . 53,
siendo Nd el total poblacional de hogares para la comarca d.
Para dar algun resultado para las comarcas se agregan los datos adecuadamentepor comarca. En la siguiente Tabla 2.1 se muestran los datos resultantes.
codigo nombre comarca ingreso medio ingreso equiv. nd
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
8
codigo nombre comarca ingreso medio ingreso equiv. nd
1515 O Sar 1325.31 729.36 321516 Terra de Melide 1065.80 631.86 161517 Terra de Soneira 1638.89 855.22 481518 Xallas 1638.56 808.30 482701 Os Ancares 1856.24 1038.65 322702 Chantada 1630.42 892.96 482703 A Fonsagrada 0 0 02704 Lugo 1839.48 1082.14 2562705 A Marina Central 1688.65 990.35 802706 A Marina Occidental 1564.72 865.37 802707 A Marina Oriental 1655.04 953.01 482708 Meira 1546.56 899.13 322709 Quiroga 1144.13 792.20 162710 Sarria 1601.95 839.74 482711 Terra Cha 1514.68 868.78 1122712 Terra de Lemos 1204.23 780.74 962713 A Ulloa 1322.67 735.30 483201 Allariz-Maceda 1662.74 1088.04 163202 Baixa Limia 999.84 675.01 643203 O Carballino 1367.73 828.90 483204 A Limia 1113.60 700.74 1123205 Ourense 1631.29 963.91 3523206 O Ribeiro 1257.10 785.95 323207 Terra de Caldelas 1068.83 702.01 323208 Terra de Celanova 1126.11 693.77 483209 Terra de Trives 0 0 03210 Valdeorras 1237.55 787.07 483211 Verın 1252.45 783.95 643212 Viana 1468.25 869.74 163601 O Baixo Mino 1384.16 777.34 803602 Caldas 1585.64 891.13 803603 O Condado 1360.79 786.71 803604 Deza 1558.39 881.08 1283605 O Morrazo 1562.97 879.70 1603606 A Paradanta 1124.23 685.46 323607 Pontevedra 1868.91 1059.16 2563608 O Salnes 1683.66 936.27 2243609 Tabeiros-Terra de Montes 1510.35 859.51 803610 Vigo 1784.64 1038.91 864
Tabla 2.1: Informacion muestral por comarca
En la Tabla 2.1 estan definidas las siguientes variables:
• ingreso medio: la media muestral comarcal de los ingresos totales mensu-ales por hogar, es decir
ingreso mediod =
∑j∈sd
ftotPersoa hogarj
nd
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
9
• ingreso equiv.: la media muestral comarcal de los ingresos equivalentesmensuales por hogar, es decir
ingreso equivd =
∑j∈sd
ftot equiv hogarj
nd
• nd: el tamano muestral de hogares por comarca,
nd =∑j∈sd
pers hogarj
A continuacion se muestra el tamano de la muestra de hogares por comarcas:
Figura 2.1: Tamano muestral.
Se observa en la Figura 2.1 que no se cuenta con informacion muestral disponibleen las comarcas de A Fonsagrada y Terra de Trives. Por lo tanto el estudio secentra en las 51 comarcas restantes.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
10
Se observa tambien que se cuenta con poca representatividad muestral (≤ 48)para las comarcas pintadas de color blanco. Precisamente es en estas comarcasdonde el estudio sera de interes. Las comarcas con mayor tamano muestral sonlas de Vigo y A Coruna con una muestra de 864 y 736 hogares, respectivamente.
2.3 Informacion auxiliar
Cada ano la Agencia Estatal de la Administracion Tributaria (AEAT) recoge lasrentas anuales declaradas por sus contribuyentes y las proporciona a nivel muni-cipal, por razones de privacidad, al IGE. Esta informacion sera la utilizada comoinformacion relacionada con las variables a estudiar en este trabajo.
Se trabaja con las siguientes variables auxiliares, ya agregadas por comarca:
• No decla.: numero de declarantes de la renta por comarca.
• Renta imponible: total de renta declarada por comarca.
• Porcent. trabajo: porcentaje de la renta declarada procedente de trabajo.
• Porc. activ. econo. direc.: porcentaje de la renta declarada procedentede actividades empresariales.
• Porc. activ. econo. objetiva.: porcentaje de la renta declarada proce-dente de actividades profesionales.
• Porc. otros: porcentaje de la renta declarada procedente de otras activi-dades.
• Poblacion: numero de habitantes por comarca.
• Remun asalar: remuneracion de asalariados por comarca.
• Prestacion social: prestaciones sociales por comarca.
• Renda dispo bruta: dinero del que disponen los individuos en cada co-marca para gastar a lo largo del ano.
De las 10 variables se calculan las siguiente 8 variables auxiliares que representanmedias comarcales:
• Rendi medio: renta media anual declarada por individuo
Rendi medio =Renta imponible
No decla
• Rendi medio trabajo: renta media anual procedente de trabajo
Rendi medio trabajo =Renta imponible x Porc. trabajo
No decla
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
11
• Rendi medio empres: renta media anual procedente de actividades em-presariales
Rendi medio empres =Renta imponible x Porc. empresa
No decla
• Rendi medio prof: renta media anual procedente de actividades profe-sionales
Rendi medio prof =Renta imponible x Porc. prof
No decla
• Rendi medio otras: renta media anual procedente de otras actividades
Rendi medio otras =Renta imponible x Porc. otras
No decla
• RBFD media: media de dinero del que dispone el individuo para gastar alo largo del ano
RBFD media =Renda dispo bruta
Poblacion
• Remun asalar media: media de la remuneracion de asalariados
Remun asalar media =Remun asalar
Poblacion
• Prest social media: media de las prestaciones sociales
Prest social media =Prestacion social
Poblacion
En la siguiente seccion se lleva a cabo un estudio de correlacion para quedarsesolo con las variables auxiliares mas informativas.
2.4 Correlacion
Hay 10 variables de interes, las 2 variables objetivas y las 8 variables auxiliares dela seccion anterior. Se estudia si existe alguna correlacion entre ellas (Tabla 2.2).
ingreso medio ingreso equivRendi medio 0,611 0,670Rendi medio trabajo 0,542 0,636Rendi medio empres 0,271 0,119Rendi medio prof -0,145 -0,335Rendi medio otras 0,352 0,429RFBD media 0,615 0,698Remun asalar media 0,657 0,691Prest social media -0,261 0,009
Tabla 2.2: Correlacion entre las variables
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
12
Se observa, en la Tabla 2.2, que las variables auxiliares que mas correlacion tienencon nuestras variables objetivas son:
• Rendi medio
• Rendi medio trabajo
• RFBD media
• Remun asalar media
De estas 4 variables auxiliares se escoge el rendimiento medio declarado comounica variable auxiliar de interes en el estudio. Se tomo esta decision pues estavariable proviene de una fuente con informacion mas actualizada y fiable que lasdemas.
2.5 Normalidad
Existen estimadores en el estudio que requieren la condicion de normalidad paralas variables objetivas, por tanto es necesario estudiar esta caracterıstica.
estadıstico gl nivel significacioningreso medio 0,140 51 0,014ingreso equiv 0,085 51 0,200*
Tabla 2.3: Test de normalidad
Nota*: 0, 200 es el valor maximo que nos proporciona SPSS del p-valor del es-tadıstico de contraste, el p-valor verdadero es mas alto.
En la Tabla 2.3 se muestran los resultados del test de normalidad de Kolmogorov-Smirnov. Segun estos valores podemos aceptar que existe normalidad bajo unnivel de significacion de 0, 01.
A continuacion se grafican los histogramas y los graficos Q-Q normales para las 2variables.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
13
ftotPersoa_hogar_mean
1800,001600,001400,001200,001000,00
Fre
cuen
cia
10
8
6
4
2
0
Histograma
Media =1480,02
Desviación típica =237,253N =51
Page 1
(a) ingreso medio
ftot_equiv_hogar_mean
1100,001000,00900,00800,00700,00600,00
Fre
cuen
cia
12,5
10,0
7,5
5,0
2,5
0,0
Histograma
Media =858,08
Desviación típica =117,536N =51
Page 1
(b) ingreso equivalente
Figura 2.2: Histogramas variables objetivas
Valor observado
2.0001.8001.6001.4001.2001.000800
No
rmal
esp
erad
o
3
2
1
0
-1
-2
-3
Gráfico Q-Q normal de ftotPersoa_hogar_mean
Page 1
(a) ingreso medio
Valor observado
1.2001.1001.000900800700600
No
rmal
esp
erad
o
3
2
1
0
-1
-2
-3
Gráfico Q-Q normal de ftot_equiv_hogar_mean
Page 1
(b) ingreso equivalente
Figura 2.3: Graficas Q-Q normal variables objetivas
En la Figura 2.3 se nota mas el ajuste a una normal que en la Figura 2.2. Porejemplo, se ve que hay mas razones para favorecer la distribucion de la Figura 2.3bsobre la de la Figura 2.3a con respecto a la normalidad. En la Figura 2.2 esto nose ve tan claro.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
14
3 Metodologıa
Los estimadores se pueden clasificar basicamente en 3 grupos:
• Estimadores basados en el diseno: estimadores que solo tienen en cuentala informacion muestral.
• Estimadores asistidos por el modelo: estimadores construidos a par-tir de un modelo pero que para hacer inferencia solo tienen en cuenta lainformacion muestral.
• Estimadores basados en el modelo: estimadores que confıan totalmenteen el modelo asumido.
Dentro de esta ultima clase, los modelos pueden ser de dos tipos:
• Modelos de tipo individuo: modelos que utilizan variables auxiliares,disponibles para cada individuo en el estudio.
• Modelos de tipo area: modelos que utilizan variables auxiliares, disponiblesa nivel de area.
Las variables auxiliares en el estudio son proporcionadas a nivel municipal, portanto los estimadores basados en el modelo van a ser de tipo area.
Ademas cabe senalar que en el estudio no esta incluido ningun estimador asis-tido por el modelo, esto es debido a la imposibilidad de construccion de este tipode modelos con la informacion auxiliar disponible.
3.1 Estimadores del ingreso medio mensual
Para una muestra dada s se consideran los siguientes estimadores de la media delingreso mensual Y d para las comarcas d = 1, . . . , D.
Estimacion basada en el diseno:
• Estimador Horvitz-Thompson:
YHT
d =
∑sdωjyj∑
sdωj
, d = 1, . . . , D
donde sd es la muestra perteneciente a la comarca d, yj el ingreso mensualdel hogar j y ωj el peso muestral asignado al hogar j.
• Estimador postestratificado sintetico:
YPOST,S
d =1Md
H∑h=1
MdhYHT
h , d = 1, . . . , D
denotando por h los postestratos relevantes, Md el total poblacional de laspersonas en la comarca d y Mdh el total poblacional de las personas que
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
15
pertenecen a la interseccion de la comarca d con el estrato h. Ademas defi-
nimos YHT
h como el estimador de Horvitz-Thompson de la media mensualen el estrato h.
• Estimador compuesto:
YCOMP,P
d = γdYHT
d + (1− γd)YPOST,S
d , d = 1, . . . , D
donde γd son pesos dependientes del tamano muestral en la comarca d,definidos como:
γd =
1 si MHTd ≥ δMd
MHTd
δMden caso contrario
con MHTd la estimacion de Horvitz-Thompson del total de las personas Md
en la comarca d. Para el parametro δ se pueden tomar distintos valores,δ ∈ {1, 3/2, 2} (Eustat, 2008).
Estimacion basada en el modelo:
• Estimador Fay-Herriot:
se basa en el siguiente modelo lineal mixto (Fay and Herriot, 1979):
YHT
d = β0 +Xdβ1 + ud + εd, d = 1, . . . , D
O en forma matricial:Y
HT
= Xβ + u+ ε
con
YHT
=
Y
HT
1...
YHT
D
, X =
1 X1
......
1 XD
, β =(β0
β1
)
y
u =
u1
...uD
, ε =
ε1...εD
Este modelo asume que los efectos aleatorios de area ud son independientese identicamente distribuidos segun ud ∼ N(0, σ2
u) y los errores de muestreoεd son independientes y distribuidos segun εd ∼ N(0, σ2
d), con ud indepen-dientes de εd.
Tambien se asume que la varianza σ2u de los efectos aleatorios es desconocida
y que las varianzas σ2d de los errores muestrales son conocidas, estimandolas
a partir de la informacion muestral como:
σ2d =
s2dnd, d = 1, . . . , D
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
16
siendo s2d y nd la cuasivarianza muestral de la variable objetivo y el tamanomuestral en la comarca d, respectivamente.
Ademas, como covariable Xd se toma la renta media anual declarada porindividuo en la comarca d (datos del IRPF).
Basandose en este modelo, se define el estimador Fay-Herriot:
YEBLUP
d = β0 +Xdβ1 + ud, d = 1, . . . , D
Los parametros se estiman por maxima verosimilitud restringida (REML).Para mas detalle, vease Rao (2003, Cap.6 y 7).
Hay que senalar que las expresiones para los estimadores del ingreso equivalentemensual son identicas a las expresiones para los estimadores del ingreso mediomensual cambiando la variable yj por el ingreso equivalente mensual del hogar j.
3.2 Estimacion del MSE
Una parte muy importante en la estimacion en areas pequenas es la estimaciondel error del estimador, en particular se trabaja con el MSE. Se estudia el MSEde los estimadores propuestos anteriormente y algunas tecnicas de remuestreo quese presentan como alternativa a las expresiones analıticas del estimador del MSE.Hoy en dıa los metodos de remuestreo son importantes ya que nos pueden darestimaciones mas precisas que los metodos analıticos. Esto se ve reflejado en eluso masivo en los estudios realizados ultimamente en areas pequenas en otrosinstitutos e instancias, por ejemplo Eustat (2008). Ademas, los metodos de re-muestreo son de facil aplicacion e interpretacion gracias a los avances en el mundoinformatico.
A continuacion se muestran las expresiones del MSE de los estimadores, despuesse definen los estimadores analıticos del MSE y mas adelante nos centramos en laestimacion del error aplicando tecnicas de remuestreo.
3.2.1 MSE de los estimadores
Las expresiones de los MSE teoricos de los estimadores son las siguientes:
• Estimador Horvitz-Thompson:
MSE(YHT
d ) =1Nd
∑j∈Pd
(ωj − 1)(yj − Y d)2
donde Nd es el numero total de hogares en la poblacion Pd de la comarca d.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
17
• Estimador postestratificado sintetico:
MSE(YP,S
d ) =
(1Md
H∑h=1
Mdh(Y h − Y dh)
)2
+1M2
d
H∑h=1
M2dh
N2h
∑j∈Ph
(ωj−1)(yj−Y h)2
donde Nh es el numero total de hogares en la poblacion Ph del estrato h yY h la media poblacional del igreso en el estrato h.
• Estimador compuesto:
MSE(YCOMP,P
d ) = γ2dMSE(Y
HT
d ) + (1− γd)2MSE(YP,S
d )
+ 2γd(1− γd)E(YHT
d − Y d)(YPOST,S
d − Y d)
• Estimador Fay-Herriot:
MSE(YEBLUP
d ) = g1d(σ2u) + g2d(σ2
u) + g3d(σ2u)
donde g1d(σ2u), g2d(σ2
u) y g3d(σ2u) son expresiones que fueron estudiadas por
Prasad and Rao (1990).
3.2.2 Estimacion analıtica del MSE
Se comienza con los estimadores de los errores que proporcionan las expresionesanalıticas:
• Estimador Horvitz-Thompson:
mse(YHT
d ) =1
Nd
∑j∈sd
ωj(ωj − 1)(yj − YHT
d )2
dondeNd =
∑j∈sd
ωj
es un estimador del numero de hogares en la comarca d.
• Estimador postestratificado sintetico:
mse(YPOST,S
d ) = (YPOST,S
d −YHT
d )2+1M2
d
H∑h=1
M2dh
N2h
∑j∈sh
ωj(ωj−1)(yj−YHT
h )2
dondeNh =
∑j∈sh
ωj
es un estimador del numero de hogares en el estrato h.
• Estimador compuesto:
mse(YCOMP,P
d ) = γ2dmse(Y
HT
d ) + (1− γd)2mse(YPOST,S
d )
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
18
• Estimador Fay-Herriot:
mse(YEBLUP
d ) = g1d(σ2u) + g2d(σ2
u) + 2g3d(σ2u)
donde las funciones g1d(σ2u), g2d(σ2
u) y g3d(σ2u) estan definidas como:
• g1d(σ2u) =
σ2uσ
2d
σ2d + σ2
u
• g2d(σ2u) =
(σ2
d
σ2d + σ2
u
)2
xtd
(XtV −1X
)−1xd
donde V es una matriz diagonal y xd un vector, definidos como:
V =
σ21 + σ2
u 0. . .
0 σ2D + σ2
u
, xd =(
1Xd
)
• g3d(σ2u) =
σ4d
(σ2u + σ2
d)3
(D∑
d=1
2(σ2
u + σ2d)2
)−1
3.2.3 Estimacion bootstrap del MSE
Los metodos de remuestreo se basan en la evaluacion de los estadısticos en re-muestras o submuestras obtenidas a partir de los datos originales. En el metodobootstrap, las submuestras se obtienen mediante muestreo aleatorio simple de lamuestra original. Una ventaja del metodo bootstrap es la sencillez para dar esti-maciones del MSE, incluso para estimadores complejos.Un ejemplo es el Bootstrap Naive, tecnica que en este estudio se aplica a losestimadores Horvitz-Thompson, postestratificado sintetico y compuesto. Para elestimador Fay-Herriot se utiliza un metodo Bootstrap parametrico disenado parael modelo.
Bootstrap Naive:
1. Generacion de B muestras bootstrap:Para cada estrato h = 1, . . . ,H seleccionar una muestra aleatoria simplecon reemplazamiento de nh hogares entre los nh hogares que aparecen en lamuestra perteneciente al estrato h. A continuacion se calculan los tamanosmuestrales por comarca nd. Repetir B veces.
2. Calculo de los estimadores:
Para cada muestra generada b = 1, . . . , B calcular los estimadores Y∗(b)d igual
que en la muestra s.
3. Estimacion del error cuadratico medio (MSE):
mseB(Y d) =1
B − 1
B∑b=1
(Y∗(b)d − Y d)2
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
19
Para estimar el MSE del estimador Fay-Herriot se aplica un metodo Bootstrapparametrico (Gonzalez-Manteiga et al., 2008) disenado especialmente para estemodelo:
Bootstrap parametrico:
1. Calcular estimaciones σ2u = σ2
u(YHT
) y βE = β(σ2u, Y
HT
) de σ2u y β res-
pectivamente.
2. Generar D copias independientes de una variable W1 ∼ N(0, 1). Construirel vector u∗ = (u∗1, . . . , u
∗D)′ con los elementos u∗d = σuW1, d = 1, . . . , D.
3. Generar D copias independientes de una variable W2 ∼ N(0, 1), indepen-diente de W1. Construir el vector ε∗ = (ε∗1, . . . , ε
∗D)′ con los elementos
ε∗d = σdW2, d = 1, . . . , D.
4. Construir el modelo bootstrap:
Y∗
= XβE + u∗ + ε∗
Bajo este modelo bootstrap, se define el BLUP de µ∗ = XβE + u∗ como:
µ∗B = µ(σ2u, Y
∗) = Xβ∗B + u∗B
siendo β∗B = β(σ2u, Y
∗) y u∗B = u(σ2
u, Y∗). Ahora sea σ2∗
u = σ2u(Y
∗) el esti-
mador de σ2u obtenido de Y
∗. Usando esta informacion, se consigue el estimador
bootstrap EBLUP:
µ∗E = µ(σ2∗u , Y
∗) = Xβ∗E + u∗E
siendo β∗E = β(σ2∗u , Y
∗) y u∗E = u(σ2∗
u , Y∗).
Por ultimo,
5. Generar B vectores bootstrap Y∗(b)
, b = 1, . . . , B del modelo bootstrap
definido en el paso 4. De cada vector Y∗(b)
se calcula su media real µ∗(b)
y su estimador EBLUP µ∗(b)E . Finalmente calculamos el estimador del errorcuadratico medio para cada comarca:
mseB(µE,d) = mseB(YEBLUP
d ) =1
B − 1
B∑b=1
(µ∗(b)E,d − µ∗(b)d )2
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
20
4 Simulacion
Para evaluar el sesgo y el MSE de los estimadores se genera una poblacion ficticiaimitando la distribucion del ingreso por hogar de la poblacion gallega. Para estose ha analizado la muestra disponible y segun su distribucion se intenta reproducirlas variables de interes. Este paso es importante ya que aquı es donde se puedevalorar la calidad de cada uno de los estimadores de interes.
4.1 Generacion de la poblacion finita
El tamano poblacional N con el que se trabaja, se estima con los datos de lamuestra real s de la siguiente forma:
N =∑j∈s
frepj ≈ 943991
donde frepj es el peso calibrado en la muestra real asignado al hogar j. Deesta forma tambien se calculan los tamanos poblacionales por comarca Nd y lostamanos poblacionales por estrato Nh:
Nd =∑j∈sd
frepj Nh =∑j∈sh
frepj , d = 1, . . . , D, h = 1, . . . ,H
siendo sd y sh respectivamente la muestra real en la comarca d y la muestra realen el estrato h. Ademas D = 51 y H = 39.
Con esta informacion se crean las siguientes variables para todos los hogares dela poblacion, es decir para j = 1, . . . , N :
• Comarcaj :Numero de comarca a la que pertenece el hogar j.
• Estratoj :Numero de estrato al que pertenece el hogar j.
La siguiente variable que se genera, es:
• Ingresoj :Ingreso mensual del hogar j.
Para generar esta variable es necesario estudiar la distribucion de las variablesftot hogar (ingreso mensual del hogar) y ftot equiv hogar (ingreso equivalentemensual del hogar) en cada comarca para la muestra real.
En la siguiente Tabla 4.1 se muestran los resultados del test de normalidad deKolmogorov-Smirnov. Se intenta averiguar si la distribucion en cada comarca deambas variables se aproxima a una normal.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
Nota*: 0, 200 es el valor maximo que nos proporciona SPSS del p-valor del es-tadıstico de contraste, el p-valor verdadero es mas alto.
Segun estos valores se puede rechazar que existe normalidad para la mayorıa delas 51 comarcas (41 rechazos para el ingreso medio mensual y 46 rechazos parael ingreso equivalente mensual) con un nivel de significacion de α = 0, 05 ya quepara estas el p-valor es menor que α = 0, 05.
A continuacion se muestran los histogramas y los graficos Q-Q normales paralas 2 variables que sirven para representar graficamente su distribucion. Cabesenalar que las variables estan representadas para la muestra entera. Veamos sise ajustan a una distribucion normal.
ftot_hogar
12000,0010000,008000,006000,004000,002000,000,00
Fre
cuen
cia
1.000
800
600
400
200
0
Histograma
Media =1613,97
Desviación típica = 1117,849N =6.304
Page 1
(a) ingreso
ftot_equiv_hogar
6000,004000,002000,000,00
Fre
cuen
cia
1.200
1.000
800
600
400
200
0
Histograma
Media =936,21
Desviación típica =559,91N =6.304
Page 1
(b) ingreso equivalente
Figura 4.1: Histogramas variables objetivo
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
23
Valor observado
12.00010.0008.0006.0004.0002.0000-2.000
No
rmal
esp
erad
o10,0
7,5
5,0
2,5
0,0
-2,5
Gráfico Q-Q normal de ftotPersoa_hogar
Page 1
(a) ingreso
Valor observado
8.0006.0004.0002.0000-2.000
No
rmal
esp
erad
o
15
10
5
0
-5
Gráfico Q-Q normal de ftot_equiv_hogar
Page 1
(b) ingreso equivalente
Figura 4.2: Graficas Q-Q normal variables objetivo
Se ve claramente en las Figuras 4.1 y 4.2 que las variables no se ajustan a unanormal. Por tanto es necesario hacer una transformacion de las variables, en con-creto se aplica una transformacion de potencia.
La idea es encontrar la potencia para la cual la distribucion de la variable transfor-mada se aproxima lo maximo posible a una distribucion normal. Esto es precisa-mente lo que intenta conseguir el metodo de transformaciones Cox-Box, resultandoser una potencia optima el valor λ ≈ 0, 22.
Se muestran ahora los resultados para las variables transformadas:
Tabla 4.2: Test de normalidad para las variables transformadas
Nota*: 0, 200 es el valor maximo que nos proporciona SPSS del p-valor del es-tadıstico de contraste, el p-valor verdadero es mas alto.
Analizando la Tabla 4.2 se puede aceptar que las variables transformadas provienende una distribucion normal en practicamente todas las 51 comarcas (solo 3 rechazospara el ingreso medio mensual y 11 rechazos para el ingreso equivalente mensual),con un nivel de significacion de α = 0, 05.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
25
A continuacion se grafican los histogramas y los graficos Q-Q normales para las 2variables transformadas:
ftot_hogar_tr
8,007,006,005,004,003,002,00
Fre
cuen
cia
500
400
300
200
100
0
Histograma
Media =4,89
Desviación típica =0,73N =6.304
Page 1
(a) ingreso0,22
ftot_equiv_hogar_tr
7,006,005,004,003,002,00
Fre
cuen
cia
600
400
200
0
Histograma
Media =4,39
Desviación típica =0,539N =6.304
Page 1
(b) ingreso equivalente0,22
Figura 4.3: Histogramas variables transformadas
Valor observado
8642
No
rmal
esp
erad
o
5,0
2,5
0,0
-2,5
-5,0
Gráfico Q-Q normal de ftot_hogar_tr
Page 1
(a) ingreso0,22
Valor observado
8642
No
rmal
esp
erad
o
5,0
2,5
0,0
-2,5
-5,0
Gráfico Q-Q normal de ftot_equiv_hogar_tr
Page 1
(b) ingreso equivalente0,22
Figura 4.4: Graficas Q-Q normal variables transformadas
Las Figuras 4.3 y 4.4 nos muestran que la distribucion de las variables transfor-madas se aproximan a una distribucion normal. Vemos ademas en la Figura 4.4que los valores pequenos de las variables transformadas no se aproximan a losvalores normales esperados. Esto se debe a que para estos hogares su ingresomensual (< 100 euros) esta muy por debajo de la media global (1614 euros) y portanto se pueden considerar como valores atıpicos.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
26
Una vez analizada la normalidad de las variables, se genera una variable auxiliartemp con una distribucion normal de la siguiente manera:
tempj ∼ N(zd, s2d(z)), j ∈ Pd, d = 1, . . . , 51
donde
z =
z1
...z51
=
∑s1zj
n1...∑
s51zj
n51
=
∑s1ftot hogar0,22
j
n1...∑
s51ftot hogar0,22
j
n51
siendo nd, zd y s2d(z) respectivamente el tamano muestral real, la media muestralreal y la cuasivarianza muestral real de la variable transformada para la comarcad. Ademas definimos Pd como el conjunto de todo los hogares de la comarca d enla poblacion ficticia.
De esta forma hemos generado una variable temp con aproximadamente la mismadistribucion normal que la variable transformada ftot hogar0,22. Ahora se creala variable de interes ingreso, haciendo una transformacion de la variable auxiliartemp con potencia inversa:
ingresoj = temp(1/0,22)j = temp4,55
j , j ∈ Pd, d = 1, . . . , 51
Se ha generado la variable ingreso para todos los hogares de la poblacion de talforma que existe variabilidad entre las comarcas segun la informacion obtenida dela muestra real.
La siguiente variable que se genera:
• Pers hogarj :Numero de miembros del hogar j.
La generacion de esta variable es mas complicada que las otras ya que debe teneruna cierta correlacion con la variable ingreso; se define de la siguiente manera:
siendo ρd la media muestral real de personas por hogar para la comarca d. Se usala distribucion de Poisson con este parametro ya que:
E(pers hogarj) = λj − 1 + 1 = λj
y de esta forma se consigue el hecho de que no se genera ningun hogar con 0miembros. Tambien cabe senalar que el parametro λj esta relacionado con elingreso mensual del hogar j.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
27
Finalmente se construye la variable:
• Ingreso equivj :Ingreso equivalente mensual del hogar j.
La generacion de esta variable es facil una vez definidas las variables ingreso ypers hogar:
ingreso equivj =ingresoj√pers hogarj
, j = 1, . . . , N
Resumiendo, se ha generado una poblacion de N = 943991 hogares con las si-guientes variables:
• Comarca: numero de comarca a la que pertenece el hogar.
• Estrato: numero de estrato al que pertenece el hogar.
• Ingreso: ingreso mensual del hogar.
• Pers hogar: numero de miembros del hogar.
• Ingreso equiv: ingreso equivalente mensual del hogar.
4.2 Resultados
Sobre la poblacion generada se calcula el sesgo relativo absoluto (SRA) y la raızcuadrada del error cuadratico medio relativo (RECMR) de la siguiente manera:
1. Generar K = 10.000 muestras independientes de nuestra poblacion.
2. Para cada muestra k = 1, . . . ,K calcular el estimador del ingreso mensual
Y(k)
d y el estimador del MSE del ingreso mensual mse(Y d)(k).
3. Calculamos el SRA:
SRAd(Y d) =1K
∣∣∣∣∣∣K∑
k=1
Y(k)
d − Y d
Y d
∣∣∣∣∣∣× 100
SRAd(mse(Y d)) =1K
∣∣∣∣∣K∑
k=1
mse(Y d)(k) −MSE(Y d)
MSE(Y d)
∣∣∣∣∣× 100
4. Calculamos el RECMR:
RECMRd(Y d) =
1K
K∑k=1
Y (k)
d − Y d
Y d
2
1/2
× 100
RECMRd(mse(Y d)) =
1K
K∑k=1
(mse(Y d)(k) −MSE(Y d)
MSE(Y d)
)21/2
× 100
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
28
Los estimadores usados en el estudio son los siguientes:
• HT: Estimador Horvitz-Thompson.
• POST sint: Estimador postestratificado sintetico.
• COMP1: Estimador compuesto con parametro δ = 1.
• COMP2: Estimador compuesto con parametro δ = 3/2.
• COMP3: Estimador compuesto con parametro δ = 2.
• FH: Estimador Fay-Herriot.
Hay que senalar que el estimador compuesto del ingreso medio mensual conparametro δ = 3/2 es el que mejor resultados obtiene de los 3 compuestos. Sepresentan a continuacion los resultados de los estimadores con respecto al SRA yRECMR.
Figura 4.6: RECMR (en %) de los estimadores del ingreso medio mensual.
En las Figuras 4.5 y 4.6 se observa que el estimador con peores resultados segunlos valores del SRA y el RECMR es el estimador sintetico. En cuanto al RECMRhay que destacar en la Figura 4.6 que en las comarcas con menor tamano mues-tral (≤ 48) existe una diferencia notable entre los estimadores. Los estimadorescon mejores resultados segun el RECMR son el compuesto y el Fay-Herriot, losSRA son parecidos en ambos casos. Ademas cabe senalar que el estimador Fay-Herriot se comporta mejor que el estimador compuesto para las areas con tamanomuestral mas pequeno (≤ 48). Estos resultados llevan a considerar al estimadorFay-Herriot como principal candidato en la aplicacion al caso real.
Los estimadores del MSE del ingreso medio mensual que se usan son los siguientes:
• mse HT analıtico: mse analıtico del estimador Horvitz-Thompson.
• mse HT B: mse bootstrap del estimador Horvitz-Thompson.
• mse POST sint analıtico: mse analıtico del estimador postestratificadosintetico.
• mse POST sint B: mse bootstrap del estimador postestratificado sintetico.
• mse COMP2 analıtico: mse analıtico del estimador compuesto con parametroδ = 3/2.
• mse COMP2 B: mse bootstrap del estimador compuesto con parametroδ = 3/2.
• mse FH analıtico: mse analıtico del estimador Fay-Herriot.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
30
• mse FH B: mse bootstrap del estimador Fay-Herriot.
A continuacion, en la Tabla 4.3, se muestra el promedio de SRA y RECMR de las51 comarcas para cada estimador del MSE:
estimador SRA RECMRmse HT analıtico 2,75 34,07mse HT B 2,41 34,56mse POST sint analıtico 108,81 242,23mse POST sint B 56,09 60,00mse COMP2 analıtico 35,27 92,85mse COMP2 B 35,05 42,80mse FH analıtico 22,00 32,68mse FH B 21,58 32,70
Tabla 4.3: Promedio en la estimacion del MSE.
Se observa en la Tabla 4.3 que para cualquier estimador postestratificado sinteticosu promedio del SRA y del RECMR es elevado comparado con los valores de losdemas estimadores. A consecuencia de esto queda descartado el estimador postes-tratificado sintetico para el resto del estudio.
Ademas se observan valores parecidos en las estimaciones analıticas y bootstrappara los estimadores Horvitz-Thompson y Fay-Herriot. Para el estimador com-puesto se tiene un valor del RECMR mucho mas bajo en la estimacion bootstrap.A continuacion se puede ver con mas detalle:
Figura 4.12: RECMR (en %) de los mse del estimador Fay-Herriot.
Se observa en las Figuras 4.7, 4.8, 4.9, 4.10, 4.11 y 4.12 que es mas difıcil es-timar el teorico MSE para las comarcas con menor tamano muestral, como erade esperar. Ademas en las Figuras 4.7, 4.8, 4.11 y 4.12 se ve que existe pocadiferencia entre la estimacion analıtica y bootstrap del MSE para los estimadoresHorvitz-Thompson y Fay-Herriot. En estos casos hay que destacar que el esti-mador bootstrap es una buena alternativa al estimador analıtico. La diferenciaentre la estimacion analıtica y bootstrap del MSE del estimador compuesto esnotable, la Figura 4.10 muestra que en este caso el estimador bootstrap obtienemejores resultados que el estimador analıtico.Por estas razones, a partir de ahora se utiliza solo el estimador bootstrap del MSEde los estimadores.
Hay que senalar que no estan incluidos los resultados para la estimacion rela-tiva al ingreso equivalente mensual, pues son parecidos a los resultados de estaseccion.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
34
5 Caso real
Hay que destacar, en primer lugar, que teniendo en cuenta el proceso de mejora deestimacion de datos en areas pequenas en el que se encuentra el IGE, los datos quese presentan a lo largo de esta seccion tienen el caracter de datos experimentales,con lo que no se pueden considerar estadıstica oficial.
Como se vio en la seccion anterior, no se puede dar el MSE estimado del esti-mador postestratificado con garantıas. En el estudio de simulacion se obtienenvalores elevados en la estimacion del MSE (en cuanto al SRA y RECMR). Por lotanto, nos quedamos con los estimadores Horvitz-Thompson, compuesto y Fay-Herriot.
Se dan las estimaciones de las variables objetivo para cada comarca y su coe-ficiente de variacion estimado (CV):
CVd =
√mse(Y d)
Y d
× 100, d = 1, . . . , 51
Hay que senalar que para las estimaciones por bootstrap del MSE, se tomanB = 5000 remuestras bootstrap.
5.1 Resultados
Se muestran ahora los resultados acerca de la estimacion del ingreso medio men-sual:
Ingreso medio en €
950
1050
1150
1250
1350
1450
1550
1650
1750
1850
1950
Mur
osT
erra
de
Mel
ide
Qui
roga
Alla
riz-M
aced
aV
iana
A B
arca
laF
iste
rra
O S
arO
s A
ncar
esM
eira
O R
ibei
roT
. de
Cal
dela
sA
Par
adan
taO
rteg
alT
erra
de
Son
eira
Xal
las
Cha
ntad
aA
Mar
iña
Or
Sar
riaA
Ullo
aO
Car
balli
ñoT
. de
Cel
anov
aV
alde
orra
sA
rzúa
Bai
xa L
imia
Ver
ínB
etan
zos
Eum
eA
Mar
iña
Cen
tral
A M
ariñ
a O
ccO
Bai
xo M
iño
Cal
das
O C
onda
doT
abei
rós-
Mon
tes
Ter
ra d
e Le
mos
Ter
ra C
háA
Lim
iaO
rdes
Dez
aB
arba
nza
Noi
aO
Mor
razo
Ber
gant
iños
O S
alné
sLu
goP
onte
vedr
aS
antia
goO
uren
seF
erro
lA
Cor
uña
Vig
o
HT COMP2 FH
Figura 5.1: Estimacion del ingreso medio mensual en las comarcas de Galicia.Nota: datos experimentales.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
35
CV ingreso medio en %
0
5
10
15
20
25
30
35
40
45
Mur
osT
erra
de
Mel
ide
Qui
roga
Alla
riz-M
aced
aV
iana
A B
arca
laF
iste
rra
O S
arO
s A
ncar
esM
eira
O R
ibei
roT
. de
Cal
dela
sA
Par
adan
taO
rteg
alT
erra
de
Son
eira
Xal
las
Cha
ntad
aA
Mar
iña
Or
Sar
riaA
Ullo
aO
Car
balli
ñoT
. de
Cel
anov
aV
alde
orra
sA
rzúa
Bai
xa L
imia
Ver
ínB
etan
zos
Eum
eA
Mar
iña
Cen
tral
A M
ariñ
a O
ccO
Bai
xo M
iño
Cal
das
O C
onda
doT
abei
rós-
Mon
tes
Ter
ra d
e Le
mos
Ter
ra C
háA
Lim
iaO
rdes
Dez
aB
arba
nza
Noi
aO
Mor
razo
Ber
gant
iños
O S
alné
sLu
goP
onte
vedr
aS
antia
goO
uren
seF
erro
lA
Cor
uña
Vig
o
HT B COMP2 B FH B
Figura 5.2: Estimacion del CV (en %) de los estimadores del ingreso medio men-sual en las comarcas de Galicia. Nota: datos experimentales.
A continuacion se muestran los resultados de la estimacion del ingreso equivalentemensual:
Ingreso equivalente en €
600
650
700
750
800
850
900
950
1000
1050
1100
Mur
osT
erra
de
Mel
ide
Qui
roga
Alla
riz-M
aced
aV
iana
A B
arca
laF
iste
rra
O S
arO
s A
ncar
esM
eira
O R
ibei
roT
. de
Cal
dela
sA
Par
adan
taO
rteg
alT
erra
de
Son
eira
Xal
las
Cha
ntad
aA
Mar
iña
Or
Sar
riaA
Ullo
aO
Car
balli
ñoT
. de
Cel
anov
aV
alde
orra
sA
rzúa
Bai
xa L
imia
Ver
ínB
etan
zos
Eum
eA
Mar
iña
Cen
tral
A M
ariñ
a O
ccO
Bai
xo M
iño
Cal
das
O C
onda
doT
abei
rós-
Mon
tes
Ter
ra d
e Le
mos
Ter
ra C
háA
Lim
iaO
rdes
Dez
aB
arba
nza
Noi
aO
Mor
razo
Ber
gant
iños
O S
alné
sLu
goP
onte
vedr
aS
antia
goO
uren
seF
erro
lA
Cor
uña
Vig
o
HT COMP3 FH
Figura 5.3: Estimacion del ingreso equivalente mensual en las comarcas de Galicia.Nota: datos experimentales.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
36
CV ingreso equivalente en %
0
5
10
15
20
25
30
35
40M
uros
Ter
ra d
e M
elid
eQ
uiro
gaA
llariz
-Mac
eda
Via
naA
Bar
cala
Fis
terr
aO
Sar
Os
Anc
ares
Mei
raO
Rib
eiro
T. d
e C
alde
las
A P
arad
anta
Ort
egal
Ter
ra d
e S
onei
raX
alla
sC
hant
ada
A M
ariñ
a O
rS
arria
A U
lloa
O C
arba
lliño
T. d
e C
elan
ova
Val
deor
ras
Arz
úaB
aixa
Lim
iaV
erín
Bet
anzo
sE
ume
A M
ariñ
a C
entr
alA
Mar
iña
Occ
O B
aixo
Miñ
oC
alda
sO
Con
dado
Tab
eiró
s-M
onte
sT
erra
de
Lem
osT
erra
Chá
A L
imia
Ord
esD
eza
Bar
banz
aN
oia
O M
orra
zoB
erga
ntiñ
osO
Sal
nés
Lugo
Pon
teve
dra
San
tiago
Our
ense
Fer
rol
A C
oruñ
aV
igo
HT B COMP3 B FH B
Figura 5.4: Estimacion del CV (en %) de los estimadores del ingreso equivalentemensual en las comarcas de Galicia. Nota: datos experimentales.
Las comarcas en las Figuras 5.1, 5.2, 5.3 y 5.4 estan ordenadas segun su tamanomuestral. Se observa en las Figuras 5.1 y 5.3 que los valores mas altos de lasvariables objetivo se obtienen en las comarcas con mayor tamano muestral.Pontevedra es la comarca con los valores mas altos con un ingreso medio mensualde cerca de 1.900 euros y un ingreso equivalente mensual de aproximadamente1.075 euros. A Baixa Limia es la comarca con los valores mas bajos con un in-greso medio mensual de aproximadamente 1.000 euros y un ingreso equivalentemensual entorno a los 675 euros.
En las Figuras 5.2 y 5.4 se observa que el estimador Fay-Herriot obtiene mejoresresultados en cuanto al CV, sobre todo para las comarcas con menor tamanomuestral. Por ejemplo, en las Figuras 5.2 y 5.4 hay una diferencia del 25% en-tre los CV de los estimadores en la comarca de Allariz-Maceda. Ademas, en laFigura 5.1 existe una gran diferencia (de aproximadamente 400 euros) entre lasestimaciones (utilizando el estimador de HT y el de FH) del ingreso medio mensualpara la comarca de Os Ancares. En la estimacion del ingreso equivalente mensual(Figura 5.3) hay una diferencia aun mas notable (de casi 300 euros). Esto es de-bido a que en esta comarca el estimador Fay-Herriot da mas peso a la informacionauxiliar que a la informacion muestral, los estimadores basados en el diseno solousan la informacion muestral. Para estas comarcas se coge el estimador con menorcoeficiente de variacion que es el estimador Fay-Herriot.
En las Figuras 5.2 y 5.4 se ve que el estimador compuesto tambien obtiene buenosresultados. Sin embargo, el estimador Fay-Herriot es un estimador mas estable queel estimador compuesto. En la estimacion del ingreso medio mensual (Figura 5.2)
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
37
el estimador Fay-Herriot consigue coeficientes de variacion estimados inferiores al10% para todas las comarcas. En la estimacion del ingreso equivalente mensual(Figura 5.4) los coeficientes de variacion son inferiores al 7%.
Representamos geograficamente la estimacion Fay-Herriot del ingreso medio men-sual:
Figura 5.5: Ingreso medio mensual por hogar (Fay-Herriot).Nota: datos experimentales.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
38
A continuacion la estimacion Fay-Herriot del ingreso equivalente mensual:
Figura 5.6: Ingreso equivalente mensual por hogar (Fay-Herriot).Nota: datos experimentales.
En las Figuras 5.5 y 5.6 las comarcas estan pintadas segun una escala de colorazul, en donde el color blanco indica el valor mas bajo y el azul oscuro el mas alto.Las comarcas A Fonsagrada y Terra de Trives estan representadas en rojo ya quepara ellas no se dispone de datos muestrales.
De las 4 provincias gallegas se observa que los valores mas bajos estan en lascomarcas de la provincia de Ourense y los valores mas altos en las comarcas delas 7 grandes ciudades gallegas y la comarca de Eume. Se observan tambien va-lores altos en la variable objetivo en muchas de las comarcas occidentales de lasprovincias de A Coruna y Pontevedra y las comarcas da Marina Lucense.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
39
6 Conclusiones
Los modelos de areas pequenas descritos en este documento permiten obtenerestimaciones del ingreso medio y el ingreso equivalente de la Encuesta de condi-ciones de vida a nivel comarcal. Los resultados obtenidos son satisfactorios concaracter general, dado que los coeficientes de variacion obtenidos son moderados.De todos modos, el estimador Fay-Herriot es el que obtiene los mejores resultados,con coeficientes de variacion en la estimacion del ingreso medio mensual inferioresal 10% y en la estimacion del ingreso equivalente mensual inferiores al 7% paratodas las comarcas. En las comarcas con menor tamano muestral (≤ 48) existemucha diferencia entre los estimadores, esta llega a un 25% en favor del estimadorFay-Herriot en la comarca de Allariz-Maceda.
No se puede considerar mejor ningun estimador (analıtico o bootstrap) del MSEen los casos Horvitz-Thompson y Fay-Herriot, pues los valores del SRA y RECMRestan cercanos. En el caso del estimador compuesto funciona mejor el estimadorbootstrap del MSE.
Respecto al estimador postestratificado sintetico, queda abierta la busqueda deotros estimadores sinteticos que nos den menor error de precision en la estimacionde las variables objetivo. De esta manera se podra mejorar la estimacion del es-timador compuesto ya que se vio que se obtenıan buenos resultados en el estudiode simulacion.
El IGE sigue estudiando el uso de la metodologıa de areas pequenas con el objetivode continuar su aplicacion en otras encuestas y otras areas de interes.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
40
Referencias
Efron, B. and Tibshirani, R. J. (1993), An Introduction to the Bootstrap, Chapmanand Hall, New York.
Eustat (2008), “Estimacion de areas pequenas en la encuesta de poblacion enrelacion con la actividad de la C.A. de Euskadi”, Eustat .
Fay, R. E. and Herriot, R. A. (1979), “Estimates of income for small places: Anapplication of James-Stein procedures to census data”, Journal of the AmericanStatistical Association , Vol. 74, pp. 269–277.
Gonzalez-Manteiga, W., Lombardıa, M. J., Molina, I., Morales, D. and Santa-marıa, L. (2008), “Analytic and bootstrap approximations of prediction errorsunder a multivariate Fay-Herriot model”, Computational Statistics and DataAnalysis , Vol. 52, pp. 5242–5252.
Jiang, J. and Lahiri, P. (2006), “Mixed model prediction and small area estima-tion”, Test , Vol. 15, pp. 1–96.
Lombardıa Cortina, M. J. and Morales Gonzalez, D. (2008), Estimacion en areaspequenas, Curso de estimacion en areas pequenas.
Lopez Panos, R. (2000), “Estimacion para areas pequenas(1)”, EstadısticaEspanola , Vol. 42, pp. 291–338.
Morales, D., Esteban, M. D., Sanchez, A., Santamarıa, L., Marhuenda, Y., Perez,A., Saralegui, J. and Herrador, M. (2007), “Estimacion en areas pequenas condatos de la encuesta de poblacion activa en Canarias”, Estadıstica Espanola ,Vol. 49, pp. 301–332.
Prasad, N. G. N. and Rao, J. N. K. (1990), “The estimation of the mean squarederror of small-area estimators”, Journal of the American Statistical Association, Vol. 85, pp. 163–171.
Rao, J. N. K. (2003), Small Area Estimation, Wiley, New York.
Sarndal, C. E., Swensson, B. and Wretman, J. (1992), Model Assisted SurveySampling, Springer.
Ugarte Martınez, D., Militino, A. F., Gonzalez Ramajo, B., Goicoa Mangado,T. and Lopez Sagaseta, M. (2005), Estimacion del desempleo por comarcas enNavarra, Sexto Congreso de Economıa de Navarra.
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos
41
Estimacion en areas pequenas: el ingreso mediomensual por comarca en los hogares gallegos