Universidad de Sevilla - Estimación del Índice de Gini en ...personal.us.es/jmayor/ficheros/prospegini.pdfEstimación del Índice de Gini en Poblaciones Finitas José Antonio Mayor

Estimación del Índice de Gini en PoblacionesFinitas

José Antonio Mayor Gallego

Departamento de Estadística e Investigación Operativa

Universidad de Sevilla. Facultad de Matemáticas

Abril, 2009

José A. Mayor. Universidad de Sevilla. [email protected] Master en Estadística Pública CB � 1/1

Problema Considerado:Estimación del Índice de Gini en poblaciones finitas

Elementos básicos

Población finita. U = {1,2, . . . ,N}

Variable de estudio. Y = {yi | i ∈ U}

Variable auxiliar conocida. X = {xi | i ∈ U}

Función de distribución poblacional,

F (t) =1N

∑i∈U

∆(t − yi ), ∆(t − yi ) ={

1 t ≥ yi0 t < yi

Media y total poblacionales,

Y =1N

∑i∈U

yi =1N

T (Y )


Problema Considerado:Estimación del Índice de Gini en poblaciones finitas

Índice de Gini

IG =

∫IR

∫IR|t − u|dF (t)dF (u)∫

IRu dF (u)

CaracterísticasMedida de uniformidad en elreparto de la variable en estudio.

Útil en estudios económicos ydemográficos sobre distribución debienes, salarios, población, etc.

Habitualmente se estudia a partirde encuestas por muestreo.

ObjetivosDesarrollar estimadores del índice de Gini en poblaciones finitas.

Estudiar sus propiedades en relación al sesgo y al error cuadráticomedio.

Realizar mediante simulación un estudio comparativo con otrosestimadores de la bibliografía.


Parámetros de concentración

Familia de índices de Gini. Nygård and Sandström (1985a,1985b)

IGJ =1Y

∫ ∞0

J[F (t)]tdF (t)

J(·) es una función de ponderación, continua.

Índice de Gini clásico. J(p) = 2p − 1

IG =1Y

∫IR

[2F (t)− 1]tdF (t) = 1Y

∫IR

∫IR|t − u|dF (t)dF (u)

=1

2N2Y

∑∑i, j∈U

|yi − yj| ∈ [0,1− 1/N]


Referencias básicas

Glasser, 1962. Variance Formulas for the Mean Difference andCoefficient of ConcentrationEstudio del error de muestreo, bajo muestreo aleatorio simple,de los parámetros muestrales,

Diferencia media,

d =1

n(n − 1)∑

i, j∈m|yi − yj |

Índice de concentración,

γ =d2ȳ



Brewer, 1981. The Analytical Use of Unequal ProbabilitySamples: A case Study

Estudio práctico a gran escala de la distribución depresupuestos escolares en Australia.Denotando por yi el presupuesto de la escuela i y por xi elnúmero de alumnos de la misma, se considera la curva,tipo Lorenz,

(r∑

i=1

xi ,r∑

i=1

yi), r = 1,2,3, . . . ,N

a partir de la cual se desarrolla el índice de Gini y suestimación.Se estudia el error de muestreo mediante la técnica del“jackknife”.



SandströM, Wretman, Waldén, 1985. Variance Estimators ofthe Gini Coefficient. Simple Random Sampling

Desarrollo de estimadores de la varianza del índice deGini muestral, empleando técnicas de aproximación.Estudio computacional de dichos estimadores y de lavarianza obtenida con la técnica del “jackknife”, paradistintos modelos de la variable de estudio.


Referencias

Nygård, Sandström, 1985a. Income Inequality MeasureBased on Sample Surveys.Nygård, Sandström, 1985b. The Estimation of the Gini andthe Entropy Inequality Parameters in Finite Populations.SandströM, Wretman, Waldén, 1988. Variance Estimators ofthe Gini Coefficient. Probability Sampling.

Desarrollo de estimadores del índice de Gini y de otrosparámetros relacionados, bajo muestreo probabilístico.Estudio de las propiedades asintóticas de dichosestimadores.Estudio computacional de la varianza de dichosestimadores.


Índice de Gini y curva de Lorenz

Curva de Lorenz

IG =1

2N2Y

∑i, j∈U

|yi − yj | = 2 δ

EstimaciónDiseño muestral (M, p(·)) → m,muestra.

Probabilidades de inclusión,

Π = {πij | i, j ∈ U} > 0

Estimaciones de F (t) and G(t),

F̂ (t) =1

N̂

∑i∈m

∆(t − yi )πi

Ĝ(t) =1

T̂ (Y )

∑i∈m

yi∆(t − yi )

πi

Estimación de la curva deLorenz.

{(F̂ (t), Ĝ(t)) | t ∈ IR}


Estimador de Nygård y Sandström

ÎG = 2δ̂ =1

N̂2 Ŷ

n∑i=1

(2Pi +

1πji

)yjiπji− 1

Ŷ = T̂ (Y )/N̂. Pi dadas por,

P1 = 0 , Pi =i−1∑k=1

1πjk

i = 2 . . . n

j1, j2, . . . jn tales que, yj1 ≤ yj2 ≤ · · · ≤ yjnPara el diseño MAS(N,n), πi = n/N,

ÎGd1 =1

2n2ȳ

∑∑i, j∈m

|yi − yj |

Nygård and Sandström (1985a,1985b)


Estimación predictiva

Modelo de superpoblación

yi = β xi + v(xi) εi i ∈ U

β: parámetro desconocido.v(·): una función conocida.εi : variables aleatorias independientes e idénticamentedistribuidas.

E [εi ] = 0, ∀i ∈ UV [εi ] = σ2, ∀i ∈ U


Estimación predictiva

Estimación de F (t)

F̂ (t) =1N

∑i∈U

∆(t − ŷi)

ŷi ={

yi si i ∈ mβn xi si i ∈ U −m

siendo,

βn =

∑i∈m yixi/πiv

2(xi)∑i∈m x

2i /πiv

2(xi)estimador π-ponderado de β



Hipótesis

v(x) = x1/2

Muestreo Aleatorio Simple

entonces,

βn =

∑i∈m yixi/πiv

2(xi)∑i∈m x

2i /πiv

2(Xi)=

∑i∈m yi∑i∈m xi

y,Ŷ = βn X


Comparación por simulación. Poblaciones reales

SUGAR CANE y MU284. Chambers y Dunstan (1986), Särndal et al. (1992)

SUGAR CANE. N = 338 plantaciones azucareras.Chambers y Dunstan (1986). Y es la producción de cadaplantación. X es la superficie. Para esta población, elcuadrado del coeficiente de correlación entre Y y X esρ2SC = 0,787.

MU284. N = 284 Municipios de Suecia. Särndal etal.(1992). Y es la población en 1985. X es la población en1975. ρ2MU284 = 0,997


Comparación por simulación. Poblaciones artificiales

D05..D095Población parametrizada con N = 1000. Hidiroglou andPatak (2004). Los valores (yi , xi) se generan suponiendo elmodelo de superpoblación considerado, con v(x) = x1/2 yβ = 2.X se genera a partir de una distribución Γ(a,b). a = 3,b = 16.Y se genera a partir de una distribución Γ(A,B) tal queE [yi ] = βxi = AB, V [yi ] = σ2xi = AB2.


Poblaciones artificiales

El valor σ2 se escoge de forma que,

ρ2[X ,Y ] =β2b2

β2b2 + σ2b

Dando a ρ2[X ,Y ] los valores 0.5, 0.6, 0.7, 0.8, 0.9 y 0.95,obtenemos seis poblaciones distintas, que denominamosD05, D06, D07, D08, D09 y D095.


Simulación muestralMuestreo aleatorio simple con tamaño muestraln = 10,15,20 y 30. Para cada caso, se generan L = 1000muestras. Para cada muestra calculamos las estimacionesÎGd1, ÎGd2, ÎGp, ÎGpc , y,

Sesgo relativo.

SGR =1

L× IG

L∑1=1

(IG − ÎGi)

Error cuadrático medio relativo.

ECMR =

(1

L× IG2L∑

1=1

(IG − ÎGi)2)1/2

Se han multiplicado por 104 para facilitar su interpretación.


Resultados

SUGAR CANEPOBLACIÓN SUGAR CANE. N = 338

ÎGp ÎGpc ÎGd1 ÎGd2n SGR ECMR SGR ECMR SGR ECMR SGR ECMR

10 673 674 72 1524 1247 2593 284 254415 662 664 34 1186 827 2045 201 200820 649 652 13 1025 634 1772 114 177230 628 632 -4 826 457 1414 77 1435Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

población SUGAR CANE.


Resultados

MU284POBLACIÓN MU284. N = 284.


10 -64 64 -92 300 2002 3021 1145 278515 -63 65 -83 258 1480 2648 904 251320 -63 64 -76 213 1185 2366 754 221230 -60 63 -40 179 842 1913 560 1941Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

población MU284.


Resultados

D05POBLACIÓN D05. N = 1000


10 2731 2732 -105 1880 829 2072 -163 211115 2691 2692 -97 1510 519 1657 -132 168720 2654 2655 -49 1264 398 1476 -82 149430 2577 2578 -32 1014 244 1135 -66 1145Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

población D05.


Resultados



10 2111 2111 25 1707 945 2133 -65 211915 2080 2081 13 1292 567 1655 -57 166320 2052 2053 9 1151 465 1440 -30 143030 1996 1997 2 872 305 1143 -26 1136Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

población D06.


Resultados



10 1521 1522 15 1546 1024 2269 52 154615 1499 1500 5 1219 665 1800 24 178920 1480 1481 2 1004 490 1510 15 150030 1437 1438 2 811 300 1227 -9 1227Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

población D07.


Resultados



10 1260 1261 -50 1346 1041 2038 -60 134715 1243 1243 -45 1072 621 1582 -53 155520 1226 1226 -32 860 516 1367 -41 133030 1190 1191 0 693 318 1087 10 1041Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

población D08.


Resultados



10 337 337 36 1123 988 2181 42 112315 331 332 -10 866 654 1684 18 165920 326 327 -20 730 502 1475 26 145730 319 321 1 564 270 1138 -40 1142Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

población D09.


Resultados



10 427 427 -6 708 1102 2326 138 227515 421 421 -8 533 672 1810 30 179720 415 416 -6 451 451 1543 -26 154930 404 405 3 357 378 1266 20 1282Sesgo relativo ×104 y error cuadrático medio relativo ×104 de los estimadores.

población D095.


Conclusiones

ÎGpc presenta menos sesgo que ÎGd1, ÎGd2 y ÎGp. Incluso parapequeños tamaños de muestra y correlaciones no muy elevadasel sesgo relativo es despreciable, menor de 1 %.

En términos de eficiencia, medida por el error cuadrático medioÎGpc es más eficiente que ÎGd1 y ÎGd2. Esta eficiencia seincrementa para correlaciones altas. Excepto para correlacionesmuy elevadas, no usuales en poblaciones reales, ÎGpc estambién más eficiente que el estimador predictivo básico, ÎGp.

El sesgo y la eficiencia de ÎGp depende fuertemente de lacorrelación entre las variables.


Conclusiones

En resumenSi disponemos de información auxiliar, el enfoquepredictivo produce una mejora de las estimaciones sobreel enfoque de diseño. Esta mejora es más acentuada parael estimador con corrección del sesgo, ÎGpc .Si no disponemos de información auxiliar, el estimadorbasado en el diseño, ÎGd2 es la mejor alternativa.


Estimación de la varianza de ÎGpc

Estudios previosBrewer (1981)Nygård and Sandström (1985a)Sandström et al. (1985,1988)

consideran la técnica del “jackknife” para estimar la varianzadel estimador básico basado en el diseño, ÎGd1.


Estimador “jackniffe” de la varianza

Muestra.m = {j1, j2, . . . , jn}

ÎG(m): estimación con la muestra original.

ÎG(m − {ji}): estimación con la muestra m de la que se haeliminado la unidad i-ésima.

Pseudovalores.

ÎG(i) = n ÎG(m)− (n − 1) ÎG(m − {ji}) i = 1 · · · n

Estimador de la varianza.

V̂ [ÎG] =1

n(n − 1)

n∑i=1

(ÎG(m)− ÎG(i)

)2


Estudio por simulación. Estimador predictivo corregido

Se emplean las poblaciones reales y artificiales yadescritas anteriormente.Se realiza Muestreo Aleatorio Simple con tamañosmuestrales n = 10,15,20 y 30. Para cada caso, seobtienen L = 1000 muestras, y para cada una se calcula elestimador “jackniffe” de la varianza.


Resultados

Se calculanRC: Razón de cubrimiento. Cociente entre número deveces que el intervalo de confianza al 95 %,

ÎGpc ± 1.96×√

V̂ [ÎGpc]

contiene el verdadero valor del índice de Gini, y el númerototal de muestras seleccionadas.RM: Radio medio de los intervalos. Media aritmética de lascantidades α = 1.96×

√V̂ [ÎGpc].


Resultados. RC y RM. ÎGpc

SUGAR CANE

n CR MR10 0.930000 0.08616815 0.940000 0.06588720 0.942000 0.05409930 0.956000 0.043118

D05

n CR MR10 0.932000 0.16408215 0.941000 0.12858120 0.949000 0.10707830 0.953000 0.084304

MU284

n CR MR10 0.951000 0.03523415 0.940000 0.02686520 0.957000 0.02378630 0.948000 0.021134

D06

n CR MR10 0.945000 0.14877515 0.947000 0.11466120 0.956000 0.09661230 0.961000 0.075404


Resultados. RC y RM para ÎGpc

D07

n CR MR10 0.941000 0.12136515 0.952000 0.10993520 0.953000 0.08128230 0.956000 0.064636

D09

n CR MR10 0.954000 0.07345415 0.952000 0.05243820 0.953000 0.04579430 0.957000 0.036552

D08

n CR MR10 0.947000 0.10323415 0.951000 0.07982820 0.957000 0.06588530 0.952000 0.051243

D095

n CR MR10 0.938000 0.04929415 0.945000 0.03777020 0.952000 0.03113630 0.948000 0.024693


Conclusiones

Incluso si la correlación entre las variables no es muy elevada,los intervalos de confianza basados en el estimador “jackniffe”de la varianza son muy precisos presentando una razón decubrimiento muy aproximada a la teórica del 95 %.


Líneas de trabajo

Aplicación de técnicas “bootstrap” para estimar el error demuestreo.Construir estimadores del índice de Gini medianteestimadores de calibración.Estimación con diseños muestrales complejos quemezclan estructuras de estratos y conglomerados.


Referencias

[1] Brewer, K.R.W. (1981). The Analytical Use of Unequal Probability Samples: A case Study. Proceeding ofthe 43th Session of the International Statistical Institute. Buenos Aires.

[2] Chambers, R.L. and Dunstan, R. (1986). Estimating distribution functions from survey data. Biometrika. 73,597-604.

[3] Glasser, (1962). Variance Formulas for the Mean Difference and Coefficient of Concentration. Journal of theAmerican Statistical Association. 57, 648-654.

[4] Hidiroglou, M.A. and Patak, Z. (2004). Domain Estimation Using Linear Regression. Survey Methodology.30-1,67-78.

[5] Nygård, F. and Sandström, A. (1985a). Income Inequality Measures Based on Sample Surveys. Proceedingof the 45th Session of the International Statistical Institute. Amsterdam.

[6] Nygård, F. and Sandström, A. (1985b). The Estimation of the Gini and the Entropy Inequality Parameters inFinite Populations. Journal of Official Statistics. 1, 399-412.

[7] Särndal, C., Swensson, B. and Wretman, J. (1992). Model Assisted Survey Sampling. Springer-Verlag. NewYork, Inc.

[8] Sandström, A., Wretman, J.H. and Waldén, B. (1985). Variance Estimators of the Gini Coefficient, SimpleRandom Sampling. Metron. 43, 41-70.

[9] Sandström, A., Wretman, J.H. and Waldén, B. (1988). Variance Estimators of the GiniCoefficient-Probability Sampling. Journal of Business & Economic Statistics 6-1, 113-119.


Nygård, F. and Sandström, A. (1985a). Income InequalityMeasures Based on Sample Surveys. Proceeding of the45th Session of the International Statistical Institute.Amsterdam.Nygård, F. and Sandström, A. (1985b). The Estimation ofthe Gini and the Entropy Inequality Parameters in FinitePopulations. Journal of Official Statistics. 1, 399-412.


Chambers, R.L. and Dunstan, R. (1986). Estimatingdistribution functions from survey data. Biometrika. 73,597-604.Särndal, C., Swensson, B. and Wretman, J. (1992).Model Assisted Survey Sampling. Springer-Verlag. NewYork, Inc.


Universidad de Sevilla - Estimación del Índice de Gini en ...personal.us.es/jmayor/ficheros/prospegini.pdfEstimación del Índice de Gini en Poblaciones Finitas José Antonio Mayor

Documents