-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I
PREVIZIUNE ECONOMIC
Construcia i Utilizarea Coeficientului de Greutate
Student:Clonda Alexandra
Materie:Tehnici speciale n anchete i sondaje
Master Statistic i Previziune Economic,An I
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I
PREVIZIUNE ECONOMIC
2
Cuprins
I. Introducere
............................................................................................................................................
3
1. Nevoia greutilor n eantion
...........................................................................................................
3
2. Greutatea ca fiind cea mai bun alternativ!
.....................................................................................
3
II. Dezvoltarea greutilor ntr-un studiu
...................................................................................................
4
1. Greutatea de baz
..............................................................................................................................
4
2. Compensarea greutilor de selecie inegale
.....................................................................................
4
3. Ajustarea greutilor eantionului pentru eligibilitate
necunoscut .................................................. 5
4. Ajustarea greutilor eantionului pentru non-rspunsuri
.................................................................
5
4.1 Reducerea non-rspunsurilor care influeneaz cercetarea
....................................................... 5
4.2 Compensarea deplasrii non-rspunsurilor
...............................................................................
5
4.3 Ajustarea greutilor non-rspunsurilor n eantion
..................................................................
6
5. Ajustarea greutilor eantionului pentru duplicri
...........................................................................
6
6. Ajustarea greutilor eantionului pentru non-acoperite
...................................................................
7
6.1 Compensarea pentru non-acoperirile sondajului
.......................................................................
7
III. Utilizarea greutilor n anchete folosind metoda RDD(Random
digit dialing) ............................... 7
IV. Utilizarea greutilor n eantion ca nlocuitoare a variabilelor
de proiectare .................................. 8
V. Exemple/Studii privind construcia i utilizarea coeficientului
de greutate .......................................... 8
1. Dezvoltarea greutii de baz
............................................................................................................
8
2. Ponderea pentru probabilitati de selectie inegale
..............................................................................
8
3. Ajustarea greutatilor esantionului pentru non-rspunsuri
...............................................................
10
4. Ajustarea greutatilor esantionului pentru non-acoperite
.................................................................
11
Concluzii
.....................................................................................................................................................
13
BIBLIOGRAFIE
.........................................................................................................................................
14
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I
PREVIZIUNE ECONOMIC
3
I. Introducere
n lucrare se vor prezenta diferite etape/stagii pentru
construirea i utilizarea greutilor n
analiza datelor de sondaj. Se va discuta n special de ajustarea
greutilor pentru compensarea
non-acoperitelor,non-rspunsurilor i duplicatelor dar i
utilizarea greutilor vzut n viziunea
lui Rubin, i totodat utilitatea acestora ntr-un studiu unde se
folosete metoda RDD.
1. Nevoia greutilor n eantion
Greutile n eantion sunt folosite pentru a corecta imperfeciunile
din eantion care ar putea
duce la influene i alte tendine/abateri ntre eantion i populaia
de referin. Astfel de
imperfeciuni cuprinde selectarea unitilor cu probabiliti
inegale, non-acoperirea populaiei i
a non-rspunsurilor. Cu alte cuvinte, scopurile ponderrii sunt
urmtoarele:
Pentru compensarea greutilor inegale;
Pentru compensarea (unitilor) non-raspunsurilor;
Pentru ajustarea distribuiei ponderii eantionului pentru
variabilele cheie de interes (spre
exemplu: vrsta, sex, etc) pentru a putea fi conform unei
distribuii normale a populaiei.
Odat ce imperfeciunile din eantion sunt compensate prin anumite
proceduri specifice
(ajustri), greutile pot fi utilizate n estimarea
caracteristicilor de interes ale populaiei i,
deasemenea, estimarea erorilor de eantionare n estimrile
sondajului generat.
2. Greutatea ca fiind cea mai bun alternativ!
Exist situaii n care utilizarea greutilor reprezint strategia
optim n conformitate cu studiul
ales. S-au selectat trei exemple unde greutatea a fost metoda
cea mai bun:
Exemplu 1: Predicia Bayensian a mediei populaiei finite dintr-un
eantion stratificat
disproporional- Binder ( 1982),Little (1989);
Exemplu 2: Estimarea greutii maxime a probabilitilor Bernouilli
dintr-un eantion
postratificat-Alexander (1987);
Exemplu 3: Estimarea greutii maxime din tranziia lanului Markov
ntr-un eantion;
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I
PREVIZIUNE ECONOMIC
4
II. Dezvoltarea greutilor ntr-un studiu
1. Greutatea de baz
Dezvoltarea greutii eantionului ncepe odat cu construcia greutii
de baz pentru fiecare
unitate a eantionului, pentru corectarea probabilitilor inegale
de selecie . n general, greutatea
de baz a fiecrei uniti eantionate este inversul probabilitii
sale de selecie din eantion. n
notaia matematic, dac o unitate este cuprins n eantion cu o
probabilitate Pi , atunci
ponderea de baz , notate cu wi, este calculat dup urmtoarea
formul:
Pentru proiectarea multi-fazial (postratificare), greutile de
baz trebuie s reflecte
probabilitile de selecie a fieacarei faze (postratificare). n
cazul a dou etape a proiectrii n
care i uniti selectate au o probabilitate pi n prima etap, i j
uniti sunt selectate cu o
probabilitate pi(j) n a dou etap, atunci probabilitatea de
selecie a fiecrei uniti n eantion
este dat de:
iar ponderea de baz total este obinut ca mai nainte, prin luarea
reciprocei ponderii total de
selecie .n cazul n care ponderea de baz pentru j este wij.b ,
ponderea atribuit pentru
compensarea non-rspunsurilor este wij.nr i ponderea atribuit
pentru compensarea non-
acoperitelor este wij.nc, atunci ponderea total se
calculeaz:
2. Compensarea greutilor de selecie inegale
n general, sondajul stratificat i sondajul multi-fazial sunt
sondaje n cadrul crora subiecii din
baza de sondaj nu au aceai probabilitate de a fi selecionai.
n Exemple/Studii privind construcia i utilizarea coeficientului
de greutate avem prezentat un
caz (/exemplu) pentru ponderea probabilitilor inegale.
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I
PREVIZIUNE ECONOMIC
5
3. Ajustarea greutilor eantionului pentru eligibilitate
necunoscut
Pentru ajustarea greutii eantionului pentru eligibilitate
necunoscut respondenii pot fi
mprii:
Respondeni eligibili : grup ce conine toate unitile eligibile
ale eantionului care au
participat la studiului, i anume cele care au oferit date utile
studiului;
Respondei neeligibili: grup ce conine uniti neeligibile
studiului (de ex. Persoane
mutate n strintate n cazul unui sondaj ce se insist pe studiul
naional);
Non-Respondeni eligibili : grup ce conine toate unitile
eligibile ale eantionului care
nu au oferit date utile studiului, ns informaiile furnizate au
dovedit a fi eligibile.
Respondeni cu eligibilitate necunoscut: grup ce conine uniti ale
eantionului a cror
eligibilitate nu a putut fi stabilit.
Respondenii cu eligibilitate necunoscut este categoria/ grupul
din studiu care se utilizeaz n
toate modalitile de anchet.
4. Ajustarea greutilor eantionului pentru non-rspunsuri
4.1 Reducerea non-rspunsurilor care influeneaz cercetarea
Dimensiunea non-rspunsurilor (vzut ca medie a eantionului) este
activitatea a doi factori
importani: proporia populaiei care nu rspunde i dimensiunea
diferenei n media populaiei
(ntre respondent i non respondent). Pentru influena datorat
non-rspunsurilor este necesar o
rat mic a non-rspunsurilor sau diferene mici ntre cei care
rspund i cei cei care nu rspund.
Pentru un studiu ( unde datele sunt colectate din acelai tablou
de eantionare n mod repetat de-a
lungul timpului), proiectantul studiului are acces la mai multe
date pentru a studia i ajusta
efectele potenialelor non-rspunsuri dect ntr-o anchet
transversal.
4.2 Compensarea deplasrii non-rspunsurilor
ntr-un studiu sunt folosite un numr de metode/tehnici de
reducere a potenialelor non-
rspunsuri. Exist trei metode de baz pentru compensarea
non-rspunsurilor: prima este
reprezentat de ajustarea greutii non-rspunsurilor; a doua este
reprezentat de crearea unui
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I
PREVIZIUNE ECONOMIC
6
eantion de dimensiuni mai mari dect este necesar , crend un
eantion de rezerv pentru a
nlocui n cazul prezenei mari a non-rspunsurilor; a treia metod
este reprezentat de procesul
de nlocuire a non-rspunsurilor studiului cu un alt studiu n care
nu exist non-rspunsuri
multiple n eantion.
ntr-un studiu, o unitate de non-rspuns utilizeaz ajustarea
greutii pentru a justifica non-
rspunsurile.
4.3 Ajustarea greutilor non-rspunsurilor n eantion
Ajustarea greutilor transfer greutatea de baz a tuturor unitilor
de non-rspunsuri eligibile n
rspunsuri eligibile, i aceast metod este implementat parcurgnd
urmtorii pai:
Pas 1: Aplicarea greutilor iniiale (pentru probabilitile inegale
i ajustate a unitilor selectate
pentru eligibilitate necunoscut);
Pas 2: Se parioneaz eantionul n sub-eantioane i se calculeaz
greutatea de rspuns a
fiecrui sub-eantion;
Pas 3: Utilizarea inversului greutii de rspuns a sub-eantionului
pentru non-rspunsuri
ajustate;
Pas 4: Calcularea greutii ajustate a non-rspunsurilor pentru i
uniti:
unde w1i este greutatea iniial i w2i este greutatea ajustat a
non-rspunsurilor. Rata de non-
rspunsuri poate fi definit ca raie a ponderii numrului de
rspunsuri completate cu cazuri
eligibile incluse n eantion la numrul ponderat de cazuri
eligibile din eantion.
5. Ajustarea greutilor eantionului pentru duplicri
Dac se recunosc anumite uniti a fi duplicate, atunci se poate
crete probabilitatea de selecie a
acestor uniti care pot fi compensate prin factorii de greutate
fiind reciproci cu numrul
unitilor duplicate n cazul n care astfel de uniti ajung n
eantion. De cele mai multe ori,
duplicatele sunt descoperite dup selectarea eantionului, unde
greutile de selecie a acestor
uniti duplicate trebuie s fie ajustate pentru a fi luat n
considerare duplicarea. Aceast
ajustare este implementat n urmtorul mod: avem i uniti n eantion
cu o probabilitate de
selecie , notat cu pi1, i k-1 nregistrri suplimentare n eantion
care sunt identificate ca fiind
uniti duplicate ale eantionului, fiecare cu o probabilitate de
selecie pi2,pik. Atunci ajustarea
probabilitii de selecie a unitilor eantionului este dat de:
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I
PREVIZIUNE ECONOMIC
7
)
unde unitatea eantionului este n concordan cu greutatea, fiind
egal cu 1/pi.
6. Ajustarea greutilor eantionului pentru non-acoperite
Non-acoperitele sunt uniti ale eantionului care nu au
probabilitate de selecie n eantionul
selectat, reprezentnd eecul n atingerea scopurilor cercetrii.
Non-acoperitele sunt vzute ca
fiind deficiene de eantionare ntr-un studiu.
6.1 Compensarea pentru non-acoperirile sondajului
Exist mai multe proceduri de compensare a non-acoperitelor:
Pas 1: mbuntirea procedurilor de culegere a datelor pentru
studiu( cum ar fi utilizarea mai
multor eantioane sau proceduri de listare mbuntite);
Pas 2: Compensarea non-acoperitelor prin ajustarea
greutilor.
III. Utilizarea greutilor n anchete folosind metoda RDD(Random
digit
dialing)
Calcularea greutilor eantionului obinut prin metoda RDD const n
5 pai de baz:
Pas 1: Calcularea greutii de baz ca fiind inversul probabilitii
de selecie a numrului de
telefon folosit la ntmplare;
Pas 2: Aplicarea ajustrii care ine cont de nivelul de
non-rspunsuri n timpul convorbirilor;
Pas 3: Aplicarea unei ajustri pentru linii telefonice multiple
ca fiind reciproca numerelor
obinuite rezideniale folosite n studiu;
Pas 4: Aplicarea unei ajustri pentru corectarea non-rspunsurilor
la nivel de studiu.
n concluzie, greutile eantioului create prin metoda RDD sunt
obinute ca fiind produsul ntre
greutatea de baz i diverse ajustri aplicate la greutile de
baz.
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I
PREVIZIUNE ECONOMIC
8
IV. Utilizarea greutilor n eantion ca nlocuitoare a variabilelor
de
proiectare
n studiile de cercetare ,Rubin (1985) propune s utilizeze
vectorul ca fiind nlocuitoare a unui
set de variabile de proiectare n situaia n care informaiile
disponibile din variabilele de
proiectare nu sunt suficiente pentru a asigura condiiile de
ignorabilitate sau cnd se modeleaz
distribuia variabilelor de rspuns, date de variabilele de
proiectare. Notm cu Z matricea
valorilor variabilelor de proiectare. Rubin definete coloana
vectorului a = (a1...aN) = a(Z) ca
fiind rezumatul corespunztor al lui Z dac probabilitatea
P(I|Z)=P(I|a) , unde I reprezint
variabila indicator al eantionului care arat c probabilitatea de
incluziune a vectorului
(motiv predicionat n terminologia autorului) este rezumatul
posibil adecvat iaspru a lui Z.
n cazul n care este sumarul adecvat lui Z , P(Y|YS,) astfel nct
dat al proiectrii
eantionului este ignorabil specific distribuiei Y , reprezentnd
tot ce este necesar pentru
validarea inferenelor.
Abordarea cercettorului Rubin ofer o metod de principiu pentru
ncorporarea greutilor, ns
necesit cunotine de incluziune a tuturor uniilor populaiei, ci
nu doar simple uniti.Aa cum
ilustreaz Rubin (1985) i Sugden&Smith (1984), vectorul poate
fi prea aspru , i prin
urmare s nu fie un rezumat adecvat.
V. Exemple/Studii privind construcia i utilizarea coeficientului
de
greutate
1. Dezvoltarea greutii de baz
Se selecteaz o unitate din eantion cu o probabilitate 1/50
reprezentnd 50 uniti din populaie
(din care a fost extras eantionul). Astfel, ponderea eantionului
acioneaz ca factor de inflaie
pentru a reprezenta numrul de uniti din populaia studiat ,luate
n considerare de ctre
unitatea din eantion la care este atribuit greutatea. Suma
greutilor eantionului ofer o
estimare a numrului total de indivizi n populaia int.
2. Ponderea pentru probabilitati de selectie inegale
Se selecteaz aleator 5 gospodarii din 250. Fiecare adult este
selectat aleator ca unitate de a
gospodrie.Venitul lunar (yij) i nivelul de educaie (zij=1, dac
nivelul este superior sau
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I
PREVIZIUNE ECONOMIC
9
secundar; 0 dac sunt celelalte) a unitii de eantion j (adult) n
i gospodrii nregistrate. Notm
Mi numrul de aduli din gospodrii i. Atunci probabilitatea de
selecie este urmatoarea:
Astfel, greutatea unitii de eantionare este dat de:
S presupunem c n prima etap, eantionul (cele 5 gospodrii) au
urmtoarele date obinute:
Gospodrie Mi wi yij zij wi*yij wi*zij wi*zij*yij
1 3 150 70 1 10500 150 10500
2 1 50 30 0 1500 0 0
3 3 150 90 1 13500 150 13500
4 5 250 50 1 12500 250 12500
5 4 200 60 0 12000 0 0
TOTAL 16 800 300 3 50000 550 36500
Poti fi estimate caracteristici dup tabelul de mai sus:
1. Estimarea venitului lunar:
Dac ponderile nu sunt folosite , estimarea poate fi 60
(300/5).
2. Estimarea proporiei persoanelor cu nivel de educaie secundar
sau superior este:
Daca ponderile nu sunt folosite, atunci estimarea poate fi 3/5
sau 0.60 (60%).
3. Estimarea numarului total de populatie cu nivel de educaie
superior sau secundar este:
4. Estimarea venitului mediu lunar a unui adult cu nivel
superior sau secundar este
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I
PREVIZIUNE ECONOMIC
10
Pentru estimarea total, unitile eantionrii trebuie ponderate cu
inversul probabilitilor de
selecie. Pentru estimarea mediilor i proporilor, ponderea
trebuie s fie proporional cu
inversul probabilitii de selecie. Astfel ponderea wis este
proporia lui Mi (wi=50*Mi). Dac
Mi este folosit ca pondere, atunci estimarea proporiilor pentru
nivelul de educaie secundar i
superior este:
Estimarea total a numrului de aduli cu nivel de educaie superior
sau secundar este:
3. Ajustarea greutilor eantionului pentru non-rspunsuri
Avem un eantion multi-fazic compus din 1000 de gospodrii
selectate din 2 regiuni (Nordul i Sudul
tarii).Gospodriile din Nord sunt eantionate cu o rat de 1/100 i
cele din Sud cu o rat de 1/200.Rata de
rspuns n zonele urbane sunt mai mici dect n zonele rurale. S
notam nh numrul de gospodrii din
stratul h, rh numrul gospodriilor eligibile care au rspuns la
studiu(anchet), si th notm numrul
respondeniilor din gospodrii care dispuns/ au acces de/la
asisten medical. Atunci greutatea non-
rspunsurilor pentru gospodria din stratul h este dat de
urmatoarea expresie:
unde .
S presupunem c avem urmtoarele date despre straturi:
Strat nh rh th w1h w2h wh wh*rh wh*th
Nord-Urban 100 80 70 100 1.25 125 10000 8750
Nord-Rural 300 120 100 100 2.5 250 30000 25000
Sud-Urban 200 170 150 200 1.18 236 40120 35400
Sud-Rural 400 360 180 200 1.11 222 79920 39960
TOTAL 1000 730 500 160040 109110
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I
PREVIZIUNE ECONOMIC
11
Astfel estimarea proporiei gospodriilor care au acces la asisten
medical este:
Numrul estimat de gospodrii care au acces este:
Estimarea proporiei neponderate a gospodriilor cu acces la
asisten medical,folosind doar datele
respondenilor este:
i estimarea proporiei folosind greutile iniiale fra ajustarea
non-rspunsurilor este:
Scopul exemplului este de a ilustra cum greutle iniiale sunt
ajustate pentru compensarea non-
rspunsurilor. Rezultatele arat o diferen considerabil ntre
proporia estimat folosind greutile
iniiale comparativ cu greutile ajustate pentru non-rspunsuri,
nsa diferena ntre procentul proporiei
nepondenderate (fr greutate) i proporia ajustat a
non-rspunsurilor pare a fi nesimnificativ.
4. Ajustarea greutilor eantionului pentru non-acoperite
S presupunem c avem un numr de gospodrii care se tiu: 45,025 n
Nord i 115,800 n Sud.
Presupunem c greutatea eantionului total este 40,000 i respectiv
120,040.
Pas 1: Calcularea factorilor de postratificare:
-Pentru regiunea de Nord:
-Pentru regiunea de Sud:
Pas 2: Calculm greutatea ajustat:
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I
PREVIZIUNE ECONOMIC
12
Rezultatele se gsesc n urmatorul tabel:
Strat rh th wh wf wf*rh wf*th
Nord-Urban 80 70 125 140.75 11260 9852.5
Nord-Rural 120 100 250 281.4 33768 28140
Sud-Urban 170 150 236 227.77 38720.9 34165.5
Sud-Rural 360 180 222 214.2 77112 38556
TOTAL 730 500 160860.9 110714
Atunci proporia gospodriilor care au acces la asisten medical
este:
Cu greutile ajustate prin post-stratificare ,greutile
eantionului numrate pentru regiunile Nord i Sud
sunt 45,028(11,260+33,768) i respectiv 115,833
(38,721+77,112).
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I
PREVIZIUNE ECONOMIC
13
Concluzii
Greutile de eantionare sunt considerate ca o parte integrant n
analiza unui sondaj n rile n
curs de dezvoltare. Multe programe susin faptul c utilizarea
greutilor chiar i n situaii rare
implic auto-ponderare (n cazul n care ponderile sunt 1).
Utilizarea greutilor reduc deplasrile din cauza imperfeciunilor
din eantion (non-rspunsuri i
non-acoperite).Non-rspunsurile i non-acoperitele sunt tipuri
diferite de erori care datoreaz
eec unei anchete proiectat pentru a obine informaii de la o
populaie int. Pentru studiile
gospodriilor din rile n curs de dezvoltare, non-acoperitele sunt
o problem serioas
comparativ cu non-raspnsurile.
n lucrare sunt prezentate modaliti de compensare a acestor
probleme inevitabile ale unui
sondaj/ studiu, precum i utilizarea greutilor de ajustare n
estimarea parametrilor de interes.
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I
PREVIZIUNE ECONOMIC
14
BIBLIOGRAFIE
[1] Ibrahim S. Yansaneh, Construction and use of sample weights,
UNITED NATIONS
SECRETARIAT Statistics Division,2003
[2] David Pfeffermann, The Role of Sampling Weights When
Modeling Survey Data,
International Statistical Review,Vol.61,pp-317-337,1993
[3] Use of Sampling Weights with IHIS
*** https://www.ihis.us/ihis/userNotes_weights.shtml
[4] Appendix C, Sample Weighting
***www.va.gov/VETDATA/.../SurveysAndStudies/SAMPLE_WEIGHT.pdf
[5] Boudreau C., Construction and Use of Sampling Weights for
the International Tobacco
Control (ITC) Netherlands Survey,University of Waterloo,2010
[6] Aviv Nevo, Using Weights to Adjust for Sample Selection When
Auxiliary Information Is
Available, University of California, Berkeley and the National
Bureau of Economic Research
[7] United Nations. Statistical Division,Designing Household
Survey Samples: Practical
Guidelines,Chapter 6,2008