Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES PLAN DU CHAPITRE 2 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.1 Plan de sondage 2.2.2 Probabilit´ es d’inclusion 2.3 SONDAGE ALEATOIRE SIMPLE AVEC REMISE (PEAR) 2.3.1 Plan de sondage 2.3.2 Probabilit´ es d’inclusion 2.4 VARIABLES INDICATRICES 2.5 ESTIMATEUR 2.6 ESTIMATION D’UNE MOYENNE 2.6.1 Sondage al´ eatoire PESR 2.6.2 Sondage al´ eatoire PEAR 2.7 ESTIMATION D’UN TOTAL 2.7.1 Estimateur de τ 2.7.2 Esp´ erance de ˆ τ 2.7.3 Pr´ ecision de ˆ τ 1
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Chapitre 2SONDAGE ALEATOIRE SIMPLE OU A PROBABILITESEGALES
PLAN DU CHAPITRE 2
2.1 DEFINITIONS
2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR)2.2.1 Plan de sondage2.2.2 Probabilites d’inclusion
2.3 SONDAGE ALEATOIRE SIMPLE AVEC REMISE (PEAR)2.3.1 Plan de sondage2.3.2 Probabilites d’inclusion
2.4 VARIABLES INDICATRICES
2.5 ESTIMATEUR
2.6 ESTIMATION D’UNE MOYENNE2.6.1 Sondage aleatoire PESR2.6.2 Sondage aleatoire PEAR
2.7 ESTIMATION D’UN TOTAL2.7.1 Estimateur de τ2.7.2 Esperance de τ2.7.3 Precision de τ
1
2.8 ESTIMATION D’UNE PROPORTION2.8.1 Estimateur de π2.8.2 Esperance de π2.8.3 Precision de π
2.9 EFFET DE (PLAN DE) SONDAGE2.9.1 Definition2.9.2 Exemple
2.10 INTERVALLES DE CONFIANCE2.10.1 Distribution d’echantillonnage de µ2.10.2 Intervalles de confiance2.10.3 Incertitude absolue et relative2.10.4 Determination de la taille d’un echantillon2.10.5 Exemples
2.11 ALGORITHMES POUR LES PLANS SIMPLES SANSREMISE
2.11.1 Methode du tri aleatoire2.11.2 D’autres methodes fournissant un plan de son-
dage de type PESR avec echantillons de taille n fixee apriori
2.11.3 Tirage de Bernoulli
2
2.1 DEFINITIONS
• Le nombre n de tirages a effectuer dans la populationest fixe a priori
• 2 procedures possibles de tirage aleatoire :
a) n tirages au hasard avec remise : n tirages au hasardsuccessifs et en replacant l’unite selectionnee dans lapopulation avant le tirage suivant
b) n tirages au hasard sans remise : n tirages au hasardsuccessifs et sans replacer l’unite selectionnee dans lapopulation avant le tirage suivant
⇓
Ω = s1, s2, . . . , sM : ensemble des echantillons que l’onpeut obtenir par la procedure de tirage aleatoire choisie
Caracteristiques du plan de sondage :
• Tous les individus de U ont la meme probabilite defaire partie de l’echantillon S qui sera selectionne : ilsont tous la meme probabilite d’inclusion
• Tous les echantillons appartenant a Ω se voient as-socier une (meme) probabilite connue non nulle deselection
3
Denominations :
• sondage PEAR : sondage aleatoire simple ou a proba-bilites egales, avec remise
• sondage PESR : sondage aleatoire simple ou a proba-bilites egales, sans remise
2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR)
2.2.1 Plan de sondage
• Les echantillons sont de la forme
s = i1, i2, . . . , in,
avec i1 6= i2 6= . . . 6= in ∈ U et ns = n
• Nombre M d’echantillons possibles :
M =
(Nn
)=
N !
n!(N − n)!
• Pour tout s ∈ Ω :
p(s) =1(Nn
)
4
• Exemple 2.1 :Population : U = 1, 2, 3, 4 =⇒ N = 4
Taille de l’echantillon a prelever : n = 2
Taux de sondage : f = n/N = 50%
Ensemble des echantillons pouvant etre obtenus par tiragealeatoire PESR :
Ω = 1, 2, 1, 3, 1, 4, 2, 3, 2, 4, 3, 4 =⇒ M = 6
On verifie que(Nn
)=
(42
)=
4!
2!(4− 2)!=
4!
2!2!=
4 · 3 · 22 · 2
= 6 = M
Probabilite de selection d’un echantillon s particulier :
p (2, 4)= P ((le 1er selectionne est 2 et le 2eme selectionne est 4)
ou (le 1er selectionne est 4 et le 2eme selectionne est 2))= P(le 1er selectionne est 2 et le 2eme selectionne est 4)
+P(le 1er selectionne est 4 et le 2eme selectionne est 2)= P(le 1er selectionne est 2)·P(le 2eme selectionne est 4| le 1er selectionne est 2)+P(le 1er selectionne est 4)·P(le 2eme selectionne est 2| le 1er selectionne est 4)
= 14 ·
13 + 1
4 ·13 = 2
12 = 16
=⇒ tous les echantillons s de Ω ont la meme probabilitede selection : p(s) = 1/6 pour tout s ∈ Ω
5
2.2.2 Probabilites d’inclusion
• La probabilite d’inclusion pi de l’individu i est la probabi-lite que cet individu i fasse partie de l’echantillon (aleatoire)S qui sera preleve ;en d’autres termes, pi est la probabilite de prelever unechantillon qui contienne l’individu i :
pi = P(i ∈ S) =∑
s∈Ω|i∈s
p(s)
• Dans le cas du sondage PESR, pour tout i ∈ U :
pi =∑
s∈Ω|i∈s
1(Nn
)=
nombre d’echantillons possibles contenant i(Nn
)
=
(N − 1n− 1
)(
Nn
) =n
N= taux de sondage
6
• Exemple 2.1 (suite) :Probabilite d’inclusion de l’individu 2 : 3 echantillons surles 6 echantillons possibles contiennent l’individu 2
=⇒ p2 =3
6=
1
2=
n
N
On verifie que tous les individus de U ont bien la memeprobabilite d’inclusion :
pi =1
2pour tout i ∈ U
7
2.3 SONDAGE ALEATOIRE SIMPLE AVEC REMISE (PEAR)
2.3.1 Plan de sondage
• Les echantillons possibles sont de la forme
s = i1, i2, . . . , in
avec i1, i2, . . . , in ∈ U. Un meme individu peut etre selectionnea plusieurs reprises (ns ≤ n).
• Nombre M d’echantillons possibles :
M = . . . (expression tres complexe)
M = nombre d’echantillons dont les n individus sont dis-tincts + nombre d’echantillons dans lesquels un individuest selectionne 2 fois et les (n − 2) autres individus sontdistincts + nombre d’echantillons dans lesquels 2 indivi-dus sont chacun selectionnes 2 fois et les (n − 4) autresindividus sont distincts + . . .
8
• Exemple 2.2 :
Population : U = 1, 2, 3, 4 =⇒ N = 4
Nombre de tirages a effectuer : n = 2
Ensemble des echantillons pouvant etre obtenus par tiragealeatoire PEAR :
Probabilite de selection d’un echantillon s particulier : memeraisonnement que dans l’exemple 2.1
p (2, 4) =1
4· 1
4+
1
4· 1
4
=2
16=
1
8
p (1, 1) =1
4· 1
4=
1
16
=⇒ on verifie que
p (1, 1) = p (2, 2) = p (3, 3) = p (4, 4) =1
16
p (1, 2) = p (1, 3) = . . . = p (3, 4) =2
16=
1
8
9
• On peut associer a tout echantillon s ∈ Ω une probabilitede selection p(s) telle que
p(s) > 0 et∑s∈Ω
p(s) = 1
MAIS, contrairement au sondage aleatoire PESR, les echantillonsde Ω ne sont pas tous equiprobables.
Remarque : Par contre, si on tient compte de l’ordre detirage dans la definition des echantillons, ces derniers re-deviennent equiprobables :
– Les echantillons possibles sont de la forme
so = (i1, i2, . . . , in)
avec i1, i2, . . . , in ∈ U et ik= individu selectionne lorsdu keme tirage (k = 1, . . . , n)
– Nombre Mo d’echantillons possibles :
Mo = Nn
– Pour tout so ∈ Ωo :
p(so) =1
Nn
10
Exemple 2.2 (suite) :
Ωo = (1, 1), (1, 2), (1, 3), (1, 4)
(2, 1), (2, 2), (2, 3), (2, 4)
(3, 1), (3, 2), (3, 3), (3, 4)
(4, 1), (4, 2), (4, 3), (4, 4)
=⇒ Mo = 16 = 42
p ((2, 4)) = P (le 1er selectionne est 2
et le 2eme selectionne est 4)
=1
4· 1
4=
1
16
On verifie que p(so) = 1/16 pour tout so ∈ Ωo
11
2.3.2 Probabilites d’inclusion
Pour tout i ∈ U :
pi = P(i ∈ S)
= 1− P(i /∈ S)
= 1− P(i n’est selectionne a aucun des n tirages)
= 1−(
N − 1
N
)n
= 1−(
1− 1
N
)n
=⇒ tous les individus de U ont bien la meme probabilited’inclusion
Exemple 2.2 (suite) :Probabilite d’inclusion de l’individu 2 :
p2 = 1−(
1− 1
4
)2
= 1−(
3
4
)2
=7
16
12
Remarque :
Si n << N , alors pi∼= n/N
=⇒ les probabilites d’inclusion pour le sondage PEAR sontpratiquement identiques a celles pour le sondage PESR
Exemple :
N = 1 000n = 10
=⇒ f =
n
N= 1%
PESR : pi = f = 1%
PEAR : pi = 1−(1− 1
1 000
)10
= 0.00995 ∼= 0.01 = 1%
13
2.4 VARIABLES INDICATRICES
S = echantillon (aleatoire) qui sera preleve
par n tirages aleatoires dans la population
nS = nombre d’individus distincts dans S
=⇒ sondage aleatoirePESR : nS = nPEAR : nS ≤ n
(PEAR : un meme individu peut etre selectionne a plu-sieurs reprises =⇒ nS est aleatoire)
Variables indicatrices d’inclusion : pour tout i ∈ U ,
• Ii =
1 si i ∈ S0 sinon
•
P(Ii = 1) = P(i ∈ S) = pi
P(Ii = 0) = P(i /∈ S) = 1− pi
=⇒ Ii ∼ Bin(1, pi)
=⇒
E(Ii) = pi
Var(Ii) = pi(1− pi)
•∑
i∈U Ii
= nombre d’individus de U qui font partie de l’ech. S= nS
14
•∑
i∈U pi =∑
i∈U E(Ii) = E(∑
i∈U Ii
)= E(nS)
Exemple : Pour le sondage PESR :∑i∈U
pi =∑i∈U
n
N= N · n
N= n
15
2.5 ESTIMATEUR
Objectif
Estimer un parametre-population θ :
θ = θ(y1, y2, . . . , yN) ∈ Θ
(cf. Section 1.2.3 : θ = τ, µ, σ2, π, . . .)
Estimateur θ de θ
• Un estimateur θ de θ est une fonction des valeurs ob-servees pour Y dans l’echantillon preleve, qui prendses valeurs dans l’ensemble Θ des valeurs possibles deθ :
θ = h(yi; i ∈ S) ∈ Θ
• θ est une variable aleatoire :on ne peut pas predire al’avance quels individus feront partie de l’echantillonparticulier s qui sera effectivement preleve
=⇒ on ne peut pas predire a l’avance quelles valeursde Y seront observees dans l’echantillon particulier squi sera effectivement preleve
=⇒ on ne peut pas predire a l’avance quelle valeurprendra θ dans l’echantillon particulier s qui sera ef-fectivement preleve
16
• La valeur prise par θ dans l’echantillon particulier s estnotee θs :
θs = h(yi; i ∈ s);
cette valeur θs fournit une estimation de θ.
• Comme toute variable aleatoire, l’estimateur θ possedeune certaine distribution de probabilite, appelee distri-bution d’echantillonnage, etroitement liee au plan desondage : (
• En general, la valeur prise par un estimateur dans unechantillon est differente de la valeur du parametrequ’il cherche a estimer.Ex. : En general, la moyenne-echantillon est distinctede la moyenne-population.
• La valeur θs prise par l’estimateur θ dans l’echantillons n’est qu’une estimation de la valeur exacte du pa-rametre-population θ.
• L’erreur que l’on commet en remplacant θ par θs n’estpas imputable a une incompetence dans des mesuresou des calculs : elle resulte du fait qu’une partie de lapopulation a ete omise. Cette erreur est appelee erreurd’echantillonnage.
• On peut evaluer l’importance de l’erreur d’echantillonnageassociee a un estimateur en calculant le biais et la va-riance ou l’erreur quadratique moyenne de cet estima-teur.
20
Deux proprietes sont generalement recherchees pour unestimateur :
– etre sans biais– avoir une bonne precision
21
Biais d’un estimateur
• Un estimateur θ du parametre-population θ est sansbiais (non biaise) si et seulement si
E(θ) = θ
Ex. : µ est un estimateur sans biais de µ ; π est unestimateur sans biais de π ; σ2 est un estimateur biaisede σ2
• Le biais de l’estimateur θ est
B(θ) = E(θ)− θ
22
Precision d’un estimateur
• La precision d’un estimateur est mesuree par son er-reur quadratique moyenne EQM(θ) (mean squared er-ror MSE(θ)) :
EQM(θ) = E[(θ − θ)2
]=∑s∈Ω
p(s)(θs − θ)2
= Var(θ) +(B(θ)
)2
• Si θ est un estimateur sans biais de θ, alors
EQM(θ) = Var(θ)
Distributions d’echantillonnage de θ1 et θ2 :
E(θ1) = E(θ2) = θ ; Var(θ1) < Var(θ2)
P(θ − ε ≤ θ1 ≤ θ + ε
)> P
(θ − ε ≤ θ2 ≤ θ + ε
)La probabilite de prendre une valeur fort proche de θest plus grande pour θ1 que pour θ2.
23
2.6 ESTIMATION D’UNE MOYENNE
2.6.1 Sondage aleatoire PESR
Echantillon de taille n
a) Estimateur de µ :
µPESR =1
n
∑i∈S
yi = y (moyenne-echantillon)
b) µPESR est sans biais : E(µPESR) = µ
Dem. :
E(µPESR) = E
(1
n
∑i∈S
yi
)= E
(1
n
∑i∈U
yiIi
)=
1
n
∑i∈U
yi E(Ii)
=1
n
∑i∈U
yi pi car E(Ii) = pi
=1
n
∑i∈U
yin
Ncar pi = n
N (PESR)
=1
N
∑i∈U
yi = µ
24
c) Precision de µPESR :
Var(µPESR) =
(1
n− 1
N
)σ2
corr = (1− f )σ2
corr
n
ou
f =n
Net σ2
corr =1
N − 1
∑i∈U
(yi − µ)2
La variance et donc la precision de µPESR dependent detrois elements :• la taille n de l’echantillon : plus l’echantillon est grand,
plus l’estimation de µ est precise
• le taux de sondage f : plus f est proche de 1, c’est-a-dire plus la taille de l’echantillon est proche de cellede la population, plus l’estimation de µ est precise. Ala limite, pour f = 1 (echantillon egal a la populationtout entiere), Var(µPESR) = 0 : il n’y a plus d’erreurd’echantillonnage
• la variance σ2corr de la variable d’interet Y dans la po-
pulation U : plus la population est homogene (σ2corr pe-
tite), plus le sondage y est efficace. Par contre, sonderune population tres heterogene (σ2
corr grande) necessite,pour s’assurer que Var(µPESR) ne soit pas trop elevee,de prelever un echantillon de taille importante ou derealiser un decoupage prealable en sous-populationshomogenes (cf. sondage stratifie)
25
d) Estimation de Var(µPESR)
On peut montrer que la variance-echantillon corrigee
s2corr =
1
n− 1
∑i∈S
(yi − y)2
est un estimateur sans biais de σ2corr. Des lors,
Var(µPESR) = (1− f )s2
corr
n
est un estimateur sans biais de Var(µPESR).
La valeur prise par Var(µPESR) dans l’echantillon s parti-culier effectivement preleve nous fournit une estimation dela variance, et donc de la precision, de l’estimateur µPESR
de µ.
26
e) Exemple 2.4
Une population U est composee des cinq nombres 2, 3, 6, 8 et 11.
On veut estimer la moyenne-population µ a partir d’un echantillon
d’effectif 2 preleve dans U selon une procedure PESR.
→ Estimateur de µ : y. Proprietes de y ?
Parametres de la population :
µ =2 + 3 + 6 + 8 + 11
5= 6
σ2 =(2− 6)2 + . . . + (11− 6)2
5= 10.8
σ2corr =
5
4(10.8) = 13.5
Taux de sondage :
f =n
N=
2
5= 0.4 = 40%
Nombre d’echantillons possibles :(N
n
)=
(5
2
)=
5!
2!(5− 2)!=
5!
2!3!=
5× 4× 3× 2× 1
2× 1× 3× 2× 1= 10
27
Plan de sondage et distribution d’echantillonnage de y :
Echantillons
possibles : s p(s) ys
2, 3 1/10 2.5
2, 6 1/10 4
2, 8 1/10 5
2, 11 1/10 6.5
3, 6 1/10 4.5
3, 8 1/10 5.5
3, 11 1/10 7
6, 8 1/10 7
6, 11 1/10 8.5
8, 11 1/10 9.5
1
E(y) =1
10(2.5) +
1
10(4) + . . . +
1
10(9.5) = 6 = µ
Var(y) =1
10(2.5− 6)2 +
1
10(4− 6)2 + . . . +
1
10(9.5− 6)2 = 4.05
On verifie bien que Var(y) = (1− f )σ2corrn = (1− 0.4)13.5
2 = 4.05.
Supposons que le hasard nous fasse selectionner l’echantillon 2, 3.Dans ce cas, y = 2.5 (estimation de µ) et
s2corr =
1
2− 1
[(2− 2.5)2 + (3− 2.5)2
]= 0.5 .
On estime alors Var(y) par
(1− f )s2
corr
n= (1− 0.4)
0.5
2= 0.15 .
28
2.6.2 Sondage aleatoire PEAR
n tirages aleatoires avec remise dans la population
nS = nombre (aleatoire) d’individus distincts dans l’echantillonS qui sera preleve
(i) Lien avec l’inference statistique classique
F Dans la population U :
Les valeurs prises par la variable d’interet Y chez les Nindividus de U sont
y1, y2, . . . , yN
=⇒
µ = 1
N
∑i∈U yi
σ2 = 1N
∑i∈U(yi − µ)2
F Tirage au hasard (a probabilites egales) d’un individudans la population :
• Il s’agit d’une experience aleatoire dont l’ensemble desresultats possibles est U .
• On peut associer a cette experience aleatoire la va-riable aleatoire Z qui prend la valeur yi si l’individuselectionne est l’individu i.
29
Cette v.a. Z possede une distribution de probabilitequi coıncide avec la distribution (de frequences) de Ydans U : pour i = 1, . . . , N,
P(Z = yi) = P(l’individu selectionne est l’individu i)
= 1/N
⇓E(Z) = µ
Var(Z) = σ2
F n tirages a probabilites egales et avec remise (PEAR)dans la population :
• On associe au keme tirage (k = 1, . . . , n) la va-riable aleatoire Zk qui prend la valeur yi si l’individuselectionne au keme tirage est l’individu i :
Zk = yi si ik = i;
P(Zk = yi) = P (l’individu selectionne au keme tirage
est l’individu i) = 1/N
=⇒
E(Zk) = µ
Var(Zk) = σ2(k = 1, . . . , n)
• Les Zk (k = 1, . . . , n) sont des v.a. independantes etidentiquement distribuees (i.i.d.)
30
(ii) Tirage de n individus distincts : nS = n
a) Estimateur de µ :
µPEAR =1
n
∑i∈S
yi = y (moyenne-echantillon)
Autre ecriture possible : µPEAR = 1n
∑nk=1 Zk
b) µPEAR est sans biais :
E(µPEAR) = µ
Dem. :
E(µPEAR) =1
n
n∑k=1
E(Zk) =1
n
n∑k=1
µ = µ
c) Precision de µPEAR :
Var(µPEAR) =σ2
nDem. :
Var(µPEAR) = Var
(1
n
n∑k=1
Zk
)=
1
n2
n∑k=1
Var(Zk)
=1
n2
n∑k=1
σ2 =nσ2
n2=
σ2
n
31
Pour le sondage aleatoire PEAR, comme dans le cas dusondage aleatoire PESR, la variance et donc la precisionde µPEAR depend de• la taille n de l’echantillon• la variance σ2 de la variable d’interet Y dans la po-
pulation U=⇒ plus l’echantillon est grand et la population esthomogene, plus l’estimation de µ est precise
MAIS,
contrairement au cas du sondage aleatoire PESR, lavariance de µPEAR ne depend pas de la taille N dela population (et donc du taux de sondage f), ce quin’est pas necessairement tres intuitif ! ! !
d) Estimation de Var(µPEAR) :
La variance-echantillon corrigee
s2corr =
1
n− 1
∑i∈S
(yi − y)2
est un estimateur sans biais de σ2 (cf. cours de statis-tique de base). Des lors,
Var(µPEAR) =s2
corr
n
est un estimateur sans biais de Var(µPEAR)
32
e) Exemple 2.4 (suite)
Nombre d’echantillons possibles dans le cas PEAR (si l’on tient compte
de l’ordre du tirage) : N 2 = 25.
Echantillons Echantillons
possibles : s p(s) ys possibles : s p(s) ys
2, 2 1/25 2 8, 2 1/25 5
2, 3 1/25 2.5 8, 3 1/25 5.5
2, 6 1/25 4 8, 6 1/25 7
2, 8 1/25 5 8, 8 1/25 8
2, 11 1/25 6.5 8, 11 1/25 9.5
3, 2 1/25 2.5 11, 2 1/25 6.5
3, 3 1/25 3 11, 3 1/25 7
3, 6 1/25 4.5 11, 6 1/25 8.5
3, 8 1/25 5.5 11, 8 1/25 9.5
3, 11 1/25 7 11, 11 1/25 11
6, 2 1/25 4
6, 3 1/25 4.5
6, 6 1/25 6
6, 8 1/25 7
6, 11 1/25 8.5
33
⇒ Distribution d’echantillonnage de y :
Valeurs possibles
de y Probas
2 1/25
2.5 2/25
3 1/25
4 2/25
4.5 2/25
5 2/25
5.5 2/25
6 1/25
6.5 2/25
7 4/25
8 1/25
8.5 2/25
9.5 2/25
11 1/25
1
E(y) =1
25(2) +
2
25(2.5) + . . . +
1
25(11) = 6 = µ
Var(y) =1
25(2− 6)2 +
2
25(2.5− 6)2 + . . . +
1
25(11− 6)2 = 5.4
On verifie bien que Var(y) = σ2
n = 10.82 = 5.4.
Supposons que le hasard nous fasse selectionner l’echantillon 2, 3.Dans ce cas, y = 2.5 (estimation de µ) et s2
corr = 0.5. On estime alors
Var(y) pars2
corr
n=
0.5
2= 0.25 .
34
(iii) Tirage de m individus distincts : nS = m < n
1) Utilisation des n observations
Memes resultats qu’en (ii) (→ µPEAR)
2) Prise en compte seulement des m individus distincts
a) Estimateur de µ :
µdiff =1
nS
∑i∈Sdiff
yi
ou• S = echantillon aleatoire constitue des n individus
preleves• Sdiff = ensemble des individus distincts selectionnes• nS = #Sdiff = nombre d’individus distincts dans S
Remarque :S est aleatoire ⇒ Sdiff et nS sont aleatoires ⇒ lenombre d’observations a prendre en considerationpour calculer µdiff est aleatoire : difficulte supplementaire ! ! !
b) µdiff est sans biais :
E(µdiff) = µ
35
c) Precision de µdiff :
• Var(µdiff) ∼=(
1n −
12N + n−1
12N2
)σ2
corr
• Var(µdiff) ≤ Var(µPEAR) :
dans le cas du prelevement de n individus par son-dage PEAR, il est toujours plus interessant de neconserver que les unites statistiques distinctes.
36
2.7 ESTIMATION D’UN TOTAL
Dans la population U : τ =∑
i∈U yi = Nµ
2.7.1 Estimateur de τ
Dans le cas du sondage PESR comme dans celui du son-dage PEAR ou l’on utilise les n observations de l’echantillon,on estime µ par y, que nous designerons simplement parµ
=⇒ Estimateur de τ : τ = Nµ
N.B.) N est suppose connu
2.7.2 Esperance de τ
Dans le cas des sondages PESR et PEAR ou l’on utilise lesn observations de l’echantillon :
E(µ) = µ
=⇒ E(τ ) = NE(µ) = Nµ = τ
=⇒ τ est un estimateur sans biais de τ
37
2.7.3 Precision de τ
Var(τ ) = Var(Nµ) = N 2Var(µ)
a) Sondage aleatoire PESR
• Var(τ ) = N 2(1− f )σ2corr/n
• Var(τ ) = N 2(1− f )s2corr/n
b) Sondage aleatoire PEAR (utilisation des n observationsde l’echantillon)
• Var(τ ) = N 2σ2/n
• Var(τ ) = N 2s2corr/n
38
2.8 ESTIMATION D’UNE PROPORTION
• U est partage en deux sous-ensembles : K1 et K2
Ex. : K1 = ensemble des individus de la population U quipossedent une certaine caracteristique
• π = proportion d’individus de U qui appartiennent a K1
• π peut etre vu comme une moyenne-population :Soit
yi =
1 si i ∈ K1
0 si i ∈ K2(i = 1, . . . , N)
⇒
µ = 1
N
∑i∈U yi = π
σ2 = 1N
∑i∈U(yi − µ)2 = 1
N
∑i∈U y2
i − µ2
= 1N
∑i∈U yi − µ2 = π − π2 = π(1− π)
2.8.1 Estimateur de π
Dans le cas des sondages PESR et PEAR ou l’on utilise lesn observations de l’echantillon :
π = µ = y = 1n
∑i∈S yi
= proportion d’individus dans l’echantillonqui appartiennent a K1
39
2.8.2 Esperance de π
Dans le cas des sondages PESR et PEAR ou l’on utilise lesn observations de l’echantillon :
E(π) = π
=⇒ π est sans biais
2.8.3 Precision de π
a) Sondage aleatoire PESR
•
Var(π) = (1− f )σ2
corr
n= (1− f )
1
n· N
N − 1σ2
= (1− f )Nπ(1− π)
(N − 1)n= (1− n
N)Nπ(1− π)
(N − 1)n
=N − n
N − 1· π(1− π)
n
∼= (1− f )π(1− π)
nsi
N
N − 1∼= 1
40
• Un estimateur sans biais de σ2corr est
s2corr =
1
n− 1
∑i∈S
(yi − y)2
=n
n− 1
(1
n
∑i∈S
(yi − y)2
)
=n
n− 1
(1
n
∑i∈S
y2i − y2
)
=n
n− 1
(1
n
∑i∈S
yi − y2
)=
n
n− 1
(π − π2
)=
n
n− 1π(1− π)
=⇒ Un estimateur sans biais de Var(π) = (1−f )σ2corrn
est
Var(π) = (1− f )π(1− π)
n− 1
41
b) Sondage aleatoire PEAR (utilisation des n observationsde l’echantillon)
• Var(π) = σ2
n = π(1−π)n
• Un estimateur sans biais de σ2 est s2corr = n
n−1π(1− π)
=⇒ un estimateur sans biais de Var(π) = σ2
n est
Var(π) =π(1− π)
n− 1
En conclusion : facteurs jouant sur Var(π) (ou√
Var(π))
PEAR :√
Var(π) =
√π(1− π)
n
PESR :√
Var(π) ≈√
(1− f )π(1− π)
n
≈√
π(1− π)
nsi f fort petit
42
Valeurs de√
π(1−π)n en fonction de π et de n
(Valeurs en multiples de .01)
p → .05 .10 .15 .20 .25 .30 .35 .40 .45 .50
n ↓100 2.2 3.0 3.6 4.0 4.3 4.6 4.8 4.9 5.0 5.0
150 1.8 2.4 2.9 3.2 3.5 3.7 3.8 3.9 4.1 4.1
200 1.5 2.1 2.5 2.8 3.1 3.2 3.4 3.5 3.5 3.5
250 1.4 1.9 2.3 2.5 2.7 2.9 3.0 3.1 3.1 3.2
300 1.3 1.7 2.1 2.3 2.5 2.6 2.8 2.8 2.9 2.9
350 1.2 1.6 1.9 2.1 2.3 2.4 2.5 2.6 2.7 2.7
400 1.1 1.5 1.8 2.0 2.2 2.3 2.4 2.4 2.5 2.5
450 1.0 1.4 1.7 1.9 2.0 2.2 2.2 2.3 2.3 2.4
500 1.0 1.3 1.6 1.8 1.9 2.0 2.1 2.2 2.2 2.2
600 .9 1.2 1.5 1.6 1.8 1.9 1.9 2.0 2.0 2.0
700 .8 1.1 1.3 1.5 1.6 1.7 1.8 1.9 1.9 1.9
800 .8 1.1 1.3 1.4 1.5 1.6 1.7 1.7 1.8 1.8
900 .7 1.0 1.2 1.3 1.4 1.5 1.6 1.6 1.7 1.7
1 000 .7 .9 1.1 1.3 1.4 1.4 1.5 1.5 1.6 1.6
1 500 .6 .8 .9 1.0 1.1 1.2 1.2 1.3 1.3 1.3
2 000 .5 .7 .8 .9 1.0 1.0 1.1 1.1 1.1 1.1
2 500 .4 .6 .7 .8 .9 .9 1.0 1.0 1.0 1.0
3 000 .4 .5 .7 .7 .8 .8 .9 .9 .9 .9
4 000 .3 .5 .6 .6 .7 .7 .8 .8 .8 .8
5 000 .3 .4 .5 .6 .6 .6 .7 .7 .7 .7
10 000 .2 .3 .4 .4 .4 .5 .5 .5 .5 .5
20 000 .2 .2 .3 .3 .3 .3 .4 .4 .4 .4
43
2.9 EFFET DE (PLAN DE) SONDAGE
Question : Lorsqu’on desire estimer un parametre-populationpar sondage et qu’on a le choix entre plusieurs plans desondage possibles, lequel doit-on utiliser ?
Reponse : L’ideal est de pouvoir appliquer le plan de son-dage donnant lieu a l’estimateur le plus precis du parametre-population.
L’effet de sondage est une mesure permettant de comparerdeux plans de sondage en termes de precision des estima-teurs qu’ils fournissent.
2.9.1 Definition
• θ : parametre a estimer
• On dispose de deux plans de sondage differents (pourla meme taille d’echantillon n) :
P1 = (s, p1(s)); s ∈ Ω1P2 = (s′, p2(s
′)); s′ ∈ Ω2
• θ1 : estimateur de θ si l’on suit le plan de sondage P1
θ2 : estimateur de θ si l’on suit le plan de sondage P2
44
• Si θ1 et θ2 sont deux estimateurs sans biais de θ, alorsl’effet de sondage de P1 par rapport a P2 est defini par
D(P1|P2) =VarP1(θ1)
VarP2(θ2)
• Interpretation :
D(P1|P2) < 1
⇐⇒ VarP1(θ1) < VarP2(θ2)
⇐⇒ pour une meme taille d’echantillon n, l’estima-teur θ1 est plus precis que l’estimateur θ2
⇐⇒ le plan de sondage P1 permet une estimation plusprecise de θ que le plan de sondage P2
2.9.2 Exemple
Prenons θ = µ.
La taille n de l’echantillon est fixee a priori.
P1 : sondage aleatoire PESR : θ1 = µPESR = y et
VarPESR(y) =
(1
n− 1
N
)σ2
corr =N − n
N − 1· σ
2
n
P2 : sondage aleatoire PEAR : θ2 = µPEAR = y et
VarPEAR(y) =σ2
n45
=⇒ D(PESR|PEAR) = N−nN−1
∼= 1− f < 1
=⇒ PESR doit etre prefere a PEAR
Exemple 2.4 (suite)
L’effet de sondage est donne par
D(PESR|PEAR) =VarPESR(y)
VarPEAR(y)=
4.05
5.4= 0.75 < 1.
y est un estimateur de µ plus precis dans le cas PESR ;les valeurs possibles de y sont moins dispersees autour deµ = 6 dans le cas PESR que dans le cas PEAR.
Remarques :
• On peut montrer que, pour un meme nombre n de ti-rages,
Var(µPESR) ≤ Var(µdiff) ≤ Var(µPEAR);
le plan aleatoire simple sans remise est toujours preferableet, si le plan est avec remise, il est toujours plus interessantde ne conserver que les unites statistiques distinctes.
46
• Si n est petit par rapport a N (cad le taux de sondagef est tres petit), alors le gain en precision de PESR parrapport a PEAR est tres faible.
• En pratique, le choix du plan de sondage ne se fonde passur le seul critere de la precision de l’estimateur. Ce choixdoit se faire en tenant compte aussi
– du cout de l’operation
– des possibilites d’application
– des facilites d’application
Ces differents criteres sont parfois contradictoires !
47
2.10 INTERVALLES DE CONFIANCE
2.10.1 Distribution d’echantillonnage de µ
(i) Sondage aleatoire PEAR
• Rappels :
– n tirages au hasard successifs avec remise
– On associe au keme tirage (k = 1, . . . , n) la va-riable aleatoire Zk qui prend la valeur yi si l’individuselectionne au keme tirage est l’individu i
– Z1, Z2, . . . , Zn sont des v.a.’s i.i.d. telles que
E(Zk) = µ et Var(Zk) = σ2
pour tout k = 1, . . . , n ; Zk a une distribution deprobabilite qui coıncide avec la distribution de frequencesde la variable d’interet Y dans la population U
• Si Y a une distribution de frequences que l’on peut”approcher” (ajuster) par la loi N(µ, σ2), alors on peutconsiderer que Z1, Z2, . . . , Zn sont i.i.d. N(µ, σ2)et
µ =1
n
n∑k=1
Zk ∼ N
(µ,
σ2
n
)⇐⇒ µ− µ
σ/√
n∼ N(0, 1)
48
Si, de plus, σ2 est inconnu, on peut l’estimer par sonestimateur sans biais s2
corr et on a
µ− µ
scorr/√
n∼ tn−1
• Dans le cas ou l’on ne connaıt pas la distribution de Ydans U , le theoreme central limite (TCL) nous indiqueque, si n ≥ 30,
µ− µ
σ/√
n≈ N(0, 1)
Si, de plus, σ2 est inconnu, on peut l’estimer par sonestimateur sans biais s2
corr et on a
µ− µ
scorr/√
n≈ N(0, 1)
(ii) Sondage aleatoire PESR
• Si on definissait des v.a.’s Zk (k = 1, . . . , n) commepour le sondage aleatoire PEAR, elles ne seraient niindependantes, ni equidistribuees=⇒ impossibilite de faire appel au TCL classique=⇒ utilisation d’un theoreme central pour populationfinie
49
• Si U (N) est une population de taille N , de moyenneµ(N) et de variance (σ(N))2
etsi y(n) est la variable aleatoire correspondant a la moyennearithmetique des observations d’un echantillon aleatoireS(n) de taille n : y(n) = 1
n
∑i∈S(n) yi,
alorsy(n) − µ(N)√
Var(y(n))≈ N(0, 1)
quand n → ∞ et N − n → ∞, et sous des condi-tions generales liees a la part de (σ(N))2 due a chaqueelement de U (N)
• Sous des conditions identiques :
y(n) − µ(N)√Var(y(n))
≈ N(0, 1)
50
2.10.2 Intervalles de confiance
De maniere generale, si θ est un estimateur non biaise deθ et si on peut supposer que
θ − θ√Var(θ)
≈ N(0, 1),
l’intervalle de confiance pour θ au niveau de confiance 1−α(0 < α < 1) est donne par[
θ ± z1−α/2
√Var(θ)
],
ou z1−α/2 est le quantile d’ordre 1− α/2 de la loi N(0, 1)
(si X ∼ N(0, 1), alors P[X ≤ z1−α/2] = 1− α/2)
Dem. :
Si X ∼ N(0, 1), alors
P(−z1−α/2 ≤ X ≤ z1−α/2) = 1− α.
51
Puisque θ−θ√Var(θ)
≈ N(0, 1), on a donc
P
(−z1−α/2 ≤ θ−θ√
Var(θ)≤ z1−α/2
)∼= 1− α
=⇒ P
(θ − z1−α/2
√Var(θ) ≤ θ ≤ θ + z1−α/2
√Var(θ)
)∼= 1− α
N.B.)• si 1− α = 95%, alors z1−α/2 = z0.975 = 1.96
• si 1− α = 90%, alors z1−α/2 = z0.95 = 1.645
(i) I.C. pour µ au niveau de confiance 1− α :[µ± z1−α/2
√Var(µ)
]PESR :
[µ± z1−α/2
√(1− f )s2
corrn
]PEAR :
[µ± z1−α/2
√s2corrn
]
52
(ii) I.C. pour τ au niveau de confiance 1− α :[τ ± z1−α/2
√Var(τ )
]PESR :
[τ ± z1−α/2
√N 2(1− f )s2
corrn
]PEAR :
[τ ± z1−α/2
√N2s2
corrn
](iii) I.C. pour π au niveau de confiance 1− α :[
π ± z1−α/2
√Var(π)
]PESR :
[π ± z1−α/2
√(1− f ) π(1−π)
n−1
]PEAR :
[π ± z1−α/2
√π(1−π)
n−1
]Remarque :
L’I.C. pour θ est un intervalle aleatoire : les valeurs de sesbornes varient d’un echantillon a l’autre.
53
Exemple 2.5
Un echantillon de 400 automobilistes d’un pays comprend 40 pro-
prietaires d’une voiture de marque A. Construisez un intervalle de
confiance, au niveau de confiance de 95%, pour la proportion reelle
d’automobilistes de ce pays qui possedent une voiture de marque A,
en considerant que l’echantillon a ete preleve selon un tirage PESR
dans une population de taille
a) N = 5 000 ;
b) N = 100 000.
Solution
n = 400
π = proportion d’automobilistes possedant une voiture de marque A
dans le pays
π = 40/400 = 0.1
L’I.C. pour π au niveau de confiance de 95% est[π ± z0.975
√Var(π)
]=
[π ± (1.96)
√Var(π)
].
Puisque le tirage est PESR, nous avons
Var(π) = (1− f )π(1− π)
n− 1= (1− f )
(0.1)(0.9)
399= (1− f )(0.00023)
a) Si N = 5 000, le taux de sondage est egal a f = 4005 000 = 0.08 =
8%. On a alors
Var(π) = (0.92)(0.00023) = 0.00021
⇒√
Var(π) = 0.01441
54
L’I.C. pour π au niveau de confiance de 95% est alors
[0.1± (1.96)(0.01441)] = [0.1± 0.02823]
= [0.07177 ; 0.12823] = [7.177% ; 12.823%]
b) Si N = 100 000, le taux de sondage est egal a f = 400100 000 =
0.004. On a alors
Var(π) = (0.996)(0.00023) = 0.00022
⇒√
Var(π) = 0.01499
L’I.C. pour π au niveau de confiance de 95% est alors
[0.1± (1.96)(0.01499)] = [0.1± 0.02938]
= [0.07062 ; 0.12938] = [7.062% ; 12.938%]
On voit donc sur cet exemple que, lorsque le taux de sondage diminue
(a taille n d’echantillon fixee), la precision (estimee) de l’estimateur π
de π diminue et, par consequent, l’I.C. s’elargit quelque peu.
Exemple 2.6
145 menages de touristes sejournant en France dans une region donnee
ont depense, en moyenne journaliere, 35.5 Euros ; l’ecart-type de ces
145 depenses journalieres s’eleve a 8.4 Euros. Sachant que dans la
region ou a ete effectuee l’enquete il est venu 50 000 menages de tou-
ristes, que peut-on dire de la depense globale journaliere de l’ensemble
de ces menages (on suppose que l’echantillon est du type PESR) ?
55
Solution
Parametre a estimer : τ = depense journaliere globale des 50 000
menages de touristes.
τ = Ny = (50 000)(35.5) = 1 775 000 Euros
Le tirage etant PESR, on a
Var(τ ) = N 2(1− f )s2
corr
n
f =145
50 000= 0.0029 = 0.29%
s2corr =
145
144(8.4)2 = 71.05
= (50 000)2(1− 0.0029)71.05
145= 1 221 447 500
L’I.C. pour τ au niveau de confiance de 95% est des lors egal a[τ ± z0.975
√Var(τ )
]= [1 775 000± (1.96)(34 949.21)]
= [1 775 000± 68 500.46]
= [1 706 499.54 ; 1 843 500.46]
Il y a donc 95 chances sur 100 que la depense journaliere globale des
50 000 menages de touristes soit comprise entre (approximativement)
1 706 500 Euros et 1 843 500 Euros.
56
2.10.3 Incertitude absolue et relative
• Si l’I.C. pour θ est de la forme [θ − d, θ + d], d estappele incertitude absolue (= demi-longueur de l’I.C.)
De maniere generale,
d = z1−α/2
√Var(θ)
• L’incertitude relative est definie par d/θ (en %)
• (i) Incertitude absolue pour µ / PESR
z1−α/2
√(1− f )
s2corr
n
(ii) Incertitude absolue pour τ / PESR
z1−α/2
√N 2(1− f )
s2corr
n
(iii) Incertitude absolue pour π / PESR
z1−α/2
√(1− f )
π(1− π)
n− 1
• Tout comme l’I.C., l’incertitude absolue d est aleatoire :sa valeur varie d’un echantillon a l’autre.
57
• d depend de α et de Var(θ) (et donc aussi, de faconindirecte, de Var(θ) et de n) :
1) 1− α =⇒ z1−α/2 =⇒ d 2) n =⇒ d
• Pour une proportion π, l’incertitude absolue d dependde π (ou π). Pour un niveau de confiance de 95% :
d = 1.96
√(1− f )
π(1− π)
n− 1
∼= 2
√(1− f )
π(1− π)
n
< 2
√π(1− π)
n≤ 2
√1
4n=
1√n
Valeur de 1/√
n(incertitude absolue maximale pour 1− α = 95%)
n 1/√
n100 10%400 5%
1 000 3%1 600 2.5%10 000 1%
58
• Incertitude relative d/π (en %) pour l’estimateur πd’une proportion
2.10.4 Determination de la taille d’un echantillon
Probleme : Comment doit-on choisir la taille n de l’echantillonpour que l’incertitude absolue d ne depasse pas une cer-taine valeur d0 fixee a priori ?N.B.) Le niveau de confiance (1− α) est fixe.
Solution : De maniere generale, il faut trouver les valeursde n qui permettent de satisfaire l’inegalite
d = z1−α/2
√Var(θ) ≤ d0 .
(i) Estimation de µ :
• PESR :
z1−α/2
√(1− f )s2
corrn ≤ d0
⇒ z1−α/2
√(1− n
N )s2corrn ≤ d0
⇒ n ≥Nz2
1−α/2s2corr
Nd20 + z2
1−α/2s2corr
= nPESR
• PEAR :
z1−α/2
√s2corrn ≤ d0
⇒ n ≥z21−α/2
s2corr
d20
= nPEAR
60
MAISs2
corr est la variance-echantillon corrigee et depend doncelle aussi de la taille n de l’echantillon !
=⇒ on remplace s2corr par la variance-echantillon corrigee
observee dans un echantillon preleve lors d’une etude preliminaireou d’une etude anterieure du meme type
Remarque :nPESR et nPEAR sont les tailles minimales d’echantillon aprendre pour un sondage aleatoire PESR et pour un son-dage aleatoire PEAR respectivement. On verifie que
nPESR =nPEAR
1 + nPEAR−1N
⇓• si nPEAR > 1, alors nPESR < nPEAR :
pour une meme incertitude absolue d0 fixee a priori,la procedure PESR ”coute moins cher” en termes denombre d’individus a prelever que la procedure PEAR
• si N est grand, alors nPESR∼= nPEAR :
l’avantage de la procedure PESR par rapport a la procedurePEAR n’est pas tres marque si la population sondee estde grande taille
61
(ii) Estimation de π :
• PESR :
d = z1−α/2
√(1− f ) π(1−π)
n−1
∼= z1−α/2
√(1− f ) π(1−π)
n ≤ d0
=⇒ n ≥Nz2
1−α/2π(1−π)
Nd20 + z2
1−α/2π(1−π)
• PEAR :
d = z1−α/2
√π(1−π)
n−1
∼= z1−α/2
√π(1−π)
n ≤ d0
=⇒ n ≥z21−α/2
π(1−π)
d20
avec π remplace par la proportion-echantillon observeedans un echantillon preleve lors d’une etude preliminaireou d’une etude anterieure du meme type.
Remarque : Dans le cas PEAR, puisque π(1 − π) ≤ 1/4quelle que soit la valeur de π, on peut aussi prendre commetaille minimale d’echantillon,
z21−α/2
4d20
=
(z1−α/2
2d0
)2
;
cette alternative est interessante dans le cas ou l’on nedispose pas d’estimation preliminaire de π.
62
2.10.5 Exemples
a) Cas d’une moyenne
• Population U constituee de N = 1000 employes
• Variable d’interet : Y = salaire mensuel net
• Parametre-population : µ = salaire mensuel net moyendans la population U
• Plan de sondage : n = 50 (f = 50/1000 = 0.05) -sondage aleatoire PESR
• Dans l’echantillon s preleve :
y = 1100 Euros
s2corr = 62500
⇒ Var(y) = (1− f )s2corrn = (1− 0.05)62500
50 = 1187.5
⇒ I.C. pour µ au niveau de confiance de 95% :
[1100±(1.96)√
1187.5] = [1100±67.54] = [1032.46; 1167.54]
⇒ Incertitude absolue : d = 67.54
⇒ Incertitude relative : d/y = 67.54/1100 = 6.14%
63
• Quelle taille d’echantillon faut-il choisir pour pouvoirobtenir une incertitude absolue inferieure ou egale ad0 = 25 Euros ?
Si l’on prend s2corr = 62500 comme estimation preliminaire
de la variance-population (corrigee), il faut prendre lataille n de l’echantillon superieure ou egale a
1000 (1.96)2 62500
1000 (25)2 + (1.96)2 62500= 277.54
⇒ il faut prelever au minimum 278 individus
b) Cas d’une proportion
• Population U constituee de N = 10000000 personnes
• Variable d’interet : Y = soutien a un programme
yi =
1 si l’individu i soutient le programme0 sinon
• Parametre-population : π = proportion de personnesdans la population U qui soutiennent le programme
• Plan de sondage : n = 1000 (f = 1000/10000000) -sondage aleatoire PESR
64
• Dans l’echantillon s preleve :
π = 0.20
⇒ Var(π) = 999900010000000 ·
(0.20)(0.80)999 = 0.00016
⇒ I.C. pour π au niveau de confiance de 95% :
[0.20±(1.96)√
0.00016] = [0.20±0.025] = [0.175; 0.225]
⇒ Incertitude absolue : d = 0.025
⇒ Incertitude relative : d/π = 0.025/0.20 = 12.5%
• Quelle taille d’echantillon faut-il choisir pour pouvoirobtenir une incertitude absolue ne depassant pas d0 =0.01 ?
Si l’on prend π = 0.20 comme estimation preliminairede la proportion-population π, il faut prendre la taillen de l’echantillon superieure ou egale a
10000000(1.96)2(0.20)(1− 0.20)
10000000(0.01)2 + (1.96)2(0.20)(1− 0.20)= 6142.78
⇒ il faut prendre au minimum 6143 individus
N.B.) On verifie ici que, puisque N est grand,
nPESR∼= nPEAR =
(1.96)2(0.20)(1− 0.20)
(0.01)2= 6146.56
65
c) Cas d’une proportion
Un Tour Operator desire tester l’idee d’un nouveau mode de distribu-
tion de voyages organises aupres de son reseau d’agences de voyages,
qui comprend 3 000 agences.
S’il veut estimer le nombre d’agences favorables a son projet, quelle
taille d’echantillon doit-il interroger ? Faites une etude pour differents
niveaux de precision, en considerant un niveau de confiance de 95%.
Solution
N = 3 000
π = proportion d’agences favorables au projet
Supposons que l’echantillon soit preleve selon un tirage PESR. Pour
que l’I.C. au niveau de confiance de 95% donne lieu a une incertitude
absolue ≤ d0, il faut prendre une taille n d’echantillon telle que
n ≥ nPESR =N(1.96)2π(1− π)
Nd20 + (1.96)2π(1− π)
·
Mais nous ne disposons d’aucune estimation prealable π de π, ce qui
rend impossible le calcul de nPESR par l’expression ci-dessus.
Nous pouvons alors raisonner comme suit. Si nous designons par nPESR
et nPEAR les tailles minimales d’echantillon a considerer pour que l’in-
certitude absolue soit ≤ d0, dans le cas d’un tirage PESR et dans celui
d’un tirage PEAR respectivement, nous pouvons ecrire :
nPESR =nPEAR
1 + nPEAR−1N
(1)
66
et
nPEAR =(1.96)2π(1− π)
d20
≤ n0 =
(1.96
2d0
)2
·
En prenant pour nPEAR sa valeur maximale n0, l’egalite (1) nous per-
met d’avoir une idee de la taille nPESR requise. Ainsi,
Ces resultats montrent bien l’avantage du sondage PESR sur le son-
dage PEAR (pour lequel on garde les n observations realisees). Pour
une meme incertitude absolue, le PESR coute moins cher en nombre
d’observations que le PEAR. Cet avantage du PESR sur le PEAR se
marque d’autant plus que le taux de sondage est eleve.
N.B.) Dans le cas du PEAR, il arrive meme que l’on doive effectuer un
nombre de tirages superieur a la taille de la population pour pouvoir
satisfaire l’exigence de precision que l’on s’est fixee (cf. d0 = 0.01 par
exemple).
67
2.11 ALGORITHMES POUR LES PLANS SIMPLES SANSREMISE
Une des etapes cruciales de la mise en oeuvre d’un plan desondage est la selection des unites de sondage.
La procedure de selection doit pouvoir se formuler sous laforme d’un algorithme simple, efficace, rapide et consom-mant peu d’espace memoire.
Idealement, l’algorithme de selection doit pouvoir s’appli-quer en une seule lecture de la base de sondage.
Il est aussi pratique de pouvoir appliquer l’algorithme deselection alors que la taille N de la population n’est pasconnue d’avance (par exemple, lorsqu’on selectionne desclients venant se presenter a un guichet au fur et a mesurede leur passage).
68
2.11.1 Methode du tri aleatoire
a) Procedure :
• On genere N nombres (pseudo-)aleatoires u1, u2, . . . , uN
suivant une loi U(0, 1) (loi continue uniforme sur l’in-tervalle (0,1)) et, pour i = 1, . . . , N , on affecte al’individu i le nombre ui
• On trie ensuite la base de sondage par ordre crois-sant (ou decroissant) des nombres aleatoires : cetteprocedure conduit a effectuer un tri aleatoire de labase de sondage
• On choisit enfin les n premiers (ou les n derniers) in-dividus de la base de sondage ainsi ordonnee
b) On montre que cette methode fournit bien un plan desondage de type PESR donnant lieu a des echantillons detaille n fixee a priori
c) Avantage de cette methode :
– procedure de selection tres aisee a mettre en oeuvre
Defauts de cette methode :
– la taille N de la population doit etre connue au prealable
– on doit trier toute la base de sondage : cette operationpeut s’averer tres longue quand le fichier est grand
69
2.11.2 D’autres methodes fournissant un plan de sondage detype PESR avec echantillons de taille n fixee a priori
Methodes moins cheres en temps de calcul et espace-memoire
• Sondage systematique (cf. Section 5.2), pour autant quela base de sondage soit triee aleatoirement ou selon unordre n’ayant aucun lien avec la variable d’interet Y(ex. : Y = sexe ou choix d’etudes - base de sondage trieepar ordre alphabetique)
N.B.) La taille N de la population doit normalement etreconnue au prealable, mais il y a moyen d’adapter la methodepour pouvoir l’utiliser quand N est inconnu
• Methode de selection-rejet, methode de mise a jour del’echantillon, methode des sauts aleatoires, . . .
Certaines de ces methodes ne necessitent pas de connaıtrela taille N de la population au prealable
70
2.11.3 Tirage de Bernoulli
Technique de tirage aleatoire des individus donnant lieu• a la meme probabilite d’inclusion pour tous les indivi-
dus de la population• a un echantillon de taille aleatoire
a) Procedure :
• On se fixe une quantite p ∈ (0, 1)
• Pour i = 1, . . . , N :
– On genere un nombre (pseudo-)aleatoire ui suivantune loi U(0, 1) (loi continue uniforme sur l’intervalle(0,1))
– Si ui ≤ p, alors l’individu i est selectionneSi ui > p, alors l’individu i n’est pas selectionne
N.B.) La procedure de selection est independante d’un in-dividu a l’autre
b) Probabilites d’inclusion :
pi = P(i ∈ S) = P(ui ≤ p)
= probabilite qu’une v.a. de loi U(0, 1)
prenne une valeur inferieure ou egale a p
= p
⇒ tous les individus de la population ont la meme proba-bilite d’inclusion
71
c) Avantages de cette methode :
– la base de sondage est lue sequentiellement ; la taille Nde la population ne doit pas etre connue au prealable
– technique tres facile a programmer
Defaut de cette methode :
– fournit un echantillon de taille aleatoire (il y a memeune probabilite non nulle de ne selectionner aucun in-dividu)
d) Taille nS de l’echantillon :
nS = taille de l’echantillon qui sera preleve= nombre d’individus qui seront selectionnes∼ Bin(N, p)
=⇒ E(nS) = Np et Var(nS) = Np(1− p)
=⇒ p = taux de sondage moyen
e) Estimation de τ :
• τB = 1p
∑i∈S yi
N.B.) Dans le cas PESR a taille n fixee a priori :