Sondage aléatoire simple ou a probabilité égal

Chapitre 2SONDAGE ALEATOIRE SIMPLE OU A PROBABILITESEGALES

PLAN DU CHAPITRE 2

2.1 DEFINITIONS

2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR)2.2.1 Plan de sondage2.2.2 Probabilites d’inclusion

2.3 SONDAGE ALEATOIRE SIMPLE AVEC REMISE (PEAR)2.3.1 Plan de sondage2.3.2 Probabilites d’inclusion

2.4 VARIABLES INDICATRICES

2.5 ESTIMATEUR

2.6 ESTIMATION D’UNE MOYENNE2.6.1 Sondage aleatoire PESR2.6.2 Sondage aleatoire PEAR

2.7 ESTIMATION D’UN TOTAL2.7.1 Estimateur de τ2.7.2 Esperance de τ2.7.3 Precision de τ

1

2.8 ESTIMATION D’UNE PROPORTION2.8.1 Estimateur de π2.8.2 Esperance de π2.8.3 Precision de π

2.9 EFFET DE (PLAN DE) SONDAGE2.9.1 Definition2.9.2 Exemple

2.10 INTERVALLES DE CONFIANCE2.10.1 Distribution d’echantillonnage de µ2.10.2 Intervalles de confiance2.10.3 Incertitude absolue et relative2.10.4 Determination de la taille d’un echantillon2.10.5 Exemples

2.11 ALGORITHMES POUR LES PLANS SIMPLES SANSREMISE

2.11.1 Methode du tri aleatoire2.11.2 D’autres methodes fournissant un plan de son-

dage de type PESR avec echantillons de taille n fixee apriori

2.11.3 Tirage de Bernoulli

2

2.1 DEFINITIONS

• Le nombre n de tirages a effectuer dans la populationest fixe a priori

• 2 procedures possibles de tirage aleatoire :

a) n tirages au hasard avec remise : n tirages au hasardsuccessifs et en replacant l’unite selectionnee dans lapopulation avant le tirage suivant

b) n tirages au hasard sans remise : n tirages au hasardsuccessifs et sans replacer l’unite selectionnee dans lapopulation avant le tirage suivant

⇓

Ω = s1, s2, . . . , sM : ensemble des echantillons que l’onpeut obtenir par la procedure de tirage aleatoire choisie

Caracteristiques du plan de sondage :

• Tous les individus de U ont la meme probabilite defaire partie de l’echantillon S qui sera selectionne : ilsont tous la meme probabilite d’inclusion

• Tous les echantillons appartenant a Ω se voient as-socier une (meme) probabilite connue non nulle deselection

3

Denominations :

• sondage PEAR : sondage aleatoire simple ou a proba-bilites egales, avec remise

• sondage PESR : sondage aleatoire simple ou a proba-bilites egales, sans remise

2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR)

2.2.1 Plan de sondage

• Les echantillons sont de la forme

s = i1, i2, . . . , in,

avec i1 6= i2 6= . . . 6= in ∈ U et ns = n

• Nombre M d’echantillons possibles :

M =

(Nn

)=

N !

n!(N − n)!

• Pour tout s ∈ Ω :

p(s) =1(Nn

)

4

• Exemple 2.1 :Population : U = 1, 2, 3, 4 =⇒ N = 4

Taille de l’echantillon a prelever : n = 2

Taux de sondage : f = n/N = 50%

Ensemble des echantillons pouvant etre obtenus par tiragealeatoire PESR :

Ω = 1, 2, 1, 3, 1, 4, 2, 3, 2, 4, 3, 4 =⇒ M = 6

On verifie que(Nn

)=

(42

)=

4!

2!(4− 2)!=

4!

2!2!=

4 · 3 · 22 · 2

= 6 = M

Probabilite de selection d’un echantillon s particulier :

p (2, 4)= P ((le 1er selectionne est 2 et le 2eme selectionne est 4)

ou (le 1er selectionne est 4 et le 2eme selectionne est 2))= P(le 1er selectionne est 2 et le 2eme selectionne est 4)

+P(le 1er selectionne est 4 et le 2eme selectionne est 2)= P(le 1er selectionne est 2)·P(le 2eme selectionne est 4| le 1er selectionne est 2)+P(le 1er selectionne est 4)·P(le 2eme selectionne est 2| le 1er selectionne est 4)

= 14 ·

13 + 1

4 ·13 = 2

12 = 16

=⇒ tous les echantillons s de Ω ont la meme probabilitede selection : p(s) = 1/6 pour tout s ∈ Ω

5

2.2.2 Probabilites d’inclusion

• La probabilite d’inclusion pi de l’individu i est la probabi-lite que cet individu i fasse partie de l’echantillon (aleatoire)S qui sera preleve ;en d’autres termes, pi est la probabilite de prelever unechantillon qui contienne l’individu i :

pi = P(i ∈ S) =∑

s∈Ω|i∈s

p(s)

• Dans le cas du sondage PESR, pour tout i ∈ U :

pi =∑

s∈Ω|i∈s

1(Nn

)=

nombre d’echantillons possibles contenant i(Nn

)

=

(N − 1n− 1

)(

Nn

) =n

N= taux de sondage

6

• Exemple 2.1 (suite) :Probabilite d’inclusion de l’individu 2 : 3 echantillons surles 6 echantillons possibles contiennent l’individu 2

=⇒ p2 =3

6=

1

2=

n

N

On verifie que tous les individus de U ont bien la memeprobabilite d’inclusion :

pi =1

2pour tout i ∈ U

7

2.3 SONDAGE ALEATOIRE SIMPLE AVEC REMISE (PEAR)

2.3.1 Plan de sondage

• Les echantillons possibles sont de la forme

s = i1, i2, . . . , in

avec i1, i2, . . . , in ∈ U. Un meme individu peut etre selectionnea plusieurs reprises (ns ≤ n).

• Nombre M d’echantillons possibles :

M = . . . (expression tres complexe)

M = nombre d’echantillons dont les n individus sont dis-tincts + nombre d’echantillons dans lesquels un individuest selectionne 2 fois et les (n − 2) autres individus sontdistincts + nombre d’echantillons dans lesquels 2 indivi-dus sont chacun selectionnes 2 fois et les (n − 4) autresindividus sont distincts + . . .

8

• Exemple 2.2 :

Population : U = 1, 2, 3, 4 =⇒ N = 4

Nombre de tirages a effectuer : n = 2

Ensemble des echantillons pouvant etre obtenus par tiragealeatoire PEAR :

Ω = 1, 1, 1, 2, 1, 3, 1, 4, 2, 2, 2, 3, 2, 4,3, 3, 3, 4, 4, 4 =⇒ M = 10

Probabilite de selection d’un echantillon s particulier : memeraisonnement que dans l’exemple 2.1

p (2, 4) =1

4· 1

4+

1

4· 1

4

=2

16=

1

8

p (1, 1) =1

4· 1

4=

1

16

=⇒ on verifie que

p (1, 1) = p (2, 2) = p (3, 3) = p (4, 4) =1

16

p (1, 2) = p (1, 3) = . . . = p (3, 4) =2

16=

1

8

9

• On peut associer a tout echantillon s ∈ Ω une probabilitede selection p(s) telle que

p(s) > 0 et∑s∈Ω

p(s) = 1

MAIS, contrairement au sondage aleatoire PESR, les echantillonsde Ω ne sont pas tous equiprobables.

Remarque : Par contre, si on tient compte de l’ordre detirage dans la definition des echantillons, ces derniers re-deviennent equiprobables :

– Les echantillons possibles sont de la forme

so = (i1, i2, . . . , in)

avec i1, i2, . . . , in ∈ U et ik= individu selectionne lorsdu keme tirage (k = 1, . . . , n)

– Nombre Mo d’echantillons possibles :

Mo = Nn

– Pour tout so ∈ Ωo :

p(so) =1

Nn

10

Exemple 2.2 (suite) :

Ωo = (1, 1), (1, 2), (1, 3), (1, 4)

(2, 1), (2, 2), (2, 3), (2, 4)

(3, 1), (3, 2), (3, 3), (3, 4)

(4, 1), (4, 2), (4, 3), (4, 4)

=⇒ Mo = 16 = 42

p ((2, 4)) = P (le 1er selectionne est 2

et le 2eme selectionne est 4)

=1

4· 1

4=

1

16

On verifie que p(so) = 1/16 pour tout so ∈ Ωo

11

2.3.2 Probabilites d’inclusion

Pour tout i ∈ U :

pi = P(i ∈ S)

= 1− P(i /∈ S)

= 1− P(i n’est selectionne a aucun des n tirages)

= 1−(

N − 1

N

)n

= 1−(

1− 1

N

)n

=⇒ tous les individus de U ont bien la meme probabilited’inclusion

Exemple 2.2 (suite) :Probabilite d’inclusion de l’individu 2 :

p2 = 1−(

1− 1

4

)2

= 1−(

3

4

)2

=7

16

12

Remarque :

Si n << N , alors pi∼= n/N

=⇒ les probabilites d’inclusion pour le sondage PEAR sontpratiquement identiques a celles pour le sondage PESR

Exemple :

N = 1 000n = 10

=⇒ f =

n

N= 1%

PESR : pi = f = 1%

PEAR : pi = 1−(1− 1

1 000

)10

= 0.00995 ∼= 0.01 = 1%

13

2.4 VARIABLES INDICATRICES

S = echantillon (aleatoire) qui sera preleve

par n tirages aleatoires dans la population

nS = nombre d’individus distincts dans S

=⇒ sondage aleatoirePESR : nS = nPEAR : nS ≤ n

(PEAR : un meme individu peut etre selectionne a plu-sieurs reprises =⇒ nS est aleatoire)

Variables indicatrices d’inclusion : pour tout i ∈ U ,

• Ii =

1 si i ∈ S0 sinon

•

P(Ii = 1) = P(i ∈ S) = pi

P(Ii = 0) = P(i /∈ S) = 1− pi

=⇒ Ii ∼ Bin(1, pi)

=⇒

E(Ii) = pi

Var(Ii) = pi(1− pi)

•∑

i∈U Ii

= nombre d’individus de U qui font partie de l’ech. S= nS

14

•∑

i∈U pi =∑

i∈U E(Ii) = E(∑

i∈U Ii

)= E(nS)

Exemple : Pour le sondage PESR :∑i∈U

pi =∑i∈U

n

N= N · n

N= n

15

2.5 ESTIMATEUR

Objectif

Estimer un parametre-population θ :

θ = θ(y1, y2, . . . , yN) ∈ Θ

(cf. Section 1.2.3 : θ = τ, µ, σ2, π, . . .)

Estimateur θ de θ

• Un estimateur θ de θ est une fonction des valeurs ob-servees pour Y dans l’echantillon preleve, qui prendses valeurs dans l’ensemble Θ des valeurs possibles deθ :

θ = h(yi; i ∈ S) ∈ Θ

• θ est une variable aleatoire :on ne peut pas predire al’avance quels individus feront partie de l’echantillonparticulier s qui sera effectivement preleve

=⇒ on ne peut pas predire a l’avance quelles valeursde Y seront observees dans l’echantillon particulier squi sera effectivement preleve

=⇒ on ne peut pas predire a l’avance quelle valeurprendra θ dans l’echantillon particulier s qui sera ef-fectivement preleve

16

• La valeur prise par θ dans l’echantillon particulier s estnotee θs :

θs = h(yi; i ∈ s);

cette valeur θs fournit une estimation de θ.

• Comme toute variable aleatoire, l’estimateur θ possedeune certaine distribution de probabilite, appelee distri-bution d’echantillonnage, etroitement liee au plan desondage : (

θs, p(s))

; s ∈ Ω

=⇒

E(θ) =∑

s∈Ω p(s)θs

Var(θ) =∑

s∈Ω p(s)(θs − E(θ)

)2

17

Exemple 2.3

• Population : U = 1, 2, 3

• Variable d’interet : Y = ageavec y1 = 28, y2 = 32, y3 = 40

• Parametres-population :

µ =28 + 32 + 40

3= 33.33

σ2 =(28− 33.33)2 + (32− 33.33)2 + (40− 33.33)2

3= 24.89

π = proportion d’individus dans la population

ages de moins de 30 ans

= 1/3

• Plan de sondage (PESR) :

n = 2

Ω = s1 = 1, 2, s2 = 1, 3, s3 = 2, 3p(s1) = p(s2) = p(s3) = 1/3

18

• Estimateurs :

µ =1

n

∑i∈S

yi = y (moyenne-echantillon)

σ2 =1

n

∑i∈S

(yi − y)2 = s2 (variance-echantillon)

π = proportion d’individus dans l’echantillon S

ages de moins de 30 ans

• Distributions d’echantillonnage :

s p(s) µs σ2s πs

1,2 1/3 30 4 0.51,3 1/3 34 36 0.52,3 1/3 36 16 0

1=⇒

E(µ) =1

3· 30 +

1

3· 34 +

1

3· 36

= 33.33 = µ

Var(µ) =1

3(30− 33.33)2 +

1

3(34− 33.33)2

+1

3(36− 33.33)2 = 6.45

E(σ2) =1

3· 4 +

1

3· 36 +

1

3· 16

= 18.67 6= σ2

19

E(π) =1

3· (0.5) +

1

3· (0.5) +

1

3· 0 =

1

3= π

Var(π) =1

3

(1

2− 1

3

)2

+1

3

(1

2− 1

3

)2

+1

3

(0− 1

3

)2

= 0.05

Erreur d’echantillonnage

• En general, la valeur prise par un estimateur dans unechantillon est differente de la valeur du parametrequ’il cherche a estimer.Ex. : En general, la moyenne-echantillon est distinctede la moyenne-population.

• La valeur θs prise par l’estimateur θ dans l’echantillons n’est qu’une estimation de la valeur exacte du pa-rametre-population θ.

• L’erreur que l’on commet en remplacant θ par θs n’estpas imputable a une incompetence dans des mesuresou des calculs : elle resulte du fait qu’une partie de lapopulation a ete omise. Cette erreur est appelee erreurd’echantillonnage.

• On peut evaluer l’importance de l’erreur d’echantillonnageassociee a un estimateur en calculant le biais et la va-riance ou l’erreur quadratique moyenne de cet estima-teur.

20

Deux proprietes sont generalement recherchees pour unestimateur :

– etre sans biais– avoir une bonne precision

21

Biais d’un estimateur

• Un estimateur θ du parametre-population θ est sansbiais (non biaise) si et seulement si

E(θ) = θ

Ex. : µ est un estimateur sans biais de µ ; π est unestimateur sans biais de π ; σ2 est un estimateur biaisede σ2

• Le biais de l’estimateur θ est

B(θ) = E(θ)− θ

22

Precision d’un estimateur

• La precision d’un estimateur est mesuree par son er-reur quadratique moyenne EQM(θ) (mean squared er-ror MSE(θ)) :

EQM(θ) = E[(θ − θ)2

]=∑s∈Ω

p(s)(θs − θ)2

= Var(θ) +(B(θ)

)2

• Si θ est un estimateur sans biais de θ, alors

EQM(θ) = Var(θ)

Distributions d’echantillonnage de θ1 et θ2 :

E(θ1) = E(θ2) = θ ; Var(θ1) < Var(θ2)

P(θ − ε ≤ θ1 ≤ θ + ε

)> P

(θ − ε ≤ θ2 ≤ θ + ε

)La probabilite de prendre une valeur fort proche de θest plus grande pour θ1 que pour θ2.

23

2.6 ESTIMATION D’UNE MOYENNE

2.6.1 Sondage aleatoire PESR

Echantillon de taille n

a) Estimateur de µ :

µPESR =1

n

∑i∈S


b) µPESR est sans biais : E(µPESR) = µ

Dem. :

E(µPESR) = E

(1

n

∑i∈S

yi

)= E

(1

n

∑i∈U

yiIi

)=

1

n

∑i∈U

yi E(Ii)

=1

n

∑i∈U

yi pi car E(Ii) = pi

=1

n

∑i∈U

yin

Ncar pi = n

N (PESR)

=1

N

∑i∈U

yi = µ

24

c) Precision de µPESR :

Var(µPESR) =

(1

n− 1

N

)σ2

corr = (1− f )σ2

corr

n

ou

f =n

Net σ2

corr =1

N − 1

∑i∈U

(yi − µ)2

La variance et donc la precision de µPESR dependent detrois elements :• la taille n de l’echantillon : plus l’echantillon est grand,

plus l’estimation de µ est precise

• le taux de sondage f : plus f est proche de 1, c’est-a-dire plus la taille de l’echantillon est proche de cellede la population, plus l’estimation de µ est precise. Ala limite, pour f = 1 (echantillon egal a la populationtout entiere), Var(µPESR) = 0 : il n’y a plus d’erreurd’echantillonnage

• la variance σ2corr de la variable d’interet Y dans la po-

pulation U : plus la population est homogene (σ2corr pe-

tite), plus le sondage y est efficace. Par contre, sonderune population tres heterogene (σ2

corr grande) necessite,pour s’assurer que Var(µPESR) ne soit pas trop elevee,de prelever un echantillon de taille importante ou derealiser un decoupage prealable en sous-populationshomogenes (cf. sondage stratifie)

25

d) Estimation de Var(µPESR)

On peut montrer que la variance-echantillon corrigee

s2corr =

1

n− 1

∑i∈S

(yi − y)2

est un estimateur sans biais de σ2corr. Des lors,

Var(µPESR) = (1− f )s2

corr

n

est un estimateur sans biais de Var(µPESR).

La valeur prise par Var(µPESR) dans l’echantillon s parti-culier effectivement preleve nous fournit une estimation dela variance, et donc de la precision, de l’estimateur µPESR

de µ.

26

e) Exemple 2.4

Une population U est composee des cinq nombres 2, 3, 6, 8 et 11.

On veut estimer la moyenne-population µ a partir d’un echantillon

d’effectif 2 preleve dans U selon une procedure PESR.

→ Estimateur de µ : y. Proprietes de y ?

Parametres de la population :

µ =2 + 3 + 6 + 8 + 11

5= 6

σ2 =(2− 6)2 + . . . + (11− 6)2

5= 10.8

σ2corr =

5

4(10.8) = 13.5

Taux de sondage :

f =n

N=

2

5= 0.4 = 40%

Nombre d’echantillons possibles :(N

n

)=

(5

2

)=

5!

2!(5− 2)!=

5!

2!3!=

5× 4× 3× 2× 1

2× 1× 3× 2× 1= 10

27

Plan de sondage et distribution d’echantillonnage de y :

Echantillons

possibles : s p(s) ys

2, 3 1/10 2.5

2, 6 1/10 4

2, 8 1/10 5

2, 11 1/10 6.5

3, 6 1/10 4.5

3, 8 1/10 5.5

3, 11 1/10 7

6, 8 1/10 7

6, 11 1/10 8.5

8, 11 1/10 9.5

1

E(y) =1

10(2.5) +

1

10(4) + . . . +

1

10(9.5) = 6 = µ

Var(y) =1

10(2.5− 6)2 +

1

10(4− 6)2 + . . . +

1

10(9.5− 6)2 = 4.05

On verifie bien que Var(y) = (1− f )σ2corrn = (1− 0.4)13.5

2 = 4.05.

Supposons que le hasard nous fasse selectionner l’echantillon 2, 3.Dans ce cas, y = 2.5 (estimation de µ) et

s2corr =

1

2− 1

[(2− 2.5)2 + (3− 2.5)2

]= 0.5 .

On estime alors Var(y) par

(1− f )s2

corr

n= (1− 0.4)

0.5

2= 0.15 .

28

2.6.2 Sondage aleatoire PEAR

n tirages aleatoires avec remise dans la population

nS = nombre (aleatoire) d’individus distincts dans l’echantillonS qui sera preleve

(i) Lien avec l’inference statistique classique

F Dans la population U :

Les valeurs prises par la variable d’interet Y chez les Nindividus de U sont

y1, y2, . . . , yN

=⇒

µ = 1

N

∑i∈U yi

σ2 = 1N

∑i∈U(yi − µ)2

F Tirage au hasard (a probabilites egales) d’un individudans la population :

• Il s’agit d’une experience aleatoire dont l’ensemble desresultats possibles est U .

• On peut associer a cette experience aleatoire la va-riable aleatoire Z qui prend la valeur yi si l’individuselectionne est l’individu i.

29

Cette v.a. Z possede une distribution de probabilitequi coıncide avec la distribution (de frequences) de Ydans U : pour i = 1, . . . , N,

P(Z = yi) = P(l’individu selectionne est l’individu i)

= 1/N

⇓E(Z) = µ

Var(Z) = σ2

F n tirages a probabilites egales et avec remise (PEAR)dans la population :

• On associe au keme tirage (k = 1, . . . , n) la va-riable aleatoire Zk qui prend la valeur yi si l’individuselectionne au keme tirage est l’individu i :

Zk = yi si ik = i;

P(Zk = yi) = P (l’individu selectionne au keme tirage

est l’individu i) = 1/N

=⇒

E(Zk) = µ

Var(Zk) = σ2(k = 1, . . . , n)

• Les Zk (k = 1, . . . , n) sont des v.a. independantes etidentiquement distribuees (i.i.d.)

30

(ii) Tirage de n individus distincts : nS = n


µPEAR =1

n

∑i∈S


Autre ecriture possible : µPEAR = 1n

∑nk=1 Zk

b) µPEAR est sans biais :

E(µPEAR) = µ

Dem. :

E(µPEAR) =1

n

n∑k=1

E(Zk) =1

n

n∑k=1

µ = µ

c) Precision de µPEAR :

Var(µPEAR) =σ2

nDem. :

Var(µPEAR) = Var

(1

n

n∑k=1

Zk

)=

1

n2

n∑k=1

Var(Zk)

=1

n2

n∑k=1

σ2 =nσ2

n2=

σ2

n

31

Pour le sondage aleatoire PEAR, comme dans le cas dusondage aleatoire PESR, la variance et donc la precisionde µPEAR depend de• la taille n de l’echantillon• la variance σ2 de la variable d’interet Y dans la po-

pulation U=⇒ plus l’echantillon est grand et la population esthomogene, plus l’estimation de µ est precise

MAIS,

contrairement au cas du sondage aleatoire PESR, lavariance de µPEAR ne depend pas de la taille N dela population (et donc du taux de sondage f), ce quin’est pas necessairement tres intuitif ! ! !

d) Estimation de Var(µPEAR) :

La variance-echantillon corrigee

s2corr =

1

n− 1

∑i∈S

(yi − y)2

est un estimateur sans biais de σ2 (cf. cours de statis-tique de base). Des lors,

Var(µPEAR) =s2

corr

n

est un estimateur sans biais de Var(µPEAR)

32

e) Exemple 2.4 (suite)

Nombre d’echantillons possibles dans le cas PEAR (si l’on tient compte

de l’ordre du tirage) : N 2 = 25.

Echantillons Echantillons

possibles : s p(s) ys possibles : s p(s) ys

2, 2 1/25 2 8, 2 1/25 5

2, 3 1/25 2.5 8, 3 1/25 5.5

2, 6 1/25 4 8, 6 1/25 7

2, 8 1/25 5 8, 8 1/25 8

2, 11 1/25 6.5 8, 11 1/25 9.5

3, 2 1/25 2.5 11, 2 1/25 6.5

3, 3 1/25 3 11, 3 1/25 7

3, 6 1/25 4.5 11, 6 1/25 8.5

3, 8 1/25 5.5 11, 8 1/25 9.5

3, 11 1/25 7 11, 11 1/25 11

6, 2 1/25 4

6, 3 1/25 4.5

6, 6 1/25 6

6, 8 1/25 7

6, 11 1/25 8.5

33

⇒ Distribution d’echantillonnage de y :

Valeurs possibles

de y Probas

2 1/25

2.5 2/25

3 1/25

4 2/25

4.5 2/25

5 2/25

5.5 2/25

6 1/25

6.5 2/25

7 4/25

8 1/25

8.5 2/25

9.5 2/25

11 1/25

1

E(y) =1

25(2) +

2

25(2.5) + . . . +

1

25(11) = 6 = µ

Var(y) =1

25(2− 6)2 +

2

25(2.5− 6)2 + . . . +

1

25(11− 6)2 = 5.4

On verifie bien que Var(y) = σ2

n = 10.82 = 5.4.

Supposons que le hasard nous fasse selectionner l’echantillon 2, 3.Dans ce cas, y = 2.5 (estimation de µ) et s2

corr = 0.5. On estime alors

Var(y) pars2

corr

n=

0.5

2= 0.25 .

34

(iii) Tirage de m individus distincts : nS = m < n

1) Utilisation des n observations

Memes resultats qu’en (ii) (→ µPEAR)

2) Prise en compte seulement des m individus distincts


µdiff =1

nS

∑i∈Sdiff

yi

ou• S = echantillon aleatoire constitue des n individus

preleves• Sdiff = ensemble des individus distincts selectionnes• nS = #Sdiff = nombre d’individus distincts dans S

Remarque :S est aleatoire ⇒ Sdiff et nS sont aleatoires ⇒ lenombre d’observations a prendre en considerationpour calculer µdiff est aleatoire : difficulte supplementaire ! ! !

b) µdiff est sans biais :

E(µdiff) = µ

35

c) Precision de µdiff :

• Var(µdiff) ∼=(

1n −

12N + n−1

12N2

)σ2

corr

• Var(µdiff) ≤ Var(µPEAR) :

dans le cas du prelevement de n individus par son-dage PEAR, il est toujours plus interessant de neconserver que les unites statistiques distinctes.

36

2.7 ESTIMATION D’UN TOTAL

Dans la population U : τ =∑

i∈U yi = Nµ

2.7.1 Estimateur de τ

Dans le cas du sondage PESR comme dans celui du son-dage PEAR ou l’on utilise les n observations de l’echantillon,on estime µ par y, que nous designerons simplement parµ

=⇒ Estimateur de τ : τ = Nµ

N.B.) N est suppose connu

2.7.2 Esperance de τ

Dans le cas des sondages PESR et PEAR ou l’on utilise lesn observations de l’echantillon :

E(µ) = µ

=⇒ E(τ ) = NE(µ) = Nµ = τ

=⇒ τ est un estimateur sans biais de τ

37

2.7.3 Precision de τ

Var(τ ) = Var(Nµ) = N 2Var(µ)

a) Sondage aleatoire PESR

• Var(τ ) = N 2(1− f )σ2corr/n

• Var(τ ) = N 2(1− f )s2corr/n

b) Sondage aleatoire PEAR (utilisation des n observationsde l’echantillon)

• Var(τ ) = N 2σ2/n

• Var(τ ) = N 2s2corr/n

38

2.8 ESTIMATION D’UNE PROPORTION

• U est partage en deux sous-ensembles : K1 et K2

Ex. : K1 = ensemble des individus de la population U quipossedent une certaine caracteristique

• π = proportion d’individus de U qui appartiennent a K1

• π peut etre vu comme une moyenne-population :Soit

yi =

1 si i ∈ K1

0 si i ∈ K2(i = 1, . . . , N)

⇒

µ = 1

N

∑i∈U yi = π

σ2 = 1N

∑i∈U(yi − µ)2 = 1

N

∑i∈U y2

i − µ2

= 1N

∑i∈U yi − µ2 = π − π2 = π(1− π)

2.8.1 Estimateur de π


π = µ = y = 1n

∑i∈S yi

= proportion d’individus dans l’echantillonqui appartiennent a K1

39

2.8.2 Esperance de π


E(π) = π

=⇒ π est sans biais

2.8.3 Precision de π

a) Sondage aleatoire PESR

•

Var(π) = (1− f )σ2

corr

n= (1− f )

1

n· N

N − 1σ2

= (1− f )Nπ(1− π)

(N − 1)n= (1− n

N)Nπ(1− π)

(N − 1)n

=N − n

N − 1· π(1− π)

n

∼= (1− f )π(1− π)

nsi

N

N − 1∼= 1

40

• Un estimateur sans biais de σ2corr est

s2corr =

1

n− 1

∑i∈S

(yi − y)2

=n

n− 1

(1

n

∑i∈S

(yi − y)2

)

=n

n− 1

(1

n

∑i∈S

y2i − y2

)

=n

n− 1

(1

n

∑i∈S

yi − y2

)=

n

n− 1

(π − π2

)=

n

n− 1π(1− π)

=⇒ Un estimateur sans biais de Var(π) = (1−f )σ2corrn

est

Var(π) = (1− f )π(1− π)

n− 1

41

b) Sondage aleatoire PEAR (utilisation des n observationsde l’echantillon)

• Var(π) = σ2

n = π(1−π)n

• Un estimateur sans biais de σ2 est s2corr = n

n−1π(1− π)

=⇒ un estimateur sans biais de Var(π) = σ2

n est

Var(π) =π(1− π)

n− 1

En conclusion : facteurs jouant sur Var(π) (ou√

Var(π))

PEAR :√

Var(π) =

√π(1− π)

n

PESR :√

Var(π) ≈√

(1− f )π(1− π)

n

≈√

π(1− π)

nsi f fort petit

42

Valeurs de√

π(1−π)n en fonction de π et de n

(Valeurs en multiples de .01)

p → .05 .10 .15 .20 .25 .30 .35 .40 .45 .50

n ↓100 2.2 3.0 3.6 4.0 4.3 4.6 4.8 4.9 5.0 5.0

150 1.8 2.4 2.9 3.2 3.5 3.7 3.8 3.9 4.1 4.1

200 1.5 2.1 2.5 2.8 3.1 3.2 3.4 3.5 3.5 3.5

250 1.4 1.9 2.3 2.5 2.7 2.9 3.0 3.1 3.1 3.2

300 1.3 1.7 2.1 2.3 2.5 2.6 2.8 2.8 2.9 2.9

350 1.2 1.6 1.9 2.1 2.3 2.4 2.5 2.6 2.7 2.7

400 1.1 1.5 1.8 2.0 2.2 2.3 2.4 2.4 2.5 2.5

450 1.0 1.4 1.7 1.9 2.0 2.2 2.2 2.3 2.3 2.4

500 1.0 1.3 1.6 1.8 1.9 2.0 2.1 2.2 2.2 2.2

600 .9 1.2 1.5 1.6 1.8 1.9 1.9 2.0 2.0 2.0

700 .8 1.1 1.3 1.5 1.6 1.7 1.8 1.9 1.9 1.9

800 .8 1.1 1.3 1.4 1.5 1.6 1.7 1.7 1.8 1.8

900 .7 1.0 1.2 1.3 1.4 1.5 1.6 1.6 1.7 1.7

1 000 .7 .9 1.1 1.3 1.4 1.4 1.5 1.5 1.6 1.6

1 500 .6 .8 .9 1.0 1.1 1.2 1.2 1.3 1.3 1.3

2 000 .5 .7 .8 .9 1.0 1.0 1.1 1.1 1.1 1.1

2 500 .4 .6 .7 .8 .9 .9 1.0 1.0 1.0 1.0

3 000 .4 .5 .7 .7 .8 .8 .9 .9 .9 .9

4 000 .3 .5 .6 .6 .7 .7 .8 .8 .8 .8

5 000 .3 .4 .5 .6 .6 .6 .7 .7 .7 .7

10 000 .2 .3 .4 .4 .4 .5 .5 .5 .5 .5

20 000 .2 .2 .3 .3 .3 .3 .4 .4 .4 .4

43

2.9 EFFET DE (PLAN DE) SONDAGE

Question : Lorsqu’on desire estimer un parametre-populationpar sondage et qu’on a le choix entre plusieurs plans desondage possibles, lequel doit-on utiliser ?

Reponse : L’ideal est de pouvoir appliquer le plan de son-dage donnant lieu a l’estimateur le plus precis du parametre-population.

L’effet de sondage est une mesure permettant de comparerdeux plans de sondage en termes de precision des estima-teurs qu’ils fournissent.

2.9.1 Definition

• θ : parametre a estimer

• On dispose de deux plans de sondage differents (pourla meme taille d’echantillon n) :

P1 = (s, p1(s)); s ∈ Ω1P2 = (s′, p2(s

′)); s′ ∈ Ω2

• θ1 : estimateur de θ si l’on suit le plan de sondage P1

θ2 : estimateur de θ si l’on suit le plan de sondage P2

44

• Si θ1 et θ2 sont deux estimateurs sans biais de θ, alorsl’effet de sondage de P1 par rapport a P2 est defini par

D(P1|P2) =VarP1(θ1)

VarP2(θ2)

• Interpretation :

D(P1|P2) < 1

⇐⇒ VarP1(θ1) < VarP2(θ2)

⇐⇒ pour une meme taille d’echantillon n, l’estima-teur θ1 est plus precis que l’estimateur θ2

⇐⇒ le plan de sondage P1 permet une estimation plusprecise de θ que le plan de sondage P2

2.9.2 Exemple

Prenons θ = µ.

La taille n de l’echantillon est fixee a priori.

P1 : sondage aleatoire PESR : θ1 = µPESR = y et

VarPESR(y) =

(1

n− 1

N

)σ2

corr =N − n

N − 1· σ

2

n

P2 : sondage aleatoire PEAR : θ2 = µPEAR = y et

VarPEAR(y) =σ2

n45

=⇒ D(PESR|PEAR) = N−nN−1

∼= 1− f < 1

=⇒ PESR doit etre prefere a PEAR

Exemple 2.4 (suite)

L’effet de sondage est donne par

D(PESR|PEAR) =VarPESR(y)

VarPEAR(y)=

4.05

5.4= 0.75 < 1.

y est un estimateur de µ plus precis dans le cas PESR ;les valeurs possibles de y sont moins dispersees autour deµ = 6 dans le cas PESR que dans le cas PEAR.

Remarques :

• On peut montrer que, pour un meme nombre n de ti-rages,

Var(µPESR) ≤ Var(µdiff) ≤ Var(µPEAR);

le plan aleatoire simple sans remise est toujours preferableet, si le plan est avec remise, il est toujours plus interessantde ne conserver que les unites statistiques distinctes.

46

• Si n est petit par rapport a N (cad le taux de sondagef est tres petit), alors le gain en precision de PESR parrapport a PEAR est tres faible.

Valeurs de N−nN−1

N → 100 10 000 1 000 000n ↓10 0.909 0.999 0.99999100 0 0.990 0.99990

1 000 − 0.900 0.9990010 000 − 0 0.99000

• En pratique, le choix du plan de sondage ne se fonde passur le seul critere de la precision de l’estimateur. Ce choixdoit se faire en tenant compte aussi

– du cout de l’operation

– des possibilites d’application

– des facilites d’application

Ces differents criteres sont parfois contradictoires !

47

2.10 INTERVALLES DE CONFIANCE

2.10.1 Distribution d’echantillonnage de µ

(i) Sondage aleatoire PEAR

• Rappels :

– n tirages au hasard successifs avec remise

– On associe au keme tirage (k = 1, . . . , n) la va-riable aleatoire Zk qui prend la valeur yi si l’individuselectionne au keme tirage est l’individu i

– Z1, Z2, . . . , Zn sont des v.a.’s i.i.d. telles que

E(Zk) = µ et Var(Zk) = σ2

pour tout k = 1, . . . , n ; Zk a une distribution deprobabilite qui coıncide avec la distribution de frequencesde la variable d’interet Y dans la population U

• Si Y a une distribution de frequences que l’on peut”approcher” (ajuster) par la loi N(µ, σ2), alors on peutconsiderer que Z1, Z2, . . . , Zn sont i.i.d. N(µ, σ2)et

µ =1

n

n∑k=1

Zk ∼ N

(µ,

σ2

n

)⇐⇒ µ− µ

σ/√

n∼ N(0, 1)

48

Si, de plus, σ2 est inconnu, on peut l’estimer par sonestimateur sans biais s2

corr et on a

µ− µ

scorr/√

n∼ tn−1

• Dans le cas ou l’on ne connaıt pas la distribution de Ydans U , le theoreme central limite (TCL) nous indiqueque, si n ≥ 30,

µ− µ

σ/√

n≈ N(0, 1)

Si, de plus, σ2 est inconnu, on peut l’estimer par sonestimateur sans biais s2

corr et on a

µ− µ

scorr/√

n≈ N(0, 1)

(ii) Sondage aleatoire PESR

• Si on definissait des v.a.’s Zk (k = 1, . . . , n) commepour le sondage aleatoire PEAR, elles ne seraient niindependantes, ni equidistribuees=⇒ impossibilite de faire appel au TCL classique=⇒ utilisation d’un theoreme central pour populationfinie

49

• Si U (N) est une population de taille N , de moyenneµ(N) et de variance (σ(N))2

etsi y(n) est la variable aleatoire correspondant a la moyennearithmetique des observations d’un echantillon aleatoireS(n) de taille n : y(n) = 1

n

∑i∈S(n) yi,

alorsy(n) − µ(N)√

Var(y(n))≈ N(0, 1)

quand n → ∞ et N − n → ∞, et sous des condi-tions generales liees a la part de (σ(N))2 due a chaqueelement de U (N)

• Sous des conditions identiques :

y(n) − µ(N)√Var(y(n))

≈ N(0, 1)

50

2.10.2 Intervalles de confiance

De maniere generale, si θ est un estimateur non biaise deθ et si on peut supposer que

θ − θ√Var(θ)

≈ N(0, 1),

l’intervalle de confiance pour θ au niveau de confiance 1−α(0 < α < 1) est donne par[

θ ± z1−α/2

√Var(θ)

],

ou z1−α/2 est le quantile d’ordre 1− α/2 de la loi N(0, 1)

(si X ∼ N(0, 1), alors P[X ≤ z1−α/2] = 1− α/2)

Dem. :

Si X ∼ N(0, 1), alors

P(−z1−α/2 ≤ X ≤ z1−α/2) = 1− α.

51

Puisque θ−θ√Var(θ)

≈ N(0, 1), on a donc

P

(−z1−α/2 ≤ θ−θ√

Var(θ)≤ z1−α/2

)∼= 1− α

=⇒ P

(θ − z1−α/2

√Var(θ) ≤ θ ≤ θ + z1−α/2

√Var(θ)

)∼= 1− α

N.B.)• si 1− α = 95%, alors z1−α/2 = z0.975 = 1.96

• si 1− α = 90%, alors z1−α/2 = z0.95 = 1.645

(i) I.C. pour µ au niveau de confiance 1− α :[µ± z1−α/2

√Var(µ)

]PESR :

[µ± z1−α/2

√(1− f )s2

corrn

]PEAR :

[µ± z1−α/2

√s2corrn

]

52

(ii) I.C. pour τ au niveau de confiance 1− α :[τ ± z1−α/2

√Var(τ )

]PESR :

[τ ± z1−α/2

√N 2(1− f )s2

corrn

]PEAR :

[τ ± z1−α/2

√N2s2

corrn

](iii) I.C. pour π au niveau de confiance 1− α :[

π ± z1−α/2

√Var(π)

]PESR :

[π ± z1−α/2

√(1− f ) π(1−π)

n−1

]PEAR :

[π ± z1−α/2

√π(1−π)

n−1

]Remarque :

L’I.C. pour θ est un intervalle aleatoire : les valeurs de sesbornes varient d’un echantillon a l’autre.

53

Exemple 2.5

Un echantillon de 400 automobilistes d’un pays comprend 40 pro-

prietaires d’une voiture de marque A. Construisez un intervalle de

confiance, au niveau de confiance de 95%, pour la proportion reelle

d’automobilistes de ce pays qui possedent une voiture de marque A,

en considerant que l’echantillon a ete preleve selon un tirage PESR

dans une population de taille

a) N = 5 000 ;

b) N = 100 000.

Solution

n = 400

π = proportion d’automobilistes possedant une voiture de marque A

dans le pays

π = 40/400 = 0.1

L’I.C. pour π au niveau de confiance de 95% est[π ± z0.975

√Var(π)

]=

[π ± (1.96)

√Var(π)

].

Puisque le tirage est PESR, nous avons

Var(π) = (1− f )π(1− π)

n− 1= (1− f )

(0.1)(0.9)

399= (1− f )(0.00023)

a) Si N = 5 000, le taux de sondage est egal a f = 4005 000 = 0.08 =

8%. On a alors

Var(π) = (0.92)(0.00023) = 0.00021

⇒√

Var(π) = 0.01441

54

L’I.C. pour π au niveau de confiance de 95% est alors

[0.1± (1.96)(0.01441)] = [0.1± 0.02823]

= [0.07177 ; 0.12823] = [7.177% ; 12.823%]

b) Si N = 100 000, le taux de sondage est egal a f = 400100 000 =

0.004. On a alors

Var(π) = (0.996)(0.00023) = 0.00022

⇒√

Var(π) = 0.01499

L’I.C. pour π au niveau de confiance de 95% est alors

[0.1± (1.96)(0.01499)] = [0.1± 0.02938]

= [0.07062 ; 0.12938] = [7.062% ; 12.938%]

On voit donc sur cet exemple que, lorsque le taux de sondage diminue

(a taille n d’echantillon fixee), la precision (estimee) de l’estimateur π

de π diminue et, par consequent, l’I.C. s’elargit quelque peu.

Exemple 2.6

145 menages de touristes sejournant en France dans une region donnee

ont depense, en moyenne journaliere, 35.5 Euros ; l’ecart-type de ces

145 depenses journalieres s’eleve a 8.4 Euros. Sachant que dans la

region ou a ete effectuee l’enquete il est venu 50 000 menages de tou-

ristes, que peut-on dire de la depense globale journaliere de l’ensemble

de ces menages (on suppose que l’echantillon est du type PESR) ?

55

Solution

Parametre a estimer : τ = depense journaliere globale des 50 000

menages de touristes.

τ = Ny = (50 000)(35.5) = 1 775 000 Euros

Le tirage etant PESR, on a

Var(τ ) = N 2(1− f )s2

corr

n

f =145

50 000= 0.0029 = 0.29%

s2corr =

145

144(8.4)2 = 71.05

= (50 000)2(1− 0.0029)71.05

145= 1 221 447 500

L’I.C. pour τ au niveau de confiance de 95% est des lors egal a[τ ± z0.975

√Var(τ )

]= [1 775 000± (1.96)(34 949.21)]

= [1 775 000± 68 500.46]

= [1 706 499.54 ; 1 843 500.46]

Il y a donc 95 chances sur 100 que la depense journaliere globale des

50 000 menages de touristes soit comprise entre (approximativement)

1 706 500 Euros et 1 843 500 Euros.

56

2.10.3 Incertitude absolue et relative

• Si l’I.C. pour θ est de la forme [θ − d, θ + d], d estappele incertitude absolue (= demi-longueur de l’I.C.)

De maniere generale,

d = z1−α/2

√Var(θ)

• L’incertitude relative est definie par d/θ (en %)

• (i) Incertitude absolue pour µ / PESR

z1−α/2

√(1− f )

s2corr

n

(ii) Incertitude absolue pour τ / PESR

z1−α/2

√N 2(1− f )

s2corr

n

(iii) Incertitude absolue pour π / PESR

z1−α/2

√(1− f )

π(1− π)

n− 1

• Tout comme l’I.C., l’incertitude absolue d est aleatoire :sa valeur varie d’un echantillon a l’autre.

57

• d depend de α et de Var(θ) (et donc aussi, de faconindirecte, de Var(θ) et de n) :

1) 1− α =⇒ z1−α/2 =⇒ d 2) n =⇒ d

• Pour une proportion π, l’incertitude absolue d dependde π (ou π). Pour un niveau de confiance de 95% :

d = 1.96

√(1− f )

π(1− π)

n− 1

∼= 2

√(1− f )

π(1− π)

n

< 2

√π(1− π)

n≤ 2

√1

4n=

1√n

Valeur de 1/√

n(incertitude absolue maximale pour 1− α = 95%)

n 1/√

n100 10%400 5%

1 000 3%1 600 2.5%10 000 1%

58

• Incertitude relative d/π (en %) pour l’estimateur πd’une proportion

(1− α = 0.95 ; f ∼= 0 ; d ∼= 2√

π(1−π)n )

π → .10 .20 .30 .40 .50n ↓100 60 40 31 24 20200 42 28 21 18 14300 34 23 17 14 12500 26 19 15 12 10

1 000 18 13 9 8 62 000 14 9 7 6 45 000 8 6 4 4 3

10 000 6 4 3 3 2

59

2.10.4 Determination de la taille d’un echantillon

Probleme : Comment doit-on choisir la taille n de l’echantillonpour que l’incertitude absolue d ne depasse pas une cer-taine valeur d0 fixee a priori ?N.B.) Le niveau de confiance (1− α) est fixe.

Solution : De maniere generale, il faut trouver les valeursde n qui permettent de satisfaire l’inegalite

d = z1−α/2

√Var(θ) ≤ d0 .

(i) Estimation de µ :

• PESR :

z1−α/2

√(1− f )s2

corrn ≤ d0

⇒ z1−α/2

√(1− n

N )s2corrn ≤ d0

⇒ n ≥Nz2

1−α/2s2corr

Nd20 + z2

1−α/2s2corr

= nPESR

• PEAR :

z1−α/2

√s2corrn ≤ d0

⇒ n ≥z21−α/2

s2corr

d20

= nPEAR

60

MAISs2

corr est la variance-echantillon corrigee et depend doncelle aussi de la taille n de l’echantillon !

=⇒ on remplace s2corr par la variance-echantillon corrigee

observee dans un echantillon preleve lors d’une etude preliminaireou d’une etude anterieure du meme type

Remarque :nPESR et nPEAR sont les tailles minimales d’echantillon aprendre pour un sondage aleatoire PESR et pour un son-dage aleatoire PEAR respectivement. On verifie que

nPESR =nPEAR

1 + nPEAR−1N

⇓• si nPEAR > 1, alors nPESR < nPEAR :

pour une meme incertitude absolue d0 fixee a priori,la procedure PESR ”coute moins cher” en termes denombre d’individus a prelever que la procedure PEAR

• si N est grand, alors nPESR∼= nPEAR :

l’avantage de la procedure PESR par rapport a la procedurePEAR n’est pas tres marque si la population sondee estde grande taille

61

(ii) Estimation de π :

• PESR :

d = z1−α/2

√(1− f ) π(1−π)

n−1

∼= z1−α/2

√(1− f ) π(1−π)

n ≤ d0

=⇒ n ≥Nz2

1−α/2π(1−π)

Nd20 + z2

1−α/2π(1−π)

• PEAR :

d = z1−α/2

√π(1−π)

n−1

∼= z1−α/2

√π(1−π)

n ≤ d0

=⇒ n ≥z21−α/2

π(1−π)

d20

avec π remplace par la proportion-echantillon observeedans un echantillon preleve lors d’une etude preliminaireou d’une etude anterieure du meme type.

Remarque : Dans le cas PEAR, puisque π(1 − π) ≤ 1/4quelle que soit la valeur de π, on peut aussi prendre commetaille minimale d’echantillon,

z21−α/2

4d20

=

(z1−α/2

2d0

)2

;

cette alternative est interessante dans le cas ou l’on nedispose pas d’estimation preliminaire de π.

62

2.10.5 Exemples

a) Cas d’une moyenne

• Population U constituee de N = 1000 employes

• Variable d’interet : Y = salaire mensuel net

• Parametre-population : µ = salaire mensuel net moyendans la population U

• Plan de sondage : n = 50 (f = 50/1000 = 0.05) -sondage aleatoire PESR

• Dans l’echantillon s preleve :

y = 1100 Euros

s2corr = 62500

⇒ Var(y) = (1− f )s2corrn = (1− 0.05)62500

50 = 1187.5

⇒ I.C. pour µ au niveau de confiance de 95% :

[1100±(1.96)√

1187.5] = [1100±67.54] = [1032.46; 1167.54]

⇒ Incertitude absolue : d = 67.54

⇒ Incertitude relative : d/y = 67.54/1100 = 6.14%

63

• Quelle taille d’echantillon faut-il choisir pour pouvoirobtenir une incertitude absolue inferieure ou egale ad0 = 25 Euros ?

Si l’on prend s2corr = 62500 comme estimation preliminaire

de la variance-population (corrigee), il faut prendre lataille n de l’echantillon superieure ou egale a

1000 (1.96)2 62500

1000 (25)2 + (1.96)2 62500= 277.54

⇒ il faut prelever au minimum 278 individus

b) Cas d’une proportion

• Population U constituee de N = 10000000 personnes

• Variable d’interet : Y = soutien a un programme

yi =

1 si l’individu i soutient le programme0 sinon

• Parametre-population : π = proportion de personnesdans la population U qui soutiennent le programme

• Plan de sondage : n = 1000 (f = 1000/10000000) -sondage aleatoire PESR

64

• Dans l’echantillon s preleve :

π = 0.20

⇒ Var(π) = 999900010000000 ·

(0.20)(0.80)999 = 0.00016

⇒ I.C. pour π au niveau de confiance de 95% :

[0.20±(1.96)√

0.00016] = [0.20±0.025] = [0.175; 0.225]

⇒ Incertitude absolue : d = 0.025

⇒ Incertitude relative : d/π = 0.025/0.20 = 12.5%

• Quelle taille d’echantillon faut-il choisir pour pouvoirobtenir une incertitude absolue ne depassant pas d0 =0.01 ?

Si l’on prend π = 0.20 comme estimation preliminairede la proportion-population π, il faut prendre la taillen de l’echantillon superieure ou egale a

10000000(1.96)2(0.20)(1− 0.20)

10000000(0.01)2 + (1.96)2(0.20)(1− 0.20)= 6142.78

⇒ il faut prendre au minimum 6143 individus

N.B.) On verifie ici que, puisque N est grand,

nPESR∼= nPEAR =

(1.96)2(0.20)(1− 0.20)

(0.01)2= 6146.56

65

c) Cas d’une proportion

Un Tour Operator desire tester l’idee d’un nouveau mode de distribu-

tion de voyages organises aupres de son reseau d’agences de voyages,

qui comprend 3 000 agences.

S’il veut estimer le nombre d’agences favorables a son projet, quelle

taille d’echantillon doit-il interroger ? Faites une etude pour differents

niveaux de precision, en considerant un niveau de confiance de 95%.

Solution

N = 3 000

π = proportion d’agences favorables au projet

Supposons que l’echantillon soit preleve selon un tirage PESR. Pour

que l’I.C. au niveau de confiance de 95% donne lieu a une incertitude

absolue ≤ d0, il faut prendre une taille n d’echantillon telle que

n ≥ nPESR =N(1.96)2π(1− π)

Nd20 + (1.96)2π(1− π)

·

Mais nous ne disposons d’aucune estimation prealable π de π, ce qui

rend impossible le calcul de nPESR par l’expression ci-dessus.

Nous pouvons alors raisonner comme suit. Si nous designons par nPESR

et nPEAR les tailles minimales d’echantillon a considerer pour que l’in-

certitude absolue soit ≤ d0, dans le cas d’un tirage PESR et dans celui

d’un tirage PEAR respectivement, nous pouvons ecrire :

nPESR =nPEAR

1 + nPEAR−1N

(1)

66

et

nPEAR =(1.96)2π(1− π)

d20

≤ n0 =

(1.96

2d0

)2

·

En prenant pour nPEAR sa valeur maximale n0, l’egalite (1) nous per-

met d’avoir une idee de la taille nPESR requise. Ainsi,

pour d0 = 0.10 : n0 = 96.04 ≈ 96 ⇒ nPESR ≈ 93

pour d0 = 0.05 : n0 = 384.16 ≈ 384 ⇒ nPESR ≈ 341

pour d0 = 0.03 : n0 = 1 067.11 ≈ 1 067 ⇒ nPESR ≈ 787

pour d0 = 0.02 : n0 = 2 401 ⇒ nPESR ≈ 1 334

pour d0 = 0.01 : n0 = 9 604 ⇒ nPESR ≈ 2 286

Ces resultats montrent bien l’avantage du sondage PESR sur le son-

dage PEAR (pour lequel on garde les n observations realisees). Pour

une meme incertitude absolue, le PESR coute moins cher en nombre

d’observations que le PEAR. Cet avantage du PESR sur le PEAR se

marque d’autant plus que le taux de sondage est eleve.

N.B.) Dans le cas du PEAR, il arrive meme que l’on doive effectuer un

nombre de tirages superieur a la taille de la population pour pouvoir

satisfaire l’exigence de precision que l’on s’est fixee (cf. d0 = 0.01 par

exemple).

67

2.11 ALGORITHMES POUR LES PLANS SIMPLES SANSREMISE

Une des etapes cruciales de la mise en oeuvre d’un plan desondage est la selection des unites de sondage.

La procedure de selection doit pouvoir se formuler sous laforme d’un algorithme simple, efficace, rapide et consom-mant peu d’espace memoire.

Idealement, l’algorithme de selection doit pouvoir s’appli-quer en une seule lecture de la base de sondage.

Il est aussi pratique de pouvoir appliquer l’algorithme deselection alors que la taille N de la population n’est pasconnue d’avance (par exemple, lorsqu’on selectionne desclients venant se presenter a un guichet au fur et a mesurede leur passage).

68

2.11.1 Methode du tri aleatoire

a) Procedure :

• On genere N nombres (pseudo-)aleatoires u1, u2, . . . , uN

suivant une loi U(0, 1) (loi continue uniforme sur l’in-tervalle (0,1)) et, pour i = 1, . . . , N , on affecte al’individu i le nombre ui

• On trie ensuite la base de sondage par ordre crois-sant (ou decroissant) des nombres aleatoires : cetteprocedure conduit a effectuer un tri aleatoire de labase de sondage

• On choisit enfin les n premiers (ou les n derniers) in-dividus de la base de sondage ainsi ordonnee

b) On montre que cette methode fournit bien un plan desondage de type PESR donnant lieu a des echantillons detaille n fixee a priori

c) Avantage de cette methode :

– procedure de selection tres aisee a mettre en oeuvre

Defauts de cette methode :

– la taille N de la population doit etre connue au prealable

– on doit trier toute la base de sondage : cette operationpeut s’averer tres longue quand le fichier est grand

69

2.11.2 D’autres methodes fournissant un plan de sondage detype PESR avec echantillons de taille n fixee a priori

Methodes moins cheres en temps de calcul et espace-memoire

• Sondage systematique (cf. Section 5.2), pour autant quela base de sondage soit triee aleatoirement ou selon unordre n’ayant aucun lien avec la variable d’interet Y(ex. : Y = sexe ou choix d’etudes - base de sondage trieepar ordre alphabetique)

N.B.) La taille N de la population doit normalement etreconnue au prealable, mais il y a moyen d’adapter la methodepour pouvoir l’utiliser quand N est inconnu

• Methode de selection-rejet, methode de mise a jour del’echantillon, methode des sauts aleatoires, . . .

Certaines de ces methodes ne necessitent pas de connaıtrela taille N de la population au prealable

70

2.11.3 Tirage de Bernoulli

Technique de tirage aleatoire des individus donnant lieu• a la meme probabilite d’inclusion pour tous les indivi-

dus de la population• a un echantillon de taille aleatoire

a) Procedure :

• On se fixe une quantite p ∈ (0, 1)

• Pour i = 1, . . . , N :

– On genere un nombre (pseudo-)aleatoire ui suivantune loi U(0, 1) (loi continue uniforme sur l’intervalle(0,1))

– Si ui ≤ p, alors l’individu i est selectionneSi ui > p, alors l’individu i n’est pas selectionne

N.B.) La procedure de selection est independante d’un in-dividu a l’autre

b) Probabilites d’inclusion :

pi = P(i ∈ S) = P(ui ≤ p)

= probabilite qu’une v.a. de loi U(0, 1)

prenne une valeur inferieure ou egale a p

= p

⇒ tous les individus de la population ont la meme proba-bilite d’inclusion

71

c) Avantages de cette methode :

– la base de sondage est lue sequentiellement ; la taille Nde la population ne doit pas etre connue au prealable

– technique tres facile a programmer

Defaut de cette methode :

– fournit un echantillon de taille aleatoire (il y a memeune probabilite non nulle de ne selectionner aucun in-dividu)

d) Taille nS de l’echantillon :

nS = taille de l’echantillon qui sera preleve= nombre d’individus qui seront selectionnes∼ Bin(N, p)

=⇒ E(nS) = Np et Var(nS) = Np(1− p)

=⇒ p = taux de sondage moyen

e) Estimation de τ :

• τB = 1p

∑i∈S yi

N.B.) Dans le cas PESR a taille n fixee a priori :

τPESR = NµPESR =N

n

∑i∈S

yi

=1

f

∑i∈S

yi =∑i∈S

yi

pi

72

•

E(τB) = E

(1

p

∑i∈S

yi

)= E

(1

p

∑i∈U

yiIi

)=

1

p

∑i∈U

yiE(Ii) =1

p

∑i∈U

yip

=∑i∈U

yi = τ

=⇒ τB est un estimateur sans biais de τ

• On montre que (precision de τB)

Var(τB) =(

1p − 1

)∑i∈U y2

i

Var(τB) = 1p

(1p − 1

)∑i∈S y2

i

f) Estimation de µ :

• µ = τN ⇒ µB = τB

N = 1Np

∑i∈S yi ( 6= y)

N.B.) Np 6= nS ; Np = E(nS)

• E(µB) = µ⇒ µB est un estimateur sans biais de µ

• Var(µB) = Var(

τBN

)= 1

N2Var(τB)

Var(µB) = 1N2Var(τB)

73

Sondage aléatoire simple ou a probabilité égal

Economy & Finance