This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Principe et objectifsFormules d’estimation du sondage stratifié
RéférencesCe chapitre s’appuie essentiellement sur deux ouvrages :
1 « Les sondages : Principes et méthodes »de A.-M. Dussaix et J.M. Grosbras,P.U.F., Collection Que sais-je ?, 1993.
2 « Manuel de Sondages »de R. Clairin et P. Brion,téléchargeable à :http://www.ceped.org/cdrom/integral_publication_1988_2002/manuels/pdf/manuels_cpd_03.pdf
IntroductionExempleObjectifsRetour à l’exempleNotations
Exemple : salaire annuelSoit une population de 5 éléments. Nous relevons sur ces 5individus la variable d’intérêt « salaire annuel » (en milliersd’euros) :
13,15,17,25,30.
Parmi les échantillons à 2 unités, nous avons 2 cas extrêmes
(13,15) et (25,30)
qui se révèlent « mauvais » s’il s’agit d’estimer la moyenne
µ =13 + 15 + 17 + 25 + 30
5= 20.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
IntroductionExempleObjectifsRetour à l’exempleNotations
RemarquesIl y a plusieurs types de classes dans cette population :• des classes d’individus « à salaires modestes »• des classes d’individus « à salaires élevés ».
Il serait malencontreux que :• les hasards de l’échantillonnage conduisent à n’interroger
que des individus appartenant à une seule de cescatégories
• ou l’échantillon soit trop déséquilibré en faveur de l’uned’elles.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
IntroductionExempleObjectifsRetour à l’exempleNotations
Le but du jeuExclure les échantillons extrêmes et améliorer la précision desestimateurs du chapitre précédent.
RemarquesNous avons constaté qu’à taille égale, un échantillon estplus efficace dans une population homogène que dansune population hétérogène.Plus précisément, l’erreur type d’estimation est liée à lavariance du caractère étudié dans la population.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
IntroductionExempleObjectifsRetour à l’exempleNotations
Le but du jeuDécouper la population en sous-ensembles, appelés desstrates, les plus homogènes possibles.
ConséquenceChaque sondage partiel s’effectue de façon efficace etl’assemblage des sondages partiels précis donnera desrésultats plus fiables qu’un sondage de même taille effectué« en vrac ».
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
IntroductionExempleObjectifsRetour à l’exempleNotations
Quelques exemplesLes échantillons de ménages ou d’individus, dans lesenquêtes usuelles, sont stratifiés par région croisée partype d’habitat (taille des communes).Les échantillons d’entreprises sont stratifiés par secteur etpar taille, exprimée en effectifs salariés ou chiffre d’affaires.Les échantillons d’exploitations agricoles sont stratifiés partranches de surface.Les échantillons de jeunes sortis de l’enseignementsupérieur sont stratifiés par discipline.etc.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
IntroductionExempleObjectifsRetour à l’exempleNotations
Retour à l’exemple du salaire annuelSupposons que nous sachons, a priori, que les 3 premiersindividus forment une catégorie de « salaires modestes » etque les 2 derniers soient catalogués « salaires élevés ».
Nous décidons alors que l’échantillon de 2 individus doitêtre constitué d’un représentant de chaque strate.Les échantillons possibles sont dans ce cas au nombre de6. Chacun des 3 individus de la première strate pouvantêtre associé à l’un des 2 autres de la seconde strate.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
IntroductionExempleObjectifsRetour à l’exempleNotations
Suite de l’exempleNotons y1 et y2 les valeurs obtenues dans l’échantillon.Nous ne pouvons plus, comme auparavant, faire lamoyenne arithmétique.En effet, l’unité échantillonnée dans la 1ère strate estdésignée pour en représenter 3, celle de la 2ième stratevaut pour 2.Il convient alors de pondérer chaque yi par le poids de lastrate dont yi est issue. Si µst désigne l’estimation de lamoyenne, alors nous avons :
µst =35
y1 +25
y2.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
D’autre part, nous vérifions que la moyenne des 6 valeursde µst est égale à µ = 20. Cela signifie que la variablealéatoire µst a pour espérance mathématique µ. Donc µstest un estimateur sans biais de µ.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
IntroductionExempleObjectifsRetour à l’exempleNotations
RemarqueNous remarquons surtout que la plage des estimations estbeaucoup plus resserrée autour de la cible que dans le cas dusondage aléatoire simple à probabilités égales sans remise(PESR).
En effet :les valeurs extrêmes sont moins éloignées,
l’écart-type vaut 1,40 au lieu de 3,95.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
IntroductionExempleObjectifsRetour à l’exempleNotations
ConclusionIl y a moins de risque d’obtenir une « mauvaise » estimation deµ en réalisant un sondage stratifié plutôt qu’un sondage àPESR.
La stratification a permis, en utilisant de l’information auxiliaire(l’existence de deux sous-populations), d’améliorer la qualitéde l’estimateur de µ.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
IntroductionExempleObjectifsRetour à l’exempleNotations
RemarqueParagraphe 5.2 : détermination des tailles nh où h varie de 1 àH, de manière à minimiser la variance de l’estimateur de lamoyenne µY sous la contrainte que la taille n de l’échantillon Sest fixée a priori.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
Sommaire
1 Principe et objectifs
2 Formules d’estimation du sondage stratifié
3 Sondage stratifié proportionnel
4 Sondage stratifié optimal
5 Comment choisir les strates ?
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
DéfinitionL’estimateur de la moyenne µ d’une population U par sondagestratifié se définit par :
µst =H∑
h=1
Nh
Nµh.
PropriétéNous montrons, par calcul, que cet estimateur est sansbiais :
E (µst) = µ.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
DéfinitionL’estimateur du total T d’une population U par un sondagestratifié se définit par :
Tst =H∑
h=1
Nhµh.
PropriétéNous montrons, par calcul, que cet estimateur est sansbiais :
E(
Tst
)= T .
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
RemarqueCette formule peut aussi s’écrire sous la forme :
Tst =H∑
h=1
Nh
(1nh
nh∑i=1
Yi
)=
H∑h=1
( nh∑i=1
Nh
nhYi
).
Nous remarquons, dans la formule précédente, que Yi est
pondérée par le coefficientNh
nh, appelé coefficient
d’extrapolation (dont la valeur dépend de la strate Uh), afind’extrapoler (ou « d’étendre ») les résultats à la population.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
DéfinitionL’estimateur d’une proportion πA d’une population ayant lacaractéristique A se fait, comme présenté dans un chapitreprécédent, par l’estimateur de la moyenne d’une variabled’intérêt qui vaut :
1 si l’unité a la caractéristique étudiée0 si l’unité n’a pas la caractéristique étudiée.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
PropriétéNous montrons, par calcul, que :
Var ( µst ) =H∑
h=1
N2h
N2 (1− fh)σ2
h,c
nh,
où fh =nh
Nhest le taux de sondage correspondant et σ2
h,c est la
variance corrigée définie auparavant.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
PropriétéNous montrons, par calcul, que :
Var(
Tst
)=
H∑h=1
N2h (1− fh)
σ2h,c
nh,
où fh =nh
Nhest le taux de sondage correspondant et σ2
h,c est la
variance corrigée définie auparavant.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
RemarquesComment démontrez-vous ces formules ?Ces formules posent un problème. Lequel ?
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
Pour répondre à la dernière question posée, nous définissonsles deux quantités suivantes.
DéfinitionUn estimateur de la variance de µst se définit par :
Var ( µst ) =H∑
h=1
N2h
N2 (1− fh)s2
h,c
nh=
H∑h=1
N2h
N2 (1− fh)s2
hnh − 1
,
où fh est le taux de sondage correspondant et s2h,c est la
variance corrigée définie auparavant.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
Définition
Un estimateur de la variance de Tst se définit par :
Var(
Tst
)=
H∑h=1
N2h (1− fh)
s2h,c
nh=
H∑h=1
N2h (1− fh)
s2h
nh − 1,
où fh est le taux de sondage correspondant et s2h,c est la
variance corrigée définie auparavant.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
RemarqueCes deux estimateurs de la variance permettent de calculerl’écart-type de chaque estimateur. Par conséquent, comme auchapitre 1, nous pouvons construire des intervalles deconfiance au niveau de confiance égal à 1− α pour chacun desparamètres inconnus de la population.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
DéfinitionL’intervalle de confiance asymptotique pour µ au niveau deconfiance égal à 1− α se définit par :]
µst − z1−α/2 ×√
Var ( µst ); µst + z1−α/2 ×√
Var ( µst )
[,
où z1−α/2 est le quantile d’ordre 1− α/2 de la loi normalecentrée et réduite.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
DéfinitionL’intervalle de confiance asymptotique pour T au niveau deconfiance égal à 1− α se définit par :]
Tst − z1−α/2 ×√
Var(
Tst
); Tst + z1−α/2 ×
√
Var(
Tst
)[,
où z1−α/2 est le quantile d’ordre 1− α/2 de la loi normalecentrée et réduite.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
Exemple bancaireUne société bancaire compte 50 000 clients répartis en :
40 000 « petits » clients10 000 « gros » clients.
Soit un sondage portant sur 200 clients répartis en :160 « petits » clients40 « gros » clients.
Nous nous intéressons au montant moyen µ des comptes aumoment de l’enquête et à la proportion π des clients prêts àsouscrire au nouveau produit financier.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
Suite de l’exemple bancaireLe dépouillement du sondage donne les résultats suivants :
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
Intervalle de confiance pour µ
µst =40 00050 000
×12+10 00050 000
×58 = 0,8×12+0,2×58 = 21,2
Var( µst ) = 0,64× 0,996× 85160
+ 0,04× 0,996× 93040
= 1,26492Écart-type =
√1,26492 ' 1,125
Intervalle de confiance à 95% pour µ :
µ ∈]21,2± 1,96× 1,125[,
c’est-à-dire :µ ∈]18,995;23,405[.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
Intervalle de confiance pour π
πst =40 00050 000
× 0,05 +10 00050 000
× 0,55 = 15%
Var( πst ) = 0,64× 0,996× 0,05× 0,95160
+ 0,04× 0,996×0,55× 0,45
40= 4,3575× 10−4
Écart-type =√
4,3575× 10−2% ' 2,0875× 10−2%
Intervalle de confiance à 95% pour π :
π ∈]10,90%;19,10%[.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les trois estimateurs classiquesLes variances de µst et de TstLes estimations des variances de µst et de TstLes intervalles de confiance pour µ et pour TExemple
RemarqueSi dans le cas du sondage stratifié, nous avions estimé µ par
µY =H∑
h=1
nh
nµh
au lieu de
µst =H∑
h=1
Nh
Nµh
alors, nous aurions un estimateur biaisé de µ.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
RemarqueLes formules ci-dessus sont valables quels que soient lesnombres d’unités statistiques tirées par strate.Le taux de sondage fh peut donc être variable d’une strate h àune autre.
DéfinitionUn sondage est appelé un sondage stratifié proportionnelquand le sondage stratifié est tel que les taux de sondagefh = nh
Nhsont les mêmes dans toutes les strates. Ainsi, nous
avons un taux de sondage global égal à f = nN = fh = nh
Nh·
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
RemarquesC’est ainsi que, dans un échantillon d’individus stratifié parsexe, les hommes et les femmes figurent au prorata deleur effectif dans la population étudiée.Dans l’application numérique du paragraphe précédent,nous avons considéré un échantillon représentatif de lapopulation des « petits clients » et des « gros clients ».
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Là encore, il faut prendre garde à la définition exacte destermes utilisés.
DéfinitionLe terme « représentatif » signifie que l’échantillon a été dosépour « représenter » une répartition d’effectifs dans lapopulation.
RemarqueIl ne signifie pas que le sondage soit parfait, sans erreurs, nimême que la répartition soit la meilleure possible ! Il est doncpréférable, pour éviter les ambiguïtés, de parler d’échantillonproportionnel.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Les propriétés importantes de l’échantillon stratifiéproportionnel sont au nombre de 5 :
Les probabilités d’inclusion d’ordre 1 sont égales pour tousles individus de la population et valent le taux de sondageunique f = n/N.L’estimateur de la moyenne µ vaut alors :
µstp =1n
H∑h=1
( nh∑i=1
Yi
).
C’est donc la moyenne simple calculée sur l’échantillon quipermet d’estimer µY . Nous avons un sondageautopondéré.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Troisième propriétéLa variance de l’estimateur µstp est égale à :
Var ( µstp ) = (1− f )H∑
h=1
Nh
Nσ2
h,c
n·
Remarque
L’expression de Var ( µstp ) montre que la précision de µstp estliée à l’homogénéité/hétérogénéité des individus au sein desstrates. Plus les strates sont homogènes (vis-à-vis de Y ), plusσ2
dans,c est faible, plus Var ( µstp ) est petite, plus µstp est précis.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
RemarqueNous montrons que cette variance est liée à la variance del’estimateur µY issu du SAS à PE obtenu à partir du mêmenombre d’unités tirées. En effet, nous avons :
Var ( µY ) = Var ( µstp ) + (1− f )1n
H∑h=1
Nh
N(µh − µ)2 .
Que pouvez vous déduire de cette dernière égalité ?Nous en déduisons que le sondage stratifié représentatif aune variance d’estimateur toujours plus petite ou égale à lavariance de l’estimateur du sondage aléatoire simple à PE.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
RemarqueNous avons établi les dernières propriétés pour l’estimateurstratifié de µY , mais nous pouvons bien sûr établir les mêmespropriétés pour l’estimateur de TY .
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Répartition optimale à taille fixeQuelques remarquesExemple
RemarquesLa théorie montre que cette répartition est celle qui fournitla variance la plus faible une fois les strates déterminées.Plus une strate est hétérogène vis-à-vis de Y , plus nousutilisons un taux de sondage f important.L’application de la formule pour calculer la répartitionoptimale suppose connues a priori les valeurs σh,c . Cepeut être le cas à partir d’études antérieures au sondage,mais en général il n’en est pas ainsi.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Répartition optimale à taille fixeQuelques remarquesExemple
Deux dernières remarquesLorsque le critère de stratification est la taille des unités,nous constatons que l’écart-type est sensiblementproportionnel à la taille moyenne des unités de la strate.C’est un ordre de grandeur de cette taille moyenne quenous utilisons pour calculer la répartition des individusentre les strates.En pratique, nous utilisons la répartition de Neymanquand le phénomène étudié a une distribution trèsdissymétrique.Par contre, si ce phénomène a une distribution symétriquepar rapport à sa moyenne, un sondage stratifiéproportionnel fournit des résultats d’une qualitésuffisante.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Répartition optimale à taille fixeQuelques remarquesExemple
RemarqueRemarquons que l’échantillon de Neyman dépend du caractèreque nous voulons estimer en priorité. C’est pour ce caractèreque nous prendrons la variance en considération. En général,celle-ci ne sera pas connue a priori. Elle pourra être estimée àpartir d’une enquête antérieure ou d’études limitées.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Répartition optimale à taille fixeQuelques remarquesExemple
Retour à l’exemple bancaireL’échantillon de Neyman est composé de :
110 « petits clients » contre 160et de 90 « gros clients » contre 40,
90 pour tenir compte de la plus grande variance de cesderniers.
Le calcul montre que la variance d’échantillonnage aurait étéégale à 0,91 au lieu de 1,27, soit un gain de 28% par rapport àla répartition proportionnelle.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié
Répartition optimale à taille fixeQuelques remarquesExemple
ConclusionAinsi, nous perdons en simplicité des calculs du cas« proportionnel » puisque l’échantillon n’est plusautopondéré, mais nous gagnons en précision.C’est en vertu de considérations de cet ordre que, parexemple, les échantillons d’entreprises stratifiées partranches de taille (moins de 10 salariés, de 10 à 50salariés, etc.) sont répartis, non pas au prorata du nombred’entreprises des tranches, mais au prorata du nombretotal de salariés ou du chiffre d’affaires total.
Myriam Maumy-Bertrand Sondage stratifié
Principe et objectifsFormules d’estimation du sondage stratifié