0) Ecart-type

Terminale S − 2019 / 2020 P3 – cours

Page 1

0) Ecart-type

Rappelons (ou découvrons) ce qu'est un écart-type.

En statistique il existe deux sortes d'indicateurs : les indicateurs de position, et ceux de dispersion.

Les indicateurs de position fournissent une valeur censée représenter, résumer, la série toute entière

en une seule valeur "positionnée à un endroit stratégique".

Parmi ceux-ci, vous connaissez évidemment la moyenne qui est "la valeur qu'auraient toutes les

valeurs de la série statistique si elles étaient égales" (oui oui c'est ça, la définition d'une moyenne,

réfléchissez…) ou la médiane qui est "une valeur centrale, telle qu'autant de valeurs de la série lui

sont supérieures qu'inférieures". Il existe également le mode qui est "la valeur d'effectif maximal".

Par exemple si les sept notes d'un élèves (dans l'ordre croissant) lors d'un trimestre sont 7 – 10 – 10

– 14 – 15 – 16 – 19 alors la moyenne est évidemment 7+10+10+14+15+16+19

7 = 13 et

effectivement, c'est bien la note qu'aurait eue l'élève si ses sept notes avaient été identiques… tandis

que la médiane est 14 puisqu'il y a bien trois notes inférieures à 14 et trois notes supérieures à 14.

Enfin le mode est 10 puisque c'est la note qui a été obtenue le plus grand nombre de fois.

Les indicateurs de dispersion sont complémentaires des précédents. Ils expriment de quelle façon,

dans quelle proportion, les valeurs de la série statistique s'écartent les unes des autres (se dispersent)

ou au contraire sont proches entre elles (se resserrent).

Il y a l'étendue ou amplitude (écart maximal dans la série, autrement dit entre la valeur la plus petite

et la valeur la plus grande) et l'écart-type, que l'on va voir.

Dans l'exemple précédent l'étendue est 19−7 = 12.

Pour parler de l'écart-type il faut réfléchir à des exemples pertinents qui en montrent l'utilité.

Imaginons un deuxième élève, que nous appellerons Jean-Eudes (et pourquoi pas ?) dont les six

notes (il a été absent à un devoir) ont été : 10 – 10 – 10 – 10 – 10 – 10.

Nous sommes d'accord pour dire que sa moyenne est … (on calcule, allez, vite…) 10 !

Son voisin, Calisthème (mais si, ça existe) quant à lui, a obtenu ce trimestre : 0 – 20 – 0 – 20 – 0 –

20.

Sa moyenne est … la même, ok !

Leur amie, Mairande, a pour notes : 0 – 10 – 10 – 10 – 10 – 20, et donc pour moyenne… encore la

même.

Pensez-vous pour autant que leur prof va rédiger la même remarque dans leurs bulletins ? Bien sûr

que non… la moyenne n'est pas un indicateur suffisant

Page 2

Comment les différencier ?

On voit bien que ce sont les écarts, donc ce qu'on appelle la dispersion, qui distingue les trois amis.

Essayons avec l'étendue.

Celle de Jean-Eudes est nulle : 10−10 = 0 !

Celle de Calisthème est maximale : 20−0 = 20.

On peut se dire que cet indicateur suffit, en l'associant à la moyenne, à caractériser la série.

Pourtant, Mairande a elle aussi pour étendue 20−0 = 20.

Mais son profil n'est pas du tout le même que Calisthème : lui est systématiquement dans les

extrêmes, alors qu'elle a été très régulière, comme Jean-Eudes, avec un accident et un coup d'éclat

qui s'annulent.

Il faut donc autre chose.

Puisque la moyenne est la même pour eux trois, à savoir 10, observons la façon dont les six notes se

dispersent autour de la cette moyenne.

Pour Jean-Eudes c'est simple : chaque note EST la moyenne ! Donc l'écart entre les notes et leur

moyenne est six fois le même : 0.

Ainsi, l'écart moyen entre les notes et leur moyenne vaut 0.

Pour Calisthème, c'est l'extrême inverse.

Quand il obtient 0, sa note est à 10 points (vers le bas) de la moyenne qui est à 10.

Quand il obtient 20, sa note est à 10 points (vers le haut) de la moyenne qui est à 10.

Donc en fait, chacune des six notes est située à un écart de 10 points de la moyenne qui est 10.

Ainsi, là aussi, l'écart moyen entre les notes et leur moyenne vaut 10.

Cet "écart moyen entre les valeurs de la série et leur moyenne" est, à peu de choses près, ce qu'on

appelle l'écart-type.

En pratique, c'est un tout petit peu différent même si ça revient presque au même :

L'écart-type d'une série statistique est la racine carrée de la moyenne des carrés des écarts entre les

valeurs de la série et leur moyenne.

Le fait de prendre les carrés puis ensuite la racine carrée annule en partie l'élévation au carré;

pourquoi le fait-on ? Pour des raisons totalement hors programme et qui ne doivent pas vous

préoccuper pour le moment.

En tout cas ça fonctionne.

Pour Jean-Eudes on commence par calculer la moyenne des carrés des écarts à la moyenne :

(10−10)

2+(10−10)2+(10−10)

2+(10−10)2+(10−10)

2+(10−10)2

6 = 0 : c'est ce qu'on appelle la

variance de la série statistique.

Ensuite, l'écart-type est donc la racine carrée de la variance : 0 = 0 !

Page 3

Pour Calisthème, la variance vaut (0−10)

2+(20−10)2+(0−10)

2+(20−10)2+(0−10)

2+(20−10)2

6

= 100+100+100+100+100+100

6 = 100 et l'écart-type vaut bien 100 = 10.

Calculons celui de Mairande.

Sa variance est (0−10)

2+(10−10)2+(10−10)

2+(10−10)2+(10−10)

2+(20−10)2

6

= 100+0+0+0+0+100

6 =

200

6 =

100

3 et donc son écart-type est

100

3 =

10

3

� 5,8.

Voilà donc un bon indicateur de dispersion :

• Chez Jean-Eudes, les notes sont en moyenne à 0 pt de leur moyenne qui vaut 10

• Chez Calisthème, les notes sont en moyenne à 10 pts de leur moyenne qui vaut 10

• Chez Mairande, les notes sont en moyenne à 5,8 pts de leur moyenne qui vaut 10

Intéressons-nous maintenant à la façon dont la moyenne et l'écart-type subissent (ou non) les

variations à l'intérieur des séries statistiques.

On se place désormais du côté du prof, un certain Monsieur C.

A la fin du trimestre, il constate que la moyenne de la classe est de 10 et que son écart-type est de 4.

Comme Monsieur C. est le plus gentil de tous les professeurs de la terre, il décide d'augmenter les

notes de chaque élève.

Il a deux possibilités pour mettre en pratique l'immensité de sa bienveillance.

• Premièrement, il va au plus simple, et augmente chaque élève d'un point.

Que deviennent la moyenne et l'écart-type de la classe ?

Il est à peu près évident que la moyenne augmente elle-aussi d'un point.

En effet, la moyenne étant "la note qu'auraient obtenue chaque élève s'ils avaient tous eu la

même note", on voit bien qu'ajouter 1 à toutes les notes, ajoute au final 1 à la moyenne des notes.

Celle-ci passe donc à 11.

Mais l'écart-type ?

L'élève qui avait 8, était à un écart de 2pts de la moyenne de 10.

Après l'intervention de Dieu, pardon de Monsieur C., cet élève a désormais 9 pour une moyenne

de classe de 11… donc il est toujours à 2 points de la moyenne.

Ainsi les écarts ne bougent pas : l'écart-type n'est pas sensible aux additions d'une même valeur,

ajoutée à chaque terme de la série statistique. Dans le cas de la classe de Monsieur C, il reste à 4.

Si on change de vocabulaire et qu'on passe à celui des probabilités, une série statistique est

simplement l'ensemble des valeurs d'une variable aléatoire X, la moyenne s'appelle alors

espérance et se note E(X) , tandis qu'on note usuellement σ(X) l'écart-type.

On vient d'expliquer la propriété suivante :

Si X est une variable aléatoire et que b est un nombre réel quelconque, alors :

E(X+b) = E(X)+b et σ(X+b) = σ(X)

En français dans le texte : si on augmente les valeurs d'une série X de b, alors la moyenne augmente

également de b, mais l'écart-type reste inchangé.

Page 4

• Deuxième possibilité, il décide de récompenser davantage les élèves plus méritants en les

augmentant "au pourcentage de la note initiale".

Il décide donc d'augmenter chaque élève de 10%.

Cela revient à multiplier toutes les notes par 1,1 !

L'élève qui avait 2 passe à …2,2.

Mais l'élève qui avait 15 passe à 16,5 !

C'est évidemment discutable mais ce n'est pas le propos.

Là aussi, on s'intéresse à ce que deviennent moyenne et écart-type.

La moyenne de 10 signifie que si tous les élèves avaient la même note, ils auraient 10, mais dans

ce cas chaque élève serait relevé de 10% donc d'1 point et chaque nouvelle note serait de 11 de

sorte que la nouvelle moyenne est elle-aussi passée à 11.

Donc comme dans la première méthode, la moyenne a été sensible, a suivi, l'opération effectuée

sur la série : elle-aussi a été augmentée de 10%.

Mais l'écart-type ?

Cette fois-ci les écarts changent.

En effet l'élève passé de 2 (écart de 8 à la moyenne 10) à 2,2 (écart de 8,8 à la moyenne 11) a vu

son écart augmenter de 8 à 8,8 c’est-à-dire … de 10 %.

L'élève passé de 15 (écart de 5) à 16,5 (écart de 5,5) a lui-aussi vu son écart augmenter de 10% !

Ainsi, les écarts augmentent dans les mêmes proportions que les notes : si celles-ci sont

multipliées par 1,1, alors les écarts entre les notes et leur moyenne, donc l'écart-type, également.

Le nouvel écart-type de la classe de Monsieur C. est donc désormais de 1,1×4 = 4,4 pour une

moyenne de 11.

En prenant le vocabulaire probabiliste :

Si X est une variable aléatoire et que a est un nombre réel strictement positif, alors :

E(aX) = aE(X) et σ(aX) = aσ(X)

En français dans le texte : si on multiplie les valeurs d'une série X par a > 0, alors la moyenne et

l'écart-type sont également multipliés par a.

On peut résumer ces deux propriétés en une seule, appelée le théorème de la transformation affine

d'une variable aléatoire :

Soit X une variable aléatoire.

Soit a un nombre réel strictement positif, et b un nombre réel quelconque.

On fait subir à X une transformation affine en posant Y = aX+b .

Alors on obtient les résultats suivants :

E(Y) = aE(X)+b

σ(Y) = aσ(X)

Nous allons être amenés à utiliser ce théorème.

Page 5

1) Introduction

La loi normale est le résultat d'une question simple (bon, ok, on ne se la pose pas tous les jours au

petit-déjeuner…) : que se passe-t-il si, dans une loi binomiale de paramètres n et p, le paramètre n

(le nombre de répétitions de l'expérience aléatoire) devient grand ? Voire même, tend vers l'infini ?

Essayons de contextualiser cette question ô combien existentielle…

Si on joue à pile ou face avec une pièce, nous sommes dans le cas typique d'une loi binomiale.

Disons qu'on parie sur "pile".

On note p la probabilité que la pièce tombe sur pile (p = 0,5 si la pièce est équilibrée, p > 0,5 si elle

est truquée en faveur de pile, p < 0,5 si elle est truquée en faveur de face).

On note n le nombre de fois qu'on décide de lancer la pièce.

On note X la variable aléatoire égale au nombre de fois que la pièce retombera sur pile parmi les n

lancers.

Alors X suit la loi binomiale de paramètres n et p (on la note B(n;p)).

Voilà ce que cela donne si on lance une pièce équilibrée (p = 0,5) quarante fois (n = 40) :

Les abscisses représentent les valeurs possibles de X : de 0 (si la pièce retombe à chaque lancer sur

face) à 40 (si elle retombe à chaque lancer sur pile) et les ordonnées sont la probabilité de chacune

de ses valeurs, calculée avec la formule que l'on connait.

Page 6

Par exemple P(X=15) =

40

15×p15×(1−p)

25 = 40225345056×0,515×0,525 � 0,037.

Si on monte à quatre-vingt lancers (n = 80) voilà le nouveau diagramme des valeurs de X :

Et si on lance la pièce cent fois cela devient:

Que remarque-t-on ?

Page 7

Que les diagrammes suivent un même mouvement : une montée assez tardive vers un maximum

d'où ils redescendent de façon symétrique par rapport à la montée.

Réfléchissons à ces constats.

• Les valeurs basses de X (de 0 à 10 sur le premier schéma, de 0 à 25 sur le second, de 0 à 35 sur le

troisième) sont très peu probables, de même que les valeurs hautes (de 30 à 40 sur le premier, de

55 à 80 sur le second, de 65 à 100 sur le troisième, sachant que la valeur maximale est la valeur n

elle-même).

C'est compréhensible.

Si on lance quarante fois la pièce, on conçoit volontiers qu'il est très improbable qu'elle retombe

quasi systématiquement du même côté (X = 1 signifierait 1 fois pile et 39 fois face, alors

qu'inversement X = 38 signifierait 38 fois pile et 2 fois face).

On dit que les valeurs extrêmes sont négligeables.

• Il y a une probabilité maximale dans chaque situation.

A quoi correspond-elle ?

Souvenons-nous que l'espérance d'une variable aléatoire "binomiale" est donnée par E(X) = np .

Dans le premier cas de figure, E(X) = 40×0,5 = 20 : c'est bien cette valeur qui a la probabilité

maximale.

Dans le deuxième cas, E(X) = 80×0,5 = 40 : là aussi, c'est sur cette valeur de X que le maximum

est atteint.

Dans le troisième cas, E(X) = 100×0,5 = 50… même constat.

Donc la valeur de X qui a la plus grande probabilité est son espérance. Quoi de plus logique ? La

valeur moyenne est en effet celle qui est la plus "représentative" d'une série statistique. La pièce

étant équilibrée, si on la lance cent fois, intuitivement, on sent bien que "50 fois pile et 50 fois

face" est une situation tout à fait crédible, bien davantage que "0 fois pile et 100 fois face" ou "3

fois pile et 97 fois face".

• La distribution des probabilités est symétrique par rapport à l'espérance.

En effet, là aussi c'est assez intuitif. Pour une pièce équilibrée qu'on lance 50 fois, tomber 10 fois

sur pile est exactement la même chose que tomber 10 fois sur face, puisque pile et face ont la

même probabilité.

Essayons maintenant des situations où la pièce n'est pas équilibrée : p � 0,5.

Commençons par un cas de figure où elle est légèrement en faveur de pile, en prenant p = 0,6.

On la lance quarante fois (n = 40).

Les valeurs de X vont donc de 0 (0 fois pile 40 fois face) à 40 (l'inverse).

Son espérance est E(X) = np = 40×0,6 = 24.

On constate (schéma page suivante) que les propriétés constatées précédemment demeurent

observables.

Le maximum est bien atteint pour la valeur de X égale à son espérance, 24, ce que l'on a mis en

évidence sur le diagramme.

La symétrie se fait toujours par rapport à la valeur maximale.

Et enfin les valeurs extrêmes restent négligeables (même si la pièce est truquée en tombant 60% des

fois sur pile, on imagine bien que sur quarante lancers, tomber systématiquement sur pile reste très

peu probable).

Page 8

Prenons maintenant une pièce truquée pour tomber 80% du temps sur face (autrement dit p = 0,2) et

lançons-la quarante fois (n = 40). On a E(X) = 40×0,2 = 8.

Page 9

Puis lançons-la désormais cent fois (n = 100, E(X) = 100×0,2 = 20).

Et enfin lançons-la deux cents fois (n = 200, E(X) = 200×0,2 = 40).

Page 10

Dans tous les cas de figure, le même constat s'impose.

Si X suit une loi B(n;p) alors :

• Les valeurs extrêmes de X sont négligeables (de probabilités proches de 0) ;

• La probabilité maximale est celle de la valeur de X égale à E(X) = np ;

• La distribution des probabilités pour l'ensemble des valeurs de X allant de 0 à n est symétrique

par rapport à l'espérance E(X).

Intéressons-nous plus précisément au cas où n = 200.

Le nombre de valeurs possibles de X est alors de 201 (de X = 0 à X = 200).

Prenons un cas avec n = 400 et p = 0,1. Il y a alors 401 valeurs possibles pour X.

Pour les grandes valeurs de n, il y a de très nombreuses valeurs possibles pour X (puisque le nombre

total de valeurs possibles de X est n+1 : de 0 à n).

Si n devait devenir vraiment très grand (tendre vers l'infini), la variable X prendrait alors une

quantité elle-même infinie de valeurs… et cesserait d'être une variable aléatoire discrète.

Le problème est que pour de grandes valeurs de n, les histogrammes vont courir le long de l'axe des

abscisses et les probabilités devenir très faibles (car réparties sur une quantité gigantesque de

valeurs possibles) donc imperceptibles.

L'idée est alors de réaliser une transformation affine de X afin de la normaliser, c’est-à-dire de la

forcer à se confronter à une norme de façon à ce que tous les cas de figures envisagés (selon n et p)

puissent facilement être comparés.

On va donc retrancher à X son espérance (ce qui, d'après le théorème de la transformation affine,

donnera une espérance nulle à la nouvelle variable aléatoire) et la diviser par son écart-type (ce qui,

toujours selon le même théorème, donnera un écart-type égal à 1 à la nouvelle variables aléatoire).

Page 11

On pose donc Y = X−E(X)

σ(X) =

X−np

np(1−p)

.

On a normalisé la variable X en lui imposant une espérance fixe (0) et un écart-type fixe (1).

Y est appelée une version de X centrée et réduite : E(Y) = 0 (centrée) et σ(Y) = 1 (réduite).

Sur le schéma suivant, les histogrammes bleus sont ceux uniquement centrés, et les verts

correspondent à Y.

Même chose mais avec p = 400 et p = 0,25 : les histogrammes correspondant à X ont disparu du

schéma (trop à droite) mais ceux de Y en vert semble analogues aux précédents.

Page 12

Augmentons encore n en prenant n = 700 :

puis n = 1000 :

Plus n est grand plus les histogrammes sont nombreux (car de plus en plus de valeurs possibles pour

X et donc pour Y) et plus on quitte le domaine des probabilités discrètes : les sommets des

histogrammes commencent à dessiner une sorte de courbe continue… celle d'une densité !

Page 13

Cette variable Y en vert, qui ne change visiblement pas quelles que soit les valeurs données à n et p,

possède donc, pour les valeurs élevées de n, une densité que l'on peut représenter en rouge :

Nous venons de faire apparaître la loi normale centrée réduite.

Cette loi est donc "ce que devient une loi binomiale qui a été centrée et réduite quand n devient très

grand".

De façon plus rigoureuse, elle est le passage au continu d'une variable aléatoire binomiale centrée

réduite quand n tend vers +õ .

Page 14

2) Lois normales

a) Loi normale centrée réduite

Notre introduction est récapitulée dans le :

Théorème de Moivre – Laplace

Soit une variable aléatoire X suivant une loi binomiale de paramètres n et p.

On a donc E(X) = np et σ(X) = np(1−p) .

Soit une variable aléatoire Yn = X−E(X)

σ(X) =

X−np

np(1−p)

.

Alors pour les grandes valeurs de n, la variable Yn peut être approximée par une variable aléatoire

continue dont la densité est f(t) = 1

2π

e-

t2

2

.

Autrement dit lim n−>+õ

P( )aÂYnÂb =

a

b

1

2π

e-

t2

2

dt

La loi continue ainsi définie est appelée loi normale centrée réduite, ou loi normale de paramètres 0

et 1 et on la note N(0;1).

Remarques

• La première chose qui frappe c'est ce 1

2π

dont on ne voit absolument pas ce qu'il fait là.

On a bien compris que la fonction f(t) = 1

2π

e-

t2

2

a une courbe en cloche (appelée courbe de

Gauss) compatible avec les propriétés attendues du passage au continu des histogrammes centrés

et réduits de la loi binomiale :

Page 15

En effet cette courbe est symétrique par rapport à l'axe des ordonnées (car f est paire), elle atteint

bien son maximum en 0 et les valeurs extrêmes sont négligeables, ce qui se traduit par les

asymptotes horizontales que sont l'axe des abscisses en –õ et +õ , car les deux limites de f y

sont nulles.

Le coefficient 1

2π

est simplement le nombre qui fait "vraiment" de f une densité.

f est évidemment continue et positive (c'est une exponentielle…) dont il faut encore, pour

achever le travail, que l'aire sous la courbe soit égale à 1.

Or il se trouve qu'on peut démontrer (mais il vous faudra attendre au moins trois ans pour y

parvenir) que :

-õ

+õe-

t2

2

dt = 2π

Ainsi, par linéarité, en divisant par 2π , on trouve bien :

-õ

+õf(t)dt =

-õ

+õ

1

2π

e-

t2

2

dt = 1

• Ensuite, intéressons-nous aux notations.

La loi normale centrée réduite se note donc N(0 ; 1).

Ces deux paramètres correspondent à l'espérance (0) et à l'écart-type (1) de la loi normale issue

du "centrage – réduction" de la loi binomiale.

Elles en sont donc la conséquence : on a fait en sorte, dans la construction de l'introduction, d'en

arriver là.

D'ailleurs un calcul permet de le vérifier :

0

xtf(t)dt =

1

2π

0

x

te-

t2

2

dt = 1

2π

−e

- t2

2

0

x

= 1

2π

( 1−e-

x2

2

).

Donc lim x−>+õ

0

x tf(t)dt =

1

2π

.

De même, - x

0tf(t)dt =

1

2π

−e

- t2

2

- x

0

= 1

2π

(-1+e-

x2

2

).

Donc lim x−>+õ

- x

0tf(t)dt = -

1

2π

.

Ainsi, l'espérance de N(0 ; 1) est :

-õ

+õtf(t)dt

= lim x−>+õ

- x

xtf(t)dt

= lim x−>+õ

- x

0tf(t)dt+

0

x tf(t)dt

= lim x−>+õ

- x

0tf(t)dt + lim

x−>+õ

0

x tf(t)dt

= 1

2π

− 1

2π

= 0.

Page 16

• D'un point de vue pratique, si on note désormais X une variable aléatoire de loi N(0 ; 1), alors :

P(aÂXÂb) =

a

b

1

2π

e-

t2

2

dt (principe de la densité).

Utilisation de la calculatrice

Bien évidemment, il est impossible de calculer

a

b

1

2π

e-

t2

2

dt "à la main" (je vous mets au défi de

trouver une primitive…) donc les calculs ne se feront qu'avec la calculatrice.

Cherchons par exemple la probabilité que X soit entre 0 et 2 : P(-2ÂXÂ-1).

On appuie sur la touche "2nde

" puis "distrib" (derrière la touche "var").

Cet écran apparait :

On choisit la commande 2 : normalFRép(

Ce nouvel écran apparait :

lower désignera toujours la borne du bas (-2 dans cet exemple).

upper désignera toujours la borne du haut (-1 dans cet exemple).

µ désigne le paramètre µ (la moyenne) donc 0 pour X dans cet exemple.

σ désgne le paramètre σ (l'écart-type) donc 1 pour X dans cet exemple.

Page 17

On remplit donc en conséquence de la probabilité cherchée, ici toujours P(2ÂXÂ-1) :

On clique sur "paste" pour "coller" la demande sous cette forme :

On valide :

Et ainsi, pour X suivant N(0 ; 1), on a : P(-2ÂXÂ-1) � 0,1359.

Dans ce qui suit, cette manipulation sera notée, comme elle apparait finalement à l'écran, sous la

forme normalFRép(-2,-1,0,1).

Pour une probabilité non pas d'un intervalle mais seulement d'une inégalité, on utilise le fait que les

valeurs extrêmes sont négligeables.

Par exemple on assimile P(XÃ1,5) à P( )1,5ÂXÂ109 puisque au-delà de 109 les valeurs sont

devenues négligeables. Ainsi on tape P(XÃ1,5) = normalFRép(1.5,109,0,1) � 0,00908.

De même P(XÂ0,5) = normalFRép(-109,1.5,0,1) � 0,69146.

Page 18

Bilan

On dit qu’une variable aléatoire suit une loi normale de paramètres N(0 ; 1) si sa densité est la

fonction f définie sur � par f( t) = 1

2π

e-

t2

2

.

La loi normale centrée réduite N(0 ; 1) correspond à des distributions de fréquences (donc de

probabilités) symétriques par rapport à leur moyenne nulle et d’écart type 1.

D’autre part si une variable aléatoire X suit une loi binomiale de paramètres (n ; p) et donc

d’espérance µ = np et d’écart-type σ = np(1−p) , on pose Y = X−µσ

.

Alors E(Y) = E(X)−µ

σ = 0 et σ(Y) =

1

σ σ = 1.

On peut démontrer (théorème de Moivre – Laplace) que pour les grandes valeurs de n (c'est-à-dire

si n tend vers +õ) Y suit une loi normale centrée réduite.

Exemple

Une usine fabrique des caisses de 20000 composants électroniques.

La probabilité qu’un composant soit défectueux est estimée à 0,08.

On note X le nombre de composants défectueux dans la caisse.

On cherche une estimation de P(XÂ1500).

On suppose le nombre de composants dans la caisse suffisamment grand pour que le fait qu'ils

soient ou non défectueux soit des événements indépendants.

Dans ces conditions, X suit une loi binomiale de paramètres n = 20000 et p = 0,08.

E(X) = np = 1600 et σ(X) = np(1−p) = 1472 .

n étant suffisamment grand, d’après le théorème de Moivre-Laplace, la variable Y = X−1600

1472

suit une loi proche de N(0 ; 1).

Ainsi : P(XÂ1500) = P(X−1600Â-100) = P

YÂ-

100

1472

� P(YÂ-2,60643) � normalFRep(-109,-2.60643,0,1) � 0,00457.

Concrètement cela signifie qu'il y a 0,457% de risque qu'il y ait moins de 1500 composants

défectueux parmi les 20000 de la caisse.

Page 19

Utilisation de la symétrie

La courbe (de Gauss) de la densité de la loi normale est symétrique par rapport à l’axe des

ordonnées (par rapport à 0).

Or par principe, les probabilités sont des aires sous la courbe de la densité :

Mais la symétrie impose que les aires sont les mêmes avant 0 et après 0.

Et comme l'aire totale vaut 1 on en déduit que :

On peut d'ailleurs généraliser ce constat à n'importe quelle valeur autre que 0 :

Ainsi :

Si X suit la loi N(0 ; 1), alors :

pour tout reél a, on a P(XÃa) = P(XÂ-a)

en particulier P(XÃ0) = P(XÂ0) = 0,5

Page 20

Par exemple, on constate à la calculatrice que :

P(-1,5ÂXÂ1,5) = NormalFRep(-1,5;1,5;0;1) � 0,866.

Par symétrie on en déduit que P(0ÂXÂ1,5) représente la moitié de la probabilité précédente :

Et donc P(0ÂXÂ1,5) = 0,866

2 = 0,433.

Mais alors P(XÂ1,5) peut être vu comme la somme de P(XÂ0) et de P(0ÂXÂ1,5) :

Ainsi, P(XÂ1,5) = P(XÂ0) + P(0ÂXÂ1,5) = 0,5+0,433 = 0,933.

Page 21

Enfin, (X>1,5) est l'événement contraire de (XÂ1,5) :

Donc P(X>1,5) = 1−P(XÂ1,5) = 1−0,933 = 0,067.

b) Inversion de la loi normale centrée réduite

Jusqu'à présent, nous avons vu comment calculer des probabilités d'événements de type P(XÂb)

ou P(XÃa) ou P(aÂXÂb), soit à l'aide de la calculatrice, soit en utilisant la symétrie de la

distribution normale.

On est parfois amenés à chercher non pas la probabilité d'un événement dont les bornes (a et b pour

l'événement (aÂXÂb)) sont connues, mais l'inverse.

En particulier on a souvent besoin, en pratique, de chercher la borne, la "frontière" t, telle que

P(XÂt) = p, le nombre p étant connu. Concrètement on cherche donc où il faut placer la frontière t

pour qu'une proportion p de la population soit inférieure à cette valeur t.

Par exemple, si X est la température en °C d'un jour de janvier et que X suit N(0 ; 1), chercher t tel

que P(XÂt) = 0,8 revient à chercher la température telle que 80% des jours de janviers lui soient

"davantage froids".

Pour ce genre d'opération on utilise la commande "FracNormale" :

On appuie sur la touche "2nde

" puis "distrib" (derrière la touche "var").

Cet écran apparait :

Page 22

On choisit la commande FracNormale(

Ce nouvel écran apparait :

area désigne la probabilité p connue (l'aire p sous la courbe avant l'abscisse t)

µ désigne le paramètre µ (la moyenne) donc 0 pour X dans cet exemple.

σ désigne le paramètre σ (l'écart-type) donc 1 pour X dans cet exemple.

On remplit donc avec la probabilité connue, ici 0,8 afin de chercher t tel que P(XÂt) = 0,8 :


On valide :

Page 23

Et ainsi, pour X suivant N(0 ; 1), on a : P(XÂ0,8416212335) = 0,8.

Dans notre exemple cela signifie qu'en janvier, 80% des journées enregistrent une température

inférieure à 0,84°C environ.

Dans ce qui suit, cette manipulation sera notée, comme elle apparait finalement à l'écran, sous la

forme FracNormale(0.8,0,1).

Ainsi :

Si X suit N(0 ; 1), alors

P(XÂt) = p ñ t = FracNormale(p,0,1)

Exemple

Soit X une variable aléatoire suivant N(0 ; 1).

Déterminer le réel t tel que P(X>t) = 0,05, et calculer la probabilité P(-tÂXÂt).

Premièrement, il faut se ramener à un événement du type (XÂt) pour pouvoir utiliser la

calculatrice.

L'événement (X> t) est le contraire de (XÂ t); on en déduit que P(XÂt) = 1−0,05 = 0,95.

Donc t = FracNormale(0.95,0,1) � 1,645.

Donc P(XÂ1,645) = 0,95 et ainsi P(X>1,645) = 0,05.

Page 24

Par symétrie on en déduit que P(X<-1,645) = 0,05.

Et donc P(-1,645ÂXÂ1,645) = 1−0,05−0,05 = 0,9

Si on cherche une interprétation avec les températures de janvier, on vient de déterminer que :

• 5% des jours de janvier, la température est supérieure à 1,6°C

• 5% des jours de janvier, la température est inférieure à -1,6°C

• 90% des jours de janvier, la température est entre -1,6°C et 1,6°C.

c) Calcul de seuil

Pour comprendre ce que l'on va appeler seuil, il faut déjà voir dans quel contexte, dans quel type de

problème, une réponse doit être apportée.

Reprenons l'exemple du paragraphe 2a.

Une usine fabrique des caisses de 20000 composants électroniques.

La probabilité qu’un composant soit défectueux est estimée à 0,08.

On note X le nombre de composants défectueux dans la caisse : X suit une loi binomiale de

paramètres n = 20000 et p = 0,08.

On a déjà montré à l'aide du théorème de Moivre-Laplace que P(XÂ1500) � 0,00457.

Le patron de l’usine qui fabrique les composants électroniques veut pouvoir annoncer à ses clients

une information fiable à au moins 95% sur le fait que la contenance de ses caisses s’éloigne le

moins possible de la moyenne de composants défectueux.

Il cherche donc m > 0 tel que P(1600−m<X<1600+m) Ã 0,95.

Page 25

Théorème du seuil

Soit X une variable aléatoire qui suit la loi normale centrée réduite N(0 ; 1).

Pour tout réel α ☻ ]0 ; 1[, il existe un unique nombre réel uα > 0 tel que P(-uαÂXÂuα) = 1−α .

f(t) = 1

2π

e-

t2

2

étant paire, P(-xÂXÂx) = - x

x f(t)dt = 2

0

x f(t)dt .

Posons F(x) =

0

x f(t)dt , où x ☻ [0 ; +õ[.

F est la primitive de f sur [0 ; +õ[ qui s’annule en 0.

Donc F ′(x) = f(x) > 0 et F est croissante sur [0 ; +õ[.

F est continue car dérivable sur [0 ; +õ[.

De plus, lim x−>+õ

F(x) = 1

2 car f est une densité de probabilité.

Soit α tel que 0 < α < 1.

Alors -1 < -α < 0, donc 0 < 1−α < 1 et 0 < 1−α

2 <

1

2 .

D’après le corollaire du théorème des valeurs intermédiaires, il existe un

unique réel uα ☻ ]0 ; +õ[ tel que F(uα) = 1−α

2 ñ P(-uαÂXÂuα) = 1−α .

Exemple

Cherchons le seuil correspondant à α = 0,05 c'est-à-dire l’intervalle I = [–u0,05 ; u0,05] tel que la

probabilité qu’une variable aléatoire X de loi N(0 ; 1) y soit située est 0,95.

On cherche donc u0,05 tel que P(-u0,05ÂXÂu0,05) = 1−0,05 = 0,95.

Or par symétrie, P(-u0,05ÂXÂu0,05) = 2P( )0ÂXÂu0,05 donc P( )0ÂXÂu0,05 = 0,95

2 = 0,475.

Ainsi, P( XÂu0,05) = P(XÂ0)+P( )0ÂXÂu0,05 = 0,5+0,475 = 0,975.

Donc u0,05 = FracNormale(0.975,0,1) � 1,96.

Si X suit la loi N(0 ; 1), alors 95% de ses valeurs sont dans l’intervalle [-1,96 ; 1,96].

Le seuil est la valeur α correspondant aux extrêmes (α est l'aire totale en bleu sur le

schéma ci-dessus). Plus α est petit, plus l'aire orange augmente, plus l'intervalle

s'ouvre et plus uα est grand.

Page 26

Résolution du problème

Le patron cherche m > 0 tel que P(1600−m<X<1600+m) � 0,95.

On avait vu que la variable Y = X−1600

1472

suit une loi proche de N(0 ; 1) (d'après le théorème de

Moivre-Laplace).

Donc P(1600−m<X<1600+m) � 0,95

ñ P(-mÂX−1600Âm) � 0,95

ñ P

-

m

1472

ÂYÂ m

1472

� 1−0,05.

Ainsi m

1472

= u0,05 et donc m = 1472 ×u0,05 � 1472 ×1,96 � 75.

Finalement P(1525ÂXÂ1675) � 0,95.

Le patron de l'usine peut donc annoncer que ses caisses contiennent entre 1525 et 1675 composants

défectueux : il sait qu'il a 95% de chances d'avoir raison.

Comme on le comprend, la question du seuil est donc celle de la maîtrise de la fiabilité d'une

information.

Si le seuil α est la "marge d'erreur" d'une information, c’est-à-dire la probabilité qu'elle a d'être

inexacte, alors 1−α est la probabilité qu'elle a d'être vraie.

Chercher uα consiste donc à chercher la précision de l'information (l'intervalle [-uα ; uα])

compatible avec ce degré de fiabilité (ou ce seuil d'erreur).

Et donc plus on veut une information fiable (risque α d'erreur faible) plus l'intervalle est grand et

donc moins l'information est précise (dire que X est entre -2 et 2 est moins précis que de dire qu'elle

est entre -1 et 1).

Les deux exigences de précision et de fiabilité d'une information sont donc des propriétés qui

s'excluent l'une l'autre…

De façon générale si on cherche le seuil correspondant à un réel α > 0 quelconque, on doit donc

chercher uα tel que :

P(-uαÂXÂuα) = 1−α

ñ P( )0ÂXÂuα = 1−α

2

ñ P(XÂuα) = P(XÂ0)+P( )0ÂXÂuα = 1

2 +

1−α2

= 1− α2

ñ uα = FracNormale(1− α2

,0,1).

uα = FracNormale(1− α2

,0,1)

Page 27

On avait déjà calculé u0,05 � 1,96.

Normalement, u0,01 doit être plus grand, puisque α = 0,01 est plus petit que 0,05 (information plus

fiable, donc moins précise).

Et en effet au seuil de 1% on trouve u0,01 = FracNormale(0.995,0,1) � 2,58.

u0,05 � 1,96 et u0,01 � 2,58.

d) Loi normale NNNN(µ ; σ 2)

Toutes les distributions statistiques n'ont pas une moyenne nulle et un écart-type égal à 1 (toutes les

températures étudiées ne sont pas celles d'un mois de janvier).

Il est donc nécessaire de trouver une transition mathématique vers les situations les plus générales,

qui conservent les mêmes caractéristiques que la loi N(0 ; 1) : une symétrie par rapport à la

moyenne (pas nécessairement nulle, donc) où le maximum de la probabilité est atteint, et des

valeurs extrêmes négligeables.

Cette "transition" se fait par cette définition :

Soit µ un réel et σ un réel strictement positif.

On dit qu’une variable aléatoire X suit la loi normale N(µ ; σ 2) si X−µσ

suit la loi normale centrée

réduite N(0 ; 1).

Cette définition est presque moins importante que les conséquences qui suivent, et qui sont

exactement celles qu'on attendait :

Si X suit N(µ ; σ 2) on pose Y = X−µσ

.

• E(X) = µ

• σ(X) = σ

• P(XÂµ) = P(XÃµ) = 0,5

Page 28

Autrement dit, si une variable aléatoire X qui une loi normale de paramètres µ et σ 2, alors son

premier paramètre (µ) correspond à son espérance, son deuxième paramètre (σ 2) correspond au

carré de l'écart-type (c’est-à-dire à ce qu'on appelle la variance), et par symétrie de la distribution, la

probabilité de tomber "avant l'espérance µ" et "après l'espérance µ" est la même : 0,5.

Prenons un exemple avec une situation très concrète : l’âge d’apparition des premiers mots chez un

enfant est donné, en mois, par une variable aléatoire X.

Des études ont montré que X suit une loi normale d’espérance 11,5 et d’écart type 3.

Cela signifie donc que l'âge moyen des premiers mots est de 11 mois et demi et qu'en moyenne les

enfants prononcent ce premier mot à un écart d'environ 3 mois par rapport à cette moyenne.

Les notations sont donc : X suit la loi N(11.5 ; 32).

Tous les calculs se font à la calculatrice, comme pour la loi normale centrée réduite; on adapte

simplement les paramètres.

• Calculer la probabilité qu’un enfant prononce ses premiers mots entre 8 et 10 mois.

On cherche P(8ÂXÂ10) donc on appuie sur la touche "2nde

" puis "distrib"

Page 29

On choisit la commande 2 : normalFRép(

µ désigne le paramètre µ (la moyenne) donc 11.5 pour X dans cet exemple.

σ désigne le paramètre σ (l'écart-type) donc 3 pour X dans cet exemple.

On remplit donc en conséquence de la probabilité cherchée, ici P(8ÂXÂ10) :


Page 30

On valide :

Et ainsi, pour X suivant N(11.5 ; 32), on a : P(8ÂXÂ10) � 0,187.

On note cette commande normalFRép(8,10,11.5,3).

Et 18,7% des enfants prononcent leur premier mot entre 8 mois et 10 mois.

• Calculer la probabilité qu’un enfant prononce ses premiers mots avant 7 mois.

P(XÂ7) = P(0ÂXÂ7) = normalFRép(0,7,11.5,3) � 0,067

Et 6,67% des enfants prononcent leur premier mot avant 7 mois.

• Calculer la probabilité qu’un enfant prononce ses premiers mots après 14 mois.

P(XÃ14) = normalFRép(14,109,11.5,3) � 0,202.

Et 20,2% des enfants prononcent leur premier mot après 14 mois.

• Afin de rassurer les parents impatients, déterminer l'âge t avant lequel 90% des enfants

prononcent leur premier mot.

On cherche donc t tel que P(XÂt) = 0,9.

Là aussi on utilise la commande FracNormale en l'adaptant aux nouveaux paramètres :

t = FracNormale(0.9,11.5,3) � 15,3

Donc 90% des enfants prononcent leur premier mot avant 15 mois et 10 jours.

Page 31

Retour aux problèmes de seuils

Comme on vient de le vois dans l'exemple de l'âge des premiers mots, même dans le cas d'une loi

normale quelconque N(µ ; σ 2), on peut toujours utiliser la fonction "FracNormale" pour déterminer

un rang t telle que la probabilité P(XÂt) est connue à l'avance et vaut p.

Les problèmes de seuils consistaient à trouver deux bornes –uα et uα symétriques par rapport à 0 (il

suffisait donc de trouver uα) telles que, pour X suivant N(0;1) on avait P( )-uαÂXÂuα = 1−α .

On est souvent ramenés à des situations comparables, avec une loi normale d'espérance µ, mais

alors l'encadrement cherché n'est plus de type –u ÂXÂu centré sur 0, mais plutôt centré sur la

nouvelle espérance µ donc de type : µ−uÂXÂµ+u .

Toutefois, contrairement au inégalités simples (P(XÂt) = p) la situation du seuil présentant deux

bornes, elle est plus contraignante à manipuler et nécessite de repasser par une variable aléatoire

suivant N(0;1). Ca tombe bien, puisque si X suit N(µ ; σ 2), on sait par définition qui suit N(0;1) : il

faut alors nommer Y = X−µσ

.

Poursuivons l'exemple des premiers mots chez un enfant.

Les parents voulant encore davantage se rassurer sur quelque chose qui pourrait être considéré

comme une situation "normale", on cherche un intervalle I centré sur la moyenne qui permette

d’affirmer que 80% des enfants y prononcent leurs premiers mots.

On cherche donc un réel u > 0 tel que P(11,5−uÂXÂ11,5+u) = 0,8.

Posons alors Y = X−11,5

3 .

Puisque X suit la loi N(11.5 ; 32), alors Y suit la loi N(0;1).

Ainsi on a :

P(11,5−uÂXÂ11,5+u) = 0,8

ñ P(-uÂX−11,5Âu) = 0,8

ñ P

-

u

3 Â

X−11,5

3 Â

u

3 = 0,8

ñ P

-

u

3 ÂYÂ

u

3 = 1−0,2

ñ u

3 = u0,2 = FracNormale(1−

0,2

2 ; 0 ; 1) = FracNormale(0,9 ; 0 ; 1) � 1,28

ñ u = 3u0,2 � 3,84.

Ainsi on a : P(11,5−3,84ÂXÂ11,5+3,84) = 0,8, et donc P(7,66ÂXÂ15,34) = 0,8.

On peut donc affirmer aux parents qu'en prenant aussi bien en compte les enfants légèrement en

avance par rapport à l'âge moyen (de 3,84 mois) ou légèrement en retard (idem), 80% d'entre eux

prononcent leur premier mot entre 7,66 mois (7 mois et 20 jours) et 15,34 mois (15 mis et 10 jours).

Page 32

Trois probabilités particulières

La méthode liée au seuil permet, on vient de le voir, de trouver des intervalles centrées sur

l'espérance, sur la valeur moyenne, dont la probabilité est connue à l'avance.

Inversement, il existe trois grands types d'intervalles, eux-mêmes centrés sur la moyenne,

d'amplitudes plus ou moins grandes, dont les probabilités sont fixes.

C'est exactement ce que nous dit le résultat suivant :

Si X suit une loi normale N(µ ; σ 2) alors :

• P( )X☻[µ−σ;µ+σ] = P(µ−σÂXÂµ+σ) � 0,683

• P( )X☻[µ−2σ;µ+2σ] = P(µ−2σÂXÂµ+2σ) � 0,954

• P( )X☻[µ−3σ;µ+3σ] = P(µ−3σÂXÂµ+3σ) � 0,997

Ainsi, pour une loi normale, 68,3% des valeurs sont à une distance de l'espérance inférieure à σ.

De même 95,4% des valeurs sont à une distance de l’espérance inférieure à 2σ et 99,7% le sont à

une distance inférieure à 3σ.

Page 33

Ces propriétés sont simples à démontrer.

En effet si X suit la loi N(µ ; σ 2), on pose Y = X−µσ

qui suit alors la loi N(0;1).

Ainsi :

• P(µ−σÂXÂµ+σ) = P(-σÂX−µÂσ) = P(-1ÂYÂ1) = NormalFRép(-1;1;0;1) � 0,683.

• P(µ−2σÂXÂµ+2σ) = P(-2ÂYÂ2) = NormalFRép(-2;2;0;1) � 0,954.

• P(µ−3σÂXÂµ+3σ) = P(-3ÂYÂ3) = NormalFRép(-3;3;0;1) � 0,997.

On revient encore une fois à l'âge X des premiers mots d'un enfant.

D'après le résultat précédent :

• P(8,5ÂXÂ14,5) = 0,683 autrement dit 68,3% des enfants prononcent leur premier mot entre 8

mois et demie et 14 mois et demie ;


mois et demie et 17 mois et demie ;


mois et demie et 20 mois et demie.

Quand on reconnait une probabilité d'une inégalité de type µ plus ou moins σ ou 2σ ou 3σ, il n'est

donc plus nécessaire de faire le calcul : ces trois cas particuliers doivent être connus par cœur.

Page 34

3) Echantillonnage et estimation

On va considérer la situation suivante : dans une urne sont disposées des boules noires et des boules

rouges. La proportion de boules rouges (autrement dit la probabilité d’en tirer une au hasard) est

égale à p ☻ ]0 ; 1[.

Remarques préliminaires

• Si Xn est une variable aléatoire suivant la loi binomiale B(n ; p) de paramètres n et p, alors Xn est

le nombre de succès (chacun de probabilité p) parmi les n tentatives, et donc Xn

n correspond à la

fréquence des succès parmi les n tentatives.

Par exemple si on tire avec remise 100 fois de suite une des boules, on peut définir X100 comme

le nombre de boules rouges tirées parmi les 100 tentatives.

Dans ces conditions, X100 suit la loi B(100 ; p) et si par exemple on a tiré 19 boules rouges, alors

X100

100 =

19

100 = 0,19 est bien la fréquence observée des boules rouges.

• Imaginons qu’on connaisse la proportion p de boules rouges. On effectue des séries de n tirages

et on note les fréquences d’apparition d’une boule rouge lors de chacune des séries. Cette

fréquence observée va « en général » être située dans un intervalle dit « de fluctuation » de

centre p dont l’amplitude diminue quand n augmente. On parle d’échantillonnage.

Par exemple, s'il y a 4% de boules rouges, alors p = 0,04 et on s’attend, dans une série de tirages,

à trouver une fréquence de boules rouges entre 0,03 et 0,05 ou entre 0,35 et 0,045, ou encore

dans un intervalle du type [0,037 ; 0,043].

De même si on ne connait pas la valeur de p, mais que l’on fait une hypothèse sur celle-ci, on fait

donc un « pari » sur cette valeur fictive de p, hypothèse que l’on teste grâce aux mesures de

fréquences et à l’intervalle de fluctuation.

Si par exemple on fait l’hypothèse que la proportion de boules rouges est p = 0,15 et qu’un calcul

(on verra plus tard lequel) nous conduit au constat que dans le cas de 200 lancers, la probabilité

que la fréquence observée soit entre 0,1 et 0,2, est égale à 80%, il y a deux possibilités :

soit la fréquence observée effectivement est entre 0,1 et 0,2 et on accepte l’hypothèse que

« p = 0,15 » au seuil de 20% d’erreur (c'est le fameux "seuil" 0,2 tel que 0,8 = 1−0,2) ;

soit la fréquence observée n’est pas entre 0,1 et 0,2 et on rejette l’hypothèse « p = 0,15 »

au seuil de 20% d’erreur.

Concrètement cela veut dire que dans un cas (on accepte) comme dans l'autre (on rejette) on a

une probabilité de prendre la mauvaise décision qui est égale à 0,2.

Ainsi si on effectue 200 lancers et qu’on tire 22 boules rouges, alors la fréquence observée est

F200 = 22

200 = 0,11 ☻ [0,1;0,2] donc on accepte l’hypothèse « p = 0,15 », mais si par contre on

tire 41 boules rouges, alors F200 = 41

200 = 0,205 � [0,1;0,2] et cette fois-ci on rejette l’hypothèse

« p = 0,15 », au seuil de 20% d’erreur.

Page 35

• Imaginons maintenant qu’on ne connaisse pas la proportion p, mais que l’on souhaite estimer sa

valeur par rapport aux fréquences observées. Il est naturel de situer p dans un intervalle centré

sur la fréquence observée, de dimension « vraisemblable ».

On réalise donc des tirages afin d’estimer cette proportion en la situant dans des intervalles dits

« de confiance » qui sont d’autant plus étroits que le nombre n de boules tirées est grand (plus on

réalise une expérience, plus ses conclusions sont fiables), et d’autant plus larges que le niveau de

confiance est élevé (c’est-à-dire avec une forte probabilité). Là aussi il faut comprendre que la

précision d'une information exclut que cette information soit très fiable. Imaginons les situations

extrêmes. Si l'information est " p = 0,17 ", c'est tellement précis que ça a peu de chance d'être

vrai. Si ça se trouve p vaut 0,172 … A l'inverse si l'information c'est " p ☻ ]0;1[" alors

l'information est 100% fiable (c'est évident que p est entre 0 et 1) mais n'a aucune précision

(précisément puisqu'elle est évidente).

On parle alors d’estimation.

Par exemple si on a tiré 400 boules dont 80 rouges, F400 = 80

400 = 0,2 donc il est vraisemblable

que p appartienne à un intervalle de type [0,1 ; 0,3] ou [0,15 ; 0,25] ou [0,17 ; 0,23] etc.

L’intervalle sera plus étroit pour un nombre de boules tiré est grand et plus large avec un niveau

de confiance plus élevé.

a) Echantillonnage, intervalle de fluctuation asymptotique (p connu ou

hypothèse faite sur la valeur de p)

Théorème et définition

Soit Xn une variable aléatoire de loi B(n ; p) et un réel α ☻ ]0 ; 1[.

On note In l’intervalle [ p−uα p(1−p)

n

; p+uα p(1−p)

n

].

Alors lim n−>+õ

P

Xn

n ☻In = 1−α .

L’intervalle In contient la fréquence Xn

n avec une probabilité qui se rapproche de 1−α lorsque n

augmente. On dit que In est un intervalle de fluctuation asymptotique de Xn

n au seuil 1−α , ou au

seuil d’erreur α.

Démontrons ça :

Posons Zn = Xn−np

np(1−p)

. D’après le théorème de Moivre-Laplace,

lim n−>+õ

P(-uαÂZnÂuα) = P(-uαÂZÂuα) où Z suit N(0 ; 1).

Donc lim n−>+õ

P(-uαÂZnÂuα) = 1−α .

Or P(-uαÂZnÂuα) = P(np−uα np(1−p) Â Xn Â np+uα np(1−p) )

= P(p−uα p(1−p)

n

Â Xn

n Âp+uα

p(1−p)

n

).

Page 36

Exemple

Dans l’urne il y a une proportion p = 0,4 de boules rouges.

On tire 50 boules avec remise (donc n = 50) et on souhaite déterminer un intervalle de fluctuation

au seuil 0,9 (donc α = 0,1). On calcule u0,1 = FracNormale(0.95 , 0 , 1) � 1,645.

I50 = [ 0,4−1,645 0,4×0,6

50

; 0,4−1,645 0,4×0,6

50

] = [ 0,286 ; 0,514].

Ainsi avec 50 tirages la fréquence d’apparition de la boule rouge est entre 28,6% et 51,4% avec une

probabilité de 90%.

Pour 500 tirages on trouve :

I500 = [ 0,4−1,645 0,4×0,6

500

; 0,4+1,645 0,4×0,6

500

] = [ 0,364 ; 0,436].

L'intervalle s'est resserré car le nombre de tirages est plus élevé, comme prévu.

Pour 500 tirages mais au seuil de 95% on prend donc α = 0,05 et u0,05 = 1,96.

Normalement, l'intervalle doit s'élargir puisque l'information est davantage fiable qu'à 90% de

fiabilité, et en effet :

I500 = [ 0,4−1,96 0,4×0,6

500

; 0,4+1,96 0,4×0,6

500

] = [ 0,357 ; 0,443].

Remarques

• L’intervalle de fluctuation asymptotique au seuil de 95% pour la fréquence Xn

n d’une

variable aléatoire Xn de loi B(n ; p) est donc de façon générale :

In = [ p−1.96× p(1−p)

n

; p+1.96× p(1−p)

n

]

• Les conditions (à vérifier systématiquement !) pour lesquelles 1−α est une bonne valeur

approchée de P

Xn

n ☻In sont les suivantes : n Ã 30 ; np Ã 5 et n(1−p) Ã 5.

• On arrondit toujours la borne de gauche par défaut (on arrondit en-dessous de la valeur

lue) et la borne de gauche par excès (on arrondit au-dessus); en effet le but étant que

l'intervalle fournit contienne la fréquence observée Xn

n avec la probabilité demandée, il

faut le prendre, en arrondissant, au moins aussi grand que ce que fournissent les valeurs

exactes des bornes. Donc les approximations des bornes doivent l'agrandir et non le

rétrécir.

Page 37

Exemple

Un casino règle les machines à sous avec une probabilité de gain annoncée : g = 0,06.

Des contrôleurs se succèdent et veulent examiner l’hypothèse g = 0,06 au seuil de 95%.

• Un premier contrôleur a joué 50 fois et gagné 2 fois : n = 50Ã 30 et p = 0,06.

np = 1,8 < 5 donc son estimation ne sera pas probante.

• Un second contrôleur a joué 120 fois et gagné 14 fois : n = 120 Ã 30 et p = 0,06

np = 7,2 Ã 5 et n(1−p) = 112,8 Ã 5 donc on est dans les conditions optimales.

I120 = [ 0,06−1,96 0,06×0,94

120

; 0,06+1,96 0,06×0,94

120

] = [ 0,017 ; 0,103].

La fréquence observée est 14

120 � 0,117 � I120 donc il rejette l’hypothèse que g = 0,06 au

seuil de 95%.

Concrètement, il a "trop gagné" pour que l'hypothèse que g = 0,06 soit vraisemblable !

• Un troisième joue 400 fois et gagne 30 fois (n étant encore plus grand, les conditions

restent optimales).

I400 = [ 0,06−1,96 0,06 ×0,94

400

; 0,06+1,96 0,06 ×0,94

400

] = [ 0,036 ; 0,084].

La fréquence observée est 30

400 � 0,075 ☻ I400. Il accepte donc l’hypothèse que g = 0,06 au

seuil de 95%.

0) Ecart-type

Documents