Cours 3 Probabilités

PSY 1004 Techniques danalyses en psychologie

Cours 3. Probabilits 1

Cours 3 : Probabilits

Table des matires

Section 1. La roulette russe : problme empirique? .......................................................................... 3

Section 2. Rle de la probabilit en statistiques inductives ............................................................. 3

Section 3. La distribution binomiale.................................................................................................... 4

3.1. Calculer la probabilit dun nombre de succs r. ......................................................... 4

3.2. Paramtres et fonction de masse..................................................................................... 5

3.3. Calcul des moments statistiques..................................................................................... 6

a. Calcul de la moyenne dune variable alatoire de type binomial ........................... 6

b. Calcul de la variance dune variable alatoire binomiale ......................................... 7

c. Autres moments statistiques......................................................................................... 8

Section 4. La distribution normale....................................................................................................... 8

4.1. Fonction de masse et paramtres.................................................................................... 8

4.2. Probabilit dun vnement normalement distribu................................................. 10

4.3. Pourquoi la normale? ..................................................................................................... 11

a. Approximation de la distribution binomiale............................................................ 11

b. Plusieurs sources derreurs ......................................................................................... 12

Z Transformation linaire .................................................................................................................. 13 4.4. Distribution normale standardise............................................................................... 15

Section 5. La distribution de Weibull................................................................................................ 16

5.1. Fonction de masse et paramtres.................................................................................. 17

5.2. Moments statistiques ...................................................................................................... 17

Section 6. La distribution 2................................................................................................................ 18 6.1. Fonction de masse et paramtre ................................................................................... 18


Section 7. La distribution de Fisher F................................................................................................ 19

7.1. Fonction de masse et paramtre ................................................................................... 20


[ Comment lire une table statistique ............................................................................................... 20



Section 8. Conclusion........................................................................................................................... 22

Exercices ....................................................................................................................................... 23

Lectures

Suggre : Howell, chapitre 2, 2.14, chapitre 3, 3.1 3.3, chapitre 5, 5.1 5.7 inclusivement.

Objectifs

Connatre les postulats sous jacents aux distributions binomiale, normale, 2 et de Fisher. Connatre la moyenne de ces distributions. Pouvoir normaliser des donnes et les dnormaliser. tre en mesure de lire une table statistique de ces distributions.



Section 1. La roulette russe : problme empirique?

La probabilit est apparue dans les annes 1600, poque o les jeux de hasard taient trs priss. Avant de faire un pari, l'aristocrate moyen voulait connatre ses chances de gagner. Or, ils ne connaissaient d'autres moyens de faire ce calcul que de jouer le jeu un grand nombre de fois avec un serviteur de confiance. La probabilit de gagner devient:

jouepartiedeNbregaindeNbreGain

)Pr( =

(Vous comprendrez que cette mthode n'tait gure utile au jeu de la roulette russe). Pour contrer cette stratgie for simple, certains joueurs inventrent des jeux plus complexes, souvent bas sur une squence. Pour valuer leur chance, certains aristocrates n'eurent d'autres recours que d'aller consulter les plus grands mathmaticiens de leurs temps (les Bernoulli, Pascal, Fermat, etc.). Ces derniers firent bien plus qu'valuer les chances de gain, ils tablirent les probabilits de voir tel ou tel vnement se produire dans une situation donne trs gnrale. Nous examinons quelques-unes de ces distributions de probabilit dans la suite.

Section 2. Rle de la probabilit en statistiques inductives

La probabilit est la branche des mathmatiques qui soccupe des populations. tant donns quelques postulats simples, peut-on savoir comment les scores de la population entire seront rpartis. Idalement, on souhaite avoir le moins de postulats possibles (dans le but dune plus grande gnralit).

On peut voir les probabilits comme une grosse exprience de pens : Peut-on, par la seule logique, prdire le rsultat dune exprience . Par exemple, imaginons quune exprience consiste lancer 10 fois une pice de monnaie. Peut-on prdire dobtenir 8 fois pile? Sans les mathmatiques, nous sommes contraint de nous fier notre intuition, notre exprience. Dans ce cas-ci, notre intuition suggre que cest sans doute trs rare. Or, les mathmaticiens (Bernoulli le premier) peuvent nous dire la probabilit exacte que cela se produise sans mme avoir jamais lanc une pice de monnaie de leur vie. Le rsultat, nous le verrons la section 3, est dun peu moins de 5%.

La dmarche des probabilits consiste toujours par poser des postulats : Et si et de voir quelles consquences on peut en tirer. Par exemple, Et si je connaissais la probabilit dun pile lors dun lanc unique, pourrais-je en dduire la probabilit dobtenir r piles sur n lancs? . Comme les postulats sont souvent gnraux, les consquences trouves peuvent aussi servir dans dautres situations. Par exemple, la question Si jai 10 enfants, quel est la probabilit den avoir 8 avec les yeux bleus? ncessite exactement le mme raisonnement mathmatique que celui avec les pices de monnaie pour tre rsolue.

Lide gnrale dintroduire les probabilits en statistiques sera plus claire au cours suivant sur la statistique inductive, dans laquelle lon souhaite dduire des informations sur une population partir dinformations sur un chantillon.



Section 3. La distribution binomiale

La distribution la plus simple est celle qui dcrit des vnements nayant que deux possibilits. Par exemple, une pice de monnaie est lance, et le rsultat peut tre pile ou face. Ou encore, un individu est choisi au hasard et son sexe est not. Le rsultat peut tre Homme ou Femme. Dans lindustrie, une machine peut fonctionner ou tre en panne, etc. Un essai o seulement deux cas sont possibles est parfois appel un essai de Bernoulli, en lhonneur du mathmaticien qui le premier a travaill ce genre de problme au cours des annes 1700.

En gnral, lun des deux rsultats est appel de faon arbitraire un succs et lautre un chec . Pour simplifier, notons p la probabilit dun succs, Pr{S}. Il sensuit que 1 - p est la probabilit dun chec, Pr{E} (souvent, les auteurs notent 1 p en utilisant la lettre q). Dans le cas dune pice de monnaie non truque, p = . Dans le cas de la machinerie, lentrepreneur souhaite que p soit le plus lev possible.

3.1. Calculer la probabilit dun nombre de succs r.

Dans un essai de Bernoulli, chaque essai est indpendant des essais prcdents. Il dcoule alors que la probabilit est simplement multiplicative Par exemple, la probabilit de deux succs est Pr{S, S} : Pr{S, S} = Pr{S} Pr{S} = p p = p2. Ainsi, Pr{S, S, E, S, E, E} = p p (1-p) p (1-p) (1-p) = p3 (1-p)3. Notez quen fait, lordre dans lequel les rsultats sont obtenus nest pas important puisquils sont indpendants.

Si, au lieu dtre intress dans le rsultat dun seul vnement, nous souhaitons quantifier le nombre total de succs, par exemple, le nombre de machines dfectueuses dans une usine, nous devons tenir compte du nombre de faons possibles dobtenir ce rsultat donn. Par exemple, au cours dune joute o on lance cinq fois une pice de monnaie, on veut savoir la probabilit dobtenir 3 piles (P). On peut obtenir ce rsultat de lune ou lautre de ces faons :

{P, P, P, F, F} {P, P, F, P, F}

{P, P, F, F, P} {P, F, P, P, F}

{P, F, P, F, P} {P, F, F, P, P}

{F, P, P, P, F} {F, P, P, F, P}

{F, P, F, P, P} {F, F, P, P, P}

soit 10 faons diffrentes dobtenir 3 piles parmi 5 lancs. La probabilit dobtenir le premier rsultat est de p3 (1 - p)2. De mme la probabilit dobtenir la seconde configuration, etc. Donc, la probabilit dobtenir un total de 3 piles parmi 5 lancers, peu importe lordre, est de 10 p3 (1 - p)2. De faon gnrale, il faut toujours multiplier la probabilit dune configuration par

le nombre de faons de lobtenir. Pour cette raison, on utilise loprateur

rn

qui indique le

nombre de combinaisons possibles de r parmi n vnements binaires. On calcule ce nombre

avec la formule )!(!

!rnr

nrn

=

.



Quand une variable est le rsultat dun vnement alatoire du genre dun essai de Bernoulli, on dit que X reflte une distribution binomiale. Pour simplifier, on peut crire plus densment quune variable alatoire X est le nombre de succs obtenus dans une suite de n essais de Bernoulli, au cours desquels la probabilit dun succs est p laide de la notation: X ~ B(n, p). Dans ce cas, la probabilit davoir r succs au cours de n essais, Pr{ Xi = r succs} est donn par

rnr pprn

rf

= )1()(X

3.2. Paramtres et fonction de masse

Ce que lon doit retenir de ce qui prcde est que si lon a des postulats simples sur une population (ici des vnements binaires, chacun avec une probabilit p et 1 p) alors il est possible dobtenir la probabilit pour chaque observation possible (obtenir 0 succs : f (0), obtenir 1 succs : f (1), etc.). Cependant, en plus de ces postulats sur notre population, il est ncessaire de connatre les valeurs p et n. On appelle ces valeurs des paramtres de la population. En probabilit, p et n sont donnes. Par contre, comme on le verra dans le cours 4, en statistique, ces valeurs sont gnralement des inconnues que lon essaie destimer avec des chantillons. La fonction f(r) est la fonction de masse (PDF, voir lexique) qui dcrit les probabilits pour tous les r. Comme on le verra au point c, il nen faut pas plus pour calculer les moments statistiques dun point de vue purement thorique.

Pour vous pratiquer, essayez de calculer la main la probabilit dobtenir 0 pile sur 5 lancs dune pice de monnaie, 1 pile, etc. Puisque ces nombres reprsentent une frquence relative, on peut faire un graphique des histogrammes, qui devrait alors ressembler celui de la Figure 1.

Dans le cas o p est , on observe une distribution symtrique avec une moyenne qui semble tre 2.5. Cependant, p nest pas toujours de . Dans le cas de machineries industrielles, la probabilit p quune machine soit en panne peut tre de lordre de 1/100. Quelle est la probabilit que lon trouve trois machines en panne au mme moment dans une usine de 35 machines? Le graphique de la Figure 2 illustre ces probabilits (manque les histogrammes de 11 35, mais ils sont virtuellement de zro).

Comme on le voit, la probabilit que le nombre de pannes soit de 5 est excessivement

0 1 2 3 4 5

.05

0.1

.15

0.2

.25

0.3

Figure 1 : Distribution du nombre de piles sur 5 lancs



faible (de lordre de 4 10-4). Avec un tableau cumulatif (graphe des frquences cumulatives ou CDF), on voit bien que tous les nombres de pannes probablement possibles se situent entre 0 et 2, comme on le voit la Figure 3.

Dans ce dernier cas, lasymtrie est extrme (et positive), et le nombre modal de panne est zro. La moyenne est de 0.35 panne, soit moins de une en moyenne. Si vous voulez calculer la moyenne la main dans ce dernier cas, vous allez trouver lexercice assez laborieux. Il est cependant possible de rsumer les moments statistiques laide de formules simples, comme nous le montrons ici.

3.3. Calcul des moments statistiques

a. Calcul de la moyenne dune variable alatoire de type binomial On peut calculer la moyenne attendue de X, note ici E(X) en utilisant la formule du

cours 2.1: =

=

n

rrfrE

0)( )(X o r dnote tous les rsultats possibles pour X (soit 0 succs, 1

succs, n succs). Pour y arriver, il faut connatre ces relations :

(a)

=

11

rn

rn

rn

et

0 1 2 3 4 5 6 7 8 9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Figure 2 : Exemple de distribution quand la probabilit dun succs est 1/100

0 1 2 3 4 5 6 7 8 9 10

0.2

0.4

0.6

0.8

1

Figure 3 : Exemple de distribution cumulative quand p est 1/100



(b) MkMkM

kbaba

kM

)(0

+=

=

,

Notons quavec la relation (a), nous pouvons rcrire :

rnr

rnr

rnr

rnr

pprn

np

pprn

n

pprn

rnr

pprn

rrfr

=

=

=

=

)1(11

)1(11

)1(11

)1()(

1

Ds lors, on peut crire :

=

=

=

=

n

r

rnr

n

r

rnr

pprn

np

pprn

npE

1

1

0

1

)1(11

)1(11

)(X

Si nous posons k = r 1 et M = n 1, nous obtenons :

=

=

=

=

M

k

kMk

n

k

knk

ppkM

np

ppk

nnpE

0

1

0

1

)1(

)1(1

)(X

que lon peut rsoudre laide de la relation (b) en posant a = p et b = (1-p) :

( )np

ppnpE M

=

+= )1()(X

b. Calcul de la variance dune variable alatoire binomiale Pour calculer la variance attendue, note Var(X), nous utilisons la seconde relation sur la

variance prsente au cours 2.4 :

=

=

=

=

=

nppprn

rnp

nppprn

r

EEVar

n

r

rnr

n

r

rnr

1

1

2

0

2

22

)1(11

)()1(

)()()( XXX



nouveau, posons k = r 1.

+

=

+=

=

=

=

npppk

npp

kn

knp

npppk

nknpVar

n

k

knkn

k

knk

n

k

knk

1

0

11

0

1

1

0

1

)1(1

)1(1

)1(1

)1()(X

Le premier terme entre crochets reprsente la moyenne dune variable qui serait binomiale entre 0 et n 1. Posons Y ~ B(n - 1, p). Le second terme se rsout suivant la relation (a) note la sous-section prcdente.

( )[ ]( )[ ]

[ ]( )pnp

nppnpnpnppnnp

npppEnpVar n

=

+=

+=

++=

1111

1)()( 1YX

c. Autres moments statistiques Suivant une mthode similaire, on peut aussi rsoudre l'asymtrie attendue Sk(X) et la

kurtose attendue Ku(X). On obtient :

3)1(

)1(61)(

)1(21)(

+

=

=

pnpppKu

pnppSk

X

X

De fait, on vrifie quavec 35 machines (n = 35) et la possibilit dune machine en panne 1 / 100 (p = 0.01), on sattend ce que le nombre moyen de machines en panne dans lusine soit de 0.35 avec une variance de 0.3465 (soit un cart type de prs de 0.59) et une asymtrie de 1.66, soit une distribution trs dcale vers la gauche.

Section 4. La distribution normale

Dans cette section, nous considrons une distribution dans laquelle les rsultats possibles sont tous les nombres rels (pas seulement les nombres entiers positifs, comme dans le cas de la Binomiale). Cette distribution est appele la distribution normale ou encore gaussienne (du nom de son inventeur, Carl Friedrich Gauss). Tout comme la binomiale, il sagit dune distribution parmi une infinit dautres possibles. La normale nest pas une loi de la nature que lon observe rellement. Il sagit en fait dune thorie base sur des postulats simples, que nous allons survoler plus tard (en science, plusieurs concepts ne sont pas parfaitement vrais mais donnent des approximations trs utiles).

4.1. Fonction de masse et paramtres

La distribution normale est spcifie par la formule mathmatique de sa PDF :



2

21

21)(

=

z

ezf X .

(Dans cette formule, on divise par 2 car sinon lair totale sous la courbe serait de 2 alors quen probabilit, laire totale doit tre de 1). Cette fonction est souvent reprsente par la familire courbe en forme de cloche que lon retrouve la Figure 4.

La courbe normale est continue pour toutes les valeurs de z dans lintervalle ]- , +[, de telle faon que tous les intervalles possibles ont une probabilit plus haute que zro. Pour cette raison, il est prfrable de reprsenter graphiquement la normale avec une courbe continue plutt quavec des histogrammes. Cette distribution est parfaitement et toujours symtrique, de telle faon que la moyenne, la mdiane, et le mode concident. Laire totale sous la courbe gale toujours 1 puisque quil sagit de la probabilit quun vnement (nimporte lequel) se produise.

La distribution normale est une famille de courbes puisquune courbe normale peut se distinguer dune autre par la position (Figure 5, gauche), par lchelle (Figure 5, centre) ou par les deux la fois (Figure 5, droite). Ce qui distingue une courbe normale dune autre sont les paramtres de la population, qui sont au nombre de deux : la position et lchelle . Pour faire plus court, on note que X ~ N(, ).

La fonction atteint son maximum (le mode) quand l'exposant 2

z est minimum.

Cest donc dire que la moyenne est aussi atteinte quand z vaux , donc X = . On peut aussi prouver ce rsultat comme nous lavons fait pour la binomiale en utilisant la dfinition de X ,

-4 -2 2 4

0.1

0.2

0.3

0.4

Figure 4 : Exemple de distribution normale avec moyenne 0 et cart type 1

-4 -2 2 4 6

0.1

0.2

0.3

0.4

-4 -2 2 4

0.1

0.2

0.3

0.4

-4 -2 2 4 6

0.1

0.2

0.3

0.4

Figure 5 : Quelques distributions normales



soit +=

=

zzfzE )( )(X . Cependant, z est continue et ne prend pas uniquement les valeurs

entires ] -3, -2, -1, 0, 1, 2, 3, [. Il faut donc procder avec des intervalles infiniment petits, ce que permet le calcul infinitsimal (lui aussi invent par Gauss). On doit donc rsoudre

+

= dzzfzE )( )(X , cest dire +

= dzezEz 2

21

21 )(

X . Heureusement, cette formule se

rsout assez facilement, et on obtient que =)(XE tel quattendu. De la mme faon, on

rsout +

+

== dzezdzfzVarz 2

21

22

21 )( (z) )()(

X pour obtenir que 2)( =XVar .

Donc, le paramtre dchelle dcrit parfaitement la variance de la population.

4.2. Probabilit dun vnement normalement distribu

Avec la distribution binomiale, lon pouvait dire que fX (r) indique la probabilit dobtenir r succs. Cependant, pour la distribution normale (et toute fonction continue), fX (z) nest pas interprtable. En effet, fX ( z ) = Pr { X = z }. Cependant, pour un nombre rel, quelle est la probabilit dobtenir exactement une valeur prcise z? Mme si je vous donnais un temps infini, la probabilit que vous puissiez me dire exactement le nombre est nulle. De mme, dans une population o la taille moyenne des individus est de 1m75, quelle est la probabilit que vous chantillonniez un individu mesurant exactement 1m75 (cest dire 1.75000000000000000000000000000 mtre)? De fait, Pr { X = z } (la probabilit dchantillonner un individu mesurant exactement z m) est zro peu importe z.

Par contre, on peut se demander quelle est la probabilit que notre variable alatoire soit approximativement z, cest dire, Pr { X z } = Pr { z z X z + z} o z indique la prcision voulue. Sur un graphique, on verrait ceci comme laire dune section de la courbe normale. Le calcul dune aire sous une courbe peut tre difficile, mais la tche nous est grandement facilite par les frquences cumulatives. Voir la Figure 6.

Par dfinition, une frquence cumulative donne la probabilit quune variable alatoire soit infrieure une valeur z, ce que lon note par FX ( z ). En faisant la diffrence

)()( zzFzzF + XX , on obtient la probabilit que X soit infrieur z + z, mais pas

-4 -2 2 4

0.1

0.2

0.3

0.4

z

z z

z + z

-4 -2 2 4

0.2

0.4

0.6

0.8

1

z

z z

z + z

)()( zzFzzF +

Figure 6 : Probabilit dobtenir le score z



infrieur z - z, ce qui est bien ce que lon recherche. Il est clair de cet exemple que pour des variables continues, la fonction de distribution cumulative (CDF) est la plus utile.

4.3. Pourquoi la normale?

Il existe trois raisons dutiliser la normale. Premirement, la normale est une trs bonne approximation de la distribution Binomiale quand n est grand. Deuximement, la normale est la distribution prdite quand il existe plusieurs sources derreurs dans nos donnes. Finalement, cause du thorme central limite. Dans ce qui suit, nous laborons propos des deux premires raisons, et gardons le thorme central limite pour le cours 5.

a. Approximation de la distribution binomiale Calculer la distribution binomiale peut tre assez fastidieux quand le nombre dessais de

Bernoulli est grand (n >>). Pour cette raison, une approximation est souhaitable. Lapproximation que nous prsentons ici nest valide que lorsque p (toute approximation faite quand n >> est appele une approximation asymptotique. Nous verrons dautres exemples dapproximations asymptotiques).

Soit X ~ B(n, p). Puisque E(X) = n p et Var(X) = n p(1p), nous allons poser Y ~ N( n p, n p(1-p) ). On peut montrer formellement que lorsque n >> , lcart entre la probabilit prdite par fX(z) et )2/1()2/1( + zFzF YY se rduit zro. La preuve est cependant trop longue pour la mettre ici. Nous allons plutt montrer un exemple o n est modrment grand et voir que la diffrence est dj trs faible.

Dans le tableau qui suit, nous illustrons les probabilits pour les 16 cas possibles de succs quand n = 15. Dans cet exemple, p = exactement. Comme on le voit, lcart entre la binomiale X et la normale Y est insignifiant (de lordre du millime). Il est cependant lgrement plus grand aux extrmits puisque la normale stend de +, contrairement la binomiale.

Une autre faon de montrer que la normale est identique la binomiale pour n >> quand p est est de regarder les moments statistiques. En effet, si les deux distributions ont les mme valeurs pour tous les moments (moyenne, variance, skewness, kurtose, et tous les autres), alors forcment il sagit de la mme distribution (il sagit dun thorme prouv dans Cramr).



Avec la dfinition de X et de Y ci-haut, on peut faire le tableau qui suit des quatre premiers moments :

Binomiale Valeur Normale

E(X) Np E(Y) (par df. de

Y)

Var(X) Np(1-p) Var(Y) (par df. de

Y)

Sk(X) (quand p = )

0 Sk(Y)

Ku(X) (quand n )

3 Ku(Y)

Comme on le voit, les quatre premiers moments correspondent parfaitement, et si lon continuait avec les autres moments, la correspondance continuerait indfiniment. Dans ce qui prcde, on entend par n >> un n suprieur 20.

b. Plusieurs sources derreurs Supposons que la mesure de chacune de nos donnes brutes soit entache dun grand

nombre d erreurs qui affectent le score vridique que lon aurait obtenu. Ces nombreuses sources derreurs peuvent tre lies des mesures imprcises ou (en psychologie) peuvent tre lies des facteurs tels lattention, les proccupations du sujet, lhistorique du sujet, etc. qui viennent tous modifier lgrement sa vraie performance.

z fX(z) FY(z+0.5)-FY(z-0.5)0 0.000132 0.00003051 0.000822 0.0004572 0.00393 0.00323 0.0145 0.01384 0.0412 0.04165 0.0901 0.09166 0.151 0.1527 0.197 0.1968 0.197 0.1969 0.151 0.15210 0.0901 0.091611 0.0412 0.041612 0.0145 0.013813 0.00393 0.003214 0.000822 0.00045715 0.000132 0.0000305



Notons alors X le score mesur et T le score rel du sujet. Nous avons que X = T + e. Notons quici, T nest pas une variable alatoire puisquil sagit du score idal du sujet. La variable alatoire e est la source dala qui rend X une variable alatoire. Pour illustrer le fait que e reflte un grand nombre de sources derreurs, posons

)...( 321 Ng eeeee ++++=

o chaque source derreur ei est soit prsente et rduit la performance du sujet ou absente et favorise une bonne performance. Le but de la constante g est de mettre sur lchelle des performances (en point de QI, en terme de vitesse, etc.) leffet cumul des erreurs tel que dans labsence derreur, la performance ne soit pas affecte. Nous avons donc que ei = +1 ou ei = -1. De plus, nous postulons que Pr { ei = +1 } .

Rendu ce point, vous devriez voir o je men vais : chaque source derreur est un essai de Bernoulli!

Regardons quel est le nombre derreurs moyen, o Z indique le nombre de source derreurs positives, et n Z le nombre de sources derreurs ngatives :

( )

02

)(2)2

))(()(

21

=

=

=

=

=

gngngngE

gngEnggEE

ZZ

ZZe

Les erreurs favorables et dfavorables s'annulent mutuellement en moyenne. De plus, la variance se calcule aussi par

( )

ngpnpg

VarggVar

gngVarVar

2

2

2

)1(4)(4

0)2(2)(

=

=

=

+=

=

ZZZe

Ceci pos, nous trouvons donc que E(X) = E(T + e) = T+E(e) = T et que Var(X) = Var(T + e) = Var(e) = g2. De fait, la variabilit observe dans X rsulte uniquement de la variabilit dans e qui est binomiale. Comme on postule que n >>, la variabilit de e est approxime par une distribution normale, do il sensuit selon nos postulats que X est normalement distribu (X ~N( T, g2n) ).

Z Transformation linaire

Il est parfois utile, pour simplifier le traitement dun objet mathmatique, de changer sa position de faon ce quil se prsente sous un format plus standard (format canonique). Par exemple, dans lexemple ci-contre, il est plus simple de dplacer le rectangle de faon que son centre concide avec lorigine de labscisse. Dplacer un objet (excuter une translation) seffectue simplement en soustrayant la diffrence entre la position actuelle et la position



voulue de lobjet (par exemple ici, on peut vouloir dplacer de 3 cm). Similairement, on peut changer ltendue dune forme en divisant la mesure de son tendue.

En terme mathmatique, on transforme une variable x en une variable x avec cette simple transformation o p est la position originale et e est ltendue :

epxx ='

Par exemple, ci-contre, lon transforme la droite dont lquation est 34/1 = xy en

posant 4/13' += xx . On vrifie facilement que la droite transforme rsultante est

xxxxy =+=

+== 333

4/134/13'4/1'

Une transformation peut aussi procder lenvers pour transformer une courbe canonique en une forme plus labore, par exemple, pour passer du cercle lellipse. Supposons que lon souhaite dplacer le cercle de 3 cm vers la droite (p) et tirer le grand axe du double (e). Lquation du cercle tant : 22 1 xy = , on observe que

4)3(1

231`1`

2222

=

==

xxxy qui est bien lquation dune ellipse.

De la mme faon, on peut dplacer des distributions. Soit une distribution dont la position (la tendance centrale) se trouve 2 cm, et ltendue (l'cart type) est de deux units.

Pente =

Ordonne lorigine = -3

Figure 7 : Deux exemples de translation et de changement dchelle horizontal

Figure 8 : Dnormalisation par translation et changement dchelle horizontal



En changeant x pour x comme prcdemment, on se trouve ramener la distribution au centre, et son chelle 1. Dans le cas dune normale N(2, 2), on se trouve rduire tous les scores de deux (i.e. un dplacement p gal la moyenne ), donc, la moyenne devient 0, et on rduit aussi ltendue par 2, do lcart type devient 1. On vrifie facilement en calculant lesprance et la variance avec les formules usuelles :

0)(1)()'( ====

XXX EEE

1)(1)()'(2

2

2===

=

XXX VarVarVar

Ainsi, Si X ~ N(2, 2), alors X=(X-)/ ~ N(0, 1). Lorsquon applique une transformation linaire une variable alatoire dans le but de transformer sa distribution en une distribution canonique, on va parler de standardisation. (Notez quici, la distribution la plus simple est N(0, 1) et non pas N(0, 0). Voyez-vous pourquoi?).

La standardisation peut tre effectue peu importe la forme de la distribution. Cependant, seulement la position et lchelle sont affects par une telle transformation. Si la distribution est asymtrique avant la normalisation, elle le restera aprs.

4.4. Distribution normale standardise

Pour faciliter ltude des caractristiques de la loi normale et surtout pour pouvoir dterminer rapidement les proportions sans devoir construire une infinit de courbes correspondant toutes les moyennes et carts types possibles, nous utilisons toujours la distribution normale standardise, encore appele la distribution normale centre rduite.

Lobservation du graphique de la Figure 10 permet dapprcier la relation entre lcart type et le pourcentage de laire sous la courbe : une proportion de 34% de laire totale (donc 34% de toutes les possibilits) se situe entre 0 cart type (la moyenne) et 1 cart type; 68% entre 1 et +1 cart type; seulement 2% des cas se situent au dessus de 2 carts types, et peu prs trois cas sur 1000 (0.26%) sont soit au dessus, soit en de de trois carts types.

-4 -2 2 4 6

0.1

0.2

0.3

0.4

Figure 9 : Normaliser une distribution



La transformation linaire vue plus haut, dans le cas dune variable alatoire de type normale, est souvent appele une cote z, ou encore un score z. Nimporte quel Xi normalement distribu peut tre exprim en cote z (on devrait plutt noter Zi, puisque Z est

aussi une variable alatoire). En se rfrant la courbe normale standardise, on peut obtenir un estim de la frquence de cette valeur, cest dire sa probabilit dans la population. Par exemple, si un groupe dtudiants obtient un examen une moyenne de 70 et un cart type de 10 (et si les rsultats sont bien distribus normalement), on peut conclure que 68% des notes devraient se trouver entre 60 et 80 ( 1 cart type), quune note de 90% ou plus (suprieure 2 carts types) devrait tre obtenue par environ 2% des tudiants, et quune note de 40 (en bas de 3 carts types) est vraiment exceptionnellement mauvaise.

Une autre information importante peut tre obtenue par la transformation de donnes brutes en cotes z. Comme chaque variable est alors mesure sur la mme chelle et prsente la mme moyenne, elles deviennent comparables. Par exemple, une note de 75 en mathmatique et une note de 72 en franais peuvent sembler similaires. Cependant, si lon sait que la moyenne du groupe en math est de 60 avec un cart type de 5, et que la moyenne en franais est de 75 avec un cart type de 5, on dcouvre un gnie des maths et un pitre crivain.

Section 5. La distribution de Weibull

La binomiale vue au dbut de cette section s'intresse des vnements du type obtenir r succs parmi n essais de Bernoulli , i.e o r est le nombre de succs parmi n vnements.

Postulons plutt que : a) chaque vnement donne une valeur relle positive plutt quune valeur binaire, et b) que je suis intress par le plus petit (ou le plus grand) de ces n vnements. Un exemple sobserve lors dune course de 100m obtenir un meilleur temps de 9 s quand 10 coureurs comptitionnent . Les coureurs perdant ont bien un temps, mais ntant pas le meilleur temps, il est rejett.

Lexemple typique nous provient de la Hollande. Ce pays est en grande partie sous le niveau de la mer, et des barrages de 6 mtres protgent les habitants. Que survienne une

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

0.3413 0.3413

0.1359 0.13590.0215 0.0215 0.0013 0.0013

68.26%

95.44%

99.74%

Figure 10 : La distribution normale



mare suprieure la hauteur des barrages (comme en 1952), et cest la catastrophe. On veut donc connatre la probabilit de lvnement la plus haute mare est de 6 mtres parmi les 365 mares de lanne .

Un autre exemple pertinent pour la neuropsychologie nous vient de ltude du dplacement de linflux nerveux. Selon une vision, les influx nerveux sont trs redondants, voyageant sur un grand nombre de fibres parallle dune aire du cerveau lautre. Cependant, certains postulent que seuls les signaux les plus rapides sont cruciaux. La question est donc de connatre la distribution des vnements le temps du plus rapide signal parmi les milliers de signaux redondants .

5.1. Fonction de masse et paramtres

On dmontre (mais je saute les dtails) quavec seulement les deux postulats a) et b) ci-haut, on peut dterminer la forme de la distribution. Il sagit dune loi lentement asymptotique (i. e. pour n >>>, cest dire plus de 100 sous-vnements) que lon nomme la distribution de Weibull (du nom de lingnieur qui la introduit dans ltude des matriaux). Sa fonction de masse est donne par lquation :

=

z

ezzf 1)()(X

pour laquelle on note X ~ W(, , ). La distribution de Weibull ncessite trois paramtres pour tre dessine, soit , , et . Le premier reprsente la position de la distribution, soit lendroit o elle dbute, le second reprsente lchelle de la distribution (est similaire mais pas numriquement quivalent lcart type), et le dernier est la forme de la distribution, soit son degr dasymtrie (encore une fois, similaire mais pas numriquement quivalent la skewness).

Les images de la Figure 11 illustrent trois Weibull avec comme forme 2, 1.1, et 3 respectivement. Toutes ont la mme chelle (60) et la mme position (400). Aprs normalisation, elles partiraient toutes zro et auraient une chelle de 1, mais seraient nanmoins de formes diffrentes.

5.2. Moments statistiques

On peut dmontrer que

400 450 500 550 600 650

0.002

0.004

0.006

0.008

0.01

0.012

0.014

400 450 500 550 600 650

0.002

0.004

0.006

0.008

0.01

0.012

400 450 500 550 600 650

0.005

0.01

0.015

0.02

Figure 11 : Trois distributions de Weibull



( )22 )/11()/21()()/11()(

++=

++=

X

X

Var

E

Section 6. La distribution 2

Supposons que nous ayons un chantillon X = {X1, X2, X3, XN} tir dune population normalement distribue (X ~ N(, ) ). Une faon de synthtiser cet chantillon est de calculer la moyenne. Cependant, nous avons vu prcdemment que lon peut normaliser les donnes

avec la formule

=

ii

XX' . Quadvient-il si lon dcide de calculer une statistique

totalement arbitraire, que lon appellera G, calcul par la formule :

=i

i`XG

Comme nous lavons vu au cours 2, il sagit dune somme (normalise) des carts la moyenne, qui donne toujours zro. Cette statistique nest donc pas intressante. Regardons plutt une autre statistique, que lon appelle G2 (ici, le carr fait partie du nom, et ne signifie pas quil faut mettre la valeur de G prcdente au carr), calcule par

=

==

i

i

i

i

ii

2

2

222 )('

XXXG

cest dire la somme des carrs des scores normaliss. Bien que cette statistique semble arbitraire, a) il sagit bien dune statistique puisquelle retourne une valeur synthtisant un chantillon, b) on verra plus loin (cours 6) quelle peut tre trs utile dans certain cas.

6.1. Fonction de masse et paramtre

On dmontre (mais encore une fois, on saute les dtails) que la statistique G2 possde une distribution thorique que lon appelle la 2. Soit une variable G2 ~ 2(n), la fonction de masse est donne par la formule :

5 10 15 20 25 30

0.05

0.1

0.15

0.2

0.25

Figure 12 : Trois exemples de distribution 2



21

2

2

22

1)(2zn

n eznzf

=G

La distribution 2 est entirement dfinie par le paramtre n, le nombre ditems additionns. n est donc le seul paramtre pour dcrire la population des tous les G2 possible. Ce n dtermine la forme de la distribution, comme on le voit ci-bas pour n = 2, 5, et 10.


Puisque pour chaque score Xi, on soustrait avant de mettre au carr, on se retrouve en fait calculer E(Xi X

) (voir fin du cours 2), qui donne la variance. Donc, le rsultat attendu pour un Xi2, soit E(Xi2), est de 1, puisque la variance est de 1.Il dcoule que pour la somme de n tel score, E(G2) = n. On dmontre aussi que la variance Var( G2) = 2 n. On voit intuitivement ces mesures sur le graphique ci-haut, o autant le point dquilibre que lchelle des distributions 2 crot avec le paramtre n.

De plus, la skewness et la kurtose sont donns par

nKu

nSk

123)(

12)(

2

23

2

+=

=

G

G

Comme on le voit, plus n saccrot, plus les moments deux et trois tendent vers 0 et 3 respectivement. Cest dire que pour n >> la distribution 2(n) tend devenir identique la distribution normale N(n, 2 n).

Section 7. La distribution de Fisher F

La distribution F suppose que nous avons deux chantillons tirs dune mme population, X = {X1, X2, X3, Xnx} et Y = {Y1, Y2, Y3, Yny}, o X ~ N(, } et Y ~ N(, }. Si lon calcule du premier chantillon la statistique G2X comme prcdemment et que lon divise par NX, on devrait obtenir une statistique dont la moyenne est autour de 1. On fait de mme pour Y, et on prend le ratio du premier sur le second pour obtenir une statistique F. La formule complte est donc :

( )

( ) xY

Y

Y

x

X

Y

X

G

GF

nn

n

n

i

i

i

i

==

2

2

2

2

2

2

pour laquelle on dit que F ~ F(nX, nY). Cette distribution est asymtrique pour nX ou nY petit. On remarque que le paramtre sannule puisque par hypothse, il sagit du mme au numrateur et au dnominateur :



( )

( )( )( )

( )( ) x

Y

x

Y

x

Y

Y

X

Y

X

Y

X

Fnn

nn

nn

ii

ii

ii

ii

i

i

i

i

=

=

=

2

2

22

22

2

2

2

2

1

1

la Figure 13, on voit une illustration pour nX = 2, 5, et 10 pour nY = 2 (gauche) et 50 (droite).

7.1. Fonction de masse et paramtre

La fonction de masse de la distribution de Fisher est donne par :

YX

YX

X

X

Y

X

Y

YX

YXF nn

nnn

nnz

nnz

nnnnzf

1

)!1()!1()!1(

)(+

+

+

+=


La moyenne de cette distribution nest pas exactement 1, mais tend vers cette valeur quand lchantillon utilis au dnominateur est grand. De plus, quand nX et nY sont grands, la variance tend vers zro, la skewness vers 0 et la kurtose vers 3. Donc, cette distribution tend devenir normal pour de grands chantillons. Formellement,

)4()2()2(2

)(

2)(

2

2

+=

=

YYX

YXY

Y

Y

F

F

nnnnnnVar

nnE

[ Comment lire une table statistique Certaines distributions de frquence sont facilement calculables avec une calculatrice

(par exemple, la binomiale). Dautres par contre, ne le sont virtuellement pas (par exemple, la 2 avec sa fonction -combien savent que ( ) = ?-. On peut alternativement utiliser un

1 2 3 4 5 6

0.2

0.4

0.6

0.8

1

1 2 3 4 5 6

0.2

0.4

0.6

0.8

1

Figure 13 : 6 exemples de la distribution de Fisher



logiciel, tel Mathematica ou Excel, pour calculer ces valeurs chaque fois que cest ncessaire. Cependant, ces logiciels sont dintroduction rcente et ntaient pas accessibles (ou nexistaient tout simplement pas) il y a seulement 10 ans. Pour cette raison, on retrouve frquemment des tables o les calculs ont dj t raliss.

La premire chose comprendre quand on regarde une table est de bien saisir quelle sorte de valeur est tabule.

En gnral, pour une variable alatoire discrte (qui ne prend que des valeurs entires, tel la binomiale), on prsente la probabilit dun vnement prcis, que lon note : fX ( r ) = Pr{ X = r }. Il faut lire : la probabilit que la variable alatoire X prenne la valeur r. Cest ce que lon retrouve dans la Table 1 (sur le site web).

Dans le cas dune variable alatoire continue (qui peut prendre toutes les valeurs relles, tel la normale, la 2 et la F), on prsente plutt les probabilits cumulatives, que lon note : FX ( z ) = Pr{ X z }, cest dire la probabilit que la variable alatoire X prenne une valeur infrieure ou gale z. La Table 2 prsente un tel exemple avec la distribution normale standardise. Puisquil ny a pas de paramtre pour cette courbe, une simple table de FX ( z ) en fonction de z suffit.

Ds que la distribution que lon veut tabuler possde des paramtres (tel la 2), la table devient de taille gargantuesque puisquil faut varier autant z que le paramtre ( pour la 2 ). Cependant, puisque la 2, la F, et mme la t (que lon verra au cours 5) ne sont utilises que pour des fins de tests statistiques, on va plutt procder lenvers : Tabuler la valeur de z pour laquelle FX ( z ) gale une valeur cible. En statistique inductive (cours 4), on est souvent intress par des valeurs limites, par exemple la valeur z tel que 95% des observations devraient tre infrieures. Pour confondre les tudiants, on va inverser et chercher le z tel que 5% des observations soient suprieures (cest bien la mme chose). On a donc z en fonction du paramtre et en fonction de la probabilit cible 1 - FX ( z ) = Pr{ X z }. Les tables 3, 4, et 5 sont construites de cette faon.

Exemple dutilisation de la table normale standardise

Dans une installation de 5000 ampoules lectriques, on a constat que la vie moyenne des ampoules tait de 1200 heures avec un cart type de 200 heures. Ici, si on tablissait un chantillon, chaque donne brute Xi serait en fait lheure laquelle lampoule a grill, et notre chantillon X serait un ensemble contenant des nombres dheures pour quune ampoule grille. Formellement, on a X = 1200 heures et Xn

t = 200 heures. Implicitement, on postule

que la population est normalement distribue.

1. Combien peut-on prvoir dampoules hors dusages au bout de 900 heures?

Ces 900 heures, en termes dcart type correspondent (900-1200)/200 = -1.5. Le signe moins signifie quil sagit dune cote z infrieure la moyenne (bien entendu, puisque 900 < 1200). Les ngatifs ne sont pas prsents sur la table, mais puisque la courbe est parfaitement symtrique, on trouve F(-1.5) = 1 F(1.5) = 1-0.933 = 0.067. Il sagit de la proportion attendue des ampoules qui vont griller avec 900 heures. Puisque nous en avons 5000, 6.7% 5000 donne 335 ampoules.

2. Combien dampoules seront hors dusage en environ 1300 heures 200 heures?



On veut connatre le nombre de pannes ayant lieu avant 1500 heures, mais ayant eu lieu aprs 1100 heures. Ces nombres, une fois normaliss, nous donnent zmax = 1.5 et zmin = -0.5. Pour zmax la proportion de pannes ayant lieu avant est de 0.933, auquel il faut soustraire la proportion des ampoules qui seraient tombes en panne avant zmin, dans une proportion de 0.309. La diffrence est de 0.624, soit 62.4%. Sur une population de 5000, a donne 3120 ampoules.

3. Combien de temps faut-il attendre pour avoir 20% dampoules en panne?

Ici, on cherche le z tel que 20% des valeurs seront infrieures. Ce sera certainement une valeur ngative (en bas de la moyenne) puisque la moyenne, 50% des cas sont dj couverts. Comme la table est symtrique, on cherche la valeur positive qui excde 80% (1 20%), et on mettra un signe moins devant ce nombre. En regardant dans la table, la valeur z tel que nous sommes le plus prs de 80% est 0.84. 0.84 est donc un nombre dheures (en score standardise) tel que 20% des ampoules flanchent auparavant. Si lon d normalise , on obtient : -0.84 Xn

t + X , soit 1032 heures.

Section 8. Conclusion



Exercices

1. Concernant la distribution normale, laquelle de ces affirmations est fausse :

a) Elle est la base de plusieurs analyses statistiques

b) Les mesures se situent gnralement lintrieur de 3 ou 4 carts types

c) Laire sous la courbe correspond la probabilit

d) La probabilit dapparition dun vnement dcrot avec la distance la moyenne

e) Aucune nest fausse

2. La cote z est lcart dune mesure la moyenne divis par lcart type

a) Vrai

b) Faux

3. Une cote z grande a une faible probabilit de se produire

a) Vrai

b) Faux

4. Dans un test de dix questions, on veut prlever un chantillon de 3 questions pour fin de vrification. Combien dchantillons est-il possible de prlever?

5. Une distribution normale est ncessairement symtrique autour de sa moyenne

a) vrai

b) faux

6. Lors dun tirage au sort, il y a plus de chance que la valeur obtenue soit situe prs de la moyenne, peu importe la population

a) Vrai

b) Faux

7. Une frquence relative leve implique une faible probabilit

a) Vrai

b) Faux

8. Quelle caractristique sapplique une distribution dont les mesures brutes qui se distribuaient normalement ont t transformes en cote z?

a) Sa moyenne est gale 0

b) Sa variance est de 1

c) Elle est en forme de cloche

d) a et b sAppliquent

e) a, b, et c sappliquent.

9. Lorsque vous lancez 10 pices de monnaie, quelle est la probabilit dobtenir 0, 1, 2, ou 3 faces

a) 0.001

b) 0.011

c) 0.010

d) 0.117

e) 0.172

10. En lanant 15 pices de monnaies, quelle est la probabilit dobtenir exactement 10 faces

a) 0.0916

b) 0.015

c) 0.153

d) 0.916

e) aucune de ces rponses

11. En lanant un d, quelle est la probabilit dobtenir un six.



12. Une probabilit peut tre exprime sous forme de pourcentage

a) Vrai

b) Faux

13. La frquence relative associe un vnement correspond la probabilit de cet vnement

c) Vrai

d) Faux

Soit une distribution dont la moyenne est de 40 et lcart type de 10;

14. Normalisez ces valeurs :

a) 44

b) 36

c) 45.2

d) 0

e) 10.40

15. Trouvez les valeurs relles correspondant aux valeurs normalises suivantes :

a) 2.00

b) 1.90

c) 2.00

d) 3.00

e) 10.40

Cent tudiants ont subi un examen o la moyenne du groupe est de 75% avec un cart type de 8. Les rsultats se distribuent normalement.

16. Quelle proportion des tudiants ont environ 80% (entre 75% et 85%) :

17. Quelle est la probabilit quun tudiant ait une note suprieure ou gale 90%

18. Quelle est la probabilit quun tudiant soit plus de deux carts types en bas de la moyenne

19. Combien sattend-t-on avoir dtudiants avec une note entre 85% et 90%

20. table, avec 5 convives, quelquun propose un toast. Combien entend-t-on de verres se frapper?

21. Combien existe-t-il de combinaisons qui permettent de former une quipe de 5 joueurs avec une banque de 10 noms.

22. Dans une distribution normale standardise, quelle proportion des cas seront compris entre la moyenne et le score suivant :

a) 2.0:

b) +0.5:

c) +1.0:

d) +2.0:

e) +3.0:

23. Dans une distribution normale standardise, quelle proportion des cas sera situe au-dessus des scores suivant :

a) 2.0:

b) +0.5:

c) +1.0:

d) +2.0:

e) +3.0:

24. Postulant une distribution normale dont la moyenne est 80, lcart type est de 8, et n = 150, pour quel score sattend-t-on trouver individus avec un score infrieur

a) 126 personnes :

b) 12



c) 63

d) 75

e) 150

25. supposer quil existe un test psychologique valide se distribuant normalement et ayant une moyenne de 100 et un cart type de 10, en dessous de quelle score se trouve des participants :

a) 10%

b) 5%

c) 1%

26. tant donn un groupe de 500 participants de 11 ans ayant obtenus un test une moyenne de 48 avec un cart type de 8 et un groupe de 800 participants de 14 ans ayant obtenu au mme test une moyenne de 56 et un cart type de 10, et postulant la normalit des scores

a) Combien de participants de 11 ans ont un rsultat suprieur la moyenne obtenue chez les 14 ans?

b) Combien de 14 ans ont des rsultats infrieurs la moyenne obtenue chez les 11 ans?

27. La moyenne de toutes les cotes z individuelle est la mme chose que la moyenne des donnes brutes ensuite transforme en cote z?

a) Vrai

b) Faux

Cours 3 Probabilités

Documents