This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
Constats - terminologie - concepts de base Tests concernant une moyenne
Tests concernant variances 1 variance / 2 variances Test concernant proportions 1 proportion / 2 proportions Test comparaison 3 groupes ou plus 12.1 HMGB
Utilisation de STATISTICA
Autres tests- Test de Shapiro-Wilk: distribution normale - Test d’ajustement à une distribution: test du Khi-deux
Tests d’hypothèses (ch. 11 HMGB)
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
2Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
Problèmes statistiques description / visualisation : données Y (ch8)
estimation : paramètres distribution (ch9/10)
tests statistiques : prise de décision avec Y (ch11/12)
modélisation Y = f(X) f = fonction de transfert f =? (ch13)
processussystème Y variable de réponsevariables X
Variable Y - plusieurs cas
- mesure : variable continue : distribution normale N(μ, σ2) … autre
- classement 0 ou 1 : variable qualitative : distribution Bernoulli Ber(θ)
- comptage 0,1,2,.. : variable entière : distribution Poisson Poi (λ)
Variables X - catégoriques / continues / une ou plusieurs
3
constats - terminologie – concepts de base
prendre des décisions à l’aide de données échantillonnalesprovenant d’observations passives ou de données expérimentales:- 2 appareils de mesure ont-ils la même justesse / précision?- traitement anti corrosion réduit – il la rouille de 50% après 4 ans?- un type de boulon peut-il être soumis à 100 000 cycles de
tension-compression sans se rompre par fatique? prendre une décision conjecture issue incertaine
formulation d’une hypothèse d’ordre statistique hypothèse statistique : affirmation concernant une population (distribution)
- elle est vraie jusqu’à preuve du contraire- on dispose d’un seul échantillon de taille n pour décider- RISQUES (probabilités ) de mauvaises décisions:
► rejeter une hypothèse vraie (erreur de type I , première espèce)► ne pas rejeter une hypothèse fausse (erreur de type II , deuxième espèce)
ne pas rejeter (réfuter) une hypothèse veut dire : les données del’échantillon n’indiquent pas clairement que l’on doive la rejeterc-s-d : statut quo est maintenu jusqu’à preuve du contraire
rejeter une hypothèse: les données témoigne fortement contre
Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques
4
Hypothèse nulle H0: hypothèse à tester (mettre à l’épreuve)
Contre hypothèse H1 : seule affirmation sensée lorsque que H0 est fausse
H0 est toujours formulée en termes d’une valeur exacte du paramètre statistique à tester - exemple : H0 : μ = 100
H1 prévoit toujours un ensemble de valeurs : ex. H 1 : μ < 100 test statistique : est définie par une région critique (région de rejet)
d’une statistique W = f(Y1, Y2,…, Yn) qui conduit au rejet de H0
erreur de type I : rejeter l’hypothèse nulle H0 alors qu’elle est vraie
erreur de type II : ne pas rejeter H0 alors qu’elle fausse
seuil (niveau) de signification: la probabilité de commettre erreur type 1
Région critique : W > cRégion de non rejet de H0 c
Bernard CLÉMENT, PhD
terminologie – concepts de base
W
MTH2302 Probabilités et méthodes statistiques
5
H0
VRAIE FAUSSE
REJETER H0 erreur type I pas d’erreur
NE PAS REJETER H0 pas d’erreur erreur type II
Risque de type I = P (erreur type I ) = α
Risque de type II = P (erreur type II ) = β
LA DÉCISION EST BASÉE SUR DES OBSERVATIONS Yi LE STATUT (VRAIE OU FAUSSE) DE H0 N’ EST JAMAIS CONNU
β EST UNE FONCTION COURBE D’ EFFICACITÉ
STATUTDÉCISION
Bernard CLÉMENT, PhD
constats - terminologie – concepts de base
MTH2302 Probabilités et méthodes statistiques
remarque ne jamais utiliser l’expression « accepter H0 »
mais toujours « ne pas rejeter H0 »
6
LES DÉCISIONS STATISTIQUES
La statistique n’est pas une discipline qui permet de décider de la vérité ou de la fausseté des questions qu’elle examine :c’est une science du comportement rationnel qui fournit des règlesde conduite pratiques dans des situations d’incertitude.il y a 2 cas possibles:
cas 1 si une hypothèse particulière (dite nulle) n’est pas rejetée :sur la base de données disponibles vous pouvez la tenir vraiejusqu’à preuve du contraire.
cas 2 si une hypothèse particulière (dite nulle) est rejetée : sur la base de données disponibles vous ne pouvez pas latenir pour vraie.
Dans les deux cas, vous aurez raison en moyenne, 19 fois sur 20, (95%), ou n’importe quel niveau de confiance ou niveau derisque (= 1- niveau de confiance) que l’on se fixe d’avance.
En moyenne, vos conclusions seront donc bonnes, mais on nepourra jamais savoir avec certitude si une décision particulièreest bonne ou non.
Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques
7
LISTE de TESTS STATISTIQUES
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
Cas A : moyenne μ = μ0 - variance σ2 connue
Cas B : moyenne μ = μ0 - variance σ2 inconnue
Cas C : égalité de 2 moyennes μ1 = μ2
cas C1 : variances connues cas C2 : variances inconnues égalescas C3 : variances inconnues inégalescas C4 : échantillons appariés
Cas D : variance σ2 = σ02
Cas E : égalité de 2 variances σ12 = σ2
2
Cas G : égalité k (k ≥ 3) moyennes μ1 = μ2 = … = μk chap. 12.1 HMGB
Cas F : proportion θ = θ0
autre cas : ajustement à des distributions
8
Cas A : test moyenne μ - population gaussienne - variance σ2 connue Y ~ N (μ, σ2 )
-2 0 2 4 6 8 10 12 14 16 18 20 22 24 26
U
-0.02
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
GAUS
S
si H0 est vraie μ = μ0
Z = ( Y – μ0 ) / (σ / √ n ) ~ N ( 0, 1)
μ0
H0 : μ = μ0 vs H1 : μ > μ0
N ( μ, σ2 ) Y1, Y2, …, Yn : échantillon de Y
Y = ∑ Yi / n : moyenne échantillonnale
Y
Y
Z
0
c
σ
Région critique :rejeter H 0 si Y > c c = ?
P ( rejeter H0 quand elle est vraie ) = α P ( Y > c ) = P ( Y - μ0 > c - μ0 )
( Y – μ0 ) ( c - μ0 ) σ/√ n σ/√ n
= P ( Z > z0 ) = α
z0 = ( c - μ0 ) / σ/√ n = z 1-α
c = μ0 + z1-α ( σ /√ n )
σ/√ n
σz =1
z1 – α
aussi noté z α
α
= P >
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
9
Exemple 1 : un acier d’un alliage spécial a une tension de rupture Y (psi) dont la moyenne est de 25800 avec un écart type de 300. Un changement dans la composition de l’alliage devrait augmenter la tension moyenne sans changer l’écart type. Si le nouvel alliage ne produit aucun changement on voudrait pouvoir le dire avec une probabilité de 0.99. Par contre, si la tension moyenne est augmentéede 250, on veut que le risque de ne pas le détecter soit 0.10Questions(a) Définir l’hypothèse nulle , la contre hypothèse, le seuil du test, le risque de type II.(b) Poser les équations définissant les risques de type I et de type II; résoudre afin de trouver la taille de
l’échantillon à prélever et déterminer la région critique du test.(c) Un échantillon de 19 observations a donné une moyenne de 25970. Le nouvel alliage est-il supérieur ?
Solution (a)-(b)
Yμ0 = 25800
H0
μ1 = 25800 + 250 = 26050
H1 : μ > μ0 ( unilatérale )
c
Région critique
Y > c
σ/√n
α
P( erreur type I ) = P ( Y > c ) = α = 0.01P( erreur type II ) = P ( Y < c ) = β = 0.10
β
σ= 300
Bernard CLÉMENT, PhD
Cas A : test moyenne μ - population gaussienne - variance σ2 connue Y ~ N (μ, σ2 )
MTH2302 Probabilités et méthodes statistiques
10
Solution (a)-(b)
Yμ0 = 25800
H0
μ1 = 25800 + 250 = 26050
H1
c
Région critique
X > c
σ/√n
α
P( erreur type I ) = P ( Y > c ) = α = 0.01P( erreur type II ) = P ( Y < c ) = β = 0.10
β
Solution (a)-(b) P ( Y > c | si μ = 25800) = α = 0.01 (1)P ( Y < c | si μ = 26050) = β = 0.10 (2)2 équations avec 2 inconnus : n et c
Solution : avec Statistica / Statistiques élémentaires / test t échantillons indépendants
épaisseur
No
of o
bs
HEURE: x
5 6 7 8 9 10 11 12 13 140
2
4
6
8
10
12
HEURE: y
5 6 7 8 9 10 11 12 13 14
Test T avec variances
inconnues et égales
sp = 1,20
T = - 3,77 ddl = 58p- value = 0,0004
égalité moyennes rejetée
groupe n moy écart type
1 30 8,99 1,18
2 30 10,16 1,22
Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques
24
Cas C4 : Test d’égalité de 2 moyennes : échantillons appariés (pairés)
Contexte : lorsque les 2 séries de mesures proviennent des mêmes unités expérimentales.Par exemple, lorsque que l’on fait une comparaison AVANT-APRÈS :
groupe 1 : y11, y12, …, y1n mesures avant sur n unités expérimentalesgroupe 2 : y21, y22, …, y2n mesures après sur les mêmes unités expérimentales
l’indépendance des 2 échantillons n’est pas vérifiée car les mêmes unités expérimentalessont utilisées pour faire la comparaison. Le test est basé sur les différences :
Di = y1i - y2i i = 1, 2, …, nLe problème est ramené à un test de la nullité d’une moyenne avec variance inconnue.Remarque: il est important de reconnaître le cas d’échantillons appariés (= dépendants)
afin d’exécuter le bon test : échantillons indépendants ou échantillons dépendants?
Exemple 5 : 15 composants électroniques sont testés à 2 niveaux de température : N normale (20 deg C) et E élevée (100 deg C)
Une mesure de qualité importante Y fut mesurée à ces 2 niveaux de températureComposant : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
W calculée = 0.85 et P ( W ≤ 0.85) = 0.06 = p-value
on ne rejette pas la loi normale pour ces données.
36
Cas G : test d’ajustement à une loi normale - procédure de Shapiro-Wilk
BUT : vérifier si une série de données x1 , x2 , x3 , …….. xn provient d’unepopulation distribué selon une loi gaussienne.
H0 : Y ~ N ( μ, σ2 ) vs H1 : Y ~ autre distribution
Plusieurs tests : Khi2, Kolmogorov-Smirnov (D ), Lilifors, Shapiro-Wilk (W)Statistique W du test de Shapiro-Wilk :
W = [ ∑ an, i y( i ) ] 2 / [ ∑ ( yi - y ) ] 2a n, i coefficients spéciaux ( table non disponible dans le manuel du cours ).La statistique W mesure la corrélation entre la série ordonnée des observationset les quantiles théoriques d’une loi N( 0,1 ). 0.70 ≤ W ≤ 1
Décision : rejeter H0 si W est ‘’petite’’
Mise en oeuvre avec le logiciel Statistica : p-value = P ( W < Wcalculée )
Si le p-value est petite (disons inférieure à 0.05 ) on rejette loi normale