Biostatistiques : Petits effectifs 20/09/2012 Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos – DRCI CHRU de Lille – EA2694 [email protected]
Biostatistiques : Petits effectifs 20/09/2012
Biostatistiques :
Petits effectifs
Master Recherche Biologie et Santé
P. Devos – DRCI CHRU de Lille – EA2694
Biostatistiques : Petits effectifs 20/09/2012
Plan
� Données Générales :
� Définition des statistiques
� Principe de l’échantillonnage
� Principe du test statistique – Tailles d’échantillons
� Analyse descriptive / Test de Normalité.
� Petits échantillons :
� Petits / Grands échantillons.
� Comparaison de deux ou plusieurs échantillons.
� Tests non-paramétriques
� Mesure de l'association entre plusieurs variables.
Biostatistiques : Petits effectifs 20/09/2012
La Statistique et les Biostatistiques
� La STATISTIQUE : discipline traitant du recueil (plans d’expérience, sondages, …), du traitement et de l’interprétation de données caractérisées par une grande variabilité .
� Partie des mathématiques appliquées, utilisant la théorie des probabilités.
� Beaucoup de domaines d’applications� Sondages : enquêtes d’opinion � Industrie : contrôle de qualité� Marketing : scoring, profil de consommateurs� Médecine : épidémiologie, recherche clinique� ……..
� Statistiques appliquées à la Médecine = BIOSTATISTIQUES � Données spécifiques : variabilité inter et intra, données interprétées, …� Méthodes spécifiques : survie, courbes ROC, plans d’expérience…
Biostatistiques : Petits effectifs 20/09/2012
Méthodologie statistique
� Employer bien sûr la "bonne" procédure statistique pendant l’analyse !!!
� MAIS cela ne suffit pas …
� Choisir le bon type d’étude
� Choisir le bon plan d’expérience
� Choisir les bons critères de jugement
� Définir les variables recueillies
� Qualité des données recueillies
� Analyse statistique rigoureuse (tests, modèles, …)
� Bonne interprétation des résultats
Avant l ’étude !!!
Fin d’étude
Biostatistiques : Petits effectifs 20/09/2012
L’Échantillonnage
Biostatistiques : Petits effectifs 20/09/2012
L’inférence statistique
� On désire étudier une population P
� Principe : � On tire un échantillon E de taille n issu de P� On analyse les caractéristiques de E� On généralise à P
� Attention !!� E doit être un échantillon représentatif de P (même probabilité pour chaque individu
de se retrouver dans E)� E doit être de taille suffisamment élevée pour pouvoir extrapoler les résultats
Définir très précisément la population que l’on désire étudier !!
Biostatistiques : Petits effectifs 20/09/2012
Les fluctuations d’échantillonnage
� Quand on tire aléatoirement un échantillon, on a des fluctuations.
� Exemple : on s’intéresse aux 10 premiers étudiants entrant dans l’amphi. On comptabilise 7 femmes et 3 hommes. Peut-on en déduire que 70% des étudiants qui assisteront au cours sont des femmes ? NON !!!
On considère que dans la population totale, les proportions d’hommes et de femmes sont les mêmes P(H)=P(F)=1/2
Soit X le nombre de femmes parmi les 10 étudiants. On peut montrer que X suit une loi binomiale de taille 10 et de paramètre 0.5 et calculer la probabilité d’observer 0,1,2,…,10 femmes.
0
0.05
0.1
0.15
0.2
0.25
0.3
0 1 2 3 4 5 6 7 8 9 10
P(X=k)
Biostatistiques : Petits effectifs 20/09/2012
Les prendre en compte
Comment prendre en compte les fluctuations d’échantillonnage ?
1) En vérifiant que l’échantillon est représentatif (tests d’adéquation par exemple)
2) En donnant la marge d’erreur que l’on commet en raisonnant sur un échantillon (Intervalles de confiance)
3) En maîtrisant les risques d’erreurs (puissancedans le cas de comparaisons)
Biostatistiques : Petits effectifs 20/09/2012
Principe du test statistique
Biostatistiques : Petits effectifs 20/09/2012
Le test statistique
� Un travail de recherche est bâti pour répondre à une question
� Le test statistique est basé sur 3 principes généraux :� Le test statistique sert à répondre à une question� Le test statistique est un test d’hypothèse : à la question on associe une
hypothèse (H0)� Le test statistique ne peut conclure de manière certaine : preuve
expérimentale donc il faut prendre un risque (première espèce)
� Conclusion fondée sur un test statistique
Principe du test statistique
Biostatistiques : Petits effectifs 20/09/2012
Principe du test statistique
� Étape 1 : on cherche à prouver qu’elle est pipée
� Étape 2 : confrontation expérimentale : on jette 50 fois la pièce.
� Étape 3 : test d’hypothèse � Si pièce non pipée : P(Face)=P(Pile)=1/2
� Choix de l’hypothèse à tester notée H0 : :« la pièce de monnaie n’est pas pipée »
� Soit X : nombre de « Pile » (ou Face)
� Si H0 est vraie, la loi de X est connue (binomiale)
Question : une pièce de monnaie est-elle pipée?
k k N-kNP(X=k)= (1 )C p p−
Biostatistiques : Petits effectifs 20/09/2012
Si H0 vraie, toutes les configurations sont possibles, y comprisP(0P)=(0,5)50
Principe du test statistique : Notion de risque
8.8 10-16 !!
0
0.02
0.04
0.06
0.08
0.1
0.12
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50
k
P (
X=k
)
Biostatistiques : Petits effectifs 20/09/2012
Principe du test statistique : Notion de risque
� Il faut décider : on choisit un risque raisonnable = 5%� On partage l’ensemble des possibilités en 2 zones, selon le risque 5% :
50P0P
25P
Compatible H0 = 95%
Très improbable sous H0 = 5% de chance =REJET DE H0
18P 32P
Limites de la zone compatible avec H0 se déterminent grâce au calcul des probabilités. Ici 18 - 32
Biostatistiques : Petits effectifs 20/09/2012
� Zone compatible avec H0 = probabilité de 95% de se produire si H0 vraie
� Zone de rejet de H0 =probabilité de 5% de se produire si H0 est vraie !!! (risque)
� Règle de décision: on fixe a priori la règle suivante :
- Si le résultat de l’expérience se trouve dans la zone compatible avec H0 (exemple 22P), on ne décide rien (« non significatif»)
- Si il se situe dans le zone « rejet de H0» on déclare H0 FAUSSE, donc on déclare H1 vraie, mais au risque 5%.
- Exemple : 15P, on décide que la pièce est truquée
� Risque de première espèce = Probabilité de rejeter H0 à tort = 5%
Principe du test statistique : Règle de décision
Biostatistiques : Petits effectifs 20/09/2012
Notion de Puissance d’un test
Vérité
DécisionH0 H1
Compatible H0 β
Rejet de H0 =on décide H1
α 1-β
α = Proba (décider H1 / H0 est vraie) = risque de première espèce
β = Proba ( décider « compatible avec H0 » / H1 est vraie) = risque de deuxième espèce
Puissance = 1-β = Proba ( décider H1 / H1 est vraie)
α = Risque d'affirmer qu'il y a une différence significative alors qu'elle n'existe pasréellement.
β = Risque d'affirmer qu'il n'y a pas de différence significative alors qu'elle existeréellement.
Puissance = Probabilité de détecter une différence si elle existe réellement
Biostatistiques : Petits effectifs 20/09/2012
� Puissance dépend du risque de première espèce αααα , mais inutile en pratique car α fixé à 5%
Notion de puissance d’un test
∆
Puissance = F(∆,N,DS)
En pratique, on estime ∆ et DSet on déduit N
� Puissance dépend de la différencemais aussi de la variabilité
Biostatistiques : Petits effectifs 20/09/2012
En pratique…
� Dépend du plan d’expérience :� Nombre de groupes� Indépendant / Apparié (patient propre témoin)
� Dépend du critère de jugement principal� Numérique� Binaire� Survie� …
� Des 2 risques:� α : risque de première espèce : généralement 5%� β : risque de seconde espèce : inférieur à 20%
Biostatistiques : Petits effectifs 20/09/2012
Application : Taille des échantillons
Comparaison de 2 moyennes (groupes indépendants)
Alpha Beta Zalpha Zbéta K
0.05 0.05 1.96 1.64 25.99
0.05 0.1 1.96 1.28 21.01
0.05 0.2 1.96 0.84 15.70
Test bilatéral Test unilatéral
2
1 1
² ²2( )
² ²n Kz zα β
σ σ− −= + =
∆ ∆
Alpha Beta Zalpha Zbéta K
0.05 0.05 1.64 1.64 21.64
0.05 0.1 1.64 1.28 17.13
0.05 0.2 1.64 0.84 12.37
(Formules approchées)
Biostatistiques : Petits effectifs 20/09/2012
Exemple
� Différence attendue (∆) : 5mm de mercure
� Ecart-type (DS): 10 mm
� Risque de première espèce (α ): 5%
� Puissance (1-β ): 90%
210
21.01* 845
N = =
( par groupe )
0
0.2
0.4
0.6
0.8
1
0 50 100 150 200
Nombre de Patients par Groupe
Pui
ssan
ce
Biostatistiques : Petits effectifs 20/09/2012
Application : Taille des échantillons
2
1 1
(1 ) (1 ) (1 ) (1 )( )
( )² ( )²A A B B A A B B
A B A B
P P P P P P P Pn K
P P P Pz zα β− −
− + − − + −= + =− −
Comparaison de 2 fréquences (groupes indépendants)
Test bilatéral Test unilatéral
(Formules approchées)
Alpha Beta Z1 Z2 K
0.05 0.05 1.96 1.64 12.99
0.05 0.1 1.96 1.28 10.51
0.05 0.2 1.96 0.84 7.85
Alpha Beta Z1 Z2 K
0.05 0.05 1.64 1.64 10.82
0.05 0.1 1.64 1.28 8.56
0.05 0.2 1.64 0.84 6.18
Biostatistiques : Petits effectifs 20/09/2012
Exemple
� PA = 0.1, PB = 0.2
� Risque de première espèce (α ): 5%
� Puissance (1-β ): 90%
10.51*25 263N = =( par groupe )
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 50 100 150 200 250 300 350 400 450 500
Effectif par Groupe
Pu
issa
nce
Biostatistiques : Petits effectifs 20/09/2012
Comparaison de deux antihypertenseurs avec :� ∆∆∆∆ : 5mm de mercure
� Ecart-type (DS): 10 mm
� Risque de première espèce (α ): 5%
1- ββββ = 0.9 ���� N1=N2=86
L’étude a été réalisée sans calcul de puissance préalable sur 2 groupes de 30 sujets.
Ne pas confondre :
Conditions d’application du testet Puissance du test
Puissance = 1-ββββ = 0.48 !!!
Puissance d’un test et Taille d’échantillon
Biostatistiques : Petits effectifs 20/09/2012
Traitement statistique
des données
Biostatistiques : Petits effectifs 20/09/2012
Méthodes Statistiques : définitions générales
� INDIVIDU : « Objet » sur lequel un ou plusieurs caractères peuvent être observés.
� POPULATION : Ensemble des individus pris en considération.
� VARIABLE : peut être qualitative (attribut) ou quantitative (numérique).
VARIABLES
QUANTITATIVES
QUALITATIVES
DISCRETES (Nombre limité de valeurs)
CONTINUES (prend ses valeurs dans un intervalle
NOMINALES (SEXE, Couleur des Yeux, CSP, …)
ORDINALES = SCORE (Notion d’ordre)
BINAIRES ( Présent / Absent )
Biostatistiques : Petits effectifs 20/09/2012
Les méthodes statistiques
La statistique
Inférentielle
DescriptiveMultivariée (ACP, …)
Univariée (moyenne, DS, …)
Multivariée (modèles, …)
Univariée (tests, …)
Biostatistiques : Petits effectifs 20/09/2012
La Statistique Descriptive
� BUTS :� Contrôle de qualité des données, descriptifs simples (moyennes, …).� Synthétiser, résumer, structurer l'information contenue dans les données.� Mettre en évidence des propriétés de l'échantillon.� Suggérer des hypothèses.
� Analyses univariées : moyennes, histogramme, box-plot, fréquences, …
� Analyses multivariées =Analyse des Données. Permet de traiter des données multidimensionnelles.
� Principales méthodes multivariées:� Méthodes de classification : déterminer des sous-groupes homogènes� Méthodes factorielles : réduire le nombre de variables par construction d'axes
synthétiques (ACP, AFC, ACM, ...), mais aussi sous-groupes d’individus� 2 classes de méthodes souvent complémentaires Cours N° 2
Biostatistiques : Petits effectifs 20/09/2012
La Statistique Inférentielle Univariée
� BUT : Valider ou infirmer des hypothèses a priori ou formulées après une phase exploratoire.
� Utilisation de tests statistiques se référant à des modèles probabilistes.
� EXEMPLES :
� Comparaison de moyennes (test T, Wilcoxon, …)
� ANOVA (+ + + !!!) / Modèle mixte
� Comparaison de fréquences (Khi², Fisher exact)
� Tests de lois (Shapiro-wilk, Kolmogorov-Smirnov)
� ...
Biostatistiques : Petits effectifs 20/09/2012
STATISTIQUE DESCRIPTIVE
UNIVARIEE
Biostatistiques : Petits effectifs 20/09/2012
Analyse descriptive univariée
� Contrôle des données : Fréquences et Box-plots
� Calcul des statistiques descriptives : moyenne, ….
� Présentation des résultats :
�Moyenne et Déviation standard ouMédiane et Quartiles
�Fréquence avec Intervalle de confiance
3 Objectifs :
Biostatistiques : Petits effectifs 20/09/2012
Paramètres statistiques de base
� Moyenne :
� Variance estimée:
� Déviation standard : racine carrée de la variance
� Min, Max, Médiane, Quartiles, Centiles
∑=
=n
i
in
xx1
1
( )2
1
1
1²
n
i
in
s x x=
= −− ∑
Biostatistiques : Petits effectifs 20/09/2012
X max
X min
Médiane
Q3
Q1
+
0
II=Q3-Q1
1,5 (Q3-Q1)
1,5 (Q3-Q1)
0 : valeur comprise entre 1.5 et 3 interquartiles
* : valeur supérieure à 3 interquartiles
Le Box-Plot ( Boîte à Moustaches )
Biostatistiques : Petits effectifs 20/09/2012
Représentations graphiques
VARIABLES DISCRETES
VARIABLES CONTINUES
Homme55%
Femme45%
Homme
Femme
VARIABLES QUALITATIVES
Biostatistiques : Petits effectifs 20/09/2012
Distribution d’un paramètre (loi)
� Différentes formes observables
� Modélisation de la distribution : Hypothèse de loi
-2 2 6 1014182226303438
X
0
0. 02
0. 04De
n
s
i
ty
Biostatistiques : Petits effectifs 20/09/2012
Tests de Normalité
� SHAPIRO-WILK ( N< 50 )
� KOLMOGOROV-SMIRNOV ( N> 50 )
-4 -3 -2 -1 0 1 2 3 4
Hypothèses de normalité requise pour
• test T, ANOVA
• régression,
• Intervalles de confiance (valeurs normales)
• …
Biostatistiques : Petits effectifs 20/09/2012
Présentation des résultats
� Toujours rappeler la population étudiée, les patients inclus ou exclus, …
� Préciser les méthodes statistiques utilisées
� Faire des tableaux de synthèse
� Utiliser des graphiques
� Existence de recommandations ( http://www.consort-statement.org/)
� Suivre scrupuleusement les guidelines si article scientifique !!!
Biostatistiques : Petits effectifs 20/09/2012
� Utilisation de la moyenne si distribution symétrique, de la médiane si distribution asymétrique
� Pas de moyenne sans déviation standard
� Pas de médiane sans quartiles
� Pas de fréquence sans Intervalle de confiance
Présentation des résultats
-4 -3 -2 -1 0 1 2 3 40
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
0 2 4 6 8 10 12
moyenne
médiane
Biostatistiques : Petits effectifs 20/09/2012
Intervalles de confiance à 95%
� d’un paramètre numérique :
si X suit une loi normale
� d’une moyenne :
quelque soit la loi de X, si n > 30
� d’une fréquence
si np , nq > 10
DS 96.1 ±x
n
DS 96.1 ±x
n
p)-p(11.96 p ±
Biostatistiques : Petits effectifs 20/09/2012
Normalité d’un paramètre
Biostatistiques : Petits effectifs 20/09/2012
La droite de Henry
Normalité : très important car condition de nombreux tests
Méthode graphique qui permet de vérifier la normalité d’une distribution
Soit X, une variable aléatoire N(m,σ²)
φ : ]-∞,+∞[ → [0,1]x → φ (x) = P(X<x)
On définit la fonction réciproque :
φ-1: [0,1] → ]-∞,+∞[p → φ-1(p)
p z
0.01 -2.326 0.025 -1.96 0.05 -1.64 0.5 0 0.95 1.64 0.975 1.96 0.99 2.326
Exemple :
-3 -2 -1 0 1 2 3
p
z
Biostatistiques : Petits effectifs 20/09/2012
En pratique
Soit (X1, ... , Xn) un échantillon issu de X, R1, ..., Rn les rangs associés, 1
1
RiYi
nφ − = +
Si X suit une loi normale, alors les points (Xi,Yi) sont alignés
R2 = 0.9775
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
15 17 19 21 23 25 27 29 31 33
Droite de pente 1/σ coupant l’axe des abscisses en m.
Cas particulier des diagrammes P-P
Biostatistiques : Petits effectifs 20/09/2012
Le test de Shapiro-Wilk
Test implémenté dans de nombreux logiciels et utilisé pour des petits échantillons
Basé sur le calcul des différences symétriques :
d1 = Xn - X1d2 = Xn-1 - X2
. . . . . . . . .dk = Xn-k+1 - Xk
On obtient k=n/2 ou k=(n-1)/2 différences selon la parité de n
Puis on calcule :1
k
i ii
b a d=
=∑ , ( )2
1
²n
ii
S x x=
= −∑ puis ²
²
bW
S=
Les ai sont des coefficients dépendants de i et n
Utilisation d’une table qui permet de conclure.
Biostatistiques : Petits effectifs 20/09/2012
Exemple
Xi di ai ai*di 16.3 31.0-16.3=14.7 0.5150 7.5705 16.8 19.6 27.4-16.8=10.6 0.3306 3.50436 19.8 20.6 27.0-19.6=7.4 0.2495 1.8463 21.0 22.4 25.0-19.8=5.2 0.1878 0.97656 23.0 23.4 24.4-20.6=3.8 0.1353 0.51414 23.9 24.4 23.9-21.0=2.9 0.0880 0.2552 25.0 27.0 23.4-22.4=1 0.0433 0.0433 27.4 31.0 23
1
14.71k
i ii
b a d=
= =∑
( )2
1
² 220.77n
ii
S x x=
= − =∑0.9803W =
Lecture de la table : α = 0.05
n = 15
C(α,n) = 0.881
H0 : le paramètre suit une loi normale
W > C(α,n)
On ne rejette pas H0
Biostatistiques : Petits effectifs 20/09/2012
Comparaisons de groupes
Biostatistiques : Petits effectifs 20/09/2012
Comparaisons de groupes
� Dépend du type de variable :� Qualitatitives : Khi² ou Fisher Exact
� Quantitatives
� Comparaison Quantitatives – 2 approches:� Tests paramétriques : Student par exemple
• Paramétrique = on fait une hypothèse sur la loi du paramètre
• on compare des moyennes : interprétation facile
• Hypothèse forte : normalité !!!
� Tests non paramétriques :• Basé sur des rangs
• On compare des distributions : interprétation délicate
• Mais pas d’hypothèse de loi mais conditions d’application
Biostatistiques : Petits effectifs 20/09/2012
� Soit H0 : Les 2 caractères sont indépendants� Calcul des effectifs théoriques Tij=( Li * Cj) / N (tous supérieurs à 5)
� 1 degré de liberté
� Calcul de D² = 8,11 ⇒ on rejette l’indépendance
EXEMPLE : On veut savoir s’il existe une relation de cause à effet entre un pneumococque et le décès.
V (vivant) D (décés)
Pneumocoque G1 33 15 48
Autre G2 314 55 369
347 70 N=417
On dispose d’un échantillon se résumant ainsi :
La mortalité est-elle plus élevée chez les pneumocoques ?
Comparaisons de fréquence : le test du Khi²
Biostatistiques : Petits effectifs 20/09/2012
χ² d ’Indépendance : généralisation
� Sous l’hypothèse d’indépendance,
� Calcul de :
� Degrés de liberté : ν = (k-1) * (p-1)
� Utilisation de la table pour déterminer une valeur limite z� Conclusion du test : si D² > z alors rejet de H0, donc il existe une liaison entre
les caractères A et B
A1 A2 ........ Aj ........ Ak
B1 O11 ........ ........ ........ ........ O1k L1B2 O21 ........ ........ ........ ........ O2k L2
........ ........ ........ ........ ........ ........ ........ ........Bi ........ ........ ........ Oij ........ ........ Li
........ ........ ........ ........ ........ ........ ........ ........Bp Op1 ........ ........ ........ ........ Opk Lp
C1 C2 ........ Cj ........ Ck N
On souhaite savoir si deux paramètres A et B sont indépendants
On construit le tableau de
contingence croisant A et B
( )1 1
²²
p k
i j
Tij OijD
Tij= =
−=∑ ∑
*Cj LiTij
N=
Attention à Tij < 5
Biostatistiques : Petits effectifs 20/09/2012
Cas particuliers : Fisher exact
� Test pouvant remplacer le χ² dans le cas d’effectifs théoriques inférieurs à 5.
� Basé sur la combinatoire
� Valide quelque soient les effectifs théoriques
� Valide quelque soit le nombre de lignes et de colonnes
� Attention, temps de calcul prohibitif si le nombre de cases du tableau est élevé
Biostatistiques : Petits effectifs 20/09/2012
a b
c d
2 Modalités 3 Modalités
( ) ²² si b+c 10
b c
b cχ
−=
+≥
( )1 ²² si b+c <10
b c
b cχ
− −=
+
Test de Mac Nemar
a b c L1
d e f L2
g h i L3
C1 C2 C3
( ) ( ) ( )2 2 2* 1 1 * 2 2 * 3 3
2 2 2²
2* * * *2 2 2 2 2 2
f h c g b dC L C L C L
b d c g b d f h c g f hχ
+ + + − + − + − =
+ + + + + + + +
χχχχ² à 1 ddl
χχχχ² à 2 ddl
FLEISS : Statistical methods for rates and proportions
Approximation par la loi normale
Test exact
Cas particuliers : Khi² apparié
Biostatistiques : Petits effectifs 20/09/2012
Comparaisons de moyennes
Biostatistiques : Petits effectifs 20/09/2012
Tests paramétriques
� Chaque fois que possible, utiliser des tests paramétriques car plus faciles à interpréter et utilisent l’information totale (pas de perte d’information) et donc a priori plus puissants.
� Attention : des conditions à vérifier :� Normalité de la distribution (population totale ou par sous-groupe)
� L’équilibre des groupes (même effectif dans chaque groupe)
� L’égalité des variances (test de Fisher ou de Levene)
� En fonction de la compatibilité avec certaines de ces conditions, possibilité d’utiliser un test paramétrique
Biostatistiques : Petits effectifs 20/09/2012
Comparaison de 2 groupes
X ~ N(m,σ) ?
Égalité desVariances ?
OUI
NONOUI
Test de StudentApproximationde Satterthwaite
N1, N2 > 30 ?
NONOUI
Test de Student
Wilcoxon(non-paramétrique)
NON
Loi symétrique ?
OUI NON
Biostatistiques : Petits effectifs 20/09/2012
Comparaison de k groupes
� Paramétrique : ANOVA (pas au programme)
� Non paramétrique : test de Kruskal-Wallis
� H0 : les moyennes (ANOVA) ou les distributions (KW) sont les mêmes dans les k groupes
Cas 1 : on ne rejette pas H0 Pas de différence STOP
Cas 2 : on rejette H0 Où sont les différences ? Post-hocs
Post-hocs : comparaisons multiples (par exemple, comparaison des groupes 2 à 2)
Biostatistiques : Petits effectifs 20/09/2012
Le modèle linéaire
� Permet de modéliser de nombreux plans d’expérience, simples ou complexes, en indépendant ou apparié, à un ou plusieurs facteurs.
� Hypothèse préalable de normalité sur « l’erreur » (les résidus)
� En fait, comme tout modèle linéaire, validation a posteriori :� Analyse des résidus
� Analyse des individus influents
Biostatistiques : Petits effectifs 20/09/2012
Tests non-paramétriques
Biostatistiques : Petits effectifs 20/09/2012
Définition - Impact
� Utilisé en général sur de petits échantillons (taille inférieure à 30 individus).
� Pas de statistiques en dessous de 8par groupe
� Attention : les théorèmes statistiques (Th Central limite, par exemple) ne s’appliquent plus � Nécessité de disposer de tests spécifiques
� Interprétation plus compliquée : on ne compare pas des moyennes.
� Problème de l’estimation :� Dans les statistiques standard : moyenne, déviation standard
� Dans les modèles
Biostatistiques : Petits effectifs 20/09/2012
Tests non-paramétriques
� « Distribution-free » tests : tests ne faisant aucune hypothèse a priori sur la distribution des variables analysées (pas d’hypothèse de normalité).
� Généralement basés sur l’analyse des rangs.
RANG(X i) : Position de la valeur Xi dans la série classée par ordre croissant
-2 3 2 1 0 -1 -3 4 5 -4 3 8 7 6 5 4 2 9 10 1
On obtient une nouvelle variable Rx qui varie de 1 àn
� Problèmes :
� On « gomme » les différences
� Tests moins puissants
Attention aux ex-aequo (individus ayant la même valeur Xi)
soit (X1, X2,…, Xn) n valeurs numériques d’une même variable
Biostatistiques : Petits effectifs 20/09/2012
Le test de Wilcoxon ou Mann-Withney
� Utilisé pour comparer les distributions de 2 groupes indépendants
� H0 : Fa(X) <> Fb(X) (les fonctions de répartition sont différentes)
� On classe les observations par ordre croissant et on calcule la somme des rangs dans chaque groupe.
� On obtient une variable de décision qui suit une N(0,1) si au moins 8 individus dans chaque groupe
X
Si distribution identiques, alors mélange parfait entre le groupe A (ronds rouges) et le groupe B (triangles verts).
Dans ce cas, les sommes des rangs sont identiques (ou proches) dans les 2 groupes
Biostatistiques : Petits effectifs 20/09/2012
Le test de Wilcoxon
Soit n et m les effectifs des groupe 1 et 2,
Wx la somme des rangs du groupe A (ou B)
Sous H0 : «les distributions sont identiques», on peut calculer E(Wx) et V(Wx)
( 1)( )
2
n n mE Wx
+ +=( 1)
( )12
nm n mV Wx
+ +=et
Si n et m > 8, alors suit une loi N(0,1)( )
( )
Wx E WxZ
V Wx
−=
(Formules valides sans ex-aequo)
Biostatistiques : Petits effectifs 20/09/2012
Le test de Kruskal-Wallis
� Utilisé pour comparer les distributions de plus de 2 groupes indépendants
� H0 : les distributions (fonctions de répartition) sont égales
� Basé sur la différence de la moyenne des rangs dans chaque groupe à la moyenne des rangs sur la population globale
� Si Ni≥ 5, on obtient une variable de décision H qui suit un χ² à k-1 ddl
2
21
1 (N+1)H - N
4
ki
i i
R
S n=
=
∑
( N, effectif total, Ni effectif par groupe et Ri somme des rangs du groupe i )
(Formule sans ex-aequo)
Biostatistiques : Petits effectifs 20/09/2012
Kruskal-Wallis : différences 2 à 2 ?
Exemple : 3 groupes G1, G2 et G3 – Test global significatif
On aimerait comparer G1/G2, G2/G3 et G1/G3 : 3 tests post-hoc !!!
Attention : Nécessité d’une correction du risque αααα
� Option 1: Utiliser les procédures implémentées dans certains logiciels (SAS, SPSS, …) et qui permettent une correction :� Procédure de Dwass-Steel
� Procédure de Conover-Inman
� Option 2: on effectue 3 tests de Wilcoxon au risque α/3
2 options possibles :
Biostatistiques : Petits effectifs 20/09/2012
La méthode de Conover
� On transforme la variable X en variable R en calculant les rangs (en faisant attention aux ex-aequo).
� On réalise une ANOVA « normale » sur la variable R (en utilisant les corrections du risque a telles que Bonferroni ou Tukey)
� Méthode simple mais pas forcément optimale (simulations) et qui a été critiquée (préservation du risque alpha et puissance)
Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, W. J. Conoverand Ronald L. Iman - The American Statistician - Vol. 35, No. 3 (Aug., 1981), pp. 124-129
Biostatistiques : Petits effectifs 20/09/2012
Quelques exemples
Biostatistiques : Petits effectifs 20/09/2012
Exemple 1 : comparaison de 2 groupes
Comparaison du BMI dans 2 groupes
Question 1 : le BMI suit-il une loi normale dans cet échantillon ?
Test de Shapiro-Wilk :
W=0.978 et p = 0.891
On ne rejette pas H0
Le BMI suit une loi normale !
N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12Gr 1 20 22 23 23 23 23 24 24 25 25 26 27Gr 2 25 26 26 27 27 27 28 28 29 30
Biostatistiques : Petits effectifs 20/09/2012
Exemple 1 : comparaison de 2 groupes
Utilisation d’un test paramétrique : le test de Student
Test de Fisher (ou Levene)F=1.56 , p=0.5155
Égalité desVariances ?
Cas 1 : Variances égalesTest de Student sur variances poolées
T = - 4.85DF = 20p < 0.0001
Cas 2 : Variances inégalesTest de Student avec
corr Satterthwaite
T = - 4.96DF = 19.98p < 0.0001
Biostatistiques : Petits effectifs 20/09/2012
Exemple 1 : comparaison de 2 groupes
Si le BMI n’avait pas suivi une loi normale, alors utilisation du test de Wilcoxon.
Somme des Rangs du Groupe 1 : 85.5
Somme des Rangs du Groupe 2 : 167.5
Z = 3.4582
p = 0.005
Les distributions du BMI sont statistiquement différentes dans les 2 groupes.
Biostatistiques : Petits effectifs 20/09/2012
Exemple 2 : le test de Kruskal-Wallis
3 groupes de 10 individus – Réponse cotée de 0 à 20
N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 Somme RiGr 1 7 8 6 5 6 7 9 10 9 8 57.5Gr 2 9 12 11 11 10 12 12 11 13 12 156.5Gr 3 13 12 14 15 15 16 14 15 16 13 251
Test de KW :
• Khi² = 24.3885
• DDL = 2
• P < 0.0001
Biostatistiques : Petits effectifs 20/09/2012
Kruskal-Wallis : différences 2 à 2 ?
On aimerait comparer G1/G2, G2/G3 et G1/G3 : 3 tests post-hoc !!!
Attention à la correction du risque α !!α !!α !!α !!
� Option 1 : correction disponible dans le logiciel
� Option 2: on effectue 3 tests de Wilcoxon au risque α/3
2 options possibles :
G1#G2 , G1#G3 et G2#G3
G1-G2 : p=0.00004
G2-G3 : p=0.00013
G1-G3 : p=0.00001< 0.0166
Biostatistiques : Petits effectifs 20/09/2012
Méthode de Conover
� On transforme la variable en rang
� On réalise l’ANOVA sur les rangs
� Si rejet de H0, comparaisons post-hoc
Test global : p < 0.0001
Tests post-hocs significatifs
Mêmes conclusions qu’avec le test de Kruskal-Wallis
Biostatistiques : Petits effectifs 20/09/2012
Exemple 2 : Modèle linéaire
� Utilisation du modèle linéaire
� Test de l’effet global
� Vérification de l’influence et des résidus
� Si modèle OK et effet global significatif, alors calcul des tests post-hoc
Et si la loi était normale ??? Test de Shapiro-Wilk p=0.3541 !
La distribution suit une loi normale
Biostatistiques : Petits effectifs 20/09/2012
Exemple 2 : Modèle linéaire
-3
-2
-1
0
1
2
3
0 5 10 15 20 25 30
Obs Number
Res
idua
l
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0 5 10 15 20 25 30 35
Obs Number
Coo
k's
D
Résidus aléatoires et normalement distribués
2 individus ayant une Distance de Cook (influence) supérieure à 4/n
mais inférieure à 1.
Modèle paramétrique parfaitement valide !!!
Vérification du modèle sans les 2 individus
Biostatistiques : Petits effectifs 20/09/2012
1 groupe –Mesures répétées
Biostatistiques : Petits effectifs 20/09/2012
2 mesures
� Problématique : même paramètre X mesuré 2 fois sur le même individu : Mesure Avant / Après traitement par exemple.
� Plusieurs méthodes possibles
Cas 1 : X suit une loi normale Test paramétrique Test T apparié
Cas 2 : X ne suit pas une loi normale
Tests non paramétriques
Test des signes
Wilcoxon apparié
Biostatistiques : Petits effectifs 20/09/2012
Test de Student pour données appariés
� On suppose que le paramètre X suit une loi normale, X mesuré 2 fois : X1 et X2
� H0 : m1=m2
� On calcule, pour chaque individu, la différence d, puis la moyenne et la déviation standard de la différence.
d
dt
n
σ=alors suit une loi de Student à n-1 ddl
Biostatistiques : Petits effectifs 20/09/2012
Le test des signes
� On dispose de n différences
� Soit K le nombre de différences positives (ou négatives)
� Sous H0 : m1=m2, il y a une chance sur 2 qu’une différence soit positive
On peut établir la loi de K qui suit une loi binomiale
K ~ B(n,1/2)
Biostatistiques : Petits effectifs 20/09/2012
Le test de Wilcoxon pour données appariées
� On dispose de n différences en valeur absolue
� On ordonne par ordre croissant et on calcule les rangs
� Soit Wx la somme des rangs des différences positives
Sous H0 : les distributions sont identiques, on peut calculer E(Wx) et V(Wx)
( 1)( )
4
n nE Wx
+=( 1)(2 1)
( )24
n n nV Wx
+ +=et
Si n > 10, alors suit une loi N(0,1)( )
( )
Wx E WxZ
V Wx
−=
(Formules valides sans ex-aequo)
Biostatistiques : Petits effectifs 20/09/2012
Exemple
10 vins notés par 2 experts
Différence de notation ?
1) Normalité ?
OUI : D suit une loi normale
2) Utilisation du T apparié
md=9
σd=7.90
n=10
t=3.60
ddl=9
p=0.0057 Très significatif !
Num X1 X2 D Ri1 62 79 17 92 73 69 -4 13 66 84 18 104 69 83 14 75 61 72 11 56 69 71 2 37 64 62 -2 28 76 83 7 49 61 73 12 610 65 80 15 8
Moyenne 66.6 75.6 9
Biostatistiques : Petits effectifs 20/09/2012
Exemple
Si la loi n’avait pas été normale , utilisation de tests non paramétriques
1) Test des signes : K=2 différences négatives - K suit une B(10,1/2)
2) Wilcoxon apparié : Wx=50.5 (sommes des rangs des diff >0)
( 1)( ) 27.5
4
n nE Wx
+= = ( 1)(2 1) 10*11*21( ) 96.25
24 24
n n nV Wx
+ += = =
( ) 50.5 27.52.3444
( ) 96.25
Wx E WxZ
V Wx
− −= = = p=0.019
( )2
10
100
0.5 0.0547 en unilatéral, 0.109 en bilatéralk
k
p C=
= =∑ NS !!
?
Biostatistiques : Petits effectifs 20/09/2012
3 mesures ou plus
� Problématique : même paramètre X mesuré k fois sur le même individu : Test de plusieurs traitements / Mesures répétées dans le temps.
� Plusieurs méthodes possibles
Cas 1 : X suit une loi normale Paramétrique Modèle linéaire
Cas 2 : X ne suit pas une loi normale
Test non paramétriques
Test de Friedman
Biostatistiques : Petits effectifs 20/09/2012
Le test de Friedman
� Un échantillon de n individus, k mesures répétées
� On calcule le rang de chaque variable pour chaque individu
� Test basé sur la dispersion des rangs moyens de chaque mesure
2
1
12 1
( 1) 2
k
i
i
n kQ R
k k =
+ = − + ∑
Q suit une loi de Khi² à k-1 ddl
(Formule valide sans ex-aequo)
Biostatistiques : Petits effectifs 20/09/2012
Exemple
Obs X1 X2 X31 7.7 7 5.12 9.2 8.3 7.93 5.5 4.8 5.34 8.8 8.1 7.75 8.3 7.2 5.56 7.9 7.5 5.37 7.2 7.1 4.98 8.5 7.3 89 9.4 8.4 8
10 8.9 8.2 7.9
8.14 7.39 6.56
10 souris – Hormone mesurée à M0, M6, M12Obs R1 R2 R3
1 3 2 12 3 2 13 3 1 24 3 2 15 3 2 16 3 2 17 3 2 18 3 1 29 3 2 1
10 3 2 1
3 1.8 1.2
Rangs
Q=16.8 – Suit un Khi² à 2 ddl – p=0.0002245Très significatif !!
Problème des tests post-hocs : pas simple !!!
Alternative : Wilcoxon appariés 2 à 2 avec correction du risque α
Biostatistiques : Petits effectifs 20/09/2012
Associations entre paramètres
Biostatistiques : Petits effectifs 20/09/2012
Le coefficient de Corrélation : Introduction
EXEMPLES :� Rapport entre la taille et le poids
� Rapport entre un prix de vente et une superficie
� Interaction entre des paramètres biologiques
� etc ...
Utilisé pour étudier la liaison (ou l’indépendance) entre 2 paramètres numériques.
On considère donc un couple de variables (X,Y)
N couples (Xi,Yi) , réalisations du couple de variables aléatoires (X,Y)
Biostatistiques : Petits effectifs 20/09/2012
Le coefficient théorique
REMARQUES :
� ρ est toujours compris entre -1 et 1
� Si X et Y sont indépendantes, alors E(XY)=E(X)E(Y) et donc ρ = 0
� S‘il existe une relation fonctionnelle du type Y=aX+b entre X et Y, alors |ρ| = 1
Soit (X,Y) un couple de variables aléatoires
Le coefficient de corrélation linéaire entre X et Y est défini par :
2 2 2 2
COV(X,Y) E(XY)-E(X)E(Y)
X Y X Y
ρσ σ σ σ
= =
Biostatistiques : Petits effectifs 20/09/2012
1(xi-x)(yi-y)
n 1 12 21 2 2 et (xi-x) (yi-y) avec n n1 1x y
n
n nr S Sx yS S
∑
= = =∑ ∑
� De même que pour le coefficient théorique :� r est compris entre -1 et 1
� r = 0 : pas de liaison
� r proche de 1 : liaison fonctionnelle
� ATTENTION : absence de liaison n’est pas équivalent à indépendance
On dispose d ’un échantillon de taille N (N>30)(X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn)
On définit le coefficient de corrélation de BRAVAIS-PEARSON par :
Le coefficient observé
Biostatistiques : Petits effectifs 20/09/2012
Du bon usage de r !!!
� r mesure le caractère LINEAIREd’une liaison
� Usage réservé à des nuages de points où les points sont répartis de part et
d’autre d’une tendance
� R est très sensible aux individus extrêmes.
� Attention aux valeurs aberrantes.
� Utilité de la représentation graphique.
Biostatistiques : Petits effectifs 20/09/2012
Le coefficient de corrélation de Spearman
� Soient (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn),
� (R1,...,Ri,...Rn) et (S1,...,Si,...Sn) les rangs associés.
� Le coefficient de corrélation de Spearman calculé entre (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn) est égal au coefficient de corrélation de Pearson calculé entre (R1,...,Ri,...Rn) et (S1,...,Si,...Sn).
� Utilisé en non paramétrique si N<30
Biostatistiques : Petits effectifs 20/09/2012
Exemple
0
20
40
60
80
100
120
140
0 5 10 15 20 25 30 35 40 45 50
X
Y
2 paramètres numériques mesurés chez 10 patients
Mesure de l’association : calcul du coefficient de Spearman
R=0.973 p<0.0001
Biostatistiques : Petits effectifs 20/09/2012
Des questions ???
Patrick Devos – Délégation à la Recherche - [email protected]
Alain Duhamel – Pôle de Santé Publique - [email protected]
Possibilité de RDV le Mardi AM ou Jeudi AM (ou autre si nécessaire)
Mme Brigitte Bonneau
Pôle de Santé Publique
03 – 20 – 44 – 55 – 18
Contact :
Julia Salleron – Pôle de Santé Publique – [email protected]