Statistique descriptive univariée Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins [email protected]
Statistique descriptive univariée
Michaël Genin
Université de Lille 2EA 2694 - Santé Publique : Epidémiologie et Qualité des soins
Plan
1 Introduction
2 Variables qualitatives nominales
3 Variables qualitatives ordinales
4 Variables quantitatives discrètes
5 Variables quantitatives continues
6 Cas particulier
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 1 / 52
Plan
1 Introduction
2 Variables qualitatives nominales
3 Variables qualitatives ordinales
4 Variables quantitatives discrètes
5 Variables quantitatives continues
6 Cas particulier
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 1 / 52
Plan
1 Introduction
2 Variables qualitatives nominales
3 Variables qualitatives ordinales
4 Variables quantitatives discrètes
5 Variables quantitatives continues
6 Cas particulier
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 1 / 52
Plan
1 Introduction
2 Variables qualitatives nominales
3 Variables qualitatives ordinales
4 Variables quantitatives discrètes
5 Variables quantitatives continues
6 Cas particulier
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 1 / 52
Plan
1 Introduction
2 Variables qualitatives nominales
3 Variables qualitatives ordinales
4 Variables quantitatives discrètes
5 Variables quantitatives continues
6 Cas particulier
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 1 / 52
Plan
1 Introduction
2 Variables qualitatives nominales
3 Variables qualitatives ordinales
4 Variables quantitatives discrètes
5 Variables quantitatives continues
6 Cas particulier
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 1 / 52
Introduction
Point étudié
1 Introduction
2 Variables qualitatives nominales
3 Variables qualitatives ordinales
4 Variables quantitatives discrètes
5 Variables quantitatives continues
6 Cas particulier
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 2 / 52
Introduction
Objectif de la séance : analyse statistique univariée d’un échantillon statistique :caractérisation des variables par des paramètres statistiques qui dépendent de leurtype (qualitatif ou quantitatif)représentations graphiques (qui dépendent également du type)
Rappel : plan classique d’une étude1 Recueil et mise en forme des données ← étudié pendant le CM1
2 AnalyseDescription univariée□ dans l’échantillon ← aujourd’hui□ estimation□ intervalle de confiance
Analyse statistique inférentielle
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 3 / 52
Introduction
Rappels
CM2 : Analyse statistique descriptive
I. Introduction
Rappel : population / echantillon
Population : ensemble de referenceIndividu : chaque element de cet ensembleEchantillon : ensemble d’individus representatifs d’une population
4 / 44
Population : ensemble de référenceIndividu : chaque élément de cet ensembleEchantillon : ensemble d’individus représentatifs d’une population
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 4 / 52
Introduction
Chaque individu est décrit par un ou plusieurs caractères, appelés aussi variables.
Modalités- différentes situations possibles de la variable- à la fois incompatibles et exhaustives
Chaque individu présente une et une seule modalité de la variable
Différents types de variables :- variables qualitatives
◦ nominale (modalités non ordonnées)◦ ordinale (modalités ordonnées)
- variables quantitatives◦ discrète◦ continue
- variables binaires- dates
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 5 / 52
Introduction
Variable qualitative = variable non mesurableEx 1 : la couleur des yeux (qualitative nominale)les différentes couleurs sont les modalités de cette variable qualitativeEx 2 : le niveau de scolarité "maternelle", "élémentaire", "collège" et "lycée"(qualitative ordinale)
Variable quantitative = variable mesurablepossibilité de sommer, de calculer une moyenne, etc.Ex 1 : la taille (quantitatif continu)Ex 2 : le nombre d’enfants (quantitatif discret)cas particulier du résultat obtenu avec une EVA réelle
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 6 / 52
Introduction
Pour chaque type de variables :a. définitionb. présentation des donnéesc. représentation graphiqued. calcul de paramètres sur l’échantillon à analyser
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 7 / 52
Variables qualitatives nominales
Point étudié
1 Introduction
2 Variables qualitatives nominales
3 Variables qualitatives ordinales
4 Variables quantitatives discrètes
5 Variables quantitatives continues
6 Cas particulier
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 8 / 52
Variables qualitatives nominales
Définition
variable non quantifiable décrivant une qualité d’un individu à l’aide de k modalitésmutuellement exclusiveson parle aussi de variable qualitative non-ordonnéeEx : la couleur des cheveux
CM2 : Analyse statistique descriptive
II. Variables qualitatives non ordonnees
II. Variables qualitatives non ordonnees
a. definition
§ variable non quantifiable decrivant une qualite d’un individu a l’aide de kmodalites mutuellement exclusives
§ on parle aussi de variable nominale
§ Ex : la couleur des cheveux
8 / 44
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 9 / 52
Variables qualitatives nominales
Présentation des données
Tableau statistiqueune ligne pour chacune des k modalités (i de 1 à k)
Modalité Effectif Fréquence· · · · · · · · ·xi ni fi = ni /N
· · · · · · · · ·Σ = N Σ = 1
Exemple : Dresser le tableau statistique correspondant à la couleur des cheveux
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 10 / 52
Variables qualitatives nominales
Présentation des données
Tableau statistiqueune ligne pour chacune des k modalités (i de 1 à k)
Modalité Effectif Fréquence· · · · · · · · ·xi ni fi = ni /N
· · · · · · · · ·Σ = N Σ = 1
Exemple : Dresser le tableau statistique correspondant à la couleur des cheveux
Modalité Effectif FréquenceBruns 25 0.50Blonds 18 0.36Blancs 7 0.14
Σ = 50 Σ = 1
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 11 / 52
Variables qualitatives nominales
Représentation graphique
- Diagramme en secteur (= camembert)Modalité → portion d’aire proportionnelle à
sa fréqence fi
son effectif ni
l’angle au centre (en degrés : α = 360× fi)la surface du secteur
CM2 : Analyse statistique descriptive
II. Variables qualitatives non ordonnees
II. c. representation graphique
- Diagramme en secteur (= camembert)Modalite Ñ portion d’aire proportionnelle a
§ sa freqence fi
§ son e↵ectif ni
§ l’angle au centre (en degres : ↵ “ 360 ˆ fi )
§ la surface du secteur
- Diagramme en barres des e↵ectifs (= a batons) (details a la section suivante)
11 / 44
- Diagramme en barres des effectifs (= à batons) (détails à la section suivante)
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 12 / 52
Variables qualitatives nominales
Calcul de paramètres
Un seul paramètre : le mode
Mode = modalité ayantle plus grand effectifla fréquence relative la plus élevée
Modalité Effectif FréquenceBruns 25 0.50Blonds 18 0.36Blancs 7 0.14
Σ = 50 Σ = 1
Sur notre exemple, le mode est "Bruns".
Remarques : le mode estsimple à calculersignification concrètedéfini pour tous les types de variables
MAIS il n’est pas nécessairement unique.
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 13 / 52
Variables qualitatives ordinales
Point étudié
1 Introduction
2 Variables qualitatives nominales
3 Variables qualitatives ordinales
4 Variables quantitatives discrètes
5 Variables quantitatives continues
6 Cas particulier
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 14 / 52
Variables qualitatives ordinales
Définition
= variables qualitatives ordonnéesles modalités ont un ordreEx
Variable ModalitésBrevet
BacDiplôme Licence
MasterDoctorat
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 15 / 52
Variables qualitatives ordinales
Présentation des données
Tableau statistique similaire à celui des variables nominales MAIStrier les lignes par xi croissantsajouter les effectifs cumulés et fréquences cumulées
Exercice : On interroge 50 personnes sur leur dernier diplôme obtenu (Sans diplôme,Primaire, Secondaire, Supérieur non universitaire, Universitaire). On a obtenu la sériestatistique suivante
Y Sd Sd Sd Sd P P P P P PP P P P P Se Se Se Se SeSe Se Se Se Se Se Se Se Se SuSu Su Su Su Su Su Su Su U UU U U U U U U U U U
Consigne : construire le tableau statistique correspondant à cette série.
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 16 / 52
Variables qualitatives ordinales
Présentation des données
EX : Le tableau statistique complet correspondant est
Modalité Effectif Effectif cumulé Fréquence Fréquence cumuléeSd 4 4 0.08 0.08P 11 15 0.22 0.30Se 14 29 0.28 0.58Su 9 38 0.18 0.76U 12 50 0.24 1.00
Σ = 50 Σ = 1
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 17 / 52
Variables qualitatives ordinales
Représentation graphique
- Diagramme en secteur (voir section précédente)- Diagramme en barres des effectifs (ou fréquence)
CM2 : Analyse statistique descriptive
III. Variables qualitatives ordonnees
c. representation graphique- Diagramme en secteur (voir section precedente)
- Diagramme en barres des e↵ectifs (ou frequence)
- Diagramme en barres des e↵ectifs cumules (ou frequence cumulee)
16 / 44
- Diagramme en barres des effectifs cumulés (ou fréquence cumulée)
CM2 : Analyse statistique descriptive
III. Variables qualitatives ordonnees
c. representation graphique- Diagramme en secteur (voir section precedente)
- Diagramme en barres des e↵ectifs (ou frequence)
- Diagramme en barres des e↵ectifs cumules (ou frequence cumulee)
16 / 44
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 18 / 52
Variables qualitatives ordinales
Calcul de paramètres
Médianevaleur de la variable qui partage en deux effectifs égauxles individus de la pop. supposés rangés par valeur croissante des modalités.s’applique aux variables admettant une relation d’ordre
Quelle est la médiane de l’exemple ?
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 19 / 52
Variables qualitatives ordinales
Calcul de paramètres
Médianevaleur de la variable qui partage en deux effectifs égauxles individus de la pop. supposés rangés par valeur croissante des modalités.s’applique aux variables admettant une relation d’ordre
Sur notre exemple, médiane = Sesi on dispose du diag. des freq. cum., la médiane correspond à la première barre traversée parl’horizontale tracée à 50%
CM2 : Analyse statistique descriptive
III. Variables qualitatives ordonnees
d. calcul de parametresMediane
§ valeur de la variable qui partage en deux e↵ectifs egauxles individus de la pop. supposes ranges par valeur croissante des modalites.
§ s’applique aux variables admettant une relation d’ordre
Sur notre exemple, mediane = Sesi on dispose du diag. des freq. cum., la mediane correspond a la premiere barre traversee
par l’horizontale tracee a 50%
18 / 44
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 20 / 52
Variables qualitatives ordinales
Calcul de paramètres
Mode (voir section précédente)Sur notre exemple, mode = ?
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 21 / 52
Variables qualitatives ordinales
Calcul de paramètres
Mode (voir section précédente)Sur notre exemple, mode = Se
Modalité Effectif Effectif cumulé Fréquence Fréquence cumuléeSd 4 4 0.08 0.08P 11 15 0.22 0.30Se 14 29 0.28 0.58Su 9 38 0.18 0.76U 12 50 0.24 1.00
Σ = 50 Σ = 1
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 22 / 52
Variables quantitatives discrètes
Point étudié
1 Introduction
2 Variables qualitatives nominales
3 Variables qualitatives ordinales
4 Variables quantitatives discrètes
5 Variables quantitatives continues
6 Cas particulier
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 23 / 52
Variables quantitatives discrètes
Définition
variable numérique ne pouvant prendre qu’un nombre fini de valeursrelation d’ordresouvent issues d’un décompteen pratique : nombreux ex-aequoEx 1 : nombre d’enfants d’une familleEx 2 : nombre de rechutes d’une maladie
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 24 / 52
Variables quantitatives discrètes
Présentation des données
Tableau statistiqueune ligne pour chacune de k valeurs différentes triées de X (i de 1 à k)
Valeur Effectif Effectif cumulé Fréquence Fréquence cumulée· · · · · · · · · · · · · · ·xi ni Ni =
∑ij=1 nj fi = ni /N Fi =
∑ij=1 fj
· · · · · · · · · · · · · · ·xk nk N fk 1
Σ = N Σ = 1
Ex : Série du nombre de personnes formant le ménage :1 - 6 - 2 - 3 - 3 - 1 - 4 - 1 - 2 - 4 - 2 - 3 - 1 - 1 - 3 - 2 - 4 - 1 - 4 - 1
Série triée du nombre de personnes formant le ménage :1 - 1 - 1 - 1 - 1 - 1 - 1 - 1 - 2 - 2 - 2 - 3 - 3 - 3 - 3 - 4 - 4 - 4 - 4 - 6
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 25 / 52
Variables quantitatives discrètes
Présentation des données
Tableau statistique correspondant à la composition du ménage :
Valeur Effectif Effectif cumulé Fréquence Fréquence cumulée
Σ = Σ =
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 26 / 52
Variables quantitatives discrètes
Présentation des données
Tableau statistique correspondant à la composition du ménage :
Modalité Effectif Effectif cumulé Fréquence Fréquence cumulée1 8 8 0.40 0.402 3 11 0.15 0.553 4 15 0.20 0.754 4 19 0.20 0.956 1 20 0.05 1.00
Σ = 20 Σ = 1
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 27 / 52
Variables quantitatives discrètes
Représentation graphique
- Diagramme en barres des effectifs (ou fréquence)- Diagramme en barres des effectifs cumulés (ou fréquence cumulée)
CM2 : Analyse statistique descriptive
IV. Variables quantitatives discretes
c. representation graphique- Diagramme en barres des e↵ectifs (ou frequence)- Diagramme en barres des e↵ectifs cumules (ou frequence cumulee)
25 / 44
CM2 : Analyse statistique descriptive
IV. Variables quantitatives discretes
c. representation graphique- Diagramme en barres des e↵ectifs (ou frequence)- Diagramme en barres des e↵ectifs cumules (ou frequence cumulee)
25 / 44
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 28 / 52
Variables quantitatives discrètes
Calcul de paramètres
Minimum : valeur la moins élevée de la sérieSur notre exemple, min = ??
Maximum : valeur la plus élevée de la sérieSur notre exemple, max = ??
Etendue : différence entre maximum et minimumSur notre exemple, Etendue = ??
Mode (vu précédemment)Sur notre exemple, Mode = ??
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 29 / 52
Variables quantitatives discrètes
Calcul de paramètres
Minimum : valeur la moins élevée de la sérieSur notre exemple, min = 1
Maximum : valeur la plus élevée de la sérieSur notre exemple, max = 6
Etendue : différence entre maximum et minimumSur notre exemple, Etendue = 6 - 1 = 5
Mode (vu précédemment)Sur notre exemple, Mode = 1
Mediane, quantiles (cf. ci-après)
Moyenne (cf. ci-après)
Variance et écart-type (cf. ci-après)
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 30 / 52
Variables quantitatives discrètes
Calcul de paramètres - Médiane
valeur seuil qui partage l’échantillon en 2 sous-groupes d’effectif identiqueSi N impair : soit N=2p +1, médiane = xp+1Si N pair : soit N=2p, médiane = (xp + xp+1)/2
robuste aux valeurs extrêmes
Déterminer la médiane de l’exemple précédent.
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 31 / 52
Variables quantitatives discrètes
Calcul de paramètres - Médiane
valeur seuil qui partage l’échantillon en 2 sous-groupes d’effectif identiqueSi N impair : soit N=2p +1, médiane = xp+1Si N pair : soit N=2p, médiane = (xp + xp+1)/2
robuste aux valeurs extrêmes
Exemple :xi : 1 - 1 - 1 - 1 - 1 - 1 - 1 - 1 - 2 - 2 - 2 - 3 - 3 - 3 - 3 - 4 - 4 - 4 - 4 - 6N = 20 → série paire.On a N = 2× 10, donc médiane = (x10 + x11)/2x10 = 2 et x11 = 2, d’o médiane = (2 + 2)/2 = 2
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 32 / 52
Variables quantitatives discrètes
Calcul de paramètres - Médiane
Graphiquement :
CM2 : Analyse statistique descriptive
IV. Variables quantitatives discretes
Graphiquement :
Interpretations :
§ au moins la moitie des menages interroges sont composes de 2 personnes oumoins
§ au moins la moitie des menages interroges sont composes de 2 personnes ouplus
30 / 44
Interprétations :au moins la moitié des ménages interrogés sont composés de 2 personnes ou moinsau moins la moitié des ménages interrogés sont composés de 2 personnes ou plus
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 33 / 52
Variables quantitatives discrètes
Calcul de paramètres - Quantiles
Quantiles = valeurs qui divisent une série statistique ordonnée en plusieurs groupescomprenant la même proportion d’individus.
Les quantiles les plus connus sont les :
quartiles (Q1, Q2, Q3)- 3 valeurs qui partagent l’échantillon en 4 sous-groupes d’effectif identique- chaque sous-groupe comprend 25% des données de la série- Distance inter-quartile = Q3 − Q1- Interprétation : 75% des données sont inférieures à Q3
déciles (D1, . . . , D9)- 9 valeurs qui partagent l’échantillon en 10 sous-groupes d’effectif identique
centiles ou percentiles (C1, . . . , C99)- 99 valeurs qui partagent l’échantillon en 100 sous-groupes d’effectif identique
Remarque : médiane = Q2 = D5 = C50
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 34 / 52
Variables quantitatives discrètes
Calcul de paramètres - Moyenne
La moyenne arithmétique
x =k∑
i=1
xi × fi
x = 1n
n∑i=1
xi
Contrairement à la médiane, la moyenne est sensible aux valeurs extrêmes
Exemple :x = 1× 0.40 + 2× 0.15 + 3× 0.20 + 4× 0.20 + 6× 0.05x = 2.4120 × (1 + 6 + 2 + 3 + 3 + 1 + 4 + 1 + 2 + 4 + 2 + 3 + 1 + 1 + 3 + 2 + 4 + 1 + 4 + 1)x = 2.45
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 35 / 52
Variables quantitatives discrètes
Calcul de paramètres : variance et écart-type
Variance sur un échantillon (estimateur biaisé)
s2ech =
k∑i=1
(xi − x)2 × fi
ou
s2ech =
k∑i=1
(x2i × fi)− x2
Variance sur un échantillon (estimateur NON biaisé)
S2 = s2ech
NN − 1
Ecart-type (biaisé et non biaisé)
sech =√
s2ech s = sech
√N
N − 1
Déterminer la variance et l’écart-type de notre exemple
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 36 / 52
Variables quantitatives discrètes
Calcul de paramètres - Variance et écart-type
Variance sur un échantillon (estimateur biaisé)
s2ech =
k∑i=1
(xi − x)2 × fi
(1− 2.4)2 × 0.40 + · · ·+ (6− 2.4)2 × 0.05 = 2.04ou
s2ech =
k∑i=1
(x2i × fi)− x2
((12 × 0.40) + · · ·+ (62 × 0.05)
)− 2.42 = 2.04
Variance sur un échantillon (estimateur NON biaisé)
S2 = s2ech
NN − 1 2.04× 20
19 ≈ 2.15
Ecart-type (biaisé et non biaisé)
sech =√
s2ech
√2.04 ≈ 1.43 s = sech
√N
N − 1 1.43×√
2019 ≈ 1.46
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 37 / 52
Variables quantitatives continues
Point étudié
1 Introduction
2 Variables qualitatives nominales
3 Variables qualitatives ordinales
4 Variables quantitatives discrètes
5 Variables quantitatives continues
6 Cas particulier
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 38 / 52
Variables quantitatives continues
Définition
variable numérique pouvant prendre un nombre infini de valeursen théorie, aucun ex-aequo (sauf arrondi)Ex : taille d’un individu, poids d’un individu
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 39 / 52
Variables quantitatives continues
Présentation des données
Discrétisation : constructions de classes jointives et mutuellement exclusives
on regroupe les valeurs des modalités en classeset on définit de la même manière que précédemment les effectifs et fréquencesrelatives
Tableau statistiqueune ligne pour chacune des k classes triées de X (i de 1 à k)
Classe de X Centre de classe ni Ni fi Fi
· · · · · ·[Zi ; Zi+1[ Ci = (Zi + Zi+1)/2
· · · · · ·
Z = valeurs des débuts de classesi = numéro de la classe
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 40 / 52
Variables quantitatives continues
Présentation des données
Ex : Voici les 20 réponses qui contiennent la taille des individus1.47 - 1.48 - 1.53 - 1.54 - 1.54 - 1.55 - 1.56 - 1.57 - 1.58 - 1.59 - 1.60 - 1.64 - 1.65 -1.67 - 1.67 - 1.67 - 1.73 - 1.78 - 1.79 - 1.86
Classe de X Centre ni Ni fi Fi
[1.40; 1.50[[1.50; 1.60[[1.60; 1.70[[1.70; 1.80[[1.80; 1.90[
Remarque : la largeur des classes peut être différente que celle affichée et les résultatspourront donc varier
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 41 / 52
Variables quantitatives continues
Présentation des données
Ex : Voici les 20 réponses qui contiennent la taille des individus1.47 - 1.48 - 1.53 - 1.54 - 1.54 - 1.55 - 1.56 - 1.57 - 1.58 - 1.59 - 1.60 - 1.64 - 1.65 -1.67 - 1.67 - 1.67 - 1.73 - 1.78 - 1.79 - 1.86
Classe de X Centre ni Ni fi Fi
[1.40; 1.50[ 1.45 2 2 0.10 0.10[1.50; 1.60[ 1.55 8 10 0.40 0.50[1.60; 1.70[ 1.65 6 16 0.30 0.80[1.70; 1.80[ 1.75 3 19 0.15 0.95[1.80; 1.90[ 1.85 1 20 0.05 1.00
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 42 / 52
Variables quantitatives continues
Présentation des données
L’intervalle de classe, également appelé amplitude, est la différence entre la bornesupérieure et la borne inférieure.
En règle générale, on choisit des classes de même amplitude.
Si l’amplitude n’est pas constante, il faut calculer la densité de fréquence :
di = fi
amplitudei
La densité de fréquence permet de comparer les fréquences d’une classe à l’autre.
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 43 / 52
Variables quantitatives continues
ExempleTailles des individus en cm :
Classe Centre ni fi di Ni Fi[140− 160[ 10[160− 165[ 20[165− 170[ 30[170− 175[ 172.5 45 0,225 0,045 105 0,525[175− 180[ 40 145 0,725[180− 185[ 35 180 0,9[185− 190[ 15 0,075 0,015[190− 200[ 5 0,025 0,0025
Compléter le tableau
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 44 / 52
Variables quantitatives continues
ExempleTailles des individus en cm :
Classe Centre ni fi di Ni Fi[140− 160[ 150 10 0,05 0,0025 10 0,05[160− 165[ 162,5 20 0,1 0,02 30 0,15[165− 170[ 167,5 30 0,15 0,03 60 0,3[170− 175[ 172,5 45 0,225 0,045 105 0,525[175− 180[ 177,5 40 0,2 0,04 145 0,725[180− 185[ 182,5 35 0,175 0,035 180 0,9[185− 190[ 187,5 15 0,075 0,015 195 0,975[190− 200[ 195 5 0,025 0,0025 200 1
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 45 / 52
Variables quantitatives continues
Représentation graphique
Histogramme en fréquence
CM2 : Analyse statistique descriptive
V. Variables quantitatives continues
c. representation graphique
Histogramme en frequence
Histogramme en e↵ectif
Diagramme des frequences cumulees
40 / 44
Principe :
Découpage de la variable quantitative en classesL’aire de chaque rectangle est proportionnelle à l’effectifde la classeSi amplitudes égales : hauteur du rectangle égale àl’effectif (ou fréquence) de la classeSi amplitudes non égales : hauteur du rectangle égale àla densité d’effectif (ou de fréquence)Représentation sous forme d’histogramme pour avoirune idée de la distribution des données
Histogramme en effectif
Diagramme des fréquences cumulées
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 46 / 52
Variables quantitatives continues
Représentation graphique
Boîte à moustache (boxplot)
→ Données détaillées
1.5
1.6
1.7
1.8
Répartition de la taille des individus
Taill
e (m
)
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 47 / 52
Variables quantitatives continues
Représentation graphique
Boîte à moustache (boxplot)
→ Données détaillées
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 48 / 52
Variables quantitatives continues
Calcul de paramètres
En pratique, sur un échantillon,mêmes paramètres calculables que pour les variables discrètesMAIS en pratique le mode n’est pas calculableon identifiera plutôt une classe modale
Si données détaillées (tableau statistique sans ex-aequo = un individu par ligne) → onutilise les mêmes formules MAIS fi = 1
N pour tout i
Si données agrégées par classe→ on utilise les centres des classes Ci au lieu des xi→ on utilise les mêmes formules mais le calcul est approximatif
Exercice : Déterminer les paramètres de l’exemple.
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 49 / 52
Variables quantitatives continues
Calcul de paramètres
Ex :Classe modale : [1.50, 1.60[
Médiane : (1.59 + 1.60)/2 = 1.595
Moyenne : x = 1.45× 0.10 + 1.55× 0.40 + · · ·+ 1.85× 0.05 = 1.615ou (1.47 + 1.48 + 1.53 + · · ·+ 1.79 + 1.86)/20 ≈ 1.62
Variance : (1.452 × 0.10 + 1.552 × 0.40 + · · ·+ 1.852 × 0.05)− 1.6152 = 0.01
Ecart type :√
0.01 = 0.10
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 50 / 52
Cas particulier
Point étudié
1 Introduction
2 Variables qualitatives nominales
3 Variables qualitatives ordinales
4 Variables quantitatives discrètes
5 Variables quantitatives continues
6 Cas particulier
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 51 / 52
Cas particulier
Les variables binaires :cas particulier de variables qualitatives à 2 modalitésExemple : Sexe {F , H}est identique à : "est masculin ?" {0 ;1}on parle d’expérience de Bernouilli = expérience aléatoire comportant deux issuespossibles "succès" et "échec"selon les cas, utilisables comme des quantitatives ou comme des qualitatives
Id_patient Malade1 12 03 14 15 06 17 08 0
Variable qualitative→ calcul de la fréquence de maladie :f1 = 4/8 = 0.5
Variable quantitative→ calcul de la moyenne(1 + 1 + 1 + 1︸ ︷︷ ︸
Nb malades
+0 + 0 + 0 + 0)/8 = 0.5
Variables binaires 0/1
Fréquence = Moyenne
Michaël Genin (Université de Lille 2) Statistique descriptive univariée Version - 18 mai 2016 52 / 52