ESIEAPARIS 20092010 ExamenMAT5201DATAMINING Vendredi27Novembre2009 PremièrePartie:15minutes Enseignantresponsable:FrédéricBertrand Remarqueimportant:lesquestionsdecequestionnairesontposéesdanslecontexted’uncours deDATAMINING.Uneseuleréponseestbonneparquestion. 1. QuesignifieACP? a) AnalyseenComposantesPrincipales b) AnalysedesCorrespondancesPremières c) AnalysedesClassesPrimaires 2. QuesignifieGLM? a) GénéralisationdesLoisMultidimensionnelles b) GeneralizedLinearModel c) GestionLogistiquedesModèles 3. QuesignifieANOVA? a) AnalyseNormaliséeetOrientéedesVariablesAuxiliaires b) AssociationNationaleOrientéedesVentesetdesAssurances c) ANalysisOfVAriance 4. QuesignifieCRM? a) CentredeRechercheenMathématiques b) ClassificationdesRelationsMaximales c) CustomerRelationshipManagement 5. QuesignifieGRC? a) GroupedeRechercheenCryptographie b) GestiondelaRelationClient c) GeneralRegressionClassification 6. QuesignifieCART? a) ClassificationAndRegressionTree b) ClassementetAnalysedanslesRéseauxTéléphoniques c) ClassificationAscendantedesRégressionsetdesTests 7. QuesignifieSVM? a) SimplificationdesVariablesetdesModèles b) SegmentationdesVecteursetdesMéthodes c) SupportVectorMachines 8. LeDataMiningestilutileenCRM?Donnezunexempledeproblématiqueliéeàson utilisation. a) Non.…………………………………………………………………………… b) Oui.………………………………………………………………………..
24
Embed
ExamenMAT5201DATAMINING …irma.math.unistra.fr/.../DataMining_2011/Sujet_DM_20092010.pdf · Statistiques descriptives et corrélations des données brutes 3. Ajaccio Angers Angoulème
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
UE de cinquième année : MAT 5201 - Data MiningEnseignants Responsables : F. Bertrand
Chaque réponse devra être justifiée précisément. En annexe sont donnés le journal et la sortie d’untraitement avec le logiciel R.
Exercice :On dispose des précipitations mensuelles (en mm) (moyennes mensuelles calculées sur 30 ans) pour34 villes de France. Les villes choisies recouvrent à peu près uniformément le territoire français.Les données sont fournies dans le tableau 1.
1. Décrire le jeu de données (nombre d’individus, nombre de variables, nature des variables)2. Que pouvez-vous dire à partir des données centrées-réduites (tableau 3)?3. On veut effectuer une ACP sur ce jeu de données : quels sont les objectifs d’une telle analyse?4. Les variables ont été centrées et réduites avant l’analyse. La réduction était-elle indispen-
sable? Justifier.5. Les tableaux 5, 6, 7, 8 et 9 donnent les PRINCIPAUX résultats de l’ACP sur les variables et
les individus. Quelle est l’inertie expliquée par le premier axe de l’ACP? Et par le premierplan?
6. Quelles sont les villes qui contribuent le plus à la construction des deux premiers axes? Quesignifie une contribution importante?
7. La figure 4 donne le graphe des individus de l’ACP. La figure 5 donne le graphe des variables.Interpréter les facteurs principaux de l’ACP (à l’aide du graphe des individus et de celui desvariables).
8. À partir du cercle de corrélations, que pouvez-vous dire concernant les corrélations suivantesfévrier-mars, février-juin?
9. VRAI ou FAUX? Si FAUX, corriger la phrase proposée.– Une ville pluvieuse en juillet est également pluvieuse en octobre.– La variable janvier est bien représentée sur l’axe 1.– La ville de Vichy a joué le rôle le plus important dans la construction de l’axe 2.– La coordonnée d’une variable sur un axe est un indicateur de sa qualité de représentation
par l’axe.
1
Janv
ier
Fév
rier
Mar
sAv
ril
Mai
Juin
Juill
etA
oût
Sept
embr
eO
ctob
reN
ovem
bre
Déc
embr
eA
jacc
io78
6951
3943
2310
1543
8110
596
Ang
ers
6550
6045
5055
3560
5565
8070
Ang
oulè
me
7968
6462
7058
5366
6970
7988
Bes
anço
n94
8775
7486
107
8011
610
678
9293
Bia
rrit
z12
810
598
102
100
9169
123
155
152
175
176
Bor
deau
x10
084
6657
6471
5265
8884
9911
7B
rest
130
9889
7774
6051
8095
108
136
159
Cae
n65
6145
4453
5245
5766
7579
71C
lerm
ont-
Fd28
2730
4178
7948
7058
4339
30D
ijon
6248
5148
6879
4479
7453
6761
Em
brun
6155
5548
4763
4165
6060
8162
Gre
nobl
e80
7969
6983
9474
9688
8590
98Li
lle45
4338
3745
5762
6453
5656
56Li
mog
es87
7568
6972
7156
7387
7282
98Ly
on53
5060
5467
8455
104
8673
8062
Mar
seill
e36
4940
3538
3313
2765
6769
61M
ontp
ellie
r56
5969
4647
4120
5278
125
7073
Nan
cy66
5843
4562
7058
7665
5259
67N
ante
s83
6553
4854
5242
6680
7795
94N
ice
6783
7170
3937
2138
8310
915
892
Nîm
es52
5357
4550
4025
4075
100
8360
Orl
éans
5748
4346
5254
4754
5154
6154
Par
is53
4840
4553
5754
6154
5058
51Per
pign
an27
5259
4749
3327
2869
9770
71Poi
tier
s65
5856
4955
5546
5952
6178
68R
eim
s43
4442
3752
5347
5854
4352
50R
enne
s57
5045
4346
4836
5753
6073
66R
ouen
6558
5044
5057
4967
7072
6866
St-Q
uent
in52
5046
4452
6361
6967
5263
65St
rasb
ourg
5144
4258
7188
7390
6143
5147
Toul
on76
8682
6049
3512
3177
105
117
107
Toul
ouse
5350
5255
6565
4443
5749
5865
Tour
s63
5552
5153
5847
6060
5568
65V
ichy
5045
5152
8484
6386
7558
5855
Tab.
1–
Don
nées
brut
es
2
Janv
ier
Fév
rier
Mar
sAv
ril
Mai
Juin
Min
.:27
.00
Min
.:27
.00
Min
.:30
.00
Min
.:35
.00
Min
.:38
.00
Min
.:23
.01s
tQ
u.:5
2.25
1st
Qu.
:49.
251s
tQ
u.:4
5.00
1st
Qu.
:44.
251s
tQ
u.:4
9.25
1st
Qu.
:52.
0M
edia
n:6
2.50
Med
ian
:55.
00M
edia
n:5
2.50
Med
ian
:48.
00M
edia
n:5
3.00
Med
ian
:57.
5M
ean
:65.
50M
ean
:60.
41M
ean
:56.
24M
ean
:52.
53M
ean
:59.
44M
ean
:60.
83r
dQ
u.:7
7.50
3rd
Qu.
:68.
753r
dQ
u.:6
5.50
3rd
Qu.
:57.
753r
dQ
u.:6
9.50
3rd
Qu.
:71.
0M
ax.:
130.
00M
ax.:
105.
00M
ax.:
98.0
0M
ax.:
102.
00M
ax.:
100.
00M
ax.:
107.
0
Juill
etA
oût
Sept
embr
eO
ctob
reN
ovem
bre
Déc
embr
eM
in.:
10.0
0M
in.:
15.0
0M
in.:
43.0
0M
in.:
43.0
0M
in.:
39.0
0M
in.:
30.0
01s
tQ
u.:3
7.25
1st
Qu.
:54.
751s
tQ
u.:5
7.25
1st
Qu.
:54.
251s
tQ
u.:6
1.50
1st
Qu.
:61.
00M
edia
n:4
7.00
Med
ian
:64.
50M
edia
n:6
8.00
Med
ian
:68.
50M
edia
n:7
5.50
Med
ian
:66.
50M
ean
:45.
88M
ean
:64.
56M
ean
:71.
44M
ean
:73.
06M
ean
:80.
85M
ean
:76.
883r
dQ
u.:5
5.75
3rd
Qu.
:75.
253r
dQ
u.:7
9.50
3rd
Qu.
:83.
253r
dQ
u.:8
8.25
3rd
Qu.
:92.
75M
ax.:
80.0
0M
ax.:
123.
00M
ax.:
155.
00M
ax.:
152.
00M
ax.:
175.
00M
ax.:
176.
00
Janv
ier
Fév
rier
Mar
sAv
ril
Mai
Juin
Juill
etA
oût
Sept
embr
eO
ctob
reN
ovem
bre
Déc
embr
eJa
nvie
r1.
000.
900.
790.
780.
480.
280.
270.
430.
690.
560.
760.
92Fév
rier
0.90
1.00
0.89
0.82
0.34
0.11
0.07
0.25
0.75
0.75
0.88
0.94
Mar
s0.
790.
891.
000.
850.
410.
150.
030.
300.
800.
830.
830.
88Av
ril
0.78
0.82
0.85
1.00
0.70
0.49
0.40
0.58
0.86
0.62
0.75
0.80
Mai
0.48
0.34
0.41
0.70
1.00
0.86
0.73
0.82
0.65
0.14
0.18
0.39
Juin
0.28
0.11
0.15
0.49
0.86
1.00
0.89
0.93
0.48
-0.1
6-0
.06
0.10
Juill
et0.
270.
070.
030.
400.
730.
891.
000.
870.
34-0
.26
-0.1
40.
07A
oût
0.43
0.25
0.30
0.58
0.82
0.93
0.87
1.00
0.62
0.04
0.12
0.26
Sept
embr
e0.
690.
750.
800.
860.
650.
480.
340.
621.
000.
730.
700.
76O
ctob
re0.
560.
750.
830.
620.
14-0
.16
-0.2
60.
040.
731.
000.
820.
77N
ovem
bre
0.76
0.88
0.83
0.75
0.18
-0.0
6-0
.14
0.12
0.70
0.82
1.00
0.87
Déc
embr
e0.
920.
940.
880.
800.
390.
100.
070.
260.
760.
770.
871.
00
Tab.
2–
Stat
istiq
ues
desc
ript
ives
etco
rrél
atio
nsde
sdo
nnée
sbr
utes
3
AjaccioAngers
AngoulèmeBesançon
BiarritzBordeaux
BrestCaen
Clermont−FdDijon
EmbrunGrenoble
LilleLimoges
LyonMarseille
MontpellierNancy
NantesNice
NîmesOrléans
ParisPerpignan
PoitiersReims
RennesRouen
St−QuentinStrasbourg
ToulonToulouse
ToursVichy
Janvier
FévrierMarsAvril
Mai
Juin
Juillet
AoûtSeptembre Octobre
Novembre
Décembre
Fig. 1 – Pluviométrie par ville, données brutes
4
Janv
ier
Fév
rier
Mar
sAv
ril
Mai
Juin
Juill
etA
oût
Sept
embr
eO
ctob
reN
ovem
bre
Déc
embr
eA
jacc
io0.
540.
49-0
.35
-0.9
7-1
.10
-1.9
4-2
.02
-2.0
6-1
.38
0.31
0.82
0.64
Ang
ers
-0.0
2-0
.60
0.25
-0.5
4-0
.63
-0.3
0-0
.61
-0.1
9-0
.79
-0.3
2-0
.03
-0.2
3A
ngou
lèm
e0.
580.
430.
510.
680.
71-0
.14
0.40
0.06
-0.1
2-0
.12
-0.0
60.
37B
esan
çon
1.23
1.52
1.24
1.54
1.78
2.37
1.92
2.14
1.67
0.20
0.38
0.54
Bia
rrit
z2.
702.
552.
763.
552.
721.
551.
302.
434.
043.
133.
213.
32B
orde
aux
1.49
1.35
0.65
0.32
0.31
0.52
0.34
0.02
0.80
0.43
0.62
1.34
Bre
st2.
782.
152.
171.
760.
98-0
.04
0.29
0.64
1.14
1.38
1.88
2.75
Cae
n-0
.02
0.03
-0.7
4-0
.61
-0.4
3-0
.45
-0.0
5-0
.31
-0.2
60.
08-0
.06
-0.2
0C
lerm
ont-
Fd-1
.62
-1.9
1-1
.74
-0.8
31.
250.
930.
120.
23-0
.65
-1.1
9-1
.43
-1.5
7D
ijon
-0.1
5-0
.71
-0.3
5-0
.33
0.57
0.93
-0.1
10.
600.
12-0
.79
-0.4
7-0
.53
Em
brun
-0.1
9-0
.31
-0.0
8-0
.33
-0.8
30.
11-0
.28
0.02
-0.5
5-0
.52
0.01
-0.5
0G
reno
ble
0.63
1.06
0.84
1.18
1.58
1.70
1.58
1.31
0.80
0.47
0.31
0.71
Lille
-0.8
8-1
.00
-1.2
1-1
.12
-0.9
7-0
.19
0.91
-0.0
2-0
.89
-0.6
8-0
.85
-0.7
0Li
mog
es0.
930.
830.
781.
180.
840.
520.
570.
350.
75-0
.04
0.04
0.71
Lyon
-0.5
4-0
.60
0.25
0.11
0.51
1.19
0.51
1.64
0.70
-0.0
0-0
.03
-0.5
0M
arse
ille
-1.2
7-0
.65
-1.0
7-1
.26
-1.4
4-1
.43
-1.8
5-1
.56
-0.3
1-0
.24
-0.4
0-0
.53
Mon
tpel
lier
-0.4
1-0
.08
0.84
-0.4
7-0
.83
-1.0
2-1
.46
-0.5
20.
322.
06-0
.37
-0.1
3N
ancy
0.02
-0.1
4-0
.88
-0.5
40.
170.
470.
680.
48-0
.31
-0.8
3-0
.75
-0.3
3N
ante
s0.
750.
26-0
.21
-0.3
3-0
.37
-0.4
5-0
.22
0.06
0.41
0.16
0.48
0.57
Nic
e0.
061.
290.
981.
26-1
.37
-1.2
2-1
.40
-1.1
10.
561.
422.
630.
51N
îmes
-0.5
8-0
.42
0.05
-0.5
4-0
.63
-1.0
7-1
.18
-1.0
20.
171.
070.
07-0
.57
Orl
éans
-0.3
7-0
.71
-0.8
8-0
.47
-0.5
0-0
.35
0.06
-0.4
4-0
.99
-0.7
5-0
.68
-0.7
7Par
is-0
.54
-0.7
1-1
.07
-0.5
4-0
.43
-0.1
90.
46-0
.15
-0.8
4-0
.91
-0.7
8-0
.87
Per
pign
an-1
.66
-0.4
80.
18-0
.40
-0.7
0-1
.43
-1.0
6-1
.52
-0.1
20.
95-0
.37
-0.2
0Poi
tier
s-0
.02
-0.1
4-0
.02
-0.2
5-0
.30
-0.3
00.
01-0
.23
-0.9
4-0
.48
-0.1
0-0
.30
Rei
ms
-0.9
7-0
.94
-0.9
4-1
.12
-0.5
0-0
.40
0.06
-0.2
7-0
.84
-1.1
9-0
.98
-0.9
0R
enne
s-0
.37
-0.6
0-0
.74
-0.6
8-0
.90
-0.6
6-0
.56
-0.3
1-0
.89
-0.5
2-0
.27
-0.3
6R
ouen
-0.0
2-0
.14
-0.4
1-0
.61
-0.6
3-0
.19
0.18
0.10
-0.0
7-0
.04
-0.4
4-0
.36
St-Q
uent
in-0
.58
-0.6
0-0
.68
-0.6
1-0
.50
0.11
0.85
0.18
-0.2
1-0
.83
-0.6
1-0
.40
Stra
sbou
rg-0
.63
-0.9
4-0
.94
0.39
0.78
1.40
1.53
1.06
-0.5
0-1
.19
-1.0
2-1
.00
Toul
on0.
451.
461.
700.
54-0
.70
-1.3
2-1
.91
-1.4
00.
271.
261.
231.
01To
ulou
se-0
.54
-0.6
0-0
.28
0.18
0.37
0.22
-0.1
1-0
.90
-0.7
0-0
.95
-0.7
8-0
.40
Tour
s-0
.11
-0.3
1-0
.28
-0.1
1-0
.43
-0.1
40.
06-0
.19
-0.5
5-0
.72
-0.4
4-0
.40
Vic
hy-0
.67
-0.8
8-0
.35
-0.0
41.
651.
190.
960.
890.
17-0
.60
-0.7
8-0
.73
Tab.
3–
Don
nées
cent
rées
-réd
uite
s
5
Janv
ier
Fév
rier
Mar
sAv
ril
Mai
Juin
Min
.:-1
.660
e+00
Min
.:-1
.912
e+00
Min
.:-1
.736
e+00
Min
.:-1
.259
e+00
Min
.:-1
.439
e+00
Min
.:-1
.939
e+00
1st
Qu.
:-5.7
14e-
011s
tQ
u.:-6
.388
e-01
1st
Qu.
:-7.4
34e-
011s
tQ
u.:-5
.949
e-01
1st
Qu.
:-6.8
39e-
011s
tQ
u.:-4
.513
e-01
Med
ian
:-1.2
94e-
01M
edia
n:-3
.097
e-01
Med
ian
:-2.4
71e-
01M
edia
n:-3
.254
e-01
Med
ian
:-4.3
22e-
01M
edia
n:-1
.690
e-01
Mea
n:1
.530
e-17
Mea
n:-1
.133
e-16
Mea
n:4
.188
e-17
Mea
n:-1
.316
e-16
Mea
n:2
.245
e-16
Mea
n:-1
.245
e-16
3rd
Qu.
:5.1
75e-
013r
dQ
u.:4
.772
e-01
3rd
Qu.
:6.1
30e-
013r
dQ
u.:3
.751
e-01
3rd
Qu.
:6.7
50e-
013r
dQ
u.:5
.237
e-01
Max
.:2.
782e
+00
Max
.:2.
552e
+00
Max
.:2.
763e
+00
Max
.:3.
554e
+00
Max
.:2.
722e
+00
Max
.:2.
371e
+00
Juill
etA
oût
Sept
embr
eO
ctob
reN
ovem
bre
Déc
embr
eM
in.:
-2.0
21e+
00M
in.:
-2.0
63e+
00M
in.:
-1.3
75e+
00M
in.:
-1.1
90e+
00M
in.:
-1.4
29e+
00M
in.:
-1.5
72e+
001s
tQ
u.:-4
.863
e-01
1st
Qu.
:-4.0
84e-
011s
tQ
u.:-6
.861
e-01
1st
Qu.
:-7.4
48e-
011s
tQ
u.:-6
.607
e-01
1st
Qu.
:-5.3
24e-
01M
edia
n:6
.296
e-02
Med
ian
:-2.4
49e-
03M
edia
n:-1
.664
e-01
Med
ian
:-1.8
05e-
01M
edia
n:-1
.827
e-01
Med
ian
:-3.4
80e-
01M
ean
:-2.5
54e-
17M
ean
:-1.3
77e-
16M
ean
:1.5
88e-
16M
ean
:-1.3
48e-
16M
ean
:-2.0
84e-
16M
ean
:2.3
83e-
163r
dQ
u.:5
.559
e-01
3rd
Qu.
:4.4
51e-
013r
dQ
u.:3
.896
e-01
3rd
Qu.
:4.0
35e-
013r
dQ
u.:2
.525
e-01
3rd
Qu.
:5.3
19e-
01M
ax.:
1.92
2e+
00M
ax.:
2.43
3e+
00M
ax.:
4.04
0e+
00M
ax.:
3.12
6e+
00M
ax.:
3.21
4e+
00M
ax.:
3.32
2e+
00
Janv
ier
Fév
rier
Mar
sAv
ril
Mai
Juin
Juill
etA
oût
Sept
embr
eO
ctob
reN
ovem
bre
Déc
embr
eJa
nvie
r1.
000.
900.
790.
780.
480.
280.
270.
430.
690.
560.
760.
92Fév
rier
0.90
1.00
0.89
0.82
0.34
0.11
0.07
0.25
0.75
0.75
0.88
0.94
Mar
s0.
790.
891.
000.
850.
410.
150.
030.
300.
800.
830.
830.
88Av
ril
0.78
0.82
0.85
1.00
0.70
0.49
0.40
0.58
0.86
0.62
0.75
0.80
Mai
0.48
0.34
0.41
0.70
1.00
0.86
0.73
0.82
0.65
0.14
0.18
0.39
Juin
0.28
0.11
0.15
0.49
0.86
1.00
0.89
0.93
0.48
-0.1
6-0
.06
0.10
Juill
et0.
270.
070.
030.
400.
730.
891.
000.
870.
34-0
.26
-0.1
40.
07A
oût
0.43
0.25
0.30
0.58
0.82
0.93
0.87
1.00
0.62
0.04
0.12
0.26
Sept
embr
e0.
690.
750.
800.
860.
650.
480.
340.
621.
000.
730.
700.
76O
ctob
re0.
560.
750.
830.
620.
14-0
.16
-0.2
60.
040.
731.
000.
820.
77N
ovem
bre
0.76
0.88
0.83
0.75
0.18
-0.0
6-0
.14
0.12
0.70
0.82
1.00
0.87
Déc
embr
e0.
920.
940.
880.
800.
390.
100.
070.
260.
760.
770.
871.
00
Tab.
4–
Stat
istiq
ues
desc
ript
ives
etco
rrél
atio
nsde
sdo
nnée
sce
ntré
es-r
édui
tes
6
AjaccioAngers
AngoulèmeBesançon
BiarritzBordeaux
BrestCaen
Clermont−FdDijon
EmbrunGrenoble
LilleLimoges
LyonMarseille
MontpellierNancy
NantesNice
NîmesOrléans
ParisPerpignan
PoitiersReims
RennesRouen
St−QuentinStrasbourg
ToulonToulouse
ToursVichy
Janvier
FévrierMarsAvril
Mai
Juin
Juillet
AoûtSeptembre Octobre
Novembre
Décembre
Fig. 2 – Pluviométrie par ville, données centrées-réduites