REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L’ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE D’ORAN FACULTE DES SCIENCES DEPARTEMENT D’INFORMATIQUE MEMOIRE Présenté par : ABDICHE FETHI Pour obtenir LE DIPLOME DE MAGISTER Spécialité : Informatique Option : Informatique et automatique Intitulé : EXPLOITATION DES BASES DE DONNEES A REFERENCES SPATIALES POUR LA FOUILLE DE DONNEE : ADAPTATION ET EXPLOITATION DE LA MACHINE CELLULAIRE. Soutenu le : / / Devant le jury composé de : Pr. Beldjilali Bouziane Président (Professeur à l'Université d’Oran) Dr. Atmani Baghdad Rapporteur (Maître de conférences à l'Université d’Oran) Dr. Benamrane Nacera Examinatrice (Maître de conférences à l’USTMB d’Oran) Dr. Abdi Mustapha Kamel Examinateur (Maître de conférences à l'Université d’Oran) 2008/2009
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L’ENSEIGNEMENT SUPERIEUR
ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE D’ORAN
FACULTE DES SCIENCES DEPARTEMENT D’INFORMATIQUE
MEMOIRE
Présenté par :
ABDICHE FETHI
Pour obtenir LE DIPLOME DE MAGISTER
Spécialité : Informatique
Option : Informatique et automatique
Intitulé : EXPLOITATION DES BASES DE DONNEES A REFERENCES SPATIALES POUR
LA FOUILLE DE DONNEE : ADAPTATION ET EXPLOITATION DE LA MACHINE CELLULAIRE.
Soutenu le : / /
Devant le jury composé de :
Pr. Beldjilali Bouziane Président (Professeur à l'Université d’Oran)
Dr. Atmani Baghdad Rapporteur (Maître de conférences à l'Université d’Oran)
Dr. Benamrane Nacera Examinatrice (Maître de conférences à l’USTMB d’Oran)
Dr. Abdi Mustapha Kamel Examinateur (Maître de conférences à l'Université d’Oran)
2008/2009
Je dédie ce travail A: Toi mon Dieu Tout Puissant, pour ton amour, ta grâce et ton assistance sans fin. Je lève mes yeux vers toi et le secours me vient oh Eternel qui a fait les cieux et la terre. Mon Dieu tu es un bouclier pour moi, tu es ma gloire, celui qui relève ma tête. Mes parents, parce qu'il est impossible de trouver des qualificatifs et de mots à la hauteur de l'amour et le soutien que vous m’avez toujours témoigné. A mes frères Hocine, Zakaria, Karim et ma soeur Wahida et, ma Grand-mère Hadja Fatima, pour votre chère et solide affection. A mon directeur de thèse, Mr. ATMANI pour m’avoir orienté vers un sujet aussi intéressant et formateur, et son aide remarquable dans mon travail tout en me laissant un maximum de libertés et d'initiatives. A tous mes amis dont je ne saurais passer sous silence l'amour et l'affection qu'ils ne cessent de me faire preuve. A vous, qui êtes entrain de lire cette dédicace à cet instant-ci.
ABDICHE Fethi
Dédicace
Grâce à Dieu, j’ai terminé ce travail qui a été jugé difficilement réalisable dans un tel délai, mais comme je viens de dire, c’est le Dieu tout Puissant qui m’a facilité la tâche, soit par la force morale qui a été forgée dans mon esprit au cours de ces dernières années, soit par m’avoir récompensé après une longue attente, par un thème d’actualité. Au seuil de ce travail, j’ai l'obligation morale d'exprimer nos sentiments de gratitude et de profonds remerciements à tous ceux qui m’ont apporté leur aide tout au long de mes études et pendant la réalisation de ce travail, notamment : Mon directeur de thèse, Mr B. ATMANI pour la confiance qu’il à eu en moi, son aide, ces remarques rigoureuses qui visaient le perfectionnement de ce travail, sa patience en corrigeant ce mémoire mot par mot, je le remercie aussi pour ces orientations vers de futures perspectives.
J’adresse mes vifs remerciements au président de jury Mr B. BELDJILALI et les membres Melle N. BENAMRANE et Mr M.K ABDI pour leurs honorables présences. Je remercie aussi Mr Med. Ghézzene et Mr K. Kadaoui pour m’avoir facilité l’accès aux différents bureaux de la Direction de la Sureté d’Oran et m’avoir fournie les données nécessaires afin de pouvoir réaliser ce travail. J’aimerai également Remercier tous ceux qui ont eu la gentillesse de nous en consacré leurs temps, leurs savoir et leurs expériences :
Remerciement
A tous ceux qui n'ont pas vu leurs noms cités et qui m’ont toujours comblés de leurs animations, sentiments, amours et amitiés ; qu'ils trouvent ici l'expression de ma profonde gratitude.
Remerciement
Dédicace
Tables des matières
Liste des Figures
Liste des Tables
Glossaire
Introduction générale 1
Chapitre 1 : Fouille de données spatiales
1.1. Introduction 8
1.2. Définition 9
1.2.1. Les domaines d’applications de la fouille de données 9
1.2.1.1. La gestion de relation client 9
1.2.1.2. Les banques et attribution de crédits 10
1.2.1.3. La médecine et la biologie 10
1.2.1.4. Le world Wilde web 10
1.3 Extraction de la connaissance à partir des données à références spatiales 11
1.3.1. Définition de la fouille de données spatiales 11
1.3.2. Le processus de la fouille de données spatiales 11
1.3.2.1. L’identification du problème 13
1.3.2.2. La sélection des données 14
1.3.2.3. Le nettoyage des données 14
1.3.2.4. La transformation et réduction 14
1.3.2.5. La fouille de données 14
1.3.2.6. L’évaluation des résultats 15
1.4. Les outils de la fouille de données spatiales 15
1.4.1. Les méthodes à base de clustering des données spatiale 16
1.4.1.1. La méthode des K-moyennes 16
1.4.1.2 La méthode PAM (partitioning around medoïdes) 17
1.4.1.3 La méthode CLARA (Clustering LARge Applications) 19
1.4.1.4 La méthode CLARANS 20
Table des Matières
1.4.2 La méthode STING 21
1.4.3. Les règles d’associations 23
1.4.4. Hiérarchies et généralisation 24
1.4.5. Classification supervisée par arbres de décisions spatiales 26
1.5 Conclusion 27
Chapitre 2 : Apprentissage Artificielle par Graphe d’Induction
2.1. Introduction 32
2.2. Notations 33
2.3. Exemple illustratif 34
2.4. Définitions et Principe 38
2.4.1. Critère de segmentation 38
2.5. Les méthodes à base de graphe d’induction 41
2.5.1. Les méthodes ID3 et C4.5 41
2.5.1.1. La méthode ID3 (Induction Decision Tree) 41
2.5.1.2. La méthode C4.5 48
2.5.2. La méthode CART (Classification and regression Trees) 49
2.5.3. La méthode SIPINA (Système Interactif pour les processus d'Interrogation
Non Arborescents) 50
2.5.3.1. Passage de la partition À 51
2.5.3.2. Algorithme SIPINA 55
2.6. Conclusion 56
Chapitre 3 : Classification spatiale Guidée par CASI
3.1. Introduction 59
3.2. Travaux connexes 59
3.3. Problématiques 60
3.4. Primitives des relations spatiales 62
3.4.1. Les relations de voisinage 63
3.4.1.1. Les relations topologiques 63
3.4.1.2. Les relations de distance 63
3.4.1.3. Les relations de direction 63
3.5. La classification spatiale 65
3.5.1. Algorithme 66
3.5.2. Automate cellulaire pour des systèmes d’inférence CASI 66
3.5.2.1. Exemple d’apprentissage symbolique à partir de données à
références spatiales 66
3.5.2.2. Complexité théorique 87
3.6. Conclusion 88
Chapitre 4 : CGISS, un Système d'Information Géographique Cellulo-Symbolique
4.1. Introduction 93
4.2. Les Systèmes d’informations Géographiques 93
4.2.1. L’acquisition de l’information géographique 94
4.3. Les bases de données géographiques 96
4.3.1. Archivage de l’information géométrique 96
4.3.2. Unification de format de stockage des images vectorielles 96
4.4. Déroulement du processus d’extraction de connaissances à partir des
données à références spatiales 97
4.4.1. Sélection et préparation des couches thématiques 98
4.4.2. Analyse spatiale et extraction des relations de voisinage 100
4.4.3. Conception et implémentation 104
4.5. Expérimentation 106
4.5.1. Construction d’un graphe d’induction 107
4.5.2. Génération des règles conjonctives 109
4.6. Conclusion 110
Conclusion générale 113
Figure 1.1 : Processus d’extraction de connaissance à partir des données 13
Figure 1.2 : (a) configuration initiale, (b) les centres initiaux et affectation selon la distance
minimale (c) recalcule des centre (d) nouvelle affectation des points 17
Figure 1.3 : Algorithme des K-moyennes 17
Figure 1.4 : L’algorithme PAM 18
Figure 1.5 : L’Algorithme CLARA 20
Figure 1.6 : L’Algorithme CLARANS 21
Figure 1.7 : Exemple d’une hiérarchie de gilles STING à trois niveaux 22
Figure 1.8 : L’Algorithme de STING 23
Figure 1.9 : Hiérarchie et généralisation de concepts de partitionnement des types de productions
d’agriculture 25
Figure 1.10 : La méthode de généralisation spatiale 25
Figure 2.1 : Arbre de décision 36
Figure 2. 2 : Construction de , , , 44
Figure 2.3 : Construction de , 46
Figure 2.4 : Construction de , 47
Figure 2.5 : Sélection de la borne de discrétisation 49
Figure 2.6 : La partition courante 52
Figure 2.7 : Les partitions générées par le regroupement des pairs 52
Figure 2.8 : Regroupement-Éclatement du premier regroupement à l’aide de trois variables 53
Figure 2.9 : Regroupement-Éclatement du deuxième regroupement à l’aide de trois variables 53
Figure 2.10 : Regroupement-Éclatement du troisième regroupement à l’aide de trois variables 54
Figure 2.11 : Éclatement du premier sommet avec les trois variables 54
Figure 2.12 : Éclatement du premier sommet avec les trois variables 55
Figure 2.13 : Éclatement du premier sommet avec les trois variables 55
Figure 3.1 : L’analyse spatiale entre les différentes couches et construction de l’échantillon
d’apprentissage 60
Liste des Figures
Figure 3.2 : Analyse spatiale utilisant la technique du Buffering 62
Figure 3.3 : Les Régions pollués au tour d’une zone industrielle 63
Figure 3.4 : Les relations topologiques et de distance 64
Figure 3.5 : Arbre de décision spatial [Che, 02] 65
Figure 3.6 : Voisinage des objets spatiaux par rapport au lieu d’impact 67
Figure 3.7 : Diagramme général de notre système cellulaire CASI 70
Figure 3.8 : Construction de , , . 72
Figure 3.9 : Les partitions , , , …. 72
Figure 3.10 : (a) Base de connaissance, (b) Configuration initiale de l’automate cellulaire 75
Figure 3.11 : Les matrices d’incidence d’entrée RE et de sortie RS de l’automate 76
Figure 3.12 : Automate cellulaire pour des systèmes d’inférence 77
Figure 3.13 : Différents modes du chaînage avant 78
Figure 3.14 : Configuration abstenue après exécution de 79
Figure 3.15 : configuration = ∆( ) obtenue après exécution de ( ) et ( ) 79
Figure 3.16 : Configuration finale obtenue après deux itérations synchrones 80
Figure 3.17 : Initialisation de l’automate cellulaire 82
Figure 3.18 : Génération des règles conjonctives 84
Figure 3.19 : Base de connaissances du graphe d’induction de la figure 3.9 86
Figure 3.20 : Validation de par l’automate cellulaire 87
Figure 4.1 : Le découpage administratif de la ville d’Oran : Carte vectorielle 94
Figure 4.2 : Vue satellitaire de la ville d’Oran : Image en raster 95
Figure 4.3 : Superposition des couches indépendantes 95
Figure 4.4 : La structure d’une image vectorielle sous MapInfo 95
Figure 4.5 : Processus d’extraction des règles à partir de la base de données à références
spatiales 95
Figure 4.6 : Conversion des couches thématique vers le format MapInfo 99
Figure 4.7 : Connexion MapInfo à la Base de données Oracle 100
Figure 4.8 : Affichage des couches thématique candidates 101
Figure 4.9 : Sélection des couches thématique candidates 102
Figure 4.10 : Echantillon d’apprentissage suite à l’analyse de voisinage 102
Figure 4.11 : Approche cellulaire pour la fouille de données spatiales 103
Figure 4.12 : Cellular Geographic Information System for Spatial datamining (CGISS) 105
Figure 4.13 : Construction de l’arbre de décision par IGSS 108
Figure 4.14 : Génération des règles conjonctives par l’IGSS 109
Table 1.1 Résumé des symboles et leurs définitions 19
Table 2.1 Un échantillon d’apprentissage 34
Table 2.2 Les attributs prédictifs, valeurs et significations 35
Table 2.3 Tableau de contingence 39
Table 3.1 Un exemple d’échantillon d’apprentissage 68
Table 3.2 attributs prédictifs, valeurs et significations 69
Table 3.3 Codage de l’échantillon d’apprentissage 71
Table 3.4 Exemple d’un échantillon test 86
Liste des Tables
ADN : Acide désoxyribonucléique.
API : Application programming interface.
CASI : Automate cellulaire pour des systèmes d’inférence.
CGISS : Cellular Geographic Information System for Spatial datamining.
CLARA : Clustering LARge Applications.
CLARANS : Clustering Large Applications based on RANdomized Search.
COG : Graphe cellulaire Optimisé.
CV : Validation par automate cellulaire.
ECD : Extraction des connaissances à partir des données.
ECDRS : Extraction de Connaissances à partir des Données à Références Spatiales.
FDS : fouille de données spatiales.
GML : Geography Markup Language.
ID3 : Induction Decision Tree.
IGSS : Inductive Graph Symbolic system.
JVM : Java Virtual Machine.
J2SE : Java 2 Platform, Standard Edition.
J2EE : Java 2 Platform, Entreprise Edition.
PDA : Personal Digital Assistant.
PAM : Partitioning around médoïdes.
SIGFDS : Systèmes d’Informations Géographiques pour la Fouille de Données Spatiales.
SIG : Systèmes d'informations géographiques.
SIPINA : Système Interactif pour les processus d'Interrogation Non Arborescents.
STING : Statistical Information Grid.
SGBDR : Système de Gestion de Base de Données Relationnelle.
SQL : Structured Query Language.
TDIDT : Top Down Induction of Decision Trees.
URBOR : Centre d'Etudes et de Réalisation en Urbanisme Oran.
XML : Extensible Markup Language.
Glossaire
Introduction Générale
1
1. I NTRODUCTION
Aujourd'hui, le Mégaoctet est l'unité pour la mémoire vive et nous produisons des
machines stockant plusieurs Petaoctets (des millions de milliards d'octets). Ce besoin de
stockage est justifié et il est indispensable. En effet, depuis quelques années une quantité
croissante de données est générée de toute part par des organismes médicaux, industriels,
commerciaux, etc... Cet écoulement continue et croissant d’informations peut maintenant être
stocké et préparé à l’étude grâce aux nouvelles techniques d’Entrepôt de Données (ou Data
Wharehouse). Les fournisseurs de la téléphonie, par exemple, gardent au moins un an les
positions géographiques et les consommations de leurs abonnés. Les grands magasins et les
entreprises de vente par correspondance (VPC) conservent les achats de leurs clients,
collectent des informations sur leurs clients grâce à des systèmes de cartes de fidélité [Tom,
00] Les sites web conservent des traces de connexions sur leurs sites marchands. En résumé,
les entreprises en secteur très concurrentiel conservent les données de leurs activités et
achètent même des données.
Les motifs qui ont présidé à la conservation de ces données étaient : des obligations légales
pour pouvoir justifier les facturations, des raisons de sécurité pour pouvoir détecter les
fraudes, des motifs commerciaux pour suivre l'évolution des clients et des marchés. Quelle
que soit la raison initiale, les entreprises se sont rendues compte que ces données pouvaient
être une source d'informations à leurs services [Tom, 00]. Ce constat, valable pour les
sociétés du secteur marchand, peut être étendu à de nombreux domaines et services. Il faut
donc définir des environnements permettant de mémoriser de grands jeux de données et d'en
extraire de l'information.
La complexité et la taille de ces bases de données dépasse la capacité humaine d’analyse.
Delà, la nécessité est apparue de développer et appliquer des outils pour extraire des
informations utiles. Ces derniers, sont reconnus comme un moyen très efficace d’analyse
avancée de données, permettant d’extraire des connaissances cachées depuis de grandes
masses de données pour des applications décisionnelles.
Les techniques d’extraction de la connaissance (ECD) sont utilisées dans le monde
professionnel pour l’aide à la décision dans différents domaines d’applications, allant de la
gestion de relation client à la maintenance préventive, en passant par la détection des fraudes
ou encore l'optimisation dans les sites Web.
L’extraction de la connaissance pour certaines applications est limitée car elle ne prend pas
en considération l’environnement géographique. En effet, la donnée géographique désigne
Introduction Générale
2
toute information sur des objets ou des phénomènes (appelés entités géographiques)
localisables à la surface de la terre, ce qui explique la naissance des Systèmes d'Informations
Géographiques (SIG). On cite souvent comme première application des SIG l'étude menée
avec succès par le docteur John Snow pendant l'épidémie de choléra dans le quartier de Soho
à Londres en 1854 : ayant représenté sur un plan la localisation des malades et l'endroit où ils
puisaient leurs eaux, il détermina que c'était l'eau d'un certain puits qui était le foyer de
contamination. Donc, l’idée du SIG existe.
En 1989, la Société française de Photogrammétrie et de télédétection définissait le SIG
comme étant "un système informatique permettant, à partir de diverses sources, de rassembler
et d'organiser, de gérer, d'analyser et de combiner, d'élaborer et de présenter des informations
localisées géographiquement (géo référencées). L'ensemble des informations géographiques
intégrées dans le SIG forment une base de données géographiques.
En schématisant, un logiciel SIG est donc un système de gestion de bases de données (SGBD)
localisées qui comprend une ou plusieurs couches géographiques qui peuvent conserver des
relations entre elles en étant entre croisées, interrogées, etc...
L’apparition des moyens matériels et logiciels de production, stockage et diffusion des
images satellitaires et des cartes géographiques a pour conséquences la production des bases
de données géographiques très volumineuses. Tout comme les bases de données
traditionnelles, la taille des bases de données géographiques ne cesse d’augmenter, d’où le
besoin d’un processus d’extraction de la connaissance à partir des données géographiques.
L’ECD est reconnue comme un moyen très efficace d’analyse avancée, permettant
d’extraire des connaissances cachées depuis des grandes masses de données [Gar, 99] Etant
donné le volume croissant des données spatiales, la fouille de données spatiales, qui est
l’étape majeure du processus de l’extraction des connaissances, qui permet d’extraire des
propriétés de voisinages cachées dans ces données et qui présente donc un intérêt certain pour
les applications spatiales décisionnelles. La fouille de données spatiale (FDS) est aujourd’hui
identifiée comme un domaine de la fouille de données à part entière [Zei, 06a]. Elle résulte de
la combinaison de la fouille de données et des bases de données spatiales.
Dans ce contexte, beaucoup de travaux existent, mais la majorité consiste à appliquer des
techniques de la fouille de données pour extraire de la connaissance à partir des données non
spatiales. Nous pouvons citer à titre d’exemple les travaux de Han [Han, 97] qui proposent un
algorithme pour l’extraction des relations d’hiérarchie. Cette technique suppose que
l’utilisateur ou l’expert doit fournir à l’algorithme une hiérarchie de concepts, qui n’est
souvent pas possible. Nous pouvons citer aussi la méthode STING [Wan, 97], qui est une
Introduction Générale
3
méthode hiérarchique et qui consiste à diviser le territoire en plusieurs zones de taille plus
réduite afin de minimiser la complexité de la recherche.
Nous distinguons aussi les travaux sur les règles d’associations spatiales [Kop, 99] [Mic,
06] qui sont une extension des règles d’associations classiques appliquées pour l’extraction
d’un motif fréquent. De même nous soulignons l’importance du clustering qui est une
méthode de classification automatique permettant le regroupement d’objets par classes
homogènes. Pour cela, elle cherche à maximiser la similarité intra-classe et à minimiser la
similarité inter-classes. Les principales méthodes sont celles par agrégation autour de centres
mobiles, comme les k-means, les nuées dynamiques, la classification automatique
hiérarchique (CAH) et enfin, les méthodes par densité comme DBSCAN [Est, 96], BIRCH
[Zha, 96] et OPTICS [Ank, 99]. La transposition au domaine spatial s’appuie sur une mesure
de similarité d’objets localisés suivant leurs distances métriques. Néanmoins, l’application de
ces méthodes au domaine spatial vise moins à classifier qu’à détecter les concentrations ou les
points critiques d’un phénomène. Par exemple, dans l’étude de criminalité ou des zones
accident en sécurité routière.
2. PROBLEMATIQUE DE LA THESE
Cette thèse s’inscrit dans le cadre de l’extraction de la connaissance à partir des bases de
données géographiques en sécurité routière. Ce type d’analyse a été souvent basée, comme il
a était signalé par [Zei, 06a], sur les statistiques sans prendre en considération les relations
spatiales relatives à l’accident. En effet, l’analyse en sécurité routière combine des
informations concernant l’accident en lui-même, des informations thématiques du réseau
routier, le tissus urbain et d’autres détails de voisinage géographique [Zei, 06a].
Toutes les méthodes citées précédemment considèrent l’espace avec une seule mesure, une
catégorie unique. Or, les bases de données spatiales et la majorité des SIG organisent les
données en couches thématiques, chacune avec une description ou schéma propre. Les
méthodes à bases de clustering ou de généralisation ne prennent pas en compte cette
organisation et par conséquent, ne peuvent révéler des relations inter-thèmes cachées.
Dans ce travail, on utilise les graphes d’inductions comme un outil efficace de fouille de
données. Ces derniers peuvent ramener l’analyse des relations de voisinages implicites entre
l’accident et sont environnement à un problème de classification. Delà, une question
fondamentale se pose : comment ramener le problème d’analyse de voisinages entre plusieurs
couches thématiques vers une seule table à deux dimensions, exploitable par un
graphe d’induction ?
Introduction Générale
4
La réponse à cette impératif est déjà abordée dans les travaux de Chelghoum [Che, 02], par
la proposition de l’algorithme SCART (Spatial CART) et les travaux de Zeitouni [Zei, 06a],
[Zei, 06b] qui ont considéré le problème de la fouille de données spatiales comme étant
l’optimisation d’exécution des requêtes topologiques dans la base de données en utilisant les
index de voisinage.
Dans cette thèse, nous avons développé des recherches sur les systèmes d’apprentissage
automatiques symboliques, et en particulier sur la classification par graphe d’induction :
acquisition automatique de règles de classification à partir de couches thématique. Un
nouveau système, nommé CGISS a été étudié et réalisé. Notre système permet, à partir d’une
base de données spatiale, de faire coopérer un graphe d’induction (GI) et un automate
cellulaire (CA) pour l’exploration des relations de voisinage entre thèmes et la construction
d’un modèle de prédiction des accidents de la route. Le résultat de la fouille de données
spatiale ainsi obtenu, est affiné par un processus d’apprentissage automatique symbolique à
base de graphe d’induction (méthode SIPINA). Ce raffinement se fait par l’automate cellulaire
qui va assister SIPINA à l’optimisation du graphe d’induction et assurer, par la suite, la
représentation et la génération des règles de production sous formes conjonctives avant
d’entamer la phase de validation par un système expert cellulaire [Atm, 07], [Bel, 08], [Abd,
08a].
Nous avons deux principaux objectifs à réaliser dans cette thèse :
• L’élaboration d’un processus d’extraction de la connaissance à partir des données
spatiales et plus précisément le problème d’accidents de la route, en se basant sur
une bases de données réelle issue de différentes sources d’information, en allant de
la Direction Générale de la sureté de la wilaya d’Oran DGSN, vers les différents
bureaux d’études.
• L’exploitation de l’outil IGSS, déjà réalisé par l’équipe de recherche BIOSIF, pour
analyser les données à références spatiales.
Ce mémoire s’articule autour de quatre chapitres :
Le chapitre I introduit l’extraction de la connaissance, les domaines d’application, la
différence par rapport à une analyse de bases de données à références spatiales ainsi que des
explications détaillées de l’Extraction de Connaissances à partir d’une base de Données à
Introduction Générale
5
Références Spatiales (ECDRS). Nous présentons les différentes méthodes appliquées dans
l’ECDRS et leurs inconvénients.
Le chapitre II aborde le principe de l’apprentissage automatique ainsi que son apport pour
la fouille de données. Nous y présentons les Graphes d’inductions comme étant une méthode
d’apprentissage supervisé.
Le chapitre III est consacré à l’adaptation des graphes d’induction cellulaires pour
effectuer une fouille de données spatiales. Cette adaptation par automate cellulaire concerne
l’élaboration, la représentation, l’optimisation par automate cellulaire du graphe engendré par
la méthode SIPINA, suivi de la génération des règles de production conjonctives et la
validation. Nous concluons ce chapitre par une étude de complexité et des expérimentations.
Le chapitre IV est consacré à notre contribution dans ce domaine [Abd, 08b]. Nous
présentons l’organisation générale du système CGISS et nous détaillons son mode de
fonctionnement. Puis nous concluons par un ensemble de résultats obtenus.
Finalement, nous concluons en synthétisant les différentes étapes de notre contribution et
en discutant les perspectives envisagées pour poursuivre cette recherche.
Introduction Générale
6
BIBLIOGRAPHIE
[Abd, 08a] Abdelouhab, F., Atmani, B., Intégration automatique des données semi-structurées dans un entrepôt cellulaire, Troisième atelier sur les systèmes décisionnels, Mohammadia, Maroc, PP 109—120, 10 et 11 octobre 2008.
[Abd, 08b] Abdiche, F., Atmani, B., Vers un système d'unification des systèmes d'informations géographiques, International Conference on Web and Information Technologies "ICWIT '08", Université de Sidi Belabess, PP 140—146, 29-30 juin 2008.
To Identify the Clustering Structure. SIGMOD Conference, PP 49—60, 1999.
[Atm, 07a] Atmani, B., Beldjilali, B., Knowledge Discovery in Database : Induction Graph and Cellular Automaton, Computing and Informatics Journal, Vol.26, N°2, PP 171—197, 2007.
[Bel, 08] Beldjilali, B., Atmani, B., Traitement des coefficients d’incertitudes dans les
arbres de décision : application sur la machine cellulaire CASI, Journée des Jeunes Chercheurs en Informatique JCI'08, Université 08 Mai 45, Guelma – Algérie, PP 223—234, 20 Mai 2008
[Che, 02] Chelghoum N., Zeitouni K., Boulmakoul A., A Decision Tree for Multi-layered
Spatial Data, In 10th International Symposium on Spatial Data Handling (SDH’02), Ottawa, Canada, PP 1-10, 2002
[Est, 96] Ester M., Kriegel H .P., Sander J., Xu X., A density-Based algorithm for
discovering clusters in lager spatial databases with noise, In proceeding of second international conference on knowledge discovery and data mining, Portland, PP 226—231, 1996.
[Han, 97] Han J., Koperski K., and Stefanovic N.: GeoMiner : A System Prototype for
Spatial Data Mining, Proc. ACM-SIGMOD Int'l Conf. on Management of Data (SIGMOD'97), Tucson, Arizona (1997) System prototype demonstration, 1997.
[Mic, 06] Michel, W.B., Murray B., Lecture Notes in data Mining, World Scientific
Publishing Co. Pte. Ltd, 2006. [Kop, 99] Kopersky, K., A progressive refinement approach to spatial data mining, a
thesis submitted in spatial fulfillment of the requirement for the degree of Doctor of Philosophy, Simon Fraser University, 1999.
[Tom, 00] Tommasi, M., Gilleron, R., Découverte de connaissances à partir de données,
Cours d’apprentissage à partir des exemples, université de Lille 3, 2008. [Wan, 97] Wang, W., Yang, J., Muntz, R., STING: A statistical information grid approach
to spatial data mining, in Proceedings of the International VLDB Conference, 1997.
Introduction Générale
7
[Zei, 06a] Zeitouni, K., Analyse et extraction de connaissances des bases de données spatiotemporelles. Habilitation à Diriger des Recherches Spécialité Informatique, Université de Versailles Saint-Quentin-en-Yvelines, 2006.
[Zei, 06b] Zeitouni, K., Chelghoum, N., Application du Data Mining Spatial pour la prédiction du risque d’accidents de la circulation en milieu urbain : Extension du projet TOPASE par la prise en compte des interactions entre le réseau viaire et l’environnement urbain, Université de Versailles Saint-Quentin-en-Yvelines, 2006.
[Zha, 96] Zhang T., Ramakrishnan R., Livny M., BIRCH: An Efficient Data Clustering Method for Very Large Databases, SIGMOD Conference, PP 103—114, 1996.
Chapitre 1
Fouille de Données Spatiales
Plan
1.1. Introduction
1.2. Définition
1.2.1. Les domaines d’applications de la fouille de données
1.2.1.1. La gestion de relation client
1.2.1.2. Les banques et attribution de crédits
1.2.1.3. La médecine et la biologie
1.2.1.4. Le world Wilde web
1.3 Extraction de la connaissance à partir des données à références spatiales
1.3.1. Définition de la fouille de données spatiales
1.3.2. Le processus de la fouille de données spatiales
1.3.2.1. L’identification du problème
1.3.2.2. La sélection des données
1.3.2.3. Le nettoyage des données
1.3.2.4. La transformation et réduction
1.3.2.5. La fouille de données
1.3.2.6. L’évaluation des résultats
1.4. Les outils de la fouille de données spatiales
1.4.1. Les méthodes à base de clustering des données spatiale
1.4.1.1. La méthode des K-moyennes
1.4.1.2 La méthode PAM (partitioning around medoïdes)
1.4.1.3 La méthode CLARA (Clustering LARge Applications)
1.4.1.4 La méthode CLARANS
1.4.2 La méthode STING
1.4.3. Les règles d’associations
1.4.4. Hiérarchies et généralisation
1.4.5. Classification supervisée par arbres de décisions spatiales
1.5 Conclusion
Fouille de Données Spatiales Chapitre 1
8
1.1. I NTRODUCTION
De nombreux organismes gouvernementaux, commerciaux, médicaux… collectent et
gèrent des masses volumineuses d’informations dans leurs bases de données. Ces dernières
sont dans le cas général très peu exploitées en vue d’extraire de nouvelles connaissances sur
les divers phénomènes.
Alors que la découverte de connaissances dans les bases de données devient un enjeu
stratégique afin de mieux gérer les parts de marché, cibler les consommateurs, évaluer les
risques financiers, diagnostiquer des patients, etc. une nouvelle préoccupation est apparue
dans la recherche informatique depuis ces dernières années : L’Extraction de Connaissance à
partir des données, qui est une succession d’opérations en allant de la sélection et le nettoyage
des données jusqu’à la validation du modèle en passant par la fouille de données elle-même
qui est la phase primordiale dans ce processus.
La fouille de données classique est utilisée dans le monde professionnel pour résoudre des
problématiques très diverses, allant de la gestion de relation client [Lef, 01] à la maintenance
préventive, en passant par la détection des fraudes ou encore de l'optimisation dans les sites
webs [Gar, 06].
De nos jours, une multitude d’applications utilisent des données à références spatiales,
comme la gestion de l’environnement, le transport, la santé, la météo. D’un coté, ces données
sont devenues une source importante pour l’aide à la décision quoi que le volume de ces
données commence à se multiplier, et cela dépasse la capacité humaine d’analyse. De l’autre
coté, environ 80% des données ont une composante spatiale qui est souvent implicite [Mar,
06]. La fouille de données est reconnue comme un moyen très efficace d’analyse avancée de
données, permettant d’extraire des connaissances cachées depuis des grandes masses de
données [Atm, 07a, 07b]. Etant donné le volume croissant des données spatiales, la fouille de
données spatiales permet d’extraire des règles spatiales cachées dans ces dernières et présente
donc un intérêt certain pour les applications décisionnelles [Zei, 06a].
Une multitude d’outils existent, ces derniers sont limités à cause de l’utilisation des
données numériques classiques et ne permettent pas d’exploiter la référence spatiale implicite.
Tans dit que la fouille de données spatiales est une extension de l’approche classique,
permettant donc l’interaction avec l’environnement géographique [Zei, 06b] en incluant des
relations spatiales.
Le terme ECD désigne en réalité un processus complet interactif de découverte de la
connaissance [Kod, 94]. D’une façon générale, les méthodes d’ECD exploitent les recherches
Fouille de Données Spatiales Chapitre 1
9
en intelligence Artificielle et en apprentissage automatique. En effet, l’apprentissage
automatique peut être perçu comme un processus d’extraction de connaissance et les
méthodes associées peuvent être désigner comme des méthodes d’ECD. Bien que ces
dernières ont montré leurs efficacités sur des données alphanumériques mais n’exploitent pas
le géo référencement. Notre contribution consiste à intégrer le caractère spatial des données
par l’adaptation des méthodes de la fouille de données classique afin de pouvoir extraire les
relations spatiales implicites.
1.2. DEFINITION
La fouille de données est l’étape centrale du processus de l’extraction de la connaissance
(ECD). Elle consiste à extraire automatiquement de la connaissance intéressante, intelligible
et cachée dans les bases de données. Le terme fouille de données est souvent employé pour
désigner l’ensemble des outils permettant d’accéder aux données et de les analyser [Gar, 99].
L’extraction de la connaissance à partir des bases de données par fouille de données est le
processus qui consiste à identifier des modèles, valide, original, utiles et compréhensibles
dans les données [Fay, 96].
1.2.1. L ES DOMAINES D’ APPLICATIONS DE LA FOUILLE DE DONNEES
Grace aux différentes méthodes de l’apprentissage automatique et la vulgarisation de
l’outil informatique, la fouille de données n’est plus un ensemble de techniques expérimentées
uniquement aux laboratoires de recherches, mais plutôt un outil utilisable dans beaucoup de
secteurs : l’industrie, la médecine, biologie ou encore la gestion de relation clients qui est le
champ d’application par excellence.
Les entreprises bancaires et d’assurances, les grandes surfaces commerciales ont mis en
œuvre ces outils afin de comprendre les habitudes de leurs clientèles ensuite prévoir leurs
comportements [Khi, 07] .
1.2.1.1. L A GESTION DE RELATION CLIENT
La gestion de la relation client consiste à cibler, attirer et à conserver les bons clients. Elle
représente un facteur déterminant du succès de l’entreprise. Construire et développer des
relations avec ses clients est un défi à entreprendre, Notamment lorsque l’entreprise possède
des milliers (voir des millions) de clients qui sont en expansion continue.
La fouille de données s'emploie en marketing pour l'analyse des données dans le but de
d’étudier le comportement du client. Par exemple, des habitudes d'achat des consommateurs.
Fouille de Données Spatiales Chapitre 1
10
La fouille de données est donc utilisée dans les programmes informatiques pour développer
une relation client stable, pérenne et rentable, car le client demeure à jamais au cœur de la
stratégie des entreprises. On peut citer comme champs d’applications :
• L’optimisation du réseau de distribution : Mieux connaître votre zone, mieux
comprendre les habitudes de vos clients et consommateurs, mieux appréhender
l’environnement sociodémographique, économique et social dans lequel vous
évoluez.
• L’identification des clients à risques : cette tâche consiste à détecter une éventuelle
perte des clients en identifiant ceux qui vont aller chez le concurrent. Qui sont mes
clients actuels et potentiels ? Que consomment-ils ? Quels sont leurs besoins ?
Comment appréhender mon potentiel client et le valoriser ?
• La prédiction du volume de vente d’un produit dans les mois qui suivent.
• L’analyse du panier de la ménagère : Dans les grandes surfaces commerciales,
regrouper les objets qui vont naturellement ensemble.
1.2.1.2. L ES BANQUES ET ATTRIBUTION DE CREDITS
Les banques possèdent une masse de données importantes qui stockent l’historique des
clients ainsi que leurs comportements, donc elles peuvent aisément déterminer les bon clients,
ainsi qu’anticiper les accidents financiers pour les clients fragiles. L’analyse de ces bases de
données permet de cibler des clients afin de leur proposer des services spécifiques [Sch, 04].
1.2.1.3. L A MEDECINE ET LA BIOLOGIE
Les dix dernières années ont connu des avancés remarquables dans le domaine de la
bioinformatique et particulièrement la recherche en ADN et les génomes humain. La
technologie des séquences d’ADN ainsi que leurs publications a rendu possible l’application
de la fouille de données en biologie. De nombreuses avancées en médecines ont eu lieu grâce
à l’analyse des bio-séquences [Sch, 04].
1.2.1.4. L E WORLD W ILDE WEB
La fouille de données sur internet est l’exploration des différentes formes d’accès de
l’usagé sur des serveurs web. Les organisations collectent de larges volumes de données de
leurs activités journalisées, générées automatiquement par les serveurs web et stockées sur des
fichiers log. L’analyse de ces données peut fournir des informations utiles qui serviront à
l’amélioration des performances des sites web [Khi, 06] .
Fouille de Données Spatiales Chapitre 1
11
1.3. EXTRACTION DE LA CONNAISSANCE A PARTIR DES DONNEES A
REFERENCES SPATIALES
Nous voyons notre monde quotidien changer de plus en plus vite, et l'information qui en
est l'image instantanée, devient de plus en plus difficilement assimilable directement. Sa
représentation classique, est maintenant peu adaptée. Elles nécessitent de connaître quasi
instantanément les informations sur les besoins sanitaires, économiques, écologiques. Les
systèmes d'informations géographiques (SIG) sont une réponse à ces impératifs dans
différents domaines : intégrer de nouvelles sources de nature différentes, les combiner et les
analyser pour présenter l'information de façon efficace et directement utilisable [Agr, 93].
Une masse considérable de données à références spatiales issues des différents SIG rend
nécessaire le développement d’un outil pour l’extraction de connaissance utiles à partir des
bases de données spatiales volumineuses [Kop, 99].
1.3.1. DEFINITION DE LA FOUILLE DE DONNEES SPATIALES
La fouille de données spatiales est définie comme l’extraction de connaissances implicites
de relations spatiales ou d’autres propriétés non explicitement stockées dans les bases de
données spatiales [Han, 97].
La fouille de données spatiales a pour objectif la découverte des connaissances implicite
dans des données spatiales [Ber, 06].
Les algorithmes de fouille de données spatiales (FDS) dépendent largement du traitement
efficace des relations de voisinage puisque chaque objet spatial est influencé par son
voisinage. Par conséquent, l’intégration des notions générales pour des relations de voisinage
ainsi qu'une exécution efficace des algorithmes de la fouille de données permettra une
exécution efficace des algorithmes spatiaux d'exploitation de données au sein d’un système
de gestion spatiale de base de données [Arm, 06] .
1.3.2. LE PROCESSUS DE LA FOUILLE DE DONNEES SPATIALES
Le processus de la fouille de données spatiales est une succession d’étapes fortement
interactives qui nécessitent l’implication de l’utilisateur afin de transformer les données en
connaissances. Sa caractéristique par rapport au processus de la fouille de données classique
est l’utilisation des prédicats d’analyse topologique ou spatiale [Kop, 99].
Fouille de Données Spatiales Chapitre 1
12
Le processus global qui consiste à interpréter des modèles des données implique
l'application répétée des étapes suivantes :
• L’identification du problème : C’est le facteur clé du succès du processus de
l’extraction de la connaissance (ECD). Par exemple, dans une entreprise de
télécommunication qui cherche à cibler les interlocuteurs fréquents afin de les
proposer des offres particuliers.
• Le fenêtrage : cela consiste à sélectionner les données descriptives et spatiales utiles
au lieu que toutes les données disponibles.
• Le nettoyage des données : Les données réelles sont souvent incomplètes (valeurs
manquantes) ou bruitées.
• La transformation et réduction : Les données doivent encore être transformées afin de
disposer d’une représentation standard et uniforme.
• La fouille de données : Qui consiste à appliquer une méthode intelligente afin de
déduire des hypothèses sur les données.
• L’évaluation des résultats : C’est l’étape qui mesure l’intérêt du modèle extrait.
Fouille de Données Spatiales Chapitre 1
13
Figure 1.1. Processus d’extraction de connaissance à partir des données
1.3.2.1. L’ IDENTIFICATION DU PROBLEME
La tâche principale de cette étape est de mettre en évidence le projet de l’extraction de la
connaissance, de cerner les besoins, fixer les objectifs, cibler les données et les ressources
disponibles. C’est une étape très sensible et primordiale pour la réussite du processus de
l’extraction de la connaissance.
Données
Sélection
Pré traitement
Transformation
Fouille de données
Evaluation
Données ciblées
Données traitées
Données transformées
Modèle
Connaissance
Fouille de Données Spatiales Chapitre 1
14
1.3.2.2. L A SELECTION DES DONNEES
Elle consiste à pré sélectionner et collecter les données nécessaires aux traitements. Il
s’agit de recenser aussi les données utiles ainsi que les moyens à mettre en œuvre pour les
récupérer.
Les données sont généralement sélectionnées à partir d’un entrepôt de données « Data
Warehouse », c’est un lieu particulier de stockage de toutes les données de l’entreprise.
1.3.2.3. L E NETTOYAGE DES DONNEES
Parfois la base de données colletée contient des données erronées ou manquantes. Durant
la phase du nettoyage et du pré traitement, les données floues sont éliminées. Les anomalies
au niveau de ces données peuvent poser un problème du moment où l’objectif est de découvrir
des modèles à partir de ces derniers.
Les données manquantes se caractérisent par l’absence de valeur dans certains attributs, à
cause du mauvais fonctionnement de l’équipement, non saisies ou considérées non
importantes au moment de la saisie, d’où la nécessité de les inférer.
Pour remédier aux problèmes des données manquantes, plusieurs solutions existent comme
la suppression du tuple ou compléter manuellement les données ou même utiliser la moyenne
de l’attribut
1.3.2.4. L A TRANSFORMATION ET REDUCTION
Il s’agit de trouver les meilleurs dispositifs pour représenter les données selon l’objectif du
projet de la fouille de données et réduire le nombre de variables.
La réduction des données emploie des techniques de transformation qui son utilisées pour
réduire le nombre de variables dans la base de données. Ces techniques peuvent aussi
transformer la forme des données qui sont dans la plupart des cas inadaptées directement pour
un algorithme de fouille de données.
1.3.2.5. L A FOUILLE DE DONNEES
La fouille de données proprement dite est l’étape primordiale durant le processus de
l’extraction de la connaissance. Il est important à ce niveau de décider l’algorithme de la
fouille de données approprié (réseaux de neurones, règles associatives, arbres d’inductions,
etc.) afin d’accomplir une tâche bien déterminée (classification, segmentation, génération des
règles, etc.)
Fouille de Données Spatiales Chapitre 1
15
Nous distinguons deux familles de méthodes pour la fouille de données :
• Supervisée : le but est de trouver une description générale et caractéristique décrivant
une classe. Il faut extraire les points en communs entre les exemples d’apprentissage
pour en déduire comme étant la description de la classe. Pour cela, les exemples
d’apprentissages doivent être déjà groupés selon des classes prédéfinies. Comme
principales approches, nous distinguons les algorithmes génétiques, le système
CHARADE [Gan, 87], les réseaux de neurones, les graphes d’induction : CART [Bre,
94], C4.5 [Qui, 83], SIPINA [Zig, 92]…, etc.
• Non supervisée : le système d’apprentissage considère un ensemble d’exemples
d’apprentissages sans avoir une connaissance préalable s’ils appartiennent ou non à la
même classe. L’objectif est de regrouper les objets de la meilleure façon possible
[Rab, 96]
1.3.2.6. L’ EVALUATION DES RESULTATS
Cette étape consiste à mesurer l’intérêt du modèle extrait ainsi que visualiser les résultats
selon les différentes techniques de visualisation. Cette dernière dépond de la tâche de la
fouille de données.
Après l’affichage et la validation des résultats par un expert, nous parlons plutôt de
connaissances.
1.4. L ES OUTILS DE LA FOUILLE DE DONNEES SPATIALES
L’étape de la fouille de données du processus de l’extraction de la connaissance implique
l’application ou la répétition interactive des méthodes particulières de la fouille de données.
Dans ce qui suit, nous présentons un aperçu des objectifs principaux de la fouille de données
et la description des méthodes utilisées pour atteindre ces objectifs.
Les objectifs de fouille de données sont définis selon l’utilisation du système. Nous
distinguons deux types d’objectifs : la vérification et la découverte [Fay, 96]. A l’aide de la
vérification le système est limité à la vérification des hypothèses de l’utilisateur. Par contre,
avec la découverte, le système cherche de nouveaux modèles de façon autonome.
La plupart des méthodes de la fouille de données sont basées sur les techniques
d’apprentissage et les statistiques : classification, régression, clustering, …etc. dans ce qui
Fouille de Données Spatiales Chapitre 1
16
suit, nous discutons les différentes méthodes en se focalisant sur celles appliquées à la fouille
de données spatiales.
1.4.1. L ES METHODES A BASE DE CLUSTERING DES DONNEES SPATIALE
Le clustering consiste à rassembler les éléments du même ensemble en plusieurs clusters
disjoints. Les éléments semblables sont regroupés dans le même cluster, et ceux appartenant à
deux clusters différents sont différents [Gue, 94]. Le clustering était largement étudié dans le
domaine de l’extraction de la connaissance [Fay, 96].
Le clustering joue un rôle important dans la fouille de données spatiales. Néanmoins, les
données spatiales peuvent imposer des limitations ou des complications non réalisées dans
d’autres domaines. Les algorithmes du clustering spatial regroupent les objets spatiaux selon
leurs localités [Mic, 06]. Pour des objets de types points, la métrique Euclidienne ou la
distance de Manhattan sont suffisantes.
1.4.1.1. L A METHODE DES K- MOYENNES
Pour résoudre certains problèmes complexes, il peut s'avérer utile de commencer par
diviser la population en groupes (segmenter) en espérant que le problème soit alors plus
simple à résoudre sur les groupes ainsi constitués. La segmentation est une tâche
d'apprentissage non supervisée car on ne dispose d’aucune information préalable à part la
description des exemples. Une fois les groupes sont constitués, une expertise est nécessaire
afin de dégagé la signification et l’intérêt de la segmentation.
La méthode des K-moyens est basée sur la notion de similarité entre enregistrements
constitués de n points : xxxx1111, , , , xxxx2222,…,,…,,…,,…,xxxxnnnn. Nous allons, pour introduire l'algorithme, considérer un
espace géométrique RRRRdddd muni d'une distance (Euclidienne par exemple). L'algorithme suppose
choisi a priori un nombre k de groupes à constituer. On choisit alors k enregistrements, soit k
points de l'espace appelés les centres. On constitue alors les k groupes initiaux en affectant
chacun des enregistrements dans le groupe correspondant au centre le plus proche. Pour
chaque groupe ainsi constitué, on calcule son nouveau centre en effectuant la moyenne des
points du groupe et on réitère le procédé. Le critère d'arrêt est : d'une itération à la suivante,
aucun point n'a changé de groupe, c à d que les groupes sont stables [Fah, 06].
Fouille de Données Spatiales Chapitre 1
17
Figure 1.2. (a) configuration initiale, (b) les centres initiaux et affectation selon la distance
minimale (c) recalcule des centre (d) nouvelle affectation des points
L’algorithme se déroule sur des enregistrements de dimension N (n-uplets), la mesure de
distance est la formule euclidienne , ∑ , le calcule de moyenne pour
les nouveaux centres.
Figure 1.3. L’Algorithme des K-moyennes
1.4.1.2 LA METHODE PAM (PARTITIONING AROUND MEDOÏDE S)
Similaire à la méthode des K-moyennes, PAM (partitioning around médoïdes) ou
l’algorithme des K-médoïdes crée itérativement des clusters au tour des médoïdes prédéfinies.
Algorithme des K-moyennes
1. Choisir k centres initiaux 1, …... k
2. Affecter chaque au cluster correspondant
dont , est minimale avec j : 1…k
3. Si aucun élément ne change de groupe alors
arrêté le déroulement.
4. Calculer les nouveaux centres : chaque
(avec j : 1…k) est la moyenne des éléments du
groupe
5. Aller à 2
Fouille de Données Spatiales Chapitre 1
18
Au lieu de calculer la nouvelle moyenne dans un cluster, PAM améliore le groupement en
remplaçant des médoïdes existantes par d’autres points en se basant sur une fonction de coût
Le coût total de la permutation d’une médoïde par un non-médoïde est donné par :
!
" !#$%&', ( $%&', $)
"
Où *+,- représente le gain en distance globale que l’on va avoir en remplaçant h par j, Si
*+,- est négatif alors on va perdre en distance. Ça veut dire que les clusters seront plus
compacts [Dun, 03].
La médoïde est l’objet représentatif dans le cluster (au lieu de la moyenne).
L’algorithme commence par la sélection des k objets médoïdes parmi les n points de
données puis associer pour chaque point à une médoïde de sorte que la similarité soit
maximale. La mesure de similarité est définie par la distance d’Euclide, Manhattan ou
Minkowski. Sélectionner aléatoirement un autre point non-médoïde O’ est calculer le coût S
de remplacer un ancien médoïde par O’. Si S < 0 alors remplacer l’ancienne médoïde par O’,
et répéter itérativement ce procédé jusqu’à ce qui n’y a aucun changement des médoïdes.
Figure 1.4 L’algorithme PAM
1. Choisir arbitrairement k médoïde
2. Affecter chaque au médoïde le plus proche k
dont la distance est minimale
3. Choisir aléatoirement un non- médoïde Or
4. Pour chaque médoïde Oj
Calculer le coût TC du remplacement de Oj par Or
Si TC < 0 alors
Remplacer Oj par Or
Calculer les nouveaux clusters
Finsi
FinPour
Jusqu’à ce ce qu’il n’y ait plus de changement
5. Aller à 2
Fouille de Données Spatiales Chapitre 1
19
1.4.1.3 L A METHODE CLARA (CLUSTERING LAR GE APPLICATIONS )
Une multitude d’algorithmes de clustering sont proposés dans la littérature CLARA [Kau,
90], CLARANS [Ngr, 94]. Comme pour PAM, la méthode CLARA est également basée sur
la recherche de k objets représentatifs. Mais l'algorithme CLARA est construit spécialement
pour l'analyse des grands jeux de données. Donc nous choisissons un sous ensemble de
données.
Afin de faciliter la compréhension de la méthode, les symboles utilisés dans la formule ci-
dessous ainsi que leurs définitions sont donnés dans la Table 1.1
Table 1.1 Résumé des symboles et leurs définitions
La méthode CLARA fonctionne en deux étapes. D'abord, un échantillon est tiré du jeu
d'objets (observations) et partagé en k classes en utilisant la méthode PAM. Ensuite, chaque
objet n'appartenant pas à l'échantillon est envoyé au plus proche des k objets représentatifs.
Ce processus doit être réitérer sur 5 échantillons de taille 40+2k chacun. L’ensemble des
méthoïdes retenues sont celles qui présentent une meilleure qualité.
La qualité de cette classification est définie comme la distance moyenne entre chaque objet
et son objet représentatif. Les échantillons sont tirés et classés chacun à leurs tour, et
l'échantillon sélectionné est celui qui a obtenu la distance moyenne la plus petite selon la
fonction coût (D, M) [Chi, 00].
./û1 2, 3 ∑ 4,55,6,789,1é ;,, 9<= 2, ;, >,"?>
Symbole Définition
D L’ensemble de données
n Nombre d’objets dans D
Oi Objet i dans D
K Nombre de cluster
S Echantillon de D
s La taille de S
Fouille de Données Spatiales Chapitre 1
20
La dissimilitude 4,55,6,789,1é ;,, 9<= 2, ;,, est la distance entre deux objets Oi et Oj et
9<= 2, ;, retourne la médoïde relative à l’objet Oi.
Figure 1.5 L’Algorithme CLARA
CLARA répète le processus d’échantillonnage et de clustering un nombre prédéfinie de
fois et selecte comme le résultat final l’ensemble des médoïdes dont le coût et minimal.
1.4.1.4 La méthode CLARANS
CLARANS (Clustering Large Applications based on RANdomized Search) considère le
problème de recherche des k médoïde comme étant une recherche dans un graphe [Ngr, 94],
Sur ce graphe, un nœud est représenté par un ensemble de k objets@A, … . ACD, en
indiquant que A, … . AC sont les médoïdes sélectionnées. Deux nœuds sont voisins (c à d
connecté par un arc) s’ils diffèrent uniquement d’un seul élément. Du moment où chaque
nœud représente une collection de k médoïdes, chaque nœud correspond à une solution de
clustering possible.
L’algorithme commence d’un nœud arbitraire dans le graphe et sélectionne aléatoirement
un nœud voisin. Si le coût sur le nœud voisin sélectionné est inferieur au coût du nœud en
court, CLARANS procède sur le nœud voisin. Le processus se déroule de la même manière
sur tout le graphe jusqu’à ce qu’un nœud meilleur soit sélectionné ou le nombre prédéfini
maximal de voisins à vérifier est atteint. La fonction du coût est la même que pour la méthode
CLARA.
Initialisation : Mincost = ∞
Répéter q fois :
1. Générer un sous ensemble S à partir de
l’ensemble de données D.
2. Générer un ensemble de médoïde M à partir de
S en appliquant l’algorithme PAM.
3. Si coût (D, M) < Mincost alors
Mincost = coût (D, M)
Fin si
Fin répéter
Fouille de Données Spatiales Chapitre 1
21
Figure 1.6. L’Algorithme CLARANS
1.4.2 LA METHODE STING
L’approche STING (STatistical Information Grid) pour la fouille de données spatiales a
été introduite dans [Wan, 97]. STING est une méthode hiérarchique qui divise la zone
spatiale en cellules à plusieurs niveaux avec des informations statistiques sur les objets dans
chaque cellule.
Initialisation :
mincost = ∞
Max_voisin : Nombre maximum de voisins d’un nœud
C dans le graphe
1. Sélectionner aléatoirement un nœud C comme le
nœud en court dans le graphe.
2. initialiser J à 1
3. répéter :
Sélectionner aléatoirement un nœud N voisin de C
Si COST (N, D) < COST (C, D) alors
Remplacer C par N
Réinitialiser J à 1
Sinon J++
Fin si
Jusqu’à J > Max_voisin
Si COST (C, D)< Mincost
Mincost = COST (D, M)
Nœud_final = C
Fin si
Fouille de Données Spatiales Chapitre 1
22
Figure 1.7. Exemple d’une hiérarchie de gilles STING à trois niveaux
Contrairement à la technique de généralisation, STING ne nécessite pas une hiérarchie
prédéfinie de concepts. L’étape initiale avant l’application de l’algorithme STING est de créer
une structure hiérarchique de cellules, le premier niveau est une cellule singulière contenant
toute la région spatiale en question. A partir de là, la région est divisée récursivement jusqu’à
un niveau d’hiérarchie donné. La taille des cellules du plus bas niveau dépendent de la densité
des objets spatiaux. [Wan, 97] suggère que le nombre moyen d’objets dans chaque cellule
soit dans un intervalle allons de dizaines à des milliers. Une extension de SQL est proposée
dans [Wan, 97] pour la prise en charge des requêtes STING :
SELECT REGION
FROM house-map
WHERE DENSITY IN (100, ∞)
AND price RANGE (400000, ∞)
WITH PERCENT (0.7, 1)
AND AREA (100, ∞)
Cette requête sélectionne des régions contenant au moins 100 maisons par unité de zone,
avec au moins 70% des maisons qui coûtent 400 000 $ et un nombre minimum de zones égale
à 100.
Niveau 1
Niveau 2
Niveau 3
Fouille de Données Spatiales Chapitre 1
23
L’algorithme STING effectue une recherche selon l’hiérarchie des cellules pour trouver les
régions qui satisfont une requête donnée. Les régions des cellules satisfaisant les critères de
recherches peuvent être fusionnées successivement jusqu’à ce qu’il n’y a aucune autre cellule
à ajouter.
Figure 1.8. L’Algorithme de STING
1.4.3. L ES REGLES D’ ASSOCIATIONS
Une règle d’association est une forme générale de règle de dépendance et définie sur les
bases de données transactionnelles [Agr, 93]. Elle est de la forme W→B, c’est une implication
de la forme «Si W apparait dans la transaction alors, alors B aussi », avec W et B est un
ensemble d’attributs. Formellement la force d’une règle W→B dans un ensemble D a une
mesure de confiance C si le pourcentage des transactions dans D contenant la prémisse W
contient aussi la conclusion B. par exemple, dans une base de données transactionnelle
d’achats on peut trouver une règle de la forme ‘beurre → pain (90 %), cela veut dire que
Entrée :
T arborescence d’hiérarchie de gilles
Q requête
Sortie :
R Régions contenant les cellules satisfaisant la Q
i=1 le niveau hiérarchique actuel
c cellule courante
Répéter
Pour c Є Ti sachant que c est prometteuse faire
Selon la requête Q, marqué c comme prometteuse
ou non.
Fin pour
i ++
jusqu’à tous les niveau de l’arborescence sont
parcourus.
Retourner R
Fouille de Données Spatiales Chapitre 1
24
90 % des clients qui achètent le beurre achètent aussi le pain. D’ailleurs, pour s’assurer
qu’une règle est suffisamment intéressante, le concept du support est introduit, qui est défini
comme étant le rapport entre le nombre d’occurrence de W et de B ensemble dans les
transactions et le nombre total des transactions dans la base de données [Kop, 99].
La fouille de données spatiales à base du concept de généralisation, découvre les relations
spatiales et non spatiales au niveau d’un concept plus général où les objets spatiaux sont
comme étant des régions fusionnées [Mic, 06]. Cependant, cette méthode ne permet pas de
découvrir les règles reflétant la structure des relations spatiales / spatiales ou spatiales / non
spatiales qui contiennent des prédicats du genre : Inside, Covers, Touch, Equal, Contain,
Une règle d’association spatiale est de la forme : A→B, dont A et B sont des ensembles de
prédicats [Mic, 06]. .. De telles relations topologiques peuvent être vues comme des
associations spatiales, avec 100 % de confiance nous citons à titre d’exemple la relation
Contain :
EF&G$F H, I J EF&G$F I, K L EF&G$F H, K
Par contre, de telles règles dépendent habituellement du domaine d’étude, par exemple on
peut trouver que 92% des villes de British Columbia (BC) sont adjacentes à des sources d’eau
et prêts des états unis d’Amérique (US).
$%H, $& J $F I, M J H, NG&OP L Q$&($F_$%&GFO H, S%
Bien que ces règles sont à 100 % vrais, elles sont porteuses de certaines connaissances non
triviales, ceci est intéressant pour découvrir des associations spatiales dans les bases de
données à références spatiales.
Beaucoup de méthodes sont proposées dans la littérature. Pour d’avantage d’informations, le
lecteur peut consulter [Kop, 99].
1.4.4. H IERARCHIES ET GENERALISATION
Une base de données contient souvent des informations détaillées. Il est désirable de les
résumer et de les présenter à un niveau de concept plus haut, ce processus est appelé
« Généralisation ». Elle consiste à remplacer les valeurs détaillées de bas niveaux par d’autres
Fouille de Données Spatiales Chapitre 1
25
moins détaillées. Cette méthode nécessite au préalable une hiérarchie de concepts donnée
explicitement par l’expert ou automatiquement par analyse de données [Zei, 06b].
Figure 1.9. Hiérarchie et généralisation de concepts de partitionnement des
types de productions d’agriculture
Une hiérarchie de concept est une structure arborescente qui montre un ensemble des
relations entre les objets. Appliquée aux données spatiales, les niveaux hiérarchiques peuvent
illustrer des relations spatiales.
Un exemple de généralisation de concepts est présenté dans [Kop, 99], dans ce dernier, un
intervalle de température de [20, 27] est généralisé à modérée, et la température dans [27,∞]
est généralisée à chaud. Delà, les zones seront groupées en les fusionnant selon l’hiérarchie
des concepts.
Figure 1.10. La méthode de généralisation spatiale
Nord-est,
modérée.
Est-central, chaud
ou modérée.
Agriculture
Non Nourriture Nourriture
Fruit Grain Boisson Tissu
Maïs Riz Blé Pommes Coton Lin textile Café Thé
Fouille de Données Spatiales Chapitre 1
26
1.4.5. CLASSIFICATION SUPERVISEE PAR ARBRES DE DECISIONS SPATIALES
Nous nous situons dans le cadre de l’apprentissage supervisé qui est une technique
d'apprentissage automatique où l'on cherche à produire automatiquement des règles à partir
Fouille de Données Spatiales Chapitre 1
28
BIBLIOGRAPHIE
[Adb, 07] Abdiche, F., Hamdadou, D., Proposition d'un Modèle pour l’Exploitation des Bases de Données à Références Spatiales Distantes. Les troisièmes journées internationales sur l’information graphique, Constantine , PP 229-234, 2007.
[Agr, 93] Agrawal, R., Imielinski, T., Swami, A., Mining Association Rules Between Sets
of Items in Large Data bases, In Proc. 1993 ACM-SIGMOD Int. Conf. Management of Data, Washington, DC, PP 207-216, 1993.
[Arm, 06] Armitage T., Getting started with oracle spatial, Oracle Corporation, United
enhanced K-means clustering algorithm, Journal of Zhejiang University, 2006. [Gar, 06] Gardarin, G., Le Data Mining : Méthodologie, support de cours, laboratoire
PRISM, Université de Versailles Saint-Quentin-en-Yvelines, 2006. [Gar, 99] Gardarin, G., Internet / Intranet et bases de données: Data web, Data Media,
Data warehouse, Data Mining, Edition Eyrolles, 1999.
Fouille de Données Spatiales Chapitre 1
29
[Gue, 94] Gueting R. H.: An Introduction to Spatial Database Systems, Special Issue on Spatial Database Systems of the VLDB Journal, Vol. 3, No. 4, October 1994.
[Gan, 87] Ganascia, J.G., Deux techniques d’apprentissages symboliques appliquées à la
construction de bases de connaissances. Thèse d’Etat. Université de paris-Sud, 1987.
[Han, 97] Han J., Koperski K., and Stefanovic N.: GeoMiner : A System Prototype for
Spatial Data Mining, Proc. 1997 ACM-SIGMOD Int'l Conf. on Management of Data (SIGMOD'97), Tucson, Arizona (1997) System prototype demonstration.
[Kau, 90] Kaufman, L., Rousseeuw, P. J., Finding Groups in Data: An Introduction to
Cluster Analysis, John Wiley & Sons, Inc., New York, NY, 1990. [Khi, 06] Khiat, S., Web Mining, Mini projet de post graduation : systèmes, réseaux et
bases de données Département d’informatique Université USTO, 2006. [Khi, 07] Khiat, S., Data Mining Industriel : Application à la maintenance AVAL /
SONATRACH, Mémoire en vue d’obtention du diplôme de magister, Université des sciences et de la technologies Oran, 2007.
[Kod, 94] Kodratoff Y., “Induction and the Organization of Knowledge”, Machine
Learning: A Multistrategy Approach, volume 4, 85-106. Morgan-Kaufmann, San Francisco CA, 1994
[Kop, 99] Kopersky, K., A progressive refinement approach to spatial data mining, a
thesis submitted in spatial fulfillment of the requirement for the degree of Doctor of Philosophy, Simon Fraser University, 1999.
[Lef, 01] Lefébure, R., Gilles Venturi, G., Data Mining : Gestion de la relation client,
personnalisations de site web ,Eyrolles, mars 2001. [Mar, 06] Margareth M., Rodrigo F., Ramalho Filho, A., Heterogeneous Geographic
Objects Interoperability. 8th brazilian symposium on GeoInformatics, 2006. [Mic, 06] Michel, W.B., Murray B., Lecture Notes in data Mining, World Scientific
Publishing Co. Pte. Ltd, 2006. [Ngr, 94] Ng, R., Han, J., Efficient and Effective Clustering Methods for Spatial Data
Mining, Proceedings of International Conference on Very Large Data Bases, Santiago, Chile, pp.144−155, 1994.
[Qui, 83] Quinlan, J.R., Learning efficient classification procedures and their
applications to chess endgames. In Machine Learning: An artificial Intelligence approach, Volume 1. Morgan Kaufmann, 1983.
[Rak, 97] Rakotomalala .R., Graphes D’induction, Thèse pour l’obtention d’un diplôme
de doctorat, université claude bernard, Lyon 1, 1997.
Fouille de Données Spatiales Chapitre 1
30
[Rab, 96] Rabaseda, L.S., Contribution à l’extraction autolatique de connaissance :
application à l’analyse cllinique de lamarche, Mémoire présentée pour l’obtention du diplôme de doctorat, Université Claude Bernard-Lyon 1, 1996.
[Sch, 04] Scharff, C., Introduction à la fouille de données, Cours de fouilles de données
Institut Francophone d'Informatique (IFI), Hanoi, Vietnam, 2004. [Wan, 97] Wang, W., Yang, J., Muntz, R., STING: A statistical information grid approach
to spatial data mining, in Proceedings of the International VLDB Conference, 1997.
1992. [Zei, 06a] Zeitouni, K., Analyse et extraction de connaissances des bases de données
spatiotemporelles. Habilitation à Diriger des Recherches Spécialité Informatique, Université de Versailles Saint-Quentin-en-Yvelines, 2006.
[Zei, 06b] Zeitouni, K., Chelghoum, N., Application du Data Mining Spatial pour la
prédiction du risque d’accidents de la circulation en milieu urbain : Extension du projet TOPASE par la prise en compte des interactions entre le réseau viaire et l’environnement urbain, Université de Versailles Saint-Quentin-en-Yvelines, 2006.
Chapitre 2
Apprentissage Artificiel par Graphe
d'Induction
Plan
2.1. Introduction
2.2. Notations
2.3. Exemple illustratif
2.4. Définitions et Principe
2.4.1. Critère de segmentation
2.5. Les méthodes à base de graphe d’induction
2.5.1. Les méthodes ID3 et C4.5
2.5.1.1. La méthode ID3 (Induction Decision Tree)
2.5.1.2. La méthode C4.5
2.5.2. La méthode CART (Classification and regression Trees)
2.5.3. La méthode SIPINA (Système Interactif pour les processus
d'Interrogation Non Arborescents)
2.5.3.1. passage de la partition À
2.5.3.2. Algorithme SIPINA
2.6. Conclusion
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
32
2.1. I NTRODUCTION
L’apprentissage automatique est certainement, en intelligence artificielle, le champ
d’application le plus fertile de ces dernières années. On sait de manière générale qu’une des
prérogatives de l’intelligence artificielle est d’apprendre à partir de l’expérience passée de
sorte que son comportement devient adaptable [Atm, 07].
Rakotomalala [Rak, 97] confirme que Simon interprète l’apprentissage automatique comme
un ensemble de changements dans un système qui permet à ce dernier d’accomplir mieux la
même tâche, ou, une tâche similaire dans la même population dans l’avenir. Dietterich [Die,
86] propose une approche plus fonctionnelle à l’apprentissage automatique qui permet de
l’évaluer, en le reliant à la notion de connaissance. Dietterich distingue ainsi trois niveaux de
description d’un système d’apprentissage :
• Un système qui ne reçoit aucune entrée et qui accomplit le mieux une tâche,
• Un système qui reçoit des connaissances en entrée, mais n’accomplit aucune induction,
• Et enfin, un système qui reçoit des entrées et en extrait des connaissances qui ne sont
connues ni implicitement ni explicitement, c’est l’apprentissage inductif.
C’est cette dernière qui nous intéresse dans cette thèse. Plus particulièrement
l’apprentissage qui vise à produire des règles générales à partir d’une série d’observations :
l’apprentissage supervisé.
Parmi les méthodes d’apprentissage supervisé nous citons les graphes d’induction [Rak,
05]. Les statisticiens sont les premiers qui ont construit des arbres de régressions [Mor, 63]
(où la variable à prédire est continue), pour donner ensuite lieu à toute la famille des
classifieurs AID [Kas, 80], CART de [Bre, 84] et [Hun, 66] avec la méthode ACLS. Les
méthodes de référence suivant cette voie sont : ID3 [Qui, 79] et C4.5 [Qui, 93].
Dans le domaine de la fouille de données, certains algorithmes produisent des graphes
d’induction, utilisés pour répartir une population d'individus en groupes homogènes, selon un
ensemble de variables discriminantes (l'âge, la catégorie socio-professionnelle, ...) en fonction
d'un objectif fixé et connu (chiffres d'affaires, réponse à un mailing, ...).
L’objectif derrière la construction des graphes d’induction est d’effectuer un classement.
On parle de méthode d’induction descendante et on trouve dans la littérature anglaise le terme
TDIDT (Top Down Induction of Decision Trees) [Rab, 96].
Le principe général des graphes d’induction s’exprime comme suit ; chercher à discriminer
les exemples en fonction d’attributs considérés. On cherche sur l’échantillon d’apprentissage
l’attribut qui discrimine le mieux les exemples, puis on dégage des sous ensembles
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
33
d’échantillons selon le nombre de valeurs que possède l’attribut. Le processus est itératif sur
chaque sous ensemble.
Jusqu’ici nous utilisons indifféremment les termes « Graphes » et « Arbres » d’induction.
Du point de vue de la théorie des graphes, un arbre est un graphe orienté sans cycle avec une
racine où à chaque nœud non terminal est assigné une variable X, à partir de laquelle est
induit une segmentation par des arcs [Rak, 97].
2.2. NOTATIONS
Soit Ω=ω,ω, … ,ω une population ou l’échantillon d’apprentissage, et soit A
l’algorithme d’apprentissage qui produit un modèle M. Dans cet apprentissage, connu
également sous le terme de classification, l’algorithme A utilise un vecteur d’attributs =, , … , . Dans l’apprentissage supervisé on vise toujours à partir d’un vecteur
d’attributs X que l’on nomme attributs prédictifs ou variable exogènes, de construire une
fonction . Les variables exogènes sont notées pour chaque ω ∈ Ω par :
ω=ω, ω, … , ω
Chaque variable exogène possède pour tout individu ω, des modalités ω avec
= 1, 2,…, p.
Y la variable à prédire, ou encore la variable endogène. Chaque individu peut être associé
à une classe correspondante notée ω . La variable Y prend ses valeurs dans l’ensemble des
étiquettes, appelé également ensemble des classes et noté C= !, !, … , !". Y : Ω $ %= !, !, … , !" $ ω !&
Nous adoptons la notation suivante pour la suite du chapitre. Soient : ' Le sommet de l’arbre ou l’échantillon considéré ( Le nombre d’exemples présents sur le sommet, %)*+ ' ( , Le nombre de classes !, !&, !" Les , classes, d’effectif (. sur le sommet '
Un attribut quelconque ayant - valeurs notées , , . - Le nombre de modalité d’une variable
' Le sous échantillon compose des exemples ayant la valeur
'= ∈ '; ω
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
34
(. Le nombre d’exemples dans le sous échantillon ' %)*+ ' (. ( Le nombre d’exemple dans l’échantillon ' appartenant à la classe ! d’où
(. = ∑ (-1
2' L’incertitude de sommet ' 23' L’incertitude de sommet ' après segmentation selon les valeurs de .
2.3. EXEMPLE ILLUSTRATIF
Un arbre de décision est un outil d'aide à la décision et à l'exploration de données. Il
permet de modéliser simplement, graphiquement et rapidement un phénomène mesuré plus ou
moins complexe. Sa lisibilité, sa rapidité d'exécution et le peu d'hypothèses nécessaires a
priori expliquent sa popularité actuelle.
Pour mieux illustrer le principe des graphes d’inductions, nous allons reprendre un
exemple extrait de [Qui, 93]. Il s’agit de prédire le comportement des sportifs (Jouer ;
variable à prédire) en fonction de données météo (Ensoleillement, Température, Humidité,
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
36
Figure 2.1. Arbre de décision
Sur chaque sommet de l’arbre est décrite la distribution de la variable à prédire. Dans le
cas du premier sommet qui est la racine de l’arbre, nous constatons qu’il y a 14 observations
dans notre fichier, 9 d’entre eux ont décidé de jouer (Jouer = oui), 5 ont décidé le contraire
(Jouer = non).
Ce premier sommet est segmenté à l’aide de la variable Ensoleillement, 3 sous-groupes ont
été produits. Le premier groupe à gauche (Ensoleillement = Soleil) comporte 5 observations,
2 d’entre elles correspondent à Jouer = oui, 3 à Jouer = non.
Ω>?@>ABC>1@D.>. = 1, 2, 3, 4, 5, avec une distribution des classes EFGH
Ω ω ω <ω =ω ω
ω ω= Soleil ω 9 75% ω I77.5 <ω = Oui ω = Oui
ω ω= Soleil ω 9 75% ω 977.5 <ω = Oui ω = Non
ω< ω<= Soleil ω< 9 75% ω< 977.5 <ω< = Non ω< = Non
ω= ω== Soleil ω= ; 9 64° et <75° ω= 977.5 <ω= = Non ω= = Non
ωJ ωJ= Soleil ωJ ; 9 64° et <75° ωJ< 77.5 <ωJ = Non ωJ = Oui
…. …. …. …. ….. …..
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
37
Chaque sommet est ainsi itérativement traité jusqu’à ce que l’on obtienne des groupes
suffisamment homogènes. Ces derniers correspondent aux feuilles de l’arbre et sont appelés
les sommets qui ne peuvent plus être segmentés.
Ω>?@>ABC>1ADKC>?B = 6, 7, 8, 9, avec la distribution de classes ELMH on peut dire que
cette partition doit s’arrêter à ce niveau puisque on a que des représentations pour la classe
(Jouer = oui).
Ω>?@>ABC>1ADKC>?B = 10, 11, 12, 13, 14, avec EGFH
Nous constatons que le second groupe est pure et ne contient que les individus portant
l’étiquette oui sur la variables Jouer, par opposition au premier et au troisième groupe sur
lesquels nous posons à nouveau des questions mais à l’aide des variable restantes humidité,
venteux afin d’améliorer la discrimination. On décide dans un premier temps de fixer le
seuil à 77.5% pour la variable humidité.
Ω>?@>ABC>1@D.>.,NK"OBéQRR.J% = 4, 5 avec la distribution de classes EFMH
Ω>?@>ABC>1@D.>.,NK"OBéTRR.J% = 1, 2, 3 avec la distribution de classes EMGH
De la même manière, nous partitionnons l’ensemble Ω>?@>ABC>1.K> mais en utilisant
l’attribut venteux :
Ω>?@>ABC>1.K>,U>B>K31DK = 10, 11 avec la distribution de classes EMFH
Ω>?@>ABC>1.K>,U>B>K31D = 12, 13, 14 avec la distribution de classes EGMH
Finalement, les feuilles de l’arbre de décision sont isolées en 5 groupes. La lecture d’un arbre
de décision est très intuitive, c’est ce qui fait son succès. L’arbre peut être traduit en base de
règles sans pertes d’informations. Si l’on considère la feuille la plus à gauche, nous pouvons
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
38
aisément lire la règle d’affectation suivante : « Si ensoleillement = soleil et humidité < 77.5%
alors jouer = oui »
2.4. DEFINITIONS ET PRINCIPE
Un graphe de décision est un graphe orienté sans cycle permettant de classifier une
variable à prédire contenant k classes. On a les propriétés suivantes [Rak, 97]:
• Il possède des feuilles terminales, chacune correspond à une classe.
• Un nœud non terminal s’appelle nœud de branchement, il possède un label qui
correspond à la variable de segmentation et possède l arcs correspondants au nombre
de modalité de cette variable.
• Le premier nœud s’appelle la racine, il ne possède pas de père.
L’apprentissage permet de mettre à jour un modèle de prédiction M permettant pour un
individu d’une population Ω dont on ne connais pas au préalable la classe à laquelle il doit
appartenir mais tout en connaissant les valeurs des variables exogènes ce qui permettra de
prédire la classe grâce au modèle M.
La détermination d’une fonction de classement à partir d’un graphe d’induction repose sur
trois éléments [Rab, 96] :
• Un ensemble d’attributs et d’exemples. Dans un premier temps, nous supposons que
les attributs sont tous de natures qualitatives.
• Une stratégie de partition qui dépend de :
• Un critère de sélection des attributs.
• Un critère de limitation de la taille du graphe.
• Une affectation à chaque feuille d’une classe.
Le critère de sélection d’attribut repose sur le choix d’une variable qui permet de réduire
l’incertitude dans laquelle on se trouve lorsque l’on veut classer des exemples.
2.4.1. CRITERE DE SEGMENTATION [RAK , 97]
Un graphe d’induction a pour objectif la prédiction de la classe à laquelle un individu ω sera affecté avec le plus de certitude possible. Donc il repose sur le choix du meilleur attribut
pour la segmentation des sommets.
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
39
Pour choisir la variable de segmentation, l’algorithme teste toutes les variables potentielles
et choisit celles qui maximisent un critère donné. Il faut que le critère utilisé caractérise la
pureté lors du passage du sommet à segmenter vers les feuilles produites par la segmentation.
Et soit ' = V, V, … , V& une partition de k éléments ou sommet engendrés par
l’ensemble des attributs X sur l’échantillon d’apprentissage Ω et I(S) la fonction
d’incertitude relative à cette partition définie par la fonction :
I : P Ω, $ 2WX
' $ 2' Avec P(Ω, X) ensemble des partitions et I(S) l’incertitude relative à chaque partition.
• Selon la loi de Shannon :
2'=Y ∑ (Z.[&1 log (Z.[
23'=∑ [._[._1 Y ∑ [a_[._&1 log [a_[._b • Selon l’entropie quadratique :
2' = ∑ [_[&1 c1 Y d[._[ ef
23' = ∑ [._[._1 g∑ [a_[._&1 h1 Y c[a_[._fij
Avec 23' est la mesure d’incertitude du sommet S après la segmentation selon le critère X. à
toute partitions S de Ω, on peut associer Table 2.3. de m lignes et de - colonnes.
Table 2.3. Tableau de contingence
X=x1 ……. X=xj ……. X=. Total
Y= c1 ( ……. ( ……. (. N1.
Y= ck ( …….. ( ……. (. Ni.
Y=cm (" …….. (" ……. (". Nm.
Total N.1 …….. N.j ……. (.. (
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
40
Propriété 1 : minimalité par répartition unimodale :
L’incertitude est minimale lorsque la répartition est homogène. ∀si, i=1,…..,k, ∃yj ∈ c1,…..,cm, P(yj/si)=1
D’une autre manière : ∀l ∈ 1,…..,k, ∃k ∈ 1,…..,k tel que nkl=n.l l’incertitude est
minimale.
Cette formule se traduit par pour toutes les feuilles dans une partition S il existe au moins une
classe majoritaire.
Propriété 2 : maximalité par équirépartition :
L’incertitude est maximale si dans chaque sommet les exemples ont la même probabilité
D’une autre manière : ∀l ∈ 1,…..,k, ∃k ∈ 1,…..,k tel que n1l=…….....=nkl .
Propriété 3 : symétrie :
L’incertitude d’une partition ne doit pas être sensible à l’ordre des sommets.
Si, les partitions S= s1,s2,s3 et S’= s’1,s’2,s’3, alors l’une doit être déduite par une simple
permutation des classes de l’autre. Donc I(S)=I(S’).
Propriété 4 : indépendance :
Le calcul des certitudes ne dépend que des sommets actifs lors d’une segmentation. Donc la
variation des incertitudes d’une partition ∆I(S) ne dépend que du sommet qui a été segmenté.
Si S= s1, s2, s3 et S’= s1, s3, s4, s5 où s4, s5 résultent de la segmentation du sommet s2.
Alors ∆I(S) = ƒ(I(s2),I(s 4,s5)), l’attribut qui minimise l’incertitude entre S et S’ et le
même qui que celui la minimise entre S2 et S4, S5.
Le principe de construction d’une graphe d’induction est basé sur la répartition des
ensembles d’individus en sous ensembles plus restreins qui minimisent l’incertitude 2'.
Généralement, la construction d’un graphe d’induction respect les étapes suivantes :
1. Calculer l’incertitude 2' de la partition '.
2. Pour chaque attribut et sommet candidat à la segmentation, on calcule 2'm où 'm représente la partition issue de ' après la segmentation d’un sommet selon l’attribut .
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
41
3. Sélectionner l’attribut qui maximise la réduction de l’incertitude ∆2'= 2' - 2'm et
effectuer la segmentation selon cet attribut. La réduction de l’incertitude peut être
appelée un gain.
4. ' o 'm 5. Si ' est une partition homogène alors affecter à chacune des feuilles une classe
majoritaire sinon aller en 1.
Le critère de sélection des attributs candidats est le gain ∆2'= 2' - 2'm de réductions de
l’incertitude. Parmi les critères possibles pour mesurer l’incertitude d’une partition 2' nous
distinguons ceux provenant de la théorie de l’information en utilisant la mesure d’entropie
comme l’entropie de Shannon ou quadratique.
2.5. L ES METHODES A BASE DE GRAPHE D’ INDUCTION
Après avoir décrit les principes des graphes d’inductions et leurs principales
caractéristiques ainsi que quelques notations générales. Nous nous focalisons sur les détails
des principales méthodes qui sont à l’origine de beaucoup de travaux. Ces dernières sont ID3,
C4.5, CART et SIPINA.
2.5.1. L ES METHODES ID3 ET C4.5
2.5.1.1. L A MÉTHODE ID3 (I NDUCTION DECISION TREE)
Il existe de nombreuses variantes pour construire des arbres de décision. L'algorithme ID3
(Induction Decision Tree ) développé par Quinlan [Qui, 83] utilise la mesure statistique
appelée Information de Gain. On constate expérimentalement que ces algorithmes sont très
performants : ils construisent rapidement des arbres de décision qui prédisent avec une assez
grande fiabilité la classe de nouvelles données. ID3 ne prend en compte que des attributs
nominaux. Son successeur, C4.5, prend en charge des attributs quantitatifs.
ID3 utilise la mesure d’incertitude basée sur l’entropie de Shannon [Sha, 48], L’entropie
exprime l’information nécessaire pour identifier la classe des exemples d’un échantillon, cela
revient à dire que l’entropie exprime l’incertitude dans laquelle on se trouve si l’on veut
classer les exemples, notion héritée de la thermodynamique où l'entropie d'un système est
d'autant plus grande qu'il est désordonné.
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
42
Soit * un nombre. Il existe un entier p unique tel que 2q Y 1 r * I 2q. Il faut alors p bits
pour coder *. On dit que p est la quantité d’information [Mic, 09].
Soit une variable qualitative qui prend - modalités , , … , .. Soit s la taille de la
population et (. la taille de la population prenant la valeur ) pour la variable . On a donc
les fréquences suivantes : t (1.( , ….., t. (u.(
La quantité d’information ou encore l’entropie est donné par v :
v YEt w log2 t x . . . x t. w log2 t. H
Le Gain d’information, noté y)Zs , , apporté par la segmentation du sommet ' selon les
valeurs de l’attribut est défini par la réduction d'entropie causée par la partition de selon
• Calcule de gain par rapport à la variable = Venteux ?
Venteux ? = Oui : v d3_1Ke = Y d® log ® x ® log ® e = 0,811
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
44
Venteux ? = Non : v d3_1[De = Y d< log < x < log < e = 1
Gain(Venteux) = v Y v d3_1Ce
= 0,940 – [(=) w (1) + (
®=) w (0,811)] = 0,048
Donc, la racine de l'arbre de décision testera l'attribut Perspective puisque elle maximise le
gain d’information.
La partition ' est engendrée par la variable Perspective, c’est une variable de segmentation.
Elle est composée de 3 modalités donc elle produit 3 sommets enfants. s ω ∈ Ω | Xω Soleil s ω ∈ Ω | Xω Couvert s< ω ∈ Ω | Xω Pluie La figure 2.2 illustre la construction des partitions ', '.
Figure 2.2. Construction de s , s , s , s<
Étape 3. La partition n’est pas pure et l’ensemble des attributs n’est pas vide, donc la partition
suivante ' est engendrée en calculant le gain selon les variables restantes : Température (°F),
Humidité (%),Venteux ?.
• Calcule de l’entropie Nœud Perspective = ´µ¶·¸¶ v= Y d35 log2 35 x 25 log2 25 e = 0,97
s
2
3
s
4
0
s<
3
2
s
9
5
X Soleil X Couvert X Pluie
Oui
Non
Oui
Non
Oui
Non
Partitions S
Partitions S
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
45
• Calcule de gain par rapport à la variable = Température
Température = Chaud : v d3_1KOe = Y d log x log e = 0
Température = Tiède : v d3_1 èe = Y d log x log e = 1
Température = Fraîche : v d3_1¡¢î£e = Y d log x log e = 0
Gain(Température) = v Y v d3_1Ce
= 0,97 – [(J) w (0) + (
J) w (1) + (J) w (0)] = 0,57
• Calcule de gain par rapport à la variable = Humidité
Humidité = Elevée : v d3_1¦.>Cé>e = Y d<< log << x < log < e = 0
• Calcule de gain par rapport à la variable = Venteux ?
Venteux ? = Oui : v d3_1Ke = Y d< log < x < log < e = 0,91
Venteux ? = Non : v d3_1[De = Y d log x log e = 1
Gain(Venteux) = v Y v d3_1Ce
= 0,97 – [(<J) w (0,91) + (
J) w (1)] = 0,024
Le Gain informationnelle le plus élevé est au niveau de la variable Humidité, cette dernière
est donc sélectionnée a cette étape.
La partition ' est engendrée par la variable Humidité, c’est une variable de segmentation.
Elle est composée de 2 modalités donc elle produit 2 sommets enfants. s= ω ∈ Ω | Xω Normal sJ ω ∈ Ω | Xω Elevée
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
46
La figure 2.3 illustre la construction de la partition '
Figure 2.3. Construction de s= , sJ
Étape 4. La partition n’est pas pure et l’ensemble des attributs n’est pas vide, donc il reste la
possibilité de segmentation sur le nœud s< en calculant le gain selon les variables restantes :
Température (F°), Venteux ?
• Calcule de l’entropie Nœud Perspective = ¹¶º¸·
v = Y d25 log2 25 x 35 log2 35 e = 0,97
• Calcule de gain par rapport à la variable = Venteux ?
Venteux ? = Oui : v d3_1Ke = Y d log x log e = 0
Venteux ? = Non : v d3_1[De = Y d<< log << x < log < e = 0
Gain(Venteux) = v Y v d3_1Ce
= 0,97 – [(<J) w (0) + (
J) w (0)] = 0,97
9
5
X Soleil X Couvert X Pluie
Oui
Non
Oui
Non
Oui
Non
Partitions S
Partitions S s
2
3
s
4
0
s<
3
2
X Normal X Elevée
Oui
Non
Oui
Non
s=
2
0
sJ
0
3
Partitions S
s
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
47
• Calcule de gain par rapport à la variable = Température
Température = Chaud : v d3_1KOe = 0
Température = Tiède : v d3_1 èe = Y d< log < x < log < e = 0.91
Température = Fraîche : v d3_1¡¢î£e = Y d log x log e = 1
Gain(Température) = v Y v d3_1Ce
= 0,97 – [ (<J) w (0.91) + (
J) w (1)] = 0,024
Le Gain informationnelle le plus élevé est au niveau de la variable Venteux, cette dernière est
donc sélectionnée a cette étape. C’est une variable de segmentation. Elle est composée de 2
modalités donc elle produit donc 2 sommets fils. s ω ∈ Ω | X<ω Oui sR ω ∈ Ω | X<ω Non
Figure 2.4. Construction de s , sR
9
5
X Soleil X Couvert X Pluie
Oui
Non
Oui
Non
Oui
Non
Partitions S
Partitions S s
2
3
s s<
3
2
X Normal X Elevée
Oui
Non
Oui
Non
s=
2
0
sJ
0
3
Partitions S
s
X< Non X< Oui Oui
Non
Oui
Non
s
3
0
sR
0
2
4
0
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
48
2.5.1.2. L A METHODE C4.5
Successeur d'ID3, C4.5 prend en compte les attributs numériques, c'est-à-dire des attributs
dont l'arité est élevée. La construction d'un arbre de décision par C4.5 est identique dans son
principe à la construction par ID3.
• Critère de sélection des attributs :
Il est apparu que le Gain d’information d’ID3 favorisait les attributs avec beaucoup de
valeurs. Ayant reconnu cette défaillance Quinlan utilise dans C4.5 [Qui, 93], [Qui, 90] une
variante du Gain d’Information.
La notion de Gain introduite plutôt tend à favoriser les attributs qui ont un nombre important
de valeurs. Pour contrecarrer cet effet, C4.5 utilise le rapport de gain au lieu du gain
d'information pour déterminer l'attribut à utiliser dans un noeud.
W)½½*¾ +¿ )Zs , y)Zs , '½-Z¾2s,
'½-Z¾2s, À Á ~3_1C~||C ∈ C.>K?@ O> 3_ log ~3_1C~|| Â
Cela ne favorisera pas la participation des attributs à la segmentations en ayant un nombre de
modalité important du moment où le '½-Z¾2s, sera élevé et qui est un calcule
d’entropie, ce qui affaiblira le W)½½*¾ +¿ )Zs , .
• Traitement des variables continues :
Ce sont les données entières ou réelles : l'âge, le revenu, La température, ... mais aussi les
données pouvant prendre un grand nombre de valeurs ordonnées. Si nous considérons le
sommet le plus à gauche sur la partition S du graphe donné dans la figure 2.4, ce dernier
couvre 5 individus et a été segmenté à l’aide de l’attribut humidité, le seuil de coupure utilisé
étant <77.5% Normal; 9 77.5% Élevée. Ce résultat est la conséquence de deux tâches
élémentaires :
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
49
• Sélectionner la meilleure valeur de coupure pour chaque variable continue.
• Sélectionner globalement la meilleure segmentation en comparant la pertinence de
tous les descripteurs : les descripteurs discrets et les descripteurs continus qui ont été
découpés en intervalles.
La première opération consiste à déterminer le meilleur point de coupure pour les variables
continues. Nous considérons le cas du découpage binaire. Les études évaluant l’opportunité
d’une discrétisation n-aire ont par ailleurs montré qu’il n’y avait pas d’avantage à réaliser ce
type de découpage, mis à part que l’on réduit visuellement le nombre de niveaux de l’arbre,
sans en réduire le nombre de feuilles [Rak, 05].
Figure 2.5. Sélection de la borne de discrétisation
Détaillons les calculs et commentons-les.
• Il y a 5 observations sur le sommet, avec 4 valeurs distinctes de la variable humidité .
Nous pouvons tester 3 points de coupures candidats.
• Généralement, le point de coupure est pris à mi-chemin entre 2 points successifs ; en
réalité toute valeur située dans l’intervalle pourrait être utilisée. Si on coupe entre deux
valeurs z et w (z < w) de l'attribut, le seuil q est fixé à Ã X Ä )
• Choisir s de telle manière que le gain d'information soit maximal.
Jouer Hum< 77.5 Hum>=77.5
Oui 2 0
Non 0 3
Jouer Hum< 77.5 Hum>=77.5
Oui 2 0
Non 1 2
Jouer Hum< 77.5 Hum>=77.5
Oui 2 0
Non 2 1
70 85 90 95
70 x 852 77.5
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
50
2.5.2. L A METHODE CART (CLASSIFICATION AND REGRESSION TREES)
La méthode CART est basée sur le même algorithme d’induction utilisé par la méthode
C4.5 et ses prédécesseurs pour la sélection des attributs candidats à la segmentation [Ber, 06].
Dans la méthode CART, une segmentation est toujours binaire. Les attributs d’une modalité >
2, sont systématiquement rendus binaires en regroupant les valeurs en deux nouvelles
modalités.
Les attributs symboliques à È valeurs nominales produisent 2&É Y 1 groupements binaires
possibles. Par exemple, un attributs nominal à quatre modalités produits sept groupement
possibles : 1 et 2, 3, 4 4 et 1, 2, 3 1, 2 et 1, 2 2 et 1, 3, 4 1, 2 et 3, 4 3 et 1, 2, 4 1, 3 et 2, 4 Lors de la construction du graphe ou bien l’arbre de décision, CART examine tous les
attributs, recherche pour chacun d’entre eux le meilleur regroupement binaire qui maximise le
gain d’incertitude [Rab, 96].
2.5.3. L A METHODE SIPINA (SYSTEME I NTERACTIF POUR LES PROCESSUS
D'I NTERROGATION NON ARBORESCENTS) [Z IG , 85], [Rab, 96]
Dans les méthodes présentées jusqu’ici, la démarche est arborescente et la seule opération
l’hors du passage d’une partition S à S X est la segmentation des exemples. Un graphe
d’induction dans ce cas là est désigné aussi par le terme Arbre de décision.
L’algorithme SIPINA procède de la même manière que les autres algorithmes (ID3, C4.5,...) à
l’exception du concept du fusionnement, le passage d’une partition S à S X ne se fais pas
uniquement par éclatement mais par fusionnement ou fusionnement éclatement, ce que
qualifie SIPINA comme une méthode non arborescente.
Si on passe à des éclatements on risque d’avoir un graphe qui est statistiquement faible par
diminution des effectifs. Pour cette raison nous procédons à des fusions ou des fusions –
éclatements en vue d’obtenir une meilleure partition,
Le gain d’incertitude, noté Gain, apporté par la segmentation du sommet ' selon les
modalité de la variables est définie comme suit :
2' = ∑ [._X Ë[X "Ë&1 c1 Y d [._X Ë[X "Ëef
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
51
23' = ∑ [_.[._1 g∑ [a_X Ë[_.X "Ë&1 h1 Y c [a_X Ë[_.X "Ëfij Gain ∆2'= 2' - 2'm
Le paramètre λ de la mesure d’incertitude contrôle la construction de l’arbre en pénalisant les
sommets de faibles effectifs. Le paramètre λ peut être fixé à 1 [Zig, 96].
Soit S= (s1|…|si|…|sj|…|sL) un tableau de contingence. S’il existe un doublet si , sj alors la
fusionnée S" =( s1|…|si+sj|…|sL) et tel que la qualité de partition de S" soit maximale par
rapport à T. Cette qualité est la minimisation de l’incertitude
si sj
t
0
…
0
t+1
0
…
0
Avec Si est le sommet de faible effectif, en fixant un effectif minimal noté (t), ainsi tout
sommet dont l’effectif est inférieur à (t) est indésirable même s’il est homogène.
La valeur de λÍ est telle que λÍ Î)E2'Í Y 2'XH 2'Í et 2'X sont calculées à partir de la mesure d’incertitude basée sur l’entropie
quadratique :
2'Í = BX ËBX "Ë c1 Y d BXËBX "Ëef x , Y 1 d ËBX "Ë c1 Y d ËBX "Ëef e
2'X = BXX ËBXX "Ë c1 Y d BXXËBXX "Ëef x , Y 1 d ËBXX "Ë c1 Y d ËBXX "Ëef e
et soit ÏÐ= 2'Í Y 2'X = Ð , Y 1 d "ËXBXBÑXB"ËBX"ËÑBXX "ËÑe
La valeur de λÍ est telle que ÒÓÒË = 0.
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
52
2.5.3.1. PASSAGE DE LA PARTITION ´¸ À ´¸XÔ
Soit la partition ' = V, V, V< de p éléments, Pour passer de la partition 'à la partition 'X
nous effectuerons les trois phases suivantes [Zig, 00] :
Phase 1 : Passage par regroupement
Sur la base de l’exemple de la figure 2.3 nous pouvons de générer trois partitions par
regroupement :
Figure 2.6. La partition courante '
'X= VU V, V< qui donne un gain d'incertitude 2' Y 2E'XH
'X= V, V U V< qui donne un gain d'incertitude 2' Y 2E'XH
'X<= V U V, V< qui donne un gain d'incertitude 2' Y 2E'X<H
La partition choisie est celle qui maximise le gain informationnel, c à d :
y)Zs Î)1,,< d2' Y 2E'XHe
Figure 2.7. Les partitions générées par le regroupement des pairs V, V, V<
S1
S3
S1 S2
S3
S1
S4
S2
S3
S4
S2
S4
S2
S3
S1
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
53
Phase 2 : Passage par Regroupement - Éclatement
Après avoir effectué toutes les fusions possibles présenté dans la Figure 2.7, on cherche par
éclatement des nœuds fusionnés selon toutes les variables possibles ; la meilleur partition
admissibles.
Figure 2.8. Regroupement-Éclatement du premier regroupement à l’aide de trois variables
Figure 2.9. Regroupement-Éclatement du deuxième regroupement avec trois variables
S1 S2
S3
S4
S5 S6
S3
S1 S2
S4
S5 S6
S1 S2
S3
S4
S5 S6
S1 S2
S3
S4
S5 S6
S3
S1 S2
S4
S5 S6
S3
S1 S2
S4
S5 S6
X1 X2 X3
X1 X2 X3
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
54
Parmi les différents gains, faire le choix du maximum positif. S'il existe au moins une
partition admissible on ré exécute la phase 1, sinon on passe à la phase 3.
Figure 2.10. Éclatement du premier regroupement avec trois variables
Phase 3 : Passage par Éclatement
Nous cherchons par éclatement sur chaque sommet de la partition ', avec toutes les
variables , la meilleure partition admissible.
Figure 2.11. Éclatement du premier sommet ' avec les trois variables
S2
S3
S1
S4
S5 S6
S2
S3
S1
S4
S5 S6
S2
S3
S1
S4
S5 S6
X1 X2 X3
S2
S3
S1 S2
S3
S1 S2
S3
S1
S5 S4 S5 S4 S5 S4
X1 X2 X3
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
55
Figure 2.12. Éclatement du premier sommet ' avec les trois variables
Figure 2.13. Éclatement du premier sommet '< avec les trois variables
2.5.3.2. Algorithme SIPINA
Début
1. Choix de la mesure d'incertitude, la formule de calcul utilisée est l'entropie
quadratique, donnée par :
2' = ∑ [._X Ë[X "Ë&1 c1 Y d [._X Ë[X "Ëef
2. Fixation du paramètre λ
S2
S3
S1
S5 S4
X1
S2
S3
S1
S5 S4
X2
S2
S3
S1
S5 S4
X3
X1 S2 S1
S5 S4
X1 S2 S1
S5 S4
S3
X1 S2 S1
S5 S4
S3 S3
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
56
3. Génération de la première partition à partir du sommet initial;
4. Tentative de fusion :
Si gain > 0 alors Générer la partition (fusion) et Aller à 4
5. Tentative de fusion — éclatement :
Si gain > 0 alors Générer la partition (fusion - éclatement)
et Aller à 4
6. Tentative d'éclatement , si succès (gain > 0)
Si gain > 0 alors Générer la partition (éclatement) et Aller à 4
7. Fin de l'algorithme.
Fin.
2.6 CONCLUSION
Nous avons présenté dans ce chapitre les méthodes à base de graphes d'inductions, ces
dernières se basent sur le même principe que celui adapté dans la construction d’un graphe,
c'est-à-dire segmenter récursivement les nœuds afin de réduire l'incertitude. Cependant, les
méthodes à base de graphes d'inductions diffèrent dans la stratégie de réduction de la taille du
graphe. Pour ce dernier point, on a vu que par rapport aux différentes méthodes utilisées dans
l’extraction des règles, la méthode SIPINA a pallié à l’inconvénient majeur de toutes les
autres qui est le faible apport statistique du graphe d’induction dû au faible effectif des
feuilles de ce dernier. Dans le chapitre suivant, nous étudions l’adaptation des graphes
d’inductions pour le traitement des données géo référencés et leurs optimisations en utilisant
une technique à base d’automate cellulaire.
Apprentissage Artificiel par Graphe d'Induction Chapitre 2
57
BIBLIOGRAPHIE
[Bre, 84] Breiman, L., J.H. Friedman, R.A., Olshen, C.L., Stone, Classification and Regression Trees, Chapman and Hall, 1984.
[Die, 86] Dietterich, T. G., Learning at the knowledge level, Machine Learning, PP
1966. [Kas, 80] Kass, G., An exploratory technique for investigating large quantities of
categorical data, Applied Statistics, PP 119-127, 1980. [Mor, 63] Morgan, J., Sonquist J.A., Problems in the Analysis of Survey Data, and a
Proposal, Journal of the American Statistical Association, PP 415-435, 1963. [Mic, 09] Micheli, A., Arbres de décision, Cours de Licence BI, Université de Paris
Diderot. [Qui, 79] Quinlan, J.R., Discovering rules by induction from large collections of
examples, Expert Systems in the Microelectronic age, PP 168-201, 1979. [Qui, 93] Quinlan, J.R., C4.5: Programs for Machine Learning, Morgan Kaufman, 1993. [Qui, 90] Quinlan, J.R, Probabilstic decision trees, In Machine Learning : An Artificial
Intelligence Approch, Volume 3, Morgan Kaufman, 1990. [Rak, 05] Rakotomalala, R., Arbre de decision, Revue MODULAR, 2005. [Rak, 97] Rakotomalala, R., Graphes d’induction, These pour l’obtention du Diplôme de
Doctorat, Université Claude Bernard-Lyon 1, 1997. [Sha, 48] Shannon. C., A mathematical theory of communication. The Bell System
Technical Journal, 27, 1948. [Zig, 85] Zighed, D.A., Méthodes et outils pour les processus d'interrogation non
arborescents. PhD thesis, Université Claude Bernard - Lyon 1, 1985. [Zig, 96] Zighed, D.A., Rakotomalala, R., Rabaseda, S., A discretization method of
continuous attributes in induction graphs. Proceedings of the 13th European Meetings on Cybernetics and System Research, PP 997-1002, 1996.
– créer une cellule dans CELRULE d’indice j = 5 : (ER, IR,SR)[5] ← (0, 1, 1) pour
représenter la règle si s et s, alors s-
– initialiser la matrice d’incidence de sortie : RS[10, 5] ← 1
La prochaine partition S, Selon le déroulement de la méthode SIPINA, est obtenue à
l’aide d’une segmentation du sommet s- en deux nouveaux sommets s. ,s/, au moyen de
l’une des variables XY restantes. La nouvelle partition qui apparaît sur le graphe est
S, = s. , s/.
Le déroulement de la procédure Scell est effectué de la même manière avec les sommets
s et s.
Classification Spatiale guidée par CASI Chapitre 3
84
La procédure FScell : En utilisant les procédure Fcell et Scell, la procédure FScell complète
l’initialisation des couches CELFACT et CELRULE, cette procédure est appliquée dans le cas
d’une Fusion-Éclatement.
Génération des règles conjonctives –COG–
Pour produire automatiquement des règles conjonctives, le module COG [Atm, 07]
coopère avec le moteur d’inférence cellulaire (CIE) qui utilise les mêmes fonctions de
transition BCDE et BFGHI avec la permutation de RE et de RS. En partant du nœud terminal vers
la racine s, et en utilisant le moteur d’inférence cellulaire CIE en chaînage arrière, avec le
mode asynchrone en profondeur, la génération des règles est représentée par la Figure 3.18.
Cycle Évolution de la base de Faits Règles
1 ;+, 2, ( 1 X ; 3
2 ;+, 2, ( 1, ;, 2+ ( 2 X ; 2
3 ;., 2 ( 1 X ;- 6
4 ;., 2 ( 1, ;- X ; 5
5 ;., 2 ( 1, ;-, ;, 2+ ( 1 X ; 1
6 ;/, 2 ( 2 X ;- 7
7 ;/, 2 ( 2, ;- X ;, 5
8 ;/, 2 ( 2, ;-, ;,, 2, ( 2 X ; 4
9 ;/, 2 ( 2, ;-, ;,, 2, ( 2 X ;, 2+ ( 2 X ; 2
Base de règles :
if 24 ( 1 et 23 ( 2 alors )3:;;% b:c $:$% d% ;3
if 22 ( 1 et 23 ( 1 alors )3:;;% b:c $:$% d% ;6
if 22 ( 2 et 24 ( 2 and 23 ( 2 alors )3:;;% b:c $:$% d% ;7
Figure 3.18. Génération des règles conjonctives
Nous procédons de la même manière sur le graphe de la Figure 3.9, nous obtenons les règles
conjonctives suivantes :
Classification Spatiale guidée par CASI Chapitre 3
85
: if 2+ ( 1 et 2 ( 1 alors classe majoritaire de ;.
: if 2+ ( 1 et 2 ( 2 alors classe majoritaire de ;/
+ : if 2+ ( 2 et 2, ( 1 alors classe majoritaire de ;+
, : if 2+ ( 2 et 2, ( 2 et 2 ( 1 alors classe majoritaire de ;.
- : if 2+ ( 2 et 2, ( 2 et 2 ( 2 alors classe majoritaire de ;/
La représentation de cette base de connaissance par la machine cellulaire est illustrée sur la
Figure 3.19. Sur l’accomplissement de ce processus, la machine cellulaire est prête à lancer la
phase de validation. En employant le même principe de base d’un moteur d’inférence et avec
les mêmes fonctions de transition BCDE et BFGHI, l’automate cellulaire avance d’une
configuration vers une autre, pour produire finalement l’ensemble ΩO (ensemble des individus
non classés).
Validation par automate cellulaire –CV–
Sur l’accomplissement de ce processus, le module CV (voir Figure 3.7) est prêt à lancer la
phase de validation. En employant le même principe de base du moteur d’inférence cellulaire
CIE, et les mêmes fonctions de transition BCDE et BFGHI, l’automate cellulaire avance d’une
configuration vers une autre, dans le but de produire l’ensemble ΩO (prévision fausse).
Fait i
Fait 1 2 ( 1
Fait 2 2 ( 2
Fait 3 2+ ( 1
Fait 4 2+ ( 2
Fait 5 2, ( 1
Fait 6 2, ( 2
Fait 7 '3:;; ;3
Fait 8 '3:;; ;6
Fait 9 '3:;; ;7
EF IF SF
0 1 0
0 1 0
0 1 0
0 1 0
0 1 0
0 1 0
0 1 0
0 1 0
0 1 0
CELFACT
Règle j
Règle 1
Règle 2
Règle 3 +
Règle 4 ,
Règle 5 -
ER IR SR
0 1 1
0 1 1
0 1 1
0 1 1
0 1 1
CELRULE
Classification Spatiale guidée par CASI Chapitre 3
86
Figure 3.19 Base de connaissances du graphe d’induction de la figure 3.9
Supposons que notre échantillon de test ΩP est composé de 10 accidents de la route
appartenant à deux classes 1 et 2, où la classe 1, accident de voiture, est la classe majoritaire
de ;+, et la classe 2, accident de piéton, est la classe majoritaire de ;. et ;/. La Figure 3.20
résume la validation de l’individu -.
Table 3.4 Exemple d’un échantillon test
RE R1 R2 R3 R4 R5
2 ( 1 1 1
2 ( 2 1 1
2+ ( 1 1 1
2+ ( 2 1 1 1
2, ( 1 1
2, ( 2 1 1
'3:;;% ;3
'3:;;% ;6
'3:;;% ;7
RS R1 R2 R3 R4 R5
2 ( 1
2 ( 2
2+ ( 1
2+ ( 2
2, ( 1
2, ( 2
'3:;;% ;3 1
'3:;;% ;6 1 1
'3:;;% ;7 1 1
ΩP 2+ 2, 2 '3:;;%
2 1 1 1
2 2 2 2
+ 1 1 2 2
, 2 1 2 2
- 1 1 1 2
. 2 1 2 1
/ 2 1 2 1
0 1 1 1 2
1 1 1 2 2
2 1 1 1
Classification Spatiale guidée par CASI Chapitre 3
87
Figure 3.20 Validation de - par l’automate cellulaire
3.5.2.2 COMPLEXITE THEORIQUE
La connaissance acquise, représentée et traitée à partir des exemples d’apprentissage est
sous forme booléenne. Ceci peut être réalisé en un temps d’exécution et un espace de
stockage réduit. Cela est due à l’utilisation d’une représentation booléenne des deux matrice
RE et RS et le traitement booléen effectué par les deux fonctions de transition BCDE et BFGHI.
Les deux processus intensifs de calcul dans CASI sont le stockage et la multiplication
booléenne des matrices d’incidences :
Stockage en mémoire de RE et RS : RE et RS sont des matrices booléennes qui peuvent être
exprimées sous forme de deux vecteurs de plusieurs séquences binaires. La quantité de
1 0 / . no , +
1 1 1 1 2 ( 1
1 1 1 1 1 1 2 ( 2
1 1 1 1 2+ ( 1
1 1 1 1 1 1 2+ ( 2
1 1 1 1 1 1 1 1 1 2, ( 1
1 2, ( 2
1 1 1 1 pMqrrN s
1 1 1 1 1 1 pMqrrN t
EF IF SF
0 1 0
0 1 0
0 1 0
0 1 0
0 1 0
0 1 0
0 1 0
0 1 0
CELLFACT
ER IR SR
0 1 1
0 1 1
0 1 1
0 1 1
0 1 1
CELLRULE
1 0 / . - , +
1 1 1 1 2 ( 1
1 1 1 1 1 1 2 ( 2
1 1 1 1 2+ ( 1
1 1 1 1 1 1 2+ ( 2
1 1 1 1 1 1 1 1 1 2, ( 1
1 2, ( 2
1 1 1 1 pMqrrN s
1 1 1 1 1 1 pMqrrN t
EF IF SF
1 1 1
0 1 0
1 1 1
0 1 0
1 1 1
0 1 0
0 1 0
1 1 0
CELLFACT
ER IR SR
1 1 0
0 1 1
0 1 1
0 1 1
0 1 1
CELLRULE
Classification Spatiale guidée par CASI Chapitre 3
88
mémoire requise pour stocker les matrices booléennes est de l’ordre de u, quand on
utilise u séquences.
Temps de traitement : le temps de traitement des matrices RE et RS est exécuté en u v $
étapes.
La multiplication binaire OP · Rx par exemple de, utilisée par fonction de transition BCDE
peut être exprimer par un algorithme séquentiel de multiplication booléenne vecteur-matrice
exécuter en un temps $u avec u est la dimension du vecteur Rx et u v $ est la dimension
de la matrice OP. La multiplication de O
P avec EF peut être exécuté, en utilisant la technique
de vectorisation booléenne de matrice, dans un temps ≈ O(r log q) où le produit intérieur
d’une ligne de OP avec le vecteur EF est réduit au calcul du bit de parité (bit-wise AND)
[Atm, 07][Abd, 08].
Après la génération des règles conjonctives cellulaires, le système CASI lance la phase de
validation. Soit ΩP=ω, ω, … , ωy une population des individus ou d’objets concernés par
le problème d’apprentissage. A cette population est associé un attribut particulier appelé
attribut classe noté Y .A chaque individu ω peut être associé sa classe Y (ω). On dit que la
variable Y prend ses valeurs dans l’ensemble des étiquettes, appelé également ensemble des
classes et noté C.
Y : ΩP & '= c, c, … , cy
& ω ( )*
En respectant la représentation élémentaire des matrices booléennes d’entrée / sortie RE et
RS, le temps d’exécution globale de OP (r× (q−m)) · EF(q−m) et RS(m×r) · ER(m) est
proportionnel à V
z (O(r log(q − m)) + O(r logm)), avec m q et où w désigne la longueur du
mot après vectorisation des matrices booléennes.
3.6. CONCLUSION
Dans ce chapitre nous avons abordé la fouille de données spatiale comme un cas particulier
de la fouille de données classique par l’enrichissement avec des requêtes de voisinage. Étant
donné la diversité de solutions logicielles existantes implémentant une multitude
d’algorithmes d’apprentissage, nous avons choisi dans un premier temps d’intégrer les
fonctionnalités d’analyse des propriétés de voisinages. Nous avons réussi donc à ramener
Classification Spatiale guidée par CASI Chapitre 3
89
plusieurs couches thématiques en une table relationnelle afin d’appliquer n’importe quel
algorithme de classification.
Ensuite, nous avons présenté le système : CASI, Induction Symbolique par Automate
Cellulaire [Atm, 07][Bel, 08]. Cette étude, concerne la représentation et l’optimisation, par
automate cellulaire, le graphe engendré par la méthode SIPINA, la génération des règles de
production conjonctives et la validation. Dans le contexte de l’analyse des accidents de la
route, le graphe d’induction engendré est un modèle qui nous permettra de voir de plus prêt
les relations entre l’accident est sont environnement ainsi que les éléments responsables de ce
dernier, donc le graphe d’induction engendré facilitera l’identification des problèmes de
sécurité sur le réseau routier en vue de proposer des mesures de sécurité pour y remédier.
Classification Spatiale guidée par CASI Chapitre 3
90
BIBLIOGRAPHIE
[Abd, 08] Abdelouhab, F., Atmani, B., Intégration automatique des données semi-structurées dans un entrepôt cellulaire, Troisième atelier sur les systèmes décisionnels, Mohammadia, Maroc, PP 109—120, 10 et 11 octobre 2008.
[Abd, 07] Abdiche, F., Hamdadou, D. : Proposition d'un Modèle pour l’Exploitation des Bases de Données à Références Spatiales Distantes. Les troisièmes journées internationales sur l’information graphique, PP 229-234, Constantine, 2007.
[Arm, 06] Armitage, T., Getting started with oracle spatial, Oracle Corporation, United
In Proc. 17th VLDB Conference, Barcelona, Spain, PP 81-90, 1991. [Atm, 07] Atmani, B., Beldjilali, B., Knowledge Discovery in Database: Induction Graph
and Cellular Automaton, Computing and Informatics Journal, V.26, N°2, PP 171-197, 2007.
[Bel, 08] Beldjilali, B., Atmani, B., Traitement des coefficients d’incertitudes dans les
arbres de décision : application sur la machine cellulaire CASI, Journée des Jeunes Chercheurs en Informatique JCI'08, Université 08 Mai 45, Guelma – Algérie, PP 223—234, 20 Mai 2008
[Che, 02] Chelghoum N., Zeitouni K., Boulmakoul A., A Decision Tree for Multi-layered
Spatial Data, In 10th International Symposium on Spatial Data Handling (SDH’02), Ottawa, Canada, PP 1-10, 2002
[Cho, 96] Chopard, B., Luthi, P. O., Queloz, P. A., Cellular automata model of car traffic
in a two-dimensional street network, Physica, 1996. [Den, 00] Denouni, N., El-Amrani, A., Validation de l’approche cellulaire ACSIR,
application au diagnostic des pannes du PC, Mémoire de fin d’études pour obtenir le Diplôme d’Ingénieur d’Etat en Informatique. Université Es-Senia, Oran, 2000.
[Ege, 91] Egenhofer, M. J., Reasoning about Binary Topological Relations, Proceeding
of the 2nd International Symposium. on Large Spatial Databases, Zurich, Switzerland, PP 143-160. 1991.
[ELG, 99] El-Goutni, A., Vers un automate cellulaire pour détection des incohérences
dans les bases de connaissances, Mémoire de fin d’études pour obtenir le Diplôme d’Ingénieur d’Etat en Informatique. Université Es-Senia, Oran, 1999.
[Est, 99] Ester, M., Frommelt, A., Hans-Peter, K., Jörg S., Spatial Data Mining:
Database Primitives, Algorithms and Efficient DBMS Support. Data Mining and Knowledge Discovery, Kluwer Academic Publishers, 1999.
Classification Spatiale guidée par CASI Chapitre 3
91
[Fay, 96] Fayyad, U.M., Djorgovsky, S.G., Weir, N., Authomating the Analysis and
Cataloging of Sky Survey. AAAI/MIT Press, Menlo Park, CA, 1996. [Ham, 00] Hamidi, T., Zidi, M., Les automates cellulaires pour des systèmes
d’apprentissage, Mémoire de fin d’études pour obtenir le Diplôme d’Ingénieur d’Etat en Informatique. Université Es-Senia, Oran, 2000.
[Ker, 02] Kernerl, B. S., Klenov, S. L., Wolf, D. E., Cellular automata approach to
three-phase traffic theory, Physica, 2002. [Kop, 98] Koperski K., Han J., Stefanovic N. An Efficient Two-Step Method for
Classification of Spatial Data, Proceeding. Symposium on Spatial Data Handling (SDH ‘98), Vancouver, Canada, 1998.
[Nan, 94] Nandi, S., Kar, B. K., Chaudhuri, P. P., Theory and Applications of Cellular
Automata in Cryptography, IEEE Transaction on Computers, Vol 43 (12), PP 1346-1357, 1994.
[Rig,02] Rigaux, P., Scholl, M., Voisard, A.: Spatial databases with application to GIS.
Morgan Kaufmann Publishers Inc, San Francisco, United States, 2002. [Sch, 99] Schonfisch, B., Roos, A., Synchronous and asynchronous updating in cellular
automata, Biosystems, PP 123-143, 1999. [Sir, 02] Sirakoulis, G. C., Karafyllidis, I., Thanailakis, A., A cellular automaton
methodology for the simulation of integrated circuit fabrication processes, Future Generation Computer Systems, Vol 18, PP 639-657, 2002.
[Wol, 99] Wolfrman, D. E., Cellular automata for traffic simulations, Physica, Vol 263,
438-451, 1999. [Wol, 86] Wolfram, S., Theory and Application of Cellular Automata, World Scientific,
CGISS : un Système d'Information Géographique Cellulo-Symbolique Chapitre 4
109
4.5.2. GENERATION DES REGLES CONJONCTIVES
À partir de notre échantillon d’apprentissage issu de l’analyse de voisinage, nous
appliquons le principe de la machine cellulaire au sein du module IGSS. Ce dernier aide à
l’extraction des règles conjonctives qui seront insérées dans la base de règles du système
CASI.
Figure 4.14 Génération des règles conjonctives par l’IGSS
L’interprétation des règles est comme suit :
R1: IF (X1 = 2 et X2 = 2 et X3 = 2) => 1
Si l’accident est à proximité d’un carrefour, un établissement scolaire ainsi qu’un marché
alors il est de type accident de Piéton.
Cette règle est consistante car un établissement scolaire ainsi qu’un marché est un endroit de
forte population. La présence d’un carrefour augmente la possibilité d’un accident vue le flux
élevé de circulation de voitures.
R2: IF (X1 = 1 et X3 = 2) => 2
CGISS : un Système d'Information Géographique Cellulo-Symbolique Chapitre 4
110
Si l’accident est à proximité d’un marché mais loin d’un Carrefour alors il est de type
accident de voiture.
Les accidents qui sont prêts d’un marché sont de type accident de voiture, cela est justifiable
par le fait que la présence des véhicule de transport des acheteurs et des livreurs dans un
endroit restreint augmente la possibilité d’accident entre les véhicules.
R3: IF (X1 = 2 et X2 = 1 et X3 = 2) => 1
Si l’accident est à proximité d’un carrefour et un marché mais loin d’un établissement scolaire
alors il est de type piéton.
Cette règle est consistance aussi car au moins deux facteurs d’un accident de type piéton sont
présents : la forte population autour d’un marché est le carrefour d’où le flux élevé de
circulation des voitures.
R4: IF (X2 = 1) => 1
Si l’accident est loin d’un carrefour alors il est de type piéton.
Cette règle ne représente pas un grand intérêt du fait qu’elle possède une seule prémisse donc
elle n’est pas porteuse d’information consistante.
En exploitant les propriétés de voisinages entre les objets spatiaux de trois couches
thématiques, nous avons réussi à extraire trois règles utiles et porteuses d’information qui
n’ont pas été implicite au préalable.
4.6. CONCLUSION
Dans ce chapitre nous avant présenté notre module d’analyse spatiale pour l’extraction des
propriétés de voisinage entre les accidents de la routes et les différentes couches thématiques.
L’utilisation d’oracle comme SGBD nous a parmi d’exploiter des tables relationnelles ainsi
que toutes leurs avantages comme structure de données standard pour le stockage de données.
À l’aide des fonctions d’administration des bases de données, ce SGBD nous a facilité la
manipulation des tables qui ont été un ensemble de fichiers hétérogènes au départ.
Après la sélection et la transformation des données à références spatiales, nous avons
réussi à construire un échantillon d’apprentissage facilement exploitable par notre plateforme
IGSS, développée au sein de notre équipe de recherche, d’où la réussite du premier objectif.
CGISS : un Système d'Information Géographique Cellulo-Symbolique Chapitre 4
111
À la fin du processus de l’extraction des connaissances à partir des bases de données à
références spatiales, nous avons réussi à extraire quatre règles dont trois sont consistantes. ces
dernières n’ont pas été implicites d’où notre deuxième objectif.
CGISS : un Système d'Information Géographique Cellulo-Symbolique Chapitre 4
112
BIBLIOGRAPHIE
[Abd, 08] Abdiche, F., Atmani, B., Vers un système d’unification des systèmes d’informations géographiques, International Conference on Web and Information Technologies ICWIT '08, PP 140—146, 2008.
[Atm, 07] Atmani, B., CNSS : Cellular Neuro Symbolic System, Thèse pour l’obtention du diplôme de doctorat d’Etat en informatique, université Es Senia, Oran, 2007.
[Lau, 93] Laurini, R., Les base des données en géomatiques, Traité des nouvelles technologies, Hermé, Paris, 1993.
[Rig, 02] Rigaux, P., Scholl, M., Voisard, A., Spatial databases with application to GIS.
Morgan Kaufmann Publishers Inc, SanFrancisco, United States, 2002.
[Mar, 02] Marmonier, P., L’information géographique, document de l'Ecole Nationale des Sciences Géographiques ENSG, France, 2002.
[Mic, 03] Michael, D., Integrating ArcGIS to Enterprise Oracle Spatial Using Direct
Connect. Twenty-Third Annual ESRI International User Conference GIS Serving Our World, San Diego, California, United States, 2003.
Conclusion générale et perspectives
113
CONCLUSION GENERALE ET PERSPECTIVES
Le thème principal abordé dans cette thèse concerne l’extraction de la connaissance à partir
des données à références spatiales (ECDRS). Il s’agit d’extraire des règles pour la description
ou la prévision d’un phénomène du monde réel qui est dans le cadre de cette recherche les
accidents de la route de la ville d’Oran. Ces derniers atteignent le domaine de la géographie et
plus précisément le stockage des données à références spatiales en plusieurs couches.
Cette thèse a démontré que l’exploitation des relations de voisinages entre les objets
géométriques des différentes couches thématiques joue un rôle important dans l’ECDRS.
En exploitant l’IGSS, on a pu fournir un outil complet qui permettra d’exécuter une
multitude d’algorithmes de fouille de données ainsi que l’application de la machine cellulaire
sur des données à références spatiales.
La stratégie proposée pour l’intégration du SIG et l’IGSS au sein d’un processus d’ECDRS
nous a permis de développer les deux modules du CGISS séparément. Etant donné que le SIG
est un composant très complexe, son utilisation dans ce travail était limitée à l’exploitation
des cartes géographique y compris son extraction à partir de la base de données spatiales ou
l’affichage et les modifications thématiques afin de permettre aux utilisateurs de comprendre
les phénomènes de façon très proche de la réalité et de sélectionner les données utiles pour le
processus de l’ECDRS. D’autres fonctionnalités élémentaires d’analyse spatiale sont aussi
disponibles afin de calculer le voisinage d’un objet par rapport aux autres.
Les données fournies au module SIGFDS ont été soumis à une forte structuration vue que
leurs formats de stockage dans les registres des agents de la direction de la sureté de la wilaya
d’Oran ne permettent pas un traitement automatique. D’où la localisation manuelle de
l’accident sur la carte en passant par l’intégration dans une base de données Oracle pour palier
au problème d’hétérogénéité des sources de données.
Le rôle de l’IGSS était l’application du principe cellulaire pour l’optimisation du graphe
d’induction, ainsi que l’extraction des règles sous une représentation binaire. Cet outil
développé au sein de l’équipe BIOSIF a prouvé dans plusieurs revus et conférences son
optimalité par rapport aux autres méthodes à base de graphes d’inductions.
Donc on a divisé le problème de l’ECDRS en deux sous tâches : Une analyse spatiale pour
construire l’échantillon d’apprentissage à l’aide du SIGFDS ensuite l’extraction des règles par
IGSS.
Conclusion générale et perspectives
114
Ce projet reste modeste par rapport aux problématiques qu’il aborde, mais représente une
initiative dans ce sens et met l’accent sur les principes qui peuvent être une plateforme pour
les prochains travaux.
L’application CGISS propose une adaptation des techniques de la fouille de données
classiques pour la fouille de données spatiales. L’utilisation d’un SIG est importante car elle
peut décrire chaque couche thématique d’une façon détaillée et cibler les zone à forte
fréquence d’accidents.
Nos perspectives consistent à exploiter le système CGISS, que nous avons développé, pour
contribuer à la mise en service d’une cyber infrastructure destinée à la prévention et la
sécurité routière.
Résumé :
La fouille de données spatiales est un processus d’exploration des connaissances implicites dans des bases de données volumineuses à références spatiales. Le caractère géométrique des objets que ces bases de données représentent, rend le processus de fouille de données plus compliqué contrairement aux bases de données classiques. La représentation de la connaissance est aussi une question fondamentale dans la conception d’un système d’apprentissage automatique, car le mode de représentation utilisée peut réduire la complexité en terme de traitement et de stockage.
L’objectif de ce travail consiste d’abord à ramener le problème de la fouille de données spatiales en une analyse de voisinage à l’aide du module SIGFDS, afin de construire l’échantillon d’apprentissage. Ensuite, l’outil IGSS déjà développé au sein de l’équipe de recherche BIOSIF est utilisé afin d’expérimenter une machine cellulaire pour des systèmes d’inférence à base de règles qui se base sur les graphes produits par la méthode SIPINA.
Mots Clé :
Bases de données à références spatiales, Fouille de donnée spatiales, Apprentissage symbolique, Graphe d’induction, Automate cellulaire, Extraction de règles.
Abstract:
Data mining is a process of exploration of the tacit knowledge in spatial databases. The geometrical character of the objects which these databases represent makes the process of data mining more complicated contrary to the traditional databases. The representation of knowledge is also a fundamental question in the design of a machine learning system, because the mode of representation used can reduce complexity in term of treatment and storage.
Initially, the purpose of this project consists in bringing back the problem of spatial data mining in an analysis of vicinity using the SIGFDS component, in order to build the training dataset. Then, the IGSS tool which is already developed within the BIOSIF team is used in order to try out a cellular machine for system inference; according to rules which are based on the graphs produced by SIPINA.