30/12/2011 1 Introduction à la fouilles de données Partie 1 1 Informatique décisionnelle é é Chargement périodique des données Pas de modifications des données Interrogations non régulières, planifiées, parfois longues des systèmes d’information décisionnels Exemples de questions: Quelles sont les ventes du produit X pendant le i Ad l' é Bd l éi C? trimestre A de l'année B dans la région C ? Comment se comporte le produit X par rapport au produit Y? Quel type de client peut acheter le produit X? Exemple: OLAP (Codd) 2
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
30/12/2011
1
Introduction à la fouilles de données
Partie 1
1
Informatique décisionnelle
é éChargement périodique des donnéesPas de modifications des donnéesInterrogations non régulières, planifiées, parfois longues des systèmes d’information décisionnels Exemples de questions:
Quelles sont les ventes du produit X pendant le i A d l' é B d l é i C ?trimestre A de l'année B dans la région C ?
Comment se comporte le produit X par rapport au produit Y?Quel type de client peut acheter le produit X?
Exemple: OLAP (Codd)2
30/12/2011
2
Exempleshttp://www amazon frhttp://www.amazon.frLe panier de la ménagèreConnaissez-vous?
3
QuestionsEst-ce une bonne idée de faire de la publicitéEst ce une bonne idée de faire de la publicité de musique rap dans des magazines pour personnes âgées?Est-ce que vous saviez que les compagnies de cartes de crédit peuvent suspecter un vol de carte, même si le propriétaire de la carte n’est pas encore au courant?n’est pas encore au courant?Est-ce que vous savez pourquoi les entreprises liées à la bourse sponsorisent les tournois de golfs télévisés?
4
30/12/2011
3
Plan et objectifs
Comprendre ce qu’est la FDD?KDDModèlesApplications de la FDDpp ca o s de aRecherche en FDD
5
Plan et objectifs
Définition du Data MiningPourquoi le Data Mining ?Description du processus KDD (Knowledge Data Discovery)ApplicationsTâches et Techniques du Data Mining
6
30/12/2011
4
Données et informationLes entreprises produisent des quantitésLes entreprises produisent des quantités énormes de données
Les données sont des ressources de valeurBesoin de techniques pour analyser les d é t t i d i f ti /données et extraire des informations / connaissances automatiquement
Données = faitsInformation = modèle / motif (pattern) dans les données
7
Fouille de données (FDD)Fouille / découverte de connaissances dansFouille / découverte de connaissances dans les données ou création d’un modèle des donnéesProcessus qui emploie des techniques d’apprentissage automatiques et intelligentes pour analyser et extraire des connaissances, de grandes quantités de donnéesde grandes quantités de données 98% de ce que les humains apprennent proviennent de reconnaissance des formes [Kurzwell]
8
30/12/2011
5
Pourquoi la FDD maintenant?Des machines plus puissantesDes machines plus puissantesExistence d’algorithmes de fouille de donnéesCollections et sauvegardes des données amélioréesDomaine à la confluence de différents domaines: base de données, statistiques, , q ,intelligence artificielle, visualisation, parallélisme…Domaine pluridisciplinaire
9
KDD*Découverte de connaissances dans lesDécouverte de connaissances dans les données (KDD)Application de méthodes scientifiques à la fouille de donnéesLe processus de KDD est composé de:
Sélection des donnéesPré-traitement des donnéesTransformation des donnéesLa fouille de donnéesInterprétation et évaluation des modèles
10
30/12/2011
6
Systèmes pour la FDD*Composition:Composition:
Bases de données, entrepôts de données…Serveurs de bases de données ou d’entrepôts de donnéesBases de connaissancesEngins de fouille de donnéesModules d’évaluation du modèleInterfaces graphiques pour l’utilisateur
11
ApprendreApprendre quelque chose de nouveauFaits (vrais ou faux)Concepts
Ensembles de symboles, objets et évènements groupés parce qu’ils partagent les mêmes caractéristiques
Procéduresé é é éCours d’actions réalisées étape par étape pour
atteindre un butPrincipes
Plus haut niveau d’abstractionRègles ou vérités qui sont les bases pour d’autres vérités 12
30/12/2011
7
Apprentissage superviséModèle inductif où l’apprenant considère unModèle inductif où l apprenant considère un ensemble d’exemples, et infère l’appartenance d’un objet à une classe en considérant les similarités entre l’objet et les éléments de la classeLes classes sont étiquetées préalablement (sports et loisirs art et culture )(sports et loisirs, art et culture…)La plupart des algorithmes (classification, estimation, prédiction) utilisent l’apprentissage supervisé
13
Apprentissage non superviséConstruction d’un modèle et découverte desConstruction d un modèle et découverte des relations dans les données sans référence àd’autres donnéesOn ne dispose d'aucune autre information préalable que la description des exemplesLa segmentation le regroupement (cluster)La segmentation, le regroupement (cluster), la méthode des k-moyennes et les associations sont des méthodes d’apprentissage non supervisées
14
30/12/2011
8
Concepts / ModèlesLes concepts sont les résultats de la fouille deLes concepts sont les résultats de la fouille de donnéesIls montrent les relations dans les données ou groupent des éléments fondés sur leur ressemblance Structures:
Arbres de décisionRèglesRèglesRéseaux de neuronesÉquations mathématiques…
Parfois, pas de réelles structuresExemples / InstancesRegroupements (clusters) 15
Exemples de modèlesVue classique:Vue classique:
Si salaire annuel >= 30,000 et années de service >= 5 et propriétaire = vrai alors risque de défaut de paiement = fauxAge(X, “jeune”) et Salaire(X,”élevé”) ⇒Classe(X,”A”)Classe(X, A )
Vue probabilistique:La plupart des personnes qui ont un bon crédit sont propriétaires
16
30/12/2011
9
Exemples de modèlesVue exemplaire:Vue exemplaire:
Un exemple est déterminé comme une instance d’un conceptLes exemples suivants sont considérés comme ayant un bon crédit:
é éSalaire = 32,000, années = 6, propriétaireSalaire = 52,000, années = 16, locataire
17
Exemples de modèles Les exemples peuvent être présentés parLes exemples peuvent être présentés par des tables:
Age Salaire Classe TotalJeune Elevé A 1402
Jeune Bas B 1038
Agé Elevé C 786
18
30/12/2011
10
Exemples de modèles
Diagrammes:HistogrammeCamembert
A b d dé i iArbre de décision Cube de données
19
Applications: Grande Distribution
Vente par Définition deVente par correspondance
Définition de profils des
clientsAnalyse du
panier de la ménagère
Prédiction des taux de réponses à des listes de diffusionsOptimisation des g
Analyse des données liées au paiement (adresse, sexe…)
préapprovisionnementsPropositions spécifiques
de services à des individus profilésÉlimination des
“mauvais” clients20
30/12/2011
11
Application: AssurancesAssurances Définition desAssurances Définition des
profils des clients
Analyse des données personnelles (sexe, age, profession…)Analyse des données
Élimination des “mauvais” clientsTarification du Analyse des données
sur les éléments àassurer (type de voiture, puissance…)Analyse des sinistres
contratÉvaluation des
risquesDétection des
fraudes21
Application: BanquesBanques Définition desBanques Définition des
Analyse du cours de la bourse pour pouvoir passer des ordres automatiques de transactions boursièresde transactions boursières
25
Application: Production Industrielle
Production Prédiction etProduction industrielle
Prédiction et détection
Analyse du fonctionnement de la chaîne de productionAnalyse des produitsAnalyse des ventes
Optimisation de la productionAdéquation au marchéAnticipation des défautsDi ti dAnalyse des ventes
Analyse de questionnaires (prospectifs, satisfaction…)
Diagnostics de pannes
26
30/12/2011
14
Application: InternetInternet Détermination
d’un thème, d’un sujet
Analyse automatique de sites toile
Aide à l’organisation des messages reçusMoteur de
recherche évoluéAnalyse
automatique du courrier électronique
recherche évolué(design des systèmes)Décision de
marketingEspionnage 27
Application: Sport
Le système SCOUT d’IBM analyse les matches de baskets de la NBA pour faire gagner les Knicks de New York
28
30/12/2011
15
FDD: Sur quelles données? (1)Base de données relationnellesBase de données relationnellesBase de données transactionnelles Base de données orientées objetsBase de données relationnelles objetsB d d é t llBase de données temporelles
Exemple: Bourse
29
FDD: Sur quelles données? (2)Base de données spatialesBase de données spatiales
Exemples: Images provenant de satellites, cartes géographiques
Base de données hétérogènesBase de données “héréditaires”Entrepôts de données*pBase de données textuelles
Les données sont décrites par des motsExemples: La toile, le courrier électronique, les pages html/xml
30
30/12/2011
16
FDD: Sur quelles données? (3)Base de données multimédiaBase de données multimédia
Des techniques de recherche et de stockage avancées sont nécessaires
La toile / InternetBesoins de techniques particulières àBesoins de techniques particulières àchaque type de données pour la fouille de données
31
On ne peut pas tout faire…et tout n’est pas de la FDDLa FDD offre des outils et des méthodologiesLa FDD offre des outils et des méthodologies qui peuvent aider à comprendre les données et faire des prédictionsMais:
Il n’y a pas de solution générale et complètement automatiqueL t h i d i t êt d té blèLes techniques doivent être adaptées au problème considéréLa FDD doit être compriseLa FDD ne remplace pas les experts, mais les assiste
32
30/12/2011
17
FDD: Vrai ou faux?
Liste des produits vendus pendant le premierListe des produits vendus pendant le premier semestre 2011 par le supermarché «Carrefour»Total des ventes de produits de «Carrefour» en 2011Les personnes qui achètent un ordinateur achètent parfois une imprimante en même ac ète t pa o s u e p a te e ê etempsLes personnes de moins de 25 ans répondent aux offres «A» avec une probabilité de 90%
33
Les fonctions de la FDD: Classification et Prédiction
Classification et prédictionpDiviser / grouper les instances dans des classes spécifiques pour des prédictions futuresPrédire des valeurs (classes) inconnues ou manquantes
Exemples: Les clients loyaux / les clients non-loyauxLes transactions frauduleuses / les transactions générales
é é àPrédire les taux de réponses à une offre Algorithmes:
Arbres de décision, règles de classification, classification Bayésienne, algorithmes génétiques, algorithme des k plus proches voisins, l’approche Rough Sets, régression linéaire et non linéaire
34
30/12/2011
18
Les fonctions de la FDD: Regroupement (Cluster)
é éRegroupement d’éléments de proche en proche fondé sur leur ressemblanceLes classes sont inconnues, et sont donc crééesExemple:
Segmentation du marchéSegmentation du marchéAlgorithmes:
K-moyennesRéseaux neuronaux
35
Les fonctions de la FDD:Associations
éMise en relation des donnéesExemples:
Le panier de la ménagère:Les personnes qui achètent des chips achètent aussi du coca-cola
Age(X, “20…29”) et Salaire(X, “20000…29000”) ⇒A h (X ”PC”) [ 2% fidAchete(X,”PC”) [ support = 2%, confidence = 60%]
L’algorithme A Priori pour obtenir des règles d’association
36
30/12/2011
19
Les fonctions de la FDD: Caractérisation et Discrimination
C té i ti Gé é li l d é d’Caractérisation: Généralise les données d’une classeExemple:
Général profil des régions pluvieuses Discrimination: Compare les données d’une classe avec une ou plusieurs classes (declasse avec une ou plusieurs classes (de comparaison)
Gestion des anomaliesExemple:
Les ventes de logiciels qui ont augmenté de 10% par rapport à celles qui ont augmente de 30% 37
LogicielsLogiciels très sophistiquésLogiciels très sophistiquésWekaDBMinerXLMinerSQL SSQL Server…
38
30/12/2011
20
Recherche en FDD (1)Méthodologies de FDD et interaction avecMéthodologies de FDD et interaction avec l’utilisateur:
Découvrir différentes sortes de connaissances dans les donnéesLa FDD interactiveIncorporation d’un ensemble de connaissances particulièresparticulièresLangage de FDD (tel que SQL, DMQL)Présentation et visualisation des résultatsTraitement du bruit et des données incomplètesÉvaluation du modèle
39
Recherche en FDD (2)PerformancePerformance
Efficacité et adaptabilité des algorithmes de FDDAlgorithmes incrémentaux et parallèles
Diversité des types de donnéesypDonnées relationnelles et données complexesBases de données hétérogènes…
40
30/12/2011
21
RéférencesJ Han and M Kamber Data MiningJ. Han, and M. Kamber. Data MiningConcepts and Techniques. MorganKaufmann Publishers, 2006.Ian H. Witten and Eibe Frank. Data Mining:Practical Machine Learning Tools andTechniques, Morgan Kaufmann Publishers,20062006.