Data warehouse 1© A. EL OUARDIGHI
COURS: DATAWAREHOUSE/DATAMININ
G
Pr. A. EL OUARDIGHI
Cours Datawarehouse Travaux dirigés Datawarehouse Cours Datamining Travaux pratiques sur un outil de Datamining
Evaluation: 2 Contrôles continus:
1 contrôle continu écrit en Datawarehouse 1 contrôle continu en Datamining
1 Examen Final (Ecrit et Pratique en Dataminin / Datawarehouse)
Data warehouse 2© A. EL OUARDIGHI
Chaîne de l’extraction des connaissances à partir d’une base de données
Zone de préparation des données
Zone de présentation des données
Outils d’accès aux données
Data warehouse 3© A. EL OUARDIGHI
DATA WAREHOUSES
ARCHITECTURES, FONCTIONNALITES
CONCEPTION
ANALYSE MULTIDIMENSIONNELLE
Pr. A. EL OUARDIGHI [email protected]
Data warehouse 4© A. EL OUARDIGHI
PLAN
Partie 1: Notions et architectures d’un DW
Partie 2: OLAP et Analyse multidimensionnelle
Partie 3: Modélisation et Conception d’un DW
Partie 4: Travaux dirigés
Data warehouse 5© A. EL OUARDIGHI
Partie 1: Notions et Architecture d’un DW
Les concepts de datawarehouse
Différence entre OLAP et OLTP
Contenu d'un DW
Architecture d’un DW
Notion de Datamart
Data warehouse 6© A. EL OUARDIGHI
Historique
Phase 1 Système de gestion de bases de données: modèle relationnel Feuille de calcul & tableur
Phase 2 Système interactif d’aide à la décision
Système d’aide aux dirigeants
Phase 3 Entrepôt de données (Datawarehouse)
Exploitation des données (Datamining)
Data warehouse 7© A. EL OUARDIGHI
Systèmes transactionnels vs Systèmes décisionnels
Systèmes transactionnels
Les outils traditionnels de gestion et d’exploitation des données sont du type
transactionnel ou OLTP (On-Line Transaction Processing)
L’exploitation de données tourné vers la saisie, le stockage, la mise à jour, la
sécurité et l’intégrité des données.
Le système transactionnel est développé pour gérer les transactions
quotidiennes
Conserver la cohérence de la BD, c’est l’objectif et la difficulté principale
pour l’informatique de production
Data warehouse 8© A. EL OUARDIGHI
Systèmes transactionnels Ces bases de données supportent habituellement des applications particulières
telles que les inventaires de magasins, les réservations d’hôtel, etc
Le contenu est fait de données actuelles, pas d’archives
Les données sont très détaillées (détails de chacune des transactions)
La mise à jour s’effectue par de nouvelles transactions
Très souvent plusieurs de ces systèmes existent indépendamment les uns des autres
Systèmes transactionnels vs Systèmes décisionnels
Data warehouse 9© A. EL OUARDIGHI
Opérations dans les systèmes transactionnels
Ajout
Effacement
Mise à jour des enregistrements
Requêtes simples Interrogations et modifications fréquentes des données par de nombreux
utilisateurs
Nécessité de conserver la cohérence des données
Les systèmes transactionnels garantissent la cohérence des données
Systèmes transactionnels vs Systèmes décisionnels
Data warehouse 10© A. EL OUARDIGHI
Systèmes décisionnels Le terme décisionnel « Business Intelligence » couvre l'ensemble des
technologies permettant en bout de chaîne d'apporter une aide à la décision.
SI capable d'agréger les données internes ou externes et de les transformer en
information servant à une prise de décision rapide.
SI capable de répondre à certains types de questions: Quelles sont les ventes du produit X pendant le trimestre A de l'année B dans
la région C ?
Comment se comporte le produit X par rapport au produit Y?
Quel type de client peut acheter le produit X?
Est-ce qu'une baisse de prix de 10% par rapport à la concurrence ferait
redémarrer les ventes du produit X ?
Systèmes transactionnels vs Systèmes décisionnels
Data warehouse 11© A. EL OUARDIGHI
Ces exemples mettent en évidence les faits suivants: Les questions doivent pouvoir être formulées dans le langage de l’utilisateur
en fonction de son secteur d’activité: Service marketing, Service économique, service relation clients…
La prévision des interrogations est difficile car elles sont du ressort de
l’utilisateur. Les questions vont varier selon les réponses obtenus:
Si le produit X s’est vendu moins bien que l’année précédente, il va être utile
de comprendre les raisons: Détailler les ventes par région par type de magasin,
…
Des questions ouvertes vont nécessiter la mise en place de méthodes
d’extraction d’informations
Systèmes transactionnels vs Systèmes décisionnels
Data warehouse 12© A. EL OUARDIGHI
Des données aux décisions Données
Points de ventes, géographiques, démographiques, …
Informations I vit dans R, I est âgé de A, …
Connaissances Dans X%, le produit Y est vendu en même temps que le produit Z, …
Décisions Lancer la promotion de Y & Z dans R auprès des clients plus âgé que A, ...
Systèmes transactionnels vs Systèmes décisionnels
Data warehouse 13© A. EL OUARDIGHI
Notion de donnée et notion d'information
Date Heure Numéro Destinat Durée Coût
5-3 07:05 00216188 France 04:08 6.305-3 16:12 00216188 Italie 08:10 11.506-3 09:40 00441216 UK 10:20 16.456-3 20:20 04426576 Espagne 16:30 8.40
6 8 10 12 14 16 18 L M M J V S D
Data warehouse 14© A. EL OUARDIGHI
Applications transactionnelles v.s Applications décisionnelles
Les applications transactionnelles sont constituées de traitements
factuels de type OLTP ( On Line Transaction Processing)
Les applications d'aide à la décision sont constituées de
traitements ensembliste de type OLAP: On Line Analytical Processing
Data warehouse 15© A. EL OUARDIGHI
Différence entre OLTP et OLAP
Orientées sujet
Structure évolutive
Résumées, agrégées
Historiques
Pas de mises à jour
Accessibles de façon ensembliste
Servent les managers
Traitées de façon heuristiques
Requêtes complexes
Non sensibles aux performances
Des centaines
100 Go -To
Orientée application
Structure statique
Détaillées
Actuelles
Peuvent être mises à jour
Accessibles de façon individuelle
Servent les agents opérationnels
Traitées de façon répétitive
Requêtes simples
Sensibles aux performances
Des milliers
100 Mo - Go
Conception
Données
Utilisateurs
Utilisation
Nb Utilisat.Taille BD
Data warehouse 16© A. EL OUARDIGHI
Incompatibilités des deux activités
Les deux activités (OLTP & OLAP) ne peuvent co-exister sur des
données dans le même système d’information: leurs objectifs de
performance sont exactement opposés:
Les requêtes complexes et lourdes dégradent les performances des
systèmes transactionnels,
Les données temporelles sont réparties entre données actuelles et
données archivées, rendant la vue historique des données très difficile
ou impossible,
Le support efficace d’une activité OLAP nécessite la constitution
d’un système d’information propre: Le Datawarehouse
Data warehouse 18© A. EL OUARDIGHI
Datawarehouse : Définition
« Collection de données orientées sujets, intégrées, non volatiles et
historisées, organisées pour le support du processus d’aide à la
décision »
Base de données dans laquelle sont déposées après nettoyage et
homogénéisation les informations en provenance des différents
systèmes de production de l’entreprise OLTP
Data warehouse 19© A. EL OUARDIGHI
Caractéristiques des données d'un DW
Orientées sujet
Organisées autour de sujets majeurs de l’entreprise
Données pour l’analyse et la modélisation en vue de l’aide à la décision, et non pas pour les opérations et transactions journalières
Vue synthétique des données selon les sujets intéressant les décideurs
Intégrées
Construit en intégrant des sources de données multiples et hétérogènes
BD relationnelles, fichiers, enregistrements de transactions
Les données doivent être mises en forme et unifiées afin d’avoir un état cohérent
Phase la plus complexe (60 à 90 % de la charge totale d’un projet DW)
Data warehouse 20© A. EL OUARDIGHI
Caractéristiques des données d'un DW
Historisées
Fournies par les sources opérationnelles
Matière première pour l'analyse
Stockage de l'historique des données, pas de mise à jour
Un référentiel temps doit être associé aux données
Non volatiles
Conséquence de l’historisation
Une même requête effectuée à intervalle de temps, en précisant la date référence de l’information donnera le même résultat
Stockage indépendant des BD opérationnelles
Pas de mises à jour des données dans le DW
Data warehouse 21© A. EL OUARDIGHI
Contenu d'un DW
Des données agrégées
Correspondent à des éléments d’analyse, par des fonctions de calcul,
représentatifs des besoins utilisateurs
Constituent déjà un résultat d’analyse et une synthèse de
l’information
Des données détaillées
Reflète les événements les plus récents
Les intégrations des données vont être réalisées à ce niveau
Le volume d’informations est plus importants
Data warehouse 22© A. EL OUARDIGHI
Contenu d'un DW
Des méta données Elles constituent une véritable aide en ligne permettant de connaître
les informations contenue dans le DW
Regroupent l’ensemble des informations concernant le DW
Décrivant la structure des données de base ou agrégées
Donnant des explications sur la qualité, le mode de dérivation, la durée de vie, le rafraîchissement, etc...
Les principales informations sont destinées: Aux utilisateurs
Aux équipes responsable des processus de transformation des données du système de production vers le DW
Aux équipes responsables des processus de création des données agrégées à partir des données détaillées
Aux équipes d’administration de la BD
Data warehouse 23© A. EL OUARDIGHI
Données multidimensionnelles
Notion de dimension
C’est une catégorie linguistique selon laquelle les données sont
organisées:
Nom d’un attribut
Valeur d’un attribut
Autre élément linguistique
Data warehouse 24© A. EL OUARDIGHI
Représentation
DuréeMoy Départ. Mois
InfoPhysPhiloDroitInfoPhysPhiloDroitInfoPhysPhiloDroit
5518712891518122225
JanvJanvJanvJanvFévrFévrFévrFévrMarsMarsMarsMars
199819981998199819981998199819981998199819981998
Année
Data warehouse 25© A. EL OUARDIGHI
... Autres représentations
Janv Févr Mars
InfoPhysPhiloDroit
55
187
1289
15
18122225
1998
Data warehouse 26© A. EL OUARDIGHI
... Autres représentations
Droit Philo Phys Info Ja
nv F
évr
Mar
s
30252015105
1998
Data warehouse 27© A. EL OUARDIGHI
... Autres représentations
25 22 12 18
15 9 8 12
7 18 5 5
Droit Philo Phys Info
Janv
Févr
Mars
1995 1996 19971998 7 1
85 5
5
12
18
Data warehouse 28© A. EL OUARDIGHI
Extraction de données sources Réalisation d'un transformateur de modèles
Modèle source vers modèle du DW
Règles de transformation entre modèles hétérogènes
Le nettoyage et l’intégration des données Avant l'intégration des données, il convient de les expurger
d'incohérences diverses:
Problèmes de formats ou de description
Problème de codage
Problème de nommage
Problèmes de valeurs manquante
Fonctionnalités d’un DW
Data warehouse 29© A. EL OUARDIGHI
L’agrégation des données Synthèse produisant des indicateurs pour l'aide à la décision
utilisant:
Fonctions statistiques simples: Sum, Min, Max,
Analyse de données
Techniques d'apprentissage
Fonctionnalités d’un DW
Data warehouse 30© A. EL OUARDIGHI
Notion de Datamart
Définition:
« C'est un sous-ensemble de données dérivées du DW ciblé sur un sujet unique».
Caractéristiques: Orienté vers un sujet unique
Ex: comportement de la clientèle
Données fortement agrégées Le DW joue le rôle de source et d'historique pour le Datamart
Organisation multidimensionnelle (cubique) Dont l'une des dimensions indique souvent le temps
Lien dynamique avec le DW Association entre valeur agrégée et valeur détaillée
Interfaces simples et conviviales
Data warehouse 31© A. EL OUARDIGHI
Les domaines d’application du décisionnel
La gestion de la relation client (CRM) est l’un des premiers champs d’application de la Business Intelligence.
Le contrôle de gestion pour l’analyse des coûts, l’analyse de la rentabilité, l’élaboration budgétaire, les indicateurs de performance…
La direction marketing pour le ciblage, le pilotage de gamme, les applications de géomarketing, de fidélisation clients…
La direction commerciale pour le pilotage des réseaux, les prévisions des ventes, l’optimisation des territoires…
Les ressources humaines pour la gestion des carrières, La direction de la production pour l’analyse qualité, la prévision
des stocks, la gestion des flux, la fiabilité industrielle… La direction générale pour les tableaux de bord, indicateurs de
pilotage, gestion d’alertes…
Data warehouse 32© A. EL OUARDIGHI
Exemple: un DW dans les télécoms
Sujets Suivi du marché: lignes installées/ désinstallées, services et options
choisis, répartition géographique, répartition entre public et différents secteurs d'organisations
Comportement de la clientèle
Comportement du réseau
Historique 5 ans pour le suivi du marché 1 an pour le comportement de la clientèle 1 mois pour le comportement du réseau
Sources Fichiers clients élaborés par les agences Fichiers de facturation
Data warehouse 33© A. EL OUARDIGHI
Requêtes
Comportement clientèle Nombre moyen d'heures par client, par mois et par région
Répartition des appels clients sur la journée
Nombre moyen de numéros appelés
Durée moyenne d'une communication urbaine par ville
Durée moyenne d'une communication internationale
Etc …
Data warehouse 34© A. EL OUARDIGHI
Une architecture d’un Datawarehouse possède les caractéristiques suivantes :
Les données sources sont extraites du systèmes de bases de données et de fichiers
Les données sources sont nettoyées, transformées et intégrées avant d’être stockées dans l’entrepôt
L’entrepôt est en lecture seulement et est défini spécifiquement pour la prise de décision
Les usagers accèdent à l’entrepôt à partir d’interfaces et d’applications (clients)
Architectures d’un Datawarehouse
Data warehouse 35© A. EL OUARDIGHI
Architecture d’un Datawarehouse
Architecture centralisée
Il s’agit de la version centralisée et intégrée d’un entrepôt regroupant l’ensemble des données de l’entreprise. Les différentes bases de données sources sont intégrées et sont distribuées à partir de la même plate-forme physique
Data warehouse 36© A. EL OUARDIGHI
Architecture fédérée
Il s’agit de la version intégrée d’un entrepôt où les données sont introduites dans les marchés de données orientés selon les différentes fonctions de l’entreprise
Architecture d’un Datawarehouse
Data warehouse 37© A. EL OUARDIGHI
Architecture trois-tiers
Il s’agit d’une variante de l’architecture fédérée où les données sont divisées par niveau de détail
Architecture d’un Datawarehouse
Data warehouse 38© A. EL OUARDIGHI
Conception
Construction
Administration
Restitution
Les différentes phases du Datawarehouse
Data warehouse 39© A. EL OUARDIGHI
Les différentes phases du Datawarehouse
Conception:
Il s’agit de définir la finalité du DW :
Piloter quelle activité de l’entreprise ;
Déterminer et recenser les données à entreposer ;
Définir les aspects techniques de la réalisation ;
Modèle de données ;
Démarches d’alimentation ;
Stratégies d’administration ;
Définition des espaces d’analyse ;
Mode de restitution, …
Data warehouse 40© A. EL OUARDIGHI
Les différentes phases du Datawarehouse
Construction:
Travail technique:
Extraction des données des différentes BD de production
(internes ou externes)
Nettoyage des données, règles d’homogéinisation des données
sous formes de méta données.
Techniques d’alimentation
Data warehouse 41© A. EL OUARDIGHI
Les différentes phases du Datawarehouse
Administration:
Elle est constituée de plusieurs tâches pour assurer:
La qualité et la pérennité des données aux différents
applicatifs ;
La maintenance;
La gestion de configuration;
L’organisation, l’optimisation du SI;
La mise en sécurité du SI.
Data warehouse 42© A. EL OUARDIGHI
Les différentes phases du Datawarehouse
Restitution:
C’est le but du processus d’entreposage des données.
Elle conditionne le choix de l’architecture du DW et de sa
construction.
Elle doit permettre toutes la analyses nécessaires pour la
construction des indicateurs recherchés.
Data warehouse 43© A. EL OUARDIGHI
Partie 2 : OLAP et Analyse multidimensionnelles
Concepts OLAP
Les 12 règles OLAP
Configurations OLAP
Opérations OLAP
Outils OLAP
Data warehouse 44© A. EL OUARDIGHI
OLAP
« Il s’agit d’une catégorie de logiciels axés sur l’exploration et l’analyse rapide des données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation ».
OLAP vise à assister l’usager dans son analyse en lui facilitant l’exploration de ses données et en lui donnant la possibilité de le faire rapidement.
L’usager n’a pas à maîtriser des langages d’interrogation et des interfaces complexes
L’usager interroge directement les données, en interagissant avec celles-ci
Data warehouse 45© A. EL OUARDIGHI
Modèles conceptuel
Approche multidimensionnelle Souvent représentés par une structure à plusieurs dimensions Une dimension est un attribut ou un ensemble d’attributs:
Temps Géographie Produits Clients
Les cellules contiennent des données agrégées appelées Faits ou Indicateurs: Nombre d’unités vendues Chiffre d’Affaire Coût
Représentations:
Relations,
Cube de données,
hyper cube de données
Data warehouse 47© A. EL OUARDIGHI
Agrégation des données
Plusieurs niveau d’agrégation Les données peuvent être groupées à différents niveaux de granularité
Les regroupements sont pré-calculés,
Par exemple, le total des ventes pour le mois dernier calculé à partir de la somme de toutes les ventes du mois.
Granularité : niveau de détail des données emmagasinées dans un Datawarehouse.
Data warehouse 49© A. EL OUARDIGHI
Partie 2 : OLAP et Analyse multidimensionnelles
Concepts OLAP
Les 12 règles OLAP
Configurations OLAP
Opérations OLAP
Outils OLAP
Data warehouse 50© A. EL OUARDIGHI
Les 12 règles OLAP ( Edgar Frank Codd, 1993)
Vue multidimensionnelle: Comme par exemple lorsqu’on souhaite analyser les ventes selon plusieurs
dimension: par produit par région ou par période. Transparence du serveur OLAP à différents types de logiciels
Elle s'appuie sur une architecture ouverte permettant à l'utilisateur d'implanter le système OLAP sans affecter les fonctionnalités du système central.
Accessibilité à de nombreuses sources de données Le système OLAP doit donner accès aux données nécessaires aux analyses
demandées. Les outils OLAP doivent avoir leur propre schéma logique de stockage
des données physiques
Data warehouse 51© A. EL OUARDIGHI
Les 12 règles OLAP ( Edgar Frank Codd, 1993)
Performance du système de Reporting L'augmentation du nombre de dimensions ou du volume de la base de
données ne doit pas entraîner de dégradation visible par l'utilisateur.
Architecture Client/Serveur La plus part des données pour OLAP sont stockées sur des gros systèmes et
sont accessibles via des terminaux . Il est donc nécessaire que les outils OLAP soient capables de travailler dans un environnement Client/Serveur.
Data warehouse 52© A. EL OUARDIGHI
Les 12 règles OLAP ( Edgar Frank Codd, 1993)
Dimensions Génériques Toutes les dimensions doivent être équivalentes en structure et en calcul. Toute fonction qui s'applique à une dimension doit être aussi applicable à
une autre dimension.
Gestion dynamique des matrices creuses Le schéma physique des outils OLAP doit s'adapter entièrement au modèle
d'analyse spécifique créé pour optimiser la gestion des matrices creuses
Data warehouse 53© A. EL OUARDIGHI
Les 12 règles OLAP ( Edgar Frank Codd, 1993)
Support Multi-Utilisateurs
Les outils OLAP doivent supporter les accès concurrents, Garantir l'intégrité et la sécurité afin que plusieurs utilisateurs accèdent au
même modèle d'analyse.
Opération sur les dimensions
Les opérations doivent pouvoir s'effectuer sur toutes les dimensions.
Manipulation intuitive des données
Toute manipulation doit être accomplie via une action directe sur les cellules
du modèle sans utiliser de menus ou des chemins multiples à travers
l'interface utilisateur.
Data warehouse 54© A. EL OUARDIGHI
Les 12 règles OLAP ( Edgar Frank Codd, 1993)
Souplesse et facilité de constitution des rapports La création des rapports dans les outils OLAP doit permettre aux utilisateurs
de présenter comme ils le désirent des données synthétiques ou des résultats en fonction de l'orientation du modèle.
Nombre illimité de niveaux d'agrégation et de dimensions Tout outil OLAP doit gérer au moins 15 à 20 dimensions.
Data warehouse 55© A. EL OUARDIGHI
Partie 2 : OLAP et Analyse multidimensionnelles
Concepts OLAP
Les 12 règles OLAP
Configurations OLAP
Opérations OLAP
Outils OLAP
Data warehouse 56© A. EL OUARDIGHI
Configurations OLAP
Selon le type de base de données accédé, plusieurs configurations sont possibles :
OLAP Multidimensionnelle: MOLAP
OLAP Relationnelle: ROLAP
OLAP Hybride: HOLAP
Data warehouse 57© A. EL OUARDIGHI
MOLAP(OLAP Multidimensionnel)
Caractéristiques MOLAP s’appuis sur une base de données multidimensionnelle Implémentent les cubes comme des matrices en mémoire Nombreuses opérations sur les cubes (Pivot, Slice & Dice, ...)
Exemple Hyperion, Essbase, http://www.hyperion.com/fr/products.cfm
Data warehouse 58© A. EL OUARDIGHI
ROLAP (OLAP Relationnel)
Caractéristiques ROLAP implémentent les cubes comme des tables relationnelles L’utilisateur interroge directement la base de données relationnelle Configuration supportant les gros volumes de données
Exemples Microstrategy, Microstrategy 7i, http://www.microstrategy.fr/Software/OLAP.asp Business Objects, Business Objects, http://www.businessobjects.fr/
Data warehouse 59© A. EL OUARDIGHI
HOLAP (OLAP Hybride)
OLAP Hybride
Architecture mixte: Désigne les outils d’analyse multidimensionnelle qui récupèrent les données dans des bases relationnelle ou multidimensionnelle.
Présente l’avantage de mixer les avantages des deux systèmes MOLAP et ROLAP
Data warehouse 60© A. EL OUARDIGHI
Partie 2 : OLAP et Analyse multidimensionnelles
Concepts OLAP
Les 12 règles OLAP
Composantes OLAP
Configurations OLAP
Opérations OLAP
Data warehouse 61© A. EL OUARDIGHI
Opérations sur la structure des cubes
Pivot (Rotation)
Switch (Permutation)
Split (Décomposition)
Data warehouse 62© A. EL OUARDIGHI
Pivot: Rotation par rapport à l’un des axes de dimensions
1996 19971998
25 22 12 18
15 9 8 12
7 18 5 5
Droit Philo Phys Info
Janv
Févr
Mars
7 18
5 59 12 25 8
18 24 7 15
58
15
1712
25
86
18
Janv FévrMars
199619971998 <> <> <> 8
<> <> <> 6
25 22 12 18
Droit Philo Phys Info
25 22
12 1815 9 8 12
7 18 5 5
18
6
8
12
17
25
5
8
15
Pivot
Data warehouse 63© A. EL OUARDIGHI
Swich: Permutation de valeurs de dimensions
1996 19971998
25 22 12 18
15 9 8 12
7 18 5 5
Droit Philo Phys Info
Janv
Févr
Mars
7 18
5 59 12 25 8
18 24 7 15
58
15
1712
25
86
18
1996 19971998
25 22 18 12
15 9 12 8
7 18 5 5
Droit Philo Info Phys
Janv
Févr
Mars
7 18
559 12 258
18 24 715
5
257
<>8
<>
<>
<>12
Switch
Data warehouse 64© A. EL OUARDIGHI
Split: Décomposition
1996 19971998
25 22 12 18
15 9 8 12
7 18 5 5
Droit Philo Phys Info
Janv
Févr
Mars
7 18
5 59 12 25 8
18 24 7 15
58
15
1712
25
86
18
Janv 7 9 18
Févr 15 <> <>
Mars 25 <> <>
1998 1997 1996Droit
Janv 5 8 15
Févr 12 <> <>
Mars 18 <> <>
1998 1997 1996Info
Janv 18 12 24
Févr 9 <> <>
Mars 22 <> <>
1998 1997 1996Philo
Janv 5 25 7
Févr 8 <> <>
Mars 12 <> <>
1998 1997 1996Phys
Split
Data warehouse 65© A. EL OUARDIGHI
Opérations sur le contenu des cubes
Roll-up (passage au grain supérieur)
Drill-down (passage au grain inférieur)
Slice (Restriction)
Dice (Projection)
Data warehouse 66© A. EL OUARDIGHI
Changement de granule (Roll-up / Drill-down)
1996 19971998
25 22 12 18
15 9 8 12
7 18 5 5
Droit Philo Phys Info
Janv
Févr
Mars
7 18
5 59 12 25 8
18 24 7 15
58
15
1712
25
86
18
<> <> <> 10,6
<> <> <> 18
11,3 18 12,3 9,3Janv
Févr
Mars
Droit Philo Phys InfoPériode 11,3 18 12,3 9,3
9,3
18
10,6
1996 19971998
15,6 16,3 8,3 11,6
Droit Philo Phys Info
Trimestre 1
15,6 16,3 8,3 11,6
161610,3
Roll-up (P
ériode)
Roll-up (*.)
Roll-up(Trim
)
13,5
13,513,5
Data warehouse 67© A. EL OUARDIGHI
Restriction (Slice)
1996 19971998
25 22 12 18
15 9 8 12
7 18 5 5
Droit Philo Phys Info
Janv
Févr
Mars
7 18
5 59 12 25 8
18 24 7 15
58
15
1712
25
86
18
S’applique sur les valeurs du cube ou les valeurs des dimensions
19971998
15 9
7 18
Droit Philo
Janv
Févr
7 18
9 12
<>
1218
9
Data warehouse 68© A. EL OUARDIGHI
Projection (Dice)
1996 19971998
25 22 12 18
15 9 8 12
7 18 5 5
Droit Philo Phys Info
Janv
Févr
Mars
7 18
5 59 12 25 8
18 24 7 15
58
15
1712
25
86
18
Réduit le nombre de dimension
1996 19971998
22,3
14,6
12,6Janv
Févr
Mars
8,713,5
16
<><>
<><>
Dice
Data warehouse 69© A. EL OUARDIGHI
Composition d’opérations (Slice & Dice)
1996 19971998
25 22 12 18
15 9 8 12
7 18 5 5
Droit Philo Phys Info
Janv
Févr
Mars
7 18
5 59 12 25 8
18 24 7 15
58
15
1712
25
86
18
19971998
11 13,5
Droit Philo
11 13,59,5 10
Slice
Dice
19971998
15 9
7 18
Droit Philo
Janv
Févr
7 18
9 12
<>
1218
9
Data warehouse 71© A. EL OUARDIGHI
Jointure (Join)
1996 19971998
25 22 12 18
15 9 8 12
7 18 5 5
Droit Philo Phys Info
Janv
Févr
Mars
7 18
5 59 12 25 8
18 24 7 15
58
15
1712
25
86
18
1996
1997
1998
25 65 22 65 12 65 18 65
15 70 9 70 8 70 12 70
7 60 18 60 5 60 5 60
Droit Philo Phys Info
Janv
Févr
Mars
7 60 18 60 5 60 5 60
9 75 12 75 25 75 8 75
18 80 24 80 7 80 15 80
60
75
80
80
70
76
72
70
65
1996 19971998
65
70
60Janv
Févr
Mars
6075
80
80
75
70
80
76
7260
70
65
Data warehouse 72© A. EL OUARDIGHI
Union
1996 19971998
25 22 12 18
15 9 8 12
7 18 5 5
Droit Philo Phys Info
Janv
Févr
Mars
7 18
5 59 12 25 8
18 24 7 15
58
15
1712
25
86
18
1996 19971998
22 28 32 27
20 8 27 42
12 23 7 16
Droit Philo Phys Info
Avr
Mai
Juin
12 23
7 167 14 21 12
15 17 717 25
1612
25
2012
25
1216
27
22 28 32 27
20 8 27 42
12 23 7 16
Droit Philo Phys Info
Avr
Mai
Juin
12 23
7 167 14 21 12
15 17 717 25
1612
25
2012
25
1216
27
1996 19971998
25 22 12 18
15 9 8 12
7 18 5 5
Droit Philo Phys Info
Janv
Févr
Mars
7 18
5 59 12 25 8
18 24 7 15
58
15
1712
25
86
18
Data warehouse 73© A. EL OUARDIGHI
Partie 2 : OLAP et Analyse multidimensionnelles
Concepts OLAP
Les 12 règles OLAP
Composantes OLAP
Configurations OLAP
Opérations OLAP
Outils OLAP
Data warehouse 74© A. EL OUARDIGHI
Outils OLAP
Exemples d’outils OLAP
BusinessObjects, BusinessObjects,
http://www.businessobjects.fr/
SAS, SAS,
http://www.sas.com/offices/europe/france/software/technologies/olap/
index.html
HarrySoftware , HarryPilot, HarryCube , http://www.harrysoftware.com/jahia/Jahia/pid/61
Data warehouse 75© A. EL OUARDIGHI
Partie 3: Modélisation et Conception d’un DW
Conception d'un DW
Etude préalable
Modélisation
Alimentation
Data warehouse 76© A. EL OUARDIGHI
Construction d’un Datawarehouse
Caractéristiques: Le Datawarehouse est différent des bases de données de production:
Les besoins pour lesquels on veut le construire sont différents
Il contient des informations historisées, organisées selon les métiers de l’entreprise pour le processus d’aide à décision
Le Datawarehouse n’est pas un produit ou un logiciel mais un environnement, qui se bâtit et ne s’achète pas.
Data warehouse 77© A. EL OUARDIGHI
Construction d’un Datawarehouse
Phases de construction d’un DW: Il y’a trois parties interdépendante qui relève la construction d’un
Datawarehouse:
L’étude préalable qui va définir les objectifs, la démarche à suivre, le retour sur investissement,…
L’étude du modèle de données qui représente le DW conceptuellement et logiquement
L’étude de l’alimentation du Datawarehouse
Data warehouse 78© A. EL OUARDIGHI
Partie 3: Modélisation et Conception d’un DW
La conception d'un DW
Etude préalable
Modélisation
Alimentation
Data warehouse 79© A. EL OUARDIGHI
Etude préalable
Etude des besoins:
Définir les objectifs du DW
Déterminer le contenu du DW et son organisation, d’après:
Les résultats attendus par les utilisateurs,
Les requêtes qu’ils formuleront,
Les projets qui ont été définie
Recenser les données nécessaires à un bon fonctionnement du DW:
Recenser les données disponibles dans les bases de production
Identifier les données supplémentaires requises
Data warehouse 80© A. EL OUARDIGHI
Etude préalable
Etude des besoins:
Choisir les dimensions
Typiquement: le temps, le client, le produit, le magasin...
Choisir les mesures de fait
De préférences des quantités numériques additifs
Choisir la granularité des faits
Niveau de détails des dimensions
L’unité de temps doit-elle être le jour, la semaine?
Récapitulatifs journaliers, mensuels
Data warehouse 81© A. EL OUARDIGHI
Etude préalable
Coûts de déploiement:
Nécessite des machines puissantes, souvent une machine parallèle
Capacité de stockage très importante (historisation des données)
Evaluer la capacité de stockage
Equipes de maintenance et d’administration
Les coûts des logiciels
Les logiciels d’administration du DW
Les outils ETL (Extract-Transform- Loading)
Les outils d’interrogation et de visualisation
Les outils de Datamining
Data warehouse 82© A. EL OUARDIGHI
Partie 3: Modélisation et Conception d’un DW
La conception d'un DW
Etude préalable
Modélisation
Alimentation
Data warehouse 83© A. EL OUARDIGHI
Modèles de données
Niveau conceptuel:
Un DW est basé sur une modélisation multidimensionnelle qui représente les données dans un cube
Un cube permet de voir les données suivant plusieurs dimensions:
Tables de dimensions
La table des faits contient les mesures et les clés des dimensions
Data warehouse 84© A. EL OUARDIGHI
Les schémas de référence
Niveau Logique:
Plusieurs schémas types sont proposés pour représenter un DW:
Schéma en étoile;
Schéma en flocon;
Data warehouse 85© A. EL OUARDIGHI
Schéma en étoile
Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension ; une ou plusieurs mesures .
Plusieurs tables de dimension : descripteurs des dimensions.
Data warehouse 86© A. EL OUARDIGHI
Schéma en flocons
Raffinement du schéma étoile avec des tables normalisées par dimensions.
Data warehouse 87© A. EL OUARDIGHI
Fait Additive Additionnable suivant toutes les dimensions
Exemple : CA ; Quantité vendue, ...
Fait Semi-additivité Additionnable seulement suivant certaines dimensions
Exemple : nombre de contacts clients, Etats des stocks, ...
Fait Non-additivité : Non additionnable quelque soit la dimension
Comptage des faits ou affichage 1 par 1
Exemple : plus grand CA pour l’ensemble des magasins
Propriété des mesures
Data warehouse 88© A. EL OUARDIGHI
Dans la grande distribution Quelques tables de faits :
Détaillées et volumineuses Tables de dimensions :
Classiques : produit, fournisseur, temps, établissement (structure géographique, fonctionnelle), ...
Stratégiques : Client, Promotions, .... Dans le secteur des banques
Tables de faits : Nombreuses, dédiées à chaque produit , peu détaillées et peu
volumineuses. Tables de dimensions :
Classiques : produit, temps, établissement (structure géographique, fonctionnelle), ...
Stratégiques : Client, ....
Exemples de DW
Data warehouse 89© A. EL OUARDIGHI
Les grandes surfaces : Dimensions
Temps : 4 ans * 365 = 1460 jours
Magasin : 300
Produit : 200000 références (10% vendus chaque jour)
Promotion : un article est dans une seule condition de promotion par jour et par magasin
Fait 1460 * 300 * 200000 * 1 = 8,76 milliards d’enregistrements
Nombre de champs de clé = 4
Nombre de champs de fait = 4
Taille du DW = 8,76.10^9 * 8 champs * 4 octets = 280 Go
Estimer la taille du DW
Data warehouse 90© A. EL OUARDIGHI
Suivi d’appels Téléphoniques : Dimensions
Temps : 3 ans * 365 = 1095 jours
Faits Nombre d ’appel par jour = 100 000 000
Nombre de champs de clé = 5
Nombre de champs de fait = 3
Taille du DW = 109.10^9 * 8 champs * 4 octets = 3,49 To
Estimer la taille du DW
Data warehouse 91© A. EL OUARDIGHI
Partie 3: Modélisation et Conception d’un DW
Conception d'un DW
Etude préalable
Modélisation
Alimentation
Data warehouse 92© A. EL OUARDIGHI
Alimentation
L’alimentation est la procédure qui permet de transférer des données du système opérationnel vers le DW
La conception de cette opération est une tâche complexe
60 à 90 % de la charge totale d’un projet DW
Elle doit être faite en collaboration avec l’administrateur des bases de productions
Il est nécessaire de déterminer:
Quelles données seront chargées
Les transformations et les vérifications nécessaires
La périodicité et le moment de transferts des données
Data warehouse 93© A. EL OUARDIGHI
Alimentation du DW
Alimentation d’un DW (ETL) Extraction (Extract)
Transformation (Transform) Filtrer
Homogénéiser
Nettoyer
Etc …
Chargement (Loading)
Data warehouse 94© A. EL OUARDIGHI
Extraction
Extraction: Depuis les bases sources
Périodique et Répétée
Dater ou marquer les données envoyées
Difficulté:
Ne pas perturber les applications OLTP Différentes techniques d’extraction:
Méthode Push: Le système opérationnel qui au fil des transactions alimente le DW
Méthode Pull : Le système décisionnel cherche périodiquement les données dans les base de production
Data warehouse 95© A. EL OUARDIGHI
Transformation
C’est une suite d’opérations qui a pour but de rendre les données cibles homogènes et puissent être traitées de façon cohérente.
Unification des modèles Convertir / uniformiser les noms des attributs Uniformiser les valeurs d ’attributs Nettoyer ( Valeurs manquantes, aberrantes…)
Data warehouse 96© A. EL OUARDIGHI
Chargement
C’est l’opération qui consiste à charger les données nettoyées
et préparées dans le DW.
C’est une opération qui peut être longue
Mettre en place des stratégies pour assurer de bonnes
conditions à sa réalisation
Définir la politique de rafraîchissement.
C’est une phase plutôt mécanique et la moins complexe
Data warehouse 97© A. EL OUARDIGHI
Outils ETL
Exemples d’outils ETL
BusinessObjects, Data Integrator,
http://www.businessobjects.fr/
Oracle Corporation, Warehouse builder,
http://www.oracle.com/technology/products/warehouse/index.html/
IBM, Websphere Datastage ,
http://www.ascential.com/products/datastage.html