Bases de Données Hétérogènes Didier DONSEZ Université Joseph Fourier IMA – IMAG/LSR/ADELE ’LGLHU’RQVH]#LPDJIU
Bases de DonnéesHétérogènes
Didier DONSEZUniversité Joseph FourierIMA – IMAG/LSR/ADELE
'LGLHU�'RQVH]#LPDJ�IU
����������'LGLH
U�'RQ
VH]��
����
�����
2
Plan
n Introductionn Architecture de SGBD-D Hétérogènesn Distribution - Hétérogénéité - Autonomien Problèmes à Résoudre
����������'LGLH
U�'RQ
VH]��
����
�����
3
Rappel
n BD Distribuée• une collection de BDs logiquement reliées
et distribuées entre plusieurs sites
n SGBD Distribué• gère une BD-D et fournit les mécanismes d'accès
rendant la distribution transparente à l’utilisateur.
Site 3
Site 1
Site 4
Réseau de Communication
Site 2
����������'LGLH
U�'RQ
VH]��
����
�����
4
Les Besoins des Applications
n Applications traditionnelles (gestion)• types de données simples• données structurées• accès rapide par ensemble• partage et sécurité
• ÖBien supporté par les SGBDs relationnels
n Nouvelles Applications (SID, CAO, IA, Médical, …)• données complexes• manipulation complexe• règles• autre : schéma dynamique, multimédia, déclencheur, version
• ÖMal supporté par le relationnel
����������'LGLH
U�'RQ
VH]��
����
�����
5
Les Développements Technologiques
n Amélioration des communications• Réseaux Locaux plus rapide
FDDI, Fiber Channel, Ethernet 100
• Réseaux longues distances plus rapides, plus surs, plus EtendusInternet, lignes T1, RNIS, ATM
n Amélioration des stations de travail• Meilleur prix/performance• amélioration des possibilités - station multiprocesseur
����������'LGLH
U�'RQ
VH]��
����
�����
6
Les Ilots d’Information de l’Entreprise
n Développement des BDs indépendantes• différentes machines : mainframes, minis, micros, stations de travail• différents SGBDs : hiérarchique, relationnel, objet• Besoins spécifiques des départements
n Conséquences• Redondance des données et inconsistance• difficulté de localiser les données “utiles” et de les intégrer rapidement
n Données “Utiles”= consistantes, à jour, et facilement accessibles
n Ö Intégration logique des donnéesdistribuées et hétérogènes de l’entreprise
����������'LGLH
U�'RQ
VH]��
����
�����
7
L’Environnement Futur
• Relationnel ⇒ applications traditionnelles• Modèles sophistiqués ⇒ applications avancées• Héritage d’anciens systèmes (legacy systems)
• 45% des SGBDs sur Mainframe sont IMS (hiérarchique)• De nombreuses applications utilisent encore des SGFs (VSAM)
• Intégration des systèmes "non-gestionnaires" de données• Traitement de texte, Feuille de calcul, Traitement d’images.
• Utilisation du Web pour simplifier le développement des applications
6*%'�5HODWLRQQHO
'RQQpHV�)RXUQLVVHXU
3DFNDJH�6WDWLVWLTXH
'RQQpHV�&R�W
6*%'�+LpUDUFKLTXH
'RQQpHV�*HVWLRQ
6*%'�2ULHQWp�2EMHW
&RQFHSWLRQ�3URGXFWLRQ
'pFLVLRQQHO
����������'LGLH
U�'RQ
VH]��
����
�����
8
La Demande pour l’Interopérabilité entre SGBDsn Conséquence de la Distribution, des Réseaux et des
SGBDs• 3 développement de BDs indépendantes par différents groupes
d’utilisateurs• 3 survivance des BDs existantes• 3 accès aux BDs par différents outils
n Difficultés• de connaître l'utilité et la localisation d’une donnée• d'intégrer rapidement des données hétérogènes• de combiner l'activité d’outils hétérogènes
n Interopérabilité• Ö interaction intelligente entre des systèmes hétérogènes
• ex : SGBD/feuille de calcul• Ö combinaison des SGBDs, des systèmes répartis,
des traitements de textes, Ö
����������'LGLH
U�'RQ
VH]��
����
�����
9
Les Objectifs des SGBDs Interopérables
• Interopérabilité des BDs existantes, distribuéeset hétérogènes au sien d’ un Multi-SGBD
• intégration de types de données conventionnelsou non-conventionnels comme dans un SGBD-OO
• Interopérabilité avec des applications existantes• Héritage de l’ existant
• Utilisation des composants logiciels existants• extensibilité par la définition de méthodes d’ objets
• Invoquer arbitrairement une applicationet créer des combinaisons d’ invocation
����������'LGLH
U�'RQ
VH]��
����
�����
10
L’architecture ANSI/SPARC
Vue Externe
Vue Externe
Vue Externe
Vue Conceptuelle
Vue Interne
Utilisateurs
Schéma Externe
Schéma Conceptuel
Schéma Interne
����������'LGLH
U�'RQ
VH]��
����
�����
11
L’architecture logique d’un SGBD-D
6( � 6(� 6(P
6&*
6&/�
6,/�
6&/�
6,/�
6&/Q
6,/Q
����������'LGLH
U�'RQ
VH]��
����
�����
12
L’architecture physique d’un SGBD-D
6FKpPD�&RQFHSWXHO�
/RFDO6FKpPD�,QWHUQH�/RFDO
3URFHVV
HXU�/
RFDO�
GH�5HT
XrWHV
5HSU
LVH�VX
U�3DQ
QH�
/RFDOH
3URFHVV
HXU�
G([pFX
WLRQ
3URFHVVHXU�GH�'RQQpHV
6FKpPD�([WHUQH
6FKpPD�&RQFHSWXHO�*OREDO
6FKpPD�*OREDO�GH�'LVWULEXWLRQ�GHV�'RQQpHV
,QWHU
IDFH�
8WLOLV
DWHXU
&RQWU
{OH�
6pPD
WLTXH
8WLOLV
DWHXU
5HTXrWHV
5pSRQVHV
3URFHVVHXU�8WLOLVDWHXU
0RQ
LWHXU
�*ORE
DO�G(
[pFX
WLRQ
2SWLP
LVDWLR
Q�*O
REDOH
�GHV�
5HTX
rWHV
-RXUQDX[�6\VWqPHV
����������'LGLH
U�'RQ
VH]��
����
�����
13
L’architecture logique de Multi-SGBD
6( � 6(� 6(P
6&*
6&/�
6,/�
6&/�
6,/�
6(/�� 6(/�N
6&/Q
6,/Q
6(/Q� 6(/QN
����������'LGLH
U�'RQ
VH]��
����
�����
14
L’architecture physique d’un Multi-SGBD
&RXFKH�0XOWL�6*%'
8WLOLVDWHXU
%DVH�GH�'RQQpHV
3URFHVVHXU�G([pFXWLRQ
5HSULVH�VXU�3DQQH
2SWLPLVHXU�GH�5HTXrWHV
2UGRQQDQFHXU 3URFHVVHXU�GH�5HTXrWHV
*HVWLRQ�GHV�7UDQVDFWLRQV
,QWHUIDFH�8WLOLVDWHXU
3URFHVVHXU�G([pFXWLRQ
5HSULVH�VXU�3DQQH
2SWLPLVHXU�GH�5HTXrWHV
2UGRQQDQFHXU 3URFHVVHXU�GH�5HTXrWHV
*HVWLRQ�GHV�7UDQVDFWLRQV
,QWHUIDFH�8WLOLVDWHXU
6*%' 6*%'
%DVH�GH�'RQQpHV
����������'LGLH
U�'RQ
VH]��
����
�����
15
L’architecture logique de Multi-SGBD -sans SCG
6( � 6( P
6&/�
6,/�
6&/�
6,/�
6(/�� 6(/�N
6&/Q
6,/Q
6(/Q� 6(/
����������'LGLH
U�'RQ
VH]��
����
�����
16
L’architecture physique d’un Multi-SGBD sans SCG
0XOWL�6*%'
8WLOLVDWHXU
3URFHVVHXU�,QWHUIDFH�&RPSRVDQW
6*%' ��
3URFHVVHXU�,QWHUIDFH�&RPSRVDQW
6*%' �Q
0XOWL�6*%'
8WLOLVDWHXU
3URFHVVHXU�,QWHUIDFH�
&RPSRVDQW3URFHVVHXU�,QWHUIDFH�&RPSRVDQW
6*%'PN6*%'P�
� P
����������'LGLH
U�'RQ
VH]��
����
�����
17
Les Dimensions du problème
n Distribution• bien maîtrisé
n Hétérogénéité• Plusieurs degrés
n Autonomie• Difficile
����������'LGLH
U�'RQ
VH]��
����
�����
18
Les différents degrés d'Hétérogénéité
n chaque BD est gérée par le même SGBD sur des systèmes différents• ex: ORACLE sur UNIX, VMS, DOS
n chaque BD est gérée par un SGBD différent mais avec le même modèle• ex: ORACLE, DB2, INGRES
n chaque BD est gérée par un SGBD différent avec un modèle de données différent• ex: DB2 et IMS (problème pratique pour IBM)
n chaque BD est une source de données structurées ou non
����������'LGLH
U�'RQ
VH]��
����
�����
19
Les différentes Formes d’Autonomie
n Autonomie de Conception• un SGBD décide d’ une conception reliée ‡ ses propre besoins
• données, représentation, interprétation, implantation, Ö
• appelé Autonomie physique
n Autonomie de Communication• un SGBD décide de comment et avec quel autre SGBD il doit
communiquer
n Autonomie d’Exécution• un SGBD peut exécuter des opérations localement de la manière qu’ il veut• appelé Autonomie de Site
����������'LGLH
U�'RQ
VH]��
����
�����
20
Les problèmes à Résoudre
n Intégration de Bases de Données
n Calcul des Requêtes
n Gestion des Transactions
����������'LGLH
U�'RQ
VH]��
����
�����
21
intégration de Bases de données
• c'est le processus d'intégration conceptuelledes informations provenant des différentes bases composantes
6&*
,QWpJUDWHXU
7UDGXFWHXU�� 7UDGXFWHXU�� 7UDGXFWHXU�Q
%DVH�GH�'RQQpHV�
�%DVH�GH�'RQQpHV�
�%DVH�GH�'RQQpHV�
Q
,QWpJUDWLRQ�GHV�6FKpPDV�,QWHUPpGLDLUHV
7UDGXFWLRQ�GHV�6FKpPDV�
/RFDX[
����������'LGLH
U�'RQ
VH]��
����
�����
22
intégration de schéma
n Pré-intégration• identification des éléments reliées
• ex: domaines Equivalents• spécification des règles de conversion
• ex: 1 pouce = 2,54 cm• ex: salaire en $ <-> DM <-> £ <-> FF
n Comparaison• conflits de nommage
• synonymes, homonymes• conflits structurels
• types, clés, dépendances
n Conformité• résolution des conflits de noms et structurels
n Fusion et Restructuration• fusion des schémas intermédiaires• fournir le “meilleur” schéma intègre
����������'LGLH
U�'RQ
VH]��
����
�����
23
Calcul des requêtes
n La complexité du calcul des Requêtes est élevée• variations d'un SGBD ‡ l'autre
• pour les possibilités• pour les coûts• pour l'optimisation
• difficulté de déplacer les données entre SGBDs
����������'LGLH
U�'RQ
VH]��
����
�����
24
Gestion de Transactions
• plusieurs transactions ‡ coordonner• Terminaison des transactions, contrôle de Concurrences
n Moniteurs Transactionnels• OSI/TP, X/Open, OMG, ...• Tuxedo, ...