-
Mthode de construction dentrept de donnes temporalis pour un
systme
informationnel de sant
par
Christina Khnaisser
Mmoire prsent au Dpartement dinformatique
en vue de lobtention du grade de matre s sciences (M.Sc.)
FACULT DES SCIENCES
UNIVERSIT DE SHERBROOKE
Sherbrooke, Qubec, Canada, fvrier 2016
-
ii
Le 15 fvrier 2016
le jury a accept le mmoire de Madame Christina Khnaisser dans sa
version finale.
Membres du jury
Professeur Luc Lavoie Directeur de recherche
Dpartement dinformatique
Professeur Jean-Francois thierCoDirecteur de recherche
Dpartement de mdecine interne
Hassan Diab Coordonnateur recherche et dveloppement
Membre externe Centre intgr universitaire de sant et des
services sociaux de lEstrie
Centre hospitalier de lUniversit de Sherbrooke
Professeur Marc Frappier Prsident-rapporteur
Dpartement dinformatique
-
iii
Sommaire
Des systmes informationnels de sant (SIS) ont t mis en place au
cours des 20 dernires
annes pour soutenir les processus de soins, les tches
administratives et les activits de
recherche ainsi que pour assurer la gestion raisonne des
tablissements de sant. Un entrept
de donnes (ED) doit tre cr partir de nombreuses sources de
donnes htrognes afin de
rendre les donnes exploitables dune faon uniforme au sein des
SIS. La temporalisation de
cet entrept est rapidement devenue un enjeu crucial afin de
garder les traces de lvolution
des donnes et damliorer la prise de dcision clinique. Lentrept
de donnes temporalis
(EDT) requiert lapplication de rgles systmatiques afin de
garantir lintgrit et la qualit
des donnes. Gnrer le schma temporel dun EDT est une tche
complexe. Plusieurs
questions se posent ds lors, dont celles-ci : (a) Quel modle
temporel est le mieux adapt
lautomatisation de la construction dun EDT (plus particulirement
dans le domaine de la
sant)? (b) Quelles proprits peut-on garantir formellement, suite
cette construction?
Dune part, le volume du schma de donnes ncessite dimportantes
ressources humaines et
financires, et dautre part, plusieurs modles temporels existent,
mais ils ne sont pas
formaliss ou non gnraux. Les concepteurs sen remettent donc le
plus souvent des rgles
de pratiques varies, floues, incompltes et non valides. Dans ce
travail, un cadre de
rfrence permettant de formaliser, de gnraliser et
doprationnaliser des modles
temporels est dfini. Deux modles : BCDM et TRM sont prsents
selon le cadre de
rfrence avec leurs contraintes dintgrit, leurs algorithmes de
construction et une liste des
prolongements requis. Il en rsulte quil est dsormais possible de
saffranchir des rgles de
pratique imprcises et de temporaliser un entrept en se fondant
sur une mthode rigoureuse
aux proprits dmontrables bases sur des critres fondamentaux
(thorie relationnelle), des
critres de conception reconnus et explicites
(normalisation).
-
iv
Remerciements
Mes remerciements les plus profonds sadressent particulirement
mes directeurs Luc
Lavoie et Jean-Franois thier ainsi qu Hassan Diab, reprsentant
du CIUSSS-CHUS pour
leurs conseils et leur soutien financier et acadmique. Grce
vous, ce projet fut une
exprience trs enrichissante ainsi quune ouverture vers le monde
de la recherche. Ce projet
ma permis galement de contribuer tant lavancement de la science
qu son utilisation au
sein de ma socit daccueil laquelle je suis redevable.
Finalement, je remercie mes parents
pour leur soutien et leurs encouragements constants.
-
v
Table des matires
Sommaire
.............................................................................................................
ii!
Remerciements
...................................................................................................
iv!
Table des matires
...............................................................................................
v!
Liste des abrviations
.......................................................................................
xiii!
Liste des tableaux
..............................................................................................
xv!
Liste des figures
................................................................................................
xvi!
Introduction
.........................................................................................................
1!Contexte
.................................................................................................................................
1!
Problmatique
........................................................................................................................
1!
Objectifs
.................................................................................................................................
3!
Mthodologie
.........................................................................................................................
3!
Rsultats
.................................................................................................................................
4!
Structure du mmoire
.............................................................................................................
5!
Chapitre 1 Systme informationnel de sant
....................................................... 6!1.1! Mise
en contexte
...........................................................................................................
6!
1.1.1! Besoins
...................................................................................................................
7!
1.1.2! But recherch
.........................................................................................................
8!
1.1.3! Dfis
.......................................................................................................................
9!
1.2! Problmatiques de construction dun EDC
.................................................................
10!
1.2.1! Modlisation dentrept de donnes cliniques
..................................................... 10!
1.2.2! Modlisation dentrept de donnes temporel
..................................................... 13!
-
vi
1.2.3! Raisonnement temporel
.......................................................................................
15!
1.2.4! Intgration des sources de donnes
......................................................................
16!
1.3! Vision
..........................................................................................................................
19!
1.3.1! Les caractristiques des agents
............................................................................
20!
1.3.2! Les composants
....................................................................................................
21!
1.4! Synthse
......................................................................................................................
22!
1.4.1! Problme cibl
.....................................................................................................
23!
1.4.2! Autres problmatiques
.........................................................................................
23!
Chapitre 2 Temporalisation dun entrept de donnes
...................................... 25!2.1! Exemple de
temporalisation d'une relation
.................................................................
25!
2.1.1! Scnario A
............................................................................................................
26!
2.1.2! Scnario B
............................................................................................................
28!
2.1.3! Scnario C
............................................................................................................
30!
2.1.4! Synthse des exemples
.........................................................................................
32!
2.2! Problme cibl
............................................................................................................
33!
2.2.1! Prsentation
..........................................................................................................
33!
2.2.2! Hypothses
...........................................................................................................
34!
2.2.3! Description du processus
.....................................................................................
34!
2.2.4! Description des sous-processus
............................................................................
35!
2.3! Problmatiques de temporalisation
.............................................................................
38!
2.4! Rsultats attendus
........................................................................................................
39!
Chapitre 3 Mthode de construction dun entrept de donnes
temporalis ..... 41!3.1! Mthode
......................................................................................................................
41!
3.1.1! Dfinition des exigences et critres
.....................................................................
42!
3.1.2! Dfinition dun cadre de rfrence
......................................................................
42!
3.1.3! Dfinition dun processus de rfrence
................................................................
42!
3.1.4! Reformulation des modles temporels
.................................................................
43!
3.1.5! Comparaison des modles temporels
...................................................................
43!
3.1.6! Considrations relatives aux SIS
.........................................................................
43!
-
vii
3.2! Liste des exigences
.....................................................................................................
43!
3.3! Prsentation du processus de rfrence
.......................................................................
45!
3.3.1! Hypothses
...........................................................................................................
46!
3.3.2! Description des sous-processus
............................................................................
47!
Chapitre 4 Concepts temporels
..........................................................................
50!4.1! Modlisation et reprsentation du temps
....................................................................
50!
4.1.1! Le point
................................................................................................................
52!
4.1.2! Traitement de la volatilit et de lindtermination
............................................... 52!
4.2! Lintervalle
..................................................................................................................
54!
4.2.1! Les oprateurs
......................................................................................................
55!
4.2.2! Problmatique particulire des attributs de type intervalle
.................................. 58!
4.3! Les rfrentiels temporels
...........................................................................................
61!
4.3.1! Rfrentiel du domaine
........................................................................................
62!
4.3.2! Rfrentiel de transaction
....................................................................................
62!
4.3.3! Rfrentiel de validation
......................................................................................
63!
Chapitre 5 Cadre de rfrence
...........................................................................
65!5.1! Catgorisation temporelle des attributs
.......................................................................
65!
5.2! Catgorisation temporelle des relations
......................................................................
67!
5.2.1! Relation de validation (R!VT)
.............................................................................
67!
5.2.2! Relation de transaction (R!TT)
............................................................................
68!
5.2.3! Relation bitemporelle (R!BT)
..............................................................................
69!
5.2.4! Relation non temporelle (R!NT)
..........................................................................
70!
5.2.5! Synthse de la notation
........................................................................................
71!
5.3! Exigences relatives aux schmas
................................................................................
71!
5.3.1! Exigences relatives au schma initial
..................................................................
72!
5.3.2! Exigences relatives au schma final
....................................................................
73!
5.4! Partitions temporelles
..................................................................................................
73!
5.4.1! Dcomposition
.....................................................................................................
74!
5.4.2! Description dtaille des parties
..........................................................................
76!
-
viii
5.4.3! Synthse de la notation
........................................................................................
79!
Chapitre 6 Rsultats
...........................................................................................
80!6.1! Cadre de rfrence
......................................................................................................
80!
6.1.1! Schma dentrept de donnes temporalis
......................................................... 81!
6.1.2! Rfrentiels, priodes et oprateurs
.....................................................................
81!
6.1.3! Catgories, partitions et parties
............................................................................
82!
6.1.4! Normalisation
.......................................................................................................
83!
6.2! Modle temporel TRM
...............................................................................................
83!
6.2.1! Particularits
........................................................................................................
83!
6.2.2! Avantages
.............................................................................................................
86!
6.2.3! Limitations
...........................................................................................................
87!
6.2.4! Prolongements
......................................................................................................
87!
6.3! Modle temporel BCDM
............................................................................................
88!
6.3.1! Particularits
........................................................................................................
88!
6.3.2! Avantages
.............................................................................................................
90!
6.3.3! Limitations
...........................................................................................................
91!
6.3.4! Prolongements
......................................................................................................
91!
6.4! Comparaison
...............................................................................................................
92!
6.4.1! Structure et smantique
........................................................................................
93!
6.4.2! Satisfaction des exigences
....................................................................................
96!
6.4.3! Synthse
...............................................................................................................
98!
6.4.4! Prolongements
......................................................................................................
99!
6.5! Considrations relatives aux SIS
................................................................................
99!
Conclusion
.......................................................................................................
101!Contributions
.....................................................................................................................
101!
Critique du travail
..............................................................................................................
102!
Travaux futurs
....................................................................................................................
103!
Annexe A Concepts relationnels
.....................................................................
105!
-
ix
A.1! Modle de base
.........................................................................................................
105!
A.1.1! Variable de relation
...............................................................................................
105!
A.1.2! Attribut
..................................................................................................................
106!
A.1.3! Entte
....................................................................................................................
106!
A.1.4! Tuple
.....................................................................................................................
107!
A.1.5! Oprateurs relationnels
.........................................................................................
107!
A.1.6! Contrainte
..............................................................................................................
109!
A.1.7! Assertion
...............................................................................................................
110!
A.1.8! Vues
......................................................................................................................
110!
A.1.9! Schma
..................................................................................................................
111!
A.2! Base de donnes
.......................................................................................................
111!
A.3! Normalisation
...........................................................................................................
112!
A.3.1! Dpendances
.........................................................................................................
112!
A.3.2! Formes normales
...................................................................................................
113!
A.3.3! Schma normalis
.................................................................................................
114!
Annexe B Modle TRM
..................................................................................
115!B.1! Concepts de base
......................................................................................................
115!
B.1.1! Le temps et sa reprsentation
................................................................................
116!
B.1.2! Extension aux oprateurs relationnels
...................................................................
116!
B.1.2.1! Opration PACK et UNPACK
...........................................................................
116!
B.1.2.2! Opration USING
...............................................................................................
119!
B.2! Modalits de structuration dun schma temporalis
............................................... 123!
B.2.1! Temporalisation et partitions canoniques
..............................................................
123!
B.2.1.1! Partition unitemporelle de validation
.................................................................
123!
B.2.1.2! Partition bitemporelle
.........................................................................................
123!
B.2.1.3! Partition unitemporelle de transaction
................................................................
124!
B.2.1.4! Synthse
.............................................................................................................
125!
B.2.2! Modlisations issues de la partition canonique
..................................................... 126!
B.3! Rgles unitemporelles de transaction
.......................................................................
128!
-
x
B.3.1! Exigences
..............................................................................................................
128!
B.3.2! Mise en oeuvre des exigences
...............................................................................
128!
B.3.2.1! Rgles dunicit
..................................................................................................
128!
B.3.2.2! Assertions rfrentielles
.....................................................................................
129!
B.3.2.3! Synthse
.............................................................................................................
129!
B.4! Rgles unitemporelles de validation
........................................................................
129!
B.4.1! Exigences
..............................................................................................................
129!
B.4.2! Mise en oeuvre des exigences
...............................................................................
131!
B.4.2.1! Rgles dunicit
..................................................................................................
131!
B.4.2.2! Exigences 1 et 2
..................................................................................................
131!
B.4.2.3! Exigences 3 et 6
..................................................................................................
131!
B.4.2.4! Exigences 4 et 5
..................................................................................................
132!
B.4.2.5! Exigence 9
..........................................................................................................
133!
B.4.3! Synthse
................................................................................................................
133!
B.5! Rgles bitemporelles
................................................................................................
135!
B.5.1! Exigences
..............................................................................................................
136!
B.5.2! Mise en uvre des exigences
................................................................................
136!
B.5.3! Synthse
................................................................................................................
136!
B.6! Assertions rfrentielles temporellement mixtes
..................................................... 138!
B.7! Algorithme de construction dun schma bitemporel
.............................................. 139!
B.8! Exemple de construction dun schma bitemporel
.................................................. 140!
B.8.1! Exemple cod en TD
.............................................................................................
143!
B.8.2! Exemple cod en Discipulus
.................................................................................
144!
B.8.3! Code engendr en Discipulus
................................................................................
145!
B.9! Modalits de modification
........................................................................................
153!
B.9.1! Modifications unitemporelles semi-fermes
......................................................... 153!
B.9.1.1! Insertion
..............................................................................................................
153!
B.9.1.2! Suppression
........................................................................................................
155!
B.9.1.3! Mise jour
..........................................................................................................
155!
-
xi
B.9.2! Modifications unitemporelles fermes
..................................................................
156!
B.9.2.1! Insertion
..............................................................................................................
157!
B.9.2.2! Suppression
........................................................................................................
157!
B.9.2.3! Mise jour
..........................................................................................................
157!
Annexe C Modle BCDM
...............................................................................
159!C.1! Concepts de base
......................................................................................................
159!
C.1.1! Le temps et sa reprsentation
................................................................................
160!
C.1.2! Extension aux oprateurs relationnels
...................................................................
160!
C.1.2.1! Oprateurs de Allen
............................................................................................
160!
C.1.2.2! Oprateur COALESCE
......................................................................................
161!
C.2! Modalits de structuration dun schma temporalis
............................................... 161!
C.2.1! Temporalisation et partitions
.................................................................................
161!
C.2.1.1! Partition bitemporelle
.........................................................................................
162!
C.2.1.2! Partition unitemporelle de transaction
................................................................
162!
C.2.1.3! Synthse
.............................................................................................................
163!
C.2.2! Modlisations issues de la partition canonique
..................................................... 164!
C.3! Prservation de lintgrit temporelle
......................................................................
166!
C.3.1! Unicit
...................................................................................................................
166!
C.3.2! Rfrentialit
.........................................................................................................
167!
C.3.3! Inclusion temporelle
..............................................................................................
168!
C.3.4! Exigences
..............................................................................................................
168!
C.4! Rgles unitemporelles de transaction
.......................................................................
169!
C.4.1! Mise en uvre des exigences
................................................................................
169!
C.4.1.1! Rgles dunicit
..................................................................................................
169!
C.4.1.2! Rgles rfrentielles
...........................................................................................
170!
C.4.2! Synthse
................................................................................................................
171!
C.5! Rgles bitemporelles
................................................................................................
171!
C.5.1! Mise en oeuvre des exigences
...............................................................................
171!
C.5.1.1! Rgles dunicit
..................................................................................................
172!
-
xii
C.5.1.2! Rgles rfrentielles
...........................................................................................
173!
C.5.1.3! Rgles dinclusion temporelles
..........................................................................
174!
C.5.2! Synthse
................................................................................................................
175!
C.6! Assertions rfrentielles temporellement mixtes
..................................................... 177!
C.7! Rgles complmentaires
...........................................................................................
179!
C.8! Algorithme de construction dun schma bitemporel
.............................................. 179!
C.9! Exemple de construction dun schma bitemporel
.................................................. 180!
C.9.1! Exemple cod en SQL
...........................................................................................
183!
C.9.2! Exemple cod en TSQL
........................................................................................
186!
C.9.3! Exemple cod en Discipulus
.................................................................................
187!
C.9.4! Code engendr en Discipulus
................................................................................
188!
C.10! Modalits de modification
......................................................................................
200!
C.10.1! Rgles de modifications bitemporelles
...............................................................
200!
C.10.1.1! Insertion
............................................................................................................
201!
C.10.1.2! Suppression
......................................................................................................
204!
C.10.1.3! Mise jour
........................................................................................................
207!
C.10.2! Rgles de modification unitemporelle de transaction
......................................... 212!
C.10.2.1! Insertion
............................................................................................................
212!
C.10.2.2! Suppression
......................................................................................................
212!
C.10.2.3! Mise jour
........................................................................................................
212!
C.10.3! Synthse
..............................................................................................................
213!
Annexe D Traitement des cls multiples
......................................................... 215!
Bibliographie
...................................................................................................
217!
Glossaire
..........................................................................................................
224!
-
xiii
Liste des abrviations
BCDM Bitemporal Conceptual Data Model.
BD Base de donnes.
CHUS Centre hospitalier de luniversit de Sherbrooke.
CIUSSS Centre intgr universitaire de sant et des services
sociaux.
CIUSSSE-CHUS Centre intgr universitaire de sant et des services
sociaux de lEstrie
Centre hospitalier de luniversit de Sherbrooke.
DCI Dossier clinique informatis.
DICOM Digital Imaging and Communications in Medicine.
DM Dossier mdical lectronique.
e-PIIRAMIDE Portail informationnel intgr pour la recherche et
lanalyse
multidimensionnelle et intelligente des donnes en Estrie.
ED Entrept de donnes.
EDC Entrept de donnes cliniques.
EDCT Entrept de donnes cliniques temporalis.
EDT Entrept de donnes temporalis.
EHR Electronic Health Record
ETL Extract-Transformation-Load.
FN Forme normale.
HL7 Health Level Seven.
PJ Projection-Jointure.
UMLS Unified Medical Language System.
RU Restriction-Union.
SED Schma dentrept de donne.
SEDT Schma dentrept de donnes temporalis.
-
xiv
SGBD Systme de gestion de bases de donnes.
SGBDR Systme de gestion de bases de donnes relationnelles.
SIS Systme informationnel de sant.
SNOMED Systematized Nomenclature of Medicine.
LOINC Logical Observation Identifiers Names and Codes.
SQL Structured query language.
TRM Temporal Relational Model.
UML Unified modeling language.
-
xv
Liste des tableaux
Tableau 1 Comparaison entre un ED conventionnel et un ED
clinique. .............................. 11!
Tableau 2 Notation dintervalle
............................................................................................
54!
Tableau 3 Notation de base des intervalles
...........................................................................
55!
Tableau 4 Oprateurs lmentaires de comparaison dAllen [Allen
1983] .......................... 57!
Tableau 5 Combinaisons doprateurs lmentaires
.............................................................
58!
Tableau 6 Notation des catgories dattributs temporels
...................................................... 66!
Tableau 7 Notation des catgories temporelles de relation
.................................................. 71!
Tableau 8 Notation des catgories temporelles des parties
.................................................. 79!
Tableau 9 Comparaison synthtique de BCDM et TRM
...................................................... 92!
Tableau 10 Catgories de priodes utilises par TRM.
...................................................... 116!
Tableau 11 quivalence des catgories des parties entre TRM et le
cadre de rfrence. ... 125!
Tableau 12 Modlisation des catgories de priodes du modle BCDM
........................... 160!
Tableau 13 Oprateurs temporels selon les oprateurs lmentaires de
Allen ................... 161!
Tableau 14 quivalence des parties entre BCDM et le cadre de
rfrence. ....................... 163!
-
xvi
Liste des figures
Figure 1 Illustration du contenu htrogne dun DCI [Jensen et al.
2012] ......................... 17!
Figure 2 Vision du systme de construction dun EDCT
..................................................... 20!
Figure 3 Diagramme de contexte TEMPUS
.........................................................................
35!
Figure 4 Diagramme de flux de donnes TEMPUS
.............................................................
36!
Figure 5 Structure dun modle relationnel
..........................................................................
37!
Figure 6 Diagramme de contexte de solution TEMPUS
...................................................... 46!
Figure 7 Diagramme de flux de donnes de solution TEMPUS
........................................... 48!
Figure 8 Concepts temporels de base
....................................................................................
51!
Figure 9 Illustration des oprateurs lmentaires, tir de
[Snodgrass 1995:2] ..................... 56!
Figure 10 Exemple de relation de validation
.......................................................................
68!
Figure 11 Exemple de relation de transaction
.......................................................................
69!
Figure 12 Exemple de relation bitemporelle
.........................................................................
70!
Figure 13 Exemple de relation non temporelle
.....................................................................
71!
Figure 14 Exemple de temporalisation
.................................................................................
75!
Figure 15 Temporalisation dune relation selon TRM
......................................................... 85!
Figure 16 Temporalisation dune relation selon BCDM
...................................................... 89!
Figure 17 - Les partitions TRM et BCDM
...............................................................................
94!
Figure 19 tapes dexcution dune requte utilisant loprateur USING
......................... 122!
Figure 20 Les parties dun schma temporalis selon TRM.
............................................. 126!
Figure 21 Drivation des partitions selon TRM
.................................................................
127!
Figure 22 Modlisation unitemporelle de validation selon TRM
....................................... 135!
Figure 23 Vues unitemporelles de validation selon TRM
.................................................. 135!
Figure 24 Modlisation bitemporelle selon TRM
...............................................................
137!
Figure 25 Vues bitemporelles selon TRM
..........................................................................
138!
-
xvii
Figure 26 tapes de construction dun schma bitemporel TRM
....................................... 140!
Figure 27 Schma initial temporaliser
.............................................................................
141!
Figure 28 Schma initial annot
.........................................................................................
141!
Figure 29 Schma bitemporaliser
.....................................................................................
141!
Figure 30 Schma unitemporel de validation selon le modle TRM
.................................. 142!
Figure 31 Les parties dun schma temporalis selon BCDM
........................................... 164!
Figure 32 Drivation des partitions selon BCDM
..............................................................
165!
Figure 33 Modlisation bitemporelle selon BCDM
............................................................
176!
Figure 34 Vues bitemporelles selon BCDM
.......................................................................
177!
Figure 35 tapes de construction d'un schma bitemporel selon BCDM
........................... 180!
Figure 36 Schma initial temporaliser
.............................................................................
181!
Figure 37 Schma initial annot
.........................................................................................
181!
Figure 38 Schma bitemporaliser
.....................................................................................
182!
Figure 39 Schma bitemporel selon BCDM
.......................................................................
182!
Figure 40 Les cas dinsertion bitemporelle [Snodgrass 1995 p.321]
.................................. 202!
Figure 41 Les cas de suppression bitemporelle [Snodgrass 1995
p.215] ........................... 205!
Figure 42 Les cas de mise jour bitemporelle (Snodgrass 1995
p.220] ............................ 209!
Figure 43 Schma bitemporel selon BCDM (avec les rgles de
modifications) ................ 214!
-
1
Introduction
Contexte
Dans le secteur de la sant, les processus de soins, les
dispositifs mdicaux, lactualisation
des dossiers cliniques et sociaux, la recherche, etc. gnrent un
trs grand volume de donnes
chaque jour. Les systmes informationnels de sant (SIS) mis en
place pour en assurer la
gestion raisonne sont dsormais indispensables dun point de vue
oprationnel. Les
tablissements de sant dsirent en outre partager de faon
exploitable lensemble de ces
donnes aux fins danalyses et dtudes (administratives, cliniques,
de recherche, etc.). En
particulier, le CIUSSS de lEstrie-CHUS a exprim des besoins
spcifiques relatifs la
construction dun entrept de donnes cliniques (EDC) [CIUSSS
2014]. Vu le grand nombre
de sources htrognes et complexes et les caractristiques
spcifiques des donnes cliniques
[Shin et al. 2014], les tablissements font face plusieurs dfis
lors de la construction dun
entrept de donnes (ED). La problmatique qui suit en dgage les
principaux.
Problmatique
Les SIS tendent de plus en plus vers des systmes temporels
[Combi and Shahar 1997].
Laccs un entrept de donnes cliniques temporalis (EDCT) devient
ds lors une
ncessit pour rendre les donnes exploitables aux fins danalyse et
de support la prise de
dcision. Dune part, aucun consensus nest tabli sur une mthode
intgre de construction
dun EDCT [Khnaisser et al. 2015]. Dautre part, les mthodes
existantes possdent des
limites nuisant linteroprabilit temporelle et lexploitation de
donnes :
absence dindication du modle temporel et de la smantique
temporelle utilise les
modles fonds sont rarement utiliss et la smantique est fortement
lie au contexte
et au processus qui engendre les donnes;
-
2
faible automatisation de la construction de lEDCT la modlisation
et lintgration
sont ralises en grande partie manuellement;
complexit de lexpressivit des requtes temporelles les limites de
SQL et des
outils dexploitation des donnes offrent des fonctionnalits
temporelles limites;
ngligence du processus dvolution de lEDCT lvolution demeure un
dfi et
requiert des ressources importantes.
La temporalisation des donnes est un aspect trs important pour
diverses tudes cliniques et
la recherche en sant. Dune part, linterprtation des donnes
cliniques est fortement lie au
temps, mais les donnes sont souvent incompltement temporalises
et les sources de
donnes sont trs rarement structures de faon en assurer lintgrit
et en faciliter
lanalyse temporelle. Dautre part, vu lhtrognit et le grand
nombre de sources de
donnes, les mthodes classiques de construction dED sont
difficiles, voire impossibles,
mettre en place, car elles sont fondes sur des rgles de pratique
parfois floues, souvent
incompltes et gnralement non automatisables. Afin de faciliter
linteroprabilit
temporelle1 et lexploitation des donnes2, le schma doit
respecter des rgles de
modlisation rigoureuse et systmatique pour garantir lintgrit des
donnes et permettre
lutilisation de strotypes de requtes (plutt que de ncessiter une
analyse au cas par cas,
comme cest lusage prsentement). Une mthode semi-automatise de
construction dun
EDCT adquate est ncessaire pour assurer une meilleure traabilit
et une meilleure
exploitation (une meilleure expressivit des requtes et dtection
des patrons temporels)
[Adlassnig et al. 2006]. Dans le prsent projet, nous traitons de
la seule problmatique de la
temporalisation dun ED en EDT. Son application aux EDC pour
produire des EDCT
sensuit, dans la mesure o les EDC sont dcrits partir du mme
formalisme et de la mme
base thorique que les ED.
1 Garantir une smantique temporelle uniforme. 2 Simplification
des requtes et amlioration des performances.
-
3
Objectifs
Lobjectif est dlaborer une mthode semi-automatise de
construction dun EDT dans le but
de faciliter le travail des concepteurs dentrepts de donnes.
Lobjectif spcifique au
mmoire est de :
tudier et comparer deux modles temporels pour identifier les
rgles de modlisation
dans une perspective dautomatisation de la temporalisation,
prsenter les fonctionnalits de base pour le dveloppement dun
atelier de
construction dun EDT.
Mthodologie
Deux modles temporels ont t tudis : BCDM [Snodgrass 2000] et TRM
[Date et al.
2014a] afin den identifier les critres de modlisation et les
rgles applicables dans une
perspective dune gnration automatise dun schma dEDT. Ltude est
effectue en
plusieurs tapes :
dfinition des problmatiques de construction dun EDT;
tablissement dun cadre de rfrence gnral et commun aux diffrents
concepts de
temporalisation;
prsentation des modles TRM et BCDM : identification des
particularits des
modles, gnralisation des rgles temporelles, dfinition de
lalgorithme de
modlisation dun schma temporel;
comparaison des modles temporels en regard des exigences et des
concepts de
rfrences;
dfinition dune liste dexigences dune mthode semi-automatise de
construction
dun EDT.
-
4
Rsultats
Grce cette tude, il a t possible de gnraliser, formaliser et
doprationnaliser les deux
modles temporels BCDM et TRM. Il en dcoule : un cadre de rfrence
des modles
temporels, une dfinition dune mthode semi-automatise de
construction dun EDT, des
algorithmes de construction dun EDT, une comparaison des deux
modles, ainsi que des
observations et des recommandations quant la faisabilit,
lexpressivit des deux modles
temporels.
Le cadre de rfrence permet de dcrire les deux modles avec une
mme syntaxe et une
mme smantique. Il emprunte largement aux bases tablies par Date,
Darwen et Lorentzos
dans [Date et al. 2014a] fondes mme la thorie relationnelle et
la logique des intervalles,
aux oprateurs PACK et UNPACK et leur encapsulation dans
loprateur USING. Le
modle TRM prsente une sparation claire entre ltat courant et les
tats historiques, ce qui
rend envisageable son utilisation comme base de donnes
dexploitation (non temporalise).
Les grandes lignes de son automatisation taient dj documentes
dans [Codd 1990], nous
les avons compltes. Le modle BCDM, originellement dcrit par des
rgles de pratiques
(minimisant limpact de doublons et des attributs annulables) et
des rgles particulires
(construites partir dun canevas gnral, mais adaptes aux
exigences du domaine
dapplication), est dsormais exprimable en terme du cadre de
rfrence, est donc
automatisable. Suite ltude des problmatiques dans le domaine
clinique, le cadre de
rfrence et les deux modles ncessiteront des extensions pour
mieux gnrer lincertitude
temporelle, le pass indtermin et la tritemporalit.
De plus, une mthode de construction dun EDT est adquate si elle
satisfait les huit
exigences suivantes [Khnaisser et al. 2015] : (1) intgrit des
donnes (2) modle temporel
fond (3) expressivit des requtes (4) intgration htrogne des
donnes (5) intgration de
lvolution des connaissances (6) intgration de lvolution de la
structure (7) traabilit et
(8) automatisation de la construction. Un modle temporel dfini
sur la base du cadre de
-
5
rfrence permet de satisfaire partiellement six des huit
exigences pour une mthode de
construction dEDC.
Structure du mmoire
Outre lintroduction et la conclusion, le mmoire est organis en
six chapitres et quatre
annexes. Afin de mieux comprendre le rle et les contraintes
applicables aux EDCT, le
Chapitre 1 prsente un survol non exhaustif de la problmatique
des systmes
informationnels de sant et ltat de lart actuel recens par la
littrature. Le Chapitre 2
prsente en profondeur le problme trait dans ce mmoire : la
temporalisation des ED. Le
Chapitre 3 prsente une mthode semi-automatise de construction
dEDT et la liste des
exigences. Les Chapitre 4 et Chapitre 5 prsentent respectivement
les concepts temporels
fondamentaux et les extensions temporelles formant le cadre de
rfrence propos. Enfin, le
Chapitre 6 synthtise et compare les deux modles temporels TRM et
BCDM. En
complment, lAnnexe A dcrit les concepts relationnels classiques
sur lesquels le cadre de
rfrence est fond. Les annexes Annexe B et Annexe C dcrivent
respectivement le modle
TRM et le modle BCDM sur la base du cadre de rfrence ainsi que
leurs algorithmes de
construction et dalimentation initiale. LAnnexe D montre comment
traiter les cls
multiples.
-
6
Chapitre 1
Systme informationnel de sant
Today, if you have a well-designed database management system,
you have the keys to the kingdom of data processing and decision
support. [Codd 1990]
Un systme informationnel de sant est ncessaire pour tout
tablissement de sant afin
damliorer les services, les diagnostics et le traitement des
maladies; dassurer une
continuit des soins dun tablissement lautre et dalimenter en
donnes de qualit les
centres de recherche clinique. Pour atteindre ces objectifs, les
donnes du systme
informationnel provenant de plusieurs sources doivent tre
intgres dans un EDC permettant
lutilisation secondaire de donnes.
Le chapitre prsente le contexte et les problmatiques relies au
dveloppement dun systme
informationnel de sant et, incidemment, des EDCT. Il commence
par une prsentation des
besoins, de but recherch et des dfis de construction dun systme
informationnel. Ensuite,
la section 1.2 survole les problmatiques relies. La section 1.3
dcrit la vision du systme
envisag. En synthse, la section 1.4 prsente le problme cibl par
ce travail.
1.1 Mise en contexte
Une masse de donnes de sant est cre chaque jour (chaque minute)
par les systmes de
gestion de dossiers cliniques informatiss (DCI), les systmes de
gestion de dossiers
mdicaux lectroniques (DM), les dispositifs mdicaux, la
recherche, etc. Ces donnes
peuvent tre rutilises dans des activits de recherche, de
formation, de gestion, de mesure
de qualit, de mdecine prventive, etc. Cest ce que nous dcrivons
comme lutilisation
secondaire de donnes.
-
7
Historiquement, toute la documentation tait sur papier ce qui
limite le partage des donnes,
la qualit de linformation et son analyse. Avec linformatisation
des tablissements de sant,
le volume, la diversit et la complexit des donnes ont normment
augment. De nouvelles
demandes dutilisation sont apparues, dont lintgration et
lutilisation secondaire de donnes
provenant de plusieurs tablissements.
1.1.1 Besoins
Latteinte des objectifs de ralisation et de concrtisation des
valeurs ajoutes partir des
donnes cliniques informatises dpend de lamlioration de la faon
dont les utilisateurs
interagissent et exploitent les donnes [Landrigan et al. 2010].
Dans un premier temps, les
donnes doivent tre structures et intgres dune faon exploitable.
Ensuite, des outils de
rtroaction, de prvention, de dcouverte de connaissances,
danalyse, de forage et daide la
dcision doivent tre mis en place afin de relever les dfis pour
atteindre les objectifs. Un
systme informationnel de sant (SIS) est indispensable pour
permettre aux mdecins,
intervenants, cliniciens, chercheurs, gestionnaires et autres
participants dans un continuum
de soins et services de prendre des dcisions claires, de
concrtiser des actions, dagir
dune faon proactive et davoir des connaissances approfondies sur
lvolution de ltat de
sant des patients lchelle dune population ou dun individu.
La mise disposition de moyens informatiss entre tous les
tablissements de sant est
ncessaire afin damliorer les services de sant, les diagnostics
et les traitements et
dalimenter en donnes de qualit les centres de recherche clinique
[Safran et al. 2007]. Plus
spcifiquement, les tablissements de sant visent :
amliorer la qualit des soins et services ainsi que lanalyse des
rsultats pour
sassurer que les patients reoivent les soins appropris et que
les tablissements de
sant soient en mesure de mieux suivre la progression de ltat de
sant de leurs
patients;
-
8
amliorer la mdecine prventive et la mdecine personnalise pour
contribuer
laborer des plans de soins et services plus adapts au contexte
et au profil des
patients;
faciliter la cration, la circulation et le partage des
informations entre les
tablissements. Ceci favorise un meilleur suivi de la trajectoire
du patient travers
les diffrents tablissements, la dcouverte de nouvelle mthode de
traitement, etc. ;
amliorer la planification financire ainsi que diffrentes
fonctions stratgiques,
tactiques et oprationnelles.
1.1.2 But recherch
Les SIS sont survenus pour rpondre aux besoins grandissants de
lutilisation secondaire de
donnes. Notons que cette volution naturelle est survenue avec un
dcalage denviron 20 ans
sur les systmes intgrs de gestion et de production couramment
utiliss dans dautres types
dorganisation (transport, nergie, manufacturier...) [Carter
2001a]. Un SIS est constitu dun
ensemble doutils pour mieux rpondre aux besoins en matire de
cration, daccs, de
circulation et de partage de donnes cliniques pour lutilisation
secondaire dans le respect des
lois et des rglements. Il doit offrir :
aux diffrents intervenants du rseau de la sant (cliniciens,
agents administratifs,
infirmiers, analyste informatique, gestionnaire de donnes, etc.)
un accs uniforme
aux diffrentes sources3 de donnes dans le respect du cadre
lgal;
des outils danalyse, dextraction et de visualisation des donnes
avance pour
driver des connaissances dune faon autonome (sans assistance
technique) et
uniforme (indpendante de la structure des sources) selon leur
profil;
des outils de collaboration, de partage des ressources et de
transfert des
connaissances en matire dutilisation secondaire de donnes entre
les professionnels
uvrant dans les tablissements et les centres de sant.
3 Nous entendons par source, toutes les bases de donnes relies
aux systmes des tablissements de sant : cabinets de
mdecin de famille, hpitaux (pharmacie, radiologie, laboratoires,
facturation, etc.), cliniques, CLSC, RAMQ, etc.
-
9
La mise en place dun SIS est importante dans le cas des rseaux
rgionaux de sant forms
de plusieurs tablissements (par exemple [Dewitt and Hampton
2005] et [Hu et al. 2011:4]).
En particulier, le centre intgr universitaire de sant et des
services sociaux de lEstrie -
Centre hospitalier de luniversit de Sherbrooke (CIUSSSE-CHUS) a
exprim des besoins
spcifiques relatifs au dveloppement de-PIIRAMIDE4, un systme
informationnel rgional
de sant pour lEstrie [CIUSSS 2014].
1.1.3 Dfis
Les donnes dintrt pour lutilisation secondaire sont fragmentes
dans plusieurs sources de
donnes. Lextraction et la gestion5 de ces donnes sont difficiles
vu le grand nombre de
sources htrognes, le grand volume de donnes, les besoins et les
connaissances diversifis,
etc. Lapproche la plus souvent prconise pour intgrer toutes les
donnes est la mise en
place dun EDC [Pedersen et al. 1998].
Les utilisateurs sont des experts du domaine dsirant accder aux
donnes en fonction de
modles de connaissances. Nanmoins, les donnes sont stockes dans
diffrentes sources qui
sont structures (htrognit structurelle) et encodes (htrognit
terminologique) de
faons diffrentes. Dune part, les experts du domaine doivent
pouvoir exprimer leurs
requtes selon un modle de connaissances unifi qui reprsente bien
leur domaine (sans
avoir besoin de connaitre la structure des sources de donnes)
[Ethier et al. 2013]. Dautre
part, les gestionnaires de donnes doivent pouvoir crer, grer et
maintenir les donnes avec
le moins de ressources possible tout en assurant leur fidlit,
leur intgrit et la traabilit de
leur volution (indpendamment des modles qui les utilisent).
Cependant, vu la diversit et la grande quantit de sources,
plusieurs questions se posent.
Comment modliser un tel entrept? Quelles donnes doit-on intgrer?
Comment faire
lintgration? Comment assurer linteroprabilit smantique et
syntaxique? Comment
assurer la traabilit des donnes et suivre leurs volutions dans
le temps? Comment 4 Portail informationnel intgr pour la recherche
et lanalyse multidimensionnelle et intelligente des donnes en
Estrie 5 La gestion des donnes inclut entre autres : la
modification des donnes, la dfinition et loptimisation de la
structure, la
gestion du contrle daccs, etc.
-
10
interprter, analyser et prsenter les donnes? Comment valuer la
qualit du schma de
donnes? Comment assurer la scurit de donnes et la protection des
renseignements
personnels? etc. La section suivante dcrit les principales
problmatiques associes la
construction dun EDC.
1.2 Problmatiques de construction dun EDC
Les donnes cliniques se caractrisent essentiellement par le
temps, le contexte et la fonction
(pour plus de dtail, voir [Khnaisser et al. 2015; Lee et al.
2015]). Les informations cliniques
sont troitement lies au temps associ lactivit (ou au processus)
et au contexte ayant
engendr les donnes. De plus, plusieurs tudes cliniques se basent
sur lhistorique de
lvolution des donnes pour obtenir de meilleurs rsultats.
Les principales problmatiques associes la construction dun EDC
sont : la modlisation
de lEDC, la reprsentation temporelle, le raisonnement temporel,
et lintgration des sources
htrognes.
1.2.1 Modlisation dentrept de donnes cliniques
Les donnes relatives au patient sont gnres par plusieurs systmes
(ou processus) et sont
rparties dans plusieurs sources. LEDC doit contenir les donnes
intgres, ce qui implique,
le traitement des incohrences et le maillage de donnes6 (le
problme de data linkage ).
Dune part, la dfinition des assertions est ncessaire afin de
dtecter les incohrences et
prserver la qualit des donnes. Dautre part, il faut savoir en
tout temps do vient chaque
donne, qui la cre, par quel processus ainsi que quand elle est
modifie et par qui.
Autrement dit, la modlisation doit permettre de garder la trace
de leur provenance et de leur
volution. Le processus de construction dun ED est complexe et
fait intervenir plusieurs
ressources. Il inclut, principalement, les activits de
reprsentation des exigences, la
reprsentation des sources, la modlisation du schma de lED,
lintgration des donnes,
6 Cest--dire sassurer que les donnes pour un mme individu soient
bien lies ensemble et napparaissent pas comme
duplicata.
-
11
lalimentation, la maintenance. Vu la grande quantit de concepts
modliser et les
exigences dintgrit et de traabilit, la construction dun EDC
requiert une mthode
automatise7 base sur un modle de donnes fond8, une
temporalisation avance, un
modle de connaissance, un modle dintgration et de mise en
correspondance, des
oprations dexploration (dagrgation) avances [Pedersen et al.
1998]. Le tableau ci-
dessous (une extension9 du tableau 3 de [Pedersen et al. 1998])
prsente les principales
diffrences entre un ED conventionnel10 et un ED clinique.
Tableau 1 Comparaison entre un ED conventionnel et un ED
clinique.
Critres Conventionnel Clinique Modle de donnes Simple Complexe
Temporalisation Minimale Avance Connaissances Simple Avance (+
encodage) Oprations avances No Oui Donnes complexes Non Oui
Htrognit des types de donnes Faible lev Htrognit des terminologies
Faible lev Rgles daffaires avances Peu Beaucoup (protocole) Forage
de donnes Peu Beaucoup (recherche clinique) Nombre de sources Entre
1 et 10 >= 200 Nombre de relations Entre 50 et 100 >= 16 000
Frquence des changements structurels (par mois) 1 4
!"#"$%'(%')*+,-.*/,01!,
La nature des donnes cliniques impose de nouvelles exigences de
construction [Khnaisser et
al. 2015]. La caractristique distinctive des EDC et lhtrognit de
modlisation des
sources entrainent le plus souvent dautres proprits qui, sans
tre ncessairement
distinctives de faon unique par rapport aux ED, contribuent
dfinir les EDC comme un
champ dtudes en soit avec plusieurs caractristiques :
7 La modlisation, lintgration et lalimentation du schma doivent
tre automatises. 8 Le schma de lED doit tre bas sur un modle
thorique formellement prouv et indpendant des requtes que les
utilisateurs dsirent effectuer vu la grande frquence dvolution
des types de demandes. 9 Les critres suivants sont ajouts :
connaissances, oprations avances, htrognit des types de donnes,
htrognit
des terminilogies, nombre de sources, nombre de relations,
frquence des changements structurels (par mois). 10 Un ED utilis
dans dautres domaines que celui de la sant.
-
12
la grande complexit des structures de donnes et des
contraintes;
la grande envergure (nombre de relations, dattributs, de
tuples);
la grande importance au modle de connaissance qui dtermine la
smantique et
lencodage des donnes selon le contexte de provenance de la
donne;
la ncessit dun modle temporel fond sur une thorie gnrale, donc
indpendante
du domaine dapplication (pour la suite, nous abrgerons
simplement par modle
temporel fond , voire modle fond lorsque le contexte le
permettra);
la ncessit doprations dexploration (dagrgation) avances pour
faciliter
lexpressivit des requtes;
la rpartition et la distribution des sources;
la redondance et lincohrence des donnes induites par
limpossibilit de modifier
certaines sources.
2&%34-+,-+,$4/(%#*$%'4/,-.*/,01!,
En plus, la construction dun ED requiert des modles et des
techniques diffrentes de celles
utilises pour les bases de donnes (autre que lentit-association)
[Golfarelli et al. 1998].
Larticle [Khnaisser et al. 2015] recense et compare 40 mthodes
de construction avec des
critres qualitatifs (approches de conception, degr
dautomatisation des processus, type de
modle, dfinition dalgorithmes, etc.). Aucun consensus au sujet
de la mthode idale nest
dfini. Chaque projet dveloppe son ED avec une mthode
personnalise o la description est
souvent absente ou ambige [Cimino et al. 2014]. Dune part, la
majorit des mthodes ne
sont pas testes avec des cas dtude denvergure11 ce qui rend
difficile prouver leur
efficience et leur applicabilit au domaine de la sant. Dautre
part, diffrents modles sont
utiliss incluant des modles ad hoc12 pour reprsenter soit les
donnes, les connaissances ou
les exigences. Aucune mthode ne prsente un modle pour reprsenter
uniformment les
donnes, les connaissances et les exigences.
11 Un cas dtude est considr denvergure par notre mthode danalyse
sil intgre au moins 10 sources, 1 000 relations,
10 000 attributs et 100 millions de tuples. 12 Souvent, ils ne
sont pas dfinis de faon tre rutilisables dans dautres projets.
-
13
Pour conclure, plusieurs problmatiques concernant la
construction dun EDC demeurent non
rsolues, entre autres : absence de consensus sur une mthode et
une technique de
modlisation standardise facilitant linteroprabilit, absence de
modle de contrle daccs
aux donnes, absence de consensus sur la gestion de lvolution et
les critres de mesure de la
qualit de la modlisation [Rizzi et al. 2006].
1.2.2 Modlisation dentrept de donnes temporel
La modlisation du temps est un sujet dintrt pour plusieurs
domaines de recherche. Une
des caractristiques dun ED est de garder la trace de lvolution
des donnes dans le temps.
Un grand nombre de systmes requiert la sauvegarde, la
manipulation et la collecte de
donnes temporalises. Un ED (non temporel) contient les donnes
courantes et celles du
pass (qui ne reprsentent plus ltat courant) sans aucune trace
explicite de leurs volutions.
Par contre, un ED temporel sauvegarde les donnes courantes et
les donnes du pass en
garantissant leur cohrence et la reconstitution (sans perte de
donnes) des diffrentes tapes
de leurs volutions. Chaque donne temporalise est associe un ou
plusieurs attributs
temporels et chaque contrainte est dfinie de telle sorte de
garantir lintgrit temporelle des
donnes (lintgrit des donnes en fonction du temps associes). LEDC
doit tre modlis
sur la base dun modle temporel fond tout en assurant une
reprsentation et une smantique
temporelle unifie ainsi quune structuration solide et des
oprateurs temporels facilitant
lexpressivit des requtes temporelles. Cest ce que nous dcrivons
comme tant la
temporalisation.
5+(4'/(,-+,6",%+784#"6'("%'4/,-"/(,6+,-47"'/+,$6'/')*+,
Le temps est une proprit importante des donnes cliniques.
Larticle [Khnaisser et al. 2015]
dcrit certaines caractristiques des donnes cliniques desquelles
plusieurs besoins de
modlisation du temps en dcoulent :
BE.1 Garantir lintgrit et la qualit des donnes en fonction du
temps.
BE.2 Garantir luniformit syntaxique et smantique des concepts
temporels.
-
14
BE.3 Garder la trace de lvolution des donnes dans le temps.
BE.4 Simplifier laccs et la manipulation des donnes temporalises
et lexpressivit des
requtes temporelles pour des tudes cliniques.
BE.5 Faciliter la modlisation et la modification dun schma EDT
partir des sources dans
une perspective dautomatisation guide par le concepteur.
5#+9,&%"%,-+,6."#%,
La temporalisation dun schma et la manipulation (interrogation
et modification) des
donnes temporalises sont complexes [Malinowski 2008]. Les
problmes de contradiction,
de redondance, de circonlocution et de non-compacit prsents au
Chapitre 4 en font partie.
Plusieurs modles et langages temporels ont t dfinis depuis 1970
dans le but de simplifier
la gestion du temps dans une base de donnes. Diffrentes raisons
peuvent justifier la
prsence de nombreux modles, comme : lincompltude, le
non-consensus, le manque de
gnralit, labsence de mise en uvre et doutils de temporalisation,
etc. Ltude
[Ozsoyoglu and Snodgrass 1995] (la plus rcente) a recens 30
modles relationnels
temporels et 20 langages relationnels temporels.
Dune part, linclusion de quelques fonctionnalits temporelles
dans les SGBD na
commenc qu la fin des annes 2010. Dautre part, le langage SQL na
intgr des
fonctionnalits temporelles quen 2011. Jusquen 2012, et encore
aujourdhui, trs peu de
produits offrent un certain support temporel de base (Oracle 11
g, Teradata 13, Postgres 9.4 et
DB2 10) [Kulkarni and Michels 2012]. Diffrentes causes peuvent
justifier labsence de mise
en uvre : ambigit, htrognit des propositions, manque de gnricit
des propositions,
absence de consensus dans la communaut, cout prohibitif du
stockage induit, performances
dcevantes, etc.
Dautre part, rares sont les modles qui sont mis en uvre dans un
cas rel et sont mis jour
par rapport ltat dart. La question de la temporalisation demeure
ouverte, aucun standard
nest tabli. Le prsent travail sintresse deux modles temporels
:
-
15
Le modle BCDM (Bitemporal Conceptual Data Model), bas sur SQL, a
t
propos par [Jensen et al. 1993] et dvelopp dans [Snodgrass
2000].
Le modle TRM (Temporal Relational Model), un modle fond sur la
thorie
relationnelle, est propos par [Lorentzos and Johnson 1988] et
dvelopp dans [Date
et al. 2014b].
Le choix des deux modles est bas sur la qualit et la compltude
de leur description, la
persistance de lintrt qui leur est port dans la littrature
scientifique ainsi que la
compatibilit avec le modle relationnel et les SGBD
existants.
1.2.3 Raisonnement temporel
Les recherches sur la reprsentation et le raisonnement temporel
en mdecine ont commenc
vers la fin des annes 1980 [Adlassnig et al. 2006]. Les systmes
informationnels de sant
tendent de plus en plus vers des systmes temporels pour amliorer
la prise de dcisions
cliniques [Combi and Shahar 1997]. La prise de dcisions peut tre
amliore grce la
dtection des corrlations entre diffrentes interventions et
diffrents vnements cliniques et
la drivation dinformations adquates au bon moment. Lamlioration
ncessite des donnes
temporalises et un modle temporel garantissant lintgrit
temporelle entre donnes et la
durabilit de lvolution des donnes gnres par ces vnements.
Lassociation du temps aux vnements clinique facilite lanalyse
temporelle et
linterprtation des donnes dans la majorit des dpartements
(cardiologie, oncologie,
psychiatrie, soins intensifs, mdecine interne, etc.) et dans
diffrentes tches mdicales
(diagnostics, administration thrapeutique, protocoles cliniques,
administratifs, etc.) [Combi
et al. 2010]. Des techniques danalyse temporelles sont requises
pour mieux tirer parti des
donnes temporalises et sont mme essentielles pour pouvoir dcrire
les activits lies aux
pisodes de soins des patients qui stendent sur plusieurs mois
voire des annes. Les deux
approches les plus connues en mdecine pour effectuer un
raisonnement temporel sur des
donnes sont labstraction temporelle [Stacey and McGregor 2007]
et les rseaux baysiens
temporels [Tawfik and Neufeld 1994]. Labstraction temporelle
exemplifie par KBTA
[Shahar and Musen 1996] et PROTEMPA [Post and Harrison 2007]
permet la dtection des
-
16
patrons temporels (squence, occurrence, tendance, etc.) partir
de donnes temporalises.
Cette mthode facilite la prise de dcision [Post et al. 2013] en
associant des tats cliniques
(stable, dgradation, amlioration, etc.) pour chaque patron
temporel dtect [Post et al.
2013]. Les rseaux baysiens temporels sont utiliss dans plusieurs
recherches pour leur
capacit de raisonnement en tenant compte des incertitudes
temporelles des donnes
[Orphanou et al. 2014].
Plusieurs autres dfis en dcoulent (voir [Adlassnig et al. 2006]
pour plus de dtails) : la
reprsentation de lincertitude, la reprsentation des protocoles
cliniques, le raisonnement
selon les bonnes pratiques, lautomatisation de la gestion des
flux de travail clinique (clinical
workflow), la prdiction de nouveaux comportements des maladies,
lanalyse des phnotypes,
le suivie de lvolution de ltat du patient, linterrogation des
donnes temporelles, etc.
1.2.4 Intgration des sources de donnes
Un grand intrt sest dvelopp pour lutilisation secondaire des
donnes de sant provenant
de sources multiples afin de raliser des tudes cliniques lchelle
dune population et
dvelopper la mdecine personnalise [Jensen et al. 2012].
Lintgration de plusieurs bases
de donnes est une activit cruciale et trs complexe [Chromiak and
Stencel 2014]. Dune
part, la majorit des sources sont construites avec des systmes
propritaires ferms et selon
une mthodologie propre et des modles personnaliss. Dautre part,
les donnes peuvent tre
encodes diffremment (htrognes au niveau smantique) et peuvent
avoir diffrentes
structures (htrognes au niveau structurel) [Ethier et al. 2013].
Une interoprabilit
syntaxique et smantique est requise pour faciliter le processus
dintgration. Une
interoprabilit syntaxique permet de reprsenter des donnes de
sant dune faon structure
et selon un format standardis. Une interoprabilit smantique
permettant de comprendre et
traiter des donnes selon un modle de connaissance commun et une
terminologie associe. Il
ne suffit pas de faire une unification des donnes des sources
dans un mme ED en
sintressant seulement leur structure. Lintgration doit galement
prendre en
considration la smantique et lassociation de celle-ci avec les
donnes.
-
17
Le DCI contient un grand nombre de donnes ayant des structures
complexes et une
smantique diffrentes selon le contexte (voir figure.1 de [Jensen
et al. 2012]). Les
principaux utilisateurs sont les prestataires de soins
(cliniciens, agents administratifs,
infirmiers, etc.) o chacun utilise une terminologie propre son
dpartement. Les donnes
sont encodes selon diffrentes normes et classifications (SNOMED
CT [IHTSDO 2015],
DICOM [NEMA 2015], LOINC [Regenstrief 2015] et RxNorm [NLM
2014], etc.) qui
dterminent le contexte do elles sont gnres (document clinique,
image numrique,
laboratoire, prescription de mdicament, etc.). De plus, des
donnes non encodes et sous
forme de texte libres sont galement frquemment utilises et
difficiles interprter.
Figure 1 Illustration du contenu htrogne dun DCI [Jensen et al.
2012]
Lintgration est complexe et demeure en grande partie manuelle
malgr lavancement des
technologies cause de :
la fragmentation des donnes dans divers champs dont le choix
nest pas uniforme et
varie dans le temps,
labsence de description fiable des sources de donnes (schma
conceptuel) et des
donnes elles-mmes;
-
18
la complexit des donnes, reprsentes soit en texte libre, soit
par numrisation
(sous forme dimage) dune source imprime (formulaire, note de
travail,
ordonnance, etc.),
labsence de description formelle de la smantique des donnes;
lutilisation de diffrents encodages en fonction dun quelconque
modle de
connaissance13 (donc uniquement interprtables en regard des
codes et des
conventions propres aux consignataires et aux auteurs);
le cloisonnement des systmes entraine une redondance considrable
de
linformation, redondance de laquelle dcoulent des
incohrences;
la diversit des technologies dacquisition et lchange de donnes
utilises et
labsence de mcanisme standardis de communication entre les
systmes [Sahama
and Croll 2007];
Un premier pas pour rsoudre cette problmatique est lutilisation
des normes (de messagerie
et de terminologie) et des standards internationaux comme HL7
[Health Level Seven 2015]
pour faciliter lchange, OpenEHR [OpenEHR 2015] pour dfinir un
modle de donnes de
rfrence, ainsi que des terminologies standardises comme SNOMED
CT et LOINC pour
coder linformation.
Lors de lintgration de plusieurs sources, une mise en
correspondance est requise entre le
modle de connaissance (provenant des utilisateurs), un modle de
donnes (provenant des
sources) et les terminologies. Plusieurs tudes proposent des
solutions pour la mise en
correspondances entre les modles de connaissance et les
terminologies [Rector et al. 2009]
et [thier et al. 2013], la mise en correspondance entre les
terminologies [Noy et al. 2009] et
les modles de connaissances entrent eux [Martnez Costa et al.
2011]. Une solution plus
globale est prsente par Bodenreider [Bodenreider 2004] pour
lintgration de modle de
connaissance partir des terminologies en utilisant UMLS [U.S.
National Library of
Medicine 2014]. Rares sont les mthodes qui proposent des
processus dintgration largement
13 Lencodage peut tre dtermin par ltablissement, une composante
de ltablissement, le consignataire ou un systme
tiers.
-
19
automatis (6/40) ou partiellement automatis (3/40) [Khnaisser et
al. 2015]. Malgr la
diversit des solutions proposes, lintgration demeure ad hoc. En
plus, elle requiert des
connaissances du domaine pour interprter les donnes et leurs
contextes vu la diversit des
pratiques cliniques [de Mul et al. 2012].
Lutilisation des ontologies est de plus en plus prconise pour
faciliter lintgration. Elle
permet denrichir la smantique des donnes [Thenmozhi and
Vivekanandan 2013] et rduire
leffort requis pour la mise en correspondance entre les
connaissances et les donnes [Mate et
al. 2015] tant donn quelle exprime dune faon exploitable
automatiquement diffrents
axiomes logiques permettant la description de concepts.
1.3 Vision
Plusieurs solutions indpendantes existent pour diffrentes
problmatiques, mais aucune
mthode entirement intgre na t dfinie ce jour [Khnaisser et al.
2015]. Vu
lhtrognit et le grand nombre de sources de donnes, les mthodes
classiques de
construction dEDCT sont difficiles mettre en place [Tria et al.
2013]. La construction
dEDCT est effectue typiquement ralise laide de plusieurs outils
indpendants, ce qui
entraine une perte de traabilit et limite considrablement
lvolution future de lEDCT. Le
systme envisag, baptis Vulcain, regroupe plusieurs ateliers
partageant une mme
description des sources et de lentrept. Lunicit de la
description permet de mettre en uvre
une mthode intgre de construction dEDCT. La multiplicit des
ateliers permet de
proposer des outils et des interfaces spcialises et ergonomiques
en fonction des diverses
tches. La mthode intgre permet de dfinir un EDCT partir dun
modle de
connaissances commun; temporaliser le schma de lEDC; de
reprsenter les sources de
donnes; de mettre en correspondance les sources et lEDCT,
dalimenter lEDCT ainsi que
dexploiter et de maintenir lEDCT. Ci-dessous, la Figure 2
prsente une illustration de la
vision est prsente, suivie dune brve description du rle des
principaux composants (leur
conception et les algorithmes utiliss tant nombreux et pouvant
varier).
-
20
Figure 2 Vision du systme de construction dun EDCT
1.3.1 Les caractristiques des agents
La construction de lEDCT ncessite un groupe multidisciplinaire.
Les principaux agents
sont :
Analyste dinformation (analyste informatique) (AI) : une
personne ayant une
expertise en informatiques et une connaissance minimales des
sources et du modle
de connaissances. Elle intervient essentiellement durant la
construction pour la mise
en correspondance des schmas de donnes et le modle de
connaissance.
Gestionnaire de donnes (GD) : une personne connaissant le
contenu et la structure
des sources et de lentrept. Elle intervient durant la
construction de lEDCT et la
reprsentation des sources de donnes. En plus, elle intervient
durant lexploitation
pour optimiser lutilisation de lED et contrler les droits
daccs.
AI
GD
Sources
C
B
A
PM
Modles de connaissances
MI_1MI_2
Donnes courantes
Donnes historiquesLgende
Processus de construction
Processus dexploitation
Modle de donnes
Modle de connaissances
Flux de donnes
Interagir systmePortail dinteraction adapt au profil de lexpert
de domaine
Construire Gnration du schma
dentrept et des correspondeurs
connaissances-entrept et donnes-entreptTemporalisation
Interagir entreptPortail dinteraction adapt au profil du
gestionnaire de donnes
Mettre en correspondance
Gnration de correspondeurs entre les modles de donnes et le
modle de connaissances
Importer modles de donnes
Importation de modles de donnes Description
Vrification et validation
Importer modles de connaissances
Importation de modles de connaissances
Unification Vrification et validation
Alimenter entreptImportation des donnes
des sources vers lentrept
-
21
Personnel mdical (PM) : une personne du domaine de la sant qui
utilise le modle
de connaissances et les diffrents outils disposition pour
extraire et analyser les
donnes de lEDCT.
1.3.2 Les composants
La vision repose sur deux phases de traitement bases sur un
modle de donnes commun : la
construction et lexploitation. La construction regroupe les
composants et les artfacts requis
lors de la construction de lEDCT par les analystes mtiers et les
analystes informatiques.
Lexploitation regroupe les composants et les artfacts requis
lors de lexploitation de
lEDCT par le personnel mdical et les gestionnaires de donnes. Le
modle commun est la
reprsentation des structures utilises pour la construction et
lexploitation de lEDCT. La
prsentation qui suit se limite une brve description du rle des
principaux composants; leur
conception et les algorithmes requis tant nombreux et pouvant
varier, une spcification
darchitecture logicielle et plusieurs spcifications de
conception seront requises avant de
mettre oeuvre Vulcain. Le prsent mmoire na pas cet objectif.
Vulcain se compose des composants suivants :
Importer modle de donnes : un composant dont le rle est
dimporter et dcrire
les schmas de donnes selon le modle commun. En plus, il doit tre
capable de
dceler les erreurs et les incohrences selon un processus de
vrification et de
validation appropri.
Importer modle de connaissances : composant dont le rle est
dimporter des
modles de connaissances (exprim par une ontologie) et les dcrire
selon le modle
commun. En plus, il doit tre capable de dceler les erreurs et
les incohrences selon
un processus de vrification et de validation appropri.
Mettre en correspondance : un composant dont le rle est de
mettre en
correspondance les schmas de donnes et le modle de
connaissances. Un schma
unifi et un correspondeur connaissances-donnes sont gnrs. Le
correspondeur
connaissances-donnes permet dassocier une connaissance une ou
plusieurs
-
22
donnes de la source facilitant ainsi la construction du schma de
lEDCT, le
traitement des requtes et de lalimentation.
Construire : composant dont le rle est de construire le schma
temporalis de
lEDC. La construction se base sur le correspondeur
connaissances-donnes,
lalgorithme de temporalisation et le type du SGBD cible pour
construire le schma
de lEDCT. En plus du schma de lEDCT, un correspondeur
connaissance-entrept
qui associe une connaissance une ou plusieurs donnes de
lentrept.
Alimenter : composant dont le rle est dextraire les donnes des
sources, de
jumeler et de transformer ces donnes pour les rendre compatibles
avec le schma de
lEDCT. Lalimentation se base sur les schmas de donnes, le
correspondeur
connaissance-entrept et les donnes des sources pour effectuer le
jumelage et les
transformations adquates.
Interagir entrept : un composant dont le rle est de fournir une
interface
personne-machine au gestionnaire de donnes pour maintenir et
observer les
performances de lEDC. De plus, le composant a pour rle de dfinir
et assurer le
respect des rgles daccs lentrept en plus de garder la trace de
toutes les
modifications de structures, de donnes et des requtes
utilisateurs pour optimiser
lEDCT.
Interagir systme : un composant dont le rle est de fournir une
interface personne-
machine selon le profil du personnel mdical et des outils
danalyse pour exploiter
lEDCT.
1.4 Synthse
La construction dun EDCT requiert une mthode automatise, un
modle de donnes fond
sur la thorie relationnelle, une temporalisation avance, un
modle de connaissance, un
modle dintgration et de mise en correspondance, des oprations
dexploration avances
[Khnaisser et al. 2015]. LEDC doit tre modlis sur la base dun
modle temporel fond
tout en assurant une reprsentation et une smantique temporelle
unifie ainsi quune
-
23
structuration solide et des oprateurs temporels facilitant
lexpressivit des requtes
temporelles.
Une nouvelle mthode de construction doit tre dveloppe en se
basant sur un modle
unifiant les modles suivants :
Un modle de connaissance (ontologie) permet davoir une smantique
uniforme et
non ambige des donnes. Lutilisation des ontologies est de plus
en plus prconise
pour faciliter lintgration.
Un modle temporel permet davoir une reprsentation et une
smantique temporelle
unifie. En plus de garantir la traabilit de lvolution des
donnes.
1.4.1 Problme cibl
Dans un premier temps, lobjectif est de dfinir une mthode
semi-automatise de
construction dun EDCT se limitant la construction dun schma dEDT
partir d'un
schma d'ED. Limportation des sources et du modle de connaissance
ainsi que la mise en
correspondances sont reportes aux phases ultrieures. Cette tude
doit rpondre aux
questions suivantes :
Quel modle temporel rpond le mieux aux exigences dun EDT en
tenant compte des
fonctionnalits des SGBDR actuels?
Comment automatiser la construction du schma de lEDT?
Deux modles temporels, BCDM et TRM sont tudis dans une
perspective de
standardisation et de mise en uvre automatisable au sein dun ED
afin datteindre les
besoins de temporalisation.
1.4.2 Autres problmatiques
Plusieurs autres problmatiques se posent concernant les
techniques danalyse de donnes
(forage des donnes), la visualisation des donnes, le contrle
daccs, lanonymisation, etc.
-
24
La rsolution de ces problmatiques sera grandement facilite avec
la rsolution des
problmatiques nonces prcdemment.
:/"6;(+,-+(,-4//&+(,
Le forage de donnes est largement utilis pour diffrent type
danalyse (lanalyse
rtrospective, lanalyse prospective, les prdications, etc.) et
vise diffrents buts : cration de
nouvelles mthodes danalyse de phnotypes [Liao et al. 2015],
dcouvrir de nouveaux
phnotypes [Deans et al. 2015], amliorer les diagnostics ou des
traitements [Defossez et al.
2014].
-
25
Chapitre 2
Temporalisation dun entrept de donnes
One does not need to make an elaborate argument as to why it is
important to model and reason with time, particularly in the
context of medical information systems. Putting it
simply, there is one fundamental truth in life: the world is not
static. Situations change. [Combi et al. 2010]
Plusieurs problmatiques sont relies la construction dun systme
informationnel de sant :
la modlisation de lEDC, la temporalisation, le raisonnement
temporel, lintgration des
sources htrognes, lanalyse des donnes, le contrle daccs, etc. Ce
mmoire sattaque
uniquement la problmatique de temporalisation dun ED.
Le prsent chapitre dcrit le problme trait dans ce mmoire. Il
dbute par une prsentation
intuitive du problme de temporalisation l'chelle d'une simple
relation. La section 2
prsente ensuite le problme dans sa gnralit. La section 3 dcrit
la mthode de
construction dEDT et les problmatiques de la temporalisation.
Pour terminer, la section 4
prsente une liste des rsultats devant tre obtenus afin rsoudre
le problme.
2.1 Exemple de temporalisation d'une relation
Les exemples qui suivent sont construits partir de la mise en
situation suivante : La
direction gnrale dun hpital souhaite suivre loccupation des lits
des diffrentes units.
Dans un premier temps, les informations requises sont lidentit
du patient (nom, ville de
rsidence et date de naissance), lunit responsable de son
hospitalisation et le numro de lit
quil occupe.
-
26
Trois scnarios sont prsents ci-dessous. Chacun reprsente une
catgorie de modlisation.
La prsentation du scnario commence par la description de deux
vnements : ladmission
(arriv dun patient lhpital) et le cong (le dpart d