-
Rseaux Baysiens pour la ClassificationMthodologie et
Illustration dans le cadre duDiagnostic Mdical
Philippe Leray Olivier Franois
INSA Rouen / PSI, FRE CNRS 2645BP 08 - Av. de lUniversit76801
St-Etienne du Rouvray Cedex
[email protected],[email protected]
RSUM. Les rseaux baysiens sont des outils privilgis pour les
problmes de diagnostic.Nous dressons dans cet article un panorama
des algorithmes utiliss classiquement pour lamise en uvre des
rseaux baysiens dans le cadre du diagnostic, et plus
particulirement dudiagnostic mdical. Pour cela, nous passons en
revue un certain nombre de questions mthodo-logiques concernant le
choix de la reprsentation des densits de probabilit (faut-il
discrtiserles variables continues ? utiliser un modle gaussien ?)
et surtout la dtermination de la struc-ture du rseau baysien
(faut-il utiliser un rseau naf ou essayer dapprendre une
meilleurestructure laide dun expert ou de donnes ?). Une tude de
cas concernant le diagnostic decancer de la thyrode nous permettra
dillustrer une partie de ces interrogations et des
solutionsproposes.
ABSTRACT. Bayesian networks are well suited tools for diagnosis
tasks. In this paper, we focuson classical algorithms used to build
diagnosis systems based on bayesian networks, and moreparticularly,
medical diagnosis systems. We review some methodological questions
concerningthe representation of probability densities
(discretization ? use of gaussian models ?) andthe choice of the
adequate structure (naive Bayes structure ? learning the structure
with thehelp of an expert or from data ?). A case study, thyroid
cancer diagnosis, will illustrate thoseconsiderations and some
implemented algorithms
MOTS-CLS : diagnostic mdical, apprentissage de paramtres,
apprentissage de structure
KEYWORDS: medical diagnosis, parameter learning, structure
learning
RIA 15/2002. Rseaux Baysiens, pages 1 25
-
2 RIA 15/2002. Rseaux Baysiens
1. Introduction
Un diagnostic mdical est le rsultat du raisonnement dun mdecin,
dcision trssouvent prise partir dinformations incertaines et/ou
incompltes. De nombreusestechniques dintelligence artificielle ont
t appliques pour essayer de modliser ceraisonnement [LAV 97, LAV
99]. Ainsi, [SZO 82] prsente lutilisation dtaille deplusieurs
systmes experts en mdecine. Citons, par exemple, des systmes basede
rgles comme MYCIN [SHO 74, BUC 84] et Internist-1/QMR (Quick
MedicalReference) [MIL 82].
En amont de ce raisonnement, il faut aussi tre capable de
modliser ces informa-tions incertaines et/ou incompltes. Certaines
approches ont utilis des formalismescomme la logique floue ([STE
97]) ou les fonctions de croyance de Dempster-Shafer.Une autre
consiste se placer dans le cadre de la thorie des probabilits, ce
qui nousamne tout naturellement aux rseaux baysiens (RB) proposs
par Pearl [PEA 88]dans les annes 80, retrouvs parfois sous le nom
de systmes experts probabilistes.
Lutilisation des rseaux baysiens pose un certain nombre de
questions mthodo-logiques :
comment choisir la structure du RB ? comment reprsenter les
densits de probabilits des variables continues ? comment estimer
les densits de probabilits ? comment prendre en compte les donnes
incompltes ou les variables latentes ? comment faire de linfrence,
i.e. calculer la probabilit de telle ou telle maladie
sachant certains symptmes ? , ...
Le but de cet article nest pas dexposer une mthode
"rvolutionnaire" daide audiagnostic mdical, ni de rpondre de manire
exhaustive toutes ces questions. Nousnous proposons de passer en
revue la plupart des solutions quil est possible de mettreen uvre,
en illustrant certaines de ces techniques sur une tude de cas, un
problmede diagnostic de cancer de la thyrode.
2. Rseaux Baysiens et Diagnostic Mdical
2.1. Quelques questions mthodologiques
Les rseaux baysiens possdent de nombreux avantages (modlisation
probabi-liste de lincertitude, possibilit de raisonnement aussi
bien dans le sens symptmes-diagnostic que dans le sens
diagnostic-symptmes, ...) qui font deux des outils pri-vilgis dans
le cadre du diagnostic, notamment pour des problmes de
diagnosticmdical o ils ont t utiliss ds les annes 80 (cf. [KAP 00,
SIE 00] pour une pr-sentation de quelques applications de RB dans
le domaine mdical).
La mise en uvre dun RB pour modliser un tel problme est assez
immdiatelorsque celui-ci est simple (peu de variables, suffisamment
de donnes et/ou dispo-
-
Rseaux Baysiens pour la Classification 3
nibilit dun expert pour lapprentissage des probabilits). Ainsi,
le classifieur nafde Bayes, utilis depuis longtemps en
reconnaissance des formes statistiques, peuttre vu comme un rseau
baysien trs simple dont toutes les variables sont discrtes,avec
lhypothse que tous les symptmes sont indpendants conditionnellement
audiagnostic. Mais se pose alors une question classique dans la
communaut MachineLearning : comment discrtiser les variables
continues ?
Ce RB naf peut bnficier des apports de la communaut "rseaux
baysiens" pourcontourner cette difficult, en faisant lhypothse que
la densit de probabilit condi-tionnelle (CPD) est une gaussienne
(RB naf mixte), ou un mlange de gaussiennes.
Un des inconvnients des RB nafs est le nombre lev de paramtres
estimeralors que, dans la plupart des cas, le nombre de donnes
disponibles est faible. Poury faire face,il est possible de
modliser les CPD par une fonction de type OU bruit.Cest ainsi que
QMR/DT, une des premires applications de ce type de modlisation un
problme de diagnostic mdical, a donn son nom par extension ce type
de RB(souvent appel directement QMR)
Les RB nafs ou de type QMR ont tous deux une structure simple
deux niveauxavec dun ct les symptmes, et de lautre les diagnostics.
Dans la plupart des cas,le problme rsoudre est plus complexe
modliser et la connaissance de certainesrelations de causalit
permet de construire un RB moins "naf". Cette structure peuttre
obtenue grce un expert du domaine, ou partir de donnes grce des
mthodesdapprentissage de structure.
Pour finir, il est aussi possible de modliser des tches de
diagnostic encore pluscomplexes, en utilisant des architectures
mixtes (rseaux de neurones, arbres de dci-sion, rseaux baysiens,
...), les RB tant utiliss au mme niveau que les autres m-thodes de
classification, ou pour combiner efficacement les rsultats des
classifieurs.Nous ne dcrirons pas ces mthodes ici, mais nous
conseillons la lecture de [SIE 01]pour lutilisation dun RB pour la
fusion de classifieurs pour le diagnostic mdical, etde [LER 98]
pour une illustration dun systme de diagnostic complexe (non
mdi-cal), utilisant des rseaux de neurones (pour la reconnaissance
de symptmes partirde donnes brutes et pour la prise en compte de
lvolution temporelle) puis un rseaubaysien (pour le diagnostic
final).
Aprs la phase de dfinition de la structure et du type des
variables (discrtes,continues CPD gaussiennes), il reste encore
deux problmes rsoudre. Tout dabord,comment estimer les probabilits
conditionnelles correspondant la structure du RB(si ce nest pas
effectu en mme temps que lapprentissage de structure) ? Ensuite,la
dernire question linfrence, i.e. le calcul de la probabilit dun (ou
plusieurs)nud(s) du RB (gnralement, la variable diagnostic)
conditionnellement un en-semble dobservations. Un certain nombre
dalgorithmes dinfrence "exacte" fonc-tionnent efficacement pour la
plupart des RB. Par contre, dans certains cas, le rseauest trop
complexe pour ces algorithmes, et il faudra utiliser des
algorithmes dinfrence"approche".
-
4 RIA 15/2002. Rseaux Baysiens
2.2. Choix de la structure du RB
2.2.1. RB Naf
Le classifieur de Bayes naf est directement issu de lapplication
de la rgle dedcision de Bayes en rajoutant lhypothse dindpendance
conditionnelle des symp-tmes (X) conditionnellement au diagnostic
(Diag) :
do(X) = argmaxDiag p(Diag|X) = argmaxDiag p(X|Diag)p(Diag)
= argmaxDiag
i
p(Xi|Diag)p(Diag) [1]
Cela nous permet de rcrire la loi jointe de la faon suivante, ce
qui correspondgraphiquement la structure de la figure 2 p.13,
applique un problme de dtectionde cancer de la thyrode.
p(X, Diag) = p(Diag)
i
p(Xi|Diag) [2]
Les implmentations classiques du classifieur de Bayes naf
considrent que toutesles variables sont discrtes. Si certaines
variables sont continues, il faut alors passerpar une premire tape
de discrtisation. Cette tape, classique dans bon nombre
dal-gorithmes de Machine Learning, a t aborde de nombreuses fois,
en utilisant descritres bass sur des tests statistiques ou sur la
thorie de linformation [DOU 95].Parmi ces mthodes, citons celles
bases sur le critre dAkake utilises par [El- 00]pour la dtection de
mlanomes par un rseau baysien naf discret.
Une autre solution consiste utiliser la modlisation CG
(Conditional Gaussian)[LAU 92]. Sous certaines conditions, il est
possible de reprsenter les densits de pro-babilits conditionnelles
(CPD) continues par des gaussiennes. Il est alors possible
deremplacer ltape de discrtisation du RB naf discret par une
hypothse de normalitdes probabilits des symptmes conditionnellement
au diagnostic pour obtenir ce quenous appellerons un RB naf mixte.
Cette hypothse assez forte permet cependant derduire le nombre de
paramtres estimer ensuite (une moyenne et une variance laplace dun
histogramme).
De mme,on peut relcher lhypothse de normalit en remplaant la CPD
gaus-sienne par un mlange de gaussiennes. Cela se fait trs
facilement en rajoutant unevariable latente (i.e. jamais mesure)
discrte entre le diagnostic et chaque symptme.
2.2.2. Modlisation OU bruit
Dans les problmes de diagnostic, la CPD importante estimer est
:
P = p(Diag|X) = p(Diag|X1, X2, ..., Xn) [3]
Supposons que la variable Diag et les symptmes Xi soient
binaires, de valeurs res-pectives {d et d} et {xi et xi}. Pour
estimer P , il faudra alors estimer 2n valeurs, ce
-
Rseaux Baysiens pour la Classification 5
qui nest pas raliste en grande dimension et/ou avec peu de
donnes. Lide est alorsde simplifier cette probabilit en faisant les
hypothses suivantes :
il est possible de calculer facilement la probabilit suivante
(probabilit que Xicause Diag lorsque les autres variables Xj sont
absentes) :
pi = p(d|x1, x2, ..., xi, ..., xn) [4]
le fait que Xi cause Diag est indpendant des autres variables Xj
(pas deffetmutuel des variables).
Le modle OU bruit (noisy-OR) permet destimer P par la formule
suivante :
P = p(Diag|X1, X2, ..., Xn) = 1
i|XiXp(1 pi) [5]
o Xp est lensemble des Xi vrais.
On peut remarquer que la nouvelle criture de P ne fait pas
dhypothses dind-pendance conditionnelle sur les Xi , ce qui
correspond graphiquement une structurede RB naf o le sens de toutes
les flches aurait t invers.
Ce modle, propos initialement par Pearl [PEA 86], a t tendu au
cas o Diagpeut tre vrai sans quun seul des symptmes soit prsent
([HEN 89] leaky noisy-ORgate) et aux variables multivalues ([HEN
89, SRI 93] generalized noisy-OR gate,[DIE 93] noisy-MAX).
Cette approche a donn de bons rsultats dans de nombreux
domaines. Dans lecadre du diagnostic mdical, Shwe, Middleton et al.
[SHW 91, MID 91] ont refor-mul le systme expert Internist/QMR sous
la forme dun rseau baysien (QMR/DT)en utilisant le modle OU bruit.
[LEP 92] utilise le mme type de modlisation pourun problme de
dtection de complications au cours de transfusions sanguines.
Leurrseau baysien possde 16 nuds : 10 signes cliniques ou
biologiques et 6 complica-tions susceptibles de se dclencher.
Dans le cadre du diagnostic de problmes hpatiques, [ONI 00]
utilise un RB de73 nuds (66 caractristiques et 7 diagnostics), o 27
des 73 CPD sont reprsentespar des OU bruits.
CPCS-PM (Computer-based Patient Case Simulation system), autre
extension deInternist-1, a donn lieu lui aussi lutilisation de RB
[PRA 94] avec une modlisationde type noisy-MAX plusieurs niveaux
(utilisation de variables intermdiaires entreles symptmes et les
diagnostics) pour obtenir un RB de 448 nuds et 908 arcs.
2.2.3. Apprentissage de la structure
GnralitsComment trouver la structure qui reprsentera le mieux
notre problme ? Dans le caso les donnes sont compltes et dcrivent
totalement le problme (pas de variableslatentes), la premire tape
est de mesurer ladquation dun rseau baysien un
-
6 RIA 15/2002. Rseaux Baysiens
problme donn, dassocier un score chaque rseau baysien. La
plupart des scoresproposs dans la littrature sont dcomposables en
deux termes : le premier, la vrai-semblance p(D|, B), mesure
ladquation du rseau baysien de structure B et deparamtres aux
donnes D. Le second terme va essayer de tenir compte de la
com-plexit du modle laide, entre autres, du nombre de paramtres
ncessaires pourreprsenter les distributions de probabilits du rseau
(o ri reprsente la taille de lavariable Xi) :
Dim(B) =
Xi
(ri 1)
Xjpa(Xi)
rj [6]
Parmi les diffrents scores proposs, citons les critres AIC [AKA
70] et BIC[SCH 78] dont les principes peuvent sappliquer aux rseaux
baysiens :
ScoreAIC(B, D) = log p(D|MV , B) Dim(B) [7]
ScoreBIC(B, D) = log p(D|MV , B) 1
2Dim(B) log N [8]
o N est le nombre dexemples dans D et MV sont les paramtres
obtenus par maxi-mum de vraisemblance (cf. paragraphe 2.3).
On retrouve dans les quations 7 et 8 le principe du rasoir
dOccam : quilibrerla capacit bien modliser les donnes et garder un
modle simple, repris dans lestravaux sur la rgularisation des
rseaux de neurones [GIR 95].
Les autres scores existants sont soit des applications de
mesures gnrales commela longueur de description minimale MDL [BOU
93, SUZ 99], soit des mesures sp-cifiques aux rseaux baysiens
(Bayesian Mesure [COO 92], BDe [HEC 94], etc...).
La tche suivante consiste trouver le rseau qui donnera le
meilleur score danslespace des RB. Une approche exhaustive est
irralisable en pratique, cause dela taille de lespace de recherche.
Le nombre de structures possibles partir de nvariables, NS(n), est
donn par la formule de rcurrence suivante [ROB 77], qui
estsuper-exponentielle (par exemple, NS(5) = 29281 et NS(10) = 4.2
1018).
NS(n) =
{
1 , n = 0 ou 1n
i=1(1)i+1
(
ni
)
2i(n1)NS(n i), n > 1[9]
Pour rsoudre ce problme, un certain nombre dheuristiques ont t
proposespour parcourir lespace des RB.
Arbre de recouvrement minimalIl est tout dabord possible de se
limiter lespace (beaucoup plus pauvre) des arbres.Une mthode drive
de la recherche de larbre de recouvrement de poids minimal(minimum
weight spanning tree ou MWST) a t propose par [CHO 68]. Elle
peutsappliquer directement la recherche de structure dun rseau
baysien en fixant unpoids chaque arte potentielle XiXj de larbre,
par exemple linformation mutuelleentre les variables Xi et Xj tel
que la prsent [CHO 68], ou encore la variation
-
Rseaux Baysiens pour la Classification 7
du score lorsquon choisit Xj comme parent de Xi ([HEC 94]).
Larbre non dirigretourn par les algorithmes classiques tels que
Kruskal ou Prim doit ensuite tre dirigen choisissant arbitrairement
un nud racine puis en parcourant et orientant larbre parune
recherche en profondeur.
Rseau baysien naf augmentIl est possible dallier la simplicit du
rseau baysien naf avec la puissance descrip-tive dun RB plus gnral
en rajoutant des dpendances directes entre les
variables(indpendantes conditionnellement la classe dans le modle
naf). Parmi les m-thodes simples pour augmenter le rseau naf,
citons le Tree Augmented Naive Bayes[KEO 99, FRI 97] qui sobtient
en cherchant le meilleur arbre reliant les observations(par
lalgorithme MWST), puis en reliant toutes les observations la
classe commepour un RB naf classique [GEI 92]. [SAC 02] utilise
diffrents classifieurs de typenaf augment pour linterprtation
dimages cardiaques SPECT.
Ordonnancement des nudsDautres mthodes limitent lespace de
recherche en fixant un ordre de parcours desnuds, puis en cherchant
la meilleure configuration possible de parents pour chaquenud parmi
les nuds suivants de la liste. Parmi ces mthodes, citons celle de
r-frence, K2 (avec lutilisation du score Bayesian Mesure) [COO 92]
et des variantescomme K3 [BOU 93] (avec un score MDL), SGO [JOU 00]
(avec une heuristiquesupplmentaire parcourant les numrations
possibles).
[WU 01] propose dutiliser un RB pour la prdiction de survie en
cas daccidentgrave. Leur problme est assez reprsentatif des
problmes de diagnostic mdical :peu de donnes (326 exemples) avec un
nombre important de variables (29) et desdonnes incompltes. Dans
cette approche, les auteurs commencent tout dabord parun RB
construit par un expert du domaine, puis par un RB construit par un
algorithmeproche de K2 prenant en compte les donnes manquantes. Ils
utilisent ensuite lesconnaissances de lexpert pour dterminer une
srie de contraintes simples sur lor-donnancement des nuds
(ordonnancement ncessaire K2) et obtiennent alors untroisime rseau
plus intressant que les deux premiers.
Recherche gloutonne et algorithmes gntiquesDautres mthodes
dapprentissage de structure prsentent une srie doprateurs
(ajoutdarc, suppression, inversion) et effectuent une recherche
gloutonne (greedy search[CHI 95a]) avec laide ventuelle de
certaines heuristiques pour faciliter la recherche(algorithmes SG
et SG+ [JOU 00]), ou utilisent des algorithmes gntiques [LAR
96].
[SIE 98] dveloppe un systme de prdiction de survie ( 1, 3 et 5
ans) aprsdtection dun mlanome malin (cancer de la peau) en
utilisant un apprentissage destructure bas sur les algorithmes
gntiques. Ce RB possde 6 nuds (5 variableset un diagnostic) et les
donnes mesures sur 8 ans contiennent 311 exemples. Cesystme obtient
de meilleurs rsultats quun classifieur de Bayes naf. Il faut noter
queles auteurs concluent sur limportance dincorporer ces mthodes de
constructionautomatique des connaissances dexperts sur la structure
obtenir.
-
8 RIA 15/2002. Rseaux Baysiens
Recherche dans lespace des quivalents de MarkovEn partant du
fait que plusieurs structures encodent la mme loi de probabilit
(quiva-lence de Markov) et possdent alors le mme score, dautres
mthodes dapprentissagede structure plus rcentes suggrent de
parcourir lespace des quivalents de Mar-kov, espace lgrement plus
petit (mais toujours super-exponentiel) mais possdantde meilleures
proprits : [CAU 00, MUN 01, AUV 02], GES (greedy equivalencesearch)
[CHI 95b, CHI 96, CHI 02].
Recherche de causalitToutes ces mthodes font lhypothse de
suffisance causale : toutes les variables din-trt sont connues.
Pourtant, dans de nombreux cas, deux variables juges dpendantesne
le sont que par des dpendances caches (causes ou consquences dune
troisimevariable jamais mesure). Ce problme a t tudi par certaines
mthodes dappren-tissage de structure qui se concentrent sur la
notion de causalit entre les variablesplutt que sur des scores de
rseaux baysiens. Deux sries dalgorithmes ont t pro-poses par deux
quipes diffrentes : Pearl et Verma dun ct avec les algorithmesIC et
IC* (Inductive Causation) [PEA 91, PEA 00], Spirtes, Glymour et
Scheines delautre avec les algorithmes SGS,PC, CI, FCI [SPI 93, SPI
00]. Ces algorithmes com-mencent tous par construire un graphe non
dirig contenant les relations entre lesvariables ( partir de tests
dindpendance conditionnelle) puis essaient de dtecterles
V-structures existantes (en utilisant aussi des tests dindpendance
conditionnelle).Il faut ensuite "propager" les orientations de
certains arcs, et prendre ventuellementen compte les causes (et
consquences) artificielles dues des variables latentes
(al-gorithmes IC*, CI, FCI). Le principal inconvnient de ces
mthodes de recherche decausalit est lutilisation du test
statistique dindpendance conditionnelle qui donnedes rsultats peu
fiables en grande dimension.
Traitement des donnes manquantesAfin de complter ce panorama des
mthodes dapprentissage de structure, citons en-fin les mthodes EM
structurelles [FRI 98] qui appliquent lalgorithme EM (dcrit en2.3
dans le cas de lapprentissage de paramtres) une recherche de
structure de typegloutonne.
Indpendamment de la mthode utilise, il semble assez illusoire de
chercher lameilleure structure sans utiliser de connaissances a
priori sur le problme rsoudre.Il est souvent possible de dterminer
des sous-problmes qui seront modliss s-parment, de dfinir par
avance des groupes de variables qui sont lies, etc ...
Cesconnaissances fournies par des experts du domaine permettent de
limiter fortementlespace de recherche.
2.3. Apprentissage des paramtres
Aprs avoir trouv la structure du rseau baysien (ou pendant
lapprentissage destructure, selon les mthodes), il est ncessaire
destimer les distributions de probabi-lits conditionnelles du rseau
(ou les paramtres des lois correspondantes). Comme
-
Rseaux Baysiens pour la Classification 9
pour tout problme dapprentissage, diffrentes techniques sont
possibles selon la dis-ponibilit de donnes pour le problme traiter,
ou dexperts du domaine. On peutclasser ces techniques en deux
grandes familles : apprentissage partir de donnes(compltes ou non),
par des approches statistiques classiques ou baysiennes, et
ac-quisition de connaissances (avec un expert du domaine). Nous
nous restreindrons iciaux RB variables discrtes, les principes
voqus pouvant se gnraliser aux RBconditionnels gaussiens ([LAU
92]).
2.3.1. Apprentissage partir de donnes
Lestimation de distributions de probabilits (paramtriques on
non) partir dedonnes est un sujet trs vaste et complexe. Nous
dcrirons ici les mthodes les plusutilises dans le cadre des rseaux
baysiens, selon que les donnes notre dispositionsont compltes ou
non, en conseillant la lecture de [HEC 98, KRA 98, JOR 98a]
pourplus dinformations.
Dans le cas o toutes les variables sont observes, la mthode la
plus simple etla plus utilise est lestimation statistique. Il sagit
destimer la probabilit dun v-nement par la frquence dapparition de
lvnement dans la base de donnes. Cetteapproche (appele maximum de
vraisemblance (MV)) nous donne alors :
p(Xi = xk|pa(Xi) = xj) = MVi,j,k =
Ni,j,k
k Ni,j,k[10]
o Ni,j,k est le nombre dvnements dans la base de donnes pour
lesquels lavariable Xi est dans ltat xk et ses parents sont dans la
configuration xj .
Le principe, quelque peu diffrent, de lestimation baysienne
consiste trouverles paramtres les plus probables sachant que les
donnes ont t observes. En uti-lisant une distribution de Dirichlet
comme a priori sur les paramtres, on peut crire :
p() =
n
i=1
j
r
k=1
(i,j,k)i,j,k [11]
o i,j,k sont les paramtres de la distribution de Dirichlet
associe la loi a priorip(Xi = xk|pa(Xi) = xj).
Lapproche de maximum a posteriori (MAP) nous donne :
p(Xi = xk|pa(Xi) = xj) = MAPi,j,k =
Ni,j,k + i,j,k 1
k (Ni,j,k + i,j,k 1)[12]
Dans la plupart des applications, les bases dexemples sont trs
souvent incom-pltes. Certaines variables ne sont observes que
partiellement ou mme jamais. Lamthode destimation de paramtres avec
des donnes incompltes la plus couram-ment utilise est fonde sur
lalgorithme itratif Expectation-Maximisation (EM) pro-pos par
Dempster [DEM 77] et appliqu aux RB dans [COW 99, NEA 98].
-
10 RIA 15/2002. Rseaux Baysiens
Mme si nous ne prsentons ci-dessous que lutilisation de
lalgorithme EM auxrseaux baysiens discrets, notons que le principe
sapplique sans problme aux r-seaux baysiens de type conditionnel
gaussien o certains nuds sont continus etmodliss par des densits de
probabilits conditionnelles gaussiennes. Cette probl-matique est
dailleurs similaire celle de lapprentissage des mlanges de
gaussiennesou des modles de Markov cachs [NEA 98, VLA 02].
Soient
Xv = {X(l)v }l=1...N lensemble des donnes observes
(visibles),
(t) = {(t)i,j,k} les paramtres du rseau baysien litration t.
Lalgorithme EM sapplique la recherche des paramtres en rptant
jusquconvergence les deux tapes Esprance et Maximisation dcrites
ci-dessous.
Esprance : estimation des Ni,j,k manquants en calculant leur
moyenne condi-tionnellement aux donnes et aux paramtres courants du
rseau :
Ni,j,k = E[Ni,j,k] =N
l=1
p(Xi = xk|pa(Xi) = xj , X(l)v , (t)) [13]
Cette tape revient faire une srie dinfrences (exactes ou
approches) en utilisantles paramtres courants du rseau, et
remplacer les valeurs manquantes par lesprobabilits obtenues par
infrence.
Maximisation : en remplaant les Ni,j,k manquants par leur valeur
moyennecalcule prcdemment, il est maintenant possible de calculer
de nouveaux para-mtres (t+1) par maximum de vraisemblance :
(t+1)i,j,k =
Ni,j,k
k Ni,j,k
[14]
Lalgorithme EM peut aussi sappliquer dans le cadre baysien. Pour
lapprentis-sage des paramtres, il suffit de remplacer le maximum de
vraisemblance de ltapeM par un maximum posteriori. Cela nous donne
donc :
(t+1)i,j,k =
Ni,j,k + i,j,k 1
k (Ni,j,k + i,j,k 1)
[15]
2.3.2. Extraction de connaissances
Il existe de nombreux travaux sur lextraction de probabilits
(cf. [REN 01]). Lors-quun expert doit dterminer tout un ensemble de
probabilits, il faut tenir compte desbiais ventuels parfois
subconscients (un expert va souvent surestimer la probabilit
derussite dun vnement le concernant plus directement, etc ...). Il
est possible de four-nir cet expert du domaine des outils reliant
des notions qualitatives et quantitatives
-
Rseaux Baysiens pour la Classification 11
certain 100
probable 85
attendu 75
50-50 50
incertain25
improbable 15
impossible 0
Figure 1. Echelle de probabilit
pour quil puisse associer une probabilit aux diffrents vnements.
Loutil le plusconnu et le plus facile mettre en uvre est lchelle de
probabilit prsente dansla figure 1 (cf. les travaux de Druzdzel
[DRU 00] et Renooij [REN 01]). Cette chellepermet aux experts
dutiliser des informations la fois textuelles et numriques
pourassigner un degr de ralisation telle ou telle affirmation.
Une des applications les plus connues des rseaux baysiens en
mdecine est lesystme Pathfinder [HEC 92], spcialis dans le
diagnostic des pathologies ganglion-naires. Cette application
traite 130 symptmes et 60 diagnostics et ncessite la spci-fication
denviron 75.000 probabilits. Autre exemple, [GAA 02] tudie de faon
trsdtaille les techniques dlicitation de probabilit pour la
prdiction de ltat davan-cement dun cancer de lsophage. Les auteurs
ont leur disposition 40 variablesmesures partiellement sur 156
exemples quils prfrent garder pour tester la validitdes modles
obtenus. Deux spcialistes du domaine ont t interrogs pour
dtermi-ner la structure du RB et du millier de probabilits
associes. Aprs une phase derglage du RB et de correction de
certaines donnes par les experts, le RB dterminecorrectement ltat
du patient dans 85% des cas.
2.4. Infrence
Linfrence consiste calculer la probabilit dun (ou plusieurs)
nud(s) du rseaubaysien conditionnellement un ensemble
dobservations. Un certain nombre dal-gorithmes permet, en thorie,
de faire ce calcul de manire exacte. Nous conseillons lalecture de
[PEA 88] et [JEN 96] pour une description des algorithmes dinfrence
lesplus couramment utiliss. Ces mthodes sont malheureusement trop
lourdes utiliserpour des rseaux de trs grande taille, ou fortement
connects. Pour essayer de r-soudre ces problmes, des algorithmes
dinfrence approche ont t mis au point, par
-
12 RIA 15/2002. Rseaux Baysiens
exemple en utilisant des techniques dchantillonage. Dautres
mthodes approchesutilisent des approximations variationnelles
dveloppes rcemment ([JOR 98b]).
[JAA 99] propose une approximation variationnelle des rseaux
baysiens de typeQMR/DT. [WIE 99] utilise une mthode dinfrence
variationnelle sur un projet dediagnostic de lanmie (Promedas),
avec un RB dune centaine de variables. [KAP 02]dcrit une mthode
dinfrence variationnelle (Cluster Variation Method) quil ap-plique
avec succs au mme problme.
3. Etude de cas : Cancer de la thyrode
3.1. Les donnes
La base dexemple utilise est une base classique propose par [QUI
86] dans lecadre des arbres de dcision, et disponible sur de
nombreux serveurs web. Elle estspare en deux ensembles
(apprentissage et test) contenant respectivement 2800 et972
enregistrements. Parmi les 29 variables initiales, nous retenons
ici lensemble des22 variables dcrit dans le tableau 1.
diag tat (0=sain et 1=malade)X1 ge (continue)X2 sexe (0=fminin
et 1=masculin)X3 sous thyroxineX4 demande de thyroxineX5 sous
traitement antithyrodeX6 maladeX7 femme enceinteX8 opr de la
thyrodeX9 sous traitement I131X10 demande dhypothyrodeX11 demande
dhyperthyrodeX12 sous lithiumX13 prsence dun goitreX14 prsence dune
tumeurX15 hypopituitaireX16 psychX17 mesure de TSH (continue)X18
mesure de T3 (continue)X19 mesure de TT4 (continue)X20 mesure de
T4U (continue)X21 mesure de FTI (continue)
Tableau 1. Thyroid : les 22 variables utilises
-
Rseaux Baysiens pour la Classification 13
diag
yy yy yyrrrr
rrrr
rrrr
rrrr
rrrr
rrrr
rr
zzuuuu
uuuu
uuuu
uuuu
uuuu
uu
}}{{{{
{{{{
{{{{
{{{{
{{{{
++
++++
++++
+++
44
4444
4444
4444
4
>>
>>>>
>>>>
>>>>
>>>
##FF
FFFF
FFFF
FFFF
FFFF
FF
## $$
1 2 3 4 ... 13 14 15 16 17 18 19 20 21
Figure 2. Rseau baysien naf discret
885 27 015 45 0
836 11 656 27 27
= 0.5 (pas de rejet) = 0.9
Tableau 2. Rseau baysien naf discret : matrices de confusion (en
test) pour deuxseuils de rejet. Les lignes correspondent la classe
relle (sain, malade), les colonnes la dcision prise suivant les
rsultats du classifieur (sain, malade et rejet).
3.2. Rseau baysien naf discret
Commenons par mettre en uvre un RB naf discret (fig. 2) en
discrtisant lesvariables continues par une des mthodes proposes par
[El- 00]. Les CPD sont esti-mes partir des exemples dapprentissage.
Le RB naf est ensuite utilis pour calculerp(Diag|X) et associ une
rgle de dcision avec rejet : si max(p(Diag|X)) < ,alors dcision
= rejet, sinon dcision = argmax(p(Diag|X)). La table 2 nousdonne
les matrices de confusion correspondant deux seuils de rejet.
Il est galement possible dvaluer la qualit du classifieur obtenu
en traant lacourbe ROC (pourcentage dexemples non rejets bien
classs en fonction du pour-centage des exemples rejets). La figure
3 nous donne la courbe ROC du rseau nafdiscret (courbe fonce en
trait plein). Elle nous indique que, sans rejet, le rseau
nafdiscret donne 95.7% de bonne classification. De plus, pour tre
sur dobtenir un pour-centage de bien classs de 99% il faudra
rejeter 33.5% des exemples (et les traitermanuellement ou avec un
autre classifieur).
3.3. Rseau baysien naf mixte
Remplaons maintenant la discrtisation des variables pour une
hypothse suppl-mentaire (modlisation des CPD continues par des
gaussiennes) pour obtenir le RBnaf mixte de la figure 4. Ce rseau,
qui possde un nombre rduit de paramtres parrapport au RB naf
discret, nous donne le mme pourcentage de bonne
classification(95.7%), avec une meilleure courbe ROC (cf. figure 3,
courbe grise en trait plein). En
-
14 RIA 15/2002. Rseaux Baysiens
0 10 20 30 40 50 60 70 80 90 10095.5
96
96.5
97
97.5
98
98.5
99
99.5
100
pourcentage de points rejets
perfo
rman
ce en
test
sur le
s poin
ts no
n reje
ts
BN discretMWSTTANBN mixte
95.7% (BN discret et mixte)
96.4% (TAN)
96.8% (MWST)
Performances sans rejet
10% 18% 20% 33% taux de rejet permettant dobtenir 99% de bonne
classification
Figure 3. Courbe ROC pour diffrents rseaux baysiens (RB naf
discret, RB nafmixte, RB obtenus par MWST et TAN).
diag
xx xx xxrrrr
rrrr
rrrr
rrrr
rrrr
rrrr
rr
zzuuuu
uuuu
uuuu
uuuu
uuuu
uuu
}}zzzz
zzzz
zzzz
zzzz
zzzz
++
++++
++++
+++
55
5555
5555
5555
5
??
????
????
????
????
##GG
GGGG
GGGG
GGGG
GGGG
GGG
$$ $$?>=
-
Rseaux Baysiens pour la Classification 15
diag
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
16
17
18
19
20
21
Figure 5. Rseau baysien obtenu par lalgorithme MWST (La racine
choisie pourlorientation de larbre est le nud diagnostic).
bonne classification sans rejet (contre 95.7% pour le naf
discret), et un pourcentagede bonne classification de 99% pour un
taux de rejet de 10% (bien meilleur que pourles deux rseaux
baysiens nafs, cf. la courbe fonce en pointill de la figure 3).
Dans lapproche MWST, la connaissance a priori de la variable qui
sert la classifi-cation nentre pas en jeu, la diffrence de la
structure propose par le rseau baysiennaf. Lapproche TAN (Tree
Augmented Naive bayes) permet de mlanger les deux,en cherchant le
meilleur arbre reliant les observations et en conservant la
structurereliant la classe aux observations. Le rseau ainsi obtenu
donne des performances entest quivalentes (96.4%) mais avec des
performances de rejet moins bonnes (20.5%de points rejets pour
arriver 99% de bonne classification, cf. la courbe grise enpointill
de la figure 3).
3.5. Ordonnancement des nuds, algorithme K2
Cherchons maintenant si un RB de structure plus complexe
pourrait mieux mod-liser notre problme. Nayant pas dexpert notre
disposition, nous allons appliquerlalgorithme K2 propos par [COO
92]. Cet algorithme ne fonctionnant quavec desdonnes discrtes, nous
utiliserons donc les donnes dj discrtises en 3.2. En utili-sant un
ordonnancement des nuds inspir du RB naf (dabord le nud
Diagnostic,puis les autres nuds), on obtient le RB de la figure 6
qui montre un pourcentage debonne classification en test de 96.3%.
Ce RB nous permet dobtenir la courbe fonceen trait pointill de la
figure 8. Elle nous indique que pour tre sr davoir un pourcen-
-
16 RIA 15/2002. Rseaux Baysiens
diag 1 2
3
4
5 6 7 8
9 10 11
12
13
14
15 16
17
18
19
20
21
Figure 6. Rseau baysien obtenu par lalgorithme K2 avec lordre
dnumrationDiag, X1, X2, ..., X21.
diag
1 2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Figure 7. Rseau baysien obtenu par lalgorithme K2+T avec lordre
dnumrationfourni par MWST.
-
Rseaux Baysiens pour la Classification 17
0 10 20 30 40 50 60 70 80 90 10095.5
96
96.5
97
97.5
98
98.5
99
99.5
100
pourcentage de points rejets
perfo
rman
ce en
test
sur le
s poin
ts no
n reje
ts
MWSTK2K2+TGSGS+T
96.1% (GS)
96.2% (GS+T) 96.3% (K2)
95.9% (K2+T)
Performances sans rejet
96.8% (MWST)
7.1% 10% taux de rejet permettant dobtenir 99% de bonne
clasification
Figure 8. Courbe ROC pour diffrents rseaux baysiens (RB obtenus
par MWST, K2,K2+T, GS et GS+T).
tage de bien classs de 99% il faut maintenant rejeter 7.1% des
exemples (contre 33%et 10% pour le RB naf et pour larbre obtenu
avec MWST).
Notons que le rsultat de lalgorithme K2 dpend fortement de
lordonnancementinitial des nuds. Un ordre diffrent aurait pu donner
des rsultats trs mauvais ouventuellement meilleurs ! Pour rsoudre
ce problme dinitialisation, nous avons pro-pos dans [FRA 03]
dutiliser lordonnancement des nuds fourni par lalgorithmeMWST pour
initialiser lalgorithme K2. Cette variante de K2 appelle K2+T
nousdonne le rseau baysien de la figure 7 et un pourcentage de
bonne classification entest de 95.9%. La courbe ROC obtenue par
K2+T est sensiblement la mme que celleobtenue par K2 ; par
consquent nous avons russi obtenir un RB donnant des per-formances
quivalentes, mais en nous affranchissant du problme
dinitialisation.
3.6. Recherche gloutonne, algorithme GS
Lalgorithme GS (recherche gloutonne, Greedy Search) permet de
lever la restric-tion sur lordre des nuds pour le parcours de
lespace des structures possibles. Unesrie doprateurs (ajout,
suppression et inversion darc) dfinit le voisinage dunestructure
fixe. Il suffit alors de rechercher une structure plus intressante
parmi levoisinage, et ditrer la recherche jusqu convergence du
critre de score [CHI 95a].
En partant dune initialisation vide (structure sans arc), cette
mthode nous donnele rseau baysien de la figure 9. Les performances
en classification sont quivalentes
-
18 RIA 15/2002. Rseaux Baysiens
diag
1
2 3
4
5
6
7
8
9 10
11
12
13
14
15
16
17
18
19
20
21
Figure 9. Rseau baysien obtenu par lalgorithme Greedy
Search.
diag
1 2
3
4
5
6
7
8
9 10
11
12
13
14
15
16
17
18
19
20
21
Figure 10. Rseau baysien obtenu par lalgorithme Greedy Search,
avec une initia-lisation fournie par MWST.
-
Rseaux Baysiens pour la Classification 19
celles des rseaux obtenus par K2 et K2+T (96.1% de bonne
classification et un tauxde rejet de 7.5% pour obtenir des
performances en test de 99%).
La vitesse de convergence de ce genre de mthode dpend fortement
de la struc-ture utilise au dpart. Comme pour K2 et K2+T, nous
avons propos dans [FRA 03]dutiliser cette fois-ci le graphe fourni
par lalgorithme MWST pour initialiser lalgo-rithme GS. Cette
variante appele GS+T nous fournit, avec environ deux fois moinsde
calculs, le rseau baysien de la figure 10 qui possde des
performances du mmeordre que les autres mthodes (96.2% de bonne
classification et 7.2% de rejet pourobtenir des performances en
test de 99%).
3.7. Algorithme EM structurel
Dans toutes les mthodes prcdentes, le problme des donnes
manquantes (va-riables partiellement observes) tait contourn en
rajoutant une modalit supplmen-taire (variable non mesure) aux
variables concernes.
Une manire plus formelle de rsoudre le problme est dutiliser le
principe de lal-gorithme EM de [DEM 77] lapprentissage de
structure. Lalgorithme itratif SEM(Structural EM) propos par [FRI
98] combine un algorithme de type Greedy Searchpour dfinir le
voisinage de la structure courante, et lalgorithme EM pour
valuerles paramtres et le score de tous les rseaux de ce voisinage,
et choisir le meilleurpour litration suivante. Cet algorithme
souffre encore de problmes dinitialisationqui font quil est souvent
utile de lexcuter plusieurs fois pour viter de tomber dansdes
minima locaux de trs mauvaise qualit. Malgr cela, il est possible
darriver des solutions intressantes obtenant un taux de bonne
classification proche des autresmthodes.
4. Conclusion
Dans cet article, nous avons dress un panorama dalgorithmes
classiquement uti-liss pour la mise en uvre de rseaux baysiens dans
le cadre du diagnostic, et plusparticulirement du diagnostic
mdical. Pour aborder plus concrtement cette tche,nous avons appliqu
un certain nombre dalgorithmes sur un problme de dtectiondu cancer
de la thyrode. Le tableau 3 rsume les performances obtenues avec
plu-sieurs mthodes dapprentissage de structure, avec ou sans
discrtisation des variablescontinues. Cette tude nous a permis
daborder certaines questions mthodologiquessimples mais qui se
posent lors de toutes les applications :
comment reprsenter les densits de probabilits des variables
continues ? faut-ildiscrtiser ? reprsenter les CPD continues par
des gaussiennes ?Lutilisation dune CPD gaussienne simple peut poser
des problmes si la distribu-tion est bimodale, et lutilisation de
mlanges de gaussiennes pose dautres difficul-ts comme la
dtermination du nombre de gaussiennes utiliser. De plus,
certainesmthodes dapprentissage de structure ne peuvent sutiliser
quavec des variables dis-
-
20 RIA 15/2002. Rseaux Baysiens
Mthode Perf. (sans rejet) Intervalle de confiance Rejet (/
Perf=99%)BN discret 95.7% [94.2% 96.9%] 33.5%BN mixte 95.7% [94.2%
96.9%] 18.2%MWST 96.8% [95.4% 97.8%] 10%TAN 96.4% [95.0% 97.5%]
20.5%K2 96.3% [94.9% 97.4%] 7.1%K2+T 95.9% [94.4% 97.0%] 7.1%GS
96.1% [94.6% 97.2%] 7.5%GS+T 96.2% [94.7% 97.3%] 7.3%
Tableau 3. Thyroid : performances en test sans rejet (colonne 2)
avec intervalle deconfiance 95% (colonne 3) et taux de rejet
correspondant 99% de bonne clas-sification (colonne 4) pour des
rseaux baysiens obtenus par diffrents algorithmesdapprentissage de
structure.
crtes. Dun autre ct, le nombre de paramtres estimer est souvent
plus petit dansle cas conditionnel gaussien, ce qui permet dobtenir
de meilleurs rsultats.
comment choisir la structure du RB ? faut-il utiliser un RB naf,
ou essayer detrouver une meilleure structure ?Lutilitation dun
rseau baysien naf permet souvent dobtenir de bons rsultats un
moindre cot, mais est rapidement surclasse par MWST, mthode presque
aussisimple. Par contre, si le nombre de donnes disponibles est
important ou avec laidedun expert, il est possible dobtenir une
structure codant plus finement le problme.
Les perspectives sont nombreuses, surtout au niveau de
lapprentissage de struc-ture et plus spcifiquement lapprentissage
dans lespace des quivalents de Markovet lapplication de lalgorithme
SEM dans le mme espace. Il reste aussi proposerdes mthodes
permettant dincorporer automatiquement des connaissances a
priori(mta-structures, connaissances dexperts, ...) pour faciliter
la recherche de la struc-ture et amliorer la convergence de mthodes
comme la recherche gloutonne ou SEM.Une autre voie de recherche
concerne les rseaux baysiens temporels qui offrent uncadre idal
pour la prise en compte du temps dans le diagnostic. Pour finir, il
pourraittre intressant dessayer de modliser lincertain avec un
autre formalisme que lesprobabilits, en utilisant par exemple la
thorie de Dempster-Schafer.
Remerciements
Les exprimentations effectues dans cet article ont t ralises
avec BNT, tool-box gratuite pour Matlab [MUR 01] et le package
Structural Learning que nous dis-tribuons sur le site internet
franais de la toolbox (http ://bnt.insa-rouen.fr).
-
Rseaux Baysiens pour la Classification 21
5. Bibliographie
[AKA 70] AKAIKE H., Statistical Predictor Identification , Ann.
Inst. Statist. Math.,vol. 22, 1970, p. 203-217.
[AUV 02] AUVRAY V., WEHENKEL L., On the Construction of the
Inclusion BoundaryNeighbourhood for Markov Equivalence Classes of
Bayesian Network Structures , DAR-WICHE A., FRIEDMAN N., Eds.,
Proceedings of the 18th Conference on Uncertainty inArtificial
Intelligence (UAI-02), S.F., Cal., 2002, Morgan Kaufmann
Publishers, p. 2635.
[BOU 93] BOUCKAERT R., Probabilist network construction using
the Minimum Descrip-tion Length principle , rapport, 1993,
Departement of computer science, Utrech university,Netherlands.
[BUC 84] BUCHANAN B., SHORTLIFFE E. H., Rule-Based Expert
Systems : The MYCIN Ex-periments of the Stanford Heuristic
Programming Project, Addison Wesley, 1984.
[CAU 00] CAU D., MUNTEANU P., Efficient Learning of Equivalence
Classes of BayesianNetworks , Proceedings of the 4th European Conf.
on Principles and Practice of Know-ledge Discovery in Databases,
PKDD, Lyon, 2000, p. 96-105.
[CHI 95a] CHICKERING D., GEIGER D., HECKERMAN D., Learning
Bayesian networks :Search methods and experimental results ,
Proceedings of Fifth Conference on ArtificialIntelligence and
Statistics, 1995, p. 112128.
[CHI 95b] CHICKERING D. M., A Transformational Characterization
of Equivalent Baye-sian Network Structures , BESNARD, PHILIPPE,
HANKS S., Eds., Proceedings of the 11thConference on Uncertainty in
Artificial Intelligence (UAI95), San Francisco, CA, USA,aot 1995,
Morgan Kaufmann Publishers, p. 8798.
[CHI 96] CHICKERING D. M., Learning Equivalence Classes of
Bayesian Network Struc-tures , HORVITZ E., JENSEN F., Eds.,
Proceedings of the 12th Conference on Uncertaintyin Artificial
Intelligence (UAI-96), San Francisco, aot 14 1996, Morgan Kaufmann
Publi-shers, p. 150157.
[CHI 02] CHICKERING D. M., Learning equivalence classes of
bayesian-network struc-tures , Journal of machine learning
research, vol. 2, 2002, p. 445-498.
[CHO 68] CHOW C., LIU C., Approximating discrete probability
distributions with depen-dence trees , IEEE Transactions on
Information Theory, vol. 14, no 3, 1968, p. 462-467.
[COO 92] COOPER.G, HERSOVITS.E, A Bayesian Method for the
Induction of ProbabilisticNetworks from Data , Maching Learning,
vol. 9, 1992, p. 309-347.
[COW 99] COWELL R. G., DAWID A. P., LAURITZEN S. L.,
SPIEGELHALTER D. J., Proba-bilistic Networks and Expert Systems,
Statistics for Engineering and Information Science,Springer-Verlag,
1999.
[DEM 77] DEMPSTER A., LAIRD N., RUBIN D., Maximum Likelihood
from IncompeteData Via the EM Algorithm , journal of the Royal
Statistical Society, vol. B 39, 1977,p. 1-38.
[DIE 93] DIEZ F. J., Parameter adjustement in Bayes networks.
The generalized noisy ORgate , Proceedings of the 9th Conference on
Uncertainty in Artificial Intelligence, Wa-shington D.C., 1993,
Morgan Kaufmann, San Mateo, CA, p. 99105.
[DOU 95] DOUGHERTY J., KOHAVI R., SAHAMI M., Supervised and
Unsupervised Discre-tization of Continuous Features , International
Conference on Machine Learning, 1995,p. 194-202.
-
22 RIA 15/2002. Rseaux Baysiens
[DRU 00] DRUZDEL M., VAN DER GAAG L., HENRION M., JENSEN F.,
Building Proba-bilistic Networks : Where Do the Numbers Come From ?
Guest Editors Introduction ,IEEE Transactions on Knowledge and Data
Engineering, vol. 12, 2000.
[El- 00] EL-MATOUAT F., COLOT O., VANNOORENBERGHE P., LABICHE
J., From conti-nous to discrete variables for baysian network
classifiers , Conference on Systems, Manand Cybernetics, IEEE-SMC,
Nashville, USA, 2000.
[FRA 03] FRANCOIS O., LERAY P., Etude comparative dalgorithmes
dapprentissage destructure dans les rseaux baysiens , Proceedings
of RJCIA 2003, plateforme AFIA2003, Laval, France, 2003.
[FRI 97] FRIEDMAN N., GEIGER D., GOLDSZMIDT M., Bayesian Network
Classifiers ,Machine Learning, vol. 29, no 2-3, 1997, p.
131-163.
[FRI 98] FRIEDMAN N., The Bayesian Structural EM Algorithm ,
COOPER G. F., MORALS., Eds., Proceedings of the 14th Conference on
Uncertainty in Artificial Intelligence (UAI-98), San Francisco,
juillet 2426 1998, Morgan Kaufmann, p. 129138.
[GAA 02] DER GAAG L. V., RENOOIJ S., WITTEMAN C., ALEMAN B.,
TAAL B., Pro-babilities for a probabilistic network : a case study
in oesophageal cancer , ArtificialIntelligence in Medicine, vol.
25, no 2, 2002, p. 123-148.
[GEI 92] GEIGER D., An Entropy-based Learning Algorithm of
Bayesian ConditionalTrees , Uncertainty in Artificial Intelligence
: Proceedings of the Eighth Conference(UAI-1992), San Mateo, CA,
1992, Morgan Kaufmann Publishers, p. 92-97.
[GIR 95] GIROSI F., JONES M., POGGIO T., Regularization Theory
and Neural NetworksArchitectures , Neural Computation, vol. 7, no
2, 1995, p. 219-269.
[HEC 92] HECKERMAN D., NATHWANI B., An Evaluation of the
Diagnostic Accurency ofPathfinder , Comput Biomed Res, vol. 25,
1992, p. 56-74.
[HEC 94] HECKERMAN D., GEIGER D., CHICKERING M., Learning
Bayesian networks :The combination of knowledge and statistical
data , DE MANTARAS R. L., POOLE D.,Eds., Proceedings of the 10th
Conference on Uncertainty in Artificial Intelligence, San
Fran-cisco, CA, USA, juillet 1994, Morgan Kaufmann Publishers, p.
293301.
[HEC 98] HECKERMAN D., A Tutorial on Learning with Bayesian
Network , JORDANM. I., Ed., Learning in Graphical Models, Kluwer
Academic Publishers, Boston, 1998.
[HEN 89] HENRION M., Some Practical Issues in Constructing
Belief Networks , KANALL. N., LEVITT T. S., LEMMER J. F., Eds.,
Uncertainty in Artificial Intelligence 3, vol. 8de Machine
Intelligence and Pattern Recognition, p. 161174, North-Holland,
Amsterdam,1989.
[JAA 99] JAAKKOLA T., JORDAN M., Variational Methods and the
QMR-DT Database ,Journal of Articial Intelligence, vol. 10, 1999,
p. 291-322.
[JEN 96] JENSEN F., Introduction to Bayesian Networks, Springer
Verlag, 1996.
[JOR 98a] JORDAN M. I., Learning in Graphical Models, Kluwer
Academic Publishers, Dor-decht, The Netherlands, 1998.
[JOR 98b] JORDAN M. I., GHAHRAMANI Z., JAAKKOLA T. S., SAUL L.,
An Introductionto Variational Methods for Graphical Models , JORDAN
M. I., Ed., Learning in GraphicalModels, Kluwer Academic
Publishers, Boston, 1998.
[JOU 00] JOUFFE L., MUNTEANU P., Smart-Greedy+ : Apprentissage
hybride de rseauxbaysiens , Colloque francophone sur
lapprentissage, CAP, St. Etienne, juin 2000.
-
Rseaux Baysiens pour la Classification 23
[KAP 00] KAPPEN H., WIEGERINCK W., TER BRAAK E., Decision
support for medicaldiagnosis , MEIJ J., Ed., Dealing with the data
flood. Mining data, text and multimedia,The Hague : STT/Bewetong
(Study centre for Technology Trends, 65)., 2000.
[KAP 02] KAPPEN H., The cluster variation method for approximate
reasoning in medicaldiagnosis , NARDULLI G., STRAMAGLIA S., Eds.,
Modeling Bio-medical signals, World-Scientic, 2002.
[KEO 99] KEOGH E., PAZZANI M., Learning Augmented Bayesian
Classifiers : A Com-parison of Distribution-based and
Classification-based Approaches , Proceedings of theSeventh
International Workshop on Artificial Intelligence and Statistics,
1999, p. 225-230.
[KRA 98] KRAUSE P. J., Learning Probabilistic Networks ,
1998.
[LAR 96] LARRANAGA P., KUIJPERS C., MURGA R., YURRAMENDI Y.,
Learning Baye-sian Network Structures by searching the best order
ordering with genetic algorithms ,IEEE Transactions on System, Man
and Cybernetics, vol. 26, 1996, p. 487-493.
[LAU 92] LAURITZEN S., Propagation of Probabilistics, Means and
Variances in MixedGraphical Association Models , Journal of the
American Statistical Association, vol. 87,1992, p. 1098-1108.
[LAV 97] LAVRAC N., KERAVNOU E., ZUPAN B., Intelligent Data
Analysis in Medicine andPharmacology, Kluwer, 1997.
[LAV 99] LAVRAC N., Selected techniques for data mining in
medicine , Artificial Intelli-gence in Medicine, vol. 16, no 1,
1999, p. 3-23.
[LEP 92] LEPAGE E., AL., Systme Daide la Dcision Fond sur un
Modle de RseauBaysien Application la Surveillance Transfusionnelle
, Informatique et sant, vol. 5,1992, p. 76-87.
[LER 98] LERAY P., Apprentissage et Diagnostic de Systemes
Complexes : Rseaux de Neu-rones et Rseaux Bayesiens. Application La
Gestion En Temps Rel Du Trafic Tlpho-nique Franais, PhD thesis,
Universit Paris 6, 1998.
[MID 91] MIDDLETON B., SHWE M., HECKERMAN D., HENRION M.,
HORVITZ E., LEH-MANN H., COOPER G., Probabilistic diagnosis using a
reformulation of the INTERNIST-1/QMR knowledge base : Part II.
Evaluation of diagnostic performance , SIAM Journalon Computing,
vol. 30, 1991, p. 256267.
[MIL 82] MILLER R., POPLE H., MYERS J., INTERNIST-1, An
Experimental Computer-based Diagnostic Consultant for General
Internal Medicine , N Engl J Med, vol. 307,1982, p. 468-476.
[MUN 01] MUNTEANU P., BENDOU M., The EQ Framework for Learning
EquivalenceClasses of Bayesian Networks , Proceedings of the First
IEEE International Conferenceon Data Mining, IEEE ICDM, 2001.
[MUR 01] MURPHY K., The BayesNet Toolbox for Matlab , Computing
Science andStatistics : Proceedings of Interface, vol. 33,
2001.
[NEA 98] NEAL R. M., HINTON G. E., A View of the EM algorithm
that justifies incre-mental, sparse and other variants , JORDAN M.
I., Ed., Learning in Graphical Models,Kluwer Academic Publishers,
Boston, 1998.
[ONI 00] ONISKO A., DRUZDZEL M. J., WASYLUK H., Learning
Bayesian network pa-rameters from small data sets : Application of
Noisy-OR gates , Working Notes of theWorkshop on Bayesian and
Causal Networks : From Inference to Data Mining, 12th Euro-pean
Conference on Artificial Intelligence (ECAI-2000), Berlin, Germany,
2000.
-
24 RIA 15/2002. Rseaux Baysiens
[PEA 86] PEARL J., Fusion, Propagation, and Structuring in
Belief Networks , ArtificialIntelligence, vol. 29, 1986, p.
241-288.
[PEA 88] PEARL J., Probabilistic Reasoning in Intelligent
Systems : Networks of PlausibleInference., Morgan Kaufmann,
1988.
[PEA 91] PEARL J., VERMA T. S., A Theory of Inferred Causation ,
ALLEN J. F., FIKESR., SANDEWALL E., Eds., KR91 : Principles of
Knowledge Representation and Reasoning,San Mateo, California, 1991,
Morgan Kaufmann, p. 441452.
[PEA 00] PEARL J., Causality : Models, Reasoning, and Inference,
Cambridge UniversityPress, Cambridge, England, 2000.
[PRA 94] PRADHAN M., PROVAN G., MIDDLETON B., HENRION M.,
Knowledge Engi-neering for Large Belief Networks , Proceedings of
the Tenth Annual Conference on Un-certainty in Artificial
Intelligence (UAI94), San Francisco, CA, 1994, Morgan
KaufmannPublishers, p. 484490.
[QUI 86] QUINLAN J., Induction of decision trees , Machine
Learning, vol. 1, 1986,p. 81-106.
[REN 01] RENOOIJ S., Probability Elicitation for Belief Networks
: Issues to Consider ,Knowledge Engineering Review, vol. 16, no 3,
2001, p. 255-269.
[ROB 77] ROBINSON R. W., Counting unlabeled acyclic digraphs ,
LITTLE C. H. C.,Ed., Combinatorial Mathematics V, vol. 622 de
Lecture Notes in Mathematics, Berlin,1977, Springer, p. 2843.
[SAC 02] SACHA J., GOODENDAY L., CIOS K., Bayesian learning for
cardiac SPECTimage interpretation , Artificial Intelligence in
Medecine, vol. 26, 2002, p. 109-143.
[SCH 78] SCHWARTZ G., Estimating the dimension of a model , The
Annals of Statistics,vol. 6, no 2, 1978, p. 461-464.
[SHO 74] SHORTLIFFE E. H., MYCIN : A Rule-Based Computer Program
for Advising Phy-sicians Regarding Antimicrobial Therapy Selection,
PhD thesis, Stanford Artificial Intelli-gence Laboratory, Stanford,
CA, octobre 1974.
[SHW 91] SHWE M., MIDDLETON B., HECKERMAN D., HENRION M.,
HORVITZ E., LEH-MANN H., COOPER G., Probabilistic diagnosis using a
reformulation of the INTERNIST-1/QMR knowledge base : Part I. The
probabilistic model and inference algorithms , SIAMJournal on
Computing, vol. 30, 1991, p. 241250.
[SIE 98] SIERRA B., LARRANAGA P., Predicting survival in
malignant skin melanoma usingBayesian networks automatically
induced by genetic algorithms. An empirical comparisonbetween
different approaches , Artificial Intelligence in Medicine, vol.
14, no 1-2, 1998,p. 215-230.
[SIE 00] SIERRA B., INZA I., LARRANAGA P., Medical Bayes
Networks , Lecture Notesin Computer Science, vol. 1933, 2000, p.
4-14, Springer-Verlag.
[SIE 01] SIERRA B., SERRANO N., LARRANAGA P., PLASENCIA E. J.,
INZA I., JIMENEZJ. J., REVUELTA P., MORA M. L., Using Bayesian
networks in the construction of abi-level multi-classifier. A case
study using intensive care unit patients data ,
ArtificialIntelligence in Medicine, vol. 22, no 3, 2001, p.
233-248.
[SPI 93] SPIRTES P., GLYMOUR C., SCHEINES R., Causation,
prediction, and search,Springer-Verlag, 1993.
-
Rseaux Baysiens pour la Classification 25
[SPI 00] SPIRTES P., GLYMOUR C., SCHEINES R., Causation,
Prediction, and Search, TheMIT Press, 2 dition, 2000.
[SRI 93] SRINIVAS S., A Generalization of the Noisy-Or Model ,
HECKERMAN D., MAM-DANI A., Eds., Proceedings of the 9th Conference
on Uncertainty in Artificial Intelligence,San Mateo, CA, USA,
juillet 1993, Morgan Kaufmann Publishers, p. 208218.
[STE 97] STEIMANN F., Fuzzy set theory in medicine , Artificial
Intelligence in Medicine,vol. 11, no 1, 1997, p. 1-7.
[SUZ 99] SUZUKI J., Learning Bayesian Belief Networks Based on
the MDL Principle :An Efficient Algorithm Using the Branch and
Bound Technique , IEICE Transactions onInformation and Systems,
vol. E82-D, no 2, 1999, p. 356367.
[SZO 82] SZOLOVITS P., Artificial Intelligence in Medicine,
Westview Press, Inc., Boulder,Colorado (http
://medg.lcs.mit.edu/ftp/psz/AIM82/), 1982.
[VLA 02] VLASSIS N., LIKAS A., A greedy EM algorithm for
Gaussian mixture learning ,Neural Processing Letters, vol. 15,
2002, p. 77-87.
[WIE 99] WIEGERINCK W., KAPPEN H., BRAAK E., BURG W., NIJMAN M.,
NEIJT Y., Approximate inference for medical diagnosis , Pattern
Recognition Letters, vol. 20,1999, p. 1231-1239.
[WU 01] WU X., LUCAS P., KERR S., DIJKHUIZEN R., Learning
Bayesian-Network Topo-logies in Realistic Medical Domains , ISMDA,
2001, p. 302-308.