Behja, Hicham & Senach, Bernard - Tutoriel Réseaux Bayésiens (EGC, 2008)

7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
1/55
8mes Journes FrancophonesExtraction et Gestion des ConnaissancesSophia Antipolis29 janvier 2008
Tutoriel
Rseaux Baysiens
Introduction et apprentissageModlisation et dcouverte deconnaissances
Organisateur:
Philippe LERAY (Univ. Nantes)
Responsables des tutoriels EGCHicham Behja (INRIA, Sophia Antipolis)Bernard Senach (INRIA, Sophia Antipolis)

2/55

3/55
Rseaux baysiens - introduction et apprentissagemodlisation et dcouverte de connaissances
Philippe LERAYphilippe.leray@univ-nantes.fr
Equipe CODLaboratoire d!nfor"atique de #antes Atlantique
$ite E%ole Polyte%hnique de l&niversit' de #antes
La Chantrerie - rue Christian Pau% - (P )*+*,*+ #antes Cede/
Rsum
La repr'sentation des %onnaissan%es et le raisonne"ent 0 partir de %es repr'sentations a donn'
naissan%e 0 de no"breu/ "od1les. Les "od1les 2raphiques probabilistes3 et plus pr'%is'"ent les
r'seau/ bay'siens 4R(53 initi's par 6udea Pearl dans les ann'es 7,8*3 se sont r'v'l's des outils tr1s
pratiques pour la repr'sentation de %onnaissan%es in%ertaines et le raisonne"ent 0 partir
d9infor"ations in%o"pl1tes3 dans de no"breu/ do"aines %o""e la bio-infor"atique3 la 2estion du
risque3 le "ar:etin23 la s'%urit' infor"atique3 le transport3 et%.La partie 2raphique des R( offre un outil intuitif in'2alable et attra%tif dans de no"breuses appli%ations
o; les utilisateurs ont besoin de usqu0 la d'%ouverte de relations %ausales.
Ce tutoriel se propose tout dabord de d'finir la notion de r'seau bay'sien puis de donner un aper%u de
lutilisation de %es "od1les pour r'pondre 0 diff'rentes requ?tes 4notion dinf'ren%e ou de
raisonne"ent probabiliste5. #ous aborderons ensuite le probl1"e de lapprentissa2e des r'seau/
bay'siens 0 partir de donn'es %o"pl1tes ou in%o"pl1tes3 en %o""enant par la d'ter"ination des
distributions de probabilit' %onditionnelles d'finies par un 2raphe donn' 4apprentissa2e des
para"1tres53 et en essayant ensuite de d'ter"iner le 2raphe "?"e 0 partir des donn'es
4apprentissa2e de la stru%ture5. Pour finir3 nous aborderons le %as plus parti%ulier des r'seau/
bay'siens %ausau/3 et verrons %o""ent lapprentissa2e de la stru%ture de %es "od1les peut "ener 0
la d'%ouverte de relations %ausales.
ots-%l's
R'seau/ bay'siens3 apprentissa2e3 donn'es %o"pl1tes3 donn'es in%o"pl1tes3 d'%ouverte de
%ausalit'
mailto:philippe.leray@univ-nantes.frmailto:philippe.leray@univ-nantes.fr

4/55
Plan
Le tutoriel propos' est inspir' des for"ations r'seau/ bay'siens effe%tu'es pour le r'seau R!$C du
R!$C en B**) et B**+3 et des %ours dispens's en for"ation in2'nieur 0 l!#$A de Rouen et en aster
Re%her%he 0 l&niversit' de Rouen. Le plan est le suivant
A!#
R'seau/ bay'siens d'finition et notion dinf'ren%e
d'finition3 notion de d-s'paration
les r'seau/ bay'siens %o""e "od1les 2'n'ratifs
notion dinf'ren%e3 prin%ipe des prin%ipau/ al2orith"es 4"essa2e passin23 >un%tion tree5
e/e"ples dutilisation
R'seau/ bay'siens apprentissa2e des para"1tres
"a/i"u" de vraise"blan%e vs. "a/i"u" a posteriori
donn'es %o"pl1tes vs. donn'es in%o"pl1tes
APRE$-!D!
R'seau/ bay'siens apprentissa2e de la stru%ture
re%her%he dind'pendan%es %onditionnelles vs. "a/i"isation dun s%ore dad'quation
les diff'rents espa%es de re%her%he
donn'es %o"pl1tes vs. donn'es in%o"pl1tes
R'seau/ bay'siens et %ausalit'
un r'seau bay'sien nest pas for%'"ent un "od1le %ausal
d'finition dun r'seau bay'sien %ausal
intervention"anipulation vs. observation
suffisan%e %ausale vs. variables latentes
Rfrences
6ensen3 F. G. 47,,+5.An introduction to Bayesian Networks. aylor and Fran%is3 London3 &nited
Hin2do".
aes3 $.3 e2an%:3 $.3 and Leray3 P. 4B**I5. An inte2ral approa%h to %ausal inferen%e Jith
latent variables. !n Russo3 F. and Killia"son3 6.3 editors3 Causality and Probability in the
Sciences. e/ts !n Philosophy series3 London Colle2e Publi%ations3 pp 7I-7.
is%. 4B**I5. Modles graphiques probabilistes. !n Leray3 P.3 editor3 Revue d!ntelli2en%e
Artifi%ielle3 nu"ber B7B**I. er"1s.
#aM"3 P.3 Kuille"in3 P.-.3 Leray3 P.3 Pourret3 O.3 and (e%:er3 A. 4B**5. Rseau baysiens.
Eyrolles3 Paris.
Pearl3 6. 4B***5. Causality! Models" Reasoning" and #n$erence. Ca"brid2e &niversity Press3
Ca"brid2e3 En2land.

5/55
Reseaux bayesiensintroduction et apprentissage
modelisation et decouverte de connaissances
Equipe COnnaissances et Decision
Laboratoire dInformatique de Nantes Atlantique UMR 6241
Site de lEcole Polytechnique de luniversite de Nantes
Introduction et rappels Definition Notions generales Inference References
Au programme ...
Matin = Notions generales
Definition, D-separation, Notion dinference
Matin Apprentissage des parametresMaximum de vraisemblance / a posteriori
Donnees completes / incompletes
Apres-midi Apprentissage de la structure
Recherche dindependances / maximisation score
Quel espace ? Donnees completes / incompletes
Apres-midi RB et causalite
RB causal, intervention / observation, suffisance causale
Philippe Leray Tutoriel EGC 2008 2/31

6/55
Un peu dhistoire
1970-1990 : Lere des systemes experts
systemes a base de regles de production
si X=vrai et Y=absent alors Z=faux
moteur dinference (chainage avant, arriere)
Judea Pearl (1936) : les reseaux bayesiens
1982 : Reverend Bayes on inference engines: Adistributed hierarchical approachP(X=vrai)=0.3 et P(Z=faux)=0.2 ...
P(Y=absent)=?
1988 : Probabilistic Reasoning in IntelligentSystems: Networks of Plausible Inference.Morgan Kaufmann
Rappels de probabilites
Probabilite conditionnelle
A et M deux evenements
information a priori sur A : P(A)
M sest produit : P(M)= 0
sil existe un lien entre A et M, cet evenement va modifiernotre connaissance sur A
information a posteriori : P(A|M) = P(A,M)P(M)

7/55
IndependanceA et Bsont independants ssi :P(A, B) =P(A) P(B)P(A|B) =P(A)P(B|A) =P(B)
Independance conditionnelle
A et B sont independants conditionnellement a C ssi :P(A|B, C) =P(A|C)
{Mi} ensemble complet devenements mutuellement exclusifs
Marginalisation : P(A) =
iP(A, Mi)
Theoreme des probabilites totalesUn evenement A peut resulter de plusieurs causes Mi. Quelle est laprobabilite de A connaissant :
les probabilites elementaires P(Mi) (a priori)
les probabilites conditionnelles de A pour chaque Mi
P(A) =
iP(A|Mi)P(Mi)
mais comment repondre a la question inverse ?

8/55
{Mi} ensemble complet devenements mutuellement exclusifs
Theoreme de Bayes
Un evenement A sest produit. Quelle est la probabilite que ce soitla cause Miqui lait produit ?
P(Mi|A) = P(A|Mi)P(Mi)
P(A)
P(Mi|A) : probabilite a posteriori
P(A) : constante (pour chaque Mi) cf. th. probas totales
Theoreme de Bayes generalise (Chain rule)
P(A1 . . . An) =P(A1)P(A2|A1)P(A3|A1, A2) . . . P(An|A1 . . . An1)
Definition dun reseau bayesien
Principe
prendre en compte les independances conditionnelles entre les
variables pour simplifier la loi jointe donnee par le theoremede Bayes generalise.
Definition
Un reseau bayesien est defini par
la description qualitative des dependances (ou desindependances conditionnelles) entre des variables
graphe oriente sans circuit (DAG)la description quantitative de ces dependances
probabilites conditionnelles (CPD)

9/55
Exemple
ordre topologique : C, S, A, R, T(non unique)
Interets et motivation
Interets des reseaux bayesiens
outil de representation graphique des connaissances
representation de lincertain
raisonnement a partir de donnees incompletes : inference
Motivation
comment determiner la structure, avec des donnees completesou incompletes ?

10/55
Autre interet
outil de decouverte de connaissances a partir de donnees
Motivation
comment decouvrir des connaissances : relations causales,variables latentes ?
Des domaines dapplication varies
diagnostic, fiabilite, maintenance, securite informatique
psychologie, sciences de la cognition, matrise des risques
Motivation
fournir des outils pour la modelisation de systemes complexes

11/55
RB et independance conditionnelle
Les RB representent graphiquement les independancesconditionnelles
Exemple sur 3 nuds
3 types de relations (simples) entre A, B et C :
A CB : connexion serieA CB : connexion divergente
A CB: connexion convergente (V-structure)
Connexion serie
A et B sont dependants
A et B sont independants conditionnellement a C
si Cest connue, A napporte aucune information sur B
P(S5|S4, S2) =P(S5|S4) =P(S5|parents(S5))

12/55
Connexion divergente
A et B sont dependants
A et B sont independants conditionnellement a Csi Cest connue, A napporte aucune information sur B
P(S4|S2, S3) =P(S4|S2) =P(S4|parents(S4))
Connexion convergente V-structure
A et Bsont independants
A et Bsont dependants conditionnellement a Csi Cest connue, A apporte une information sur B
P(S3|S1, S2) =P(S3|parents(S3))

14/55
D-separation
Principe
Determiner si deux variables quelconques sont independantesconditionnellement a un ensemble de variables instantiees
Definition
Deux variablesAet Bsont d-separees si pour tous les cheminsentre A et B, il existe une variable intermediaireV differentede A et Btelle que lune des deux propositions est vraie :
la connexion est serie ou divergente et V est instanciela connexion est convergente et ni Vni ses descendants nesont instancies
Si A et Bne sont pas d-separes, ils sont d-connectes
Exemple
D-separation
la connexion est serie oudivergente etV est instancie
la connexion est convergenteet ni Vni ses descendants nesont instancies

15/55
RB = modele generatif
Principe
RB = representation compacte de la loi jointeP(S)
Utilisation de methodes dechantillonnage pour generer desdonnees qui suivent cette loi
Exemple : forward sampling
sirand1

16/55
Message Passing (Pearl 1988)
Principe
Chaque nud envoie des messages a ses voisins
Lalgorithme ne marche que dans le cas des arbres(mais est generalisable au cas des poly-arbres)
E = ensemble de variables instanciees.E =Nx Dx2 types de messages et serviront a calculer
(X) P(Dx|X)
(X) P(X|Nx)
et ensuite on peut montrer que
P(X|E=e) (X)(X)
Message Passing
Les messages
Pour chaque enfant Y de X,
Y(X =x) =y
P(Y =y|X =x)(Y =y)
Comment calculer en chaque nud ?
Calcul de
Si X instancie, (X) = [001 . . . 0](la position du 1 correspond a la valeur donnee aX)
sinonsi Xest une feuille, (X) = [1 . . . 1]sinon (X=x) = YEnf(X)Y(X =x)

17/55
Message Passing
Les messages
Pour Z lunique parent de X,
X(Z =z) =(Z =z)
UEnf(Z)\{X}
U(Z=z)
Comment calculer en chaque nud ?
Calcul de
Si X instancie, (X) = [001 . . . 0](la position du 1 correspond a la valeur donnee aX)
sinon
si Xest la racine, (X) =P(X)sinon (X =x) =
zP(X=x|Z=z)X(Z=z)
Junction Tree (Jensen 1990)
Message Passing ne sapplique bien quaux arbres
Besoin dun algorithme plus general
Principe
Transformer le graphe en un arbre (non oriente)...
Arbre = arbre de jonction des cliques maximales du graphemoralise et triangule
Moralisation = ???
Triangulation = ???
Cliques = ???

18/55
Junction Tree
Moralisation
marier les parents de chaque nud
Junction Tree
Triangulation
tout cycle de longueur au moins 4 doit contenir une corde(arete reliant deux sommets non consecutifs sur le cycle)
(= aucun sous-graphe cyclique de longueur 4)
Triangulation optimale pour des graphes non-diriges =NP-difficile (comment choisir les meilleures cordes?)

19/55
Junction Tree
Clique
sous-graphe dont les nuds sont completement connectes
Clique maximale
lajout dun autre nud a cette clique ne donne pas une clique
Junction Tree
Theoreme
Si le graphe est moralise et triangule, alors les cliques peuventetre organisees en un arbre de jonction
P(S) = (S1, S2, S3)(S2, S4)(S4, S5)
Linference se fait au niveau des Philippe Leray Tutoriel EGC 2008 30/31

20/55
References
Les Reseaux Bayesiens - P. Nam, P.H. Wuillemin, Ph.Leray, O. Pourret, A. Becker (Eyrolles) 2007
Probabilistic reasoning in Intelligent Systems: Networksof plausible inference- J. Pearl (Morgan Kaufman) 1988
An introduction to Bayesian Networks- F. Jensen(Springer Verlag) 1996
Probabilistic Networks and Expert Systems- R.G. Cowell& al. (Springer Verlag) 1999
Learning Bayesian Networks- R. Neapolitan (PrencticeHall) 2003
Learning in Graphical Models- Jordan M.I. ed. (Kluwer)1998
An integral approach to causal inference with latentvariables- S. Maes et al. In Russo, F. and Williamson, J.,editors, Causality and Probability in the Sciences. Texts InPhilosophy series, London College Publications, pp 17-41.2007

21/55
Equipe COnnaissances et DecisionLaboratoire dInformatique de Nantes Atlantique UMR 6241
Introduction Donnees completes Donnees incompletes References
Au programme ...
Matin Notions generales
Matin = Apprentissage des parametresMaximum de vraisemblance / a posteriori

22/55
la description qualitative des dependances (ou desindependances conditionnelles) entre des variablesgraphe oriente sans circuit (DAG)
la description quantitative de ces dependancesprobabilites conditionnelles (CPD)
Notion dapprentissage
Construire un reseau bayesien
1 structure fixee, on cherche seulement les CPDa partir dexpertises : elicitation de connaissancesa partir de donnees completes / incompletes
2 on cherche la structure
a partir de donnees completes / incompletesdans quel espace ?connat-on toutes les variables ?

23/55
Apprentissage (donnees completes)
Estimation de parametres Donnees completes D
Determiner les parametres des differentes CPD a partir de D
Approche statistique classique =max. de vraisemblance (MV)
MV = argmax P(D|)
Probabilite dun evenement = frequence dapparition delevenement
Maximum de vraisemblance (MV)
P(Xi =xk|Pa(Xi) =xj) =MVi,j,k=
Ni,j,kkNi,j,k
Ni,j,k= nb doccurences de {Xi=xk et Pa(Xi) =xj}
Autre approche
Approche bayesienne =max. a posteriori (MAP)
MAP = argmax P(|D) = argmax P(D|)P()
besoin dune loi a priori sur les parametresP()
souvent distribution conjuguee a la loi de X
siP(X) multinomiale,P() conjuguee = Dirichlet :
P() n
i=1
qi
j=1
ri
k=1
(i,j,k)i,j,k1
ou i,j,ksont les cfficients de la distribution de Dirichletassociee au coefficient i,j,k

24/55
Maximum a Posteriori (MAP)
P(Xi=xk|Pa(Xi) =xj) =MAPi,j,k =
Ni,j,k+i,j,k 1k(Ni,j,k+i,j,k 1)
Autre approche bayesienne
esperance a posteriori (EAP) : calculer lesperance a posterioride i,j,kau lieu du max.
P(Xi=xk|Pa(Xi) =xj) =EAPi,j,k =
Ni,j,k+i,j,kk(Ni,j,k+i,j,k)
Exemple
Donnees completes (MV)
P(M=m0) = 6/15 = 0.4
P(M=m1) = 8/15 = 0.53
P(M=m2) = 1/15 = 0.07
P(F =OK|M=m0) = 1/6 = 0.17
P(F =BAD|M=m0) = 5/6 = 0.83
etc . . .
Probleme :P(F =BAD|M=m2) = 0/1car cette configuration ne figure pasdans notre (petite) base dexemples
M F Rm0 BAD Om0 BAD Om0 BAD Om0 BAD Om0 BAD Nm0 OK Om1 BAD Om1 BAD Nm1 OK O
m1 OK Nm1 OK Om1 OK Nm1 OK Om1 OK Nm2 OK N

25/55
Exemple
Donnees completes (EAP)
A priori de Dirichlet sur les i,j,k pseudo tirage a priori de N
mesures
Exemples
A priori de Dirichlet sur M repartisurm0 et m1 = [50 50 0]
P(M=m0) = (6 + 50)/(15 + 100) = 0.487
P(M=m1) = (8 + 50)/(15 + 100) = 0.5043
P(M=m2) = (1 + 0)/(15 + 100) = 0.0087
A priori de Dirichlet sur (F|M=mi)= [9 1]
P(F =BAD|M=m2) = (0 + 1)/(1 + 10) = 0.09
M F Rm0 BAD Om0 BAD Om0 BAD Om0 BAD Om0 BAD Nm0 OK Om1 BAD Om1 BAD Nm1 OK Om1 OK Nm1 OK Om1 OK N
m1 OK Om1 OK Nm2 OK N
Apprentissage (donnees incompletes)
Plusieurs types de donnees incompletes (Rubin, 1976)
MCAR : Missing Completly At Random
absence de donnees = completement aleatoire
comment estimer MV ou MAP ?Complete / Available Case Analysis ...
MAR : Missing At Random
probabilite quune donnee soit manquante depend des variablesobserveescomment estimer MV ou MAP ?
Expectation Maximisation ...
NMAR :Not Missing At Randomabsence de donnees depend de phenom. externesbesoin de connaissances supplem. dans le modele

26/55
Complete / Available Case Analysis
Complete Case Analysis
Extraire de la base de donnees incomplete les individus
completement mesuresAvantage : on retombe dans le cas des donnees completes
Inconvenient : taux dincompletude important peu dedonnees completes
Available Case Analysis
Principe : pas besoin de savoir si Cest mesure pour estimerles parametres de P(A|B)
Pour estimer P(A|B), extraire de la base de donneesincomplete les individus pour lesquels A et Bsont mesures
Avantage : on retombe dans le cas des donnees completes
Algorithme Expectation Maximisation
Algorithme tres general (Dempster 1977)
Algorithme general destimation de parametres avec desdonnees incompletes
Principe
Algorithme iteratif
initialiser les parametres (0) (random, CCA / ACA)
E estimer les valeurs manquantes a partir des parametres
actuels(t)
= calculer P(Xmanquant|Xmesures ) dans le RB actuel
= faire des inferences dans le RB muni des parametres
(t)
M re-estimer les parametres (t+1) a partir des donneescompletees
en utilisant MV, MAP, ou EAP

27/55
Exemple
Donnees manquantes (EM+MV)
Exemple sur lestimation de P(M)
Initialisation P(0)(M) = [1/3 1/3 1/3]
M F Rm0 BAD Om0 BAD O? BAD O
m0 BAD O? BAD N
m0 OK Om1 BAD Om1 BAD N? OK O
m1 OK N
m1 OK Om1 OK Nm1 ? Om1 OK Nm2 OK N
Exemple
M F R P(M= m0) P(M=m1) P(M=m2)m0 BAD O 1 0 0m0 BAD O 1 0 0? BAD O 1/3 1/3 1/3m0 BAD O 1 0 0
? BAD N 1/3 1/3 1/3m0 OK O 1 0 0m1 BAD O 0 1 0m1 BAD N 0 1 0? OK O 1/3 1/3 1/3m1 OK N 0 1 0m1 OK O 0 1 0m1 OK N 0 1 0m1 ? O 0 1 0m1 OK N 0 1 0m2 OK N 0 0 1
TOTAL 5 8 2
Iterato1
[E]

28/55
Exemple
M F R P(M= m0) P(M=m1) P(M=m2)m0 BAD O 1 0 0m0 BAD O 1 0 0
? BAD O 1/3 1/3 1/3m0 BAD O 1 0 0? BAD N 1/3 1/3 1/3m0 OK O 1 0 0m1 BAD O 0 1 0m1 BAD N 0 1 0? OK O 1/3 1/3 1/3m1 OK N 0 1 0m1 OK O 0 1 0m1 OK N 0 1 0m1 ? O 0 1 0
m1 OK N 0 1 0m2 OK N 0 0 1
TOTAL 5 8 2
Iterato1
[E]
[M] :
P(1)(m0)= 5/15= 0.333
P(1)(m1)= 8/15= 0.533
P(1)(m2)= 2/15= 0.133
Exemple
M F R P(M= m0) P(M=m1) P(M=m2)m0 BAD O 1 0 0m0 BAD O 1 0 0? BAD O 0.333 0.533 0.133m0 BAD O 1 0 0
? BAD N 0.333 0.533 0.133m0 OK O 1 0 0m1 BAD O 0 1 0m1 BAD N 0 1 0? OK O 0.333 0.533 0.133m1 OK N 0 1 0m1 OK O 0 1 0m1 OK N 0 1 0m1 ? O 0 1 0m1 OK N 0 1 0m2 OK N 0 0 1
TOTAL 5 8.6 1.4
Iterato2
[E]

29/55
Exemple
M F R P(M= m0) P(M=m1) P(M=m2)m0 BAD O 1 0 0m0 BAD O 1 0 0
? BAD O 0.333 0.533 0.133m0 BAD O 1 0 0? BAD N 0.333 0.533 0.133m0 OK O 1 0 0m1 BAD O 0 1 0m1 BAD N 0 1 0? OK O 0.333 0.533 0.133m1 OK N 0 1 0m1 OK O 0 1 0m1 OK N 0 1 0m1 ? O 0 1 0m1 OK N 0 1 0m2 OK N 0 0 1
TOTAL 5 8.6 1.4
Iterato2
[E]
[M] :P(2)(m0)= 5/15= 0.333
P(2)(m1)= 8.6/15= 0.573
P(2)(m2)= 1.4/15= 0.093
References
An integral approach to causal inference with latent
variables- S. Maes et al. In Russo, F. and Williamson, J.,editors, Causality and Probability in the Sciences. Texts InPhilosophy series, London College Publications, pp 17-41.2007

30/55
Equipe COnnaissances et DecisionLaboratoire dInformatique de Nantes Atlantique UMR 6241
Introduction IC Score Autre espace References
Au programme ...
Apres-midi = Apprentissage de la structure

31/55
la description qualitative des dependances (ou desindependances conditionnelles) entre des variablesgraphe oriente sans circuit (DAG)
la description quantitative de ces dependancesprobabilites conditionnelles (CPD)
Notion dapprentissage
Construire un reseau bayesien
1 structure fixee, on cherche seulement les CPDa partir dexpertises : elicitation de connaissancesa partir de donnees completes / incompletes
2 on cherche la structure
a partir de donnees completes / incompletesdans quel espace ?connat-on toutes les variables ?

32/55
Probleme complexe
Taille de lespace de recherche
le nombre de structures possibles a partir de n nuds estsuper-exponentiel (Robinson 77)
NS(n) =
1 , n= 0 ou1n
i=1(1)i+1ni
2i(n1)NS(n i), n>1
NS(5) = 29281 NS(10) = 4.2 1018
recherche exhaustive impossible / taille de lespace
Dimension dun reseau bayesien
Definition
Nombre de parametres (independants) necessaires pour decrirelensemble des CPD associees au RB
ExemplesDim(B) = 1 + 1 + 4 + 2 + 2
Graphe vide : Dim(B0) = ?
completement connecte : Dim(Bc) = ?Philippe Leray Tutoriel EGC 2008 6/33

33/55
Equivalence de Markov
Definition
B1 et B2 sont equivalents au sens de Markov ssi ils ont le memesquelette et decrivent les memes dependances et independancesconditionnelles
Consequences
B1 et B2 partagent les memes V-structures et arcs inferes
tous les graphes equivalents peuvent etre representes par un
graphe partiellement oriente (squelette, V-structure et arcsinferes) (CPDAG)
on appelle ce CPDAG le representant de la classedequivalence
Equivalence de Markov - exemple
A S
T L B
O
X D
A S
T L B
O
X D

34/55
Recherche dun bon reseau bayesien
Un RB resume des dependances et independancesconditionnelles
Trouver la structure == trouver ces infos dans les donnees
Recherche dIC
Deux algorithmes de reference
Pearl et Verma : IC et IC*
Spirtes, Glymour et Scheines : SGS, PC, CI, FCI
Principe commun
construire un graphe non dirige contenant les relations entreles variables (tests du 2)
par ajout daretes (Pearl et Verma)par suppression daretes (SGS)
detecter les V-structures (idem)propager les orientations de certains arcs

35/55
Recherche dIC
Problemes principaux
Fiabilite du test dindependance conditionnellement a ungrand nb de variables (et avec un nb de donnees restreint)
Heuristique SGS : si df < N10 , alors dependance
Explosion du nb de tests a effectuer
Heuristique PC : commencer par lordre 0 (XAXB) puis
lordre 1 (XAXB | XC), etc ...
Algorithme PC
Etape 0 : Graphe non oriente reliant tous les nuds
A gauche, le reseau theorique utilise pour generer 5000 exemples.
A S
T L B
O
X D
A S
T L B
O
X D

36/55
Algorithme PC
Etape 1a : Suppression des IC dordre 0
2: SA LA BA OA XA DA TS LT OB XB
A S
T L B
O
X D
A S
T L B
O
X D
Algorithme PC
Etape 1b : Suppression des IC dordre 1
2: TA|O OS|L XS|L BT|S XT|O DT|O ...
A S
T L B
O
X D
A S
T L B
O
X D

37/55
Algorithme PC
Etape 1c : Suppression des IC dordre 2
2: DS|{L,B} XO|{T,L} DO|{T, L}
A S
T L B
O
X D
A S
T L B
O
X D
Algorithme PC
Etape 2 : Recherche des V-structures
2 : decouverte de la V-structure T O L
A S
T L B
O
X D
A S
T L B
O
X D
Etape 3 : Orientation recursive de certaines aretes
aucune ici

38/55
Algorithme PC
Instanciation du PDAG
Orientation des arcs restants(seule condition : ne pas introduire de nouvelle V-structure)
A S
T L B
O
X D
A S
T L B
O
X D
Algorithme PC
Reseau obtenu vs. theorique
Le test du 2 sur 5000 exemples na pas reussi a retrouverA T, O X et O D
A S
T L B
O
X D
A S
T L B
O
X D

39/55
Premiere methode : rechercher directement les independancesconditionnelles
Autre methode : associer un score a chaque structure
calculable rapidement / decomposable localement
Score(B,D) = constante +n
i=1
score(Xi, pai)
notion de score equivalence
Un score Sest dit score equivalentssi pour deux structures B1et B2 equivalentes on a S(B1,D) =S(B2,D).
Notion de score
Principe general : rasoir dOccam
Pluralitas non est ponenda sine neccesitate(La pluralite (des notions) ne devrait pas etre posee sans
necessite)Frustra fit per plura quod potest fieri per pauciora(Cest en vain que lon fait avec plusieurs ce que lon peutfaire avec un petit nombre)
= Principe de parcimonie = trouver le modele
qui represente le mieux les donnees D :
vraisemblance : L(D|, B)et qui soit le plus simple possible :
nb de parametres pour decrire B : Dim(B)

40/55
Exemples de score
AIC et BIC
Compromis vraisemblance / complexite
Application des criteres AIC (Akake 70) et BIC (Schwartz 78)
SAIC(B,D) = log L(D|MV,B) Dim(B)
SBIC(B,D) = log L(D|MV,B)
1
2Dim(B)log N
Scores bayesiens : BD, BDe, BDeu
SBD(B,D) =P(B,D) (Cooper et Herskovits 92)BDe = BD + score equivalence (Heckerman 94)
SBD(B,D) =P(B)n
i=1
qij=1
(ij)
(Nij+ ij)
rik=1
(Nijk+ ijk)
(ijk)
Heuristique de recherche :espace B
restriction aux arbres : Chow&Liu, MWSTordonnancement des nuds : K2recherche gloutonne : Greedy Search
espace E
Greedy Equivalence Search

41/55
Restriction a lespace des arbres
Principe
quel est le meilleur arbre passant par tous les nuds,
i.e. maximisant un score defini pour chaque arc possible ?
Reponse : Arbre de recouvrement maximal
MWST : Maximum Weight Spanning Tree
(Chow et Liu 68) : information mutuelle :
W(XA,XB) =a,b
Nab
N
log NabN
Na.N.b
(Heckerman 94) : score local quelconque :
W(XA,XB) =score(XA,Pa(XA) =XB) score(XA, )
Restriction a lespace des arbres
Deroulement
MWST donne un arbre non oriente reliant toutes les variables.arbre non oriente = CPDAG representant dans lespace desequivalents de Markov de tous les arbres diriges qui partagentcette meme structure !
transformation en arbre oriente en choisissant arbitrairementun nud racine et en dirigeant chaque arete a partir de cenud.

42/55
Exemple : reseau obtenu vs. theorique
A S
T L B
O
X D
A S
T L B
O
X D
Ce type dalgorithme ne peut pas decouvrir de V-structures, ni decycles ...
Recherche gloutonne (greedy search)
Principe
Parcours de lespace a laide doperateurs classiques :ajout darcinversion darcsuppression darc
sous reserve que le graphe obtenu soit toujours un DAG (pasde circuit)
possibilite de commencer a partir dun graphe precis

43/55
A S
T L B
O
X D
A S
T L B
O
X D
On tombe surement dans un optimum local
A S
T L B
O
X D
A S
T L B
O
X D
Initialisation de la recherche par larbre obtenu par MWST :on arrive a un meilleur resultat

44/55
Et avec des donnees incompletes
Probleme
= calculer le score lorsque les donnees sont incompletesX = {D,H}
Une solution : Structural EM (Friedman 97)
Greedy Search + EM sur les parametresEM parametrique pour ameliorer (i) pour un B(i) fixe
recherche de B(i+1)
parmi les voisins de B(i)
, avec des donneescompletees selon (i)
et ainsi de suite ...
Et si on changeait despace de recherche
Remarques
IC/PC : on obtient en realite le PDAG representant la classedequivalence de Markov
MWST : idem (arbre non dirige)La plupart des scores ne distinguent pas des reseauxequivalents, dou des problemes de convergence
Recherche dans E
E= espace des representants des classes dequiv. de Markov
Meilleures proprietes : OUI
2 structures equivalentes = une seule structure dansEMeilleure taille : NON
E est quasiment de meme taille que lespace des RB (ratioasymptotique de 3,7 : Gillispie et Perlman 2001)

45/55

46/55
References

47/55
Reseaux bayesiens
introduction et apprentissagemodelisation et decouverte de connaissances
Equipe COnnaissances et Decision
Laboratoire dInformatique de Nantes Atlantique UMR 6241
Introduction RB causal Apprentissage Var. latentes References
Au programme ...
Apres-midi = RB et causalite

48/55
Un RB nest pas un modele causal
RB classique :A B ne signifie pas forcement causalite entre A et B,
seuls les arcs du CPDAG representant de la classedequivalence de Markov representent des causalites
Confusion
lorsque le graphe est construit par un expert, le graphe estsouvent causal
lorsque le graphe est appris avec des donnees, il na aucuneraison detre causal !
Pas toujours grave ...graphes equivalents meme loi jointe, donc meme resultatpour les algorithmes dinference (probabiliste)
la causalite nest pas utile pour linference (probabiliste)
Reseau bayesien causal
Reseau bayesien causal
chaque A B represente une relation de causalite directe,i.e. le fait que A est bien la cause directe qui genere B
si la causalite nest pas utile pour linference (probabiliste), aquoi peut servir un reseau bayesien causal ?

49/55
Intervention vs. Observation
Inference classique :on observe B=b,on calcule P(A|B=b)
Inference causale [Pearl 00]:on agit/manipule/intervient sur B : do(B=b)
exemple avec A B
P(A|do(B=b)) =P(A),
P(B|do(A= a)) =P(B|A= a)
exemple avec A B
P(A|do(B=b)) =P(A|B=b),
P(B|do(A= a)) =P(B)
Manipulation Theorem
Specifier comment la loi jointe change apres une manipulationdo(M=m)
Version intuitiveon oublie les causes officielles de M(ses parents dans legraphe)
on garde le fait que M=m pour les effets que cela declenche(les enfants de M)
Version officielle [Spirtes et al. 00]
P(v|do(m)) =
ViV\M
P(vi|Pa(Vi))
M=m

50/55
Apprentissage dune structure causale
En general, utilisation de donnees dobservationquelle que soit la methode, resultat = representant de la classedequivalence
determination partielle des relations causales
Solutions pour trouver un graphe completement causal
utiliser uniquement des donnees dexperimentation, et deciderau fur et a mesure quelle experience sera la plus utile a realiser(active learning [Murphy 01], ...)
Idee : algorithme MyCaDo [Meganck, Leray & Manderick 06]tirer partie des donnees dobservations souvent existantes etnombreuses
utiliser des donnees dexperimentation uniquement pour finirdorienter le CPDAG
Algorithme MyCaDo

51/55
Algorithme MyCaDo
1 Choix de lexperience = choix dune variableM a manipuler
orientant potentiellement le plus darcsen tenant compte deventuels couts dexperimentation et/oudobservation des variables
2 Realisation de lexperience
do(M=m) pour toutes les valeurs possibles mobservation des variables C candidates (CM)
3 Analyse des resultatsP(C|M) (observation) P(C|do(M)) (experience) ?si egalite, alors C M, sinon M Cpropagation eventuelle de larc decouvert
Mais ce nest pas fini ...
Exemple simple, avec 2 variables
S(la Seine deborde) et P(jai pris mon parapluie)
Des donnees dobservation montrent que ces deux variables ne
sont pas independantes :
SP
On decide dagir sur Set dobserver P : pas de modification
Snest pas la cause de P
Faut-il en conclure que Pest la cause de S ?
En agissant aussi sur P, on aurait vu que Pnest pas la causede S
Interet = decouverte dune variable latente (il pleut...)

52/55
Suffisance Causale
Les algorithmes precedents se basent tous sur lhypothese desuffisance causale
Suffisance causale
Toutes les variables necessaires a la modelisation sont connues
Abandonner lhypothese de suffisance causale = Essayer dedecouvrir des variables latentes lors de lapprentissage de
structurede facon explicite (methodes a base de score)de facon implicite (SMCM vs. MAG)
Modelisation explicite vs. implicite
Modelisation explicite
Adaptation de Structural EM
Avantages
inference probabiliste : OK
Inconvenients
complexite de la methodeinference causale : NON (le graphe nest pas causal)
Modelisation implicite
Modele plus leger
pas besoin de determiner la cardinalite de H
Deux formalismes aux objectifs differentsinference causale : SMCM, Semi Markovian Causal Modelapprentissage de la structure : MAG, Maximum AncestralGraph

53/55
SMCM vs. MAG
SMCM [Pearl 00]
A B : cause communelatente
A B : relation decausalite directe
MAG [Richardson & Spirtes 02]
A B : cause communelatente
A B dependance entre Aet B
existence de chemins induitsPhilippe Leray Tutoriel EGC 2008 13/17
SMCM vs. MAG
SMCM [Pearl 00]
Inf. causale : en theorie
Inference prob. : NON
Apprent. structure : NON
MAG [Richardson & Spirtes 02]
Inf. causale : partielle
Inference prob. : NON
Apprent. structure : partielle

54/55
SMCM vs. MAG
Apprentissage a partir dobservations : OK, mais obtentiondu representant de la classe dequivalence (CPAG)
CPAG MAG : inutile, un MAG nest pas causal
Inference causale : OK dans les SMCM
Inference probabiliste : il manque une parametrisationefficace des SMCM
Une approche globale : MyCaDo++
Apprentissage a partir dobservations : OK, mais obtentiondu representant de la classe dequivalence (CPAG)
Notre idee : [Meganck, Maes, Leray & Manderick 06]passer directement du CPAG a un SMCM a partir de donneesdexperimentation
Inference causale : OK dans les SMCM
Inference probabiliste : il manque une parametrisationefficace des SMCM
Notre idee : [Meganck, Maes, Leray & Manderick 06]
proposer une parametrisation efficace dun SMCM

55/55
References
Causality: Models, Reasoning, and Inference- J. Pearl(Cambridge University Press) 2000
An introduction to Bayesian Networks - F. Jensen(Springer Verlag) 1996
Probabilistic Networks and Expert Systems - R.G. Cowell& al. (Springer Verlag) 1999
Learning Bayesian Networks - R. Neapolitan (PrencticeHall) 2003
Learning in Graphical Models - Jordan M.I. ed. (Kluwer)1998

Behja, Hicham & Senach, Bernard - Tutoriel Réseaux Bayésiens (EGC, 2008)

Documents

Réseaux bayésiens: Inférence Chap. 14 Sections 4 – 5.

Réseaux Bayésiens - Deptinfo

Vers des Réseaux Bayésiens pour la Classification des ...

Utilisation des réseaux bayésiens et de l'approche de...

A destination des élèves de...

Mélanges bayésiens de modèles d'extrêmes multivariés,

Hamza - Cristian - HIcham

Interior Arch.portfolio / Hicham

Luxemburgo pol hicham

Mr.MEGNAFI Hicham (ESSA -Tlemcen)

Association EGC

Hicham - Rapport de stage

Hicham 2010

Modelo EGC

Cours 4: Réseaux Bayésiens - Cours informatiqueCours 4:...

Apprentissage de la structure des réseaux bayésiens :...