Behja, Hicham & Senach, Bernard - Tutoriel Réseaux Bayésiens (EGC, 2008)
Post on 01-Mar-2018
225 Views
Preview:
Transcript
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
1/55
8mes Journes FrancophonesExtraction et Gestion des ConnaissancesSophia Antipolis29 janvier 2008
Tutoriel
Rseaux Baysiens
Introduction et apprentissageModlisation et dcouverte deconnaissances
Organisateur:
Philippe LERAY (Univ. Nantes)
Responsables des tutoriels EGCHicham Behja (INRIA, Sophia Antipolis)Bernard Senach (INRIA, Sophia Antipolis)
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
2/55
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
3/55
Rseaux baysiens - introduction et apprentissagemodlisation et dcouverte de connaissances
Philippe LERAYphilippe.leray@univ-nantes.fr
Equipe CODLaboratoire d!nfor"atique de #antes Atlantique
$ite E%ole Polyte%hnique de l&niversit' de #antes
La Chantrerie - rue Christian Pau% - (P )*+*,*+ #antes Cede/
Rsum
La repr'sentation des %onnaissan%es et le raisonne"ent 0 partir de %es repr'sentations a donn'
naissan%e 0 de no"breu/ "od1les. Les "od1les 2raphiques probabilistes3 et plus pr'%is'"ent les
r'seau/ bay'siens 4R(53 initi's par 6udea Pearl dans les ann'es 7,8*3 se sont r'v'l's des outils tr1s
pratiques pour la repr'sentation de %onnaissan%es in%ertaines et le raisonne"ent 0 partir
d9infor"ations in%o"pl1tes3 dans de no"breu/ do"aines %o""e la bio-infor"atique3 la 2estion du
risque3 le "ar:etin23 la s'%urit' infor"atique3 le transport3 et%.La partie 2raphique des R( offre un outil intuitif in'2alable et attra%tif dans de no"breuses appli%ations
o; les utilisateurs ont besoin de usqu0 la d'%ouverte de relations %ausales.
Ce tutoriel se propose tout dabord de d'finir la notion de r'seau bay'sien puis de donner un aper%u de
lutilisation de %es "od1les pour r'pondre 0 diff'rentes requ?tes 4notion dinf'ren%e ou de
raisonne"ent probabiliste5. #ous aborderons ensuite le probl1"e de lapprentissa2e des r'seau/
bay'siens 0 partir de donn'es %o"pl1tes ou in%o"pl1tes3 en %o""enant par la d'ter"ination des
distributions de probabilit' %onditionnelles d'finies par un 2raphe donn' 4apprentissa2e des
para"1tres53 et en essayant ensuite de d'ter"iner le 2raphe "?"e 0 partir des donn'es
4apprentissa2e de la stru%ture5. Pour finir3 nous aborderons le %as plus parti%ulier des r'seau/
bay'siens %ausau/3 et verrons %o""ent lapprentissa2e de la stru%ture de %es "od1les peut "ener 0
la d'%ouverte de relations %ausales.
ots-%l's
R'seau/ bay'siens3 apprentissa2e3 donn'es %o"pl1tes3 donn'es in%o"pl1tes3 d'%ouverte de
%ausalit'
mailto:philippe.leray@univ-nantes.frmailto:philippe.leray@univ-nantes.fr7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
4/55
Plan
Le tutoriel propos' est inspir' des for"ations r'seau/ bay'siens effe%tu'es pour le r'seau R!$C du
R!$C en B**) et B**+3 et des %ours dispens's en for"ation in2'nieur 0 l!#$A de Rouen et en aster
Re%her%he 0 l&niversit' de Rouen. Le plan est le suivant
A!#
R'seau/ bay'siens d'finition et notion dinf'ren%e
d'finition3 notion de d-s'paration
les r'seau/ bay'siens %o""e "od1les 2'n'ratifs
notion dinf'ren%e3 prin%ipe des prin%ipau/ al2orith"es 4"essa2e passin23 >un%tion tree5
e/e"ples dutilisation
R'seau/ bay'siens apprentissa2e des para"1tres
"a/i"u" de vraise"blan%e vs. "a/i"u" a posteriori
donn'es %o"pl1tes vs. donn'es in%o"pl1tes
APRE$-!D!
R'seau/ bay'siens apprentissa2e de la stru%ture
re%her%he dind'pendan%es %onditionnelles vs. "a/i"isation dun s%ore dad'quation
les diff'rents espa%es de re%her%he
donn'es %o"pl1tes vs. donn'es in%o"pl1tes
R'seau/ bay'siens et %ausalit'
un r'seau bay'sien nest pas for%'"ent un "od1le %ausal
d'finition dun r'seau bay'sien %ausal
intervention"anipulation vs. observation
suffisan%e %ausale vs. variables latentes
Rfrences
6ensen3 F. G. 47,,+5.An introduction to Bayesian Networks. aylor and Fran%is3 London3 &nited
Hin2do".
aes3 $.3 e2an%:3 $.3 and Leray3 P. 4B**I5. An inte2ral approa%h to %ausal inferen%e Jith
latent variables. !n Russo3 F. and Killia"son3 6.3 editors3 Causality and Probability in the
Sciences. e/ts !n Philosophy series3 London Colle2e Publi%ations3 pp 7I-7.
is%. 4B**I5. Modles graphiques probabilistes. !n Leray3 P.3 editor3 Revue d!ntelli2en%e
Artifi%ielle3 nu"ber B7B**I. er"1s.
#aM"3 P.3 Kuille"in3 P.-.3 Leray3 P.3 Pourret3 O.3 and (e%:er3 A. 4B**5. Rseau baysiens.
Eyrolles3 Paris.
Pearl3 6. 4B***5. Causality! Models" Reasoning" and #n$erence. Ca"brid2e &niversity Press3
Ca"brid2e3 En2land.
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
5/55
Reseaux bayesiensintroduction et apprentissage
modelisation et decouverte de connaissances
Philippe LERAYphilippe.leray@univ-nantes.fr
Equipe COnnaissances et Decision
Laboratoire dInformatique de Nantes Atlantique UMR 6241
Site de lEcole Polytechnique de luniversite de Nantes
Introduction et rappels Definition Notions generales Inference References
Au programme ...
Matin = Notions generales
Definition, D-separation, Notion dinference
Matin Apprentissage des parametresMaximum de vraisemblance / a posteriori
Donnees completes / incompletes
Apres-midi Apprentissage de la structure
Recherche dindependances / maximisation score
Quel espace ? Donnees completes / incompletes
Apres-midi RB et causalite
RB causal, intervention / observation, suffisance causale
Philippe Leray Tutoriel EGC 2008 2/31
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
6/55
Introduction et rappels Definition Notions generales Inference References
Un peu dhistoire
1970-1990 : Lere des systemes experts
systemes a base de regles de production
si X=vrai et Y=absent alors Z=faux
moteur dinference (chainage avant, arriere)
Judea Pearl (1936) : les reseaux bayesiens
1982 : Reverend Bayes on inference engines: Adistributed hierarchical approachP(X=vrai)=0.3 et P(Z=faux)=0.2 ...
P(Y=absent)=?
1988 : Probabilistic Reasoning in IntelligentSystems: Networks of Plausible Inference.Morgan Kaufmann
Philippe Leray Tutoriel EGC 2008 3/31
Introduction et rappels Definition Notions generales Inference References
Rappels de probabilites
Probabilite conditionnelle
A et M deux evenements
information a priori sur A : P(A)
M sest produit : P(M)= 0
sil existe un lien entre A et M, cet evenement va modifiernotre connaissance sur A
information a posteriori : P(A|M) = P(A,M)P(M)
Philippe Leray Tutoriel EGC 2008 4/31
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
7/55
Introduction et rappels Definition Notions generales Inference References
Rappels de probabilites
IndependanceA et Bsont independants ssi :P(A, B) =P(A) P(B)P(A|B) =P(A)P(B|A) =P(B)
Independance conditionnelle
A et B sont independants conditionnellement a C ssi :P(A|B, C) =P(A|C)
Philippe Leray Tutoriel EGC 2008 5/31
Introduction et rappels Definition Notions generales Inference References
Rappels de probabilites
{Mi} ensemble complet devenements mutuellement exclusifs
Marginalisation : P(A) =
iP(A, Mi)
Theoreme des probabilites totalesUn evenement A peut resulter de plusieurs causes Mi. Quelle est laprobabilite de A connaissant :
les probabilites elementaires P(Mi) (a priori)
les probabilites conditionnelles de A pour chaque Mi
P(A) =
iP(A|Mi)P(Mi)
mais comment repondre a la question inverse ?
Philippe Leray Tutoriel EGC 2008 6/31
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
8/55
Introduction et rappels Definition Notions generales Inference References
Rappels de probabilites
{Mi} ensemble complet devenements mutuellement exclusifs
Theoreme de Bayes
Un evenement A sest produit. Quelle est la probabilite que ce soitla cause Miqui lait produit ?
P(Mi|A) = P(A|Mi)P(Mi)
P(A)
P(Mi|A) : probabilite a posteriori
P(A) : constante (pour chaque Mi) cf. th. probas totales
Theoreme de Bayes generalise (Chain rule)
P(A1 . . . An) =P(A1)P(A2|A1)P(A3|A1, A2) . . . P(An|A1 . . . An1)
Philippe Leray Tutoriel EGC 2008 7/31
Introduction et rappels Definition Notions generales Inference References
Definition dun reseau bayesien
Principe
prendre en compte les independances conditionnelles entre les
variables pour simplifier la loi jointe donnee par le theoremede Bayes generalise.
Definition
Un reseau bayesien est defini par
la description qualitative des dependances (ou desindependances conditionnelles) entre des variables
graphe oriente sans circuit (DAG)la description quantitative de ces dependances
probabilites conditionnelles (CPD)
Philippe Leray Tutoriel EGC 2008 8/31
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
9/55
Introduction et rappels Definition Notions generales Inference References
Exemple
ordre topologique : C, S, A, R, T(non unique)
Philippe Leray Tutoriel EGC 2008 9/31
Introduction et rappels Definition Notions generales Inference References
Interets et motivation
Interets des reseaux bayesiens
outil de representation graphique des connaissances
representation de lincertain
raisonnement a partir de donnees incompletes : inference
Motivation
comment determiner la structure, avec des donnees completesou incompletes ?
Philippe Leray Tutoriel EGC 2008 10/31
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
10/55
Introduction et rappels Definition Notions generales Inference References
Interets et motivation
Autre interet
outil de decouverte de connaissances a partir de donnees
Motivation
comment decouvrir des connaissances : relations causales,variables latentes ?
Philippe Leray Tutoriel EGC 2008 11/31
Introduction et rappels Definition Notions generales Inference References
Interets et motivation
Des domaines dapplication varies
diagnostic, fiabilite, maintenance, securite informatique
psychologie, sciences de la cognition, matrise des risques
Motivation
fournir des outils pour la modelisation de systemes complexes
Philippe Leray Tutoriel EGC 2008 12/31
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
11/55
Introduction et rappels Definition Notions generales Inference References
RB et independance conditionnelle
Les RB representent graphiquement les independancesconditionnelles
Exemple sur 3 nuds
3 types de relations (simples) entre A, B et C :
A CB : connexion serieA CB : connexion divergente
A CB: connexion convergente (V-structure)
Philippe Leray Tutoriel EGC 2008 13/31
Introduction et rappels Definition Notions generales Inference References
Connexion serie
A et B sont dependants
A et B sont independants conditionnellement a C
si Cest connue, A napporte aucune information sur B
P(S5|S4, S2) =P(S5|S4) =P(S5|parents(S5))
Philippe Leray Tutoriel EGC 2008 14/31
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
12/55
Introduction et rappels Definition Notions generales Inference References
Connexion divergente
A et B sont dependants
A et B sont independants conditionnellement a Csi Cest connue, A napporte aucune information sur B
P(S4|S2, S3) =P(S4|S2) =P(S4|parents(S4))
Philippe Leray Tutoriel EGC 2008 15/31
Introduction et rappels Definition Notions generales Inference References
Connexion convergente V-structure
A et Bsont independants
A et Bsont dependants conditionnellement a Csi Cest connue, A apporte une information sur B
P(S3|S1, S2) =P(S3|parents(S3))
Philippe Leray Tutoriel EGC 2008 16/31
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
13/55
Introduction et rappels Definition Notions generales Inference References
Consequence
Rappel du theoreme de Bayes generalise
P(S) =P(S1) P(S2|S1) P(S3|S1, S2) P(Sn|S1 . . . Sn1)
Consequence dans un RB
P(Si|S1 . . . Si1) =P(Si|parents(Si)) dou
P(S) = ni=1P(Si|parents(Si))
La loi jointe (globale) se decompose en un produit de loisconditionnelles locales
RB = representation compacte de la loi jointeP(S)
Philippe Leray Tutoriel EGC 2008 17/31
Introduction et rappels Definition Notions generales Inference References
Exemple
P(Cambriolage, Seisme, Alarme, Radio, Tele) =
P(S1
)P(S2|S
1)P(S
3|S
1, S
2)P(S
4|S
1, S
2, S
3)P(S
5|S
1, S
2, S
3, S
4)
P(S1) P(S2) P(S3|S1, S2) P(S4|S2) P(S5|S4)
Philippe Leray Tutoriel EGC 2008 18/31
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
14/55
Introduction et rappels Definition Notions generales Inference References
D-separation
Principe
Determiner si deux variables quelconques sont independantesconditionnellement a un ensemble de variables instantiees
Definition
Deux variablesAet Bsont d-separees si pour tous les cheminsentre A et B, il existe une variable intermediaireV differentede A et Btelle que lune des deux propositions est vraie :
la connexion est serie ou divergente et V est instanciela connexion est convergente et ni Vni ses descendants nesont instancies
Si A et Bne sont pas d-separes, ils sont d-connectes
Philippe Leray Tutoriel EGC 2008 19/31
Introduction et rappels Definition Notions generales Inference References
Exemple
D-separation
la connexion est serie oudivergente etV est instancie
la connexion est convergenteet ni Vni ses descendants nesont instancies
Philippe Leray Tutoriel EGC 2008 20/31
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
15/55
Introduction et rappels Definition Notions generales Inference References
RB = modele generatif
Principe
RB = representation compacte de la loi jointeP(S)
Utilisation de methodes dechantillonnage pour generer desdonnees qui suivent cette loi
Exemple : forward sampling
sirand1
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
16/55
Introduction et rappels Definition Notions generales Inference References
Message Passing (Pearl 1988)
Principe
Chaque nud envoie des messages a ses voisins
Lalgorithme ne marche que dans le cas des arbres(mais est generalisable au cas des poly-arbres)
E = ensemble de variables instanciees.E =Nx Dx2 types de messages et serviront a calculer
(X) P(Dx|X)
(X) P(X|Nx)
et ensuite on peut montrer que
P(X|E=e) (X)(X)
Philippe Leray Tutoriel EGC 2008 23/31
Introduction et rappels Definition Notions generales Inference References
Message Passing
Les messages
Pour chaque enfant Y de X,
Y(X =x) =y
P(Y =y|X =x)(Y =y)
Comment calculer en chaque nud ?
Calcul de
Si X instancie, (X) = [001 . . . 0](la position du 1 correspond a la valeur donnee aX)
sinonsi Xest une feuille, (X) = [1 . . . 1]sinon (X=x) = YEnf(X)Y(X =x)
Philippe Leray Tutoriel EGC 2008 24/31
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
17/55
Introduction et rappels Definition Notions generales Inference References
Message Passing
Les messages
Pour Z lunique parent de X,
X(Z =z) =(Z =z)
UEnf(Z)\{X}
U(Z=z)
Comment calculer en chaque nud ?
Calcul de
Si X instancie, (X) = [001 . . . 0](la position du 1 correspond a la valeur donnee aX)
sinon
si Xest la racine, (X) =P(X)sinon (X =x) =
zP(X=x|Z=z)X(Z=z)
Philippe Leray Tutoriel EGC 2008 25/31
Introduction et rappels Definition Notions generales Inference References
Junction Tree (Jensen 1990)
Message Passing ne sapplique bien quaux arbres
Besoin dun algorithme plus general
Principe
Transformer le graphe en un arbre (non oriente)...
Arbre = arbre de jonction des cliques maximales du graphemoralise et triangule
Moralisation = ???
Triangulation = ???
Cliques = ???
Philippe Leray Tutoriel EGC 2008 26/31
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
18/55
Introduction et rappels Definition Notions generales Inference References
Junction Tree
Moralisation
marier les parents de chaque nud
Philippe Leray Tutoriel EGC 2008 27/31
Introduction et rappels Definition Notions generales Inference References
Junction Tree
Triangulation
tout cycle de longueur au moins 4 doit contenir une corde(arete reliant deux sommets non consecutifs sur le cycle)
(= aucun sous-graphe cyclique de longueur 4)
Triangulation optimale pour des graphes non-diriges =NP-difficile (comment choisir les meilleures cordes?)
Philippe Leray Tutoriel EGC 2008 28/31
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
19/55
Introduction et rappels Definition Notions generales Inference References
Junction Tree
Clique
sous-graphe dont les nuds sont completement connectes
Clique maximale
lajout dun autre nud a cette clique ne donne pas une clique
Philippe Leray Tutoriel EGC 2008 29/31
Introduction et rappels Definition Notions generales Inference References
Junction Tree
Theoreme
Si le graphe est moralise et triangule, alors les cliques peuventetre organisees en un arbre de jonction
P(S) = (S1, S2, S3)(S2, S4)(S4, S5)
Linference se fait au niveau des Philippe Leray Tutoriel EGC 2008 30/31
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
20/55
Introduction et rappels Definition Notions generales Inference References
References
Les Reseaux Bayesiens - P. Nam, P.H. Wuillemin, Ph.Leray, O. Pourret, A. Becker (Eyrolles) 2007
Probabilistic reasoning in Intelligent Systems: Networksof plausible inference- J. Pearl (Morgan Kaufman) 1988
An introduction to Bayesian Networks- F. Jensen(Springer Verlag) 1996
Probabilistic Networks and Expert Systems- R.G. Cowell& al. (Springer Verlag) 1999
Learning Bayesian Networks- R. Neapolitan (PrencticeHall) 2003
Learning in Graphical Models- Jordan M.I. ed. (Kluwer)1998
An integral approach to causal inference with latentvariables- S. Maes et al. In Russo, F. and Williamson, J.,editors, Causality and Probability in the Sciences. Texts InPhilosophy series, London College Publications, pp 17-41.2007
Philippe Leray Tutoriel EGC 2008 31/31
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
21/55
Reseaux bayesiensintroduction et apprentissage
modelisation et decouverte de connaissances
Philippe LERAYphilippe.leray@univ-nantes.fr
Equipe COnnaissances et DecisionLaboratoire dInformatique de Nantes Atlantique UMR 6241
Site de lEcole Polytechnique de luniversite de Nantes
Introduction Donnees completes Donnees incompletes References
Au programme ...
Matin Notions generales
Definition, D-separation, Notion dinference
Matin = Apprentissage des parametresMaximum de vraisemblance / a posteriori
Donnees completes / incompletes
Apres-midi Apprentissage de la structure
Recherche dindependances / maximisation score
Quel espace ? Donnees completes / incompletes
Apres-midi RB et causalite
RB causal, intervention / observation, suffisance causale
Philippe Leray Tutoriel EGC 2008 2/18
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
22/55
Introduction Donnees completes Donnees incompletes References
Definition dun reseau bayesien
Un reseau bayesien est defini par
la description qualitative des dependances (ou desindependances conditionnelles) entre des variablesgraphe oriente sans circuit (DAG)
la description quantitative de ces dependancesprobabilites conditionnelles (CPD)
Philippe Leray Tutoriel EGC 2008 3/18
Introduction Donnees completes Donnees incompletes References
Notion dapprentissage
Construire un reseau bayesien
1 structure fixee, on cherche seulement les CPDa partir dexpertises : elicitation de connaissancesa partir de donnees completes / incompletes
2 on cherche la structure
a partir de donnees completes / incompletesdans quel espace ?connat-on toutes les variables ?
Philippe Leray Tutoriel EGC 2008 4/18
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
23/55
Introduction Donnees completes Donnees incompletes References
Apprentissage (donnees completes)
Estimation de parametres Donnees completes D
Determiner les parametres des differentes CPD a partir de D
Approche statistique classique =max. de vraisemblance (MV)
MV = argmax P(D|)
Probabilite dun evenement = frequence dapparition delevenement
Maximum de vraisemblance (MV)
P(Xi =xk|Pa(Xi) =xj) =MVi,j,k=
Ni,j,kkNi,j,k
Ni,j,k= nb doccurences de {Xi=xk et Pa(Xi) =xj}
Philippe Leray Tutoriel EGC 2008 5/18
Introduction Donnees completes Donnees incompletes References
Apprentissage (donnees completes)
Autre approche
Approche bayesienne =max. a posteriori (MAP)
MAP = argmax P(|D) = argmax P(D|)P()
besoin dune loi a priori sur les parametresP()
souvent distribution conjuguee a la loi de X
siP(X) multinomiale,P() conjuguee = Dirichlet :
P() n
i=1
qi
j=1
ri
k=1
(i,j,k)i,j,k1
ou i,j,ksont les cfficients de la distribution de Dirichletassociee au coefficient i,j,k
Philippe Leray Tutoriel EGC 2008 6/18
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
24/55
Introduction Donnees completes Donnees incompletes References
Apprentissage (donnees completes)
Maximum a Posteriori (MAP)
P(Xi=xk|Pa(Xi) =xj) =MAPi,j,k =
Ni,j,k+i,j,k 1k(Ni,j,k+i,j,k 1)
Autre approche bayesienne
esperance a posteriori (EAP) : calculer lesperance a posterioride i,j,kau lieu du max.
P(Xi=xk|Pa(Xi) =xj) =EAPi,j,k =
Ni,j,k+i,j,kk(Ni,j,k+i,j,k)
Philippe Leray Tutoriel EGC 2008 7/18
Introduction Donnees completes Donnees incompletes References
Exemple
Donnees completes (MV)
P(M=m0) = 6/15 = 0.4
P(M=m1) = 8/15 = 0.53
P(M=m2) = 1/15 = 0.07
P(F =OK|M=m0) = 1/6 = 0.17
P(F =BAD|M=m0) = 5/6 = 0.83
etc . . .
Probleme :P(F =BAD|M=m2) = 0/1car cette configuration ne figure pasdans notre (petite) base dexemples
M F Rm0 BAD Om0 BAD Om0 BAD Om0 BAD Om0 BAD Nm0 OK Om1 BAD Om1 BAD Nm1 OK O
m1 OK Nm1 OK Om1 OK Nm1 OK Om1 OK Nm2 OK N
Philippe Leray Tutoriel EGC 2008 8/18
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
25/55
Introduction Donnees completes Donnees incompletes References
Exemple
Donnees completes (EAP)
A priori de Dirichlet sur les i,j,k pseudo tirage a priori de N
mesures
Exemples
A priori de Dirichlet sur M repartisurm0 et m1 = [50 50 0]
P(M=m0) = (6 + 50)/(15 + 100) = 0.487
P(M=m1) = (8 + 50)/(15 + 100) = 0.5043
P(M=m2) = (1 + 0)/(15 + 100) = 0.0087
A priori de Dirichlet sur (F|M=mi)= [9 1]
P(F =BAD|M=m2) = (0 + 1)/(1 + 10) = 0.09
M F Rm0 BAD Om0 BAD Om0 BAD Om0 BAD Om0 BAD Nm0 OK Om1 BAD Om1 BAD Nm1 OK Om1 OK Nm1 OK Om1 OK N
m1 OK Om1 OK Nm2 OK N
Philippe Leray Tutoriel EGC 2008 9/18
Introduction Donnees completes Donnees incompletes References
Apprentissage (donnees incompletes)
Plusieurs types de donnees incompletes (Rubin, 1976)
MCAR : Missing Completly At Random
absence de donnees = completement aleatoire
comment estimer MV ou MAP ?Complete / Available Case Analysis ...
MAR : Missing At Random
probabilite quune donnee soit manquante depend des variablesobserveescomment estimer MV ou MAP ?
Expectation Maximisation ...
NMAR :Not Missing At Randomabsence de donnees depend de phenom. externesbesoin de connaissances supplem. dans le modele
Philippe Leray Tutoriel EGC 2008 10/18
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
26/55
Introduction Donnees completes Donnees incompletes References
Complete / Available Case Analysis
Complete Case Analysis
Extraire de la base de donnees incomplete les individus
completement mesuresAvantage : on retombe dans le cas des donnees completes
Inconvenient : taux dincompletude important peu dedonnees completes
Available Case Analysis
Principe : pas besoin de savoir si Cest mesure pour estimerles parametres de P(A|B)
Pour estimer P(A|B), extraire de la base de donneesincomplete les individus pour lesquels A et Bsont mesures
Avantage : on retombe dans le cas des donnees completes
Philippe Leray Tutoriel EGC 2008 11/18
Introduction Donnees completes Donnees incompletes References
Algorithme Expectation Maximisation
Algorithme tres general (Dempster 1977)
Algorithme general destimation de parametres avec desdonnees incompletes
Principe
Algorithme iteratif
initialiser les parametres (0) (random, CCA / ACA)
E estimer les valeurs manquantes a partir des parametres
actuels(t)
= calculer P(Xmanquant|Xmesures ) dans le RB actuel
= faire des inferences dans le RB muni des parametres
(t)
M re-estimer les parametres (t+1) a partir des donneescompletees
en utilisant MV, MAP, ou EAP
Philippe Leray Tutoriel EGC 2008 12/18
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
27/55
Introduction Donnees completes Donnees incompletes References
Exemple
Donnees manquantes (EM+MV)
Exemple sur lestimation de P(M)
Initialisation P(0)(M) = [1/3 1/3 1/3]
M F Rm0 BAD Om0 BAD O? BAD O
m0 BAD O? BAD N
m0 OK Om1 BAD Om1 BAD N? OK O
m1 OK N
m1 OK Om1 OK Nm1 ? Om1 OK Nm2 OK N
Philippe Leray Tutoriel EGC 2008 13/18
Introduction Donnees completes Donnees incompletes References
Exemple
M F R P(M= m0) P(M=m1) P(M=m2)m0 BAD O 1 0 0m0 BAD O 1 0 0? BAD O 1/3 1/3 1/3m0 BAD O 1 0 0
? BAD N 1/3 1/3 1/3m0 OK O 1 0 0m1 BAD O 0 1 0m1 BAD N 0 1 0? OK O 1/3 1/3 1/3m1 OK N 0 1 0m1 OK O 0 1 0m1 OK N 0 1 0m1 ? O 0 1 0m1 OK N 0 1 0m2 OK N 0 0 1
TOTAL 5 8 2
Iterato1
[E]
Philippe Leray Tutoriel EGC 2008 14/18
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
28/55
Introduction Donnees completes Donnees incompletes References
Exemple
M F R P(M= m0) P(M=m1) P(M=m2)m0 BAD O 1 0 0m0 BAD O 1 0 0
? BAD O 1/3 1/3 1/3m0 BAD O 1 0 0? BAD N 1/3 1/3 1/3m0 OK O 1 0 0m1 BAD O 0 1 0m1 BAD N 0 1 0? OK O 1/3 1/3 1/3m1 OK N 0 1 0m1 OK O 0 1 0m1 OK N 0 1 0m1 ? O 0 1 0
m1 OK N 0 1 0m2 OK N 0 0 1
TOTAL 5 8 2
Iterato1
[E]
[M] :
P(1)(m0)= 5/15= 0.333
P(1)(m1)= 8/15= 0.533
P(1)(m2)= 2/15= 0.133
Philippe Leray Tutoriel EGC 2008 15/18
Introduction Donnees completes Donnees incompletes References
Exemple
M F R P(M= m0) P(M=m1) P(M=m2)m0 BAD O 1 0 0m0 BAD O 1 0 0? BAD O 0.333 0.533 0.133m0 BAD O 1 0 0
? BAD N 0.333 0.533 0.133m0 OK O 1 0 0m1 BAD O 0 1 0m1 BAD N 0 1 0? OK O 0.333 0.533 0.133m1 OK N 0 1 0m1 OK O 0 1 0m1 OK N 0 1 0m1 ? O 0 1 0m1 OK N 0 1 0m2 OK N 0 0 1
TOTAL 5 8.6 1.4
Iterato2
[E]
Philippe Leray Tutoriel EGC 2008 16/18
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
29/55
Introduction Donnees completes Donnees incompletes References
Exemple
M F R P(M= m0) P(M=m1) P(M=m2)m0 BAD O 1 0 0m0 BAD O 1 0 0
? BAD O 0.333 0.533 0.133m0 BAD O 1 0 0? BAD N 0.333 0.533 0.133m0 OK O 1 0 0m1 BAD O 0 1 0m1 BAD N 0 1 0? OK O 0.333 0.533 0.133m1 OK N 0 1 0m1 OK O 0 1 0m1 OK N 0 1 0m1 ? O 0 1 0m1 OK N 0 1 0m2 OK N 0 0 1
TOTAL 5 8.6 1.4
Iterato2
[E]
[M] :P(2)(m0)= 5/15= 0.333
P(2)(m1)= 8.6/15= 0.573
P(2)(m2)= 1.4/15= 0.093
Philippe Leray Tutoriel EGC 2008 17/18
Introduction Donnees completes Donnees incompletes References
References
Les Reseaux Bayesiens - P. Nam, P.H. Wuillemin, Ph.Leray, O. Pourret, A. Becker (Eyrolles) 2007
Probabilistic reasoning in Intelligent Systems: Networksof plausible inference- J. Pearl (Morgan Kaufman) 1988
An introduction to Bayesian Networks- F. Jensen(Springer Verlag) 1996
Probabilistic Networks and Expert Systems- R.G. Cowell& al. (Springer Verlag) 1999
Learning Bayesian Networks- R. Neapolitan (PrencticeHall) 2003
Learning in Graphical Models- Jordan M.I. ed. (Kluwer)1998
An integral approach to causal inference with latent
variables- S. Maes et al. In Russo, F. and Williamson, J.,editors, Causality and Probability in the Sciences. Texts InPhilosophy series, London College Publications, pp 17-41.2007
Philippe Leray Tutoriel EGC 2008 18/18
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
30/55
Reseaux bayesiensintroduction et apprentissage
modelisation et decouverte de connaissances
Philippe LERAYphilippe.leray@univ-nantes.fr
Equipe COnnaissances et DecisionLaboratoire dInformatique de Nantes Atlantique UMR 6241
Site de lEcole Polytechnique de luniversite de Nantes
Introduction IC Score Autre espace References
Au programme ...
Matin Notions generales
Definition, D-separation, Notion dinference
Matin Apprentissage des parametresMaximum de vraisemblance / a posteriori
Donnees completes / incompletes
Apres-midi = Apprentissage de la structure
Recherche dindependances / maximisation score
Quel espace ? Donnees completes / incompletes
Apres-midi RB et causalite
RB causal, intervention / observation, suffisance causale
Philippe Leray Tutoriel EGC 2008 2/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
31/55
Introduction IC Score Autre espace References
Definition dun reseau bayesien
Un reseau bayesien est defini par
la description qualitative des dependances (ou desindependances conditionnelles) entre des variablesgraphe oriente sans circuit (DAG)
la description quantitative de ces dependancesprobabilites conditionnelles (CPD)
Philippe Leray Tutoriel EGC 2008 3/33
Introduction IC Score Autre espace References
Notion dapprentissage
Construire un reseau bayesien
1 structure fixee, on cherche seulement les CPDa partir dexpertises : elicitation de connaissancesa partir de donnees completes / incompletes
2 on cherche la structure
a partir de donnees completes / incompletesdans quel espace ?connat-on toutes les variables ?
Philippe Leray Tutoriel EGC 2008 4/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
32/55
Introduction IC Score Autre espace References
Probleme complexe
Taille de lespace de recherche
le nombre de structures possibles a partir de n nuds estsuper-exponentiel (Robinson 77)
NS(n) =
1 , n= 0 ou1n
i=1(1)i+1ni
2i(n1)NS(n i), n>1
NS(5) = 29281 NS(10) = 4.2 1018
recherche exhaustive impossible / taille de lespace
Philippe Leray Tutoriel EGC 2008 5/33
Introduction IC Score Autre espace References
Dimension dun reseau bayesien
Definition
Nombre de parametres (independants) necessaires pour decrirelensemble des CPD associees au RB
ExemplesDim(B) = 1 + 1 + 4 + 2 + 2
Graphe vide : Dim(B0) = ?
completement connecte : Dim(Bc) = ?Philippe Leray Tutoriel EGC 2008 6/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
33/55
Introduction IC Score Autre espace References
Equivalence de Markov
Definition
B1 et B2 sont equivalents au sens de Markov ssi ils ont le memesquelette et decrivent les memes dependances et independancesconditionnelles
Consequences
B1 et B2 partagent les memes V-structures et arcs inferes
tous les graphes equivalents peuvent etre representes par un
graphe partiellement oriente (squelette, V-structure et arcsinferes) (CPDAG)
on appelle ce CPDAG le representant de la classedequivalence
Philippe Leray Tutoriel EGC 2008 7/33
Introduction IC Score Autre espace References
Equivalence de Markov - exemple
A S
T L B
O
X D
A S
T L B
O
X D
Philippe Leray Tutoriel EGC 2008 8/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
34/55
Introduction IC Score Autre espace References
Apprentissage (donnees completes)
Recherche dun bon reseau bayesien
Un RB resume des dependances et independancesconditionnelles
Trouver la structure == trouver ces infos dans les donnees
Philippe Leray Tutoriel EGC 2008 9/33
Introduction IC Score Autre espace References
Recherche dIC
Deux algorithmes de reference
Pearl et Verma : IC et IC*
Spirtes, Glymour et Scheines : SGS, PC, CI, FCI
Principe commun
construire un graphe non dirige contenant les relations entreles variables (tests du 2)
par ajout daretes (Pearl et Verma)par suppression daretes (SGS)
detecter les V-structures (idem)propager les orientations de certains arcs
Philippe Leray Tutoriel EGC 2008 10/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
35/55
Introduction IC Score Autre espace References
Recherche dIC
Problemes principaux
Fiabilite du test dindependance conditionnellement a ungrand nb de variables (et avec un nb de donnees restreint)
Heuristique SGS : si df < N10 , alors dependance
Explosion du nb de tests a effectuer
Heuristique PC : commencer par lordre 0 (XAXB) puis
lordre 1 (XAXB | XC), etc ...
Philippe Leray Tutoriel EGC 2008 11/33
Introduction IC Score Autre espace References
Algorithme PC
Etape 0 : Graphe non oriente reliant tous les nuds
A gauche, le reseau theorique utilise pour generer 5000 exemples.
A S
T L B
O
X D
A S
T L B
O
X D
Philippe Leray Tutoriel EGC 2008 12/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
36/55
Introduction IC Score Autre espace References
Algorithme PC
Etape 1a : Suppression des IC dordre 0
2: SA LA BA OA XA DA TS LT OB XB
A S
T L B
O
X D
A S
T L B
O
X D
Philippe Leray Tutoriel EGC 2008 13/33
Introduction IC Score Autre espace References
Algorithme PC
Etape 1b : Suppression des IC dordre 1
2: TA|O OS|L XS|L BT|S XT|O DT|O ...
A S
T L B
O
X D
A S
T L B
O
X D
Philippe Leray Tutoriel EGC 2008 14/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
37/55
Introduction IC Score Autre espace References
Algorithme PC
Etape 1c : Suppression des IC dordre 2
2: DS|{L,B} XO|{T,L} DO|{T, L}
A S
T L B
O
X D
A S
T L B
O
X D
Philippe Leray Tutoriel EGC 2008 15/33
Introduction IC Score Autre espace References
Algorithme PC
Etape 2 : Recherche des V-structures
2 : decouverte de la V-structure T O L
A S
T L B
O
X D
A S
T L B
O
X D
Etape 3 : Orientation recursive de certaines aretes
aucune ici
Philippe Leray Tutoriel EGC 2008 16/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
38/55
Introduction IC Score Autre espace References
Algorithme PC
Instanciation du PDAG
Orientation des arcs restants(seule condition : ne pas introduire de nouvelle V-structure)
A S
T L B
O
X D
A S
T L B
O
X D
Philippe Leray Tutoriel EGC 2008 17/33
Introduction IC Score Autre espace References
Algorithme PC
Reseau obtenu vs. theorique
Le test du 2 sur 5000 exemples na pas reussi a retrouverA T, O X et O D
A S
T L B
O
X D
A S
T L B
O
X D
Philippe Leray Tutoriel EGC 2008 18/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
39/55
Introduction IC Score Autre espace References
Apprentissage (donnees completes)
Recherche dun bon reseau bayesien
Premiere methode : rechercher directement les independancesconditionnelles
Autre methode : associer un score a chaque structure
calculable rapidement / decomposable localement
Score(B,D) = constante +n
i=1
score(Xi, pai)
notion de score equivalence
Un score Sest dit score equivalentssi pour deux structures B1et B2 equivalentes on a S(B1,D) =S(B2,D).
Philippe Leray Tutoriel EGC 2008 19/33
Introduction IC Score Autre espace References
Notion de score
Principe general : rasoir dOccam
Pluralitas non est ponenda sine neccesitate(La pluralite (des notions) ne devrait pas etre posee sans
necessite)Frustra fit per plura quod potest fieri per pauciora(Cest en vain que lon fait avec plusieurs ce que lon peutfaire avec un petit nombre)
= Principe de parcimonie = trouver le modele
qui represente le mieux les donnees D :
vraisemblance : L(D|, B)et qui soit le plus simple possible :
nb de parametres pour decrire B : Dim(B)
Philippe Leray Tutoriel EGC 2008 20/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
40/55
Introduction IC Score Autre espace References
Exemples de score
AIC et BIC
Compromis vraisemblance / complexite
Application des criteres AIC (Akake 70) et BIC (Schwartz 78)
SAIC(B,D) = log L(D|MV,B) Dim(B)
SBIC(B,D) = log L(D|MV,B)
1
2Dim(B)log N
Scores bayesiens : BD, BDe, BDeu
SBD(B,D) =P(B,D) (Cooper et Herskovits 92)BDe = BD + score equivalence (Heckerman 94)
SBD(B,D) =P(B)n
i=1
qij=1
(ij)
(Nij+ ij)
rik=1
(Nijk+ ijk)
(ijk)
Philippe Leray Tutoriel EGC 2008 21/33
Introduction IC Score Autre espace References
Apprentissage (donnees completes)
Recherche dun bon reseau bayesien
Heuristique de recherche :espace B
restriction aux arbres : Chow&Liu, MWSTordonnancement des nuds : K2recherche gloutonne : Greedy Search
espace E
Greedy Equivalence Search
Philippe Leray Tutoriel EGC 2008 22/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
41/55
Introduction IC Score Autre espace References
Restriction a lespace des arbres
Principe
quel est le meilleur arbre passant par tous les nuds,
i.e. maximisant un score defini pour chaque arc possible ?
Reponse : Arbre de recouvrement maximal
MWST : Maximum Weight Spanning Tree
(Chow et Liu 68) : information mutuelle :
W(XA,XB) =a,b
Nab
N
log NabN
Na.N.b
(Heckerman 94) : score local quelconque :
W(XA,XB) =score(XA,Pa(XA) =XB) score(XA, )
Philippe Leray Tutoriel EGC 2008 23/33
Introduction IC Score Autre espace References
Restriction a lespace des arbres
Deroulement
MWST donne un arbre non oriente reliant toutes les variables.arbre non oriente = CPDAG representant dans lespace desequivalents de Markov de tous les arbres diriges qui partagentcette meme structure !
transformation en arbre oriente en choisissant arbitrairementun nud racine et en dirigeant chaque arete a partir de cenud.
Philippe Leray Tutoriel EGC 2008 24/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
42/55
Introduction IC Score Autre espace References
Exemple : reseau obtenu vs. theorique
A S
T L B
O
X D
A S
T L B
O
X D
Ce type dalgorithme ne peut pas decouvrir de V-structures, ni decycles ...
Philippe Leray Tutoriel EGC 2008 25/33
Introduction IC Score Autre espace References
Recherche gloutonne (greedy search)
Principe
Parcours de lespace a laide doperateurs classiques :ajout darcinversion darcsuppression darc
sous reserve que le graphe obtenu soit toujours un DAG (pasde circuit)
possibilite de commencer a partir dun graphe precis
Philippe Leray Tutoriel EGC 2008 26/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
43/55
Introduction IC Score Autre espace References
Exemple : reseau obtenu vs. theorique
A S
T L B
O
X D
A S
T L B
O
X D
On tombe surement dans un optimum local
Philippe Leray Tutoriel EGC 2008 27/33
Introduction IC Score Autre espace References
Exemple : reseau obtenu vs. theorique
A S
T L B
O
X D
A S
T L B
O
X D
Initialisation de la recherche par larbre obtenu par MWST :on arrive a un meilleur resultat
Philippe Leray Tutoriel EGC 2008 28/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
44/55
Introduction IC Score Autre espace References
Et avec des donnees incompletes
Probleme
= calculer le score lorsque les donnees sont incompletesX = {D,H}
Une solution : Structural EM (Friedman 97)
Greedy Search + EM sur les parametresEM parametrique pour ameliorer (i) pour un B(i) fixe
recherche de B(i+1)
parmi les voisins de B(i)
, avec des donneescompletees selon (i)
et ainsi de suite ...
Philippe Leray Tutoriel EGC 2008 29/33
Introduction IC Score Autre espace References
Et si on changeait despace de recherche
Remarques
IC/PC : on obtient en realite le PDAG representant la classedequivalence de Markov
MWST : idem (arbre non dirige)La plupart des scores ne distinguent pas des reseauxequivalents, dou des problemes de convergence
Recherche dans E
E= espace des representants des classes dequiv. de Markov
Meilleures proprietes : OUI
2 structures equivalentes = une seule structure dansEMeilleure taille : NON
E est quasiment de meme taille que lespace des RB (ratioasymptotique de 3,7 : Gillispie et Perlman 2001)
Philippe Leray Tutoriel EGC 2008 30/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
45/55
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
46/55
Introduction IC Score Autre espace References
References
Les Reseaux Bayesiens - P. Nam, P.H. Wuillemin, Ph.Leray, O. Pourret, A. Becker (Eyrolles) 2007
Probabilistic reasoning in Intelligent Systems: Networksof plausible inference- J. Pearl (Morgan Kaufman) 1988
An introduction to Bayesian Networks- F. Jensen(Springer Verlag) 1996
Probabilistic Networks and Expert Systems- R.G. Cowell& al. (Springer Verlag) 1999
Learning Bayesian Networks- R. Neapolitan (PrencticeHall) 2003
Learning in Graphical Models- Jordan M.I. ed. (Kluwer)1998
An integral approach to causal inference with latentvariables- S. Maes et al. In Russo, F. and Williamson, J.,editors, Causality and Probability in the Sciences. Texts InPhilosophy series, London College Publications, pp 17-41.2007
Philippe Leray Tutoriel EGC 2008 33/33
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
47/55
Reseaux bayesiens
introduction et apprentissagemodelisation et decouverte de connaissances
Philippe LERAYphilippe.leray@univ-nantes.fr
Equipe COnnaissances et Decision
Laboratoire dInformatique de Nantes Atlantique UMR 6241
Site de lEcole Polytechnique de luniversite de Nantes
Introduction RB causal Apprentissage Var. latentes References
Au programme ...
Matin Notions generales
Definition, D-separation, Notion dinference
Matin Apprentissage des parametresMaximum de vraisemblance / a posteriori
Donnees completes / incompletes
Apres-midi Apprentissage de la structure
Recherche dindependances / maximisation score
Quel espace ? Donnees completes / incompletes
Apres-midi = RB et causalite
RB causal, intervention / observation, suffisance causale
Philippe Leray Tutoriel EGC 2008 2/17
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
48/55
Introduction RB causal Apprentissage Var. latentes References
Un RB nest pas un modele causal
RB classique :A B ne signifie pas forcement causalite entre A et B,
seuls les arcs du CPDAG representant de la classedequivalence de Markov representent des causalites
Confusion
lorsque le graphe est construit par un expert, le graphe estsouvent causal
lorsque le graphe est appris avec des donnees, il na aucuneraison detre causal !
Pas toujours grave ...graphes equivalents meme loi jointe, donc meme resultatpour les algorithmes dinference (probabiliste)
la causalite nest pas utile pour linference (probabiliste)
Philippe Leray Tutoriel EGC 2008 3/17
Introduction RB causal Apprentissage Var. latentes References
Reseau bayesien causal
Reseau bayesien causal
chaque A B represente une relation de causalite directe,i.e. le fait que A est bien la cause directe qui genere B
si la causalite nest pas utile pour linference (probabiliste), aquoi peut servir un reseau bayesien causal ?
Philippe Leray Tutoriel EGC 2008 4/17
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
49/55
Introduction RB causal Apprentissage Var. latentes References
Intervention vs. Observation
Inference classique :on observe B=b,on calcule P(A|B=b)
Inference causale [Pearl 00]:on agit/manipule/intervient sur B : do(B=b)
exemple avec A B
P(A|do(B=b)) =P(A),
P(B|do(A= a)) =P(B|A= a)
exemple avec A B
P(A|do(B=b)) =P(A|B=b),
P(B|do(A= a)) =P(B)
Philippe Leray Tutoriel EGC 2008 5/17
Introduction RB causal Apprentissage Var. latentes References
Manipulation Theorem
Specifier comment la loi jointe change apres une manipulationdo(M=m)
Version intuitiveon oublie les causes officielles de M(ses parents dans legraphe)
on garde le fait que M=m pour les effets que cela declenche(les enfants de M)
Version officielle [Spirtes et al. 00]
P(v|do(m)) =
ViV\M
P(vi|Pa(Vi))
M=m
Philippe Leray Tutoriel EGC 2008 6/17
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
50/55
Introduction RB causal Apprentissage Var. latentes References
Apprentissage dune structure causale
En general, utilisation de donnees dobservationquelle que soit la methode, resultat = representant de la classedequivalence
determination partielle des relations causales
Solutions pour trouver un graphe completement causal
utiliser uniquement des donnees dexperimentation, et deciderau fur et a mesure quelle experience sera la plus utile a realiser(active learning [Murphy 01], ...)
Idee : algorithme MyCaDo [Meganck, Leray & Manderick 06]tirer partie des donnees dobservations souvent existantes etnombreuses
utiliser des donnees dexperimentation uniquement pour finirdorienter le CPDAG
Philippe Leray Tutoriel EGC 2008 7/17
Introduction RB causal Apprentissage Var. latentes References
Algorithme MyCaDo
Philippe Leray Tutoriel EGC 2008 8/17
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
51/55
Introduction RB causal Apprentissage Var. latentes References
Algorithme MyCaDo
1 Choix de lexperience = choix dune variableM a manipuler
orientant potentiellement le plus darcsen tenant compte deventuels couts dexperimentation et/oudobservation des variables
2 Realisation de lexperience
do(M=m) pour toutes les valeurs possibles mobservation des variables C candidates (CM)
3 Analyse des resultatsP(C|M) (observation) P(C|do(M)) (experience) ?si egalite, alors C M, sinon M Cpropagation eventuelle de larc decouvert
Philippe Leray Tutoriel EGC 2008 9/17
Introduction RB causal Apprentissage Var. latentes References
Mais ce nest pas fini ...
Exemple simple, avec 2 variables
S(la Seine deborde) et P(jai pris mon parapluie)
Des donnees dobservation montrent que ces deux variables ne
sont pas independantes :
SP
On decide dagir sur Set dobserver P : pas de modification
Snest pas la cause de P
Faut-il en conclure que Pest la cause de S ?
En agissant aussi sur P, on aurait vu que Pnest pas la causede S
Interet = decouverte dune variable latente (il pleut...)
Philippe Leray Tutoriel EGC 2008 10/17
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
52/55
Introduction RB causal Apprentissage Var. latentes References
Suffisance Causale
Les algorithmes precedents se basent tous sur lhypothese desuffisance causale
Suffisance causale
Toutes les variables necessaires a la modelisation sont connues
Abandonner lhypothese de suffisance causale = Essayer dedecouvrir des variables latentes lors de lapprentissage de
structurede facon explicite (methodes a base de score)de facon implicite (SMCM vs. MAG)
Philippe Leray Tutoriel EGC 2008 11/17
Introduction RB causal Apprentissage Var. latentes References
Modelisation explicite vs. implicite
Modelisation explicite
Adaptation de Structural EM
Avantages
inference probabiliste : OK
Inconvenients
complexite de la methodeinference causale : NON (le graphe nest pas causal)
Modelisation implicite
Modele plus leger
pas besoin de determiner la cardinalite de H
Deux formalismes aux objectifs differentsinference causale : SMCM, Semi Markovian Causal Modelapprentissage de la structure : MAG, Maximum AncestralGraph
Philippe Leray Tutoriel EGC 2008 12/17
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
53/55
Introduction RB causal Apprentissage Var. latentes References
SMCM vs. MAG
SMCM [Pearl 00]
A B : cause communelatente
A B : relation decausalite directe
MAG [Richardson & Spirtes 02]
A B : cause communelatente
A B dependance entre Aet B
existence de chemins induitsPhilippe Leray Tutoriel EGC 2008 13/17
Introduction RB causal Apprentissage Var. latentes References
SMCM vs. MAG
SMCM [Pearl 00]
Inf. causale : en theorie
Inference prob. : NON
Apprent. structure : NON
MAG [Richardson & Spirtes 02]
Inf. causale : partielle
Inference prob. : NON
Apprent. structure : partielle
Philippe Leray Tutoriel EGC 2008 14/17
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
54/55
Introduction RB causal Apprentissage Var. latentes References
SMCM vs. MAG
Apprentissage a partir dobservations : OK, mais obtentiondu representant de la classe dequivalence (CPAG)
CPAG MAG : inutile, un MAG nest pas causal
Inference causale : OK dans les SMCM
Inference probabiliste : il manque une parametrisationefficace des SMCM
Philippe Leray Tutoriel EGC 2008 15/17
Introduction RB causal Apprentissage Var. latentes References
Une approche globale : MyCaDo++
Apprentissage a partir dobservations : OK, mais obtentiondu representant de la classe dequivalence (CPAG)
Notre idee : [Meganck, Maes, Leray & Manderick 06]passer directement du CPAG a un SMCM a partir de donneesdexperimentation
Inference causale : OK dans les SMCM
Inference probabiliste : il manque une parametrisationefficace des SMCM
Notre idee : [Meganck, Maes, Leray & Manderick 06]
proposer une parametrisation efficace dun SMCM
Philippe Leray Tutoriel EGC 2008 16/17
7/25/2019 Behja, Hicham & Senach, Bernard - Tutoriel Rseaux Baysiens (EGC, 2008)
55/55
Introduction RB causal Apprentissage Var. latentes References
References
Les Reseaux Bayesiens - P. Nam, P.H. Wuillemin, Ph.Leray, O. Pourret, A. Becker (Eyrolles) 2007
Causality: Models, Reasoning, and Inference- J. Pearl(Cambridge University Press) 2000
An introduction to Bayesian Networks - F. Jensen(Springer Verlag) 1996
Probabilistic Networks and Expert Systems - R.G. Cowell& al. (Springer Verlag) 1999
Learning Bayesian Networks - R. Neapolitan (PrencticeHall) 2003
Learning in Graphical Models - Jordan M.I. ed. (Kluwer)1998
An integral approach to causal inference with latentvariables- S. Maes et al. In Russo, F. and Williamson, J.,editors, Causality and Probability in the Sciences. Texts InPhilosophy series, London College Publications, pp 17-41.2007
Philippe Leray Tutoriel EGC 2008 17/17
top related