Top Banner
Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt
25

Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

Dec 21, 2015

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

Bayesian Network Classifiers

Nir Friedman Dan Geiger

Moises Goldszmidt

Page 2: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

קירוב פונקצית התפלגות ע"י עץ

בשבוע שעבר ראינו כיצד לקרב פונקצית • ע"י רשת בייסיאנית שהיא עץ.Pהתפלגות

לשם כך מחשבים את לכל הזוגות .–מוצאים עץ פורש מקסימלי עבור הגרף המלא, –

כשמשקל הקשת שווה ל- .

2

X1

X3 X4

X2

P(X2|X1)

P(X4|X3)

P(X3|X1)

( , )i jI X X,i jX X

( , )i jX X( , )i jI X X

Page 3: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

TANקירוב פונקצית התפלגות ע"י

Pהיום נראה כיצד לקרב פונקצית התפלגות •.TANע"י רשת בייסיאנית שהיא

.Xi,Xj לכל הזוגות I(Xi,Xj|C)לשם כך מחשבים את –

מוצאים עץ פורש מקסימלי עבור הגרף המלא, –.I(Xi,Xj|C)) שווה ל-Xi,Xjכשמשקל הקשת (

3

X1

X3 X4

X2

P(X2|X1)

P(X4|X3)

P(X3|X1)C

P(X2|X1,C)

P(X4|X3,C)

P(X3|X1,C)

Page 4: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

קביעת אופיו של גידול -Classificationדוגמה לבעיית

4

נניח שברצוננו לקבוע את אופיו של גידול •(שפיר/ממאיר), מתוך סט של תכונות שיש לנו

עדויות לגביהן (גודל, צורה,...).

זוהי בעיית קלאסיפיקציה.•

גודל

צורה

גרורות

אופי הגידול

Page 5: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

Naïve Bayesian Classifier

, כל יתר classהנחה: בהינתן ה-•הקודקודים בלתי תלויים.

יתרון: פשוט, סיבוכיות חישוב פולינומית.–

על אף פשטותו, מודל זה בעל שימוש רחב –היקף, עד היום.

5

Class

A1 A2 A3 An

1 1( , ,..., ) ( ) ( | ) ( | )n nP C A A P C P A C P A C

1* arg max ( , ,..., )c nc P c a a

Page 6: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

Naïve Bayesian Classifierהמשך -

-ים Ai הנחת האי-תלות המותנית בין ה-חסרון:•אינה מציאותית.

לדוגמה, כשבנק רוצה להעריך את מידת •הסיכון שבנתינת הלוואה ללקוח, התעלמות

והכנסה גיל, רמת השכלהמהקורלציות בין

פוגעת בתוצאות החיזוי.

6

loan risk

ageeducation

level income

Page 7: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

Tree Augmented Naïveשיפור: Bayes

סוגים:2הקשתות ברשת הן מ-•

–ClassAi-הקשתות שהיו ב) NB.(

, שיחד מהוות עץ (העץ לא AiAjהקשתות –).Classכולל את קודקוד ה-

7

A2 AN-2 AN-1 ANA1 A3

Class

הקשתות האדומות

נקראותaugmenting

edges

Page 8: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

- הכנהTANאלגוריתם לבניית

בזכות מבנה העץ שמשרות הקשתות • TANהאדומות, ניתן לחשב את מודל ה-

המתאים באופן יעיל.

מדד חשוב:•

conditional mutual information

8

A2 AN-2 AN-1 ANA1 A3

Class

, ,

( , | )( , | ) ( , , ) log

( | ) ( | )Px y z

P x y zI X Y Z P x y z

P x z P y z

Page 9: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

TANאלגוריתם לבניית

מחשבים עבור כל זוג תכונות, 1..i≠jכך ש-

,A1בונים גרף מלא בו הקודקודים הם התכונות 2.…,An) ומשקל הקשת ,Ai,Aj. = (

.maximum weighted spanning treeמחשבים 3.

בוחרים שורש ומכוונים את יתר הקשתות כך 4.שהגרף שיווצר יהיה עץ.

ע"י הוספת TANמשלימים את הגרף ל-5..i לכל CAiהקשתות

9

ˆ ( , | )D

i jPI A A C

ˆ ( , | )D

i jPI A A C

A1 A2

A3 A4

10

7

5531

10

7

5

A1

A3 A4

A2

A1

A3 A4

A2

C

Page 10: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

)Theorem 2משפט (

, BT שנסמנו TAN מחזיר TANהאלגוריתם לבניית 1.. log Likelihood(BT|D)אשר ממקסם את ה-

סיבוכיות הזמן של האלגוריתם שווה ל-2.

O((#attributes)2 ∙ |training set|).

.Ai,Aj - O(n2∙N)שלב החישוב לכל 1.

.O(n2logn)שלב מציאת העץ הפורש – 2.

.N>lognבד"כ, 3.

10

ˆ ( , | )D

i jPI A A C

Page 11: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

TAN ו-NBהשוואה בין

11

תוצאות TANל-טובות יותר

בהשוואה Naïveל-

Bayes.

Page 12: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

12

C, וערכו של a1,a2,…,anנניח שבידינו דגימות •לא ידוע עבורן.

incomplete כשיש TANאיך נבנה data?

1arg max ( | ,..., )C nP C A A

Page 13: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

דוגמה הבא:dataנתון ה-•

עלינו להשלים את המידע החסר.•

נשתמש בסכימה שראינו קודם.•

13

A1 A2 A3 A4 C

1 0 1 0 ?

0 0 0 1 ?

1 1 1 0 ?

1 1 0 0 ?

0 0 0 1 ?

Page 14: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

התחלתי:TANמבנה •

טבלאות התחלתיות: •

14

c=0 c=1

P(c) 0.5 0.5

c=0,a1=0 c=0,a1=1 c=1,a1=0 c=1,a1=1

P(a2=1|c,a1) 0.1 0.3 0.2 0.4

c=0 c=1

P(a1=1|c) 0.3 0.5

c=0,a2=0 c=0,a2=1 c=1,a2=0 c=1,a2=1

P(a3=1|c,a2) 0.7 0.3 0.5 0.1

c=0,a3=0 c=0,a3=1 c=1,a3=0 c=1,a3=1

P(a4=1|c,a3) 0.5 0.2 0.2 0.2

A1

A4 A3

A2

C

Page 15: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

full dataהשלמה ל-

לדגימה a1,a2,…,anנשלים כל דגימה חלקית •.a1,a2,…,an,cמלאה

תיעשה עפ"י הנוסחה:c מציאת •

15

1* arg max ( | ,..., )c nc P c a aA1 A2 A3 A4 C

1 0 1 0 0

0 0 0 1 0

1 1 1 0 1

1 1 0 0 1

0 0 0 1 0

Page 16: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

חדשTANחישוב מבנה

16

A1 A2

A4 A3

0.34945

0.36008

0.34631

0.34566

0.34571

0.34566

, ,

( , | )( , | ) ( , , ) log

( | ) ( | )i j

i jP i j i j

a a c i j

P a a cI A A C P a a c

P a c P a c

C

Page 17: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

חישוב טבלאות הסתברות חדשות

ואפשר לחזור על התהליך, עד שהשינוי נהיה מזערי.•

17

c=0 c=1

P(c) 0.524 0.476

c=0,a1=0 c=0,a1=1 c=1,a1=0 c=1,a1=1

P(a2=1|c,a1) 0.33 0.4 0.5 0.66

c=0 c=1

P(a1=1|c) 0.45 0.6

c=0,a2=0 c=0,a2=1 c=1,a2=0 c=1,a2=1

P(a3=1|c,a2) 0.57 0.5 0.5 0.5

c=0,a3=0 c=0,a3=1 c=1,a3=0 c=1,a3=1

P(a4=1|c,a3) 0.6 0.33 0.6 0.4

A1 A2 A3 A4 C

1 0 1 0 0

0 0 0 1 0

1 1 1 0 1

1 1 0 0 1

0 0 0 1 0

Page 18: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

conditional mutual informationהקשר בין -Kullback–Leibler divergenceל

18

( )( , ) ( ) log

( )KL TANx TAN

P xD P P P x

P x

DKLהגדרת

( ) log ( ) ( ) log ( )TANx x

P x P x P x P x

( ) ( ) log ( )TANx

H X P x P x הגדרת אנטרופיה

תכונות לוגריתם

Page 19: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

19

( ) ( ) log ( )TANx

H X P x P x

כלל השרשרת

1

( ) ( ) log ( | ( ))n

TAN i ix i

H X P x P x parents x

1

( ) ( ) log( ( | ( )))n

TAN i ix i

H X P x P x parents x

תכונות לוגריתם

2

( ) ( ) log( ( )) log( ( | , ))n

TAN TAN i jx i

H X P x P c P x x c

מבנה TANה- Xj הוא

ההורה השני Xiשל

Page 20: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

טענת עזר

20

1 2

1 2

i j

1 2

i j

1 2, ,...,

1 2, , ,...,

x ,x לא כולל

1 2, , ,...,

x ,x לא כולל

,

( ) ( , ) ( , ,..., ) ( , )

( , ,..., ) ( , )

( , ) ( , ,..., )

( , ) ( , )

n

i j n

i j n

i j

i j n i jx x x x

n i jx x x x x

i j nx x x x x

i j i jx x

P x f x x P x x x f x x

P x x x f x x

f x x P x x x

f x x P x x

Page 21: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

21

2

( ) ( ) log( ( )) log( ( | , ))n

TAN TAN i jx i

H X P x P c P x x c

2 , ,

( ) ( ) log( ( )) ( , , ) log( ( | , ))i j

n

TAN i j TAN i jc i x x c

H X P c P c P x x c P x x c

פתיחת סוגריים

2

( ) ( ) log( ( )) ( ) log( ( | , ))n

TAN TAN i jx i x

H X P x P c P x P x x c

טענת העזר

2 ,

( ) ( ) log( ( )) ( , ) ( | , ) log( ( | , ))j i

n

TAN j i j TAN i jc i x c x

H X P c P c P x c P x x c P x x c

, הביטוי מקבל ערך Gibbsעפ"י אי-שיוויון מקסימלי

. P’(x)=P(x)כאשר |PTAN(xi|xj,c)=P(xi ו-PTAN(c)=P(c)לפיכך, מקסימום יתקבל עבור

xj,c).

( ) log '( )x

P x P x

Page 22: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

22

2 , ,

( ) ( ) log( ( )) ( , , ) log( ( | , ))i j

n

TAN i j TAN i jc i x x c

H X P c P c P x x c P x x c

2 , ,

( ) ( ) log( ( )) ( , , ) log( ( | , ))i j

n

i j i jc i x x c

H X P c P c P x x c P x x c

PTAN(c)=P(c) PTAN(xi|xj,c)=P(xi|xj,c)

2 , ,

( ) ( ) ( , , ) log( ( | , ))i j

n

i j i ji x x c

H X H C P x x c P x x c

הגדרת אנטרופיה

2 , ,

( | ) ( | )( ) ( ) ( , , ) log ( | , )

( | ) ( | )i j

nj i

i j i ji x x c j i

P x c P x cH X H C P x x c P x x c

P x c P x c

2 , ,

( , | )( ) ( ) ( , , ) log log ( | )

( | ) ( | )i j

ni j

i j ii x x c i j

P x x cH X H C P x x c P x c

P x c P x c

מניפולציה

Page 23: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

23

2 , ,

( , | )( ) ( ) ( , , ) log log ( | )

( | ) ( | )i j

ni j

i j ii x x c i j

P x x cH X H C P x x c P x c

P x c P x c

2 , , 2 , ,

( , | )( ) ( ) ( , , ) log ( , , ) log ( | )

( | ) ( | )i j i j

n ni j

i j i j ii x x c i x x ci j

P x x cH X H C P x x c P x x c P x c

P x c P x c

2 2 ,

( ) ( ) ( , | ) ( , ) log ( | )i

n n

P i j i ii i x c

H X H C I X X C P x c P x c

2 2

( ) ( ) ( , | ) ( ) ( | ) log ( | )i

n n

P i j i ii i c x

H X H C I X X C P c P x c P x c

+ טענת Iהגדרת

העזר

2 2

( ) ( ) ( , | ) ( | )n n

P i j ii i

H X H C I X X C H X C

כדי למזער את , יש למקסם את .

( , )KL TAND P P2

( , | )n

P i ji

I X X C

Page 24: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

conditional mutual informationהקשר בין likelihoodלפונקצית ה-

במאמר מראים ש-•

24

ˆ ˆ ( ), ( ) 0

log ( | ) ( , ) ( , | ) constant termD D

T i i iP Pi i i

L B Data N I A C I A A C

לא מושפע מבחירת ההורים

Aiשל

יש למקסם את הביטוי הזה

מקסימיזציה של שקולה

.likelihoodלמקסימיזציה של פונקצית ה-

ˆ ( ), ( ) 0

( , | )D

i iPi i

I A A C

Page 25: Bayesian Network Classifiers Nir Friedman Dan Geiger Moises Goldszmidt.

סיכום

25

•TAN מהווה הרחבה טבעית של Naïve Bayes.

לשיטה זו תוצאות טובות יותר בהשוואה •, ויחד עם זאת היא משמרת Naïve Bayesל-

את הפשטות החישובית שמאפיינת את שיטת .NBה-

טובים גם בהשוואה לשיטות TANביצועי • בתחום machine learningמובילות בעולם ה-

.C4.5, כמו לדוגמה classificationה-