Top Banner
םםםםםםם םםםםםםםםםם םםםם םםםם םםםםם םם םםם11 - םManning & Schütze תתתתת תת תתתת תת תתתתתתP=0.57 P=0.43
50

דקדוקים הסתברותיים חסרי הקשר

Jan 02, 2016

Download

Documents

berk-neal

דקדוקים הסתברותיים חסרי הקשר. מבוסס על פרק 11 ב- Manning & Sch ütze. P=0.57. P=0.43. ראיתי את האיש עם המשקפת. יחוס הסתברויות לניתוח תחבירי. המטרה : מודל כללי יותר לרב-משמעות תחבירית. ניתוח תחבירי הסתברותי – ייחוס הסתברויות לניתוחי משפטים ע"י עצי גזירה. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: דקדוקים הסתברותיים חסרי הקשר

דקדוקים הסתברותיים חסרי

הקשרManning & Schütze ב-11מבוסס על פרק

ראיתי את האיש עם המשקפת

P=0.57 P=0.43

Page 2: דקדוקים הסתברותיים חסרי הקשר

יחוס הסתברויות לניתוח תחבירי

: מודל כללי יותר לרב-משמעות תחבירית.המטרה

ניתוח תחבירי הסתברותי – ייחוס הסתברויות לניתוחי

משפטים ע"י עצי גזירה.

קודם נראה כיצד ניתן לנתח משפטים: דקדוקים חסרי

הקשר, עצי ניתוח, ואלגוריתם כללי למציאת ניתוח.

Page 3: דקדוקים הסתברותיים חסרי הקשר

CFGהגדרת

1 2 iX X X X N

, , ,G N S R א"ב קלט

)המילים בשפה(

נונטרמינלים )משתנים(

סימן תחיליחוקי גזירה

*R N N

R1נסמן את אברי 2 kX X X X

מחרוזת. αXβ , תהי R כלל ב-X ξיהי αξβ ב- αXβגזירה היא החלפת

αXβ αξβנסמן זאת

Page 4: דקדוקים הסתברותיים חסרי הקשר

SNP VP Det Noun that VP NP VP

the man that ate a pear VPthe man that ate a pear Verb NP

the man that ate a pear Verb Det Noun the man that ate a pear saw a boy

CFLהגדרת

** :L G w S w Gהשפה שמוגדרת ע"י

S NP VPNPDet Noun | Det Noun that VPVPVerb NPDetthe|aNounman | boy | pearVerbsaw | ate |finished

S NP VP Det Noun VP the Noun VP the man VP the man Verb NP the man ate NP the man ate Det Noun the man ate a Noun the man ate a pear*

*

Page 5: דקדוקים הסתברותיים חסרי הקשר

CNF

X a a 1 2 iX X X X N –CNF Chomsky Normal Form

אוכל הכללים מהצורה

משפט חומסקי:’ בצורת חומסקיG קיים דקדוק שקול G לכל דקדוק חסר הקשר

)’L)G(=L)Gכך ש-

להבא נניח שכל הדקדוקים הם בצורת חומסקי

S היא המילה הריקה εכאשר או

Page 6: דקדוקים הסתברותיים חסרי הקשר

-CKY (Cocke-Kasamiאלגוריתם Younger)

parsing ל-

בצורת חומסקי, מילהGקלט: דקדוק

האם ?

wיתירה מכך, אם התשובה חיובית, נרצה לקבל עץ ניתוח ל-

*w w L G

Page 7: דקדוקים הסתברותיים חסרי הקשר

CKY.w1...wnמחרוזת קלט:

Chomsky Normal Formדקדוק ח"ה ב- תכנות דינמי שבה בונים בהדרגה את עץ הניתוח של הרעיון:

wi,j=wi...wj מתוך שני עצי הניתוח שלwi,k-ו wk+1,j לכלk .i..j-1בטווח

wi ……… wk

B C

wk+1…wj

A

AB C

wi …wk’

B’ C’

wk’+1….…wj

A’

A’B’ C’

Awi…wj* A’wi…wj

*

הוא אוסף t[i,j] כאשר t:[0..n]x[0..n]מטריצה מבנה נתונים: .wi,j=wi...wjהנונטרמינלים שגוזרים את

t[i,j]={A : Awi,j}*

Page 8: דקדוקים הסתברותיים חסרי הקשר

האלגוריתםfor i:=1 to n do

t[i,i] = {A | Awi G};for length =1 to n-1 do for i =1 to n do

t[i,i+length] = ∅; for k=i to i+length-1 do

ADD = {A|ABC G, B t[i, k] , C t[k+1,i+length] }; t[i,i+length] := t[i,i+length] ADD;if St[1,n] then accept

else reject.

i=2, j=5 כאשר ADDסדר חישוב tסדר מילוי אברי

k=2 3 3 4

Page 9: דקדוקים הסתברותיים חסרי הקשר

האלגוריתם

SATSASSABTSBAaBb

w15=aaabb

G:

for i:=1 to n dot[i,i] = {A | Awi G};

for length =1 to n-1 do for i =1 to n do t[i,i+length] = ∅;

for k=i to i+length-1 do ADD = {A|ABC G, B t[i, k] , C t[k+1,i+length]

}; t[i,i+length] := t[i,i+length] ADD;if St[1,n] then accept

else reject.

Page 10: דקדוקים הסתברותיים חסרי הקשר

CKYתכונות אלגוריתם

– כמעט אופטימלית.) O)|G|2 n: סיבוכיות

חסרונות:• CNF – ייצוג לא נוח, או שצריך להמיר באופן

מדקדוק חסר-הקשר בפורמט כללי.אוטומטי עלולה להגדיל בריבוע CNF המרת דקדוק ל-•

את מספר הכללים בו, ולכן את סיבוכיות .Gהאלגוריתם כתלות בגודל

מחרוזת של המילה - האלגוריתם מוצא כל תת• כלשהו. Aהנגזרת ע"י נונטרמינל

אינו מקייםAמיותר כאשר S => w1…wk-1 A wk+1…wn

3

Page 11: דקדוקים הסתברותיים חסרי הקשר

garden pathמשפטי

= משפטים שבהם בני-אדם נוטים לטעות בניתוח לפני שהגיעו לסוף המשפט.

יוסי הראה לילד משוגעתן לי דובדבן מתוק

The raft floated down the riverThe horse raced past the barn

מפתח.שלי.

sank.fell.

Page 12: דקדוקים הסתברותיים חסרי הקשר

SNP VP NP VPV’ NP | VP NPמשוגע |המפתח|ילד|יוסי

NPNP JJ V’V PP V הראה JJ משוגע

PPPREP NP PREP ל

דוגמא

יוסי הראה ל ילד משוגע את המפתחקלט: 1 2 3 4 5 6

Page 13: דקדוקים הסתברותיים חסרי הקשר

מתן הסתברויות לניתוח תחבירי

ראינו:

מילים תיוג חלקי דיבר הסתברותי – ייחוס הסתברויות לסיווגי1.

.קטגוריותל

שימוש בעדיפויות לקסיקליות להתרת רב משמעות של 2.

הצמדת צירופי יחס.

: מודל כללי יותר לרב-משמעות תחבירית.המטרה

.עצי גזירהניתוח תחבירי הסתברותי – ייחוס הסתברויות ל

HMM = -הרחבה טבעית לFSA(לא דטרמיניסטי)

PCFG = Probabalistic Context Free grammar

CFGהרחבה טבעית ל-

Page 14: דקדוקים הסתברותיים חסרי הקשר

PCFGהגדרת

, , , ,G N S R P

:

: 1X R

X N P X

P היא התפלגות על R :

ההסתברות של סדרת גזירות היא מכפלת ההסתברויות של כל גזירה

RSATSABTSBAaBb

P0.80.2111

P)SATaTaSBaABBaaBB

aabBaabb(

0.8 1 1 0.2 1

1 1= 0.8*1*1*0.2*1*1=0.16

Page 15: דקדוקים הסתברותיים חסרי הקשר

שלוש הנחות אי-תלות אינה S בתוך מחרוזת Tהסתברות גזירת תת-עץ 1.

של תת-המחרוזת הנפרשת Sתלויה במיקום בתוך .Tע"י

אינה T: הסתברות גזירה של תת-עץ חוסר ה=ק>ש;:ר2.שמחוצה לו.תלויה במילים

אינה תלויה בצמתים Tהסתברות גזירה של תת-עץ 3.פנימיים מחוצה לו.

Page 16: דקדוקים הסתברותיים חסרי הקשר

שלוש הנחות אי-תלות אינה S בתוך מחרוזת Tהסתברות גזירת תת-עץ 1.

של תת-המחרוזת הנפרשת Sתלויה במיקום בתוך .Tע"י

אינה T: הסתברות גזירה של תת-עץ חוסר הקשר2.שמחוצה לו.תלויה במילים

אינה תלויה בצמתים Tהסתברות גזירה של תת-עץ 3.פנימיים מחוצה לו.

31

+ כלל השרשרת: 2P)A∩B(=P)A(P)B|A(

Page 17: דקדוקים הסתברותיים חסרי הקשר

)דומה לבעיות PCFG בעיות ל-HMM)

בעיות:3 יש HMMכמו ב-

w, ומשפט )סדרת מילים( PCFG, Gבהינתן 1.)P)S w, כלומר, w מצא את ההסתברות של

, מצא את הניתוח w, ומשפט PCFG, Gבהינתן 2.הסביר ביותר שלו.

המנתח PCFGבהינתן דוגמאות של משפטים, מצא 3.אותם בהסתברות מכסימלית.

הסתברויות "חיצוניות" ו"פנימיות" - בהמשך

*

Page 18: דקדוקים הסתברותיים חסרי הקשר

הסתברות חיצונית ופנימית

Page 19: דקדוקים הסתברותיים חסרי הקשר

βחישוב ההסתברות הפנימית parsing ל-CKYאלגוריתם מבוסס על אלגוריתם

מחברים את ההסתברויות של כל tבזמן מילוי הטבלה t[i,j]נונטרמינל שנמצא ב-

ב- Aההסתברות של βA [i,j] יהי A t[i,j]כלומר, עבור t[i,j]

for k=i to i+length-1 do ADD = {A|ABC G, B t[i, k] , C t[k+1,i+length] };

t[i,i+length] = t[i,i+length] ADD;

βA [i,i+length] += P)ABC(* βB [i,k]* βC [k+1,i+length]

t[i,i] = {A | Awi G};

βA [i,i] = P)Awi (

פעולות אלו אינן מגדילות את הסיבוכיות

Page 20: דקדוקים הסתברותיים חסרי הקשר

תרגיל

394 להשלמת הטבלה בעמ' CKYהשתמשו ב- PCFGלחישוב הסתברות הדוגמא בדקדוק

שניתן:

Page 21: דקדוקים הסתברותיים חסרי הקשר

מצא את עץ התחביר הסביר ביותר לניתוח סדרת מילים

אלגוריתם דומה לקודם, אך במקום סכום לוקחים •מכסימום:

, , 1,, : ,...,max maxi j i k k j

B C A BC G k i j

A P A BC B C

Page 22: דקדוקים הסתברותיים חסרי הקשר

חישוב הסתברות לסדרת מילים באמצעות הסתברויות חיצוניות

*1, ,,A p q np q P S w Aw

1, 1S n

1, 0T n T S

נגדיר הסתברויות חיצוניות

איתחול

S))הנונטרמינל התחילי

Page 23: דקדוקים הסתברותיים חסרי הקשר

חישוב הסתברות לסדרת מילים באמצעות הסתברויות חיצוניות

, :

, , 1,B A CA C A BC G r q

p q P A BC p r q r

A

CB

p q r

A

BD

p qr

, :

, , 1A DA D A DB G r p

P A DB r q r p

Page 24: דקדוקים הסתברותיים חסרי הקשר

PCFGלימוד

שממקסם את PCFGנתון טכסט אימון. ברצוננו למצוא •ההסתברות לקבל את טכסט האימון.

אם נתון קורפוס מנותח נוכל לחשב את ההסתברות של •כל חוק:

C NP N

C N

מה הקושי בגישה זו?

Page 25: דקדוקים הסתברותיים חסרי הקשר

כאשר אין קורפוס מנותחPCFGלימוד

נניח שמספר הכללים ומספר הנונטרמינלים והנונטרמינל •, נתונים מראש.S=N1התחילי,

:EMמפעילים אלגוריתם •נתחיל בדקדוק ראשוני,

ננתח כל משפט, ונעריך את תוחלת מספר הפעמים השתמשנו בכל חוק בכל ניתוח.

PCFGנשתמש בתוחלות אלו כמעריך להסתברויות של •חדש.

אפשר להוכיח •נעצור כאשר השיפור • עמ' Manning & Schutzeלהלן הנוסחאות המדויקות ע"פ •

398-401

1| |i iP W G P W G

Page 26: דקדוקים הסתברותיים חסרי הקשר

.wp,q ותת מילה שלה w=w1,mנסתכל על מילה •:wp,q יופיע בניתוח ושהוא ייצור את Nj ההסתברות שנונטרמינל

wההסתברות ליצור את π יהי•

*01,mP N w

N0 = S

Page 27: דקדוקים הסתברותיים חסרי הקשר

) w E כדי לייצר את N j)השתמשו ב-

Ʃ אינו אבא של אות של N jכאשר

1

, ,m mj j

p q p

p q p q

* *01

1

| ,

1, , 1,

j r spq m

q j r sj r sd p

P N N N w N w G

p q P N N N p d d q

Page 28: דקדוקים הסתברותיים חסרי הקשר

תוחלת מספר הפעמים שהשתמשו בחוק•

ההסתברות להשתמש בחוק •

j r sN N N

ˆ j r sP N N N ההסתברות החדשה

1 1

1 1

, used

1, , 1,

j r s j

m m q j r sj r sp q p d p

E N N N N

p q P N N N p d d q

1 1

1 1

1

, , 1,

, ,

m m q j r sj r sp q p d p

m m

j jp q p

p q P N N N p d d q

p q p q

Page 29: דקדוקים הסתברותיים חסרי הקשר

jכאשר הכלל הוא • kN a

Ʃ של kהאות ה-

ההסתברות החדשה

P(N ja k)

*01,

1

1

| ,

1, ,

1, ,

j km

m j kj

m kj j

P N a N w G

P N w w a

P w a

1

1

, ,ˆ

, ,

m kj jj k

m m

j jp q p

P w aP N a

p q p q

Page 30: דקדוקים הסתברותיים חסרי הקשר

( p,q בקטע )iההסתברות שבניתוח המשפט ה-jהשתמשנו בכלל r sN N N

iההסתברות שבניתוח המשפט ה- יוצרה ע"י הכלל hהאות ה-

j kN w-ההסתברות שבניתוח המשפט הi ( p,q בקטע )

N jהשתמשנו במשתנה

W=W1…,Wωהרחבה מלימוד מתוך משפט בודד ללימוד ע"ס קורפוס

1, , 1,

q j r sj r sd p

p q P N N N p d d q

Page 31: דקדוקים הסתברותיים חסרי הקשר

( p,q בקטע )iההסתברות שבניתוח המשפט ה-jהשתמשנו בכלל r sN N N

ההסתברות שבניתוח האות i המשפט ה-

יוצרה ע"י הכלל lה-j kN w

iההסתברות שבניתוח המשפט ה-( p,q בקטע )

N jהשתמשנו במשתנה

W=W1…,Wωהרחבה מלימוד מתוך משפט בודד ללימוד ע"ס קורפוס

1

*0

, , 1,, , , ,

|

q j r sj r sd p

i

i

p q P N N N p d d qf p q j r s

P N W G

,

*0

, ,, ,

|

kj i j

i

i

P W ag j k

P N W G

*0

, ,, ,

|j j

i

i

p q p qh p q j

P N W G

Page 32: דקדוקים הסתברותיים חסרי הקשר

( p,q בקטע )iההסתברות שבניתוח המשפט ה-השתמשנו בכלל

מכאן שההסתברויות החדשות הן:

( p,q בקטע )iההסתברות שבניתוח המשפט ה-N jהשתמשנו במשתנה

יוצרה ע"י h האות ה-iההסתברות שבניתוח המשפט ה-jהכלל kN w

j r sN N Nמספר המשפטים בקורפוס

iאורך המשפט ה-

Page 33: דקדוקים הסתברותיים חסרי הקשר

inside outsideסיכום אלגוריתם

בכל איטרציה מחשבים את תוחלת הפעמים •שהשתמשנו בכל כלל.

MLEההסתברויות החדשות הן •כלומר, המנה בין התוחלת להשתמש בכלל

לביןהשימוש בכללים בכל הקורפוס.

בסוף האיטרציה מעדכנים את ההסתברויות •וחוזרים על התהליך.

Page 34: דקדוקים הסתברותיים חסרי הקשר

בעיות

הלימוד איטי: לכל משפט זמן•

תופעת המקסימום לוקלי די נפוצה.•הדקדוק המתקבל אינו מייצג ידע בלשני.•

3 2O m n

מספר המילים במשפט

מספר הכללים בדקדוק

3 220 50 20,000,000m n m n

ובכל איטרציה יש לעבור על כל משפטי הקורפוס!

Page 35: דקדוקים הסתברותיים חסרי הקשר

נושאים נוספים

• Tree bank • Lexilization• Chunking• Evaluation

Page 36: דקדוקים הסתברותיים חסרי הקשר

Tree bank

אוסף של משפטים שנותחו סינטקטית••Penn Treebank

(POS מליון מילים של אנגלית אמריקאית )4.5מחצית תויג גם תחבירית.• 36( ל-Brown corpus )87מספר תגים ירד מ-•

העיקרון היה לאחד קטגוריות שניתן לשחזר של פועל 5 תגים – אוחדו ל-8 ניתנו to be)לפועל

רגיל(.בנוסף איחדו קבוצות סגורות )סגור = סופי וקטן(.

Page 37: דקדוקים הסתברותיים חסרי הקשר

Penn Treebank) )S )NP Battle-tested industrial managers here( always )VP buck up )NP nervous newcomers( )PP with )NP the tale )PP of )NP )NP the )ADJP first )PP of )NP their countrymen((( )S )NP *( to )VP visit )NP Mexico((((…

Page 38: דקדוקים הסתברותיים חסרי הקשר

כיצד תויג הקורפוס?

השיטה:•Fiddichקודם ניתחו את הטכסט בעזרת תכנה •

שנמנעת מניתוח כאשר אין היא בטוחה, כך שנוצר יער של עצים.

בשלב השני, מתייגים אנושיים השלימו ותיקנו •את התיוג.

מילים לשעה.375-475הגיעו לקצב של •

Page 39: דקדוקים הסתברותיים חסרי הקשר

Size of Penn Treebank• Description Tagged for Skeletal

Part-of-Speech Parsing )Tokens( )Tokens( • Dept. of Energy abstract 231,404 231,404 • Dow Jones Newswire stories 3,065,776 1,061,166 • Dept. of Agriculture bulletins 78,555 78,555 • Library of America texts 105,652 105,652 • MUC-3 messages 111,828 111,828 • IBM Manual sentences 89,121 89,121 • WBUR radio transcripts 11,589 11,589 • ATIS sentences 19,832 19,832 • Brown Corpus, retagged 1,172,041 1,172,041 • Total: 4,885,798 2,881,188

Page 40: דקדוקים הסתברותיים חסרי הקשר

treebankניתוח משפט בעזרת

בהינתן משפט: .POSתייג את •לכל תת סדרה של מילות המשפט, מצא תת-עץ מבנק •

העצים התואם לתת הסדרה.החלף את תת הסדרה בנונטרמינל שבשורש •

התת-עץ.חזור על התהליך כאשר נונטרמינלים מחליפים את •

חלקי המשפט שנותחו עד שהתקבל ניתוח של כל המשפט.

Page 41: דקדוקים הסתברותיים חסרי הקשר

Lexilization

מניחים שההסתברות ליצור PCFGבמודל של •מילה מסוימת תלויה רק בקטגוריה הדקדוקית

שיצרה אותה, לא במילים שמסביבה.הנחה זו אינה נכונה:•

• Jack ate the apple.

? The apple ate Jack.• Jack thanked Mary.

? Jack gave Mary.

Page 42: דקדוקים הסתברותיים חסרי הקשר

subcategorization

נחלק כל חלק דיבר לתת חלקים על-סמך •תכונות תחביריות וסמנטיות:

תכונות תחביריות:•• give is a bitransitive verb vs. thank

נחלק את קבוצת הפעלים ע"פ המשלימים •שלהם – מספרם ומילות היחס שהם מקבלים:

פעלים יוצאים )עם מושא ישיר –"את"(פעלים עומדים )שלא מקבלים "את"(

(giveפעלים עם שני מושאים ישירים )באנגלית

Page 43: דקדוקים הסתברותיים חסרי הקשר

Semantic subcategorization

נוסיף לכל שם עצם תכונות סמנטיות, לדוגמא:••Edible vs. non-edible•Animate vs. non animate,animateלכל פועל נציין אם הנושא שלו הוא •

וכו'.edibleהמושא מהיכן נקבל את הסיווג של שמות העצם לתת •

הקבוצות הללו?WordNet ,Open directoryקיימות היררכיות •

http://wordnet.princeton.edu.שמסווגות מילים))

Page 44: דקדוקים הסתברותיים חסרי הקשר

קשיים ובעיות •WordNet מחלק את המובנים למספר רב של קבוצות. החלוקה

עדינה מדי לצרכים מעשיים, מודרכת משיקולים בלשניים-מילוניים, לא מצרכים חישוביים.

החלוקה אינה חד משמעית:• את הכבשה.אכל את העשב. הזאב אכלה הכבשה

לא פותר בעיות של מטפורות:• את המסמך.אכלה מכונת הצילום

את הנאשם בלי מלח.אכלהתובע

edible לאanimate לא

Page 45: דקדוקים הסתברותיים חסרי הקשר

•Subcategorization מאפשר להבדיל בין משמעויות שונות של פעלים:

להגיע ל-)אדם( •

לעומת להגיע ל-)מקום( •

I deserveמגיע לי

Arrives at Londonמגיע ללונדון

Page 46: דקדוקים הסתברותיים חסרי הקשר

הערכת טיב המנתח

gold standardשיטת •מנתחים טקסט בדיקה באופן ידני.

ובודקים אם העץ של המנתח זהה לעץ הידני.בפועל, לגבי משפטים ארוכים, זה כמעט ולא קורה.•

)גם מנתחים אנושיים לא תמיד מסכימים(.אפשר לבדוק איזה אחוז מהצמתים זהים.•(.chunkingאפשר לבדוק את מספר הצרופים שהמנתח זיהה )•מבחינים בין•

• Recall = % gold’s brackets correctly identified• Precision = % of parser’s brackets that appear in the gold

Page 47: דקדוקים הסתברותיים חסרי הקשר

PARSEVALסטנדרט להערכת תרגומים שפיתח משרד •

ההגנה האמריקאי.crossover ו- recall , precisionסופר •

• The blue train stopped at the green train station at two O’clock

gold )1)2 )3 (3(2 )2 )3 )4 )5 )6

(6 (5 ( 4(3 )3 )4 (4 (3 (2(1

(1(2( 3) 3)2( 2( 3( 4 ( 5) 5

)5 )6 )7 (7(6 (5 (4 (3 (2(1

X

X XX

Page 48: דקדוקים הסתברותיים חסרי הקשר

PARSEVALחסרונות

לפעמים שגיאה אחת עלולה להיקנס בגדול,•לפעמים מספר שגיאות לא גורמות הרבה נזק.•אין שמות לצמתים, ועל כן, גם ניתוח שגוי עובר •

chunkingאת מבחן ה-

Page 49: דקדוקים הסתברותיים חסרי הקשר

Abney בשיטת chunkingביצוע

אין צורך לנתח ניתוח סינטקטי chunkingכדי לבצע •של כל המשפט.

שונים.chunksניתן להסתפק ב-"מומחים" להכרת •לדוגמא: מומחה להכרת מספרים, מומחה לתאריכים, •

מקומות, שמות אנשים, צרופים שמניים, צרופי יחס וכו'.

.FSTאת המומחים ניתן לתכנת בעזרת • שעובד בזמן chunker נקבל FSTע"י הרכבת כל ה-•

ליניארי.

Page 50: דקדוקים הסתברותיים חסרי הקשר

סיכום ניתוח תחבירי

משימה קשה שמידת ההצלחה בה מוגבלת.•שיטות:•

יצירה ידנית של מנתח ע"י בלשנים1.

.2PCFG

בנק עצים3.

.4Chunking בעזרת FST כדי לעדן subcategorizationניתן להשתמש ב-•

post-editorאת הדקדוק או כ-