Top Banner
ל מוֹד לוּיוֹת אָדוֹן - ד ב ע שּׂוּמוֹ י ו ת נ ב ה ל ה פ ה ית ר ב ע ה יאן ציטריןTechnion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007
135

מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

Mar 15, 2023

Download

Documents

Khang Minh
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

עבד-תלויות אדון מודל העברית השפה להבנת וישומו

ציטרין יאן

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 2: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 3: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

עבד -מודל תלויות אדון וישומו להבנת השפה העברית

חיבור על מחקר

לשם מילוי חלקי של דרישות לתואר המחשב מגיסטר למדעים במדעי

יאן ציטרין December 2006 חיפה ז" תשסטבת מכון טכנולוגי לישראל –מוגש לסנט הטכניון

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 4: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 5: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

עוזי אורנן בפקולטה למדעי המחשב' בהנחיית פרופההמחקר נעש י מודה לעוזי אורנן על הנחייתו המסורה במשך מחקר זהנא להוריי לחבריי על , אשתי תודתי לאין בכוחן של מילים להביע את תמיכתם ועידודם המתמיד

לקרן ניירס על התמיכה הכספית הנדיבה לטכניון ואני מודה בהשתלמותי

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 6: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 7: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

-אדני את-אמר יאמר העבד אהבתי את-ואם , יווהגישו אדנ: בני לא אצא חפשי-אשתי ואת המזוזה -הדלת או אל-האלהים והגישו אל-אל )ו-ה, א"כ, שמות( .ועבדו לעלם, אזנו במרצע-ורצע אדניו את

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 8: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 9: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

. . . . . . . . . . . . . . . . . . . .. . . . . . . עבד למודלים אחרים-השוואת המדל אדון 72 . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . סיכום ועבודה לעתיד 71 4.3 . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . הערכת המודל 67 4.2 . . . . . . . . . . . . . . . . . .. . . . . . . . . . .. . . . . . . . . . .. . . . . . . יישום המודל 64 4.1 . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . משמעות-האלגוריתם למציאת עצי 58 . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . ת עצי משמעות בגרף מבע מציא 58 3.4 . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . יצירת הקשתות בגרף מבע 49 3.3 . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . חוקי הסתגלות 48 3.2 . . . . . . . . . . ... . . . . . . . . . . . . . . . . . . . .. . . . . . . מילון גרעינים סמנטיים 38 3.1 . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . סקירה של תהליך יצירת גרף מבע 35 . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .הכושר הלשוני ובניית גרף מבע 35 2.6 . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . עבד-שני שלבי ההבנה במודל אדון 32 2.5 . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . תלותקשתות 23 2.4 . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . גרעינים סמנטיים 18 2.3 . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .עבד-אבני הבניה של המודל אדון U-Graph( . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . 2.2 18(גרף מבע 2.1 15 . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . )M-Tree(עץ משמעות 13 . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . .. . . . . . . . . . . . עבד-סקירת המודל אדון 12 1.4 . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . . מבנה החיבור 11 1.3 . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .התוצאות שהושגו 10 1.2 . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . . מטרת העבודה 10 1.1 . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .המבנה התחבירי של המבע 4 . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . מבוא 4 . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . רשימת סמלים וקיצורים 3 . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . תקציר 1 תוכן ענינים . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . .. . . . . מנשקי המשתמש: 9נספח 99 . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . המודולים העיקריים של התוכנית: 8נספח 98 . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . דוגמה של עץ משמעות:7נספח 97 . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . דוגמה של גרף מבע: 6נספח 95 . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . פורמטים של הניתוח המורפולוגי: 5נספח 92 . . . . . . . . . . .. . . . . . . . . . . . . . . . .. . . . . דוגמאות ממאגר הכושר הלשוני: 4נספח 89 . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . קטגוריאליות-היררכיות תת: 3נספח 86 . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . אוסף מילים מקורפוס המחקר: 2נספח 83 . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . התעתיק הלטיני: 1נספח 82 5.3 . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . עבד-שים מעשיים במודל אדוןשימו 80 5.2 . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . כיווני מחקר עתידיים 78 5.1

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 10: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

)המשך(תוכן העניינים . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . )באנגלית(תקציר i. . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . מקורות 110 . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . .. . . . . אוסף משפטים וניתוחם: 11נספח 106 . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . עבד-מתייג מבוסס מודל אדון: 10נספח 105

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 11: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

3.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . קשתות תלות של גרעין פעלי בגרעין שמני 56 3.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . קשתות תלות של גרעין שמני בגרעין פעלי 54 3.13 . . . . . . . . . . . . . פעלי) ב(; שמני) א: (קשתות תלות בין גרעיני שימוש לגרעני התוכן 54 3.12 . . . . . .. . . . . . . . . . . . . . . . . . . . . פעלי) ב(; שמני) א: (צירופים של גרעיני שימוש 53 3.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . שלוש רמות של קשתות תלות 50 3.10 . . . . . . . . . . . . . . . . . וסית ברעבד- פונקציונליות של גרעיני שימוש במודל אדון-רב 48 3.9 . . . . . . . . . . . . . . ברוסית עבד-סימטריות של גרעינים פעליים ושמניים במודל אדון 47 3.8 . . . . . . . . . . . . . . . . . . . . . . . . ברוסית שיכולה לתאר פועל ושם בו זמניתתכונית 45 3.7 . . . . . . . . . . . ברוסית Measureקטגוריה -משמעות של שמות בעלי תת-דוגמה לרב 44 3.6 . . . . . . .. . . . . . . . . . . . . . . . . . . . . ברוסית גרעין קונספטואלי וגרעין פונקציונלי 39 3.5 . . . . . . .. . . . . . . . . . . . . . . . . . . . . ברוסית האלגוריתם ליצירת קשתות גרך מבע 38 3.4 . . . . . . . . . . . . . . . . . . . . . . . . . . ברוסית האלגוריתם להסתגלות גרעיני גרף מבע 38 3.3 . . . . . . . .. . . . . . . . . . . . . . . . . . . . . ברוסית האלגוריתם ליצירת גרעיני גרף מבע 37 3.2 . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . ברוסית האלגוריתם ליצירת גרף מבע 37 3.1 . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . ברוסית סכמה של תהליך יצירת גרף מבע 36 2.9 . . . . . . . . . . השפה העבריתעבד עבור-היררכית הקטגוריות התחביריות במודל אדון 34 2.8 . . . . . . . .. . . . . . . . . . . . . . . . . . . . . ברוסית עבד-סכמת ניתוח מבע במודל אדון 33 2.7 . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . ברוסית תלויות מסדר שנידוגמאות של 31 2.6 . . . . . . . . . . . . ברוסית מרמת הגרעינם לרמת הקטגוריה התחבירית-הכללת קשת 25 2.5 . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . ברוסית ממדיות של גרעינים-תבניות דו 21 2.4 . . . . . . . . . . . . . . . ר הלשוניממדי של הכוש-מבנה פנימי של גרעינים במרחב התלת 19 2.3 . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . ברוסית המבנה התחבירי של גרף מבע 17 2.2 . . . . . . . . . . . . . . . . . . . . . . . . . ברוסית אטומים לקסיקליים וסמנטיים של תמנית 16 2.1 . . . . . . . . . .”אל אל אל תעלה כי אליך ירדו אליך“עץ שמבטא את משמעות המבע 12 1.6 . . . . . . . . . . . . . . . . ברוסית Fillmoreערבוב גישות במימושים הקיימים של מודל 9 1.5 . . . . . . . . . . . . . . . . . . . . . . ברוסית .Fillmoreקשרים שניתן לגלות בעזרת גישת 9 1.4 . . . . . . . . . . . . . . . . ברוסית מבנה מבע בשפה טבעית במונחים של דקדוקי תלויות 9 1.3 . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . סדר מרכיבים ברוסית The dog sees a cat" . . . . . . . . . . . . . . . . . . . 1.2 7"יצירת עץ הגזירה עבור המשפט 6 1.1 . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . שתי דרכים לתאר מבנה משפט 5 רשימת איורים תוך שימוש במילת ) ב(; )participle(תוך שימוש בצורה מיוחדת של הפועל ) א( :קשתות תלות של גרעין פעלי בגרעין שמני בשפה הרוסית 56 . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . котораяהשעבוד

3.16 Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 12: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

קשת עצמאית בין ) ג(; קשת מותנית בין פעלים) ב(; קשת עצמאית בין פעלים) א( :קשתות תלות בין גרעיני התוכן מאותו סוג 57 . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . קשת מותנית בין שמות) ד(; שמות

4.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . סכמת הערכת המודל 69 4.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . בחירת מנתח מורפולוגי 66 4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . עבד-דיאגראמת המודולים של הפרויקט אדון 65 4.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . עץ חיפוש במרחב תצלומי מצב 63 4.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . פעולת הצמצום 62 4.2 . . . . . . . . . . . . . . . . קוד של האלגוריתם להסקת עצי המשמעות מגרף מבע-פסאודו 61 4.1 . . . . . . . . . . . . . . . . . . . . . . . . . . סדרת צמצומי גרף מבע עד לקבלת עץ משמעות 59 3.17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . " I saw a man with a telescope" עבור המבע Masaru Tomitaמבנה תחבירי הנוצר על ידי האלגוריתם של 74

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . "I saw a man with a telescope" עבד עבור המבע -מבנה תחבירי הנוצר על ידי האלגוריתם אדון 74 5.1 5.3 . . . . . . . . . . . . . . . . . . . . . . . . . דוגמה למבנה משמעות שאינו פרויקטיבי בעברית 76 5.2

Have you been calling your"מבנה תחבירי שהיינו רוצים לקבל עכור המשפט 77 wife up? " . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .. . . . . ?"Have you been calling your wife up "המשפט בונה עכור Tapanainen- וJärvinenמבנה תחבירי שהמנתח התחבירי של 77 5.4 a.18 . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . מנשק המשתמש להגדרת תבניות קשתות a.17 102 . . . . . . . . . . . . . . וקי ההסתגלות של גרעינים סמנטייםמנשק המשתמש להגדרת ח a.16 101 . . . . . . . . . . . . . . . מנשק המשתמש להזנת תבניות של קטגוריות גרעינים סמנטיים a.15 100 . . . . . . . . . . . . . . . . . . . . . . מנשק המשתמש להזנת תבניות של גרעינים סמנטיים a.14 99 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . עבד-החבילות של הפרויקט אדון XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a.13 98-דוגמה לעץ משמעות בפורמט ה a.12 97 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . אוסף קשתות תלות של גרף מבע a.11 96 . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . אוסף גרעינים סמנטיים של גרף מבע a.10 95 . . . . . . . . . . . . . . . . . דוגמה למבנה הפרספטואלי המשמש בסיס לבניית גרף המבע a.9 94 . . . . . . "מולטיטקסט"של חברת " חדש-מולטי"דוגמה לקלט של המנתח המורפולוגי XML . . . . . . . . . . . . . . . . . . . . . a.8 92-קטגוריאלית בפורמט ה-פרגמנט של היררכיה תת XML . . . . . . . . . . . . . . . . . . . . . . . . . . . a.7 91-נית קשת תלות בפורמט הדוגמה של תב XML . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . a.6 90-דוגמה של חוק הסתגלות בפורמט ה XML . . . . . . . . . . . . . . . . . . . . .. . . . . a.5 89-דוגמה של תבנית גרעין סמנטי בפורמט ה a.4 89 . . . . . . . . . . . . . . . . . . . עבד-קטגוריאלית של המשרתים במודל אדון-היררכיה תת a.3 88 . . . . . . . . . . . . . . . . . . . . עבד-קטגוריאלית של התכוניות במודל אדון-היררכיה תת a.2 88 . . . . . . . . . . . . . . . . . . . . עבד-יאלית של שם עצם במודל אדוןקטגור-היררכיה תת a.1 87 . . . . . . . . . . . . . . . . . . . . . . . .עבד-קטגוריאלית של פועל במודל אדון-היררכיה תת 86 5.6 . . . . . . . . . . . . . . . . . . משקלות של קשתות המציינות סמיכות בסדר סבירות יורד 79 5.5

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 13: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

a.21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . עבד-מתייג מבוסס מודל אדון a.20 105 . . . . . . . . . . עבד-מנשק המשתמש לתוכנית הבנת המבע העברי מבוססת מודל אדון a.19 104 . . . . . . . . . . . . . . . . מנשק המשתמש לאכלוס של קובית הקורלציה הקונספטואלית 103

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 14: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

רשימת טבלאות a.4 . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . משרתים מעצימים של הקורפוס , תכוניות a.3 85 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . שמות הקורפוס a.2 84 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . פעלי הקורפוס a.1 83 . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . התעתיק הפונמי 82 4.1 . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . הערכת ביצועי המערכת 70 3.5 . . . . . . . . . . . .. . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . עבד -של המודל אדון במונחים קטגוריות של השפה העברית-אוסף הקשרים האפשריים שיכולים להווצר בין תת 52 3.4 . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . אוסף חוקי ההסתגלות 49 3.3 . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . קתגוריות של הקטגוריה משרת -תת 46 3.2 . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . קתגוריות של הקטגוריה תכוניות -תת 45 3.1 . . . . . . . . . . . . . . . . . . . . . . . . . עבד-י המודל אדוןהקטגוריות של השפה העברית על פ 41 2.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . תלויות מסדר שני 32 2.1 . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . ריים של השערים הסטאטוסים האפש 22

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 15: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

1

בלי לבצעההיא דוגמה קלאסית של משימה אשר בני האנוש מצליחים טבעית בשפה מבע הבנת תקציר להגדיר ראשית כל עלינו ,כדי ללמד את המחשב לבצע את המשימה הזו. באופן פורמאלילהגדירה המבנה המתקבל בגישה של דקדוקי תלויות )Phrase Structure Grammar( מבנה צירופיםדקדוק המבוססת מהגישהלהבדיל . ביניהם תלויות יחסי מסמנות וקשתותיו המבע מילות את מציינים שצמתיו כגרף מיוצג המבע מבנה אלה בדקדוקים .משותפות יסוד הנחות בעלי ופורמליזמים תתיאוריו של גדולה קבוצה כולל “תלויות דקדוק“ המושג. כזה מבנה לתאר כדי תלויות דקדוק בשם הידוע בפורמליזם ובחרנו Tesniére הצרפתיהבלשן של בעקבותיו הלכנו בעבודתנו .נתונים מסוים של מבנה במונחיםים מבע שלתיומשמעו בטאאנו צריכים ל, כלומר, ומשמעותו הבנת המבעמהם במסגרת ). Master-Slave Dependency Model( עבד-אדון בשם לו וקראנו תלויות מבוססי פורמליזמים למשפחת שייך אשר מבע בנתלהפורמאלי מודל פיתחנו שלנו המחקר במהלך .מחרוזות-נונטרמינלים עבור תת מכיל מהניתוח אינו היא כאשרלמה בהצלחה כי משימת תוכניתנו הוש לומר ניתן ולפיכך במחשב מבע של משמעות ייצוג מהווה משמעות עץ .הקונספטואליות והמבניות, המורפולוגיותהםאורתוגונאלי על פי תכונותי לפירוק ניתניםאו קשת כל גרעין .)dependencies – תלויותהמייצגות (ידי קשתות מכוונות על ים מקושרהצמתים. יות המבע פונקציונאליות אותם מבטאות תמנמילים מושגים ומסמנים העץ צמתי .)Meaning Tree( משמעות עץ נקרא אשרמבנה בתורכל מבע מנתחים פורמליזם זה אנו על מנת . משמעי-נו חדתהליך ההבנה אי, מסוגים שוניםבעמימיותהיות והבנת מבעים כרוכה ).משמעי רב מבע עבור המשמעות עצי קבוצת או ( המנותח המבעשל המשמעות עץ אתמצאה טגוריות של מילות הגרעינים הסמנטיים של השפות הטבעיות אשר מכילה חמש קשל קטגוריאלית היררכיה בנינו ועל עבודות אחרים שנעשו באותו כיוון Tesniéreבהתבסס על עבודותיו של . מבע של האפשריות המשמעויות כל את להסיק ניתן מבע מגרף). Utterance Graph (מבע גרף נקרא אשר חלופיים משמעות מבני של צמום לייצוג שמשמש מבנה גם מציעים אנוהמשמעות בצורה יעילה -לטפל ברב שקשורות קשר הדוק לשפה ( של מילים פונקציונאליות -ושלוש ) שאינן תלוית שפה(התוכן נו איהאלמנט החשוב במבע ש קבענוFillmore -ו Tesniére-מ להבדיל. אותו שמכיל המבע משמעות עבור חשיבותו עולה זו בהיררכיה יותר גבוה הגרעין קטגוריית של שמיקומה ככל. )ספציפית ליצור שלהם היכולת את, השאר בין, מתאר אשר הגרעינים של הפנימי המבנה את גם חקרנו .לנתח משפטים לא שלמים הדבר מאפשר .הבהיררכי ביותר הגבוהה ההקטגוריבעל שהוא גרעין כל אלא חייב להיות הפועלTechnion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 16: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

2

) adaptation( הסתגלותתופעה זו במונחים של תיארנו .תחביריות-המורפו בתכונותיו תלויה להיות יכולה גרעין של ערכיות כי הסתבר. קטגוריאלית בהיררכיה יותר נמוכים גרעינים עם קשרים ליצור) תארים ואף מילים פונקציונאליות, שמות(גרעינים בעלי קטגוריות אחרות של היכולת את לתאר כדי גם אלא ,)פעולהה שם כמו (ממנו הנגזרות הקטגוריות-ותת הפעלים בשביל רק לא הערכיות במושג והשתמשנ. שלהם) valency (הערכיות את כלומר, אחרים גרעינים עם קשרים -אדון מסוג תלויות ליצירת חוקים ניסחנו. לניתוח מקבילי ומבוזר של מאגרי נתונים טקסטואלייםהפורמליזם שאנו מציעים מהווה תשתית נוחה . שלהם ביצועים הערכת ועשינו האלגוריתמים של התיאורטית הסיבוכיות את ניתחנו. אותם ומימשנו שלב לכל גוריתמיםאל פיתחנו . במבע הגרעינים של הליניארי הסדר לפי ולא שבנינו ההיררכיה פי על נעשה) השני בשלב (וניתוחן) הראשון בשלב (הגרף קשתות בניית כי לציין יש .שבתוכו המשמעות עצי כל את מוצאים המבע גרף סמך על – המשמעות עצי הסקת .2 .האלה הגרעינים בין האפשריים הקשרים כל את ובונים לבטא יכולה שהיא הגרעינים אוסף את אנו מוצאים במבע תמנית כל עבור – המבע גרף בניית .1 :שלבים בשני מתבצעת שלנו במודל המבע הבנת . לתנאי הסביבה של המבע המנותחהגרעין , רוסית ,אנגלית, עברית(רבות בשפות דוגמאות מוצגות בעבודה. מתויגים ידע מאגרי סמך על אוטומטי באופן כאלה חוקים לקבלת שיטה גם מציעים אנו. יתהעבר השפה של פרגמנט עבור עבד .אוטומטי תרגוםו, מערכות דיאלוג, סיכום תמלילים, מתמליליםחילוץ מידע , גדולים נתונים במאגרי חיפוש כגון, טביעות שפות עיבוד של קלאסיות בעיות לפתרון שפיתחנו במודל לשימושים באפשרות גם דנים אנו. להם מייחס שהמנתח המשמעות ומבני )פולנית ועוד, גרמנית

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 17: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

3

VP פועליףצירו S Verbal Phrase משפט PP Sentence צירוף יחס NP Prepositional Phrase צירוף שמני VF Noun Phrase משרת פועלי VA Verbal Servant תכונית פעלית V Verbal Attribute לפוע NF Verb משרת שמני NA Nominal Servant תכונית שמנית N Nominal Attribute שם I Noun מעצים F Intensifier משרת A Servant תכונית UGraph Attribute גרף מבע SPACE Utterance Graph מרחב הכושר הלשוני SDG Structural-Conceptual-Perceptual Space גרף תלויות תחביריות SA Syntactic Dependency Graph אטום סמנטי MTree Semantic Atom עץ משמעות MOLECULE Meaning Tree יחדת משמעות LA Morphological Lexical Conceptual Entity אטום לקסיקלי CS-Plane Lexical Atom סטרוקטוראלי-המישור הקונספטואלי CCC Conceptual-Structural Plane קוביית ההתאמה הסמנטית PSG Conceptual Correlation Cube דקדוק מבנה צירופים PCFG Phrase Structure Grammar דקדוק חסר הקשר הסתברותי MSDM Probabilistic Context-Free Grammar עבד-מודל תלויות אדון MSC Master-Slave Dependency Model עבד-כושר לשוני מבוסס מודל אדון LFG Master-Slave Model Based Competence פונקציונאלי-דקדוק לקסיקלי HPSG Lexical Functional Grammar מכוון גרעיןדקדוק מבנה צירופים FSM Head-Driven Phrase Structure Grammar סופית מצביםמערכת DG Finite State Machine דקדוק תלויות CG Dependency Grammar דקדוק יחסות CFG Case Grammar דקדוק חסר הקשר Context-Free Grammar רשימת סמלים וקיצוריםTechnion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 18: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

4

; נשמתא דחיי, ונפח באפוהי, עפרא מן ארעא, אלוהים ית אדם' וברא ה מבוא: 1פרק , ]bühler34[, ]tesniére59([ משמעות שפות טבעיות ברמות שונות ייצוגלפתח מודלים ל התחילו הבלשנים מת של המאה הקודשלושיםהכבר החל משנות . הכתובים בשפה טבעיתמשפטים של) מציאת משמעות, כלומר(ה הבנשים יישומים רבים בתחום עבוד שפות טבעיות דור In principio erat Verbum et Verbum erat apud Deum et Deus erat Verbum.1 John, 1:1 ז , ב, )תרגום אונקלוס(בראשית .ממללאלרוח , באדם והות ]melčuk65[,] fillmore68[,] shank70[ ,]miller90[.( יאת משמעות המודל המקובל למצ הבנה של טקסט בשפה טבעית מורכבת זה לדלפי מו. המודל הסדרתיהמבעים ברוב המערכות הוא משפטים תוך שימוש ו םנה לפיו מצטרפות המילים לצירופי שמטרתו הבנת המב- ניתוח תחבירי ;בהן שמטרתו זיהוי המילים בטקסט ואיסוף כל המידע הלקסיקלי והדקדוקי הטמון - ניתוח מורפולוגי :מארבעה רבדים תוך פתרון , שמטרתו לייחס למבעים משמעות מתוך עולם כלשהו של משמעויות– ניתוח סמנטי ;במידע המורפולוגי שנאסף בשלב הקודם בעזרת מידע על משמעויות המילים וידע כללי על , בעיות של ריבוי משמעות שנוצרו בשלב הקודם עיות נוספות שאינן בתחומי הסמנטיקה וזו לא יכולה לטפל שמטרתו לפתור ב– יניתוח פרגמאט ;העולם מציאת מבנה , כלומר, הניתוח התחביריאחד השלבים החשובים במציאת משמעות המשפט הוא המבנה התחבירי של המבע 1.1 .והסביבה, הקהל, הדובר, תוך שימוש בידע על ההקשר, בהן ).1.1איור ( כזהם כדי לייצג מבנה חוקרי תורת התחביר מציעים שתי דרכי .שעומד מאחוריו

1 In the beginning was the Word, and the Word was with God, and the Word was God. Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 19: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

5

אותם ניתן לחלק למרכיבים ) וכדומהNP ,VP(על ידי חלוקת המבע למרכיבים תיאורטיים • .Figure 1.1: Two approaches to the utterance structure .שתי דרכים לתאר מבנה משפט: 1.1 איור חים במקרה זה המנתח המורפולוגי מפיק לכל תמנית המשפט את כל הניתו. 3מילים כאשר כל תמנית במשפט יכולה לציין מספר – לקסיקליתאטומית או משמעות -רב • :כרוכה בשתי בעיותנה מציאת מב.האלה ניתן לראות את הניתוחים המקבילים על פי הגישות ])covington90[-שמקורו ב( 1.1באיור .The dog sees a cat )1.1( :כדי להדגים גישות אלה נתבונן במשפט הבא .2 )dependency grammar ,DG – דקדוק תלויות (במרכיביםאו על ידי מציאת קשרים בין מילים בודדות ללא שימוש • . 1 )phrase structure grammar ,PSG –דקדוק מבנה צירופים (יב הקטן ביותר המכיל רק ערך מילוני קטנים יותר עד המרכ . והמנתח התחבירי מפיק מספר מבנים עבור המשפט המנותחיותר ממבנה אחד כאשר למשפט על פי הדקדוק ניתן להתאים – סטרוקטורליתאו משמעות מבנית -רב • .האפשריים .)[levinger92] על יסוד העבודה של לוינגר, ]ornan02[ראו ( מילים שלוש בשפה העברית כל תמנית בממוצע יכולה לציין 3 . המיליםמתחתזה מתואר בכתוב 2 .םזה מתואר בכתוב מעל המילי 1

S = The dog sees the cat

NP = The dog VP = sees the cat

NP = the cat

det: The n: dog v: sees n: catdet: the

det subj det

obj

S = The dog sees the cat

NP = The dog VP = sees the cat

NP = the cat

det: The n: dog v: sees n: catdet: the

det subj det

obj

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 20: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

6

התרכזו חוקרי התחביר ]) Chomsky] ) chomsky57[ ,]chomsky65מאז העבודות של מבנה צירופיםידקדוק 1.1.1 . ])kasami65[ ,]earley70[ ,]tomita87[(האנגלית במיוחד לשפה דוקי מבנה צירופיםבפיתוח דק , Context Free Grammar(הקשר חסריקדוקים כד )אומנם בקירוב (לתאר קל דקדוקים אלה CFG .( עבור הדקדוקים האלה ידועים אלגוריתמי ניתוח פשוטים ויעילים)למשל, ראו , ]hopcroft79.([ יתמים האלההאלגור ) שנקראים bottom-up parsing/shift-reduce ( מכניסים כלל גזירה מתאים כדי מפעילים –את מילות המבע למחסנית אחת אחרי השניה וברגע מסוים איור ( שבראש המחסנית במשתנה התיאורטי המופיע בצד השמאלי של הכלל המשתניםלהחליף את .)1.1איור (המשפט המנותח של עץ גזירה ובצורה כזאת יוצרים)1.2תמשת שמש ניתוחטכניקתהוצעה , באופן יעיל המבניתמשמעותה-מנת להתגבר על רבעל ."The dog sees a cat." Figure 1.2: Creation of derivation tree for the sentence "The dog sees a cat"יצירת עץ הגזירה עבור המשפט : 1.2איור שנקראים ( כדי לאחסן מבנים חלופיים )tree-structured stack מתוך [tomita87]( עץ-במחסנית chart parsing(. בלשנים רבים נעזרו בטכניקה זו בעבודותיהם . במקביל בצורה כזאת ניתן למצוא את כל המבנים האלטרנטיביים של המשפט המנותח])arnold90[ ,]carpenter99[ ,]kay96[ , ]lohuizen01[ ,]noord03[.( תה דקדוקים מבוססי והבעיה שאPSGהיא בכך שבשפות רבות , לפתור בקלות אינם יכולים Меня долговременное в российском слове упражнение в том уверяет. 1 (1.2) .1.3איור חלק העליון של הלראות ב ניתן 1.2 המשפט מבנה שלה את,לדוגמא. מאפשרת לנסח משפטים בעלי סדר מרכיבים חופשי למדי יחסות מאוד מורכבת מערכת שפה הרוסיתב, למשל. צירופים דקדוקיים לא רציפים קיימים

]).lomonosov57[מתוך (התרגול הממושך במשפט הרוסי משכנע אותי בכך 1

the

dogNP-> det n

cat

sees

a

S-> NP VP

NP-> det n

VP-> v NP

NP NP

sees

NP

NP

sees

NP

NP

VP

NP

VPS

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 21: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

7

החוקרים שעובדים על . 1 נותנים מענה לבעית המרכיבים הלא רציפיםססי תלויותמודלים מבו תלויות ידקדוק Figure 1.3: Word order in Russian. 1.1.2 . סדר מרכיבים ברוסית :1.3 איור מכוונות בין , מציעים לתאר מבנה תחבירי על ידי אוסף של קשתות מישוריותמודלים כאלה פי יוצאת קשת אחת בדיוק שמחברת , פרט לשורשו, מכל מילה במבנה זה. שמהווה עץ, מילות המבע , ]arnola98[ ,]bogus00[ ,]covington90[ ,]courtin98[ ,]hays64([ אותה עם מילה אחרת ]hudson00[ ,]järvinen97[ ,]lombardo92[ ,]melčuk88[ ,]obrebski03[ ,]schank70[ , ]schneider03[ ,]tesniére59[( . צורת ניתוח מאפשרת לטפל בצירופים שמרכיביהם נמצאים רחוק ראו את מבנה התלויות בחלק התחתון של האיור (רבאופן יעיל יות אחד מהשני במשפט המנותח 1.3(. ].covington90[ -ניתן למצוא ב" חופשיות סדר"י תלויות לניתוח שפות דיון מעמיק בנוגע ליתרונות של שימוש בדקדוק 1

Меняאותי долговременноеממושך вב- российскомרוסי словеמשפט упражнениеתרגול томכךвב- уверяетמשכנעattributeattribute constr funcfunc indir_objobj subjNP PP

PPtopic

NPsubj

NPdir_obj

Vpred

S

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 22: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

8

למציאת מבנה גישה אחרת ) ]fillmore68[-ב(הציע Charles Fillmoreהבלשן האמריקני ניתוח סמנטי1.1.3 דקדוק ). Case Grammar( היחסותדקדוק נקראת ש ,שאינה מתבססת על סדר הצירופים במשפט יחסים של . של צירופים שמניים ביחס לפועל המשפטים סמנטייםכזה מאפשר למצוא תפקיד או , או החומר המסייע לפעולה, המכשיר המשתתף בפעולה – )INSTRUMENT (מכשיר • ; משתנה בעקבותיהאמי שהפעולה מכוונת אליו והו – )PATIENT (מופעל • ;מי שפועל מתוך יוזמה – )AGENT(ם פוז • :כגוןסמנטיים ניתן לתאר במונחים של תפקידים )predicate( לפועל המשפט )arguments( צירופים כאלה השתמשו במודל ]) atserias99[ ,]greg99[ ,]tal01[ ,]ornan02[ ,]gutter03([מספר חוקרים .וכדומה; סייעתהמהפעולה Fillmoreהם מתארים את תהליך הניתוח של . על מנת לנתח משפטים בשפות טבעיות שונות כך . שבאופן מדויק יותר משקף את המציאות אותה מתאר המשפט של משפט)deep structure( עמוקהבנמ בעזרתה ניתן למצוא .)semantic parsing (ניתוח סמנטי ידועה בשם טכניקה זו .1ם שנמצאו בשלב מרכיבימציאת התפקידים התמטיים של כל אחד מה .2 ;שמשמשים כמשלימים תמאטיים לפועל המשפט מציאת צירופים שמניים .1 :בעבודות הללו הניתוח מתבצע בשני שלבים . במונחים של תפקידים של מרכיבי המשפט ביחס לפועל המשפטאת התפקידים התמטיים ניתן לתאר . המשפטמרכיביהתפקידים התמטיים של משפט כמציאת .1.1 זהה לזה של1.3ה העמוק של המשפט נהמב )1.3( A cat is seen by the dog. בטכניקות שונות כדי למצוא את גישת ניתוח זו היא שמשתמשים המאפיינותהנקודות אחת נדגים את הרעיון . ולתת להם אינטרפרטציה סמנטית )הצירופים השמניים(המרכיבים הבסיסיים .1.4חים של דקדוקי תלויות בעזרת המבנה המצויר באיור ניתן לייצג במונ1.4 את משמעות המבע . לאמאמענין נתן ספר חכם ילד (1.4) :בעזרת דוגמה

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 23: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

9

Figure .מבנה מבע בשפה טבעית במונחים של דקדוקי תלויות: 1.4איור 1.4 : An utterance structure in the terms of the Dependency Grammar. קשרים שניתן לגלות בעזרת גישת :1.5איורFillmore. Figure 1.5 : Relations that can be revealed with the Fillmore approach only. Fillmore. Figure ערבוב גישות במימושים הקיימים של מודל :1.6איור 1.6 : Mixing approaches in the existing implementations of the Fillmore model.

AGENT PATIENTverbנתן RECIPIENTnounילד adjחכםNP1 NP2nounספר adjמענין NP3 adjאמאprepל-AGENT PATIENTverbנתן RECIPIENTnounילד adjחכםNP1 NP2nounספר adjמענין NP3 adjאמאprepל-

AGENT PATIENTnounילד adjחכם verbנתן nounספר adjמענין adjאמאprepל-RECIPIENT FUNCAGENT PATIENTnounילד adjחכם verbנתן nounספר adjמענין adjאמאprepל-RECIPIENT FUNCAGENT PATIENTATTRnounילד adjחכם verbנתן nounספר adjמענין adjאמאprepל-RECIPIENT FUNCATTRAGENT PATIENTATTRnounילד adjחכם verbנתן nounספר adjמענין adjאמאprepל-RECIPIENT FUNCATTR

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 24: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

10

, אינטרפרטציה הסמנטיתבשלב של ה, ואז. המתפקדים כארגומנטים הסמנטיים של הפועלובצורה כזאת מוצאים את הצירופים השמניים ) במונחים של דקדוק מבנה צירופים(התחבירי על מנת למצוא את המבנה התחבירי עבור המשפט כולו במערכות האלה קודם מפעילים את הידע יחד עם ) למילות היחס הנדרשות על ידי הפועל וכדומהPP -התאמת מילת היחס של ה, הפועל לבין NP- של ההתכוניותהתאמה בין , כגון(מתייחסים לתכונות התחביריות של הצירופים שנמצאו כפי , 1.4 למשל בדוגמה. להתייחס באופן זהה לכל סוגי הקשרים האפשריים בין המילים .1 :אחת המטרות העיקריות של עבודתנו זו היא לספק פרדיגמת ניתוח אשר תאפשר מטרת העבודה 1.2 ).1.6ראו (התכונות הסמנטיות שלהם כדי לחבר את הצירופים האלה עם הפועל בדיוק , נתן הפועל שלAGENT את הארגומנט מסוג ילד שפרדיגמת הניתוח רואה בשם עצם הן תחבירי , הן מורפולוגי(להפריד באופן מוחלט בין אלגוריתם הניתוח לבין כל סוגי הידע .ATTRIBUTE . 2הוא שהסוג של הארגומנט הוא כאשר ההבדל היחיד ילדכעל הארגומנט של השם חכם תכל על התוארבאותו אופן היא תס משתמש בשיטת ויות לבין הניתוח הסמנטיתלועל ניתוח המבוסס ה בין גשרמפורמליזם זה .1שישמשו לצורך הניתוח) והן סמנטי chart parsingמשום . מבעים בשפה העברית שליםמייצגת מבנ זה נבנה מערכת אשרניתוח בהתבסס על מודל .משמעות- רבתוך ייצוגהמשפט ל שלי יע על מנת לבצע ניתוח במונחיו ניתן לבטא משמעויות מבעים בעזרת מבנים ש מודל בנינוכתוצאה מעבודה זו התוצאות שהושגו 1.3 . מספר מבנים כאלהייתכנו, משמעית-טבעית היא רבשכל שפה מאגר כושר בנינו . למצוא מבנים כאלההמאפשרת שיטה הצענופורמליים המובנים למחשב וגם את לבחון את איכות המבנים המתקבלים מהניתוח האוטומטי ולהעריך ועדו ם שנימספר ניסוי יישמנו את האלגוריתם שפיתחנו וערכנו .עבור תחום מוגבל של המציאותבמונחי המודל הזה לשוני .גוריתםהאל ועיצבי ]).hutchins92[ של 3.2פרק , למשל, ראו( על חשיבותה של הפרדה זו כתבו חוקרים רבים 1

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 25: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

11

והן הן מבחינת היקף הכושר הלשוני , נתאר הרחבות אפשריות נוספות של עבודה זובסיכום . עבור אוסף קטן של משפטיםעבד-אדוןידגים את הביצועים של המודל ו Javaתכנות של העקרונות המתוארים בפרקים הקודמים לו בשפת ציההאימפלמנט יתאר את 4פרק המשך .נדבר בהרחבה על כל אחד מהשלבים הללו 4- ו3 אשר מבצע ניתוח מבעים בשני שלבים ובפרקיםעבד-אדוןאת המודל נציג הבאבפרק מבנה החיבור 1.4 חלק .כת שבנינו במערכות כוללות יותרמהבחינה האלגוריתמים וכן אפשרויות של שילובה של המער ודוגמאות של מבנים המתקבלים מהניתוח , מהכושר הלשוני שבנינו שישמש את מערכת הניתוח . יפורטו בנספחיםבשלביו השונים

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 26: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

12

.Среди рабов нельзя быть свободным. Это верно, так не лучше ли быть самым свободным среди рабов?1 Julian Semenov, 17 Moments in Spring עבד-אדוןסקירת המודל : 2פרק שתמנית זו ) רעין סמנטיג(לבחור מושג של המבע המנותח תמניותהלכל .א (2.1) :היא כדלהלן עבד-אדוןמטרת המודל כל כאשר,)א(-נבחרו בש בין הגרעינים למצוא קבוצת קשרים בינאריים .ב ;מציינת האדון-העבד ביחס לגרעין- של גרעיןסמנטייוגדר תפקיד לכל קשת . אדון-עבד לגרעין-בין גרעין תמחברה מתואר על ידי קשתקשר

ה שמבטא את משמעות המבע אוסף של גרעינים וקשתות כאלה ביחד מתארים את המבנ .2.1נחפש מבנה כגון זה שמיוצג באיור 2.2עבור המבע , למשל .המנותח

“ Figure 2.1: A tree representing the meaning of the sentence .”ירדו אליך אליך כי תעלה אל אל אל“ בטא את משמעות המבעמעץ ש: 2.1איור .ירדו אליך אליך כי תעלה אל אל אל ”. ? אולי עדיף להיות החופשי ביותר בין העבדים, בקרב עבדים אי אפשר להיות חופשי1

NFUNCroot תעלה ירדואלאלאל אליך אתהכי TARGETVFUNCCAUSEVFUNCAGENTTARGET NFUNCאל NFUNCroot תעלה ירדואלאלאל אליך אתהכי TARGETVFUNCCAUSEVFUNCAGENTTARGET NFUNCאלTechnion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 27: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

13

),,( )2.3( הגדרתו של עץ משמעות להלן ).M-Tree או Meaning Treeבאנגלית ( משמעות -עץלמבנים כאלה אנו נקרא בשם )M-Tree(עץ משמעות 2.1 .ירדו אליך אליך כי תעלה אל אל אל )2.2( ENRNMTree ∈= אשר מתאים לכניסה במילון (כל צומת מציין גרעין סמנטי , צמתי העץאוסף -N ,כאשר )מושגים

NR ,עץ המשמעותשל שמציין את השורשrootמת מיוחד בשם וצ -∋E- 2.4( כל קשת היא שלשה. העץ צמתיבין ) מכווונות(תלות סף קשתותאו( SrNnNnrnne ∈∈∈= ,,:),,( 2121 כאן הגרף מ; אחת יוצאת קשת) פרט לשורש(מכל צמת היא קבוצת קשתות מכוונות כאשר E .טיפוסה הסמנטי לכל קשת מוגדרת תווית המציינת את . ותחבירייםאוסף של תפקידים סמנטיים -Sכאשר בדיוק כמו , )אטומיות וגרעיניות(יחידת משמעות כזאת מורכבת מיחידות קטנות יותר .1 :יש לכך שני טעמים . מולקולה בשםליחידות כאלה אנו קוראים . כל עץ כזה מהווה יחידת משמעות בסיסית בשפה טבעית .כשקשתותיות מכוונות מעלים אל השורש, עץהוא .MORHOLOGICAL LEXICAL CONCEPTUAL ENTITY של קיצורזהו .2 ,כבת מאטומים וגרעינים פיזית מורשמולקולה

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 28: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

14

),)()()()()(( )2.5( תכונות של עץ משמעות2.1.1 jijiji natomnatomntokenntokennn =⇒=∀ :Acyclic )2.6( .רק אטום משמעות אחד מכל תמנית יכול להופיע בעץ המשמעות, כלומר )(),(

*

ijjiji nnnnnn →∧→¬∀ :Connected )2.7( .אף גרעין אינו יכול להיות עבד של עצמו, כלומר, תלות מעגלית בין הצמתיםאין , כלומר rootnn ii

*

)( →⇒∀ השורש הוא אדון , כלומר, קיים מסלול אחד ויחיד בין צמת עץ כלשהו לבין שורש העץ, כלומר .טרנזיטיבי של כולם )2.8( Single Master:

kjikijkji nnnnnnnnn =⇒→∧→∀ )(:,, :Single Same Role Slave )2.9( . גרעינים סמנטיים וקשתות תלות- עבד-אדוןכעת נעבור לתיאור אבני הבניה של המודל .כל עבד בבעלות אדון אחד בלבד, כלומר, כל צמת בעץ תלוי לכל היותר בצמת אחד, כלומר

kjkiji nnrerolennererolenne =⇒=′′′′∃∧=′′∃ ))(:),(())(:),(( .לכל היותר עבד אחד מאותו סוגכל צמת בעץ יכול להיות ל, כלומר

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 29: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

15

שיטת נעזרנו ב בצורה יעילהוהמבנית ) מורפולוגית(המשמעות האטומית - רבלהתמודד עם כדי chart parsing ])carpenter99[ ,]kay96[ ,]lohuizen01[ ,]noord03([, את שמאפשרת לחפש ),,,( )2.10( ,יבאופן פורמאל )U-Graph(גרף מבע 2.2 .מבע של האפשריות המשמעויות כל את להסיק ניתן מבע מגרף). Utterance Graph (מבע גרף אנו קוראים בשם חלופיים משמעות מבני של צמום וגלייצ שמשמשלמבנה .כל המבנים האלטרנטיביים של המשפט המנותח במקביל CENrNUGraph ′′∈′= N ,כאשר . המנותח שניתן לבטא על ידי תמניות המבע )סמנטיים גרעינים( קבוצת צמתים -′ אוסף צמתי גרף מבע מכיל את אוסף צמתים של כל עץ . כל תמנית יכולה לבטא יותר מגרעין אחד .משמעות של אותו המבע

E . שמציינות תלויות בין גרעינים ונבנות על סמך מידע מאגר הידע הלשוניקשתותקבוצת -′ .וסף קשתות גרף מבע מכיל את אוסף קשתות של כל עץ משמעות של אותו המבעאr- זהה לשורש עץ המשמעות( הוא השורש של גרף המבע(;

C- צמתי גרף מבע 2.2.1 .)בהמשך פרק זה (כגון תלוית מסדר שני אוסף של אילוצי הניתוח ). כניסה במילון קונספטואלי(גרעין סמנטי אשר מציין מושג הוא עבד-אדוןדל אבן הבניה במו רופים תמנית יכולה לבטא מספר ציכל ) במיוחדבכתב העברי ו(בשפות טבעיות באופן כללי .מנותח את צמתי גרף המבע על מנת ליצור מאוסף תמניות של מבע נעזרנו במנתחים מורפולוגיים ובנינו מילון קונספטואלי האטום , כאשר לפחות אחת הלקסמות של אטום לקסיקלי יכולה לבטא מספר גרעינים סמנטיים .)lexical atom (לקסיקלי אטום לשרשרת כזאת אנו קוראים בשם .של לקסמות) או שרשראות( פירושו של אטום סמנטי הוא . )semantic atom( אטומים סמנטייםהלקסיקלי מתמפה למספר אשר מצוינים יחדיו על ידי איזושהי תמנית ואף , של מספר גרעינים סמנטיים)או שרשרת (צירוף לקסיקלי או (במידה ותמנית מתאימה ליותר מאטום .מופיעים יחדיו באיזושהי משמעות של המבע רק אטום אחד מתוך קבוצת , כמובן. אלטרנטיבייםהאטומים נקראים אטומים , אחד) סמנטי משום שכל תמנית יכולה לציין משמעות , טרנטיביים יכול להופיע במשמעות המבעאטומים אל בין משמעית את מיקומו של הגרעין -לכל גרעין בגרף מבע מוגדר מזהה אשר קובע בצורה חד ).2.4 איור(אחת בלבד

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 30: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

16

שיכולים להתמפות האטומים הגרעין בקרב כל מכיל אתשהסמנטי אטום האינדקס • ;ת הגרעיןשמכילה את הלקסמה שמציינת אתמנית אינדקס ה • :מזהה כזה מורכב משלושה פרמטרים. שאר צמתי הגרף . הסמנטיאטום האינדקס שמציין את מיקומו של הגרעין בתוך • ; לתמנית

.Figure 2.2: Lexical and semantic atoms of a token .אטומים לקסיקליים וסמנטיים של תמנית: 2.2איור

שתעלה מורפולוגימנתח מורפולוגימנתח תעלה-ש העלה-ש עלה-שV-RISEעלה V-COSTעלה V-RISEעלה V-COSTעלה COMPLכיRELאשרCOMPLכיRELאשר X =

V-RISEעלה V-COSTעלה COMPLכיRELאשר V-RISEעלה V-COSTעלה COMPLכיRELאשר מאגר הנתוניםשל הדריבר עלה-ש

)א()ב(

תמנית אטום סמנט אטום לקסיקלי גרעין סמנטי) אטום משמעות(

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 31: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

17

)2.11( ))()()()()(:,( jijijiji natomnatomntokenntokennnnn =⇒=→∀ או , אם בין שני גרעינים קיימת קשת אז או שהם מבוטאים על ידי תמניות שונות, כלומר . האטום הסמנטי שלוnatom)( - התמנית שמציינת את הגרעין ו- ntoken)(כאשר קשתות גרף מבע 2.2.2 .הם שייכים לאטומי משמעות שונים) ותה תמניתכשהם מבוטאים על ידי א(המבנה התחבירי . מתקיימים) הקונספטואליים ואילוצי הסדר, המורפולוגיים(כאשר כל האילוצים הלשוני בין תבניות הגרעינים ישנן תבניות של קשתות תלות שעשויות להתממש למעשה במבע בכושר . משמעי של המבע- המבנה התחבירי מכיל את התיאור התחבירי הרבעבד-אדוןבמודל ).2.3איור ( של גרף מבע מכיל את האוסף של קשתות פוטנציאליות כאלה

. .Figure 2.3: The Syntactic structure of a UGraph . המבנה התחבירי של גרף מבע:2.3איור

ROOTVF-DONOT0NF-TO0N-GOD0V-RISE(F-2M)V-COST(F-2M)V-RAISE(F-2M)N-TRENCHVF-DONOT1NF-TO1N-GOD1 VF-DONOT2NF-TO2N-GOD2

DONOT2

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 32: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

18

לישויות אלה שלושה . הם גרעינים סמנטיים ותלויות קשרעבד-אדוןאבני הבנייה של המודל עבד-אדון של המודלאבני הבניה 2.3 יחידות את היכולת של ות מתאר-) structural, ותסטרוקטורלי (ותמבניההתכונות .3 .הקונספטואליות שקיימות בשפה ולמערכת הקשרים ביניהן למשמעויות ותמתייחס – )conceptual, ותקונספטואלי (ותהמשגיהתכונות .2 .וכדומה) ASCII-מחרוזות בקוד ה, למשל(מילים אותו המחשב מסוגל לקרוא של יייצוג פורמאל, תמונות של מילים, כגון גלי קול, כושר הלשוניהשל החיצונית התגשמות לותמתייחס –) perceptual, ותספטואלירפ (ותתפיסתיה התכונות .1 :סוגי תכונות קשרים ביחידות גדולות יותר שהן חוקיות מבחינת ביניהן ליצור קטנות של משמעות צורת הופעתה הפנימית של היחידה ובבסטרוקטורה היכולת הזאת תלויה .השפה לכל גרעין . ארים יחידות משמעות בסיסיות של שפה טבעיתמת) 2.4איור ( גרעינים סמנטיים גרעינים סמנטיים 2.4 .ביחידה הגדולה קונספטואלית , )מתייחס למראה החיצוני של הגרעין ומיקומו במבע(תכונות פרספטואליות שמתאר את ( וסטרוקטוראלית) המזהה של המושג במילון הקונספטואלי אותו מתאר הגרעין( ומציין אם קשר כזה הוא חיוני לתקינות 1היכולת של הגרעין ליצור קשרים עם גרעיני מבע אחרים העיגולים הקטנים מסביב . שני העיגולים הגדולים מציינים את הגרעינים". תעלה"על ידי התמנית 2.2המבוטאים במבע ) פועלי ושמני(ניתן לראות תמונות של שני גרעינים סמנטיים 2.4באיור .). המבע או תכונות מורפולוגיות של גרעינים אחרים שעשויים ) אם הצורה נמצאת בתוך הגרעין(הגרעין בתוך הגרעינים ניתן לראות גם צורות סגלגלות אשר בתוכן מצוינות תכונות מורפולוגיות של . ניסות לקשרים אל הגרעין מגרעינים אחריםמציינים כ) אשר נקראים בשם שערים(לכל גרעין כפי . של גרעין פועלי ולגרעין שמנילאבסטרקציה אנו מתייחסים באותו אופן עבד-אדוןבמודל ). שערואיזשהאם הצורה נמצאת בצמוד ל(ליצור איתו קשר במבנה המשמעות , מספר ומהות השערים, אך כמובן. זה נכון גם עבור סוגים אחרים של גרעינים, שנראה בהמשך . בדומה לתכונות הפנימיות של הגרעינים שונים מגרעין לגרעין ]). bühler34[ ,]tesniére59[ראו (Valency Frameיכולת זו ידועה בבלשנות בשם 1

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 33: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

19

הן באחסון הנתונים (ופרדו עד כמה שניתן ה) סוגי תלויות שונים שלו(רכיבי הגרעין .1 : הבאיםעקרונותההגרעין תוך שמירה על תבנית לקבוע פורמט עבור המבנה הפנימי שלהשתדלנו. המבע המנותח על הכושר הלשוני של המודל כדי למפות את תמניות עבד-אדוןתבניות הגרעין משמשות את אלגוריתם הניתוח של המודל של גרעינים סמנטייםתבניות Figure 2.4: The nuclei’s internal structure. 2.4.1 .ממדי של הכושר הלשוני-מבנה פנימי של גרעינים במרחב התלת: 2.4איור אבסטראקציה של מימשנו על ידי )sub-categorization frame 1או ( valency frame שלהקונצפציה את .Fillmoreעל פי המודל של גרעין מתואר המבנה .2 .החשובים לנו אחד השיקולים הייתה שלהםהאורתוגונליות, כלומר; )תם הניתוחוהן באלגורי עבור שפות לפיו עובדים בלשנים רבים )]Berkeley )]framenet04מאוניברסיטת FRAMENET הנקבע על ידי מפתחי הפרויקט ותר לפורמט המקובל בידניסינו להיצמ .3 . דרכם מתבצעת אינטראקצית הגרעין עם הסביבה שערים עמיתיהו Cristina Barberoשל עבודותיהםברוח , הוא היררכימאגר הגרעינים שלנו .4 . את עקרונות המודל שלנוסתרכאשר זה לא , )]ohara03[ ,]petruck03[( 2שונות .הגרמנית והיפנית, בונים מאגרי תבניות עבור הספרדית, תפרט לאנגלי barbero98:([ A sub-categorization frame for the lexical item L is a specification of the number and the type of elements that L requires in order, for an utterance that contains L, to be well-formed. 2[מתוך ( היא כדלקמן sub-categorization frameההגדרה של , להזכירכם 1

<token id=“T3A1N0” surface=“תעלה”><concept id=N-TRENCH-1 lex = tjala, heb frame id=“Ultra_Nominal”cat = N, father_cat>< תעלה = = ULTRANOM>MASTER CONSTRORDNFUNC DET DEMOQUANTATTRCO_MARKVERB NOMCO_NOMMorpho:Person: 3Gender: FEMNumber: SINGMorpho Constraints:Case: ABS<token id=“T3A1N0” surface=“תעלה”><concept id=N-TRENCH-1 lex = tjala, heb frame id=“Ultra_Nominal”cat = N, father_cat>< תעלה = = ULTRANOM>MASTER CONSTRORDNFUNC DET DEMOQUANTATTRCO_MARKVERB NOMCO_NOMMorpho:Person: 3Gender: FEMNumber: SINGMorpho Constraints:Case: ABSTARGET<token id=“T3A0N0”surface=“תעלה ”><concept id=V-RISE-1 lex = jala, heb frame id=“Change_position_on_a_scale”cat = V, father_cat><עלה = = INTRANS_VERB>AGENTTIME SOURCELOCMASTER VERB_ATTRVFUNC

Morpho Constraints :Person: 2Gender: MASCNumber: SINGCase: ABS/CONSTRMorphoConstraints:Tense: FUT TARGET<token id=“T3A0N0”surface=“תעלה ”><concept id=V-RISE-1 lex = jala, heb frame id=“Change_position_on_a_scale”cat = V, father_cat><עלה = = INTRANS_VERB>AGENTTIME SOURCELOCMASTER VERB_ATTRVFUNCMorpho Constraints :Person: 2Gender: MASCNumber: SINGCase: ABS/CONSTRMorphoConstraints:Tense: FUT

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 34: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

20

לאלגוריתם הניתוח , כך. אופן לקשרים בין גרעינים בעלי קטגוריות תחביריות שונותהדבר מאפשר להתייחס באותו . קטגוריה תחבירית של הגרעיןאותו פורמט לכל קבענו .6 . בתיאור של תבנית הקשתשל הגרעין לא תוארו בתוך הגרעין אלארוב האילוצים על יצירת קשת תלות שנכנסת לאיזשהו שער , למשל. וגדר בתוכוהלא -אפשר להגדיר מחוץ לו היה כל דבר ש; מבנה הגרעין יהיה פשוט ככל שניתןניסינו ש .5 .להחזיק מידע כפולכדי לא , ])barbero98[ראו (Torinoמאוניברסיטת בשלב . מתוארת במקום נפרדשל הגרעינים קונספטואלית הסמנטיקה המידע אודות ה .7 .לא משנה האם לנתח קשר בין פועל לשם או בין שם לתואר ת בעת יצירת קשתות קונספטואלימסוג זה על מנת לבדוק התאמה נעזרנו בידעש, לכך פרט ,נטיקה קונספטואלית בשביל הניתוח בסמהשתמשנוכמעט ולא הזה של עבודתנו ידע מתכוונים להשתמש באנו כי , יחד עם זאת יש לומר. בין הגרעיניםתלות יש להם , כפי שרואים. 2.4 יארנו באיור של הגרעינים אותם ת"פרויקציות"תבניות אלה הן ).trench (תעלהשמתאר את שם העצם " N-TRENCH-1" .ב ;)to rise (עלה שמתאר את הפועל "V-RISE-1" .א : ניתן לראות את התבניות של שני גרעינים סמנטיים2.8באיור . ])hebwnet04([בעת שתושלם בניית מאגר כזה עבור השפה העברית ליהקונספטוא אך תכונותיהם הפרספטואליות לא , בדיוק אותם תכונות סטרוקטוראליות וקונספטואליות אנו לא יודעים מה יהיו הערכים של התכונות ) מאגר הגרעינים(בעת בניית המילון . מצוינות ותפקידו של המנתח , םריקי" חלונות"לכן אנו משאירים במקום התכונות הללו . הפרספטואליות נדבר בהרחבה על . למלא אותם בערכים המתאימים לצורת הופעתו של הגרעין במבע-המורפולוגי נימיות של אנו מתייחסים למין ומספר כאל תכונות פ, למשל. תלויות בקטגוריה תחבירית שלו ההתייחסות שלנו לתכונות מורפולוגיות של גרעין . שעוסק ביצירת גרף מבעהתהליך הזה בפרק לעומת . שלו אשר לא תלויות בהקשר המבע" הפנימיות"גרעין שמני כי הן מתארות את התכונות . 2.5 תייחסות זו באה לידי ביטוי בייצוג הסכמתי של הגרעין המתואר באיורה .פועלי המין והמספר שלו נקבעים מהתלות המורפולוגית שלו בשם אשר תלוי בפועל סמנטיתבגרעין , באופן דומה. ליחסה של גרעין שמני יש טעם רק בהקשר של פועל או שם אחר במבע, זאתTechnion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 35: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

21

אבסטראקציה ב השתמשנו sub-categorization frameהקונצפציה של על מנת לממש את שערים Figure 2.5: Two-dimensional template of nuclei. 2.4.2 .ממדיות של גרעינים-תבניות דו: 2.5איור אשר מעין חלונות , למעשה, השערים הם). ports (שערים הללו בשם" מקומות הריקים" לקראנו .Bühler 1 : Words of a particular word-class open up around them one or several "empty places", which have to be filled by words of certain other word-classes [bühler34, p. 12]הבלשן הגרמני אותה הציע לראשונה -אדוןבמודל . אדון-עבד לגרעין-בין גרעיןכאשר כל קשת מחברת ,קשרקשתות למצוא קבוצת היא כי משימתנו ,אמרנו בתחילת פרק זה . המנותחהמבעהגרעין את סביבתו בהקשר " רואה"דרכם אוסף של . של האדוןשערים אלא דרך אחד האדוןה-גרעיןעבד לא יכול להתחבר אל -אף גרעין דעב - גרעיןאותו מתארשל המושג sub-categorization frame -את האפוא מתאר כל השערים המבע תקינות בשביל י הוא חיוני או אופציונאל המתחבר לשערהעבד-בדה שאלמנטועה • ;של השער הטיפוס יצוין על ידי האדון-העבד ביחס לגרעין-סמנטי של גרעיןהתפקיד ה • ; אותם דורש או מאפשר הגרעיןהוא מספר האלמנטים הלקסיקליים השערים מספר • :האדון

הבלשן הראשון , Tesniéreות בעבודותיו של נשמקובל לחשוב שמושג הערכיות הופיע לראשונה בבלש, למרות 1 .Bühlerהיה , למעשה, שהשתמש במונח זה

StructuralConceptual <concept id=N-TRENCH-1 lex = tjala, heb frame id=“Ultra_Nominal”cat = N, father_cat>< תעלה = = ULTRANOM>MASTER CONSTRORDNFUNC DET DEMOQUANTATTRCO_MARK

VERB NOMCO_NOMMorpho:Person: Gender:Number: Morpho Constraints :Case: <token id= surface= ><concept id=N-TRENCH-1 lex = tjala, heb frame id=“Ultra_Nominal”cat = N, father_cat>< תעלה = = ULTRANOM>MASTER CONSTRORDNFUNC DET DEMOQUANTATTRCO_MARKVERB NOMCO_NOMMorpho:Person: Gender:Number: Morpho:Person: Gender:Number: Morpho Constraints :Case: Morpho Constraints :Case: <token id= surface= ><token id= surface= ><concept id=V-RISE-1 lex = jala, heb frame id=“Change_position_on_a_scale”cat = V, father_cat><עלה = = INTRANS_VERB>AGENT TARGETTIME SOURCELOCMASTER VERB_ATTRVFUNC<token id= surface= >MorphoConstraints:Tense:Morpho Constraints :Person:Gender:Number:Case: ABS/CONSTR<concept id=V-RISE-1 lex = jala, heb frame id=“Change_position_on_a_scale”cat = V, father_cat><עלה = = INTRANS_VERB>AGENT TARGETTIME SOURCELOCMASTER VERB_ATTRVFUNC<token id= surface= ><token id= surface= >MorphoConstraints:Tense:MorphoConstraints:Tense:Morpho Constraints :Person:Gender:Number:Case: ABS/CONSTRMorpho Constraints :Person:Gender:Number:Case: ABS/CONSTR

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 36: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

22

-שם עצם יתפקד במבע כאם OPTIONAL . בשביל תקינות המבעתאופציונאליוהנכנסות לשער קשתות .הוא אופציונאלי לכל פועל TIMEארגומנט סמנטי מסוג DEMANDED .אחת כדי שהמבע יהיה תקין לפחות קשת סלשער חייבת להיכנ .AGENTסמנטי פועל פעיל דורש ארגומנט סטאטוס סימון תיאור דוגמה .תיאור הסטאטוסים האפשריים של השערים ניתן לראות את 2.1 בטבלה .השערשל ססטאטוה מצוינת על ידי ,האדון-ןהמכיל את גרעי AGENT ה לשער סקשת לא יכולה להיכנ של פועל פעיל אף-NFUNCבמבע תקיןאף קשת לא יכולה להיכנס לשער . שלו. PROHIBITED סטאטוסים אפשריים של השערים:2.1 טבלה . Table 2.1: The Port Status values. הוא שער השל אחד הסטאטוסים האפשרייםPROHIBITED . אסור "הנתונים שלנו מידע על קשרים פוטנציאליים שקיומם במבנה משמעות של כל מבע ברור שלא היינו מחזיקים במאגר אבל , PROHIBITEDתחילה סטאטוס של איזשהו שער היה כלא ייתכן שמל, כלומר". בהחלט - כשמשאחר יפונקציונאלי אסור שאיזשהו גרעין , כמובן, ואז. של איזשהו פועל פעילAGENT-כ אמור לתפקד N עצם מסוים ייתכן כי בשלב מסוים של הניתוח המערכת החליטה ששם, למשל .ל הסטאטוס להשתנותבמהלך הניתוח יכו functional modifierשל ה - Nהזה . . הקשר התחבירי של הגרעיןגלל ה סטאטוס השער של גרעין שמני השתנה בתהקודמבדוגמה של גרעין סמנטי הסתגלות 2.4.3 משתנה {FUTURE, 2nd, SING, MASC} הןתכונותיו ש, פעילפועל של AGENT-שער הסטאטוס :)א(דוגמה . להלן מספר דוגמאות.שינוי כזה ייתכן אף בעקבות שינוי צורני של גרעין יכול להופיע 2.7 אותו ראינו באיורפועל , וטות יותרבמילים פש .OPTIONAL -לDEMANDED -מ . שלוAGENT -גרעין שמני שמשמש כבמבע אף בלי

NFUNC X

TIMEAGENT

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 37: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

23

, אם צורתו של שם מסוים היא נסמך, במילים אחרות.DEMANDED -ל OPTIONAL -משתנה מ )CONSTR( מובהקנסמך או שלו במבע הסטטוס שהשם של CONSTR-שער המצבו של ):ב(דוגמה המידע הקיים בתוך כי נוכל לראות , את מה שאמרנו עד כה לגבי גרעינים סמנטייםנסכם אם תלותקשתות 2.5 .יתנראה דוגמאות נוספות לתופעה זו בשפה העבר העוסק ביצירת הכושר הלשוני בפרק.מעין הסתגלות של גרעין להקשר של המבע המכיל אותו מתאר כי כל שינוי כזה של הסטאטוס ,)adaptation( הסתגלותקראנו לתופעה הזאת בשם . שלו מאוכלסCONSTR-סומך או שם נסמך ששער הפיע אחריו שם חייב להו -אדון במודל מתוארגרעינים סמנטיים קשתות קשר בין ליצור לתוכנית הניתוחמסייעשמידע .יווצר במבעת כזו קשתמהם האילוצים שצריכים להתקיים כדי ש .2 ,הקשת המחוברת לאחד השערים שלו הגרעין שנמצא בצד השני של מיהו .1 :שום מידע לגביבגרעין אין . בעת הניתוחשעריומהו מצבו של כל אחד מ .4 ,)ההתחלתיים םיההשערים ומצב( ליצור רשאי או חייב הוא קשתות קשר כמה .3 ,)המידע המורפולוגי( של הגרעין במבע צורתומהי .2 ,)concept ID, הכניסה במלון הקונספטואלי ( הקונספטואלית שלוהמשמעותמהי .1 : הוא כדלקמן מופיעאבהקשר המבע בו הוהגרעין ממדי של הכושר -דומרחב התת גרעינים סמנטיים כאל נקודות בתבניות של התייחסנו לעיל ל תלות של קשתותתבניות 2.5.1 . קשתתבניות במונחים של עבד כל קטע כזה .כעל קטעים באותו מרחבתבניות קשת כל על באופן דומה ניתן להסת.הלשוני של הגרעינים ) התחביריים והקונספטואליים, המורפולוגיים(אילוצים על תכונותיהם .3 ;)האדון-גרעין (הנקודה הסופית .2 ;)העבד-גרעין( ההתחלה נקודת .1 : מאופיין על ידי תבצע על מנת שקשת התלות תוכל להבהקשר המבע שצריכים להתקיים הללו .במבנה המשמעות של המבע) להיווצר(Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 38: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

24

בהינתן אוסף תבניות של קשתות קשר תוכנית הניתוח ממפה אותן לכל זוג גרעיני המבע קשת תלות יצירת תנאי זוג תבניות של גרעינים סמנטיים לקבוע כלעבור ניתן, כעקרון הכללת תבניות .המשמעות של המבעשמשמש למציאת הקשת מתגשמת במבנה - ובתנאי שהאילוצים על יצירת הקשת מתקיימים )זוגות כאלה n2ייתכנו ( כל בלשן שעובד בפורמליזם מבוסס תלויות מנסה , למעשה.ולנסח אותן ברמת ההכללה המתאימההיא להכין אוסף של תבניות ליצירת קשתות קשר בין גרעינים סמנטיים , שפה טבעית כלשהי עבורעבד-אדוןאחת המשימות החשובות והקשות של בלשן שבונה כושר לשוני המבוסס מודל .מספר הגרעינים בשפה הוא N כאשר תבניות קשרי תלות N2כי הוא דורש הכנת , ברור שפתרון כזה אינו מעשי אך .ביניהם ם מנסים להכליל חוקים ליצירת קשתות התלות ולתאר אותרבים דקדוקי תלויות מפתחי .1 הזאתבעיההלפתור את החוקרים רוב . ) וכדומהNOUN, VERB, PREPOSITION(במונחים של קטגוריות תחביריות , ]sleator93[, ]arnola98[, ]järvinen98[ ,]courtin98[ ,]germann99[ ,]covington00[ ,]nivre03[, למשל, ראו (שעוסקים בדקדוקי התלויות דוגלים בגישה זו הידועים לנו ]schneider03[( ,מכלילים את הגרעינים , בעצם, הם; קטגוריה באותה הקטגוריה הדקדוקית של הגרעינים ומתעלמים מההבדלים הקונספטואליים בין הגרעיניםמסתכלים רק על , כלומר, הסטרוקטוראלימתמקדים במימדט כולם כאשר כמע)כאן . בקבוצות גדולות יותר) או קבוצות קטגוריאליות ליצירת ) התבניות(רדוקציה כזאת מקטינה את מספר הכללים . גרעינים תלויים בשפה האמיתיתבין רמת ההכללה של התבניות לבין מידת התאמתן לצירופי ) tradeoff(יש שקלול תמורות . ליצור קשתות תלות שלעולם לא יופיעו בשפע טבעיתקטגוריות גדולות יותר ומצד שני מאפשרתאך היא מצד אחד מאבדת תלויות שיכולות להיות בין קטגוריות גרעינים שהוכללו , הקשתות .אך דיון על כך חורג ממסגרת עבודתנו זו, PSGזה נכון גם לפורמליזמים מבוססי 1

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 39: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

25

.Figure 2.6: Connector generalization - from nucleus level to the syntactic category level .מרמת הגרעינם לרמת הקטגוריה התחבירית- הכללת קשת : 2.6איור

מצד אחד יהיה התבניות שלנו שאיפתנו הייתה להגיע למצב כאשר מאגר.)תחביריות( קטגוריות סטרוקטוראליות-התבניות ליצירת הקשתות מתוארות במונחים של תת • :הזו באופן הבא tradeoff-ה מטפלים בבעיית דעב-אדוןאנו במודל לא יאפשר מצד שני ו, המנתח האנושי" רואה"מסוגל לגלות את כל הקשרים אותם שקשת כל תבנית מכילה אוסף תנאים מורפולוגיים ותחביריים שצריכים להתקיים כדי • .1מהבחינה הסטרוקטוראלית" לא נכונות"תלות ות קשתליצור . קונספטואליבדיקת ההתאמה הקונספטואלית מתבצעת בנפרד בעזרת מאגר נתונים • .תוכל להיווצר במבנה המשמעות של המבעאותה מתארת התבנית התלות דיקה של ההתאמה הקונספטואלית בעת יצירת הקשתות ניתן לבצע בנפרד את הב ) וגונליותתאור(תלויות - התכונות הקונספטואליות הן בלתיעבד-אדוןשבמודל משום שמתווספת למבנה שמשמש למציאת המשמעות של המבע כל קשת , כפי שרואים, אזי .בשאר התכונות הן תחביריים והן , הן מורפולוגיים: ם של אילוציםמקיימת את כל הסוגים האפשריי ,המנותח . כי בדיקות האילוצים הללו מתבצעות בשלב המוקדם ביותר של הניתוח, שימו לב.קונספטואליים .כאלה שקיומן סותר את הידע הלשוני של דובר השפה,כלומר 1

V-EATN-FOODConceptual VERBNOUN חרב N-CHILDV-SMELLN-SWORDV-RUST ילד מריח אכל החלידה המבנההכללת V-SOUP מרק אוכל Structural

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 40: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

26

, צורות הגרעינים במבע אמורות להתאים אחת לשנייה, תוכל להתגשם במבנה משמעות של מבע ליסטרוקטורא-הקונספטואליקשת פוטנציאלית אשר קיימת במישור על מנת שתבנית של התאמה מורפולוגית סדרצורה ואילוצי : יצירת הקשת 2.5.2 אומר כי כאשר צורה של מילה מסוימת במשפט ]) Melčuk ]) melčuk88.תצרף כמו שני חלקי אם .אחרת באותו משפט קיימת תלויות מורפולוגיות בין המיליםקובעת את צורתה של מילה התכונות הצורניות של אותו רק כאשר איזשהו גרעין שמני ייתכןלבין {FUTURE, 2nd, SING, MASC} עלהבין הגרעין AGENTקשר מסוג ה ראה כי נ2.7 שמצויר באיורנחזור לגרעין והגרעין , AGENT-הר ע לא יוכל להתחבר לשאליםהגרעין , למשל, כך.{FUTURE, 2nd, SING, MASC} עלה הגרעין של AGENT -להגבלות המצוינות בשער ה יתאימו גרעין שמני ד מצ.במשפטעל סדר המילים באופן בלעדי מודל הניתוח שלנו אינו מסתמך כתבנו לעיל כפי ש אילוצי סדר . יוכל– אתה כמו הלטינית " חופשיות" סדר מסוים קיים אפילו בשפות כה . לקחת בחשבון אילוצי סדריששני גרעין , בפינית, הונגרית, קוריאנית, ביפנית, למשל. לציין שסדר זה לא נשמר בכל השפותיש .אל אל, אמאאצל, שבועלפני (2.12) :מופיע לפני השם אותו הוא משרת תמידבעברית )preposition(גרעין פונקציונאלי , למשל .תלות במבני המשמעות של המבעיםישנן הגבלות על סדר הגרעינים במבע שמשפיעות על יצירת קשרי , בעברית גם . והרוסית העתיקה :ברוסיתגם תופעה דומה קיימת post-position. (2.13) talon edessä. 1 [house, SING, NOM] [in front of] -הדבר בא לידי ביטוי בשם הקטגוריה שלו . פונקציונאלי כותבים אחרי השם ).פינית(לפני הבית 1

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 41: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

27

(2.14) два года назад. 1 [two, MUSC, SING, NOM], [year, MUSC, SING GEN], [ago] (2.15) :למשל, שמני אותו היא משרתת בין מילות צירוף ס מילת יחס יכולה להיכנשם. המצב עוד יותר מסובך,ברוסיתכי , ריש לומ недели через две. 2 [week,FEM, SING, GEN], [in], [two, FEM, SING, NOM] י המשמעות של מבע זה הן בבאיור ניתן לראות מבנ-DGוהן ב -PSG. תלותקשתתפקיד סמנטי של 2.5.3 רבה חשיבות יםמייחסחוקרי תחביר רבים שעובדים במסגרת של פורמליזמים מבוססי תלויות מושא , כמו נושא, תלויותה של ים התחבירייםרובם מתעניינים בטיפוס. של קשר תלותלטיפוס אדון אינו מספיק כדי לנתח משמעות -עבד ביחס לגרעין-של גרעיןירי תפקיד תחבאך .ישיר וכדומה אחת יוצאת מהגרעין :אוכלת שנכנסות לגרעין ת ליצירת קשת תלוו ראינו שתי תבני2.9 באיור . שקיים במציאותאדון-עבד לגרעין-בין גרעיןמתאר יחס תפקיד סמנטי . )Semantic Role (סמנטי תפקיד או) Deep Case (עמקה יחסה בספרות בשםים ידועמסוג זה יםטיפוס ,)]fillmore68[ (Fillmore של תועבוד מאז .אר המבעאותה מתשל העולם לתמונת המצב שקשורה , סמנטיקהויתאר עבד-אדוןבמודל טיפוסי הקשרים , ) של צעדיםיורצוי במספר מינימאל( כזאתמשמעות של מבנה דווקא היות ואנחנו בעבודתנו מעוניינים למצוא .עמוקה של מבעים כדי לתאר קשת במבנה . 3האדון אליו נכנסת הקשת-טיפוס קשת נקבע על ידי השער בגרעין .מרק אוכל ילד )2.16( . שמשמעויות שני הקשרים הללו שונות זו מזואין שום צורך להסביר .מרקוהשנייה מהגרעין , ילד ;העבד ממנו הקשת יוצאת-גרעין .1 :ן שלושה דבריםמספיק לצייהמבע

.MASTERכל קשת תמיד יוצאת מהשער 3 ).רוסית(בערך בעוד שבועיים 2 ).רוסית(לפני שנתיים 1 Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 42: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

28

האדון -העבד ביחס לגרעין-טיפוס של הקשת שמבטא את התפקיד הסמנטי של גרעין .3 ;האדון אליו הקשת נכנסת-גרעין .2 .האדון אליו נכנסת הקשת- השער של גרעיןהתפקיד הזה מצוין על ידי

כעת נתאר את מיקומם של האילוצים . המנותח מסייעות לנו במציאת מבנה המשמעות שלורניות והתחביריות של גרעינים סמנטיים בהקשר המבע לעיל כיצד התכונות הצוהסברנו התאמה קונספטואלית 2.5.4 בגלל סדר . 2.16 על מנת לעשות זאת נחזור למשפט. הקונספטואליים בהבנת המבע במודל שלנו טיפוס של , או להפך, AGENT הוא אוכל- למרק-לא יעלה על דעתו שטיפוס הקשת שמחברת בין ה אף דובר עברית נורמאלי . 1 2.16 של שעומד מאחורי המשפט הזה ייראה בדיוק כמו זההמבנה .ילד מרק אוכל (2.17) :אר גם על ידי המשפטאת אותה תמונת המצב ניתן לת, המילים החופשי בשפה העברית למרות שמהבחינה המורפולוגית או התחבירית אין שום ,PATIENT הוא אוכל- לילד-הקשת בין ה באופן . יש לומר כי הקשת השנייה לא תיתכן בהקשר של המשפט הזה, למען האמת. מניעה לכך אם אנו רוצים שתוכנית הניתוח אף היא תשלול את אפשרויות ההבנה הלא נכונות , לכן. במבעהקונספטואלי שיש לנו אודות התחום הספציפי של המציאות אליו שייכים המושגים שמבוטאים הוא הידע , תמה שבכל זאת מונע מאיתנו ליצור קשרי יחס כאלה במבנה המשמעו ..ילדאריה אכל (2.18) במשפט, למשל. ייתכן, לצערנו, כללי מצב כזה כדי לעשות זאת אנו מציעים . עלינו לספק לה מאגר נתונים שישמש אותה לצורך הניתוח, הללו -נסמן בלשם כך . זו באופן פורמאליהקונצפציה הנסביר את ). Conceptual Correlation Cube (ההתאמה הקונספטואלית קבית של ונצפציהקC - הקונספטואלי על הציר הסמנטיים של הגרעינים האפשריות היטליםאת האוסף של כל המושגים הקונספטואליים של כל אוסף הכלומר את , ושר הלשונישל מרחב הכ ,2לייםאוהפונקציונ

.Wordnetהלקסיקלי של מוסד הנתונים )lexical concepts(ת ניתן לראות את אוסף של מושגים לקסיקליים בתור קירוב של קבוצה כזא2 .של הגרעינים) id(פרט לסדר התמניות במשפט אשר בא לידי ביטוי במזהים 1 Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 43: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

29

R- (2.19) :שלשהעל ידי קשת תלות תאר כלניתן ל, אזי .דלהמוגדרים במוהתפקידים הסמנטיים של כל את אוסף ),,( rcm כאשר

Cm ∈) master (- האדון-גרעיןהמושג עליו מצביע, Cs ∈ )slave (- עבדה-גרעין אותו מבטאהמושג, Rr ∈ )role (- אז לא , 2.16 אם נחזור לדוגמה, למשל. כזו מתארת קשת תלות חוקיתלא כל שלשה , כמובן .האדון-העבד ביחס לגרעין-התפקיד הסמנטי של גרעין RCC מכפלה קרטזית תמוגדר, במילים אחרות .)V-EAT, N-SOUP, AGENT(קשת יתכן ת σ: (2.20) RCC יחסומוגדר, ×× ××:σ אם נחזור . קוביית ההתאמה הקונספטואלית אנו קוראים בשםזוקציה פונל .הקונספטואליתאשר לכל נקודה במרחב קובעת אם נקודה זו מתארת קשת תלות חוקית מהבחינה נציין . אחרות של גרעיניםתבאותו אופן אנו בודקים התאמה קונספטואלית בין קטגוריו .σ(V-EAT, N-CHILD, AGENT) = 1, σ(V-EAT, N-SOUP, AGENT) = 0 )2.21( :2.16 למשפט שמע תקינים לדובר שפה יצירופים שיכולים לה. השהתאמה מסוג זה היא במידה רבה תלוית שפ : מוגדר אוסף תכונות סמנטיותARGUMENTלכל באופן כללי).EDIBLE( אכיללהיות צריך אכל של הפועל PATIENT-כך ה. להיות לשם כדי שהוא יוכל לתפקד כאותו ארגומנט סמנטילכל ארגומנט סמנטי של כל פועל במילון הקונספטואלי מצוין אילו תכונות סמנטיות אמורות סיבוכיות זמן בעת הניתוח 1 .אינם מתקבלים על הדעת של דובר שפה אחרת, אחת

ובדרך ת בשפה ספציפית קיימ בין מילות האידיומההתאמאה ;)אידיומות(אנו מתייחסים באופן מיוחד למטפורות 1 .לון הקשתות כקשתות מטפוריותקשרים קונספטואליים כאלה נשמרים במ. ה נשמרת בשפות אחרותינכלל אTechnion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 44: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

30

)2.22( F(ARGUMENT):{ f1, f2, … , fn} }:Χ(NOUN) )(2.23 :לכל שם יש אוסף תכונות סמנטיות, בצורה דומה χ1, χ 2, … , χ m} במקרה אלית בין שם לשער של גרעין סמנטי על מנת לבדוק שקיימת התאמה קונספטו, אזי פעולה זו .ית ההתאמה הקונספטואל בקובייתtrue שהנקודה הזאת מקבלת ערךצריכים לבדוק )VERB, ARGUMENT, NOUN( בין התאמה קונספטואליתכדי לבדוק , לעומת זאת, אנחנו F(ARGUMENT)×Χ(NOUN) )2.24( .הגרוע יש לבדוק כל אלמנט מתוך המכפלה הקרטזית )( )2.25( , מקוםכדי לאחסן קובייה כזאת אנו צריכים. היתרונות האלה באים על חשבון המקום, כמובן סיבוכיות מקום .של זמן O(1)לוקחת RNNo ×× כאשר N-אוסף כל גרעינים הסמנטיים בשפה , R-1 .ף של התפקידים הסמנטיים אוס

במידה . אז סבוכיות המקום תהיה כמספר השלשות כאלה) למשל בטבלת ערבול( אם נאחסן את השלשות הקיימות 1 , סיבוכיות כמקום תהיה כמספר השלשות, כלומר קוביית הקורלציה היא דלילה, )2.25(-ומספר זה קטן משמעותית מ ).בזכות טבלת הערבול( o(1)תשאר עדיין הממוצעת הזמן בעת שסיבוכיות Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 45: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

31

)בין קשת לשער(מסדר שני תלויות 2.6.5בנוסף ייתכן שהתגשמות כזאת תלויה אף במצב . וקונספטואליות של הגרעינים המחוברים בקשתהתגשמות של תבנית קשת תלות יכולה להיות תלויה בתכונות מורפולוגיות אמרנו לעיל כי -הלשער , נתןהאדון - לבין גרעיןאמאהעבד -גרעין בין RECIPIENTתיווצר קשת תלות מסוג .נתן ספר לאמא ילד )2.26( משפטבמבנה המשמעות של העל מנת ש, למשל .בדהע-האדון או גרעין-השערים של גרעין VFUNC תלות מסוג כדי שייוצר קשר , באופן דומה .אמאגרעין של ה פונקציונאלי שמתפקד כעבד1 -לצאת מהגרעין ו קשת שיסחייבת להיכנ אמאשל הגרעיןAGENT האסור שלשער,נתןהאדון -גרעין לבין ילדהעבד -בין גרעין -VFUNC כל ארגומנט סמנטי . תיכנס קשת כלשהיילד של הגרעין . מסכמת את סוגי התלויות הללו2.3 והטבלה; לבין שערי הגרעינים בהם הקשתות תלויותאנו מביאים את כל הסוגים האפשריים של תלוית בין קשתות תלות 2.7 באיור. אתפונקציונאלי עבד- שלו עם גרעיןVFUNCאך יכול להתחבר דרך השער , לא חייב נתן של הפועל PATIENTמסוג

.Figure 2.7: Examples of the second-order dependencies .דוגמאות של תלויות מסדר שני: 2.7איור

).אל, למשל( או מגרעין אחר בעל סמנטיקה פונקציונאלית זהה 1 Nאמא NMASTERנתן RECIPIENT NFMASTERVFUNC-לNספרN לדי NFVFUNC את VFUNCAGENTMASTER∅MASTER X

! PATIENTDEF NFMASTERה !Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 46: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

32

העבד -גרעין של VFUNC- דורש שלשער הRECIPIENTקיום הקשת סוג התלות סימון תיאור העבד תיכנס - של גרעיןVFUNC- שלשער האוסר AGENTקיום הקשת OPTIONAL .)את(מסוים תיכנס קשת מגרעין פונקציונאלי העבד-גרעין של VFUNC-דורש שלשער המאפשר אך לא PATIENTקיום הקשת DEMANDED .)-ל (תיכנס קשת מגרעין פונקציונאלי מתאים עבד-במודל אדון שני שלבי ההבנה Table 2.2: The second-order dependencies. 2.6 .תלויות מסדר שני: 2.2 טבלה PROHIBITED . כלשהוקשת מגרעין פונקציונאליהבנת המבע מתבצעת בשני , ]Obrebski] obrebski03בדומה לזה של , עבד-במודל אדון לאחר מכן נבנה את . שהיו יכולים להתמפות לתמנית הזאת, הלשוניכושר בהסמנטיים ים הגרעינ אוסף של כל צירופי נחפש אתהמנותח המבע של תמנית עבור כל– המבע בניית גרף: 1 שלב ):2.8 איור( שלבים ביניהם נחפש את שיכולים להיווצר ואת כל הקשרים הבינאריים יכולים להתמפות לתמניות המבע שהיו הגרעינים הסמנטיים על סמך גרף המבע שמכיל את כל - מעותהסקת עצי המש: 2שלב . הכושר הלשוני נבנה את גרף המבעבעזרת, שמופיעות בסדר מסויםמבע תמניות של בהינתן 1בשלב, במילים אחרות. כל הקשתות שיכולות להיווצר על פי האוסף של תבניות קשתות תלות .המשמעות שבתוכו בהינתן גרף מבע נמצא את כל עצי 2בשלב , במילים אחרות. המבעמבני משמעותכל אוסף

XAGENT VFUNCXAGENT VFUNC∅PATIENT VFUNC}את {∅PATIENT VFUNC}את { !RECIPIENT VFUNC }ל- { !RECIPIENT VFUNC }ל- {

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 47: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

33

1 גוריתם הניתוח הפרדה בין המידע לאלסמנטיקה של והתחביר ה, מורפולוגיההתהליך יצירת גרף מבע הוא תלוי שפה ומסתמך על .שונות אותו אלגוריתם יכול לשמש לניתוח גרפים שנוצרו ממבעים בשפות .המבע אותו מייצג הגרף משמעות מגרף מבע אינו תלוי בשפה של צי תהליך הסקת ע,לעומת זאת. המבע המנותח תשפ

סדר יצירת הקשתות .Figure 2.8: Utterance analyzing scheme according to the Master-Slave model .עבד-אדוןסכמת ניתוח מבע במודל : 2.8איור השייכים לגרעיני קשתות לבין שערים אחרים ה בין תלויות מסדר שני שקיימות לעיל ראינו , ]lombardo92[ ,]arnola98([להבדיל מרוב המודלים מבוססי התלויות הקיימים , אם כך .יש ליצור קשתות בסדר מסויםהגענו למסקנה כי , לכן. )העבד-האדון והן לגרעין-הן לגרעין( שתהק ]järvinen98[ ,]courtin98[, ]covington00[ ,]nivre03[ ,]schneider03([ , סדר יצירת , המנותחסמנטיים במבעהגרעינים הופעת הזהה לסדר הליניארי של להיות הקשתות לא אמור ניתן לראות את היררכית התלויות 2.9 באיור.צריך לשקף את מערכת התלויות מסדר שניאלא ונראה אף את , עבד משתמש-ת בהן המודל אדוןבפרק הבא נציג את כל הקטגוריות התחביריו .התלויות מסדר שני מצוירות בסכמה על ידי קווים מקווקווים .בצורה סכמאטית .לפיהן תוכנית הניתוח שלנו בונה גרפים למבעים בשפה העברית, אוסף התבניות של קשתות תלות

. המבואכבר דיברנו בפרק על חשיבותה של הפרדה זו 1

t1 Step 1 Step 2Linguistic Competencet2 t3 t4 Meaning TreeUtterance GraphUtterance Nucleus (a meaning of morpheme).

a b Nuclei chain (a composite meaning of a token).The nucleus a depends on the nucleus b.t4 A token, can contain more then one morpheme. Dependency between nuclei containedby different tokens.Legend:

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 48: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

34

.Figure 2.9: The syntactic categories hierarchy in the Master-Slave model for the Hebrew language . עבור השפה העבריתעבד-אדוןהיררכית הקטגוריות התחביריות במודל : 2.9איור

VERBNOUN VATTRINTENSNATTR NFUNC VFUNCFUNCAUXROOT

A B Existence of אmay demand the existence of ב.Legend: A B א VERBNFUNCב Conceptual CategoryFunctional Category A can depend on BA is a B

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 49: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

35

A primary requirement for a grammar is that it is descriptively adequate. Extreme distortion results if the mathematical properties of the chosen model restrict the data… Jarvinen, T. and Tapanainen P., [jarvinen98, p. 2] הכושר הלשוני ובניית גרף מבע: 3פרק וא כי הם צריכים אפ,אותו אנו נמדל הגרעינים הסמנטיים יהיו תלויים בתחום של המציאות, כמובן .של העולם בתחום מסוים שמתרחשותת דינאמיותמונת מצבשקיימים או סטטיים למדל מצבים נראה כיצד ניתן ליישם את העקרונות שתיארנו בפרק הקודם ולבנות כושר לשוני שיאפשרבפרק זה לצורך ההדגמה . שקיימים באותו תחום) בעלי קטגוריות דקדוקיות שונות(לתאר את המושגים מאגר תבניות ליצירת גרעינים סמנטיים שמתארים עבורו ובנינו )אפיית עוגות(בחרנו תחום מוגבל ובצורה כזאת להשפיע על היכולת שלהם ליצור קשרים בהתאם לתכונותיהם הפנימיות הגרעינים של שערי ס שיכולים לשנות את הסטאטוהסתגלותמספר חוקי אף הגדרנו .את מושגי התחום שישמש )3.2, 3.1 איור (חעבור המבע המנות גרף מבעיצירתלשמש להוא כושר הלשוני התפקידו של סקירה של תהליך יצירת גרף מבע 3.1 .תבניות ליצירת הקשתות בין גרעינים סמנטיים אוסף של הכנו, בנוסף .ים במבערעם גרעינים אח . תהליך יצירת גרף מבע מתבצע במספר שלבים . של המבעאותנו בהמשך למציאת אוסף המשמעויות התוכנית יוצרת את אוסף הגרעינים הסמנטיים אותם יכולות לציין תמניות המבע ראשית כל אשר , פולוגיכל תמנית של המבע המנותח למנתח המורלשם כך היא מעבירה ).3.3 איור (המנותח תוכנית הניתוח עבור כל אטום .)lexical atom (ים לקסיקלימיםאטושל מפיק עבורה קבוצה בחוקי הגרעינים לתכונותיהם הפנימיות של הגרעינים ובמקרה הצורך משנה אותם תוך שימוש בודקת התוכנית את התאמתן של שערי , המציינות אותם ולפי סדר הגרעינים בתמניות הללולאחר שתוכנית הניתוח בונה את גרעיני המבע אשר מסודרים לפי סדר הופעתן של התמניות . הקרטזית של הקבוצות הללומחפשת במאגר הגרעינים את קבוצת הגרעינים שהלקסמה יכולה לבטא ומחשבת את המכפלה לשם כך לכל לקסמה שלו התוכנית .לקסיקאלי מוצאת אוסף של אטומים סמנטיים שהוא יכול לבטא ).3.5 איור(מנסה להתאים תבניות קשתות התלות הנמצאות במאגר הנתונים לכל זוג גרעינים שאינם שייכים לאטומים אלטרנטיביים התוכנית , ולבסוף ).3.4 איור(ההסתגלות

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 50: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

36

.Figure 3.1: Scheme of an utterance graph creations .סכמה של תהליך יצירת גרף מבע: 3.1איור

t0מורפולוגימנתח מורפולוגימנתח t1 t2 t4t0 t1 t2 t4יצירת הגרעיניםיצירת הגרעינים

סמנטייםגרעיניםמאגרסמנטייםגרעיניםלקסמותתמניות מבע הסתגלות הגרעיניםהסתגלות הגרעיניםיצירת קשתותיצירת קשתות : גרף מבעלאחר הסתגלותגרעינים סמנטיים קשתות+גרעינים

תלותקשתות מאגרהסתגלותחוקי מאגרTechnion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 51: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

37

.Figure 3.2: The U-Graph creating algorithm .האלגוריתם ליצירת גרף מבע: 3.2איור

.Figure 3.3: The algorithm for U-Graph nuclei creating .האלגוריתם ליצירת גרעיני גרף מבע: 3.3איור

CreateNuclei(U: Utterance) : Set of Nuclei// create the set of nuclei represented by the utterance’s tokensSet of Semantic Atoms SASet = Ø;FOREACH T :Token� USASet = SASet � ¾createNuclei(T);RETURN SASet;CreateNuclei(T: Token)Set of Lexical Atoms LASet =MorphAnalysis(T);Set of Semantic Atoms SASet = ØFOREACH LA:LexicalAtom� LASetSASet= SASet � ¾createNuclei(LA);RETURN SASet;CreateNuclei(LA: Lexical Atom)Set of Nuclei Templates NTSetFOR i = 1 TO LA.length()NTSet [i] = NucleiDB.getNTempalte(LA[i])ENDFORSet of Semantic Atoms SASet = NTSet [i]RETURN SASet; ×= ().

1

lengthLA

i

CreateUG(U: Utterance)// create the set of nuclei represented by the utterance’s tokensSet of Nuclei Nuclei = CreateNuclei(U);// adaptation to the utterance environmentAdaptNuclei(Nuclei);//Create connectors between consistent nuclei pairsCreateConnectors(Nuclei);END

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 52: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

38

.Figure 3.4: The algorithm for U-Graph nuclei adaptation .להסתגלות גרעיני גרף מבעאלגוריתם ה: 3.4איור פונקציה (לתבניות הגרעינים המופיעים בתבניות של חוקי ההסתגלות או כלל ליצירת קשת בעת הפעלת חוקי ההסתגלות או בניית הקשתות מבצעת התוכנית התאמת גרעיני המבע .Figure 3.5: The algorithm for the U-Graph connectors creating .האלגוריתם ליצירת קשתות גרך מבע: 3.5איור match()נו אילו קשרים יהרא ועבד-אדוןדקדוקיות שקיימות במודל הקטגריות ה הצגנו אתבפרק הקודם מילון גרעינים סמנטיים 3.2 .מתאימות לתכונות של גרעיני המבע וכל האילוצים על יצירת הקשת מתקיימיםל תבניות הגרעינים פונקציה זו בודקת שכל התכונות הרלוונטיות ש). קוד-פסאודו ב ר מבנים על מנת לתא.1 את מילות התוכן הוא לשמש של המילים הפונקציונליותןתפקידאומר כי ו למלות תוכן הוא מייחס חשיבות רבה .שימוש מילותבו ADVERBIAL- וSUBSTANTIVE, ADJECTIVAL, VERBAL :ארבע קטגוריות של מילות תוכןב שתמשמ] tesniére59[- בTesniére . הללוי של כל אחת ההקטגוריותכעת נדבר על המבנה הפנימ .)2.12 איור (יכולים להווצר ביניהם

.פונקציונליתמילה : מונחאת ה, שהלמע, התפקיד הזה קובע 1

CreateConnectors(NSet: Set of Nuclei)FOREACH m:Nucleus NSetFOREACH s:Nucleus NSetIF NOT exclusive(m,s)FOREACH p:Port� ¸m.ports()IF match(m,s,p)CreateConnector (m,s,p)ENDAdaptNuclei(NSet: Set of Nuclei)FOREACH N :Nucleus NSetFOREACHAdRule :Adaptation Rule� ¸ DB.AdaptationRulesIF match(N,AdRule)Adapt(N, AdRule.port, AdRule.NewStatus)END

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 53: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

39

חד ערכית בין תמניות המבע - שאין התאמה חדמצייןו, גרעין תחביריים של מבעים הוא מגדיר מושג המשמעות -רב אבל כאשר .מילות שימוש -להחליט אילו מתמניות המבע מציינות מילות תוכן ואילו ומייד מסוגל מתבצע על ידי גורם אנושי אשר בקלות יכול לפתור את העמימות המורפולוגית שיטה זו טובה כאשר הניתוח . נחשבות כגרעין אחד}have-been-calling-up{התמניות Have you been calling your wife up? 2 )3.1( במשפט האנגלי, למשל.1ממספר תמניות לאו דווקא צמודות במבע לגרעינים אשר מורכבים Tesniéreבעבודתו מתייחס . מורכב המצב יותר,למעשה. לבין הגרעינים מילים המאפשרת להתייחס לשני סוגי עבד-אדוןרעינים סמנטיים במודל גהאבסטראקציה של .שימושהתוכן והן למילות האופן הן למילות ותו אבלהתייחס מציעים , זאתלעומת, אנחנו .השיטה אינה מתאימה, ולוגית והלקסיקלית נכנסות לתמונההמורפ ההבחנה הזאת באה לידי ביטוי אך ורק בנתונים המאוחסנים . של גרעינים אלה יכולים להיות שונים יםם הסמנטייהאבסטראקציה זו ולא מודעת לכך שתפקידעובדת עם תוכנית הניתוח . באופן אחיד גרעינים לגרעינים המסמנים מילות תוכן אנו קוראים בשם . במאגר הנתונים של המערכת .)3.6 איור( פונקציונלייםגרעינים מילות שימוש נקראים שמסמנים אלהו, קונספטואליים חסרות יונלייםהפונקצלגרעינים כך ש פרט ל,יור לשני הסוגים מבנה דומהאכפי שניתן לראות מה .Figure 3.6: Semantic and functional nuclei .גרעין קונספטואלי וגרעין פונקציונלי: 3.6איור

].järvinen97[הדוגמה מתוך 2 . נראה לנו מוזר ולא מתאיםגרעיןבהקשר זה השימוש במונח 1 Structural

Conceptual <concept id=NF-ASHER-1 lex = afer, heb אשר = ><frame id=“Rel”cat = VF, father_cat = REL><token id= surface= >MASTER<concept id=NF-ASHER-1 lex = afer, heb אשר = ><frame id=“Rel”cat = VF, father_cat = REL><token id= surface= ><token id= surface= >MASTER<concept id=N-TRENCH-1 lex = tjala, heb frame id=“Ultra_Nominal”cat = N, father_cat>< תעלה = = ULTRANOM>MASTER CONSTRORDNFUNC DET DEMOQUANTATTRVERBNOMMorpho:Person: Gender:Number: Morpho Constraints:Case: <token id= surface= ><concept id=N-TRENCH-1 lex = tjala, heb frame id=“Ultra_Nominal”cat = N, father_cat>< תעלה = = ULTRANOM>MASTER CONSTRORDNFUNC DET DEMOQUANTATTRVERBNOMMorpho:Person: Gender:Number: Morpho:Person: Gender:Number: Morpho Constraints:Case: Morpho Constraints:Case: <token id= surface= ><token id= surface= >

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 54: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

40

מבקר את הגישה שאומרת כי המילים אשר Ornan זה מתיישב עם עמדתו של.מורפולוגיותתכונות לגרעינים פונקציונליים ) תרוסי, למשל, כמו(עבור שפות אחרות ."אינם אלא סימני שעבוד בלבד אשר - ושבזמננו " כי )78' עמ, ]ornan79[-ב(אומר ו1יכולות לשמש ככינוי רומז לגרעין אשר - וש משום ששם גרעינים פונקציונליים הם אכן בעלי תכונות מורפולוגיות אשר , תהיינה תכונות פנימיות А это пшеница, которая в темном чулане хранится в доме, который построил Джек. 2 [This is] [malt<Sing, Fem, Nom>] [which <Sing, Fem, Nom>] [in] [dark<Sing, Masc, Prep>] [pantry<Sing, Masc, Prep>] [is stored] [in] [house<Sing, Masc, Prep>] [which <Sing, Masc, Prep>] [built] [Jack <Sing, Masc, Nom>] )3.2( במשפט, למשל.הלואי עם התכנות המורפולוגיות של הגרעינים הקונספטואליים אתם מתארת פסוקית אמורות להתיישבגרעין למין ובמספר , יחסהמתאים ב} Nom ,Fem ,Sing, אשר{ котораяהפונקציונלי הגרעין כי ) MASTER(בדרך כלל יש שער אחד ויחיד גרעינים פונקציונליים לעבד -ןנציין כי במודל אדו .}Prep ,Masc ,Sing, בית {домеמתאים לגרעין } Prep ,Masc,Sing, אשר{ который והגרעין }Nom ,Fem ,Sing, חטה{ пшеницаהשמני כפי (משלהם עבדים גם ייתכנואחדים מהם סוגים ל אבל .תפקידם הוא לשרת גרעינים אחרים -אדוןניתן לראות את אוסף הקטגוריות של הגרעינים במודל 3.1בטבלה ).זהפרק שנראה בהמשך קטגוריאליות -כעת נתאר את הקטגוריות האלה באופן מפורט ונראה את ההיררכיות הפנים . אחת מהןעם תאור קצר של כל עבד המגמה המקורית בבלשנות הייתה ליחד קבוצות של מילים בעלות תכונות משותפות נציין כי .שלהן ולבטא את מבנה המבע במונחים ) שם תואר וכולי, כמו פועל, הקטגוריות התחביריות המקובלות( LFGדקדוק ב, למשל ).מילים (יחידות לקסיקליותניסיון לתאר את חוקי השפה ברמת , כלומר, קדוקד של לקסיקליזציה הבלשנים לבעיה זו הוא שנתנוהפתרון . תופעות רבות שקיימות בשפות הטבעיותכי החוקים שמנוסחים במונחים של הקטגוריות התחביריות המקובלות הם כלליים מדי כדי להסביר אך עם הזמן הסתבר ).DG- בין אם בPSGבין אם מדובר בפורמליזם מבוסס ( הקטגוריות האלה של

.The House That Jack Built:" This is the malt that lay in the house that Jack built"גלי מתוך תרגום לרוסית של השיר האנ,n 2 .עבד-אדוןולא גרעין במובן של המודל , הוא גרעין של צירוף שמניגרעיןבהקשר זה פירושו של המונח 1 Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 55: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

41

])bresnan01[ ,]essex-lfg95 ([או בדקדוק מבנה צירופים 1אשר מכיל אלמנטים של תלויות LexGram]) könig99 ([החוקים מתייחסים ליחידות לקסיקליות בודדות. קטגוריה תיאור

VERB (V) . לשמש כפרדיקט של משפטגרעין שיכול כולל גם מצביעים על אובייקטים כאלה , במציאותגרעין שיכול לסמן אוביקט מוחשי או מופשט שקיים .)כינוי גוף(

NOUN (N) פעליים או (גרעינים שתפקידם לשרת גרעינים אחרים על מנת שיוכלו לתפקד במבע בהתאם ליחס ) שמניים .ניהם שלהם כלפי אדותחביריה

FUNC (F) של תהליכים או תכוניות גרעינים שתפקידם לתאר .אלהשונים של התהליכים או האובייקטים הלהבחין בין מופעים ובאופן כזה לסייע אובייקטים

ATTR (A) .דעב-אדון הקטגוריות של השפה העברית על פי המודל :3.1 טבלה INTENS (I) .גרעינים שתפקידם להעצים תכונות

Table 3.1: The Hebrew categories according to the MASTER-SLAVE model. מנוסחים במונחים של מעשית קשה מאוד לבטא חוקי דקדוק של שפה טבעית כשהם , כמובן לי לכן יש למצוא את רמת ההכללה המאפשרת לתאר את תופעות השפה באופן כל. יחידות בודדות נה ב הלכו בכיוון זה ותבניות הפעלים שהם יצרו מסודרים במFRAMENETגם מפתחי הפרויקט .We introduce many intermediate levels between lexical items and lexi-cal categories, by organizing the grammar around the notion of sub- categorization ([barbero98], p. 1) :קטגוריות כאלה- במונחים של תתפההש את כללי על מנת לתארלאוסף מצומצם של פעלים איטלקייםקטגוריליות -אשר בנו היררכיות תת Torinoועמיתיה מאוניברסיטת )]Barbero )]barbero98בעבודתנו הלכנו בעקבותיהם של . קיימות בהות שאינןתופע" לתאר"ומצד שני לא דעתנו היא שבחירה הולמת של .2ררכיות רק עבור פעליםהי בנויש לציין כי החוקרים האלה .היררכי במהלך מחקרנו חשבנו על בעיה זו ויצרנו .רמת הכללה חשובה גם לתיאור של קטגוריות אחרות

1 f-structures של LFGמפתחי ה 2 . הם בהחלט מבנים מבוססי תלויות-FRAMENETיצרו גם הררכיות תבניות של שמות הנגזרים מפעלים . Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 56: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

42

" הקירוב הראשוני"זהו רק , כמובן.פרט לפועל, קטגוריאליות אף לקטגוריות אחרות-היררכיות תת -קטגוריה יכולה לרשת מתת-במודל שלנו כל תת. 1 הוא שבו מתאפשרת ירושה מרובהFRAMENET - אחד הדברים שהפריע לנו ב.)]framenet04[ -ב(ועבור שפות אחרות ]) stern94[-ו] ornan02([ תוך שימוש בעבודות שנעשו עבור השפה העברית ובעתיד אנו מתכוונים להרחיב היררכיות אלה שנמצאים במסלול ממנה עד לשורש קטגוריה יורשת את כל השערים -כל תת. קטגריה אחת בלבד , VFUNCהוא בעל השערים )V-RISE-1(עלה הפועל )3נספח (a.1באיור , כך למשל.ההיררכיה VATTR ,LOC ,TIME ,AGENT ,LOC_SRCו - LOC_TRG.הבפורמט דוגמה של גרעין. הלקסמות שמופיעות בקורפוס המחקר שלנו ניתן לראות את אוסף 2 בנספח -XMLמצוא בנספח תוכלו ל אחת . למרכז המשמעות של המבעאנחנו שמים פועל Fillmore - וTesniére עבודותם של בעקבות )VERB (פעל 3.2.1 .4 ישנם יש לזכור כי .2ההגדרות של הפועל היא שזו מילה שיכולה לשמש בתור פרדיקט של משפט לכן אנו . משמשות בתור פרדיקט) כינוי גוף ותואר, פועל(מילים בעלות שלוש קטגוריות שונות .מדינה גבוה דני )3.5( .תלמיד הוא דני )3.4( .' טבכתה לומד דני )3.3( :משפטים הבאיםשלושה ב, ל למש.הפרדיקט מובע בעזרת קטגוריוה אחרתסוגים של משפטים בהם ם כאלה מביעות את פרדיקט המבע לחשוב במקרים כאשר מילי])ornan02[-בדומה ל (מעדיפים גישה כזאת ). השואה וכדומה, אוגד( פרדיקטהקטגוריה של -שהקטגוריה התחבירית שלהם היא תת ואז ההבדל בין סוגים . אותו אלגוריתםבעזרתמאפשרת לבצע ניתוח של שלושה המשפטים לעיל -יה תתניתן לראות היררכ) a.1 ראיו( 3נספח ב. שונים של פרדיקטים שקוף לתוכנית הניתוח , גלגל מחדשה אתכדי לא להמציא. במהלך מחקרנואשר שימשה אותנועבור הפועל קטגוריאלית .והתאמנו אותו לצרכי המודל שלנו] FRAMENET] framenet04חסים מהפרויקט ילקחנו חלק מה 1 Multiple Inheritance.בה היא בכך שאם לשני אבות של צמת מסוים יש אותה תכונה בעיתיות של הירושה המרו , ."a word that serves as the predicate of a sentence "- פעול מוגדר כWORDNET-ב 2 .גדר מאיזה מהם יש לרשת את התכונהלא מו

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 57: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

43

כאשר . ט המרכזי של משמעות מבע לא שלםעבד שם עצם יכול לשמש בתור האלמנ-במודל אדון )NOUN(שם 3.2.2 אלא , אזי לא זה בלבד שהשם הוא הגרעין המרכזי, מבע כזה מכיל פסוקית לוואי שמתארת את השם - זוהי תת.Measure, למשל, כמו, ת בתוך השםו נפרדקטגוריות-אנו מיחדים תת, עם זאתיחד לכן נוח להתייחס לשניהם בתור אובייקטים מאותו סוג .סמנטיות תכונות לוחסרותפרט לכך ש, 1כי תפקידו במבע לרוב זהה לזה של השם" שם"הגוף כבעל קטגורית לכינוי יםנו מתייחסא. שםעבור הקטגוריאלית -ניתן לראות היררכיה תת) a.2איור ( 3בנספח . במודל שלנו תפקיד חשוב מאודהעצם לכן לשם . יש במבע פעול אשר תלוי בשם הזה , אבל גם כשמות רגילים, יכולים לתפקד במשפט גם בתור כמתיםMeasure מסוגגרעינים .סופית שלנו היא למצוא מבנה המשמעות ההבחנה הזאת נראית בעינינו חשובהמשום שהמטרה ה .קמח הרבה, תפוחים שני )3.7( בצירופיםהרבה- ושני הוא כמו זה של כוס- וקילוגרםתפקידם של .כוס קמח, תפוחיםקילוגרם )3.6( בצירופים ,למשל. הכמתגרעינים שמניים אשר תפקידם במשפט יכול להיות כמו זה של שמתארת קטגוריה משמעות -ישנו כאן סוג של רב, כלומר. ] )Ultra_nom )Ultranominal Noun ,]barker92כלומר כי אפילו עבור סמיכות , המצב הוא עוד יותר קשה, למעשה .Ultra_nom או Measureלקטגוריה מכך שעל פי מילה בודדת במשפט איננו יודעים אם היא שייכת שנובעת) לקסיקלית-מורפו(אטומית .כוס מים שברתי )3.9( -ו .כוס מים להוסיף )3.8( : שוניםבשני הקשרים" כוס מים"הסמיכות ניתן לראות את 3.7 באיור, למשל. קטגוריה של הנסמך-של שתי מילים איננו תמיד יודעים מהי תת

.pro-nounמכאן גם השם האנגלי עבור הקטגוריה הזו 1 Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 58: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

44

- אנו מחלקים לשתי תתהשמותאת שאר .שברתי הפועל שלPATIENT עבד מסוג הנו כוס הגרעין ובמקרה השנילהוסיף של פועל המשפט PATIENT מסוג הוא עבדמיםהגרעין במקרה הראשון .Measure. Figure 3.7: An example of the Measure nouns ambiguityקטגוריה -משמעות של שמות בעלי תת-רבדוגמה ל: 3.7איור -עבור תבניות של שמות מתת. נגזר השםהפועל ממנו ה שלנדומה למב) פעולההשמכילה שמות ( Action_nameקטגוריה -מבנה של השם בעל תת. Ultra_nom- וAction_name: קטגוריות בנו ] framenet04[-כך ב. קטגוריה זו ישנן היררכיות שמתארות את מערכת היחסים ביניהם - וBarker. לא נחקר מספיק עדיין Ultra_nomקטגוריה - של השמות מתתהמבנה זאת לעומת . היררכיה של שמות כאלה בהתבסס על היררכית הפעלים Dowtyראו (שמניים-אולטרהלשמות הראשונים אשר התחילו להתעניין בתפקידים תמטיים של גרעינים ביחס היו הבלשנים]barker92([. 3.2.3 תכוניות )ATTRIBUTE( יכולים להתקיים מופעים רבים של אותו מושג , אותו אנחנו ממדלים בעזרת השפה, בעולם האמיתי במודל . התכוניות מסייעות להבחין בין מופעים אלה). של תהליךהן שם של עצם והן שם (מופשט , כמו גדול (ןשר אינן תלויות בסביבת לתכונות של שמות אסלהתייחתכוניות שמניות יכולות .שמניות תכוניות .ב , פעליותתכוניות .א : מאיכותעבד אנו מבדילים בין שני סוגי תכוניות לפי קטגורית המושג אותו הן -אדון והן גם יכולות לציין את כמות של אובייקט . Adjectivesתכוניות כאלה נקראות ). אדום וכדומה . טובהמילה , למשל. של פעלים והן של שמות הן תכונות איךגם תכוניות אשר יכולות לתתכנה ).Ord( דומים םאובייקטי או מספרו הסידורי בסדרת )Quantifier(בעולם המסומן על ידי הגרעין . בלי פירוט נוסף, ATTRבמקרים כאלה נאמר שקטגורית הגרעין היא

Ultra_nom מיםv להוסיף MeasurePATIENTכוס )ב()א( Ultra_nom מיםvPATIENT שברתי Ultra_nomכוס

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 59: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

45

.תכוניותקתגוריות של הקטגוריה -תת: 3.2 טבלה ORD NATTR מהיר QUANT שני ADJ חכם ADV VATTR מהר קטגוריה קטגוריה-תת דוגמה Table 3.2: The ATTRIBUTE category sub-categories. על והן בשם ומבחינת התוכנית שבונה את גרף המבע זה אומר שהגרעין יכול להיות תלוי הן בפ שכל האילוצים על יצירת הקשתות , בתנאי, כמובן, והיא יכולה לבנות קשתות משני סוגים, עצם אילו היינו מבחינים במקרה זה .)ב- 3.8איור (עושה-והן את המחקר-ה הן את לאיך יכול טובהגרעין .טוב מחקר עושה הוא )3.10( במשפט, למשל. מתקיימים .1מקבלים צומת נוסף בגרף המבע היינו Adj- לAdvבין

, מאוד, למשל.ך תכוניות שמאיכות שמות או פעליםקטגוריה זו מכילה מילים ספורות שתפקידן לאי )INTENSIFIER( מעצים Figure 3.8: An attribute that can describe both verbs and nouns. 3.2.4 .)צוירים באותו צבעביים מאלטרנטיצמתים ( זמניתו ושם בתכונית שיכולה לתאר פועל: 3.8איור ,למשל. יכולים לאיך פעליםהמעצימים , בנוסף. וכדומהביותר, הכי, יותר .היטבמשמעות אם כדי להביע את תואר הפעולה נשתמש במילה -ביש לציין כי מקרה זה ניתן למנוע ר 1

)ב()א( Ultra_nom מחקרpronPATIENT הוא Ultra_nom מחקרpronPATIENT הואAdvטובAdjטובvעושה Attrטובvעושה

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 60: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

46

.בעיר תפוז הכי )3.12( :עצםמעצימים מאיכים שמות וישנם אף מקרים כאשר .אותך אוהב מאוד אני )3.11(

לשרת גרעינים אחרים על , כפי שנובע מהשם, )הגרעינים הפונקציונאליים (תפקידם של המשרתים )SERVANTS( משרתים 3.2.5 שבנינו עבור השפה אות את ההיררכיה של הגרעינים הפונקציונאליים רניתן ל )a.4איור (3בנספח .מנת שיוכלו לתפקד במבע בהתאם ליחס הסמנטי שלהם כלפי אדוניהם לשים לב לכך יש .ד עם דוגמאות יחהמשרתיםקטגוריות של -מובאות תת 3.3 בטבלההעברית ו -ה אשר מחוברים לשערישל המשרתים יכולים להיות עבדיםים אחדים לסוגעבד-אדוןבמודל ש PREP למשל, כך. 1 מסוג זה תמיד מתחברים לשער הפונקציונלי של גרעין פעלי או שמניגרעינים . שלהם , כדי שזה יהיה מסוגל לתאר ) הפועל של משפט זיקה(גרעין שימוש שמשמש גרעין פעלי במשפטים .משרתקתגוריות של הקטגוריה -תת: 3.3 טבלה DEMO NFUNC זה DET -ה ACC את POSS של PREP אצל NOT VFUNC אל UNCIRT האם ADVER כאשר COMPL כי REL אשר קטגוריה קטגוריה-תת דוגמה . המשיחשיבוא מחכים )3.14( . המשיחלביאת מחכים )3.13( ).שם זוקק(גרעין שמני Table 3.3: The SERVANT category sub-categories.

.VFUNC -ופעלי NFUNC שער פונקציונלי שמני נקרא 1 Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 61: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

47

התלות הזאת בין קיומן של הקשתות . מחכים -של הגרעין הראשי של המשפט THEME-s-לשמש כ כדי שאלה יוכלו יבוא - וביאתם י של הגרעינםהפונקציונאליינכנסים לשערים ש - ולהגרעינים .Figure 3.9: Symmetry of verbal and nominal nuclei in the MASTER-SLAVE model .עבד-אדוןסימטריות של גרעינים פעליים ושמניים במודל : 3.9איור :במשפט, למשל. לעיתים אותו גרעין יכול לשמש הן כמשרת פעלי והן כשמני .תלות מסדר שני אשר נקרת ותמקוק באה לידי ביטוי בקשת םהפונקציונאליישערים לבין המצב של הTHEMEמסוג

כדי להדגים . אינם נדירים כלל בשפה העברית3.16 יש לציין כי צירופים דומים לזה שבמשפט ).3.10 איור(ללמד משרת את הגרעין הפעלי באותו גרעין .תורה בללמד עוסקים )3.16( ובמשפט תלמוד משרת את הגרעין השמני בהגרעין .תורה בלמוד עוסקים )3.15( . GOOGLEבעזרת מנוע החיפוש בללמוד של התמנית באינטרנטביצענו חיפוש , את העובדה הזו כל מופע של התמנית יתייחס , )מדבלל(היות ותמנית זו יכולה להביע משמעות אחת בלבד ת של מופעים ולהלן מספר דוגמא. בללמד מופעי הגרעין 469בצורה כזאת מצאנו. למשמעות הזאת .פ את לוח הכפל"ול בללמוד בעאני לא מוצאת פס .רוב היהודים בארץ לא מבינים ערבית ולא משקיעים בללמוד אותה .כדאי שאביב יתמקד בללמוד מחשבים )(3.19 )3.18( )3.17( :כאלה

NביאתVמחכים THEMEיבואVAGENTהמשיחDET+ N DET + NהמשיחVFVFUNCAGENT-ש NFNFUNC-ל NביאתVמחכים THEMEיבואVAGENTהמשיחDET+ N DET + NהמשיחVFVFUNCAGENT-ש NFNFUNC-ל

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 62: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

48

או , גרעין פונקציונלי שמניכאשר (נשתכנע שתופעה זו , םהפועליי המספרים עבור כל הגרעינים אם נסכם את . בהקשר זהאחד בלבדפעלי עין מספר זה מתאר את אוכלוסיית המופעים של גר .Figure 3.10: Multi-functionality of functional nuclei in the MASTER-SLAVE model .עבד-אדון של גרעיני שימוש במודל פונקציונליות -רב: 3.10איור ה גישתנו מאפשרת לטפל בתופע.עבריתדי נפוצה ב) מאיך גרעין פעלי, בשפה המקובלתמילת יחס לטיפול במקרים שמקובל לטפל בהם נוח בסיס וה ו מהגישתנו ניתן לומר ש,יותר כלליבאופן .םלפועליי הן לגרעינים שמניים והן ה אחידצורהבהזאת כמו (נטויות היא צורת ההתייחסות למילות שימוש עבד-אדוןספת המייחדת את המודל תכונה נו .בעל קטגוריה דקדוקית מסוימת מבצע תפקיד שבדרך כלל מבצע אותו גרעין בעל קטגוריה אחרתשבמקרה כזה גרעין כלל לכך מודעתאינה תוכנית הניתוח שלנו .)Transference(העברה בעזרת רת צו. הגרעין הקונספטואלי המבטא את כינוי הגוף והגרעין הפונקציונלי שמשרת אותו: גרעינים משמעות של מילים כאלה אנו מייצגים על ידי אטומים אשר מכילים שני .)שלנו - ואותנו, אלינו רק לאיך את הגרעין , למעשה, שתפקידו(משמעות המבע עולה על זאת של גרעין השימוש הרי חשיבותו של הגרעין הקונספטואלי עבור : הסתכלות כזאת משקפת את עקרונות המודל שלנו בטבלה זו אנו מתארים עבור .בשפה העברית לתופעת ההסתגלות מובאות דוגמאות 3.4 בטבלה .לבדוק בתוכנית את התאמת הסטטוסים של שערי הגרעינים לצורתם החיצונית מקרה כזה היינו צריכים לכל, היינו עושים זאתלולא. מחוץ לאלגוריתם הניתוח בהאת הטיפול ובצורה כזאת לאפשר למודל שלנו להוציא האות החלטנו להגדיר פורמט מיוחד כדי לתאר .הסתגלות וקראנו לתופעה הזו בשם בערכיותויכול להביא לשינוי גרעיןבצורת השינוי ש הקודםראינו בפרק חוקי הסתגלות 3.3 .גרמנית ועוד, רוסית, יתלאנג - ב היטב עם המצב בשפות אחרות זה מתייש.)הקונספטואלי .PROHIBITED- לDEMANDED-מיישתנה INFINITIVEשצורתו פעיל של פועל AGENT-שער הסטאטוס , למשל.לערך החדש וין במילון הגרעיניםישתנה מהערך שמצ השער המושפעסטטוס , מסוימותתכונות צורניות בעלי של גרעיניםקטגוריות-קטגוריות ותתאילו

DETלמודVעוסקים THEMEללמדVAGENTתורהDET + N DET + NתורהFVFUNCAGENT- ב FNFUNC- ב DETלמודVעוסקים THEMEללמדVAGENTתורהDET + N DET + NתורהFVFUNCAGENT- ב FNFUNC- ב

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 63: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

49

החדשהסטטוס

הגרעיניםשבמילון הסטטוס

.אוסף חוקי ההסתגלות: 3.4 טבלה PROHIB DEM AGENT {INF} Active VERB OPT DEM AGENT {PRES,3,M,PLUR} Active VERB OPT DEM AGENT {FUT,2,NA,SING} Active VERB OPT DEM AGENT {IMP,2,F,SING} Active VERB DEM OPT CONSTR {CONSTR, NA, NA} Ultra_nom NOUN PROHIB OPT NFUNC {DIR NA, NA} Ultra_nom NOUN PROHIB OPT NFUNC {NA,NA,NA} Proper NOUN קטגוריה קטגוריה-תת צורניתתכונות המושפעהשער Table 3.4: The adaptation rules set. 3.4 היכולת של . לבה של הכושר הלשוני-ליצירת קשתות תלות בין גרעינים סמנטיים הן לבתבניות בגרף מבעיצירת הקשתות פרק זה אנו - בתת.המערכת ליצור קשרים בין הגרעינים מהווה במודל שלנו בסיס להבנת המבעים ואחר כך נציג את התבניות שאנו בונים כאן ר באופן כללי את היררכית הקשתות במודל הכושר נתא -תתהמתארת קשרים בין הצמתים הפנימיים של ההיררכיות - קטגוריאלית-רמה תת .ב .ות התחביריות במונחים של הקטגריתתארנה ברמה זו הקשתות - רמה קטגוריאלית .א :)3.11 איור (ללהניתן לתאר בשלוש רמות ההכעבד -אדוןאת הקשתות במודל וירושת קשתותרמות של קשרים 3.4.1 .עצמן קשרים כאלה ; בודדיםסמנטיים גרעינים קשרים ברמה זו מקשרים בין - רמת הגרעין .ג .קטגוריאליות . בהיררכיהאנו יורדים , לא ניתןאם מסתבר שזה ; אנו מנסים לתאר כל קשת ברמה הגבוהה ביותר .מטפורייםקשרים נקראים גם לתואר עבור תבנית הקשת בין שם עצם םהרלוונטייאנו יכולים לתאר את כל האילוצים , למשל .ברמה קטגוריאלית ATTRשסוגה

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 64: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

50

.Figure 3.11: Three levels of the connectors .שלוש רמות של קשתות תלות: 3.11איור גרעין יורש את כל השערים הכי ראינו הגרעינים קטגוריאליות של -תת היררכותכשדיברנו על .ידינו-על נבדק הנושא )3.21( תאור הקשר בין אותם הגרעינים במשפט שונה מהנושאלבין דקנובהגרעינים התואר של הקשר בין .הנושא את בדקנו אנחנו )(3.20 במשפט , למשל .פעיל לשםמשום התנאים על קיום הקשת בין פעול סביל לשם שונים מאלה על קיום הקשת בין פועל , כזאת איננו יכולים לתאר ברמה THEMEאת תבנית הקשת בין פעול לשם שטיפוסה , לעומת זאת ף את היכולת של הוא יורש אעצמםפרט לשערים . ההיררכיה על המסלול ממנו לשורש הנמצאים 1יהיה ריק THEMEמטיפוס של עבדו NFUNCשער הכל פועל פעיל דורש ש, למשל. )default inheritance(כזאת נקראת ירושת המחדל ירושה . השער ליצור קשרים עם גרעינים אחרים

. אינו מיודעשמניהה כאשר גרעין העבד 1

Legend: Connector templateTHEME Connector Overloading Second Order ConstraintActive THEMEVERB NOUN NATTRUltra_nomid=V-WAIT-1חכה THEME NFUNC ATTR{ל}{Ø ,את }

!

!

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 65: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

51

קתגוריה - לבין צמת שמייצג תתקטגוריאלית של הפעלים-תתצמת שמייצג פועל פעיל בהיררכיה את העובדה הזו ניתן לתאר על ידי תבנית קשת בין.1אתקשת מגרעין פונקציונאלי אליו תיכנס או ש Ultra_nomהפועל , למשל.אבל עובדה זו אינה מתקיימת עבור כל פועל פעיל . בהיררכית שמות את לבטלניתן , כלומר .-ל של עבדו תיכנס קשת מגרעין פונקציונאלי NFUNC- דורש שלשער החיכה קטגוריות כלשהן אלא במונחי - תתבמונחים שלן לא לתאר ישנו סוג של קשרים אותו נית .2המוגדרת ברמה הנוכחיתבתבנית הנורשת להעזר בתבנית ובעת בניית הגרף במקום להשתמש הנורשת מאחד האבות בהיררכריההקשתבנית תהגדרת בין TRG_LOC לא ניתן לבטא בעזרת הקשר מטיפוסהעצבים בין לעלהאת היחס בין הגרעינים .יםהעצב על עלה )3.22( בביטוי, למשל .גרעינים סמנטיים בודדים , יש משמעות מיוחדת העצבים - לעלה לקשת בין .NOUNשל קטגוריה -תת איזושהי לבין עלההפועל קשרים .טפורייםמקשרים נקראים קשרים כאלה .ולכן יש לתאר אותה ברמה של גרעינים בודדים ומשמשות את תוכניתנו בעת בניית מלמעלה בהיררכיה תבנית הנורשת מבטלים את המטפוריים עם .אנו נציג את תבניות הקשתות לפי הסדר הזה החל מהקטגוריות הנמוכות בהיררכיה, הקודם בפרקשתארהההיררכיה הקטגוריאלית פי על בדע- אדוןהיות וקשתות גרף מבע נוצרות במודל מאגר התבניות ליצירת הקשתות 3.4.2 .נעבור כעת לתאור של תבניות הקשתות עצמן .קשתות גרף המבע בין הגרעינים הבודדים הללו שחורגים מהסכמה הכללית המובאת באיור זה ועל מנת לעשות ישנם מספר מקרים זאת יש לציין כי כאשר גורם , קטגוריות- בטבלה זו האדון והעבד של כל קשת מתוארים במונחים של תת).stage( ןעל פי סדר יצירתהמסודרת כל סוגי התבניות רשימת את3.5 אנו מביאים בטבלהבדברים סדר של שלא קיבלו בחודש הזה את המילגהמתוך שלושהחדשים כל שני סטודנטים )3.23( ,3.23 משפט נלקחות מתוך 3.5 כל הדוגמאות בטבלה .בין שני שמות מרוחקים שמקושרים בעזרת מילת שימוש לפני קשת שמחברת תוצרנהשמות עצם קשתות שמציינות סמיכות בין שני , למשל.יצירת הקשתות הגענו למסקנה שהגורם הזה משפיע על סדר . הוא המרחק ביניהם במבעstage-נוסף שמשפיע על ה .אל מתחת לקו העוניבמהירות עלולוים לרדת , כפי שהובטח להם,משרד החינוך .overloadingבשביל תופעה כזו אנו משתמשים במונח מתכנות מונחה עצמים 2 .מיודע השמני כאשר גרעין העבד 1

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 66: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

52

.עבד-אדוןקטגוריות של השפה העברית במונחים של המודל -אוסף הקשרים האפשריים שיכולים להווצר בין תת: 3.5 טבלה ROOT -- -- VERB ROOT עלולים ANY_DIST VERB VERB הובטח-קיבלו כפי ש קיבלו הובטח ANY_DIST VERB AUX_V עלולים לרדת עלולים לרדת ANY_DIST NOUN VERB קיבלו מלגה קיבלו מילגה ANY_DIST VERB NOUN סטודנטים שלא קיבלו סטודנטים קיבלו ANY_DIST ADV VERB לרדת במהירות לרדת במהירות ANY_DIST NOUN NOUN מילגה של משרד-ה מלגה משרד ANY_DIST VFUNC VERB הובטח-ש הובטח -ש ADJ_TOKENS DONOT VERB לא קיבלו בלוקי לא ADJ_TOKENS NFUNC NOUN קו-ל קו -ל ADJ_TOKENS QUANT NOUN שני סטודנטים סטודנטים שני ANY_DIST DEMO NOUN זה-חודש ה-ב חודש זה ADJ_TOKENS ADJ NOUN סטודנטים חדשים סטודנטים חדשים SAME_TOKEN DET DEMO זה-ה זה -ה SAME_TOKEN DET NATTR ממשלתית-ה ממשלתית -ה SAME_TOKEN DET NOUN מלגה-ה מלגה -ה ADJ_TOKENS QUANT QUANT כל שני שני כל ADJ_TOKENS PREP REL (FE) -כפי ש -ש כפי ADJ_TOKENS PREP PREP -מתחת ל מתחת -ל ADJ_TOKENS NOUN NOUN קו עוני קו עוני אדוןקטגורית עבדקטגורית 1מרחק דוגמה אדון עבד Table 3.5: The set of all possible connections between Hebrew sub-categories in terms of the MASTER-SLAVE model. מתארת הטבלה הזאת .בהן מטפלת המערכת שלנוקשרים האפשריים את כל ה, למעשה, אשר מכיל בנספח . XML-הפרמטרים עבור כל תבנית קשת כזאת נשמרים במאגר הנתונים שלנו בפורמט ה .לית וכן ההתאמה הקונספטואגרעינים אשר יכולים להיות בין גרעיני הקשת במבה הפרספטואלי קטגוריות של המרחק בין תמניות אלה, סדר בין התמניות שמציינות את גרעיני הקשת, מורפולוגית התאמה כגון, הקודםכל האילוצים שראינו בפרק צריכים להתקיים תוצרנהמנת שהן אכן על . המבעקטגוריות של גרעינים יכולות להווצר קשתות בעת בניית גרף-בין אילו תת, באופן כללי

.2הקשתות בהן אנו משתמשים לצורך בניית הגרףישנן דוגמאות לייצוג כזה של תבנית הקשת ובאתר הפרויקט שלנו תוכלו למצוא את אוסף 4בתמניות סמוכות , )SAME_TOKEN(בחינים בין המקרים כאשר הגרעינים יכולים להופיע במבע באותה תמנית אנו מ 1 )ADJ_TOKENS ( או במרחק כלשהו)ANY_DIST.( 2 http://www.cs.technion.ac.il/~manya/MSc-Project/MSc-ompetence/connectors.

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 67: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

53

ביחד כדי לבטא פונקציונליות שלא ניתנת להבעה על ידי לעיתים גרעיני השימוש מתחברים בעברית צירופים של גרעיני שימוש Figure 3.12: Chains of functional nuclei: (a) nominal; (b) verbal. 3.4.2.1 .פעלי) ב(; שמני) א: (גרעיני שימושצירופים של : 3.12 איור -מתחת ל( ראינו את התופעה הזו הן עבור גרעין שימוש שמני 3.23 במשפט. גרעין פונקציונלי בודד במקרים כאלה אנו מחברים בין גרעיני שימוש בעזרת ). -ש כפי(והן עבור גרעין שימוש פעלי ) עבור הצירופים הבאים של שמות עם מילות היחס3.13באיור , למשל. והפעלים השימוש לגרעיני התוכן מוגדרים בצורה סימטרית עבור השמות במודל שלנו התלויות בין גרעיני בין גרעיני השימוש לגרעיני התוכןקשתות 3.4.2.2 .3.12 הקשתות כפי שמופיע באיורופים הבאים של פעלים עם לזה שעומד מאחורי הציריאיזומורפאנו מציעים מבנה תחבירי .של הסטודנטים, את הסטודנטים, אצל הסטודנטים )3.24( .הבטח כאשר, הבטח אשר, הבטח כי )3.25( :םפועלייגרעיני שימוש

מכך שלכל . ם שלהFUNC-השער יכולים להתחבר לגרעיני התוכן אך ורק דרך שהשימוגרעיני , לכן אנו לא ניתחנו קשרים מסוג זה. סוג זה של תלות נחקר רבות בעבודות שעסקו בניתוח סמנטי תלות של שם בפועל 3.4.2.3 .כל סוג שהו לא יכולים להתחבר יותר מגרעין פונקציונלי אחד בו זמניתמ לגרעין תוכן נובע כי, אחד ויחידיכול להתחבר רק גרעין, שער של קדקוד אשר שייך לעץ משמעות ניתן למצוא 3.14יור בא. שות עבור הפעלים שבקורפוס שלנונדראלא פשוט הגדרנו את התבניות ה .דוגמה לתלות מסוג זה

NF-ל VF-שNFFUNCמתחת FFUNCכפי )ב()א(

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 68: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

54

.Figure 3.13: Connectors between functional and conceptual nuclei: (a) nominal; (b) verbal .פעלי) ב(; שמני) א: ( לגרעני התוכןקשתות תלות בין גרעיני שימוש: 3.13 איור

.Figure 3.14: Dependency between nominal and verbal nuclei .של גרעין שמני בגרעין פעליקשתות תלות : 3.14 איור

במידה רבה הן אלהת כיותלו. ת תלות של פועל בשםו אנו הגדרנו תבני1על מנת לטפל במשפטי זיקה תלות של פועל בשם 3.4.2.4 הוא חייב , ברב המקרים על מנת ששם יוכל לתפקד כעבד מסוג מסוים של פועל , שראינוכפי . של שם בפועלתיוסימטרית לתלו , למשל. הוא חייב להיות מאויך על ידי גרעין שימוש פעלי מתאים, מנת שפועל ישמש כעבד של שם על , גם כאן,ן דומהבאופ. -בהוא חייב להיות מאויך על ידי הגרעין , קבלוהגרעין של TIMEמסוג יתפקד כארגומנט חדשכדי שהגרעין , כך בדוגמה הקודמת. 2מילת יחס מתאימהלהיות מאויך על ידי ף ובצר .חוקרים תופעות או החוקרים חוקרים, למשל, פרט לארגומנטים שתפקידם התחבירי הוא נושא או מושא ישיר כשהוא לא מיודע 2 ).או צירוף שמני(מש כלוואי של שם עצם הוא משפט משועבד המשזקהמשפט , להזכירכם 1

Nחדש VFUNC NF -ב }-ב{VTIMEקבלו !Vהבטח VFVFUNCכי VFכאשרVFאשר Nהסטודנטים NFNFUNCאצל )ב()א(NFשלNFאת

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 69: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

55

.אכילה- למשמשת- שכפית-ה )3.26( נפנה לשפה בין תלות השם בפועל לבין תלות הפועל בשםלהמחיש עוד יותר את הסימטריה כדי .)3.15 וראי( משמשת לבין -ש בין קשתה בקיומה של מותנית כפית גרעיןב משמשתין של הגרעהתלות גרעין שימוש המאיך את של בפעול לאו דווקא מחייבת את קיומושםהת תלובשפה זו. הרוסית משפט הרוסיב, למשל. של הגרעין השמניביחסהאלא יכולה להיות מותנית , הגרעין השמני )3.27( кушают ложкой1 [eat<PRES, PLUR>], [spoon <INSTR, SING, FEM>] רוצים אם ). причастие (2 תואר פעלי-באופן סימטרי קיימת ברוסית צורה מיוחדת של הפועל .INSTRUMENTALהיחסה שלו צריכה להיות , )אוכלים( кушают של הפועל INSTRUMENT-יוכל לתפקד כ) INSTR, כפית( ложкойעל מנת שהשם בדומה לזה שמשתמשים ביחסה של שם , ניתן להשתמש בצורה כזאת ,לבטא תלות של פועל בשם ложка, которая используется для еды [spoon <NOM, SING, FEM>], [that <NOM, SING, FEM>], [used <PARTICIP, SING, FEM>] [for <PREP>], [eating <GEN, SING, FEM>] )3.29( ):אשר (которыйאך ניתן לבטא את אותו דבר תוך שימוש במילת השעבוד ложка, используемая для еды [spoon <NOM, SING, FEM>], [used <PARTICIP, SING, FEM>] [for <PREP>], [eating <GEN, SING, FEM>] )3.28( :)3.16 איור ( באופן הבא ניתן לתרגם לרוסית3.26 את הצירוף, כך.על מנת לבטא תלות שלו בפועל

.participle-את שם הצורה הזו מקובל לתרגם לאנגלית כ 2 .אוכלים בכפית 1

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 70: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

56

.Figure 3.15: Dependency between verbal and nominal nuclei .שמני של גרעין פעלי בגרעיןקשתות תלות : 3.15 איור

.которая. Figure 3.16: Dependency between verbal and nominal nuclei in the Russian: (a) using participle; (b) using subordinating conjunction котораяתוך שימוש במילת השעבוד ) ב(; )participle(תוך שימוש בצורה מיוחדת של הפועל ) א( :י בשפה הרוסיתשמנ של גרעין פעלי בגרעיןקשתות תלות : 3.16 איור שני הסוגים האלה של התלות יכולים . תלות כזאת היא סימטרית לתלות של שם בפועל. פועל בשם היא שישנן תופעות בשפות טבעיות שונות אשר נוח לתארן בעזרת תלות של נומסקנת, אזי או צורניים ) מילת יחס מתאימה או מילת שעבוד(להיות מותנים בקיום של אילוצים תחביריים גם בקשרים בין גרעיני התוכן , )פעליים ושמניים(תוכן מסוגים שונים בדומה לקשרים בין גרעיני צירופים של גרעיני תוכן מאותו סוג 3.4.2.5 ). תואר פעלי–דת של הפועל יחסה של שם או צורה מיוח( יכולים להתחבר אחד עם השני בשני גרעיני תוכן מאותו סוג .מאותו סוג אנו מטפלים באופן סימטרי .כזאת מותנית בקיום של אילוצים צורניים קשת . קיום של גרעיני שימוש המאיכים אחד מגרעיני הקשרתדורש השאינ, עצמאית בקשת .א ):3.17 ראיו(אופנים . הקשת יתחבר גרעין שימושקשר שקיומו מותנה בכך שלשער הפונקציונלי של אחד מגרעיני , כלומר, מתנית בקשת .ב

используетсяVVFUNCкотораяVFложкаN VERB {который}! используемаяPARTICIPLEложкаN VERB ) ב( ) א( Vמשמשת VFUNC VF-ש }-ה, -ש{NVERBכפית !

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 71: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

57

.ממשלה של אחדות )3.31( .אחדות ממשלת )3.30( : זרת הדוגמאות הבאותנדגים קשרים אלה בע .עושה -ש מספר )3.33( .לעשות רוצה )3.32( עבור הקשר בין שימוש מילת ( מותנים בקיום של אילוצים תחביריים לולהת יוהתלוסוגי כל ).עבור הפעלים שנישל הגרעין ה שם הפועל או צורה השמותהגרעין הראשון עבור של הנסמך צורת( או צורניים )םפועלייעבור הקשר בין גרעינים מילת שעבודגרעינים שמניים או

.Figure 3.17: Connectors between conceptual nuclei of the same type: (a) unconditional verbal; (b) conditional verbal; (c) unconditional nominal; (d) conditional nominal .שמות בין מותניתקשת ) ד(; שמותקשת עצמאית בין ) ג(; עלים בין פמותניתקשת ) ב(; קשת עצמאית בין פעלים)א( : מאותו סוגהתוכןקשתות תלות בין גרעיני : 3.17 איור

Vעושה VFUNC VF-ש }כי, -ש{COGN_VCONTENTמספר ! לעשותCOGN_VרוצהinfV VERB )ממשלה) ב( ) אN NFUNC NFשל }של{NNOMאחדות ! ממשלת

constrNאחדות N CONSTR )ד( ) ג (Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 72: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

65

• MSCompetenceינטראקציה של התוכנית עם מאגר הנתונים המכיל אחראי על הא . ומוצא את אוסף עצי המשמעות שניתן להסיק מהגרףלעילהאלגוריתם אשר תואר על פי UGBuilder - מבצע ניתוח של גרף המבע אשר נבנה על ידי הUGAnalyzer • .3מבע תוך שימוש במאגר הידע הלשוני על פי האלגוריתם אשר תואר בפרק תפקידו של המודול הזה הוא בהינתן המבנה הפרספטואולי לבנות גרף :UGBuilder • ).חוקי ההסתגלות וכדומה, תבניות של הגרעינים וקשתות התלות(את הכושר הלשוני

. .Figure 4.5: The MSc-Project Modules Diagram .עבד-אדון של הפרויקט המודוליםתדיאגראמ: 4.5איור

Morpho UGBuilder UGAnalyzerMSCompetence.DBLinguisticCompetenceDBMSCompetence.GUI בראשית ברא ... MTrees SetUtterance MSBasics MSStructures MSUtilsMSUMainMorpho UGBuilder UGAnalyzerMSCompetence.DBLinguisticCompetenceDBMSCompetence.GUI בראשית ברא ... MTrees SetUtterance MSBasics MSStructures MSUtilsMSUMainThe Main ModuleMSUMain MSBasics Auxiliary ModuleUGBuil der The Algorithm’s

Pipeline ModuleLinguisticCompetenceDB Data Data Flow

Legend:

The Main ModuleMSUMain MSBasics Auxiliary ModuleUGBuil der The Algorithm’s

Pipeline ModuleLinguisticCompetenceDB Data Data Flow

Legend:

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 73: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

66

. PerceptStruct בונה גרף מבע על סמך המבנה הפרספטואלי אשר נקרא UGBuilderהמודול הניתוח המורפולוגי4.2.2 במהלך המחקר ניסינו מספר . המבנה הזה נוצר מהפלט של מנתח מורפולוגי כלשהו לשפה העברית . שימוש במנתחים המורפולוגיים הללו היא בכך שהם לא נותנים ניתוחים במונחים של המודל שלנו של תאחת הנקודה הבעייתי. hspell04([1([ המחשב של הטכניון למדעיבפקולטה אשר פותח hspellוגם מנתח " ולטיטקסטמ" של החברה $MULTI_XADA- וNAT: כגון, מנתחים מורפולוגיים ות של גרעינים ואף תחבירי-בהתייחסות לתכונות המורפו, יש מספר הבדלים בקטגוריות התחביריות בסופו של דבר בחרנו . 3בתוצאותיהם של המנתחים הללו מצאנו מספר שגיאות קטנות, לכךפרט . 2בחירת הגרעין הראשי בתמנית כאשר היא מכילה יותר מגרעין אחד אך בגלל הבעיות שתיארנו ליעל היה עלינו לבצע עיבוד , $MULTI_XADAלעבוד עם המנתח נתח נתן ואנחנו סיננו את תוצאותיו עבור המשפטים בקורפוס שלנו באופן ראשוני של הפלטים שהמ .XML-אותו מבע בפורמט ה תוכלו לראות דוגמא של משפט מנותח לפני העריכה ושל המבנה הפרספטואלי עבור 5בנספח . ידני

.Figure 4.6: Morphological Analyzer setting .בחירת מנתח מורפולוגי: 4.6איור אך קיימת אפשרות להריץ אותה כך שהיא תספק , )spell-checker( נכתבה כתוכנת בדיקת איות hspellהתוכנית 1 ' שפות טבעיות בנהחיית פרופפרויקט נעשה במסגרת המעבדה לעיבוד. את המידע המורפולוגי לגבי המלה הנבדקת כאלמנט ) שרת שמני(במקרה של מילת יחס נטויה אנו מסתכלים על כינוי הגוף כגרעין הראשי ומילת היחס , למשל 2 .אורנן ויאן ציטרין התאמות נוספות - ישנן אי.אליה הייתה הכוונה בהקשר המבע) המס(ממסים ולא מצא את הלקסמה )מס(ממסים , )יםס( ממסים נתן לקסמות $MULTI_XADAהמנתח " ממסים" עבור התמנית ”.ממיסים בה את השוקולד“במשפט , למשל 3 .משני . אך תיאור מפורט של נושא הניתוח המורפולוגי חורג מתחום עבודתנו

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 74: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

67

. עוסקים בבניית הצמתים והקשתות של גרף המבעMSCompetence - וUGBuilderהמודולים מאגר נתונים לשוניים4.2.3 MSCompetence.GUI למאגר הנתונים של המחשבעבד-אדוןהמודל מסייע לבלשן להזין בצורה נוחה את הכושר הלשוני שלו במונחים של .MSCompetence.DBמספק מנשק המאפשר ל - UGBuilderמנשקי אנו מתארים את 9בנספח . להשתמש בנתונים האלה לצורך בניית גרף המבע תבניות של גרעינים סמנטיים וקשתות תלות וחוקי , כגון (משתמש ליצירת מאגר נתונים לשונייםה מבע הבנת בנינו גם מנשק משתמש לתוכנית, תונים למאגר הכושר הלשוניפרט למנשקים להזנת הנ נשק המשתמש של המנתח מ4.2.4 ).הסתגלות מנשק שבנינו משקף את תצלום המצב הנוכחי בסדרת גזירות ה. עצי המשמעות שניתן להסיק ממנוהמשמעות של מבע כסדרת גזירות של תצלומי מצב החל מגרף המבע ההתחלתי ועד לאוסף של כל אנו מתארים את תהליך מציאת עצי ). a.20 איור 9נספח (עבד-העברי מבוססת מודל אדון שהתוכנית מוצאת יש משמעות מסוימת שהמנתח האנושי לא היה חושב האם לניתוח .3 ; עד כמה הניתוחים שמפיק המנתח שלנו דומים לאלה שמוצא המנתח האנושי .2 ;שונים מוצאת תוכנית הניתוח לכל מבע) עצי משמעות(כמה ניתוחים .1 : השאלות שעניינו אותנו במהלך מחקרנו הן כדלקמן הערכת המודל 4.3 . זו ותוך ) reduce(מצליח המנתח להוריד בכל פעולת צמצום ) בממוצע(כמה קשתות .ב ;)פונקציה של מספר תמניות במבעכ(של גרף מבע ) הממוצע(מהו גודלו .א :כלומר, מהי מהירות הביצועים המעשית של מנתח במונחים של סיבוכיות .4 ;במונחי המציאות אינטרפרטציהניתן לתת לה איזושהי , כלומר, מהבחינה הסמנטית" נכונה"אך היא , עליה אינן מובהקות סטטיסטית משום שהנתונים שבידינו , כי התוצאות שאנו מציגים כאן, מייד נאמר .כמה פעולות צמצום הוא מצליח להגיע לעץ המשמעות תוכן פרק זה בתור סכמה לפיה ניתן יהיה לבצע הערכת המודל כדאי להסתכל על . אינם מספיקים :שלנו ברגע שיהיו לנוTechnion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 75: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

68

ראשית כל אנו לוקחים אוסף משפטים . 4.7תהליך הערכת המודל מתואר באופן סכמאטי באיור .2הקורלציה הקונספטואלית על מנת להרחיב את היקפה של קוביית רמאגר יחסים קונספטואליים בהם נוכל להיעז • ;1 מהקורפוס המנותח הזההמסקיםנתונים סטטיסטיים • ;עבד-אדוןהמנותח במונחי המודל ) כמה מיליוני תמניות(בגודל סביר קורפוס תמלילים • ;עבד-אדון המבוסס על מודל בהיקף רחבכושר לשוני • ). ב ,4.7איור (המורפולוגי על מנת לקבל את אוסף הלקסמות המופיעות בקורפוס ללא תלות בהקשר לאחר מכן מפעילים על משפטי הקורפוס את המנתח ). א,4.7איור (כל משפט את עץ המשמעות שלו מכין עבור ובעזרת הכלי לתיוג המשפטים המתייג האנושי) הקורפוס, להלן(בכתב העברי הלא מנוקד מה עבור כל לקסמה הבלשן שאחראי על יצירת הכושר הלשוני מכין קבוצה של גרעינים שהלקס תבניות ).ג ,4.7איור (הוא מכין גם תבניות הקשתות וחוקי ההסתגלות , בנוסף לכך. יכולה לציין , לעומת זאת. קטגוריאלית ניתן לתאר באופן בלתי תלוי בתחום-הקשתות ברמה הקטגוריאלית ותת עבד משתמשת בו על מנת לנתח את -תוכנית הניתוח המבוססת אדון, ברגע שהכושר הלשוני מוכן . הדוק בתחום הקורפוס תלויות באופן) פועליים, לרוב(תבניות שמתארות כללי התחברות לשערים של גרעינים ספציפיים ברגע שיהיו . העצים שמצאה המערכת אנו מתייחסים בהשוואה לעץ בעל ציון הדמיון הגבוה ביותרבשלב הנוכחי מתוך אוסף ). ה,4.7איור (הניתוח לבין מבני המשמעות אותם הכין המתייג האנושי מתבצעת השוואה בין מבני המשמעות שמפיקה תוכנית , ולבסוף ).ד,4.7איור (משפטי הקורפוס שלנו .הדומים ביותר לעץ הסטנדרטי יהיו הראשונים ברשימת העצים הסבירות שלהם כך שאלה מידתלנו נתונים סטטיסטיים נוכל באופן אוטומטי לדרג עצים על פי . מתכוונת לבנות כושר לשוני עבור השפה העבריתFRAMENET- מקבוצת מפתחי הhebwnet04([. 2 Miriam Petruck[ראו (עבודה זו כבר מתבצעת 1

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 76: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

69

כאשר הפרמטרים שמעניינים , מובאות תוצאות הערכת הביצועים של המערכת שבנינו4.1בטבלה הערכת הביצועיםFigure 4.7: The model evaluation scheme. 4.3.1 .סכמת הערכת המודל :4.7איור היות ומדובר ). 11נספח (הערכים שבטבלה הם ממוצעים על כל משפטי קורפוס הבדיקה שלנו . לעילומהירות ההתכנסות של התהליך הרקורסיבי שתואר • ;עהגדול הממוצע של גרף המבע כפונקציה של מספר תמניות במב • אותנו הם .שהוא מוצא תרד אל מתחת לרמה מסוימת ברגע שסבירות מבניםרויעצוסביר להניח שהאלגוריתם לא ירוץ עד למציאת כל עצי המשמעות .עד למציאת כל עצי המשמעות • ;עד למציאת עץ המשמעות הראשון • :בשני אופני ביצוע האלגוריתםאנו מסתכלים על הפרמטרים האלה . תהליך התכנסות והן רק אמורות לתת תחושה לגבי תסטטיסטילתוצאות אלה אין מובהקות , בקורפוס קטן מאוד

... תעלהאל אלאל תעלה NFUNCrootמורפולוגימנתח אלאלאל TARGETDONOTAGENT NFUNCroot תעלה אלאלאל TARGETDONOTAGENT ע"מנתח אההסתגלותחוקי מאגר הקשתותתבניות מאגר הגרעיניםמאגר המשמעותהשוואת עציע"מנתח א PrecisionRecallפשוטיםמבעים מורכביםמעבים PrecisionRecallפשוטיםמבעים מורכביםמעבים )א( )ב( )ה()ד()ג(

המתייג2עץ 1עץ הלשונייוצר הכושר l Y ^el ,- ,-,- ,-,-,-,-,- 7 -,-,-,-,-

l $ ^el ,c,-,- ,-,3,+,#,s 3 -,- ,-,- ,-l $ ^el ,a,-,- ,-,3,+,#,s 3 -,- ,-,- ,-

.........

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 77: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

70

המשמעותעד למציאת כל עצי צמצום מספר פעולות

המשמעות הראשוןעד למציאת עץ צמצום מספר פעולות

בממוצע לכל גרף שנמצאומספר עצי משמעות

)גודל גרף מבע( מספר קשתות /מספר גרעינים

.Table 4.1: The analyzer performance evaluation .הערכת ביצועי המערכת: 4.1 טבלה 2.07 1.3 27.3 315.6

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 78: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

71

והנה הכל ; שעמלתי לעשות, ובעמל, מעשי שעשו ידי-בכל, ופניתי אני סיכום ועבודה לעתיד: 5פרק כי ראינו .שיטה שתאפשר למצוא מבנים כאלהוגם להציע למחשב מובניםהבעזרת מבנים פורמליים מודל אשר במונחיו ניתן יהיה לבטא משמעויות מבעים לבנות המטרה העיקרית של עבודה זו הייתה .A conclusion is simply the place where someone got tired of thinking. Arthur Block א"י, ב, קהלת .ואין יתרון תחת השמש, הבל ורעות רוח לקחת אלא עדיף , ה לשכבותלחלק את תהליך ההבנ לא כדאי , סבירהכדי לעשות זאת בצורה י השוואתם לעומת דעל י(איכות מבני המשמעות שהמערכת שלנו מוצאת את .א :ערכנו סידרת ניסויים כדי להעריך .5 .עבד-וןאדתיוג של מאגרים טקסטואליים במונחים של המודל .ב .וקשתות תלוית ביניהםסמנטיים בניית תבניות של גרעינים .א :פיתחנו גם כלי עזר ל .Java. 4יישמנו אלגוריתם לבניית גרף מבע ומציאת עצי המשמעות שבתוכו בשפת התיכנות .3 ). להכנת עוגותמתכונים(שוני עבור תחום מוגבל של המציאות בנינו מאגר הכושר הל .2 .עבד-אדון פיתחנו תיאור פורמלי של המודל .1 :קיבלנו את התוצאות הבאות עבודתנו הנוכחי של בשלב. את העיקרון הזה שמיישם עבד-אדוןבנינו מודל מחקרנובמהלך . כמה שיותר מוקדםוגי הידע ולנצל אותםבחשבון את כל ס הסיבוכיות התיאורטית של הניתוח שאנו ( של הניתוח המעשייםהביצועיםאת .ב ;)המבנים שנבנו על ידי הגורם האנושי דקדוקי מבנה צירופים הן מבוססות ( את גישתנו לגישות אחרות בפרק זה ראשית כל נשווה .)מציאים היא אקספוננציאלית ן נדבר על כיווני המחקר לאחר מכ.לניתוח השפות הטבעיות ) תלויותיוהן מבוססות דקדוק . עבד-אדוןהמעשיים במודל על השימושים , ולבסוף העתידייםTechnion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 79: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

72

במרכיבים ועל סדר על סדר התמניות מבוססות גישה התחביריתה, למשל. מנת למצוא את מבנהו הקיימות נשענים החוקרים על תכונה מסויימת של מילות המבע המנותח על בפרדיגמות הניתוח למודלים אחריםעבד-אדוןדל והמהשוואת 5.1 בדרך , מבנה המשפט כולו מפוענח, לעומת זאת, בגישה הסמנטית. המרכיבים במרכיבים גדולים יותר אנחנו . אין העדפה של תכונה כלשהי על פני התכונות האחרות, מציעיםניתוח שאנומנגנון הב 1 .השלמות תמטיות לפועלמשיקולים של מימושי , כלל בין כל ) שביחד שמבטאות את המבנה התחבירי של המבע המנותח(מנסים לבנות קשתות תלות הן , םהן מורפולוגיי(הזוגות האפשריים של גרעיני המבע ובעזרת אילוצים מסוגים שונים המבנה , משום שפרדיגמת הניתוח שלנו מאפשרת הוספת קשתות בצורה יחסית חופשית . למעשהתווצרנהאנו מנסים להגביל את מספר הקשתות ש) קונספטואליים והן אילוצי הסדר בסוף תהליך . לא מהווה מבנה משמעות חוקי, ברוב המקרים, המתקבל בסוף תהליך הוספת הקשתות , כלומר(שצמתיו וקשתותיו ביחד מכסים את כל המשמעויות החוקיות , כלליזה אנו מקבלים גרף ככל שמספר : הלשונישל הגרף המתקבל אחרי השלב הזה קשור קשר הדוק להיקף הכושר גודלו . של המבע המנותח) את כל עצי המשמעות צמתים מספר ה בממוצע גדל, התבניות של הגרעינים והקשתות במאגר הכושר הלשוני רב יותר מצד . מכיל הרבה דברים מיותרים" הנכונים"פרט למבני המשמעות , והגרף, והקשתות בגרף המבע לא נצליח לבנות אפילו את האוסף מינימלי של , אם בכושר הלשוני חסרות תבניות כאלה, שני נות קכדי להסיק מסו, חלקיותיוכל להביא רק מסקנות גודל קורפוס הצעצוע שלנו במסגרת הנוכחית .מערכתהלבין המספר הכולל של מבני המשמעות שמפיקה , "התכוון המשורר"מבנה משמעות אליו היכולת של המערכת למצוא את בין)tradeoff(קלול תמורות שהיקף הכושר הלשוני הוא , אזי ". הנכונות" כדי להסיק את המשמעויות יםהצמתים והקשתות הדרוש תופעה דומה . הגיונית, בהחלט, תי לבין גודל הגרף נראהלשוניהתלות הזאת בין היקף הכושר .ניסויים בהיקף הרבה יותר רחבבעתיד לערוך ובכונותינמאוששות יותר עלול להבין מבעים פשוטים בצורה שונה , אדם שיודע הרבה-כך בן. ניתן לראות בקרב האנשים אלא הכושר , לשוני בלבדלא ( שהכושר שלו ,זה נובע מכך. לחלוטין מזה שאליה התכוון דובר המבע לוקח יותר , יותרככל שהגרף גדול . מנתחים את הגרף על מנת למצוא את עצי המשמעות שבתוכוהיא שבשלב השני של הניתוח אנחנו , אחת הסיבות העיקריות שבגללה גודל הגרף חשוב לנו .לו להבין הרבה מעבר ממה שכתוב או נאמר" מסייע ") בכללהאינטלקטואלי ראינו שאפילו עבור קורפוס הצעצוע ששימש אותנו במהלך המחקר שערכנו ם יבמהלך הניסוי . זמן למצוא את כל עצי המשמעות שבתוכושיטות סמנטיות משתמשות בתכונות מורפולוגיות , באופן דומה.ות ועודסמנטי, תכונות מורפולוגיותכמו , אחרים הן מביאות בחשבון דברים ;ק על סדר המילים והמרכיבים במשפטזה לא אומר שהשיטות התחביריות מסתמכות ר 1 . וסינטקטיות

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 80: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

73

אלא למצוא את הראשונות , את כל המשמעויותנה שלא כדאי לחפש קלכן הגענו למס. מעשיים זמן בלתי סביר לצרכים נמשך עצי המשמעות כלתהליך מציאת , ועבור הכושר הלשוני הצנוע שבנינו בכוונתינו להעזר בפרמטרים נוספים כדי לכוון . היו רלוונטיים מבחינתם של דוברי השפההתוכנית רק מבני המשמעות הראשונים שמצאה כי ברוב המקרים, הסתבר. הסבירות ביותר ולעצור, מתוכן הניתוח את סדר מציאת הקשרים כופה על אלגוריתם סדר הגרעינים במבע PSGמבוססות הבגישות PSG ם עלימבוססהניתוח ה אלגוריתמיל אההשוו 5.1.1 .את תהליך ניתוח הגרף לכיוון שמניב תוצאות רצויות גישות אלה לא מאפשרות , אזי עבור השפות בהן ייתכנו קשרים בין גרעינים מרוחקים. בין הגרעינים שמשמש אותנו לצורך הניתוח הוא הנתונים שמבנה משום .לחפש קשרים כאלה בצורה נוחה לנו לניתוח של לקחנו דוגמה , על מנת להמחיש זאת.1עבד-אדוןמהמבנים שמפיקה המערכת מבוססת הם הרבה יותר מורכבים PSGהמבנים שמתקבלים כתוצאה מהניתוח המבוסס , לכךבנוסף .למשמעות המבעהגרעינים לפי סדר חשיבותם של - לנוה נוחצורהמבע באנו יכולים להרשות לעצמנו לבצע ניתוח , ממדי-תלת -הפנימיים של ההצמתים של ותמבמקו. ל המודל שלנוציירנו את המבנה שהוא נותן במונחים ש אנחנו . שמכיל את כל הניתוחים האפשריים של המשפטchart- את הTomitaבעבודתו מציג . )5.1 איור( ]Tomita ]tomita87מאמרו של מ .I saw a man with a telescope )5.1( :המשפט chart ציירנו את הגרעינים הסמנטיים כמקובל , מציינים את המשתנים התיאורטיים אשר בדרך כלל תפקידם ובתוך הגרעינים רשמנו גם את בצבעאת השערים המאוכלסים סימנו . עבד-אדוןבמודל אין כמעט הבדל בין הצמתים , לראות שלמעשהמהציור ניתן .PSG-התחביריים במונחים של ה .את המשתנים התיאורטיים לסכמת ההבנה רואים סיבה להוסיף איננו לכן . שלוDET- פרט לצבע של שער ה{telescope, N}העלה -זהה לגרעין {telescope, NP}הגרעין הפנימי , למשל .char-שמציינים את המשתנים התיאורטיים לבין עלי ה .נכון לכל מערכת מבוססת דקדוק תלויות , אגב, זה 1

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 81: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

74

.”I saw a man with a telescope ." Figure 5.1: The syntactic structure (packed shared forest) that is generated by the Masaru Tomita’s algorithm for the sentence “I saw a man with a telescope" עבור המבע Masaru Tomitaמבנה תחבירי הנוצר על ידי האלגוריתם של : 5.1איור

.”I saw a man with a telescope ." Figure 5.2: The syntactic structure (UGraph) that is generated by the Master-Slave Model’s algorithm for the sentence “I saw a man with a telescope" עבד עבור המבע -מבנה תחבירי הנוצר על ידי האלגוריתם אדון: 5.2איור

saw V INSTRTHEMEAGENTIN NFUNCDET aNFUNCwithNFUNCINP NFUNCDET telescopePPNFUNC DETsaw VP INSTRTHEMEAGENTsaw S INSTRTHEMEAGENT saw S INSTRTHEMEAGENTtelescopeNP NFUNCDET

manNP NFUNCDETNOMsaw VP INSTRTHEMEAGENTsaw S INSTRTHEMEmanNP NFUNCNOMDETaNFUNC telescopeN NFUNCDET

AGENTmanN NFUNCDETNOM

ROOTsaw V INSTRTHEMEAGENTIN NFUNCDETIN NFUNCDET aNFUNCwithNFUNCINP NFUNCDETINP NFUNCDET telescopePPNFUNC DETtelescopePPNFUNC DETsaw VP INSTRTHEMEAGENTsaw S INSTRTHEMEAGENT saw S INSTRTHEMEAGENT

telescopeNP NFUNCDETmanNP NFUNCDETNOMsaw VP INSTRTHEMEAGENTsaw S INSTRTHEME

manNP NFUNCNOMDETaNFUNCaNFUNC telescopeN NFUNCDETtelescopeN NFUNCDETAGENT

manN NFUNCDETNOMmanN NFUNCDETNOMROOT

saw VINSTR THEMEAGENTIN NFUNCDET aNFUNCwithNFUNCaNFUNC telescopeN NFUNCDETmanN NFUNCDET NOMROOTsaw VINSTR THEMEAGENTIN NFUNCDETIN NFUNCDET aNFUNCaNFUNCwithNFUNCaNFUNC telescopeN NFUNCDETmanN NFUNCDET NOMROOTTechnion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 82: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

75

.}x,y{-במבע הוא עבד של אחד מ y -ל x שמופיע בין zם כל צמת " אמצמודים y -ו xשני צמתי גרף תלויות ) ב( האדון שלו-לצמת צמודעבד בו -ם כל צמת" אמ)projective(פרויקטיבים גרף תלויות הוא ) א( (5.2) :2הגדרתו של גרף פרויקטיבי היא כדלקמן . )]hudson90[ ,]sleator93[ ,]järvinen97[ ,]courtin98[ ,]nivre03([(פרויקטיביים עצים -מבנים תחביריים מטפלים רק בסוג מיוחד של עוסקים בדקדוקי תלויות ש1רביםבלשנים לדקדוקי תלויות אחריםהשוואה 5.1.2 Courtinו - Genthialמסבירים מה המוטיבציה מאחורי ההגבלה הזאת : This limitation leads to greater parsing efficiency: for each governor the search for its dependents will be made in two separate spaces: a left and a right space [courtin98, p. 5]. אבל לא מקובל עלינו שהוא , סיבוכיות הזמן של אלגוריתם הניתוח היא גורם מאוד חשוב, בןכמו דרישת הפרויקטיביות מונעת . בא על חשבון היכולת האלגוריתם לנתח מבנים שנפוצים המציאות אבל אינו עבד ,לאכל - ועוגה נמצא בין הגרעינים רצינומשום שהגרעין , )5.3 איור(אינו פרויקטיבי .הסעודה בסוף ללאכ רצינו העוגה את )5.3( עץ המשמעות עבור המשפט , למשל. אפוא הבנת משפטים מאוד פשוטים .של אף אחד מהם

].hudson90[מתוך 2 ].Covington] covington90-פרט ל 1 Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 83: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

76

ואיננו יכולים להסתפק בניתוח של סוג זה של רה י הגבלה זו אינה סבגם לשפות אחרות .Figure 5.3: An example of a Hebrew non-projective meaning structure . בעבריתדוגמה למבנה משמעות שאינו פרויקטיבי.:5.3איור מבנים שהמנתח שלו מוצא עבור מביא דוגמאות ] covington90[- בCovington .ת אשר יחדיו אינן מהוות מבנה פרויקטיבייכולות להתקיים במבע תלויות מבניו כפי שראינו בשפות בעלות מערכות תלויות מורפולוגיות מורכבות - תלות מורפולוגית • :הבאותסיבות ה בגלל משפטים בלבד ישנם בשפות בעלות מערכות תלויות מורפולוגיות פשוטות אפילו - תותלויות רחוק • . המשפטים מהשירה הלטינית עזר פועל ה, ל הראשיהפועבאנגלית המרחק בין , למשל.1פרויקטיביות-מקרים של אי שבניתוח מסתבר . יהיו קרובים במבנה התחביריםמהבחינה הסמנטית היינו רוצים שה משום שהאלמנטים האלה מאוד קרובים . של הפועל יכול להיות גדול מאודparticle-הו מבנים האך החוקרים שרוצים לעבוד עם . 5.4 ויר באיורכמצהיינו מצפים מבנה 5.4 עבור המשפט, למשל.שמתבסס של המבנים הפרויקטיביים הדבר אינו מתאפשר כך . ת הזאת של המבנה התחביריניתכונה ההגיופרויקטיביים נאלצים לוותר על הה בפועל הראשי תלוי בפועל עזר ולא )Agent) subject-במבנה זה ה, כפי שרואים.5.5 נותן מבנה כבאיור]järvinen97[-ב Tapanainen 2- ו Järvinen שלהתחביריהמנתח Have you been calling your wife up? 3 )5.4( . של המפשט 1 Non-projectivity. 2 את הניתוח הזה תוכלו לקבל באתרhtml.demo/eng/dg/~tapanain/fi.helsinki.ling.www://http למשתמש לנתח משפטים באנגלית בעזרת המנתח של שמאפשרJärvinen ו -Tapanainen. 3 הדוגמה מתוך]järvinen97.[

nסוף nf-ב vלאכל auxרצינו nעוגה det-ה nסעודהnf-הnfPATIENTאת ROOT FUNCFUNCTIMEDET CONSTR AUX DET

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 84: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

77

”?Have you been calling your wife up ?." Figure 5.4: The wanted syntactic structure for the sentence “Have you been calling your wife up " מבנה תחבירי שהיינו רוצים לקבל עכור המשפט: 5.4איור

כי הניתוח שאנו מציעים 5.4 מבנה כמו זה שבאיור 1 נמצא,לעומת זאת, עבד-אדוןבמודל אנחנו .Have you been calling your wife up ?." Figure 5.5: The syntactic structure for the sentence “Have you been calling your wife up?” produced by the analyzer of Järvinen and Tapanainen " בונה עכור המשפטTapanainen- ו Järvinenמבנה תחבירי שהמנתח התחבירי של : 5.5איור פרט לכך יש לציין כי רוב החוקרים העוסקים בתחום של דקדוקי תלויות לא .בהכרח פרויקטיבי דורש שהמבנה המתקבל מהניתוח יהיה אינווחשיבותם של הגרעינים עבור המשמעות מתבסס על , ]sleator93[ ,]järvinen97[ ,]courtin98[(בידע הקונספטואלי במהלך הניתוח נעזרים ]nivre03[ .( בעבודות שלHudson ו -Melčuk ) ]hudson90[ ,]melčuk88 ([כזה למחוק על הסף את המבנים שאינם תקינים קונספטואלית בידע הקונספטואלי מתחילת הניתוח ובאופן רלהיעזמאפשרת אנו בעבודתנו נתנו פלטפורמה ש .בידע מסוג זה אך בשלבים מתקדמים יותר של הניתוח כפי שמקובל במודלים הסדרתיים שימוש רב נעשה. .עבור השפה האנגלית עבד-אדוןברגע שנבנה כושר לשוני מבוסס המודל 1

callingvROOTbeenauxyoupronHaveaux yourpron wifepron uppron ?callingvROOTbeenauxyoupronHaveaux yourpron wifepron uppron ?

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 85: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

78

לשם . עבד-אדוןהיקף הכושר הלשוני המבוסס מודל אנו מתכוונים להרחיב משמעותית את בעתיד כיווני מחקר עתידיים 5.2 לשם כך התקשרנו עם הבלשנים . FRAMENET -ובעיקר ב, כך ברצוננו להעזר בפרויקטים הקיימים בעזרת הנתונים האלה נבנה . וקיבלנו מהם אישור להשתמש במשאביהםBerkeleyמאוניבריסת לאחר מכן אנו רוצים . לאוסף רחב של מושגים בשפה העברית בתחחומים שוניםתבניות גרעינים נצטרך למצוא רמת ההכללה . להתאים את תבניות קשתות התלות לאוסף החדש של הגרעינים . קפה של קוביית הקורלציה הסמנטיתיהבכוונתנו גם להרחיב את .האופטימלית עבור התבניות הללו מעשית לא , נתוים לקוביית הקורלציה הסמנטיתתחנו כלי כדי להזין למרות שפיאנו מבינים היטב ש ישתמש במאגרי הידע לפתח כלי עזר נוסף אשר לכן אנו מתכוונית , ניתן לעשות את זה ידנית ויאפשרו למתייג האנושי רק לתקן ידנית את , ])hebwnet04([ עבור השפה העברית WORDNET של ומאגרי הידע] Uzzi Ornan ] ornan02המיליונים הקונספטואליים של -הקונספטואלי הקיימים -אדוןפרמטרים למודל אנו מתכוונים להוסיף המשימות הללו שתשלמנהלאחר . התוצאות של הכלי . אשר עשויים לדעתנו להגביר את מספר הקשתות שמתווספות לגרף מבע בעת בנייתו, עבד " את"התמנית , למשל. למנתח לטפל קודם כל בגרעינים שההסתברות שלהם גבוההבמקרים כאלה מידע על ההתפלגות הסטטיסטית של התמנית עשויה לעזור . גרעינים תמנית פרספטואלית יכולה לציין מספר ה שאות2בפרק ראינו – משקל של גרעין • : ןכדלהלהפרמטרים שחשבנו עליהם הם אך סביר להניח ). spade(את-ו) you-fem(את, )acc(את: יכולה לציין שלושה גרעינים עבור , כך. התפלגות כזאת תהיה תלויה בתחום המציאות בו אנחנו נעסוק, כמובן. ביותר יהיה הנדיר את והגרעין אתאחריו יבוא הגרעין , יהיה הנפוץ ביותראתכי הגרעין תברות שאם אנו מנתחים טקסט שקשור לחקלאות ההססביר להניחשהבאנו הדוגמה ככל שהמרחק בין זוג . וסף שיש לקחת בחשבין בזמן הניתוח הוא אורך קשתפרמטר נ • .בסדר יורד של הסבירות} שלחן , ראש{ -ו} בית, ראש}, {ממשלה, ראש{הקשתות המציינות סמיכות בין זוגות הגרעינים ניתן לראות את 5.6 באיור. משקל של קשת תלותבאותו אופן נרצה לקחת בחשבון • . עולה בהרבהאתשהתמנית את מציינת את הגרעין קל מאוד להוסיף את . קטנה הסבירות של קשר ביניהם יש להניח כי,גרעינים גדל ם להכניס לקוביית הקורלציה הסמנטית ערכי רוציםבעתיד רחוק יותר אנו • .הפרמטר הזה למודל שלנו ולא עשינו זאת רק עקב הגבלת הזמן -Non- לטפל במתכווניםבצורה כזאת אנו . הסתברותיים במקום בוליאניים Compositional Semantics שלקשתות שמבטאות יחסים מטפוריים , על ידי כך .יינתן משקל גדול יחסית לשאר הקשתותTechnion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 86: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

79

לשם כך יש לתייג טקסטים . כדי להוסיף את הפרמטרים הללו חייבים לאגור נתונים סטטיסטים .Figure 5.6: Construct Connectors in descending weights order .רדמשקלות של קשתות המציינות סמיכות בסדר סבירות יו: 5.6איור נציין כי בלשנים שעוסקים בעיבוד השפה העברית כבר . עבד-אדוןבעברית במונחים של המודל כמו מודלים מבוססי דקדוקי (עבד-אדוןניתן להניח כי המודל 5.2- ו5.1 מהשוואת האיורים . צירופיםהדקדוק מבנעל בססת תאך העבודה שלהם מ, כאלהעוסקים ביצירת מאגרים להקל על תהליך התיוג פיתחנו כלי עזר שמאפשר לתייג טקסט עברי במונחים של המודל כדי ".?לבנות מנתח תחבירי איכותי יותר ומה הזמן שדרוש לכך מאפשרת PSG או DG,איזו מבין שתי הגישות הללו"שאלה נוספת שמעניינת אותנו בהקשר זה .ורבים אחרים] lepage98[ ליפנית - Lepage, ]bogus00[רוסית עבור Boguslavsky, ])järvinen97[ ,]järvinen03([נית ואנגלית עבור פיHelsinkiמאוניברסיטת Tapanainen - ו Järvinen, ])hajicova98([כית ' בפראג עבור צKarlovaעמיתיו מאוניברסיטת עם Hajič: חוקרים רבים בעולם בונים מאגרי נתונים טקסטואליים במונחים של דקדוקי תלויות .המשפטים המתויגים יכילו גם מידע סמנטי • ;יך התיוג יקח פחות זמןבזכות זה תהל • ; מכילים פחות אינפורמציהעבד-אדוןמבנים מבוססי • :-יותר מתאים לתיוג של טקסטים כתובים משום ש) תלויות אחרים . רוסית ואנגלית: במקביל אנו רוצים לבנות כושר לשוני ומאגרי נתונים מתויגים עבור שפות אחרות ).10נספח (שלנו המשך ראו ב(שתמש במודל שבנינו כבסיס למערכת תרגום אוטומטית הדבר דרוש כי בכוונתינו לה עליינו לחשוב על שיטות שבאופן מעשי , היא אקספוננציאלית השפות הטבעיות תנ בעיית הבשל משום שסיבוכיותה. כיוון נוסף בו אנו מתכוונים להתקדם הוא עיבוד מקבילי של שפות טבעיות ). פרק זה ורמות על פלטפבתקופה אחרונה בלשנים רבים בעולם מנסים לפתח מערכות . ישפרו את הביצועים :מקביליות

nשולחן nראש nבית nראש nממשלה nconstrראש constr constr nשולחן)ג()ב()א( nראש nבית nראש nממשלה nconstrראש constr constr )ג()ב()א(

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 87: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

80

The demand for increasingly complex natural language processing sys-tems has stimulated the research of using parallel architectures for such systems. ([lohuizen97], p. 1). ת מתבססות על העבודורוב גם כאן, תחומים אחרים של עבוד שפות טבעיות-כמו בתת, אך טבעי בסיס , לדעתנו ,מהווה עבד-אדוןמודל . )]adriaens94 [,]lohuizen97 ([ צירופיםי מבנידקדוק ים את הידע שיש למערכת בעבודתנו זו אנו מחלק .מחשב לבין בין אדםהלאפשר אינטרקציה בין על מנת עבד-מודל אדון במנתח מבוסס הת משתמשמערכת דיאלוג אשרבנות התחלנו ל בעבודתנו ת דיאלוגמערכ 5.3.1 עבד-אדוןשימושים מעשיים במודל 5.3 .הניתוח של גרף מבע של אלגוריתם מקבולהבשלב זה כבר התחלנו לחשוב על . לניתוח ניתוח מקבילי של משפטים בשלב .ללא תלות במצב הנוכחי של העולםמבע לגבי צמצומי גרף החלטות מקבל המנתח . אדם-בן שנוצרו על ידי משפטים " להבין" באלגוריתם הניתוח שפיתחנו על מנת יםמשתמשאנו בשלב זה .הידע שנכון לגבי מצב מסוים של העולם .ב ,הידע הכללי לגבי העולם .א : לשתי קטגוריות) תחום מוגבל של המציאות( לגבי העולם דיאלוגה כלומרת , על מנת לפתור רב משמעות בידע לגבי המצב הנוכחי של העולם עזרהבא אנו מתכוונים לה כדי בו להעזר ו אפשרה למצוא מבנה סמנטי של מבע עברי)]Uzzi Ornan )]ornan00 שלעבודתו תרגום אוטומטי 5.3.2 .לצמצם את גודלו של גרף המבע המנותח פרט , מבנים סמנטיים, למעשה, המבנים שמפיקה המערכת שלנו הם.לשפות אחרותאותו לתרגם נה בולקבל מ ניתן בקלות להשמיט את הגרעינים הללו .ם מכילים גרעינים פונקציונלייםלכך שה , כדי לקבל משפטים תקינים בשפת היעד, כמובן .וה בסיס סביר לתרגום אוטומטיוסמנטי רגיל שמה ה הזאת ניתן לפתור בדרכים פשוטות יותר מאלה יאת הבע. בעית היצירה באותה שפה אתלפתוריש אנו לא , ולא היצירה) הבנה(היות והנושא המעניין אותנו הוא הניתוח .])sidorov96 [, למשל, ראו( עבור השפה הרוסית קיימות מערכות יצירה באיכות סבירה למדי, למשל.ם בעבודתנו מציעיאנוש אך נוכל לסייע לחוקרים שירצו לפתח מערכות לתרגום , מתכוונים בעתיד הקרוב לעסוק בנושא זה .פות אחרותמעברית לשTechnion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 88: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

81

לפתור עמימות בנו מערכת מבוססת סטטיסטיקה כדי Yoelle Maarek - וDavid Carmel .ום זה נעשות גם עבור השפה העבריתעבודות בתח. זו על מנת להתמודד עם משימה בלשניותטכניקות קרים רבים בעולם מנסים להעזר בכלים ו ח.גדוליםאחד האתגרים הקשים ביותר בתחום של עיבוד שפות הוא חיפוש מידע במאגרים טקסטואליים חיפושימנוע 5.3.3 תחביריים , מורפולוגיים(הציע להעזר בסוגים שונים של אילוצים ] ornan02[- בUzzi Ornan .)]carmel99[ (מורפולוגית של התמניות הנמצאות במאגרים טקסטואליים ן מכל הפירושים האפשריים של תמניות על מנת לבחור את הפירוש הנכו) וקונספטואליים אוסף קישורים בין (שמשתמשת במבנה מלאכותי , GOOGLE 1מערכת המוצלחת ביותר היא ה .אטומית בלבד ההמשמעות-רבעוסקות בפיתרון האלה העבודות אבל .השאילתה אך עבור הטקסטים .מצא במאגר הנתונים שלוהנשעומד מאחורי המידע הטקסטואלי ) htmlדפי אם . לא יוכל לתפקד באותה איכותGOOGLE, 2של קישוריםלא קיימת עבורם תשתית כזאת ש ולא על פי המילים שיכולות , משמעותעל פי הטקסטואליים כאלה במאגרים מידע רוצים למצוא הנמצאים שעומדים מאחורי טקסטים מבני משמעות חייבים לחפש אנו, לבטא את המשמעות הזאת , למעשה ).]rokhl04[ (שוואת עציםהלמורכבות טכניקות מפתחים3חוקרים בתחומים אחרים . השאילתות מול מבני המשמעות שבמאגר הנתוניםות מבניולהשו במאגרי נתונים אנו מתכוונים .השוואת גרפים יותר כלליים מאשר עצים: הם עוסקים אף בדברים יותר מסובכים בין מבנה משמעות השאילתה לבין שוות בעתיד להשתמש בתוצאות של עבודות אלה על מנת לה ובצורה כזאת לשפר את האיכות של מנועי שעומדים מאחורי טקסטים כתובים מבני משמעות 4 .חיפוש ). pre-processing( יותר לא תתבצע בנפרד לכל שאילתא אלא בשלב מוקדם של משפטי מסד הנתוניםמציאת עצי משמעות, כמובן 4 .בעיקר בביואינפורמטיקה 3 .פסקי דין ומסמכים משפטיים אחרים, תקנות, אוסף של חוקים, למשל page99.[ 2[ניתן לפנות אל GOOGLEלגבי הארכיטקטורה של 1

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 89: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

82

לטיניה התעתיק :1נספח עצורים

A, ^ 1 א a e i o u תנועות t ת k כ $ ,f ש y י r ר @,v ט q ק x ח c צ z ז p פ w ו &,j ע h ה s ס d ד n נ g ג m מ b ב l ל .התעתיק הפונמי : a.1 טבלה

Table a.1: The Hebrew phonemic script.

ההבדלים בגלל אי (משנו בעבודתנו סימן בו השת–ובצד שמאל , ISO259-3בצד ימין מופיע סימו על פי הסטנדרט 1 .) לפיו עבדנוXML-התאמה לפורמט הTechnion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 90: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

83

לתחוםהאם שייך אוסף מילים מקורפוס המחקר :2נספח zara זרה Cause_change_pos to sprinkle כן yacaq יצק Cause_change_phase to pour כן xalab חלב Change_posture to milk (cow) לא qirrer קרר Cause_change_phase to cool כן pizzer פזר Cause_change_pos to scatter כן notar נותר Intrans to be left כן mataq מתק Intrans to become sweet לא majal מעל Active to embezzle לא laxac לחץ Change_posture to press כן kapat כפת Amalgamate to tightly bind לא jirbeb ערבב Amalgamate to mix כן hosip הוסיף Amalgamate to add כן hociA יאהוצ Transfer to take out כן hiqcip הקציף Cause_change_phase to whip כן hiknis הכניס Transfer to put in כן hemes המס Change_Phase to dissolve כן hejla העלה Transfer to raise לא garam גרם Causation to cause לא gar גר Intrans to dwell לא fimmen שמן Change to lubricate כן faman שמן Intrans to become fatter לא faja שעה Static to relate to לא Aixxed אחד Trans to unite כן כתב פונמי כתב עברי תרגום אנגלי קטגוריה-תת

. הקורפוספעלי :a.2 טבלה Table a.2: The corpus verbs.

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 91: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

84

לתחוםהאם שייך . הקורפוסשמות: a.3 טבלה yciba יציבה Ultra_nom posture לא xemAa חמאה Ultra_nom butter כן xecy חצי Measure half כן tnuja תנועה Action_name movement כן tajrobt תערבת Ultra_nom mixture כן tabnit תבנית Ultra_nom baking dish כן ribba רבה Ultra_nom jam כן qippul קפול Action_name folding כן qelt קלת Ultra_nom fruit basket לא qallut קלות Ultra_nom ease לא qaccept קצפת Ultra_nom whipped cream כן pott פת Ultra_nom genitalia (female) לא pazer פזר Ultra_nom biblical cantillation symbol לא mqarrer מקרר Ultra_nom refrigerator כן mass מס Ultra_nom tax לא mana מנה Measure portion כן majl מעיל Ultra_nom coat לא laxc לחץ Ultra_nom pressure כן haqcapa הקצפה Action_name whipping כן gram גרם Measure gram כן germ גרם Ultra_nom bony skeleton לא ger גר Ultra_nom proselyte כן foqolad שוקולד Ultra_nom chocolate כן famment שמנת Ultra_nom sour cream כן falabb שלב Ultra_nom step כן Aud אוד Ultra_nom partly burned wood לא Agoz אגוז Ultra_nom nut כן Aett את Ultra_nom spade לא כתב פונמי כתב עברי תרגום אנגלי קטגוריה-תת

Table a.3: The corpus noun. Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 92: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

85

לתחוםהאם שייך כתב פונמי כתב עברי תרגום אנגלי קטגוריה-תת

matoq מתוק Adj sweet כן yaccib יציב Adj firm כן koll כל Quant all כן qall קל Adj light לא vxon טחון Adj minced כן qallot קלות Adv slightly כן m^od מאוד Intens very כן Aett את Acc direct object indicator כן -ל Prep to, toward כן l- -ב Prep in, at כן b- -ה Det the (definite article) כן ha- -מ Prep from, of, than כן mi- -כ Prep as, like, about כן k- -ש Rel, Compl that, which, who לא fe- טבלה a.4 :משרתים מעצימים של הקורפוס, תכוניות.

Table a.4: The Attributes, Servants and Intensifiers of the corpus.

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 93: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

86

תוקטגוריאלי- תתותהיררכי :3נספח

.Figure a.1: The verb hierarchy in the MASTER-SLAVE model .עבד-אדוןקטגוריאלית של פועל במודל -היררכיה תת: a.1איור PassiveTransitiveaction Change_ofTHEMEStatic_act PATIENT id=V-RISE-1 heb עלה =

AGENTActive VERB TIMEVATTRVFUNC LOCIntransitiveaction Change_pos_on_a_scaleAux_verbImpers Modal Aspect Rel_verbCopula CompareAcquire Causation Intent_act Relinqish TransferIntent_affectCause_change_phase Cause_to_amalgamateChange_posture LOC_SRCLOC_TRGCause_pos_on_scale

DONOT

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 94: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

87

.Figure a.2:The noun hierarchy in the MASTER-SLAVE model .עבד-אדוןקטגוריאלית של שם עצם במודל -היררכיה תת: a.2איור

Ultra_nomCONSTRORD NFUNCDETDEMOQUANTATTRVERBNOM NOUNMeasure Pron Action_nameCONSTRORD NFUNCDETDEMOQUANTATTRVERBNOMQUANT NFUNCNFUNCProperORD NFUNCDETDEMOQUANTVERBNOM

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 95: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

88

.Figure a.3: The attributes hierarchy in the MASTER-SLAVE model .דעב-אדון במודל התכוניותקטגוריאלית של -היררכיה תת: a.3איור

.Figure a.4: The attributes hierarchy in the MASTER-SLAVE model .עבד-אדון במודל המשרתיםקטגוריאלית של -היררכיה תת: a.4איור

VFUNCNFUNC FUNCPREP AccPrep Poss DemoDet AdverCompl Rel NotUnsertPREP

VATTR(Adv)NATTR ATTR DETINTENSOrdAdj Quant

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 96: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

89

מאגר הכושר הלשונימאות מדוג :4נספח

.XML-מנטי בפורמט הסדוגמה של תבנית גרעין : a.5איור

Figure a.5: A nucleus template example in the XML format.

.XML- בפורמט החוק הסתגלותדוגמה של : a.6 איור Figure a.6: An adaptation rule example in the XML format.

<nucleus id="V-DISSOLVE-1" cat="VERB"> <sem_dict_entry phonetic="hemess" hebrew="" descr= "לנוזל להפוך לו וגרם קמוצ חומר חימם." /> <father id="CHANGE_OF_VERB"/> <ports> <slave role="TRG_LOC" dem_status=" OPTIONAL "/> </ports> </nucleus> <adaptation_rule id="ACTIVE_VERB"> <port role="AGENT" new_dem_status="OPTIONAL"> <Condition Tense="FUTUR"/> <Condition Gender="NA"/> <Condition Person="2"/> <Condition Number="NA"/> </port> </adaptation_rule >

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 97: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

90

.XML-הבפורמט תבנית קשת תלותדוגמה של : a.7 איור

Figure a.7: A connector template example in the XML format.

<connector master="ACTIVE_VERB" port="PATIENT" slave="ULTRA_NOM"> <master_constraints> <master_dep_ports /> </master_constraints> <slave_constraints> <slave_dep_ports> <slave role="NFUNC" dep_type="OPT_USED"> <NF-ACC-1 /> </slave> </slave_dep_ports> </slave_constraints> <bin_constraints /> </connector> <connector master="ULTRA_NOM" port="NFUNC" slave="PREP"> <master_constraints> <master_dep_ports /> </master_constraints> <slave_constraints> <slave_dep_ports /> </slave_constraints> <bin_constraints Length="ADJ_TOKENS" Position="S_BEFORE_M" /> </connector>

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 98: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

91

.XML- בפורמט הקטגוריאלית- של היררכיה תתפרגמנט: a.8 איור

Figure a.8: A fragment of sub-categorical hierarchy in the XML format.

<VERB descr= " משהו או מישהו נתון שבהם נסיבות או מצב ,ולמשה או למישהו הקורה דבר ,עושה שמישהו פעולה המציינת בשפה המילים מן אחת" > <ports> <master role="master" dem_status="DEMANDED"/> <slave role="VATTR" dem_status="OPTIONAL"/> <slave role="LOC" dem_status="OPTIONAL"/> <slave role="TIME" dem_status="OPTIONAL"/> <slave role="VFUNC" dem_status="OPTIONAL"/> <slave role="DONOT" dem_status="OPTIONAL"/> </ports> <subcats> <ACTIVE_VERB descr= "המשפט נושא ידי על מצוין אותה המבצע הגורם אשר פעולה שמציין פועל." > <ports> <slave role="AGENT" dem_status="DEMANDED"/> </ports> <subcats> <TRANSIT_VERB descr= "מחכה ל ,את אוהב (ישיר מושא ידי על תחבירית שמבוטא ארגומנט ללא שלמה אינה שמשמעותו פועל-(" > <subcats> <CHANGE_OF_VERB descr= "הפועל של הישיר המושא ידי על שמצוין הארגומנט משתנה שבעקבותיה פעולה המציין פועל. " > <ports> <slave role="PATIENT" dem_status="DEMANDED"/> </ports> </CHANGE_OF_VERB> </subcats> </TRANSIT_VERB> </subcats> </ACTIVE_VERB> </subcats> </VERB> Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 99: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

92

פורמטים של הניתוח המורפולוגי :5נספח

mmysym $ msayyem a - - r 3 + # s 7 - - - - - mi-

mmysym $ _mis a - ym - 3 + # p 5 - - - - - mi-

mmysym $ mass a - ym - 3 + # p 7 - - - - - mi-

bh Y b- - - - - - - - - 7 3 # + s ah

^t Y ^ett - - - - - - - - 7 - - - - -

^t Y ^et - - - - - - - - 7 - - - - -

^t $ ^ett c - - - 3 + # s 3 - - - - -

^t $ ^ett a - - - 3 + # s 3 - - - - -

^t K ^att - - - - 2 # + s 7 - - - - -

h$wqwld $ $oqolad a - - - 3 + # s 5 - - - - - ha- ."מולטיטקסט"של חברת " חדש-מולטי"דוגמה לקלט של המנתח המורפולוגי : a.9 איור

Figure a.9: An output example of the morphological analyzer Multi-Xadash. Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 100: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

93

<ma_utter id="1" location="C:\manya\academic \MScProject\corpus-ma\ma1.xml"> <token id="T0" surface="ממיסים"> <atom id="T0A0"> <nucleus id="T0A0N0" lexeme="mi-" cat="NFUNC" /> <nucleus id="T0A0N1" lexeme="msayyem" cat="NOUN"> <morph> <status>ABS </status> <agr Gender="Masc" Number="Sing" Person="3" /> </morph> </nucleus> </atom> <atom id="T0A1"> <nucleus id="T0A1N1" lexeme="himis" cat="VERB"> <morph> <tense>Present </tense> <agr Gender="Masc" Number="Plur" /> </morph> </nucleus> </atom> <atom id="T0A2"> <nucleus id="T0A2N0" lexeme="mi-" cat="NFUNC" /> <nucleus id="T0A2N1" lexeme="mass" cat="NOUN"> <morph> <status>ABS </status> <agr Gender="Masc" Number="Plur" Person="3" /> </morph> </nucleus> </atom> </token> <token id="T1" surface="בה"> <atom id="T1A0"> <nucleus id="T1A0N0" lexeme="b-" cat="NFUNC" /> <nucleus id="T1A0N1" lexeme="hiA" cat="NOUN"> <morph> <status>ABS </status> <agr Gender="Fem" Number="Sing" Person="3" /> </morph> </nucleus> </atom> Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 101: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

94

.לבניית גרף המבעבסיס מבנה הפרספטואלי המשמשלדוגמה : a.10 איור Figure a.10: An example of perceptual structure.

<atom id="T3A0"> <nucleus id="T3A0N0" lexeme="ha-" cat="NFUNC" /> <nucleus id="T3A0N1" lexeme="foqolad" cat="NOUN"> <morph> <status>ABS </status> <agr Gender="Masc" Number="Sing" Person="3" /> </morph> </nucleus> </atom> <"השוקולד"=atom id="T2A0"> <nucleus id="T2A0N0" lexeme="Aet" cat="NFUNC" /> </atom> <atom id="T2A1"> <nucleus id="T2A1N0" lexeme="Aett" cat="NOUN"> <morph> <status>ANY </status> <agr Gender="Masc" Number="Sing" Person="3" /> </morph> </nucleus> </atom> <atom id="T2A2"> <nucleus id="T2A2N0" lexeme="Aatt" cat="NOUN"> <morph> <agr Gender="Fem" Number="Sing" Person="2" /> </morph> </nucleus> </atom> </token> <token id="T3" surface> <"את"=token id="T2" surface> )המשך(Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 102: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

95

דוגמה של גרף מבע :6נספח

.אוסף גרעינים סמנטיים של גרף מבע: a.11 איור

Figure a.11: A set of UGraph nuclei.

<root id="T-1A-1N-1" lexeme="null" /> <nuclei> <nucleus id="T-1A-1N-1" lexeme="null" cat ="UGRAPH_ROOT" dict_entry="UG_ROOT" /> <nucleus id="T0A0N0" lexeme="mi-" cat ="NFUNC" dict_entry="NF-MI-1" /> <nucleus id="T0A0N1" lexeme="msayyem" cat ="NOUN" dict_entry="N-FINISHER-1"> <morph> <status>ABS </status> <agr Gender="Masc" Number="Sing" Person="3" /> </morph> </nucleus> <nucleus id="T0A1N0" lexeme="himis" cat ="VERB " dict_entry="V-DISSOLVE-1"> <morph> <tense>Present </tense> <agr Gender="Masc" Number="Plur" /> </morph> </nucleus> <nucleus id="T0A2N0" lexeme="mi-" cat ="NFUNC" dict_entry="NF-MI-1" /> <nucleus id="T0A2N1" lexeme="mass" cat ="NOUN" dict_entry="N-TAX-1"> <morph> <status>ABS </status> <agr Gender="Masc" Number="Plur" Person="3" /> </morph> </nucleus> <nucleus id="T1A0N0" lexeme="b-" cat ="NFUNC" dict_entry="NF-B-1" /> <nucleus id="T1A0N1" lexeme="hiA" cat ="NOUN" dict_entry="N-SHE-1"> <morph> <status>ABS </status> <agr Gender="Fem" Number="Sing" Person="3" /> </morph> </nucleus> <nucleus id="T2A0N0" lexeme="Aet" cat ="NFUNC" dict_entry="NF-ACC-1" /> <nucleus id="T2A1N0" lexeme="Aett" cat ="NOUN" dict_entry="N-SPADE-1"> <morph> <status>CONSTR </status> <agr Gender="Masc" Number="Sing" Person="3" /> </morph> </nucleus> <nucleus id="T2A2N0" lexeme="Aatt" cat ="NOUN" dict_entry="N-YOU_FEM-1"> <morph> <agr Gender="Fem" Number="Sing" Person="2" /> </morph> </nucleus> <nucleus id="T3A0N0" lexeme="ha-" cat ="NFUNC" dict_entry="NF-DET-1"/> <nucleus id="T3A0N1" lexeme="foqolad" cat ="NOUN" dict_entry="N-CHOCOLATE-1"> <morph> <status>ABS </status> <agr Gender="Masc" Number="Sing" Person="3" /> </morph> </nucleus> </nuclei>

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 103: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

96

. של גרף מבעות תלותקשתאוסף : a.12 איור Figure a.12: A set of UGraph connectors.

<connectors> <connector master="T-1A-1N-1***null" role="ROOT_SLAVE" slave="T0A1N0***himis" /> <connector master="T0A1N0***himis" role="PATIENT" slave="T3A0N1***foqolad" /> <connector master="T0A1N0***himis" role="PATIENT" slave="T2A1N0***Aett" /> <connector master="T0A1N0***himis" role="TRG_LOC" slave="T1A0N1***hiA" /> <connector master="T3A0N1***foqolad" role="NFUNC" slave="T2A0N0***Aet" /> <connector master="T1A0N1***hiA" role="NFUNC" slave="T1A0N0***b-" /> <connector master="T0A2N1***mass" role="NFUNC" slave="T0A2N0***mi-" /> <connector master="T0A0N1***msayyem" role="NFUNC" slave="T0A0N0***mi-" /> <connector master="T3A0N1***foqolad" role="DET" slave="T3A0N0***ha-" /> </connectors>

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 104: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

97

דוגמה של עץ משמעות :7נספח

.XML-בפורמט ה עץ משמעותלדוגמה : a.13 איור

Figure a.13: An example of Meaning Tree in the XML format.

<mtree id=”1” location="C:\manya\academic\ \MScProject\corpus-ma\mt1.xml"> <root id="T-1A-1N-1" lexeme="null" /> <nuclei> <nucleus id="T-1A-1N-1" lexeme="null" cat ="UGRAPH_ROOT" dict_entry="UG_ROOT" /> <nucleus id="T0A0N0" lexeme="mi-" cat ="NFUNC" dict_entry="NF-MI-1" /> <nucleus id="T0A0N1" lexeme="msayyem" cat ="NOUN" dict_entry="N-FINISHER-1"> <morph> <status>ABS </status> <agr Gender="Masc" Number="Sing" Person="3" /> </morph> </nucleus> <nucleus id="T0A1N0" lexeme="himis" cat ="VERB " dict_entry="V-DISSOLVE-1"> <morph> <tense>Present </tense> <agr Gender="Masc" Number="Plur" /> </morph> </nucleus> <nucleus id="T1A0N1" lexeme="hiA" cat ="NOUN" dict_entry="N-SHE-1"> <morph> <status>ABS </status> <agr Gender="Fem" Number="Sing" Person="3" /> </morph> </nucleus> <nucleus id="T1A0N0" lexeme="b-" cat ="NFUNC" dict_entry="NF-B-1" /> <nucleus id="T2A0N0" lexeme="Aet" cat ="NFUNC" dict_entry="NF-ACC-1" /> <nucleus id="T3A0N0" lexeme="ha-" cat ="NFUNC" dict_entry="NF-DET-1"/> <nucleus id="T3A0N1" lexeme="foqolad" cat ="NOUN" dict_entry="N-CHOCOLATE-1"> <morph> <status>ABS </status> <agr Gender="Masc" Number="Sing" Person="3" /> </morph> </nucleus> </nuclei> <connectors> <connector master="T-1A-1N-1*null" role="ROOT_SLAVE" slave="T0A1N0*himis" /> <connector master="T0A1N0*himis" role="PATIENT" slave="T3A0N1*foqolad" /> <connector master="T0A1N0*himis" role="TRG_LOC" slave="T1A0N1*hiA" /> <connector master="T3A0N1*foqolad" role="NFUNC" slave="T2A0N0*Aet" /> <connector master="T1A0N1*hiA" role="NFUNC" slave="T1A0N0*b-" /> <connector master="T3A0N1*foqolad" role="DET" slave="T3A0N0*ha-" /> </connectors> </mtree>

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 105: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

98

של התוכניתםהמודולים העיקריי :8נספח

.Figure a.14: The Master-Slave Competence Based Understander packages .עבד-החבילות של הפרויקט אדון: a.14איור

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 106: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

99

מאגר נתונים לשונייםליצירת משתמש ימנשק 9.1 משתמשהמנשקי :9נספח

. הזנת הנתונים מתחיל מרשימת הלקסמות אותן רואה הבלשן במהלך עבודתו מול הקורפוסתהליך .Figure a.15: The User Interface for the semantic nuclei templates creating .מנשק המשתמש להזנת תבניות של גרעינים סמנטיים: a.15איור הצד השמאלי של , a.15 איור (ללקסיקון אזי הוא מכניס אותה . של המערכתטרם מופיעה בלקסיקון והיא ) בכתב פונמי שלנוjalaאו ( עלהגש לראשונה את הלקסמה כי הבלשן פ, לצורך ההדגמהנניח : מציינת לפחות שני גרעינים פועלייםעלהכך הלקסמה . ים יכולה לציין מספר גרעינלקסמהכל ). המסךV-RISE ו-V-COST 1 .לתאר אותו , אזי יכול הבלשן להגדיר את הגרעינים הללו במאגר הגרעינים ). הצד הימני של המסך, a.15איור (2כמקובל במילוני מושגים

1 Naftali Stern מסגרות תחביריות 7 מביא )sub-categorization frames ( עבור הלקסמה הזאת) ראו]stern94([. 2 שושן -מילון אבן, למשל])even04 ([ או המילון הקונספטואלי שלWORDNET])hyperdict00([. Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 107: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

100

ההיררכיה -בעת הזנת הגרעין בוחר הבלשן את הקטגוריה התחבירית שלו ואת מיקומו בתת יכול הבלשן , ם הוגדרה במאגר הנתוניםקטגוריה שטר-במידה והגרעין שייך לתת. הקטגוריאלית חשוב לציין שהמבנה ). a.16ר איו(ההיררכיה הקטגוריאלית -הקטגוריה החדשה לתת-להוסיף את תת ירושה כי לא רצינו לאפשר , 1 הוא עץעבד-אדוןקטגוריאליות במודל -הטופולוגי של ההיררכיות התת הדבר מאפשר לייצג את . גר הגרעינים ההיררכיבמהלך בניית מא) multiple-inheritance (מרבה -בעת הגדרת תת. javax.swing.tree מתוך החבילה TreeModel המנשקההיררכיה הזאת בעזרת כך . של הגרעינים השייכים לקטגוריה2קטגוריה חדשה הבלשן יכול לקבוע את ההתנהגות התחבירית . ACTIVE_VERBהעבד של הקטגוריה -שערי ניתן לראות את אוסף a.16 בחלק התחתון של האיור יורש הגרעין באופן אוטומטי את כל , ימתקטגוריה מסו-הבלשן את הגרעין לתתכאשר משייך .TRG_LOC - וSRC_LOCובנוסף מוגדרים עבורו השערים . VATTR -ו AGENT ,TIME ,VFUNC ,LOC יורש את השערים V-RISEכך הפועל . השערים שלאביו בהיררכיה

.Figure a.16: The User Interface for the semantic nuclei templates categories creating .מנשק המשתמש להזנת תבניות של קטגוריות גרעינים סמנטיים: a.16איור

.את אוסף השערים אליהם יכולים להתחבר גרעינים אחרים, כלומר framenet04[. 2[-ובניגוד ל] barbero98[-ה לבדומ 1 Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 108: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

101

בדוגמה שבאיור זוהי (הקטגוריה -בטבלה שבאמצע המסך רואים את רשימת השערים עבור תת .משתמש המיועד לכך מובא מנשקa.17 באיור. אם לתכונותיו הפנימיותתטוסי השערים בהאהיכולת שלו לשנות סטקטגוריה או גרעין בודד ניתן להגדיר אוסף חוקי הסתגלות אשר מתארים את -עבור כל תת .Figure a.17: The User Interface for the semantic nuclei adaptation rules .ות של גרעינים סמנטייםמנשק המשתמש להגדרת חוקי ההסתגל: a.17איור , הבלשן בוחר בטבלה את השער שחוק ההסתגלות משפיע עליו). ACTIVE_VERBקטגוריה -תת הוא בוחר את הערכים עבור התכונות הרלוונטיות עבור , אשר מעל הטבלהpop-up-מהחלונות ה ). אשר נמצא בעמודה השלישית של הטבלה( המעודכן של השער סהסטאטוו החוק ומשנה את אות של פועל פעיל בעל AGENT - שער הססטאטו: " מיוצג מצב שלפני הגדרת החוק הבאa.17 באיור ."OPTIONAL- ל DEMANDED- משתנה מ{PRES,3,M,PLUR}התכונות המורפולוגיות

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 109: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

102

אורכה של הקשת , וגיתכגון התאמה מורפול, םהבינארייובחלק הימני ישנם האילוצים • ,העבד-באמצע ניתן לראות את התכונות הרלוונטיות של גרעין • , האדון שרלוונטיות ליצירת הקשת-בחלקו השמאלי מופיע תיאור התכונות של גרעין • :המסך מחולק לשלושה חלקים. ACTIVE_VERB של TRG_LOC- לשער הסלהיכנ קשת שיכולה ית שלנ מובאת תבa.18 באיור. תבניות של קשתות שיכולות להתחבר לאותו השערעבור כל אחד מהשערים המופעים בטבלה המתארת את ההתנהגות התחבירית יכול הבלשן להגדיר .Figure a.18: The User Interface for connectors creating .מנשק המשתמש להגדרת תבניות קשתות: a.18איור עבור הדוגמה . יכולה להשפיע, של האדון והן של העבד הקשת שאת תבניתה הוא מתאר כרגעיכול הבלשן לציין על אילו מהשערים הן , המבנה של גרעיני הקשתורבטבלאות השייכות לתיא .וכדומה ).NF-TOבמקרה הזה זהו גרעין השימוש ( ייתכן TRG_LOC- על מנת שהקשר הNFUNC-שיכולים ל םהפונקציונאלייניתן לראות את רשימת הגרעינים " Possible slaves to the selected ports" ששמהברשימה המופיע בחלק התחתון של המסך . שלוNFUNC- לבין השער הV-RISEהפועלי של הגרעין TRG_LOC-שמופיעה באיור מוגדר אילוץ מסדר שני בין הקשת שנכנסת לתוך השער ה

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 110: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

103

.Figure a.19: The User Interface for conceptual correlation cube populating .תהקונספטואלי של קובית הקורלציה לאכלוסמנשק המשתמש : a.19איור ות שלשהכלי הזה מאפר להגדיר . a.19 הכלי להגדרת ההתאמה הקונספטואלית מובא באיור }master, slave, role { על מנת להכניס שלשה כזאת לתוך מאגר . 2ק בפרשמשמעותן תארה שר אנו עבדים עם תחום מוגבל של מציאות שמתייחס לאוסף מצומצם כלי כזה הוא שימושי כא . הנבחריהתמאטקובע אילו מבין הגרעינים יכולים למלא את התפקיד ) שלו םהתמאטיישמסמן אחד הארגומנטים (אדון ועבור כל שער העבד שלו -הנתונים בוחר הבלשן גרעין כי באופן כזה לא נוכל למלא את קוביית קורלציה , אך ברור לנו, של גרעינים סמנטיים .עבד-אדוןבמאגרים גדולים של טקסטים מנותחים במונחים של המודל .ב -ארים קורלציה קונספטואלית ובמאגרי הנתונים שמת .א לפתח כלים מתוחכמים יותר אשר ישתמשו בכוונתנולכן . הקונספטואלית לתחומים רחבים יותר

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 111: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

104

בחלק השמאלי מופיעים הגרעינים הסמנטיים של תצלום . מסך התוכנית מחולק לשלושה חלקים נשק המשתמש של המנתחמ 9.2 ה משקפת את של הגרעינים אינצורת התצוגה ). רופפים או קבועים( שלהם סהסטאטוהמצב יחד עם בחלק האמצעי ישנן קשתות של גרף המבע שעדיין לא מחוברות . המבנה הפרספטואלי של המבע . ובחלקו הימני של המסך ניתן לראות את עץ המשמעות החלקי שנבנה עד כה. לעץ המשעות

.Figure a.20: The User Interface for the Master-Slave based Hebrew Understander .עבד-אדוןהעברי מבוססת מודל מנשק המשתמש לתוכנית הבנת המבע : a.20איור Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 112: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

105

עבד-אדון מתייג מבוסס מודל :10נספח

.Figure a.21: Master-Slave Model based annotation tool .עבד-אדוןמתייג מבוסס מודל : a.21איור Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 113: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

106

. גרם שמנת מתוקה לקצפת יציבה מאוד625מקציפים וניתוחםמשפטים אוסף :11נספח .ממיסים בה את השוקולד

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 114: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

107

. מהקצפת לתערובת השוקולד שלישמוסיפים .מאחדים את הכול בתנועות קיפול

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 115: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

108

.צפת גרם ק50מוסיפים לתערובת .משמנים קלות את התבנית בחמאה .יוצקים את תערובת השוקולד

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 116: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

109

. למקרר לחצי שעה את התבניתמכניסים .מוציאים את התבנית מהמקרר . כפות אגוזים טחונים 2זורים מעליה

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 117: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

110

.Adriaens G. and Hahn U., Parallel Natural Language Processing, Ablex Publishing Corporation, 1994. [arnold90] Arnold D., Chart Parsing, url = "http://www.cs.ualberta.ca/~lindek/650/papers/chartParsing.pdf", 1990. [arnola98] Arnola H., On Parsing Binary Dependency Structures Deterministically in Linear Time, Workshop on dependency-based grammars, COLING-ACL'98, Montreal, pp. 68-77, 1998. [atserias99] Atserias J. et al, Using a Diathesis Model for Semantic Parsing, Proceedins of VEXTAL-99, pp.385-392, 1999. [barbero98] Barbero C. et al, Integration of syntactic and lexical information in a hierarchical de-pendency grammar, Proc. of the Wokshop on Dependency Grammars, ACL-COLING-98, Montreal, Canada, pp. 58-67, 1998. [barker92] Barker C. and Dowty D., Non-verbal thematic proto-roles, In Proceedings of the 1992 North- Eastern Linguistics Conference (NELS 23), 1992. [bogus00] Boguslavsky I.et al, Dependency Treebank for Russian: Concept, Tools, Types of In-formation, In Proceedings of the 18th International Conference on Computational Linguistics (COLING 2000), pp. 987-991, 2000. [bresnan01] Bresnan J., Lexical-Functional Syntax, Oxford: Blackwell Publishers, 2001. [bühler34] Bühler K., Sprachtheorie. Die Darstellungsfunktion der Sprache, (in German),Jena, 1934. [carmel99] Carmel D. and Maarek Y., Morphological Disambiguation for Hebrew Search Sys-tems, In Proceedings of the 4th International Workshop NGIT-99, Lecture notes in computer science 1649, Springer Verlag,pages 312-325, 1999. [carpenter99] Carpenter B., Probabilistic Graph Parsing - a framework for natural language syntac-tic analysis, Research Report, Multimedia Communications Laboratory, Bell Labora-tories, 4 February, 1999 [charniak97] Charniak E., Statistical techniques for natural language parsing, AI magazine, 18(4):33- 43, 1997. [covington90] Covington M.A., A Dependency Parser for Variable-Word-Order Languages, B16AI-1990-01, Athens, GA, 1990. [covington00] Covington M.A., A Fundamental Algorithm for Dependency Parsing,url = "http://www.ai.uga.edu/mc/dparser/dgpacmnew.pdf", 2000 [adriaens94] מקורותTechnion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 118: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

111

[chomsky57] Chomsky N., Syntactic Structures, Mouton, 1957. [chomsky65] Chomsky N., Aspect of the Theory of Syntax, MIT Press, 1965 . [courtin98] Courtin J. and Damien G. D., Parsing with Dependency Relations and Robust Pars-ing, In COLING-ACL'98, pp. 95-101., 1998. [earley70] Earley J., An efficient context-free parsing algorithm, In Communications of the ACM, 14, pp. 453-460. Reprinted in Barbara J. Grosz, Karen Spark Jones, and Bon-nie Lynn Webber (eds.) Readings in Natural Language Processing. Los Altos, USA: Morgan Kaufmann, 1986, pp. 35-70., 1970. [essex-lfg95] Lexical Functional Grammar Description, http://www.essex.ac.uk/linguistics/LFG/, 1995. [even04] Even-Shoshan A., The New Dictionary (in 5 Vols.), 2004. [fillmore68] Fillmore C., The case for case, in E. Bach and R. Harms, editors, Universals in Lin-guistic Theory, pp.1-90. Holt, Rinehart, 1968. [fillmore98] Fillmore C. et al, The Berkeley FrameNet project, In Proceedings of the COLING-ACL, Montreal, Canada, 1998 [framenet04] The Berkeley FrameNet Project WebSite, url = "http://www.icsi.berkeley.edu/~framenet/", 2004 [greg99] Kilgarriff A. et al, GREG: A Georgian, Russian, English, German Valency Lexicon for Natural Language Processing, University of Brighton, url = "http://www.informatik.uni-stuttgart.de/ifi/is/greg-index.html",Aug 1999 [gutter00] Gutter I. and Ornan U., Machine translation by semantic features, Technion, Haifa, Israel, 2000. [gutter03] Gutter I. , Sentence Parsing in Hebrew by Semantic Features, M.Sc. thesis, (in He-brew), Technion, 2003. [hajicova98] Hajicova E., Panevova J. and Sgall P.,Language Resources Need Annotations to Make Them Really Reusable: The Prague Dependency Treebank, In Proceedings of the First International Conference on Language Resources, pp. 713-718, Granada, Spain, 1998. [hays64] Hays D.G., Dependency theory: A formalism and some observations, Language, 40:511 525, 1964 [hebwnet04] WordNet for Hebrew, url="http://cl.haifa.ac.il/projects/mwn/", 2004. [hyperdict00] Hyperdictionary (based on the WordNet Project), url = http://www.hyperdictionary.com/, 2000. [hopcroft79] Hopcroft J. E. and Ullman J.D., Introduction to Automata Theory, Languages, and Computation, Addison-Wesley Inc., 1979. Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 119: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

112

[hspell04] Har'el N and Kenigsber D, HSPELL - Hebrew spellchecker, url="http://wassist2.cs.technion.ac.il/~danken/cgi-bin/hspell.cgi?". [hudson90] Hudson R. A., English Word Grammar. Oxford: Blackwell, 1990. [hudson00] Hudson R., Dependency Grammar, 12th European Summer Schoolin Logic, Lan-guage and Information (ESSLII-00), 2000. [hutchins92] Hutchins W.J. and Somers H. L., An Introduction to Machine Translation, Academic Press, London, 1992. [järvinen97] Järvinen T. and Tapanainen P., A dependency Parser for English, Department of Lin-guistic Technical Report, TR-1, Helsinki:University of Helsinki, 1997. [järvinen98] Järvinen T. and Tapanainen P., Towards an Implementable Dependency Grammar, COLING_ACL'98 Workshop: Processing of Dependency-Based Grammars, 1998. [järvinen03] Järvinen T. , Bank of English and Beyond - Hand-crafted parser for functional annota-tion, In Building and Using Parsed Corpora, Kluwer, Dordrecht, url="http:\\treebanks.linguist.jussieu.fr/toc.html". [kasami65] Kasami T., An efficient recognition and syntax algorithm for context-free languages. Technical report, Air Force Cambridge Research Lab, 1965. [kay96] Kay M.,Chart Generation, In Proc. of the 34 Annual Meeting of the Association for Computational Linguistics, pp. 200-204, CA, 1996. [könig99] König E., LexGram - a practical categorial grammar formalism, Journal of Language and Computation, 1(1):33-52 Oxford University Press and FOLLI, 1999. [lepage98] Lapage Y. et al, An Annotated Corpus in Japanese Using Tesniere's Structural Syn-tax, Coling-ACL '98 Workshop, Montreal, Canada, 1998. [levinger92] Levinger, M., Morphologic Disambiguation in Hebrew, MSc thesis, Technion, 1992. [lohuizen01] Lohuizen M. P. van, A Generic Approach to Parallel Chart Parsing with an Applica-tion to LinGO. ACL 2001: 507-514, 2001. [lombardo92] Lombardo V., Incremental Dependency Parsing, 30th Annual Meeting of the Asso-ciation for Computational Linguistics, 1992. [lomonosov57] Lomonosov M.V., Russian Grammar, (in Russian) url = http://www.ruthenia.ru/apr/textes/lomonos/lomon01.htm , 1757. [melčuk65] MelčukI . A. and Zholkovskij, A. K., O vozmozhnom metode i instrumentax seman-ticheskogo sinteza. (On a possible method and instruments for semantic synthesis.) Nauchno-texnicheskaja informacija 6, 23 - 28., 1965. [melčuk88] Melčuk I., Dependency Syntax: Theory and Practice, State Uni. of NY Press, 1988. [miller90] Miller G.A. et al, WordNet: An on-line lexical database, International Journal of Lexi-cography, 3(4), 1990 Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 120: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

113

[nivre03] Nivre J.,An Efficient Algorithm for Projective Dependency Parsing, In 8th Interna-tional Workshop on Parsing Technologies, Nancy(France), 2003. [noord03] Noord van G., Grammar-based Natural Language Understanding. Priority Pro-gramme Language and Speech Technology, Technical Report 121, 2003. [obrebski03] Obrebski T., Dependency parsing using dependency graph for storing alternative structures,In IWPT'03, 8th International Workshop on Parsing Technologies NANCY(France), April, 2003. [ornan00] Ornan U., Machine translation by semantic features, Technion, Haifa, Israel, 2000. [ornan02] Ornan U., A Morphological, Syntactic and Semantic Search Engine for Hebrew Texts, Proceedings of the workshop on Computational Approaches to Semitic Languages, 2002. [page99] Page L., PageRank: Bringing Order to the Web, Stanford Digital Libraries Working Paper, http://dbpubs.stanford.edu/pub/1999-66, 1997. [schank70] Schank H. et al, Conceptual Dependency Based Parsing, Stanford University, CA, 1970. [schneider03] Schneider G., A low-complexity, broad-coverage probabilistic Dependency Parser for English, In: Proceedings of NAACL/HLT 2003 Student session, Edmonton, Canada. [sidorov96] Sidorov G., Design and implementation of linguistic models, algorithms, and data for the systems with morphological analysis and generation for Russian language, PhD Thesis (in Russian), 1996. [srinivas96] Srinivas B et al., An approach to robust partial parsing and evaluation metrics, 8 European Summer School In Logic, Language and Information, Prague, Czech Re-public, 1996. [stern94] Stern N., Dictionary of Hebrew Verbs, (in Hebrew), Bar-Ilan University press, 1994. [tal01] Tal D., Analysis and Use of Subcategorization of Verbs in Validation of Hebrew Sen-tences, M.Sc. thesis, (in Hebrew), Technion, 2001. [tesniére59] Tesniére L., El'ements de Syntaxe Structurale, Klincksieck, Paris, (in French), 1959. [tomita87] Tomita M., An Efficient Augmented-Context-Free Parsing Algorithm, Computational Linguistics 13(1-2): 31-46, 1987. Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 121: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

The Master-Slave Dependency Model and its Application to

Understanding Hebrew

Yan Tsitrin

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 122: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 123: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

The Master-Slave Dependency Model and its Application to

Understanding Hebrew Research Thesis Submitted in Partial Fulfillment of the Require-ments for the Degree of Master of Science in Computer Science.

Yan Tsitrin

Submitted to the Senate of the Technion – Israel Institute of Technology December 2006 Haifa Tevet 5767

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 124: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 125: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

This research was carried out in the Faculty of Computer Science under the supervision of Prof. Uzzy Ornan I would like to thank Uzzi Ornan for his devoted and patient guid-ance throughout the course of this research. I would like to thank my wife, parents and my friends for their constant encouragement and support. The generous financial help of the Technion and Mrs. Neyers Foundation is gratefully acknowledged

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 126: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 127: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

Contents Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 List of symbols and abbreviations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.1 Artificial systems for natural languages analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 The goal of the research . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4 The structure of the thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 The Master-Slave model: overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.1 Meaninig Tree (MTree) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Utterance Graph (UGraph) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3 The model basics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.4 Semantic Nuclei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.5 Connectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.6 The understanding scheme in the Master-Slave model . . . . . . . . . . . . . . . . . . . . . . . 32 Linguistic competence and Utterance-Graph creation . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.1 Utterance-Graph creation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2 Semantic nuclei dictionary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.3 Adaptation rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.4 Connectors templates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Seeking Utterance-Graph for Meaning-Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 4.1 The algorithm overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 4.2 The model implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.3 The model evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Results and Future Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 5.1 Comarison with other models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.2 Future work directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.3 Linkage to other systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 Appendix 1: The Hebrew phonemic scritpt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Appendix 2: The lexicon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 Appendix 3: The sub-categorical hierarchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Appendix 4: Examples from the competence database . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Appendix 5: The morphological analysis formats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Appendix 6: An Utterance-Graph example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Appendix 7: A Meaning-Tree example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 Appendix 8: The main modules of the program . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 Appendix 9: User interfaces of the program . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 128: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

Appendix 10: Master-Slave model based tagger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 Appendix 11: The analyzed sentences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 Abstract (in English) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 129: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

List of Figures 1.1 Two approaches to the utterance structure . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2 Creation of derivation tree for the sentence "The dog sees a cat" . . . . . . . 6 1.3 Word order in Russian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4 An utterance structure in the terms of the Dependency Grammar . . . . . . . 9 1.5 Relations that can be revealed with the Fillmore approach only . . . . . . . . 9 1.6 Mixing approaches in the existing implementations of the Fillmore model 9 2.1 A tree representing the meaning of the sentence “2.2 12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ”.אליך אל אל אל תעלה כי אליך ירדו Lexical and semantic atoms of a token . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.3 The Syntactic structure of a UGraph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.4 The nuclei’s internal structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.5 Two-dimensional template of nuclei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.6 Connector generalization - from nucleus level to the syntactic category level . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.7 Examples of the second-order dependencies . . . . . . . . . . . . . . . . . . . . . . . 31 2.8 Utterance analyzing scheme according to the Master-Slave model . . . . . . 33 2.9 The syntactic categories hierarchy in the Master-Slave model for the He-brew language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.1 Scheme of an utterance graph creations . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.2 The U-Graph creating algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.3 The algorithm for U-Graph nuclei creating . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.4 The algorithm for U-Graph nuclei adaptation . . . . . . . . . . . . . . . . . . . . . . . 38 3.5 The algorithm for the U-Graph connectors creating . . . . . . . . . . . . . . . . . . 38 3.6 Semantic and functional nuclei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.7 An example of the Measure nouns ambiguity . . . . . . . . . . . . . . . . . . . . . . 44 3.8 An attribute that can describe both verbs and nouns . . . . . . . . . . . . . . . . . 45 3.9 Symmetry of verbal and nominal nuclei in the MASTER-SLAVE model . . . . 47 3.10 Multi-functionality of functional nuclei in the MASTER-SLAVE model . . . . . 48 3.11 Three levels of the connectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.12 Chains of functional nuclei: (a) nominal; (b) verbal . . . . . . . . . . . . . . . . . . . 53 3.13 Connectors between functional and conceptual nuclei: (a) nominal; (b) verbal. 54 3.14 Dependency between nominal and verbal nuclei . . . . . . . . . . . . . . . . . . . . 54 3.15 Dependency between verbal and nominal nuclei . . . . . . . . . . . . . . . . . . . . 56 3.16 Dependency between verbal and nominal nuclei in the Russian: (a) using participle; (b) using subordinating conjunction которая . . . . . . . . 56

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 130: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

3.17 Connectors between conceptual nuclei of the same type: (a) unconditional verbal; (b) conditional verbal; (c) unconditional nominal; (d) conditional nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.1 Reducing U-Graph to one of its M-Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.2 The algorithm for inference of M-Trees from a U-Graph . . . . . . . . . . . . . . . 61 4.3 The reduce operation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.4 A search tree in the space of snapshots . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.5 The MSc-Project Modules Diagram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.6 Morphological Analyzer setting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.7 The model evaluation scheme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.1 The syntactic structure (packed shared forest) that is generated by the Masaru Tomita’s algorithm for the sentence “I saw a man with a tele-scope” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 5.2 The syntactic structure (UGraph) that is generated by the Master-Slave Model’s algorithm for the sentence “I saw a man with a telescope” . . . . . . 74 5.3 An example of a Hebrew non-projective meaning structure . . . . . . . . . . . . 76 5.4 The wanted syntactic structure for the sentence “Have you been calling your wife up?” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.5 The syntactic structure for the sentence “Have you been calling your wife up?” produced by the analyzer of Järvinen and Tapanainen . . . . . . . . . . . 77 5.6 Construct Connectors in descending weights order . . . . . . . . . . . . . . . . . . 79 a.1 The verb hierarchy in the MASTER-SLAVE model . . . . . . . . . . . . . . . . . . . . 86 a.2 The noun hierarchy in the MASTER-SLAVE model . . . . . . . . . . . . . . . . . . . . 87 a.3 The attributes hierarchy in the MASTER-SLAVE model . . . . . . . . . . . . . . . . 88 a.4 The attributes hierarchy in the MASTER-SLAVE model . . . . . . . . . . . . . . . . 88 a.5 A nucleus template example in the XML format . . . . . . . . . . . . . . . . . . . . . 89 a.6 An adaptation rule example in the XML format . . . . . . . . . . . . . . . . . . . . . 89 a.7 A connector template example in the XML format . . . . . . . . . . . . . . . . . . . 90 a.8 A fragment of sub-categorical hierarchy in the XML format . . . . . . . . . . . . 91 a.9 An output example of the morphological analyzer Multi-Xadash . . . . . . . . 92 a.10 An example of perceptual structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 a.11 A set of UGraph nuclei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 a.12 A set of UGraph connectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 a.13 An example of Meaning Tree in the XML format . . . . . . . . . . . . . . . . . . . . 97 a.14 The Master-Slave Competence Based Understander packages . . . . . . . . . 98 a.15 The User Interface for the semantic nuclei templates creating . . . . . . . . . 99 a.16 The User Interface for the semantic nuclei templates categories creating . 100 a.17 The User Interface for the semantic nuclei adaptation rules . . . . . . . . . . . 101 Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 131: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

a.18 The User Interface for connectors creating . . . . . . . . . . . . . . . . . . . . . . . . . 102 a.19 The User Interface for conceptual correlation cube populating . . . . . . . . . 103 a.20 The User Interface for the Master-Slave based Hebrew Understander . . . . 104 a.21 Master-Slave Model based annotation tool . . . . . . . . . . . . . . . . . . . . . . . . 105

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 132: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

List of Tables 2.1 The Port Status values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.2 The second-order dependencies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.1 The Hebrew categories according to the MASTER-SLAVE model . . . . . . . . . . 41 3.2 The ATTRIBUTE category sub-categories . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.3 The SERVANT category sub-categories . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.4 The adaptation rules set . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.5 The set of all possible connections between Hebrew sub-categories in terms of the MASTER-SLAVE model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.1 The system's performance evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 a.1 The Hebrew phonemic script . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 a.2 The corpus verbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 a.3 The corpus noun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 a.4 The Attributes, Servants and Intensifiers of the corpus . . . . . . . . . . . . . . . . . 85

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 133: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

i

Abstract Understanding of natural language texts is a classic example of a task humans are able to perform without defining it formally. But in order to teach a com-puter to cope with this problem we have to describe the understanding proc-ess in terms of formal specifications understood by the computer. In our research we describe such structures in terms of Dependency Grammar. The concept of Dependency Grammar includes a whole family of theories and formalisms based on the common assumption set. In these grammars an utterance structure is represented by a graph. The nodes of the graph stand for the utterance’s words and its edges symbolize the relations between them. The key asset of dependency grammar is that it allows for a clean separation of syntactic dependency and surface word order. For this rea-son these grammars seemed better suited for the analysis of relatively free word order languages, like Hebrew. In contrast to the Phrase Structure Grammars in this approach the structures produced by the analyzer do not include theoretical variables (like NP or VP). In this thesis we present a new model for sentences analysis called MASTER-SLAVE dependency model. In this formalism an utterance meaning is related as a tree-based structure which is called Meaning Tree or MOLECULE (Morphological-Lexical-Conceptual Entity).The tree’s nodes stand for the concepts expressed in the utterance (we call them semantic nu-clei) and its edges (or connectors) represent conceptual or functional relations between the nuclei. Each nucleus or connector can be orthogonally decom-posed into the space’s axes according to its perceptual, structural and concep-tual features. A Meaning Tree is a formal meaning representation in the com-puter, so we say that the computer understands an utterance when it finds such a tree (or a set of trees for an ambiguous utterance). Since the utterance analysis should cope with different kinds of ambiguity and for a single utterance several meaning structures can be found, we pro-pose a structure allowing storing all these structures. Such a structure is Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 134: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

ii

called Utterance Graph. All the meaning trees of an utterance can be inferred from its utterance graph. We also propose a hierarchy of grammatical categories of the semantic nu-clei. The higher the nucleus’ category is in the hierarchy, the more important for the utterance meaning the nucleus is. In contrast to the works of Tesniere and Fillmore, we do not demand a verb to be necessarily the most important nucleus for an utterance in order to find its meaning. The nucleus whose category is the highest in the hierarchy among other utterance’s tokens may stand in the center of the utterance’s meaning. This allows us to analysis incomplete sentences. We have investigated also the internal structure of the nucleus that re-lates, among other things, its ability to establish connections with other sen-tence’s nuclei (nucleus’ valency). In our model we use the concept of valency for all the categories of nuclei, not only for verbs, as it is accepted in other works. It was figured out that the valency of a nucleus may depend on its in-ternal features. We described this phenomenon in terms of adaptation of a nucleus to the environment of the analyzed sentence. The utterance analyzing process is executed in two stages: 1. Utterance Graph creating – for all the tokens of the analyzed utter-ance we find all the nuclei the token can represent and then we cre-ate all possible connectors between these nuclei; 2. Based on the created Utterance Graph all the consistent Meaning Trees that the graph contains are inferred. It should be noted that the connectors’ creation and their analysis are per-formed according to the hierarchy we have built and does not depend on the tokens’ order in the sentence. Since the second stage of our algorithm copes with abstract graph analysis it constitutes an appropriate platform for using parallel architectures for natural text understanding. We have developed algo-rithms for both the stages and have implemented them in the Java program-ming language. A set of connectors’ creation rules for a fragment of the He-brew language was described. We also propose a method for inferring such rules from manually annotated corpora. The algorithms’ complexity has been analyzed and the program performance was evaluated. From the experiments we conducted it follows that the first (and correct) meaning-trees for a given Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007

Page 135: מוֹדֶ ל תְּ לוּיוֹת אָדוֹן עֶ בֶ ד - CS, Technion

iii

utterance may be obtained quite quickly; however in order to find all the meaning-trees the algorithm needs unacceptable amount of time. Many examples of sentences in different languages (Hebrew, English, Rus-sian, German, Polish, etc) are presented, together with the structures the ana-lyzer assigns them. We consider, as well, the using of our program as a model in more general applications, such as Dialog Systems, Machine Translation Systems, Text Summarizers and Search Engines. As a conclusion we suggest some directions for extending and improving the project.

Technion - Computer Science Department - M.Sc. Thesis MSC-2007-01 - 2007