סמינר בבלשנות חישובית 236 81 7 חורף 2011 תשע"ב, מדעי המחשב - טכניון שילוב דינאמי של מכונת תרגום מבוססת דוגמאות ומכונת תרגום מבוססת חוקים. Towards a Dynamic Linkage of Example-based and Rule-based Machine Translation Michael Carl, Catherine Pease, Leonid L.Iomdin , Oliver Streiter - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
236817סמינר בבלשנות חישובית
תשע"ב, מדעי המחשב - טכניון2011חורף
שילוב דינאמי של מכונת תרגום מבוססת דוגמאות ומכונת תרגום מבוססת חוקים
סטולרו: ותומר דוד עמרי מציגים
' אורנן עוזי פרופ בהנחיית
Towards a Dynamic Linkage of Example-based and Rule-based Machine Translation
Michael Carl, Catherine Pease, Leonid L.Iomdin, Oliver Streiter2001, Kluwer Academic Publishers Netherlands
מבוא:קיימות שתי גישות מרכזיות למימוש מכונת תרגום
- מכונת תרגום המבוססת על דוגמאות ועל גוף הטקסט
CBMT
,מכונת תרגום המבוססת על מגוון רחב של חוקים: מורפולוגים
RBMTסמנטים וסינטקטיים –
אנו ננסה להביא דגם של מכונה משולבת אשר מנצלת את
הטוב שבשני העולמות, כך שביצועיה יעלו על ביצועי כל
אחת מהמכונות בנפרד.
3
תזכורת:
)מכונת תרגום מבוססת דוגמאות )קורפוס
CBMT
מכונת תרגום מבוססת חוקיםRBMT
המכונות מבטאות הבדלים בין שתי גישות שונות
לתרגום מידע לשוני: גישה אינדוקטיבית מול גישה
דדוקטיבית.4
CBMT מכונת תרגום מבוססת – קורפוס
מאפיינים: מערכת אינדוקטיבית – הסקת הכללים
מהדוגמאות, מזיכרון התרגום וניתוח הטקסט על פיהם.
מבוססת על טיוטת התרגום בשפת המקורובשפת היעד
– קבלת ההחלטות מבוססת מידע סטטיסטי ככל שקיים מאגר גדול יותר של תרגומים כך
"איכות" התרגום עולה, כלומר הקורא יוכל להבין את המשמעות של הטקסט המתורגם
בצורה טובה יותר.
.תלויה בגודל הזיכרון המוקצה למכונה
5
RBMT מכונת תרגום מבוססת – חוקים
מאפיינים:חוקים מורפולוגיים
מערכת דדוקטיבית – מערכת ש"למדה" כלליוחוקי דקדוק על מנת להתמודד עם ניתוח ותרגום
המשפטים
מבוססת על כללי התחביר
מילונים לקסיקוגרפיים בשפת המקור ובשפתהיעד
גמישה מבחינת "כיסוי", כלומר תומכת במגווןרחב של נושאים
6
למה נרצה מכונה משולבת?
לכל אחת משיטות התרגום שהוצגו קיימים חסרונות
שונים:
איכות התרגום
ביצועי מע' התרגום - מהירות העבודה, דיוק התרגום
וכד'
גמישות והסתגלות המערכת לטקסטים בנושאים
מגוונים
המטרה:
ניצול היתרונות של כל אחת מהמערכות כדי להציג
שיפור בביצועים שיעלה על יכולותיה של כל מכונה
בנפרד.
7
למה נרצה מכונה משולבת?
דוגמא לחסרונות של הגישות,
)תתקשה מכונת תרגום עם זיכרון )קורפוס
בתרגום נכון של משפט חדש לחלוטין או של
.טקסט חדש
( מכונת תרגום מבוססת חוקיםRBMT אינה )
לא תוכל לשמור תוצאות תרגום "מכונה לומדת",
.ולהסיק מהן על תרגומים עתידיים 8
מוטיבציה למכונה משולבת
טקסט המכיל נושאים מגוונים יתורגם באופן
מהימן למקור בעזרת מכונה מבוססת חוקים
בצורה טובה יותר מאשר במכונה המבוססת על
דוגמאות ולהיפך.
חשוב להדגיש שגם כאשר מדובר במערכת
מבוססת דוגמאות, יש שימוש בכללים על מנת
לנתח את הדוגמאות ולהזין את התבניות
למערכת.
9
מאפיינים של מכונות תרגום
איכות התרגום
כיסוי
( התאמה בין הטקסטיםRecall )
גודל יחידות התרגום
הסתגלות/גמישות
10
מאפיינים של מכונות תרגום – איכות התרגום
– קיימת חלוקה לחמש רמות
)מידע כללי על מתווה הטקסט.אינדיקטיבי )מרמז –
מאפשר לקורא להבין באופן כללי את אינפורמטיבי –
תוכן המסמך.
כל פיסת טקסט מתורגמת באופן נכון מבחינת מילולי -
התבנית הדקדוקית
מסמך היעד ערוך נכון מבחינה רעיונית מהימן –
ומבחינת הסגנון
הרמה הגבוהה ביותר. תרגום נכון מוכוון משתמש –
מנקודת המבט של הקורא והשקפת עולמו.
11
מאפיינים של מכונות תרגום – איכות התרגום
:اليوم דוגמא مدار على (ُح'وم' َت طيار بدون أمريكية طائرات ثالث هناك
قريتنا سماء في
ם שלוש מטוסים אמריקאית בלא טייס תרחף על ציר היום בתוך שמיים א- ָׁש'שלנוכפר
כפרנו )מבנה זה נמצא במקור ומצוי גם בעברית. בסוף מתאים לכתוב הכפר שלנו(
יש שלוש מטוסים אמריקאית ללא טייס תרחף על משך היום בשמיים כפר שלנוב-
יש שלושה מטוסים אמריקאים ללא טייס שמרחפים במשך כל היום בשמיים של ג-הכפר שלנו.
יש שלושה מטוסים אמריקאים ללא טייס שחגים במשך כל היום בשמי כפרינו.ד-
יש שלושה אפאצ'ים אמריקאים ללא טייס שחגים במשך כל היום בשמי כפרינו. ה-
12
מאפיינים של מכונות תרגום – פרמטרים נוספים
התאמה(recall ) נכונות התרגום של כל יחידת טקסט בשפת –
המקור ביחס ליחידת הטקסט בשפת היעד. הנכונות מתייחסת
למושגים כמו, מין, מספר, זמנים וכו'...
ערך ההתאמה גדל כתלות ביכולת המכונה לחלק את הטקסט
ליחידות תרגום.
أمريكية طائرات
"כביכול היינו אמורים לתרגם את הביטוי הנ"ל כ- "מטוסים אמריקאית
"עבור התאמה טובה, עלינו לתרגם את הביטוי כ- "מטוסים אמריקאים
13
מאפיינים של מכונות תרגום – פרמטרים נוספים
ככל שאורך היחידות שיתורגמו נכונה גודל יחידות התרגום –
יגדל, כך המכונה תשיג איכות תרגום גבוהה יותר. אורך
ואף מהימן למילולייחידות התרגום אף יכול להפוך תרגום
.מוכוון משתמשל
לשתי יחידות שונות, יתקבל اليوم مدارאם נפריד את הביטוי
תרגום שגוי –
בשמי הכפר שלנוציר היום חגים על
:עבור תרגום נכון, על המילים להופיע באותה יחידת תרגום
בשמי הכפר שלנובמשך היוםחגים
14
مدار على (ُح'وم' سماء َت في اليوم
قريتنا
سماء في اليوم
قريتنا
מאפיינים של מכונות תרגום – כיסוי
השאיפה של כל מכונת תרגום היא לתרגם בצורה
הטובה ביותר כל טקסט שיינתן לה. עם זאת, תחומי
עניין שונים מאופיינים במילים וביטויים ייחודיים.
כיסוי רחב יאפשר למכונת התרגום לעבד בצורה
מקיפה מגוון טקסטים גדול ואילו כיסוי מצומצם יגביל
את מרחב התרגום האפשרי של המכונה.
RBMT כיסוי גבוה, כל טקסט מתורגם עפ"י סדרת –
כללים
CBMT כיסוי נמוך, רק עפ"י הדוגמאות שהוזנו –
למערכת.
15
מאפיינים של מכונות תרגום – כיסוי נמוך
16
עבור מזג אוויר אין צורך בכיסוי גבוה, מפני שהביטויים קבועים וידועים מראש
מאפיינים של מכונות תרגום – כיסוי גבוה
17
השונות של הטקסט גדולה, תרגום אוטומטי יתקשה להשיג אפילו איכות סבירה
מאפיינים של מכונות תרגום – פרמטרים נוספים
הסתגלות–
היא תרגום מילולידרישה בסיסית מתרגום באיכות של
ארגון נכון של יחידות הטקסט והתאמתן לשפת המטרה.
ככל ששפת המקור תהיה יותר עשירה, כך יהיה קשה
יותר למכונת התרגום להתאים את המבנה של הטקסט
לכזה שיתאים לשפת היעד.
– ההסתגלות נמצאת ביחס ישר לגודל יחידות התרגום
ככל שיחידות התרגום ארוכות יותר כך קשה יותר
לתרגמן בצורה תקינה.
18
מאפיינים של מכונות תרגום – פרמטרים נוספים
,דוגמא
Die Brille ist billiger in Russland
The eyeglasses is cheaper in Russia
( נשים לב שאחוז ההתאמהrecall הוא )100%:
כל יחידת טקסט מתורגמת באופן תקין לשפת היעד.
חלוקת יחידות התרגום באופן שונה עשויה הייתה להניב תרגום
יותר מהימן, מכיוון שהיחס בין "משקפיים" ל"זולות" היה ברור:
The eyeglasses are cheaper 19
שילוב הגישות למכונות התרגום
עקב החסרונות של כל אחת מהגישות, הגיע הרעיון למזג
מספר תפיסות למכונת תרגום משולבת.
לכל רכיב משאבים ומבני נתונים משל עצמו שילוב חלש –
שאינם משותפים עם שאר מרכיבי המערכת. התרגום
מבוצע על ידי מנשק שמוגדר היטב – פלט של רכיב אחד
הוא הקלט של הרכיב הבא.
מבני הנתונים משותפים לכל המרכיבים. שילוב חזק –
יתכנו שינויים למבני הנתונים שישפיעו על תוצאות התרגום
של מספר מרכיבים שונים.
20
חלש שילוב מול חזק שילוב
שילוב הגישות למכונות התרגום - המחשה
21
..…שילוב חלש
שילוב חזק
שילוב הגישות למכונות התרגום – דוגמאות מחקריות
צירוף מילים בעל משמעות מיוחדת, שונה מזו אידיום –
המתקבלת באופן מילולי מכל אחת מהמילים המרכיבות
אותו בנפרד.
קפה + טורקי / נס / הפוך / שחור
כאשר מכונת התרגום תיתקל במילה "קפה", היא תוכל לפרשה
ה או ה, ק-פ' פ. ה. המכונה תיעזר במילה הבאה שתופיע על כק' ָּפ& ק)
מנת להכריע בין הצירופים האפשריים.
הוכח שתרגום מבוסס חוקים המועשר במערכת סטטיסטית
יכול לטפל בצורה טובה במקרים של צירופים מסוג זה.
נעשו מספר ניסיונות לנצל את התכונה כדי להשיג תרגום
איכותי.
22
שילוב הגישות למכונות התרגום – מחקריםשילוב חזק
יינר ובוילון תיארו שימוש במידע סטטיסטי 95בשנת ר1
במהלך הפעלת מכונת תרגום מבוססת חוקים. המידע
הסטטיסטי נאסף באופן ידני על ידי דירוג התרגומים
השונים שהציעה המערכת.
מאחר שכל המסמכים עסקו בתחום עניין מצומצם, ניתן
היה לטפל בשגיאות טיפוסיות שנעשו על ידי המערכת.
הכיסויבאה על חשבון איכות התרגום הגבוהה במקרה זה.
מכיוון שלכל חוק נקבעה רמת התאמה שילוב חזקזהו ,
סטטיסטית לנושא הטקסט
23
שילוב הגישות למכונות התרגום – מחקריםשילוב חזק
איסוף סטטיסטי ידני יאפשר
להגדיר עדיפות גבוהה למילה
ה פ. כאשר מופיעים אחריה ביטויים ק'
מתאימים.
באותו אופן ניתן להגדיר עדיפות
ב, כאשר יש צורך בכך. ל& למילה ח&
24
מתוך תפריט "קפה הלל"
שילוב הגישות למכונות התרגום – מחקריםשילוב חזק
סטרייטר 99דוגמה נוספת לשילוב חזק הביאו בשנת
ועמיתיו.
הם אספו מידע על תדירויות מילים בטקסטים וסיווגו את המילים
לפי תחומן. את המילים הללו הוסיפו למילון מכונת התרגום
מבוססת החוקים, כך שהתרגומים הנפוצים קיבלו עדיפות גבוהה.
.איכות התרגום ירדה, אך כיסוי גבוהבאופן זה הושג
בחירה לפי סטטיסטיקה לא תמיד נכונה או מתאימה לתחום.25
שילוב הגישות למכונות התרגום – מחקריםשילוב חלש
-שלוש מ"ת 94במערכת שהוצגה על ידי פרדריק ונירנבורג ב ,
בלתי תלויות הורצו במקביל כשכל אחת מהן מתרגמת חלקים
של טקסט המקור.
( אסף את chart-walkאלגוריתם בשם "הליכה על טבלה" )
התרגומים ובכל פעם בחר מבין המרכיבים המתורגמים את אלה
שהתאימו בצורה הטובה ביותר לבניית משפט בשפת היעד.
האלגוריתם בעצם הרכיב את המשפטים בשפת היעד מחלקי
התרגום הטובים ביותר שמצא בפלט של שלוש מכונות התרגום.
מכיוון שכל אחת מהמכונות עבדה בנפרד עם שילוב חלשזהו
הנתונים שלה
26
שילוב הגישות למכונות התרגום – מחקריםשילוב חלש
אנשים נהגו לצוד את האוכל שלהםקדםבימי
27
In the eastern days…
In the ancient times…
In the greeting days…
In the ancient times people used to hunt their food
שילוב הגישות למכונות התרגום – מחקריםשילוב חלש
יין אינטגרציה בין שתי מערכות - הראשונה 96בשנת תיאר ה.
( והשנייה מכונה מבוססת TRADOS)מבוססת על זיכרון דוגמאות
(.LOGOSחוקים )
במקרים בהם מכונת התרגוםTRADOS לא מצאה במילוניה התאמה
לתבניות המוכרות לה, הועבר המשפט לתרגום רגיל על ידי מכונת
.LOGOSהתרגום מבוססת הכללים
בסופו של התהליך המשתמש קיבל הודעה איזו מהמערכות תרגמה
את המסמך, מכיוון שאיכות התרגומים של לוגוס צפויה להיות פחות
אמינה.
28
ETAP-3 ,שפותחה עבור תרגום מבוססת חוקיםמערכת תוכנתית גדולה ,
באיכות גבוהה. המערכת מבוססת על הקשר משמעות טקסט, זוהי תאוריה
לשונית שעושה שימוש בעצי תלויות עבור הייצוג והמבנה הסינטקטי.
השימוש העיקרי היה לתרגום דו-כיווני בין רוסית לאנגלית ושימשבעיקר בטקסטים מדעיים וטכניים של מדעי המחשב, הנדסת
חשמל והנדסת חומרים
-לETAP-3 פותחו גרסאות ניסוי צרפתית-רוסית, רוסית-קוריאנית וגרמנית-רוסית.
בנוסף, קיים מודול שממיר מאנגלית או רוסית לשפת הרשת הבינלאומיתUNL.
( המבוססת אנגלית.Interlinguaזוהי היא שפת ביניים )פותחה במטרה לאפשר למשתמשי האינטרנט תרגום חצי אוטומטי של
שפות. משפטי המסמך מתורגמים אחד אחרי השני, בעזרת שימוש בכללים
והיא מפיקה את המשתנה E5מתאים לדוגמא The old man ראשית, הביטוי
.E6g שנית, נבחין כי היחידה מתאימה גם לתרגום התבנית
למעשה יש שני זוגות של משתנים אופציונלים. בשלב זה נעביר את המשפט עם המשתנים .CAT2ל-
ומזהה שהמשתנה is waiting מתרגמת את הביטוי CAT2 המכונה
( של המשפט מבחינה סמנטית לפי העובדה שהוא בעל קשר theme צריך לתפקד כנושא ). waitערכי ל-
.auf בנוסף יש להוסיף למשפט גם את מילת היחס בגרמנית
לפי auf תוסיף את ה-EDGAR ( בשפת היעד R כאשר מבצעים את שלב העידון ) המידע שגילתה
.CAT2 בעזרת המכונה
72
CAT2-EDGARדוגמא - 4משפט:
manהופכת להיות משתנה אחד בהתאם לשני שלבי עיבוד: הראשון The manהיחידה מבוססת על משפט
להתאים את יתר התבנית .E4g ואז משתמשים בתבנית E1 הדוגמא
.on the table מתאימה ליחידה E9 התבנית
( Direction מקבל תפקיד סמנטי של כיוון )y. המשתנה CAT2כעת מתבצע תרגום בעזרת
וניתן לדעת כי המשמעות של המשתנה הוא מושא auf ולכן יש להוסיף את מילת היחס (ACC.)
.EDGARכעת מתבצע שלב העידון האחרון בעזרת
6 ו-5באופן דומה מתבצע תרגום של משפטים. מתאים באופן מושלם לתבנית 6נשים לב שמשפט E11 של EDGAR ולכן לא יתבצע
במקרה זה.CAT2כל תרגום באמצעות
73
– סיכוםCAT2-EDGARדוגמא - המכונה המשולבת
EDGAR.עוזרת בתרגום ביטויים מסובכים CAT2.מכירה את מבנה השפה ולכן תדע להתאים משפטים לשפת היעד
כיסוי-לCAT2מקורות עשירים ולכן מובטח כיסוי גבוה מכונת התרגוםEDGAR.מראה כיסוי נמוך
איכותEDGAR -מראה איכות תרגום יותר גבוהה מ CAT2.EDGAR.תתקשה לתרגם ביטויים בהם התבניות שייכות להקשר כלשהו
הסתגלותEDGAR מראה הסתגלות על ידי כך שהיא יודעת להוסיף או להחליף
מילות יחס ותוספת וזאת לפי ניתוח המשפט והתאמתו לשפת היעד .CAT2שנעשה על ידי 74
– קשיים CAT2-EDGARדוגמא - ומגבלות
שינוי קטגוריהלשנות מידי פעם חלקים על מנת להשיג תרגום מהימן באיכות גבוהה, יש
. בשפת היעד
CAT2 מכתיבה איך צריך להתמודד עם ביטוים שיכולים להיות הנושא במשפט או במקרים בהם יש צורך לשנות את מבנה המשפט בשפת היעד
הופך wait for the old man)כמו להקדים את הפועל וכו'(. למשל . erwartet den mannל-
שכן הוא עובד עם תבניות מסוימות.EDGARדבר זה יכול לגרום קשיים ל-חלוקה שגויה של המשפט
ואז לא יהיה ניתן EDGARמשפט יכול להיות מחולק באופן לא נכון על ידי . CAT2לבצע תרגום כמו שצריך על ידי
Nimni reads a very interesting storyלמשל בדוגמא CAT2 ואילו EDGAR ייחשב כשם עצם על ידי interesting story הביטוי
לא
.a very Xnoun יודעת לעבוד עם תבנית של
75
סיכום הראינו פיתוח ומימוש ניסיוני של סוג שונה של מערכת
תרגום משולבת, בה מכונת תרגום מבוססת קורפוס עובדת בשיתוף פעולה עם מכונת תרגום מבוססת
חוקים. מבחינת השילובים, ניזכר שבמערכת המשולבת עםETAP-
שני הרכיבים עבדו עם עצים, על אותו מבנה נתונים – 3שילוב חזק.
כל מכונה תרגמה באופן בלתי CAT2-EDGARבמערכת תלוי את הקלט שנשלח אליה ולבסוף נפלט התרגום – שילוב
חלש. הרעיון המרכזי של השימוש במכונה מבוססת קורפוס
הוא להעשיר את מכונת החוקים, הנוקשה והמורכבת, בתרגומים אנושיים שיספקו תרגום תואם לשפה
המדוברת. זיכרון התרגום מכיל דוגמאות די פשוטות, אבל המגוון
ומרחב הדוגמאות גדול מאוד, מדויק ומכיל תרגומים בין שפות.
דוגמאות אלה יועשרו במהלך שילובן במשפטי המקורומכונת התרגום מבוססת החוקים תתאים אותן למבנים
הסופיים בשפת היעד.
76
סיכום במכונת התרגוםEDGAR ראינו כיצד מתבצע ניתוח
על הדוגמאות הנתונות.ואוטומטימורפולוגי בסיסי יכולות טובות יותר הציגה מכונת הדוגמאות המשולבת
, אולם במקרה זה הניתוח ETAP-3עם מערכת מכיוון שהיה צורך להזין חצי-אוטומטיהמורפולוגי היה
את הדוגמאות בעזרת מזהה הביטויים האינטראקטיבי. שתי הדוגמאות למכונות משולבות שהצגנו מימשו שילוב
דינאמי בין מכונות התרגום, כך שתמיד המכונה מבוססת הקורפוס הייתה מתרגמת בעצמה יחידת
תרגום שהתאימה לתבניות שלה והמכונה מבוססת החוקים הייתה משלימה את התרגום של חלקי המשפט
עבורם לא הייתה דוגמה בזיכרון המערכת.77
סיכום 2001המאמר פורסם בשנת.
הכותבים ציינו שהמערכות שתיארו הן רק אבות-טיפוס ושיש צורך במחקר תיאורטי נוסף על מנת להגיע
לתוצאות משביעות רצון עבור מגוון טקסטים רחב יותר וביעילות מספיק גבוהה.
שחררה חברת 2010בשנת SYSTRAN של 7 את גרסה מערכת התרגום שלה. זו הייתה הגרסה המסחרית
הראשונה של מערכת תרגום משולבת חוקים ומידע סטטיסטי.
כיום, קיימות מספר חברות מסחריות נוספות בעלותמערכות תרגום המשלבות את הגישות.
78
מקורות Towards a Dynamic Linkage of Example-based and Rule-based
Machine Translation - Michael Carl, Catherine Pease, Leonid L.Iomdin, Oliver Streiter, 2001, Kluwer Academic Publishers Netherlands
UNL, or Universal Networking Language, is an English-based interlingua developed by the United Nations University in Tokyo for the purpose of offering Internet users a chance to translate semiautomatically Internet documents from and to a host of languages. Within the framework of the UNL project, linguistic teams from different countries, including IPPI and IAI, are developing lexicons and linguistic tools aimed at creating a pilot Internet natural-language communication system.
Creating a Universal Networking Language Module within an Advanced NLP System - Igor BOGUSLAVSKY, Nadezhda FRID, Leonid IOMDIN, Leonid KREIDLIN, Irina SAGALOVA,Victor SIZOV, Computational Linguistics Laboratory Institute for Information Transmission Problems of the Russian Academy of Sciences http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.27.6197&rep=rep1&type=pdf