Top Banner
文献紹介 長岡技術科学大学 自然言語処理研究室 修士1松本宏
24

Factored translationmodel

Jul 03, 2015

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Factored translationmodel

文献紹介長岡技術科学大学

自然言語処理研究室 修士1年 松本宏

Page 2: Factored translationmodel

Factored Translation Models

• KOEHN, Philipp; HOANG, Hieu. Factored

Translation Models. In: EMNLP-CoNLL. 2007. p.

868-876.

2

Page 3: Factored translationmodel

Very-Very Brief History of

Statistical Machine Translation

• 1949 - Warren Weaver 提唱

• Warren Weaver Translation (1949) In: Machine Translation of Languages MIT press

• 1990 - Brown Peter 基礎的実装

• Brown, Peter F., et al. "A statistical approach to machine translation." Computational

linguistics 16.2 (1990): 79-85.

• 2003 - Philip Koehn フレーズベース

• Koehn, Philipp, Franz Josef Och, and Daniel Marcu. "Statistical phrase-based translation."

Proceedings of the 2003 Conference of the North American Chapter of the Association for

Computational Linguistics on Human Language Technology-Volume 1. Association for

Computational Linguistics, 2003.

3

Page 4: Factored translationmodel

関連研究

• 前編集・後編集:

• NieBen and Ney, 2001

• Yang and Kirchhoff, 2006

• 前編集並び替え

• Collins et al. 2005

• 後編集への情報付随

• Och et al. 2004

• 文法情報の統合

• Galley et al. 2006

4

Page 5: Factored translationmodel

問題点

• これまでのS.M.T

• 単語列の並び、単語の頻度情報によるもの

• 特にMorphologyに関しては無関与

• 単語はトークン扱い

5

Page 6: Factored translationmodel

問題例

• 例えば、

• 単語houseがコーパス上に存在

• 複数形housesは存在しない

• 入力housesは翻訳不可

6

Page 7: Factored translationmodel

提案

• 見出し語間の翻訳のモデル化が必要

• 見出し語から異なる活用形へ対応可

• Factored Translation Model

• 見出し語と形態素情報は別々に翻訳

• 出力時に情報統合

7

Page 8: Factored translationmodel

モデル図

8

Page 9: Factored translationmodel

Factored Translation

プロセス

• プロセスは以下のマッピング・ステップ

• 翻訳ステップ: 入力因子から出力因子の翻訳

• 生成ステップ: 既存出力因子から追加情報生成

• Factored Translation Modelはフレーズベース手法に追加する形のものである

• 翻訳ステップはフレーズレベル

• 生成ステップは単語レベル

9

Page 10: Factored translationmodel

10

Page 11: Factored translationmodel

11

Page 12: Factored translationmodel

12

Page 13: Factored translationmodel

具体例

ha ̈user 独

表層形 ha ̈user

見出し語 haus

品詞 NN

数 plural

格 nominative

性 neutral

13

Page 14: Factored translationmodel

具体例

• 見出し語翻訳:

• haus : house, home, building, shell

• 形態翻訳

• 表層形生成

• house|NN|plural —> houses

• house|NN|singular —> house

• home|NN|plural —> homes

• …

品詞 数 格 性

独 NN plural nominative neutral

英 NN singluar/plural - -

Page 15: Factored translationmodel

学習(翻訳ステップ)

• 指定因子のフレーズ・マッピングをパラレルコーパスから取得

• フレーズ・マッピングを以下を元にスコア付け

• 関連カウント

• 単語ベースの翻訳確率

15

Page 16: Factored translationmodel

学習(生成ステップ)

• 生成モデルは逐語的に学習

• 例:表層形と品詞

• (fish, NN) などの入力から成るテーブル

• 複数のスコア関数が用いられる

• 例: p(fish | NN), p(NN | fish)

16

Page 17: Factored translationmodel

Factored Translation Model

• さまざまな要素の組み合わせ

• 言語モデル

• 並び替えモデル

• 翻訳ステップ

• 生成ステップ

• 対数線形モデル化

17

Page 18: Factored translationmodel

Factored Translation Model

• 翻訳の場合

• 生成の場合

スコア関数 : 翻訳・生成テーブル構築時に取得

18

Page 19: Factored translationmodel

実験

• 実験は様々な形態素情報の組み合わせ

• 表層形、見出し語、形態素など

• ベースライン: 表層形

• コーパスも実験ごとに異なる

• Europarl, Wall Street Journal Corpus, IWSLT

2006

19

Page 20: Factored translationmodel

実験#1

• 見出し語と形態素別々に翻訳し出力側の表層形決定

20

Page 21: Factored translationmodel

実験#2

•翻訳された単語の表層形より出力因子生成

21

Page 22: Factored translationmodel

実験#2

22

Page 23: Factored translationmodel

実験#3

• クラスタリング情報

23

Page 24: Factored translationmodel

実験#4

• 小/大文字情報

24