文献紹介 長岡技術科学大学 自然言語処理研究室 修士1年 松本宏
文献紹介長岡技術科学大学
自然言語処理研究室 修士1年 松本宏
Factored Translation Models
• KOEHN, Philipp; HOANG, Hieu. Factored
Translation Models. In: EMNLP-CoNLL. 2007. p.
868-876.
2
Very-Very Brief History of
Statistical Machine Translation
• 1949 - Warren Weaver 提唱
• Warren Weaver Translation (1949) In: Machine Translation of Languages MIT press
• 1990 - Brown Peter 基礎的実装
• Brown, Peter F., et al. "A statistical approach to machine translation." Computational
linguistics 16.2 (1990): 79-85.
• 2003 - Philip Koehn フレーズベース
• Koehn, Philipp, Franz Josef Och, and Daniel Marcu. "Statistical phrase-based translation."
Proceedings of the 2003 Conference of the North American Chapter of the Association for
Computational Linguistics on Human Language Technology-Volume 1. Association for
Computational Linguistics, 2003.
3
関連研究
• 前編集・後編集:
• NieBen and Ney, 2001
• Yang and Kirchhoff, 2006
• 前編集並び替え
• Collins et al. 2005
• 後編集への情報付随
• Och et al. 2004
• 文法情報の統合
• Galley et al. 2006
4
問題点
• これまでのS.M.T
• 単語列の並び、単語の頻度情報によるもの
• 特にMorphologyに関しては無関与
• 単語はトークン扱い
5
問題例
• 例えば、
• 単語houseがコーパス上に存在
• 複数形housesは存在しない
• 入力housesは翻訳不可
6
提案
• 見出し語間の翻訳のモデル化が必要
• 見出し語から異なる活用形へ対応可
• Factored Translation Model
• 見出し語と形態素情報は別々に翻訳
• 出力時に情報統合
7
モデル図
8
Factored Translation
プロセス
• プロセスは以下のマッピング・ステップ
• 翻訳ステップ: 入力因子から出力因子の翻訳
• 生成ステップ: 既存出力因子から追加情報生成
• Factored Translation Modelはフレーズベース手法に追加する形のものである
• 翻訳ステップはフレーズレベル
• 生成ステップは単語レベル
9
10
11
12
具体例
ha ̈user 独
表層形 ha ̈user
見出し語 haus
品詞 NN
数 plural
格 nominative
性 neutral
13
具体例
• 見出し語翻訳:
• haus : house, home, building, shell
• 形態翻訳
• 表層形生成
• house|NN|plural —> houses
• house|NN|singular —> house
• home|NN|plural —> homes
• …
品詞 数 格 性
独 NN plural nominative neutral
英 NN singluar/plural - -
学習(翻訳ステップ)
• 指定因子のフレーズ・マッピングをパラレルコーパスから取得
• フレーズ・マッピングを以下を元にスコア付け
• 関連カウント
• 単語ベースの翻訳確率
15
学習(生成ステップ)
• 生成モデルは逐語的に学習
• 例:表層形と品詞
• (fish, NN) などの入力から成るテーブル
• 複数のスコア関数が用いられる
• 例: p(fish | NN), p(NN | fish)
16
Factored Translation Model
• さまざまな要素の組み合わせ
• 言語モデル
• 並び替えモデル
• 翻訳ステップ
• 生成ステップ
• 対数線形モデル化
17
Factored Translation Model
•
•
• 翻訳の場合
• 生成の場合
スコア関数 : 翻訳・生成テーブル構築時に取得
18
実験
• 実験は様々な形態素情報の組み合わせ
• 表層形、見出し語、形態素など
• ベースライン: 表層形
• コーパスも実験ごとに異なる
• Europarl, Wall Street Journal Corpus, IWSLT
2006
19
実験#1
• 見出し語と形態素別々に翻訳し出力側の表層形決定
20
実験#2
•翻訳された単語の表層形より出力因子生成
21
実験#2
22
実験#3
• クラスタリング情報
23
実験#4
• 小/大文字情報
24