文献紹介 長岡技術科学大学修士1年
松本宏
紹介文献 • Title: A Sense-Based Translation Model for Statistical Machine Translation
• Author: Xiong, Deyi and Zhang, Min
• Booktitle: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics Volume 1: Long Papers
• Year: 2014
• Pages: 1459--1469
WSD in SMT
• 多義語はNLPタスクにおいて問題であり、統計機械翻訳においてもネックになっている
• 語義曖昧性解消(WSD)による単語の曖昧性解消が文脈に適した訳選択へとつながると考えられる
WSD vs WSI • 語義推定(WSI)は自動で周辺文脈より語義を推定するタスク
• 大きな違いは
• WSDは定義済みの中から予測する
• WSIは語義定義済みデータを利用しないで類推する
• この2つは
• WSDを分類問題
• WSIをクラスタリング問題
目的
• SMTへ語義の直接統合の効果性を調べる
• WSIベース・モデルとWSDの改良理論の優劣性
提案手法
Architecture of the SMT
LDA
• Latent Dirichlet Allocation (LDA)は、データの一部が類似している理由を説明未観測のグループによって説明されることを可能にする生成モデルである(en.wikipedia.org)
• トピック・モデルとして扱い、一つの文書の中に複数のトピックが潜在していることを仮定している
LDA
文書
文書内N単語
トピック トピックZに対する単語
文書内 トピック分布
擬似化
以下の例のように周辺単語数を5として見た時
前後5単語を含む文を擬似文書とする
WSI
擬似文書
隣接連語
意味クラスタ 着目する単語 意味分布
Architecture of the SMT
MaxEnt Classifier
Sense-Based Translation Model
実験
• 翻訳:中英翻訳
• コーパス:LDC corpora
• 3.84M bilingual sentences
• 109.5M English tokens
• 96.9M Chinese tokens
• Window-size: ±10-word
評価 • ベースラインは並び替えフレーズベースSMT
• (Wu, 1997)
• (Xiong et al., 2006)
• BLEU値/NIST値
• 実験を三回行った平均値
結果
窓枠サイズ効果
翻訳結果
翻訳結果
おわり
• 文法情報を考慮したSMTは見たことある
• 語義を考慮したものは初見
• 意味クラスタ数をHDPによって扱っているが妥当なのか