Phrase linguistic classification and generalization for improving statistical
machine translation
Hiroshi Matsumoto
紹介文献
• De Gispert, Adrià.
• "Phrase linguistic classification and generalization for improving statistical machine translation."
• Proceedings of the ACL Student Research Workshop. Association for Computational Linguistics, 2005.
概要
• 動詞(複合動詞)の形態素解析の情報をSMTに利用
• 活用された動詞/複合形態の動詞は同じ確率分布
• インスタンス・モデルでソースの動詞形態からターゲットの動詞形態を選択する
• 未定義動詞形態の汎化手法の提案
• 英ス翻訳(より複雑な活用)
一般式
T = (Ei, Fj) : 汎化クラスのペア
式の意味
• フレーズ翻訳・モデル
–分類データに基づく
• インスタンス・モデル
–各ターゲット・インスタンスに確率付与
インスタンス・モデル
• インスタンスとそれがもつソース・フレーズを共通にもつ全てのタプルとの相対頻度
未定義語の汎化
• 未定義語:
–テスト・セットの多くの動詞形態は学習データに出現しない
• 動詞の主辞の見出し語で分類
–見出し語が学習済み(インスタンスの存在):
• ターゲット・フレーズに翻訳
– インスタンス・モデル・確率存在しない
• 汎化手法に従う
例
• 以下の文をスペイン語翻訳
“we would have payed it”
• 既知情報:– T1 ( V[pay], pagar)
• I would have payed | habria pagado
– T2 ( V[pay], hacer )• * would have payed | ------
– T3 ( V[pay] it, lo pagar)• I would have payed it | lo habria pagado
• 既知の例文の人称をソース側の人称に揃えて様々なインスンタンスの生成
• 出現回数が新規翻訳候補に重み付けに対応
• 新しい形態に対してのインスタンス・確率になる
インスタンス・確率
Extended Generalization
• 先の汎化手法では1度でも出現する事例にも結びつく
• 他の翻訳確率の高いものを無視してしまう
• そこで、汎化事例を全探索させる
実験&結果
コーパス
• the parallel corpus developed in the framework of the LC-STAR project
–旅行案内用の発話システムのためのスクリプト
–予約スケジュール
–旅行プラン
コーパス統計情報
汎化情報
アライメント結果
翻訳結果