Phrase linguistic classification and generalization for improving statistical machine translation

Phrase linguistic classification and generalization for improving statistical

machine translation

Hiroshi Matsumoto

紹介文献

• De Gispert, Adrià.

• "Phrase linguistic classification and generalization for improving statistical machine translation."

• Proceedings of the ACL Student Research Workshop. Association for Computational Linguistics, 2005.

概要

• 動詞（複合動詞）の形態素解析の情報をSMTに利用

• 活用された動詞/複合形態の動詞は同じ確率分布

• インスタンス・モデルでソースの動詞形態からターゲットの動詞形態を選択する

• 未定義動詞形態の汎化手法の提案

• 英ス翻訳（より複雑な活用）

一般式

T = (Ei, Fj) : 汎化クラスのペア

式の意味

• フレーズ翻訳・モデル

–分類データに基づく

• インスタンス・モデル

–各ターゲット・インスタンスに確率付与

インスタンス・モデル

• インスタンスとそれがもつソース・フレーズを共通にもつ全てのタプルとの相対頻度

未定義語の汎化

• 未定義語:

–テスト・セットの多くの動詞形態は学習データに出現しない

• 動詞の主辞の見出し語で分類

–見出し語が学習済み（インスタンスの存在）：

• ターゲット・フレーズに翻訳

– インスタンス・モデル・確率存在しない

• 汎化手法に従う

例

• 以下の文をスペイン語翻訳

“we would have payed it”

• 既知情報:– T1 ( V[pay], pagar)

• I would have payed | habria pagado

– T2 ( V[pay], hacer )• * would have payed | ------

– T3 ( V[pay] it, lo pagar)• I would have payed it | lo habria pagado

• 既知の例文の人称をソース側の人称に揃えて様々なインスンタンスの生成

• 出現回数が新規翻訳候補に重み付けに対応

• 新しい形態に対してのインスタンス・確率になる

インスタンス・確率

Extended Generalization

• 先の汎化手法では１度でも出現する事例にも結びつく

• 他の翻訳確率の高いものを無視してしまう

• そこで、汎化事例を全探索させる

実験＆結果

コーパス

• the parallel corpus developed in the framework of the LC-STAR project

–旅行案内用の発話システムのためのスクリプト

–予約スケジュール

–旅行プラン

コーパス統計情報

汎化情報

アライメント結果

翻訳結果

Phrase linguistic classification and generalization for improving statistical machine translation

Engineering

Phrase linguistic classification and generalization for improving statistical machine translation