語彙的対応関係の一般化に基づく 言い換え知識の拡張 藤田篤 Pierre Isabelle 情報通信研究機構 National Research Council Canada 言語処理学会第21回年次大会発表論文集 D15, pp.321324, 2015 紹介者:塩田健人 1
語彙的対応関係の一般化に基づく
言い換え知識の拡張
藤田篤 Pierre Isabelle 情報通信研究機構 National Research Council Canada
言語処理学会第21回年次大会発表論文集
D1-‐5, pp.321-‐324, 2015
紹介者:塩田健人
1
概要 ・言い換えを頑健かつ精度よく自動生成するためには 多くの言い換え知識が不可欠である ・現在の言い換え技術では精度のよい言い換えをするには 高品質な言語資源が必要
例:Catvar, Word Net ・しかし、構築・保守にかかる人的コストは大きく、 高価な資源である そこで、
『言語依存の高価な言語資源を使わずに 精度のよい言い換え手法を提案する』
2
先行研究 1.単言語コーパスに基づく方法
• 分布仮説に基づいて使用される文脈が類似している(文脈類似度が高い)表現の対を言い換え表現対として獲得する。
• 反義関係や上位ー下位関係などの同義以外の関係を持つ表現の対も高い文脈類似度を持つため、精度は低い。
3
先行研究 2.単言語パラレル/コンパラブルコーパスに基づく方法
• .単言語パラレル/コンパラブルコーパスの対応する文の対における同義の部分を使い、精度よく言い換え表現対を獲得できる。
• 単言語コーパスほどのカバレージを得ることは出来ない。
4
先行研究 3.異言語パラレルコーパス(対訳コーパス)に基づく方法
• 異なる言語において共通の訳を持つ表現を言い換えとして獲得できる。
• しかし、たとえ大きな対訳コーパスであっても単言語コーパスに比べると極めて小さく、言い換えカバレージも低い
5
提案手法
言い換え知識中の個々の言い換え表現対における 語彙的な対応関係に着目し、言い換えパターンの獲得
獲得した言い換えパターンを用いて、
単言語コーパスから新たな言い換え表現対を収集する
6
提案手法 言い換えパターンの獲得
言い換え表現対Sseedから言い換えパターンの獲得
接辞パターンの候補を獲得
抽出された接辞パターンの候補をフィルタリングする
7
提案手法 言い換えパターンの獲得
言い換え表現対Sseedから言い換えパターンの獲得
接辞パターンの候補を獲得
抽出された接辞パターンの候補をフィルタリングする
8
提案手法
Amendment of regulation ⇔ amending regulation
X : ment of Y : ϕ ⇔ X : ing Y : ϕ
investment of resources ⇔ investing resources recruitment of engineers ⇔ recruiting engineers
• 上記のような元々の対とは表層的に全く異なる語で構成される対も得られる。
9
着目する語群 • 派生語
o 表記や意味の一部を共有する異なる語の群 {“develop”, “developer”, “development”, …}
• 活用形/屈折形 o 活用や屈折に由来する同じ語の異なる出現形 {“amend”, “amends”, “amending”, …}
• 異表記 o 同じ語の同じ活用形/屈折形の異なる表記 {“color”, “colour”}, {“authorize”, “authorise”, …}
10
提案手法 言い換えパターンの獲得
言い換え表現対Sseedから言い換えパターンの獲得
接辞パターンの候補を獲得
抽出された接辞パターンの候補をフィルタリングする
11
提案手法 • 高品質なSseedを前提として
• 言い換え表現対の各辺にあり、同じ語幹をもつ語の対は、特定の(意味的な)関係を持つ
語1 語2 接辞1 接辞2 語幹 aimed aimed achieving achieving
aims achieve aims achieve
X : ed X : imed X : chieving X : ing
X : s X : chieve X : ims X : e
aim a a achiev
12
提案手法 言い換えパターンの獲得
言い換え表現対Sseedから言い換えパターンの獲得
接辞パターンの候補を獲得
抽出された接辞パターンの候補をフィルタリングする
13
提案手法 • 抽出した接辞パターンの品質保持のため
長さk以上の語幹n種類以上に対して 観察された接辞パターンのみを残す。
接辞1 接辞2 語幹の種類数
結果 長さ ≥ 5 長さ < 5
X : chieve X : chieving X : ed X : ing
X : imed X : ims X : s X : e
0 0
69 330
1 1
22 70
捨てる 捨てる 残す 残す
14
新規言い換え表現の獲得
15
コーパス
• Europarl o 英仏対200万文(英語5570万語、仏語6190万語) o 使用したコーパス
• 英語側とNews Crawl 5,200万文、12.0億語
• NTCIR o 日英対320万文(英語1.07億語、日本語1.16億形態素) o 使用したコーパス
• 英語側とNTCIRの単言語文書3,990万文、13.6億語
16
問題点 People of Europe ⇔ European population
People of X : ϕ ⇔ X : an population
単言語コーパスで同じ関係を持つ (“Haiti”, ”Haitian”), (“suburb”, “suburban”)だけでなく (“uncle”, “unclean”)など語の意味ではなく、語の形だけで抽出されてしまう 文脈類似度を単言語コーパスから計算して、置き換え出来ないような対を除外する
17
拡張結果
SLVとSseed中の 言い換え表現対の数
SLVとSseed中の 言い換え表現対の数の比
18
評価 • 評価設定
o 自動生成した言い換え文が文法的か o 言い換え文が原文と同じ意味を持つか
• 評価方法 o 同じ原文から得られた複数の言い換え文を横並びにし、文法性、意味の等価性を人間が評価する
19
評価結果 評価基準 粗い分類 細かい分類 文法性 0.64 – 0.79 0.51 – 0.56
意味の等価性 0.48 – 0.53 0.27 – 0.35
評価者各対のCohenのk
文数 文法性 意味の等価性 両方 SSeed 66 0.85 0.91 0.76 SLV 534 0.76 0.78 0.59 合計 600 0.75 0.79 0.61
自動生成した言い換え文の精度
言語依存の高価な言語資源をほとんど使用することなく、構文解析器などを用いた従来手法と同等以上の精度を達成
20
考察 文法カテゴリの変化
• The safety issue was considered sufficiently serious for all affected parties to be informed
• The safety issue was sufficient consideration serious for all affected parties to be informed
数や冠詞の違い
• There are tons of potential buyers of military weapons
• There are a potential buyer of military weapons
21
まとめ 従来手法で自動的に獲得された言い換え知識を 言い換え表現対に見られる語彙的対応関係に着目し、 単言語コーパスで拡張する手法の提案
この手法は高いカバレージ、許容可能程度の精度 を達成できた 今後は、英語以外の言語、他の手法で獲得した言い換えにもこの手法を試していきたい。
22