Top Banner
1 文文文文文文文文文文文 文文文文文 文文 文文
40

文書横断文間関係の特定

Mar 15, 2016

Download

Documents

lars-gentry

文書横断文間関係の特定. 奥村研究室 宮部 泰成. 目次. 1.研究・背景 2.文書横断文間関係 3.研究の目的 4.関連研究 5 .「同等」の特定手法 6 .「同等」の特定実験 7 .「推移」の特定手法 8 .「推移」の特定実験 9 .まとめと今後の課題. 1: 携帯電話による 情報提供サービス「iモード」 の契約件数が百万件を突破 したと発表した。. 1: 携帯電話による 情報提供サービス「iモード」 の契約件数が十八日で二百 万件を突破したと発表した。. 3: iモードは、情報配信から チケット予約や通信販売など の電子商取引までの多様な - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 文書横断文間関係の特定

1

文書横断文間関係の特定奥村研究室宮部 泰成

Page 2: 文書横断文間関係の特定

2

目次1.研究・背景2.文書横断文間関係3.研究の目的4.関連研究5 .「同等」の特定手法6 .「同等」の特定実験7 .「推移」の特定手法8 .「推移」の特定実験9 .まとめと今後の課題

Page 3: 文書横断文間関係の特定

3

研究背景 同じ一つのトピックについて書かれた異なる新聞記事中の文間には様々な関係がある1:携帯電話による情報提供サービス「iモード」の契約件数が百万件を突破したと発表した。3: iモードは、情報配信からチケット予約や通信販売などの電子商取引までの多様なサービスが売り物。

1:携帯電話による情報提供サービス「iモード」の契約件数が十八日で二百万件を突破したと発表した。3: 「iモード」は、情報配信からチケット予約や通信販売などの電子商取引まで多様化したサービスが売り物だ。

「 i-mode のサービス開始」に関するトピック

文書 A 文書 B同等

推移

Page 4: 文書横断文間関係の特定

4

文書横断文間関係 文書横断文間関係

Radev[00] が提唱 24個の文書横断文間関係を定義

衛藤 [05] が日本語の新聞記事に対し定義 14個の文書横断文間関係例 :異なる文書中の文間が同じ内容を表す「同等」

数値が変化している「推移」同じ内容を詳しく述べる「詳細」同じ内容を簡潔に述べる「簡略」

Page 5: 文書横断文間関係の特定

5

研究の目的

「同等」、「推移」という 2 つの関係に着目 機械学習を用いて、文書横断文間関係の「同等」「推移」の特定を目的

文書横断文間関係の特定は様々な分野において有用 複数文書要約、 QA 、情報抽出

( 例 ) テキスト間で同じ内容を述べていると認識できれば、 要約文を抽出するときに冗長な要約となるのを避ける ことができる

Page 6: 文書横断文間関係の特定

6

目次1. 研究・背景2. 文書横断文間関係3. 研究の目的4. 関連研究5 . 「同等」の特定手法6 . 「同等」の特定実験7 . 「推移」の特定手法8 . 「推移」の特定実験9 . まとめと今後の課題

Page 7: 文書横断文間関係の特定

7

  3 :・・・・・

1: 第 144 臨時国会が 27 日召集される。

2: 会期は 12 月 14 日 までの 18 日間。   3 :・・・・・

1: 第 144 臨時国会が 27 日開会した。2: 会期は来月 14 日 までの 18 日間。

機械学習に基づく「同等」の特定

2 文が与えられたとき、「同等」か否かを特定する 2値分類問題 「同等」の特定規則の獲得は人手でなく機械学習を使用

学習器 :Support Vector Machine

文書 B文書 A

2 つの文が「同等」か否かを特定する2 値分類問題

Page 8: 文書横断文間関係の特定

8

「同等」の特定における問題点(1/2)

問題点1: 2 つの文 (S1,S2) の表層的類似度が高い「同等」や低い「同等」が存在し、これらを一緒に扱うことは良くない|2||1|

21)2,1cos(UUUUSS

(U1 は S1 中の自立語 ( 名詞、動詞、形容詞 ) の頻度ベクトル )S1: 成果は二日付の英科学誌「ネイチャー」に掲載される。S2: この成果は2日発行の英科学誌「ネイチャー」に掲載される。S1: ハイブリッド車の開発はトヨタ自動車が先行し、昨年12月に   「プリウス」を発売。S2: トヨタは、他社に先駆けて1997年にHV「プリウス」を発売。

Page 9: 文書横断文間関係の特定

9

「同等」の特定における問題点(2/2)

問題点 2: 類似度がそれほど高くない「同等」は特定が困難 「同等と似た関係」が存在する

同じ内容を詳しく述べる「詳細」 同じ内容を簡潔に述べる「簡略」

「同等」の数が少ない

「 No Relation 」 「同等」 「詳細」 「簡略」

4214個 61個 13個 15個

例 : 類似度がそれほど高くない文ペア (0.5<cos≦0.6) の各関係の数

Page 10: 文書横断文間関係の特定

10

「同等」特定の問題点の解決策 (1/2)

2 つの文の類似度でクラスタに分ける 表層的に大変類似しているクラスタ (up クラスタ )

自立語 + 機能語 (助詞 ,助動詞 ) の連接レベルで類似 ある程度類似しているクラスタ

連接レベルで似ていない 負例が多いか少ないかで更に分ける

ある程度類似しているクラスタ (mid クラスタ ) 負例が多く特定が困難なクラスタ (down クラスタ )

問題点1 : 類似度が高い「同等」や低い「同等」の存在

Page 11: 文書横断文間関係の特定

11

クラスタ例例 1 :表層的に大変類似しているクラスタの例

S1: 成果は二日付の英科学誌「ネイチャー」に掲載される。S2: この成果は2日発行の英科学誌「ネイチャー」に掲載    される。

例 2 :ある程度類似しているクラスタの例S1:JRグループのダイヤが十三日改正され、東海道・ 山陽新幹線に新型車両「700系」がデビューした。S2:JR東海とJR西日本が共同で開発した新型新幹線 車両「700系」が、JRのダイヤ改正があった 十三日デビューした。

Page 12: 文書横断文間関係の特定

12

「同等」特定の問題点の解決策 (2/2)

2段階の特定法 (coarse-to-fine 特定法 ) を用いる(1): 「同等」「簡略」「詳細」を 1 つの粗いクラス

(coarse クラス ) にまとめて特定(2):(1) で特定した coarse クラスから「同等」のみ

(fine クラス ) を特定

問題点 2 : 類似度が高くない「同等」は特定が困難

Page 13: 文書横断文間関係の特定

13

 ある程度類似している 表層的に大変類似している クラスタ (midクラスタ )  クラスタ (upクラスタ )

「同等」を特定coarse クラス (「同等」「簡略」「詳細」 )の特定

「同等」のみを特定

全データ (0<cos 1)≦連接レベルで似てるか

負例が多く特定が困難な  mid クラスタクラスタ (down クラスタ )

負例が多いか

本研究のモデル

Page 14: 文書横断文間関係の特定

14

「同等」の特定で使用する素性 基本素性 (14種類 )

unigram 類似度 ,bigram 類似度 ,trigram 類似度 , 固有表現類似度 ,意味類似度 新聞記事の掲載日の差 , 文の位置 ,固有表現が係る一致した格助詞 ,etc

fine クラスの特定で使用する素性 (19種類 ) 基本素性 主題の一致 主動詞の一致 ,etc

Page 15: 文書横断文間関係の特定

15

目次1. 研究・背景2. 文書横断文間関係3. 研究の目的4. 関連研究5 . 「同等」の特定手法6 . 「同等」の特定実験7 . 「推移」の特定手法8 . 「推移」の特定実験9 . まとめ

Page 16: 文書横断文間関係の特定

16

「同等」特定の実験環境 コーパスとデータ

テキスト自動要約タスク 2,3 、動向情報の抽出と可視化のワークショップ 文書横断文間関係が付与してある

1 文対 1 文で関係が付与されたデータのみ扱う 471586 個の文ペアから 798 個の「同等」を特定

評価尺度 精度、再現率、 F 値

10 分割交差検定で評価

Page 17: 文書横断文間関係の特定

17

目次1. 研究・背景2. 文書横断文間関係3. 研究の目的4. 関連研究5 . 「同等」の特定手法6 . 「同等」の特定実験 6-1.閾値の推定7 . 「推移」の特定手法8 . 「推移」の特定実験9 . まとめ

Page 18: 文書横断文間関係の特定

18

クラスタ分けの閾値の推定 閾値を推定するデータと評価

訓練データの 10 分割交差検定 閾値

「 up クラスタ」と「 mid クラスタ」の閾値 「 mid クラスタ」と「 down クラスタ」の閾値0 1

downクラスタ  midクラスタ  upクラスタ閾値 閾値 cos

Page 19: 文書横断文間関係の特定

19

「 up クラスタ」と「 mid クラスタ」の閾値の推定 (1/2) 2 つのクラスタの違い

自立語 ( 名詞、動詞、形容詞 )+ 機能語 (助詞、格助詞 ) の連接レベルで似ているかどうか 「 mid クラスタ」の特定

bigram 類似度素性を使用しない方が精度と再現率は良くなると仮定 各閾値での精度と再現率を調べる

(1)14種の素性を使用したとき(2)14種の素性から bigram素性を省いたとき

Page 20: 文書横断文間関係の特定

20

素性を省くことによって、精度と再現率が良くなった例

閾値 省いて精度と再現率が良くなった素性0.9 格助詞 , 文節類似度 ,意味類似度0.89 意味類似度 ,文末表現 , bigram類似度 ,格助詞0.88 bigram 類似度0.87 掲載日の差 , 文書間類似度 , 文末表現 , 文の長さ,格助詞 ,段落間類似度 , 文の位置 ,bigram類似度0.86 格助詞 ,文書間類似度 ,bigram類似度

bigram 類似度素性を省いて精度と再現率が初めて良くなるときを閾値とする

閾値を 1 から 0.01 づつ減らしていく bigram 類似度以外の素性でも同様に調べる

Page 21: 文書横断文間関係の特定

21

「 mid クラスタ」と「 down クラスタ」の閾値の推定 (1/2) コサイン類似度の値が減っていくにつれて

「同等」の数は減っていく 「同等」以外の関係の数が非常に多くなっていく

閾値を下げていくにつれて、特定が困難になる 「 mid クラスタ」の F 値が一番良くなる閾値が存在すると仮定

Page 22: 文書横断文間関係の特定

22

「 mid クラスタ」と「 down クラスタ」の閾値の推定 (2/2) 閾値を同様に 0.01 づつ減らしていき、各閾値で精度、再現率、 F 値を調べる

閾値 精度 再現率 F 値0.59 52.92 15.05 23.440.58 55.08 16.64 25.560.57 52.81 16.93 25.640.56 49.15 14.45 22.340.55 51.51 14.84 23.04

最も F 値が高いときを閾値とする

Page 23: 文書横断文間関係の特定

23

目次1. 研究・背景2. 文書横断文間関係3. 研究の目的4. 関連研究5 . 「同等」の特定手法6 . 「同等」の特定実験 6-2. 「同等」特定の実験結果7 . 「推移」の特定手法8 . 「推移」の特定実験9 . まとめ

Page 24: 文書横断文間関係の特定

24

各モデルの説明 ベースライン

コサイン類似度 0.84以上を同等とみなす div

推定した閾値でクラスタに分けて特定 Notdiv

クラスタに分けない単純な学習モデル 旧Mix モデル ( 宮部 [05])

0.5 と 0.7 でクラスタに分けて、 coarse-to-fine 特定法を組み合わせたモデル 新 Mix モデル

本モデル,推定した閾値でクラスタに分けて、 coarse-to-fine 特定法を組み合わせたモデル

Page 25: 文書横断文間関係の特定

25

「同等」特定の実験結果モデル 精度 再現率 F 値ベースライン 87.2

957.35 69.22

div 80.93

59.74 68.63

Notdiv 86.11

60.16 70.84

旧Mix モデル 86.31

60.56 71.18

新 Mix モデル 94.99

62.65 75.50本研究のモデルが最も良い F 値となった

新 Mix モデルと Notdiv有意確率 p≦0:037 、有意水準 5% で有意差がある

新 Mix モデルと旧Mix モデル有意確率 p≦0:037 、有意水準 5% で有意差がある

Page 26: 文書横断文間関係の特定

26

目次1. 研究・背景2. 文書横断文間関係3. 研究の目的4. 関連研究5 . 「同等」の特定手法6 . 「同等」の実験結果7 . 「推移」の特定手法8 . 「推移」の実験結果9 . まとめ

Page 27: 文書横断文間関係の特定

27

「推移」特定において着目する点 「推移」

2 文間で数値が変化している関係 下記の例の場合「推移」関係ではないS1: 4月の女性の完全失業率は逆に0・3ポイント改善し、4・5%となった。S2:完全失業率は3、4月に連続して4・8%を記録した。

例文の赤字の部分 ( 数値を値として持つ名詞句 ) を抽出 係り受け情報を利用

Page 28: 文書横断文間関係の特定

28

6月末の 携帯電話の 加入台数は 3407万7000台と なった。

「数値を値として持つ名詞句」の抽出

1. 数値表現 ( 日付表現を除く ) のある句 ( 数値句と呼ぶ ) を探す

Page 29: 文書横断文間関係の特定

29

6月末の 携帯電話の 加入台数は 3407万7000台と なった。

「数値を値として持つ名詞句」の抽出

2. 数値句が係る用言のある句 ( 述句と呼ぶ ) を探す

Page 30: 文書横断文間関係の特定

30

6月末の 携帯電話の 加入台数は 3407万7000台と なった。

「数値を値として持つ名詞句」の抽出

3. 述句に係る名詞句を探す( 「数値を値として持つ名詞句」になる )

Page 31: 文書横断文間関係の特定

31

6月末の 携帯電話の 加入台数は 3407万7000台と なった。

「数値を値として持つ名詞句」の抽出

4. 日付表現を除いた「数値を値として持つ名詞句」に係る句を探す。係る句と「数値を値として持つ名詞句」合わせて「数値を値として持つ名詞句」になる。

Page 32: 文書横断文間関係の特定

32

「推移」特定で使用する素性 (20種類 ) 素性

「数値を値として持つ名詞句」の名詞の unigram,bigram,trigram類似度

2 文で数値が変化したかどうか 2 文に相対表現 (難波ら [05]) があるかどうか ,etc( 例 ) 前年より10%増加   前日比210円安

Page 33: 文書横断文間関係の特定

33

「同等」特定結果の利用 「同等」関係である 2 文は、ほとんどの場合で「数値を値として持つ名詞句」は似ている

S1: 子羊の体重は二・七キロ。S2: 子羊の体重は 2.7 キログラム。

実際は「同等」であるのに,誤って「推移」と特定することが生じる可能性がある 本モデルが「同等」と特定した文ペアをデータから除いて特定する

Page 34: 文書横断文間関係の特定

34

目次1. 研究・背景2. 文書横断文間関係3. 研究の目的4. 関連研究5 . 「同等」の特定手法6 . 「同等」の特定実験7 . 「推移」の特定手法8 . 「推移」の特定実験9 . まとめ

Page 35: 文書横断文間関係の特定

35

各モデルの説明 (1/2) ベースライン

数値を値として持つ名詞句の類似度 0.7以上 数値が変化していて、 2 文に相対表現がある場合 562個の推移を特定

難波らの手法 ( 難波ら [05]) 2 文のコサイン類似度 0.42以上 2 つの文の単位が等しく、 2 文に相対表現がある場合

Page 36: 文書横断文間関係の特定

36

各モデルの説明 (2/2) NotUseEqResult

「同等」結果を利用しないで特定したモデル UseEqResult

「同等」結果を利用して特定した本研究のモデル UseMan

人手で付与された「同等」結果を利用して特定したモデル

Page 37: 文書横断文間関係の特定

37

「推移」特定の実験結果モデル 精度 再現率 F 値ベースライン 27.44 41.26 32.96難波らの手法 19.85 45.96 27.73NotUseEqResult

42.41 47.06 44.61

UseEqResult 43.13 48.51 45.67UseMan 43.06 48.55 45.64本研究のモデルは、ベースラインや従来手法より良い F 値となった

人手で付与された「同等」結果の利用とほとんど変わらない F 値となった

Page 38: 文書横断文間関係の特定

38

まとめ 異なる記事中の文間が同じ内容を述べているかを機械学習を用いて特定する手法を提案した

クラスタに分ける手法と coarse-to-fine 特定法 単純に学習する手法より優れた結果となった

異なる記事中の文間で数値が変化しているかを機械学習を用いて特定する手法を提案した 「数値を値として持つ名詞句」の抽出 従来手法より優れた結果となった

Page 39: 文書横断文間関係の特定

39

今後の課題 文脈や背景知識の利用

照応・省略表現による表記の揺れ 「同等」「推移」ともに特定できないエラーが起きた

照応や省略の補完が必要 多文関係の対応

1 文対多文 , 多文対 1 文 , 多文対多文関係の特定( 例 ) トピックセグメンテーション問題から多文を決定

Page 40: 文書横断文間関係の特定

40