相対的な係りやすさを考慮した日本語係り受け解析

相対的な係りやすさを考慮した日本語係り受け解析

NAIST (4 月より NTT CS 研 PD) 工藤拓　松本裕治

日本語の係り受け解析

形態素解析 , 文節同定

太郎は / 花子と / 京都に / 行きます

太郎は花子と京都に行きます生テキスト

太郎は / 花子と / 京都に / 行きます

係り受け解析

統計的日本語係り受け解析

確信度に基づく手法 [ 春野 98, 内元 99, 工藤 00]

係り関係はすべて独立と仮定統計的な確信度に基づき複数の係り先候補か

ら係り先を 1 つ選択過去多くの研究

決定的な手法 [ 工藤 02]

Shift-Reduce と同種の手法で決定的に解析確信度は必ずしも必要でない確信度に基づく手法と同程度の性能

準備

},,{

},,{

1

1

m

m

ddD

bbB

文節列 :

係り受けパターン列 :

1mdib が jb に係る : , jdbb iji

ib の係り先候補 : },,{ 1 mii bbC

ji bb , に関する素性 : nji bb R ),( ( 品詞 , 単語 , それらの組等 )

学習データ : },,,,{ 11 MM DBDBT },,,,{ 11 LL dbdb

( 係り関係はすべて独立と仮定 )

太郎は / 花子と / 京都に / 行きます1 2 3 4

解析手法 [ 関根 99]

文末の文節から順に同定

太郎は花子が持っている本を探している

係り先の選択),f( maxargˆ cbc i

Cc i

確信度 f の設計に帰着される

絶対モデルと相対モデル

絶対モデル ( 旧モデル ) 候補二文節が「係る」か「係らない」か

のニ値分類を考える　写像の導出}1,1{),( ji bb


+1-1

絶対モデル cont. 線形分類器 (SVM, ME) の場合 , 以下の戦

略で分離平面を構築 ),( ji bby w

i

i

di

di

i

bccb

bccb

Cci

if 0),(

if 0),(

,

w

w

学習戦略 1

係り先の選択),( maxargˆ cbc i

Cc i

w

係りやすさの確信度

絶対モデルの問題点 (1/2)


太郎は本を持っている

+1-1

+1

{ 太郎は→探している } → +1{ 太郎は→持っている } → +1 ? -1

素性の工夫で解決可能だが , 別途素性選択が必要解析時に正例が複数あったり , 正例が 1 つもない

場合どうすればよいのか ?

相対モデル ( 提案手法 )

係りやすさは他の候補との関係できまる他の候補と比較したときの相対的な係りや

すさを学習すべき

D > { A,B,C }E > { F }B > { C }

絶対モデル vs 相対モデル cont.

A: { 太郎は→花子が } -1B: { 太郎は→持っている } -1C: { 太郎は→本を } -1D: { 太郎は→探している } +1E: { 持っている→本を } +1F: { 持っている→探している } -1

1 太郎は花子が持っている本を探している

A (-1)

C (-1)

E (+1) D (+1)B (+1/-1)

F (-1)

絶対モデル

相対的な大小関係は数直線上に保持

w

2 つのグループの境界を求める

2 太郎は本を持っているC: { 太郎は→本を } -1B: { 太郎は→持っている } +1

A

C

E DB

F

相対モデル

相対モデル cont. 以下の戦略で射影ベクトルを構築 w

),( ),(

\ ,

cbbb

bCci

idi

di

i

i

ww

学習戦略 2

係り先の選択),( maxargˆ cbc i

Cc i

w

係りやすさの確信度

絶対モデル vs 相対モデル

),( ),(

\ ,

cbbb

bCci

idi

di

i

i

ww

相対モデルi

i

di

di

i

bccb

bccb

Cci

if 0),(

if 0),(

,

w

w

絶対モデル絶対的な基準点

相対モデルと優先度学習相対モデル : 優先度学習 [Herbrich 98] の日本

語係り受け解析への自然な適用学習手法

RankBoost [Freund03]

Ranking SVM [Joachims02], SVOR [Herbrich 00]

Markov Random Fields ( 最大エントロピー法 )

応用情報検索 , QA 結果のリランキング [Joachims02]

構文解析結果のリランキング [Collins00,02]

照応解析 [Iida03,Isozaki04]

最大エントロピー法による定式化

iCci

jiiji cb

bbCbbP

)],(exp[

)],(exp[)|(

w

w相対モデル

}1,1{

)],(exp[

)],(exp[),|(

yji

jijiji bby

bbbbbbP

w

w絶対モデル

周辺化する対象が異なる

ij Cb

最大エントロピー法による定式化 cont.

iCci

jiiji cb

bbCbbP

)],(exp[

)],(exp[)|(

w

w

},,,,{ 11 LL dbdbT 学習 : 最尤推定

L

iidi CbbP

i1

)]|(log[maxargˆw

w

L

i Ccjidi

i

ibbbb

1

)],(),(exp[logmaxarg www

ここをできるだけ大きくすればよい

),(),(

\ ,

cbbb

bCci

idi

di

i

i

ww

学習戦略 2

相対モデルの学習戦略を近似的に実現するような学習

関連研究

後方文脈モデル [ 内元 00]

3 つ組み /4 つ組みモデル [ 金山 00]

決定的解析モデル [ 工藤 02]

後方文脈モデル [ 内元 00]

二値分類を三値分類に「係る」「係らない」→「係る」「越える」

「手前」解析時 : 確率値の統合

),|(),|(),|(),|(1

1

1

2ki

m

jkki

j

ikjiji bbPbbPbbPbbP

手前越える係る係る

越える係る手前

絶対モデルの本質的な問題は解決されない学習と解析の戦略が異なる

ib jb

3 つ組み /4 つ組みモデル [ 金山 00]

文法を用いて候補を 2 つないし 3 つに限定

2,1'2,1,

2,1,, )],,,'(exp[

)],,,(exp[)(

niii

iiinii ccbn

ccbncbP

w

w2,1, , ii cc係り先候補 :

基本的に多値分類 (3 つ組み , 4 つ組みは別モデル ) 一般の k 組モデルに拡張困難 ( データスパースネス ) 事前に候補を限定する必要がある

候補を用意する必要があるので , 比較対象に含めない

決定的解析モデル [ 工藤 02]

Shift-Reduce の変種を用い決定的に解析 Shift vs Reduce の動作を二値分類

複数の候補から係り先を選択しない

長距離の係り関係は shift が多用される近くに係りやすいという性質を反映長距離の係りうけに弱い

),( maxargˆ cbc iCc i

w

実験

性能比較相対 ( 提案法 ) 絶対 ( 「係る」「係らない」 ) 後方文脈 ( 「係る」「越える」「手前」 ) 決定的解析 (Shift-Reduce)

係り受けの距離ごとに評価すると ?

設定京大コーパス 3.0

学習データ : 24,263 文 234,474 文節デベロップメントデータ : 4,833 文 47,580 文節評価データ : 9,287 文 89,982 文節

比較対象相対 ( 提案法 ) 絶対 ( 「係る」「係らない」 ) 後方文脈 ( 「係る」「越える」「手前」 ) 決定的解析 (shift-reduce) (CaboCha をそのまま利用 )

評価方法係りうけ正解率文正解率

素性 : 内元 00 とほぼ同一の素性

実験結果

モデル係り受け正解率 (%) (80695)

文正解率 (%) (9287)

相対 91.37 (73773) 56.00 (5201)

絶対 90.93 (73379) 54.21 (5035)

後方 91.09 (73510) 55.21 (5128)

決定 91.23 (73624) 55.59 (5163)

有意差検定　 ( マクネマー検定有意水準 1%) 相対 vs { 絶対 , 後方 } → 　有意差あり相対 vs 決定 → 有意差なし

学習結果 (距離ごとの評価 )

152,546

2-315,705

4-55,607

6-72,836

8-91,590

10以上2,411

相対 97.2 86.7 78.1 76.8 75.3 80.8

絶対 97.1 85.5 77.0 75.1 74.6 80.7

後方 97.0 85.9 78.0 76.2 74.9 81.3

決定 97.3 86.8 78.5 75.3 72.6 79.4

( 距離 X で係る係り受けの precision, recall, F 値 )

相対 , 後方 : 長距離依存に強い決定 : 短距離依存に強い相対 : 比較的バランスが取れている

( 距離によるバイアスがかかりにくい )

モデルの組み合わせ性質の違い

相対モデル : 長距離依存に強い決定モデル : 短距離依存に強い

これらを組み合わせると精度向上 !? 単純な組み合わせ手法

決定モデルの距離 3 以下の係り先は無条件に採用 , 残りは相対モデル

非交差条件が崩れる場合は相対モデルを採用

注意 : 予稿集には掲載されておりません

モデルの組みあわせ cont.

モデル係り受け正解率 (%) (80695)

文正解率 (%) (9287)

相対 91.37 (73773) 56.00 (5201)

決定 91.23 (73624) 55.59 (5163)

組み合わせ 91.66 (73969) 56.31 (5229)

確信度などを用いない単純な組み合わせ係り受け正解率は有意に向上２つのモデルの戦略 , 性質の違い

学習効率

モデル学習時間 ( 分 )

相対 71

絶対 240

後方 402

決定 1009{ 相対 , 絶対 , 後方 }: L-BFGS ( 準ニュートン法の一種 )決定 : SMO に基づく標準的な SVM パッケージ

相対モデルは学習効率が非常に良い対立する事例は学習を困難にする

まとめと今後の課題相対モデル

他の候補との係りやすさの相対的な比較従来法より高性能 , 高効率

性質の違い短距離依存 : 決定的解析モデルが優位長距離依存 : 相対モデルが優位 ad-hoc な統合でもそれなりに精度向上

どんな時に全係り先候補を見ればよいのか ?

実験結果 ( 有意差検定 )

システム 1 vs 2

P値係り受け文

相対 vs 絶対 1.3 x 10^-12

6.4 x 10^-9

相対 vs 後方 0.00014 0.031

後方 vs 絶対 0.011 0.0012

相対 vs チャ 0.11 0.34

後方 vs チャ 0.10 0.38

絶対 vs チャ 0.00048 0.0011検定手法 : マクネマー検定 ( 対応が取れてる場合の母比率差の検定 )Ｐ値 : 同一母集団からサンプルとられた確率

相対的な係りやすさを考慮した 日本語係り受け解析

Documents

相対的な係りやすさを考慮した日本語係り受け解析