相相相相相相相相相相相相相相 相相相相相相相相相 NAIST (4 相相相 NTT CS 相 PD) 相相 相 相相 相相
Jan 03, 2016
相対的な係りやすさを考慮した日本語係り受け解析
NAIST (4 月より NTT CS 研 PD) 工藤 拓 松本 裕治
日本語の係り受け解析
形態素解析 , 文節同定
太郎は / 花子と / 京都に / 行きます
太郎は花子と京都に行きます生テキスト
太郎は / 花子と / 京都に / 行きます
係り受け解析
統計的日本語係り受け解析
確信度に基づく手法 [ 春野 98, 内元 99, 工藤 00]
係り関係はすべて独立と仮定 統計的な確信度に基づき複数の係り先候補か
ら係り先を 1 つ選択 過去多くの研究
決定的な手法 [ 工藤 02]
Shift-Reduce と同種の手法で決定的に解析 確信度は必ずしも必要でない 確信度に基づく手法と同程度の性能
準備
},,{
},,{
1
1
m
m
ddD
bbB
文節列 :
係り受けパターン列 :
1mdib が jb に係る : , jdbb iji
ib の係り先候補 : },,{ 1 mii bbC
ji bb , に関する素性 : nji bb R ),( ( 品詞 , 単語 , それらの組等 )
学習データ : },,,,{ 11 MM DBDBT },,,,{ 11 LL dbdb
( 係り関係はすべて独立と仮定 )
太郎は / 花子と / 京都に / 行きます1 2 3 4
解析手法 [ 関根 99]
文末の文節から順に同定
太郎は 花子が 持っている 本を 探している
係り先の選択),f( maxargˆ cbc i
Cc i
確信度 f の設計に帰着される
絶対モデルと相対モデル
絶対モデル ( 旧モデル ) 候補二文節が「係る」か「係らない」か
のニ値分類を考える 写像 の導出}1,1{),( ji bb
太郎は 花子が 持っている 本を 探している
+1-1
絶対モデル cont. 線形分類器 (SVM, ME) の場合 , 以下の戦
略で分離平面 を構築 ),( ji bby w
i
i
di
di
i
bccb
bccb
Cci
if 0),(
if 0),(
,
w
w
学習戦略 1
係り先の選択),( maxargˆ cbc i
Cc i
w
係りやすさの確信度
絶対モデルの問題点 (1/2)
太郎は 花子が 持っている 本を 探している
太郎は 本を 持っている
+1-1
+1
{ 太郎は→探している } → +1{ 太郎は→持っている } → +1 ? -1
素性の工夫で解決可能だが , 別途素性選択が必要 解析時に正例が複数あったり , 正例が 1 つもない
場合 どうすればよいのか ?
相対モデル ( 提案手法 )
係りやすさは他の候補との関係できまる 他の候補と比較したときの相対的な係りや
すさを学習すべき
D > { A,B,C }E > { F }B > { C }
絶対モデル vs 相対モデル cont.
A: { 太郎は→花子が } -1B: { 太郎は→持っている } -1C: { 太郎は→本を } -1D: { 太郎は→探している } +1E: { 持っている→本を } +1F: { 持っている→探している } -1
1 太郎は 花子が 持っている 本を 探している
A (-1)
C (-1)
E (+1) D (+1)B (+1/-1)
F (-1)
絶対モデル
相対的な大小関係は数直線上に保持
w
2 つのグループの境界を求める
2 太郎は 本を 持っているC: { 太郎は→本を } -1B: { 太郎は→持っている } +1
A
C
E DB
F
相対モデル
相対モデル cont. 以下の戦略で射影ベクトル を構築 w
),( ),(
\ ,
cbbb
bCci
idi
di
i
i
ww
学習戦略 2
係り先の選択),( maxargˆ cbc i
Cc i
w
係りやすさの確信度
絶対モデル vs 相対モデル
),( ),(
\ ,
cbbb
bCci
idi
di
i
i
ww
相対モデルi
i
di
di
i
bccb
bccb
Cci
if 0),(
if 0),(
,
w
w
絶対モデル絶対的な基準点
相対モデルと優先度学習 相対モデル : 優先度学習 [Herbrich 98] の日本
語係り受け解析への自然な適用 学習手法
RankBoost [Freund03]
Ranking SVM [Joachims02], SVOR [Herbrich 00]
Markov Random Fields ( 最大エントロピー法 )
応用 情報検索 , QA 結果のリランキング [Joachims02]
構文解析結果のリランキング [Collins00,02]
照応解析 [Iida03,Isozaki04]
最大エントロピー法による定式化
iCci
jiiji cb
bbCbbP
)],(exp[
)],(exp[)|(
w
w相対モデル
}1,1{
)],(exp[
)],(exp[),|(
yji
jijiji bby
bbbbbbP
w
w絶対モデル
周辺化する対象が異なる
ij Cb
最大エントロピー法による定式化 cont.
iCci
jiiji cb
bbCbbP
)],(exp[
)],(exp[)|(
w
w
},,,,{ 11 LL dbdbT 学習 : 最尤推定
L
iidi CbbP
i1
)]|(log[maxargˆw
w
L
i Ccjidi
i
ibbbb
1
)],(),(exp[logmaxarg www
ここをできるだけ大きくすればよい
),(),(
\ ,
cbbb
bCci
idi
di
i
i
ww
学習戦略 2
相対モデルの学習戦略を近似的に実現するような学習
関連研究
後方文脈モデル [ 内元 00]
3 つ組み /4 つ組みモデル [ 金山 00]
決定的解析モデル [ 工藤 02]
後方文脈モデル [ 内元 00]
二値分類を三値分類に 「係る」「係らない」→「係る」「越える」
「手前」 解析時 : 確率値の統合
),|(),|(),|(),|(1
1
1
2ki
m
jkki
j
ikjiji bbPbbPbbPbbP
手前越える係る係る
越える 係る 手前
絶対モデルの本質的な問題は解決されない 学習と解析の戦略が異なる
ib jb
3 つ組み /4 つ組みモデル [ 金山 00]
文法を用いて候補を 2 つないし 3 つに限定
2,1'2,1,
2,1,, )],,,'(exp[
)],,,(exp[)(
niii
iiinii ccbn
ccbncbP
w
w2,1, , ii cc係り先候補 :
基本的に多値分類 (3 つ組み , 4 つ組みは別モデル ) 一般の k 組モデルに拡張困難 ( データスパースネス ) 事前に候補を限定する必要がある
候補を用意する必要があるので , 比較対象に含めない
決定的解析モデル [ 工藤 02]
Shift-Reduce の変種を用い決定的に解析 Shift vs Reduce の動作を二値分類
複数の候補から係り先を選択しない
長距離の係り関係は shift が多用される 近くに係りやすいという性質を反映 長距離の係りうけに弱い
),( maxargˆ cbc iCc i
w
実験
性能比較 相対 ( 提案法 ) 絶対 ( 「係る」「係らない」 ) 後方文脈 ( 「係る」「越える」「手前」 ) 決定的解析 (Shift-Reduce)
係り受けの距離ごとに評価すると ?
設定 京大コーパス 3.0
学習データ : 24,263 文 234,474 文節 デベロップメントデータ : 4,833 文 47,580 文節 評価データ : 9,287 文 89,982 文節
比較対象 相対 ( 提案法 ) 絶対 ( 「係る」「係らない」 ) 後方文脈 ( 「係る」「越える」「手前」 ) 決定的解析 (shift-reduce) (CaboCha をそのまま利用 )
評価方法 係りうけ正解率 文正解率
素性 : 内元 00 とほぼ同一の素性
実験結果
モデル 係り受け正解率 (%) (80695)
文正解率 (%) (9287)
相対 91.37 (73773) 56.00 (5201)
絶対 90.93 (73379) 54.21 (5035)
後方 91.09 (73510) 55.21 (5128)
決定 91.23 (73624) 55.59 (5163)
有意差検定 ( マクネマー検定 有意水準 1%) 相対 vs { 絶対 , 後方 } → 有意差あり 相対 vs 決定 → 有意差なし
学習結果 (距離ごとの評価 )
152,546
2-315,705
4-55,607
6-72,836
8-91,590
10以上2,411
相対 97.2 86.7 78.1 76.8 75.3 80.8
絶対 97.1 85.5 77.0 75.1 74.6 80.7
後方 97.0 85.9 78.0 76.2 74.9 81.3
決定 97.3 86.8 78.5 75.3 72.6 79.4
( 距離 X で係る係り受けの precision, recall, F 値 )
相対 , 後方 : 長距離依存に強い 決定 : 短距離依存に強い 相対 : 比較的バランスが取れている
( 距離によるバイアスがかかりにくい )
モデルの組み合わせ 性質の違い
相対モデル : 長距離依存に強い 決定モデル : 短距離依存に強い
これらを組み合わせると精度向上 !? 単純な組み合わせ手法
決定モデルの距離 3 以下の係り先は無条件に採用 , 残りは相対モデル
非交差条件が崩れる場合は相対モデルを採用
注意 : 予稿集には掲載されておりません
モデルの組みあわせ cont.
モデル 係り受け正解率 (%) (80695)
文正解率 (%) (9287)
相対 91.37 (73773) 56.00 (5201)
決定 91.23 (73624) 55.59 (5163)
組み合わせ 91.66 (73969) 56.31 (5229)
確信度などを用いない単純な組み合わせ 係り受け正解率は有意に向上 2つのモデルの戦略 , 性質の違い
学習効率
モデル 学習時間 ( 分 )
相対 71
絶対 240
後方 402
決定 1009{ 相対 , 絶対 , 後方 }: L-BFGS ( 準ニュートン法の一種 )決定 : SMO に基づく標準的な SVM パッケージ
相対モデルは学習効率が非常に良い 対立する事例は学習を困難にする
まとめと今後の課題 相対モデル
他の候補との係りやすさの相対的な比較 従来法より高性能 , 高効率
性質の違い 短距離依存 : 決定的解析モデルが優位 長距離依存 : 相対モデルが優位 ad-hoc な統合でもそれなりに精度向上
どんな時に全係り先候補を見ればよいのか ?
実験結果 ( 有意差検定 )
システム 1 vs 2
P値係り受け 文
相対 vs 絶対 1.3 x 10^-12
6.4 x 10^-9
相対 vs 後方 0.00014 0.031
後方 vs 絶対 0.011 0.0012
相対 vs チャ 0.11 0.34
後方 vs チャ 0.10 0.38
絶対 vs チャ 0.00048 0.0011検定手法 : マクネマー検定 ( 対応が取れてる場合の母比率差の検定 )P値 : 同一母集団からサンプルとられた確率