Foundations of Statistical Natural Language Processing 5. Collocations
Post on 23-Mar-2016
394 Views
Preview:
DESCRIPTION
Transcript
Foundations of Statistical Natural Language Processing5. Collocations
米澤研究室 M1 増山隆tak@yl.is.s.u-tokyo.ac.jp
概要Collocation とはCollocation を統計的に見つけ出す方法 Frequency Mean and Variance Hypothesis testing( 仮説検定 )
The t test Hypothesis testing of difference(using the t test) Pearson’s chi-square test Likelihood ratios
Collocation とは
Collocation( 連語 )複数の単語が慣習的に結びついてひとつの表現になったもの ( 例 New York)Compositional( 部分から全体の意味が分かる ) とは限らない
例 kick the bucket ( 死ぬ )「結びつきやすさ」がある
例 strong tea / powerful tea
Firth vs. Saussure & Chomsky
Saussure & Chomsky Collocation は無視されていた 文、節の構造を重視
Firth (Contextual Theory of Meaning) Context を重視
社会設定 会話の流れ Collocation
Collocation を統計的に見つけ出す方法
5.1 Frequency2 語が続いて現れる回数を数える素朴そのまま行うと of the, in the のような興味のない結果が得られる (Table 5.1)
Frequency + POS filter(Justeson and Katz 1995)
句になりそうな POS のパターンを与えておいて、そのパターンに合うものを抽出
cf. Table 5.2, 5.3 例 Strong tea and powerful tea
New York Times には現れなかった Web での実験では 799(strong) と 19(powerful)
であった strong,powerful どちらにも使える語に対して
はより洗練された分析が必要
5.2 Mean and Variance(1/2)(Smadja 1993)
2 語が同時に出現するときの距離を分析 例 knock on his door での knock に対する door の距
離は 3
距離の平均と分散を算出
分散が小さいほうがよい
Mean and Variance(2/2)結果は Table 5.2,5.4 Window size 9 分散が小さいとき平均距離は 0 に近い (興味のない collocation)
Smadja は急激なピークのみをとりだした だいたい 80% の出来
Collocation よりももっと緩い関係がわかる 例 knock と door
5.3 Hypothesis Testing( 仮説検定 )
ある 2 語が偶然隣り合うのか決まって隣り合うのかを調べたい New companies は new も companies も出
現頻度が高いならば隣り合う確率も高い
H0 null hypothesis ( 帰無仮説 ) 統計的に正しいか調べたい命題 ここでは、「ある 2 語 w1w2 が偶然隣り合
う」 P(w1w2) = P(w1)P(w2) .. 独立性で仮定
The t test平均に関する検定によく使う
信頼区間 α: 棄却、採択の基準 %( ここでは0.05)
w1w2 が偶然隣り合うか ? を検定手順 1.) 以下の式で t score を計算
The t test手順 2) t 分布表を見る tの値が表の値より大ならば H0 を棄却
積分値が α である点
t test(image)
T test の計算例
New companies C(New) = 15828 C(companies) = 4675 N =14307668 ( 語の総数 ) s2=p(1-p) ~ p を使用 (cf. 2.1.9) t = 0.999932 α=0.005 の時の基準値は 2.576( 表を見る ) H0 は棄却できない ⇒ New companies は偶然並んだ
The t test の結果と特徴結果は表 5.6 20 回出現した 2 語の collocation 5.6 は stop word を含むほとんどの bigram で H0( 独立性の仮説 ) を棄却でき
た⇒ 言語は予測できないことはほとんどおきない。 word sence disambiguation や確率的パーズの能力の裏付け
信頼区間 α はそれほど重要ではないCollocation のランク付けもできる
Hypothesis testing of differences
微妙に異なる collocation の発見に使う 例 ) strong と powerful の違いを見るためにそれらの直後によく出現する語を見る
二標本 t 検定 以下の Welch の近似を使う
仮説と t score帰無仮説 H0 は「両者に違いがない」こと。 μ1-μ0=0
標本数は共通で N (Bernoulli 試行を N回 )以上を考慮して t を語数で表す
Hypothesis testing of differences の結果と応用
結果は Table 5.7 Church & Hanks(1989) 内的性質と外的性質
strong: 実際には力を持たないかもしれない。内的 powerful: 実際に力をもつ。外的
文化的な側面のような微妙なところがある 例 ) strong tea, powerful drug は tea,drug の差
応用 : 辞書作成 単語の微妙なニュアンスをつかむ
Pearson’s chi-square testばらつき ( 分散 ) の検定t 検定よりも適用範囲が広い
t 検定 .. サンプルが標準正規分布にしたがっていることを仮定
observed w1 = new w1 ≠ w2w2 = companies 8 4667w2 ≠ companies 15820 14287181
Expected w1 = new w1 ≠ w2w2 = companies 5.171765 4669.831w2 ≠ companies 15822.84 14287186
観測で得た表と独立性を仮定した表がマッチするか ?
χ2 値と検定手順式と見る表以外は t 検定と同様
5.7 式の導出はhttp://www10.u-page.so-net.ne.jp/dk9/mamewo/5.7.ps 参照
new companies は H0 を棄却できない
χ2 検定の性質と応用
t 検定よりも適用範囲が広い応用 1: ある単語の翻訳語を見つける(Church & Gale 1991)例 ) vache( フランス語 ) と cow( 英語 )H0 を棄却できれば、翻訳語だといえる
応用 2: 2 コーパスの類似性の尺度 (Kilgarriff & Rose 1998)
Likelihood ratios( 最尤比検定 )
直感に合う (?) 方法「現実の標本は確率最大のものが実現したものだ」と仮定 ( 最尤原理 )仮説 w1w2 という bigram について H1 P(w2|w1) = p = P(w2| ¬ w1) H2 P(w2|w1)=p1≠p2=P(w2| ¬ w1)
H1 は独立性の仮説
Likelihood のイメージ
likelihood
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
probability
likeli
hood
真の確率 p に近いほど likelihood( 最尤度 ) は高い
Likelihood の計算 (1/2)
p,p1,p2 を得られたデータから計算
二項分布を仮定 (Bernoulli 分布 ) この値が当てはまりのよさを示す
Likelihood の計算 (2/2)
ただし-2logλ は漸近的に χ2 分布に従う ( らしい )
likelihood ratios の結果と特徴
結果は Table 5.12 結果の解釈は直感的に出来る e0.5*(-2logλ) の値をみて、どれくらいの確からしさで棄却された
かが分かる
出現回数が少ない bigram にも適用可能
Relative frequency ratiosコーパスを特徴づける collocation を他のコ
ーパスたちと比較して見つける 例 1990年、 1989年の New York Times cf. Table 5.13 1989年に頻出 1990年に 2
回 1989年の出来事、 1990年に終わったコラム
ある特定分野向けの collocation を見つける 普通の文章と特定分野の文章を比較
参考文献
基礎統計学 I 統計学入門自然科学の統計学 (p155 に 5.7 式の導出 ) 東京大学教養学部統計学教室編
雑なメモhttp://www10.u-page.so-net.ne.jp/dk9/mamewo/natural_language.html
top related