Top Banner
文献紹介(2015/4/16) Automatic Retrieval and Clustering of Similar Words 長岡技術科学大学 電気電子情報工学専攻 自然言語処理研究室 高橋寛治
19

20150415 automatic retirieval_and_clustering_of_similar_words

Jul 22, 2015

Download

Education

Takahashi Kanji
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 20150415 automatic retirieval_and_clustering_of_similar_words

文献紹介(2015/4/16)Automatic Retrieval and

Clustering of Similar Words

長岡技術科学大学 電気電子情報工学専攻

自然言語処理研究室 高橋寛治

Page 2: 20150415 automatic retirieval_and_clustering_of_similar_words

文献について

•Automatic Retrieval and Clustering of

Similar Words

•Dekang Lin, Department of Computer

Science University of Manitoba, 1998,

ACL’98,Coling’98, Vol.2, pp.768-774

文献紹介:A Baseline System for Chinese Near-Synonym Choice 2

Page 3: 20150415 automatic retirieval_and_clustering_of_similar_words

概要

•Dependency tripleを用いた単語類似度を定義

•定義した類似度測定手法を用いてシソーラスを作成

•自動構築したシソーラスと既存のシソーラスの類似度

を測る方法を提案

文献紹介:A Baseline System for Chinese Near-Synonym Choice 3

Page 4: 20150415 automatic retirieval_and_clustering_of_similar_words

はじめに

•A bottle of tezguino is on the table.

•Everyone likes tezguino.

•Tezguino makes you drunk.

•We make tezguino out of corn.

文献紹介:A Baseline System for Chinese Near-Synonym Choice 4

「tezguino」が「beer,wine,vodka」と似ていると分かることが、本研究のゴール

Page 5: 20150415 automatic retirieval_and_clustering_of_similar_words

はじめに

•ブートストラップ法によりテキストから意味を取

得することがゴール

≒自動的にシソーラスを構築する

•統計的自然言語処理のデータスパースネス問題を

軽減する手段の一つとなる

文献紹介:A Baseline System for Chinese Near-Synonym Choice 5

Page 6: 20150415 automatic retirieval_and_clustering_of_similar_words

単語の類似度

•Dependecy triplesを利用(broad-coverage parser Lin,1993)

•文中の2つの単語の文法関係を記述

“I have a brown dog”

(have subj I), (I subj-of have), (dog obj-of

have),(dog adj-mod brown), (brown adj-mod-of

dog), (dog, det a), (a det-of dog)

文献紹介:A Baseline System for Chinese Near-Synonym Choice 6

Page 7: 20150415 automatic retirieval_and_clustering_of_similar_words

Dependency triples

• ||w,r,w‘||は(w,r,w’)の総数を示す

•ワイルドカードを使用する

• ||*,*,*||はコーパスから解析された全てのdependency

triplesを含む

• dependency triplesの頻度はそれぞれ独立と仮定

文献紹介:A Baseline System for Chinese Near-Synonym Choice 7

Page 8: 20150415 automatic retirieval_and_clustering_of_similar_words

出現しない組み合わせは共起情報から推定

•無作為に選択したそれぞれの要素をもとに最尤推定を

行う

• 𝑃𝑀𝐿𝐸 𝐴, 𝐵, 𝐶 = 𝑃𝑀𝐿𝐸 𝐵 𝑃𝑀𝐿𝐸 𝐴|𝐵 𝑃𝑀𝐿𝐸 𝐶|𝐵

• 𝑃𝑀𝐿𝐸 𝐵 =||∗,𝑟,∗||

||∗,∗,∗||, 𝑃𝑀𝐿𝐸 𝐴|𝐵 =

||𝑤,𝑟,∗||

||∗,𝑟,∗||, 𝑃𝑀𝐿𝐸 𝐶|𝐵 =

||∗,𝑟,𝑤′||

||∗,𝑟,∗||

文献紹介:A Baseline System for Chinese Near-Synonym Choice 8

Page 9: 20150415 automatic retirieval_and_clustering_of_similar_words

相互情報量を求め、類似度を計算

• 𝐼 𝑤, 𝑟, 𝑤′

= − log 𝑃𝑀𝐿𝐸 𝐵 𝑃𝑀𝐿𝐸 𝐴|𝐵 𝑃𝑀𝐿𝐸 𝐶|𝐵 − − log 𝑃𝑀𝐿𝐸 𝐴, 𝐵, 𝐶

単語1と単語2の類似度

文献紹介:A Baseline System for Chinese Near-Synonym Choice 9

Page 10: 20150415 automatic retirieval_and_clustering_of_similar_words

使用するコーパス

•全6400万語

•Wall Street Journal(2400万語)

• San Jose Mercury(2100万語)

• AP Newswire(1900万語)

•5650万のdependency triplesを取得

• 各語は頻度100で足切り

文献紹介:A Baseline System for Chinese Near-Synonym Choice 10

Page 11: 20150415 automatic retirieval_and_clustering_of_similar_words

類似度を計算しシソーラスを構築

•w(pos):w1,s1,w2,s2,…,wN,sN

• brief(noun):affidavit 0.13, petition 0.05,

memorandum 0.05

• brief(verb):tell 0.09, urge 0.07, ask 0.07, meet

0.06

•最も似ている単語対を取得

• 名詞543ペア、動詞212ペア、形容詞・副詞382ペア

文献紹介:A Baseline System for Chinese Near-Synonym Choice 11

Page 12: 20150415 automatic retirieval_and_clustering_of_similar_words

別の類似度計算でシソーラスの構築

•単語の類似度

•w(pos):w1,s1,w2,s2,…,wN,sN

• 提案手法と既存の類似度計算で比較

文献紹介:A Baseline System for Chinese Near-Synonym Choice 12

Page 13: 20150415 automatic retirieval_and_clustering_of_similar_words

評価

• 自動で構築したシソーラスと、WordNet1.5・Roget

Thesaurusを比較

• それぞれのシソーラスでの類似度の計算(1997,Lin)

• S(w)はWordNetの同じsynsetの語,super(c)はcの上位クラス

• R(w)は同じRogetカテゴリーに属する語

文献紹介:A Baseline System for Chinese Near-Synonym Choice 13

Page 14: 20150415 automatic retirieval_and_clustering_of_similar_words

シソーラス間の類似度

•シソーラス内での類似度を以下のように示す

•W:w1,s1,w2,s2,…,wN,sN

• W:w’1,s’1,w’2,s’2,…,w’N,s’N

•WordNet,Rogetを同じフォーマットに変更

•右の式で計算を行う

文献紹介:A Baseline System for Chinese Near-Synonym Choice 14

Page 15: 20150415 automatic retirieval_and_clustering_of_similar_words

結果

•類似度の平均と標準偏差

•データ数のルートで平均を

割ったもの

•sim,Hindle rとcosineは

WordNetで高いスコア

文献紹介:A Baseline System for Chinese Near-Synonym Choice 15

評価結果

Page 16: 20150415 automatic retirieval_and_clustering_of_similar_words

よく似た3つを比較

•統計的に優位かどうか確

認するために、類似度の

差を調査

•Simが他よりいい

文献紹介:A Baseline System for Chinese Near-Synonym Choice 16

相違点の分布

Page 17: 20150415 automatic retirieval_and_clustering_of_similar_words

今後の課題

•信頼性の高い類似度を

抽出することが今後の

課題

文献紹介:A Baseline System for Chinese Near-Synonym Choice 17

Page 18: 20150415 automatic retirieval_and_clustering_of_similar_words

まとめ

•自動で構築されたシソーラスの評価法を提案

•自動構築と手動構築の比較を行える

•自動で構築したシソーラスはRoget Thesaurus

よりWordNetに近い

文献紹介:A Baseline System for Chinese Near-Synonym Choice 18

Page 19: 20150415 automatic retirieval_and_clustering_of_similar_words

付録

文献紹介:A Baseline System for Chinese Near-Synonym Choice 19