Top Banner
Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis TACL 2015 Claudio Delli Bovi, Luca Telesca and Roberto Navigli Presentation: Koji Matsuda (Tohoku University) 1 著著著著著著 著著著著著著著著著著著著 一: p://wwwusers.di.uniroma1.it/~dellibovi/talks/talk_OIE.pdf
19

Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

Apr 06, 2017

Download

Engineering

Koji Matsuda
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

Large-Scale Information Extraction from Textual

Definitions through Deep Syntactic and

Semantic AnalysisTACL 2015

Claudio Delli Bovi, Luca Telesca and Roberto Navigli

Presentation: Koji Matsuda (Tohoku University)

1著者のスライドから一部の図を拝借しています:http://wwwusers.di.uniroma1.it/~dellibovi/talks/talk_OIE.pdf

Page 2: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

すごい Knowledge Base

どんな論文? : テキストから知識を抽出

• 本論文の主張 : – 文中のエンティティ・語義をグラウンディング

(WSD, EL) してから Open IE しましょう!– 密で質の良い ( 曖昧性が解消された ) 知識が獲得でき

ます 2

マイタイ ( MAI-TAI ) とは、ラムをベースとしたカクテルである。「トロピカル・カクテルの女王」などと称されることもある。

主語 述語 目的語マイタイ とは カクテルマイタイ ベース ラムマイタイ 称される 「トロピ

… . 」: : :

<arg1, relation, arg2>

Page 3: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

どんな論文? : 曖昧性が解消された知識を作ります

• ポイント– Entity Linking, WSD, Parsing の結果得られたグラフか

ら知識獲得• エンティティ / 語義 に紐付いた知識を構文木から獲

得⇔ 表層 (mention) に関する情報を獲得– 入力を「定義文」に絞る

• ノイズが少ないテキストから (Precision の高い ) 知識を獲得⇔ ノイジーなウェブスケールのコーパス (ClueWeb 等 ) から多様な知識を獲得

• 成果– Fully Disambiguated な KB– Open-vocabrary だけど ( 比較的 ) dense 3

Page 4: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

グラウンディング (EL, WSD) してから知識を抽出

4

マイタイ ( MAI-TAI ) とは、ラムをベースとしたカクテルである。「トロピカル・カクテルの女王」などと称されることもある。

マイタイ ( MAI-TAI ) とは、ラムをベースとしたカクテルである。「トロピカル・カクテルの女王」などと称されることもある。

マイタイ ( MAI-TAI ) とは、ラムをベースとしたカクテルである。… .....

元にした

呼ばれる✓×

×✓

エンティティ語義主語 述語 目的語

マイタイ _bn038v とは _bn038v カクテル _bn038v

マイタイ _bn038v 元にした _bn038v ラム _bn038v

マイタイ _bn038v 呼ばれる _bn038v 「トロピ… . 」: : :

曖昧性が解消された知識ベース

Page 5: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

入力を定義文に絞る

5

ここから精密に知識抽出します

ここは扱いません

Page 6: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

背景 - 最近の KB 生成• Open IE とその子孫たち

– NELL [Carlson+, 2012] / ReVerb [Fader+, 2011] / Ollie [Mausam+, 2012]

• KB 拡張、特に Distant Supervision / Universal Schema– [Hoffmann+, 2011] / [Riedel+, 2010]

• どちらの技術も、– 「巨大なコーパスから , 多様な関係を取る」という方向性

に進化• その結果出てきている問題

– Argument も Relation も曖昧性が解消されていない– スパースすぎて使い物にならない

• 関係のロングテール6

Page 7: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

DefIE

7

Dependency Parse

Entity Linking, WSD

このグラフから情報を取り出す

Page 8: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

Syntactic-Semantic Graph からの知識獲得

8

エンティティペアの最短パスを取る不要な知識がいっぱい取れるので、スコアリングします

Page 9: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

知識ベースを使ったスコアリング

9

知識ベースにグラウンドされているので、知識ベースを使って Relation の良し悪しをはかることが可能パタンの頻度

パタンの ( 項の ) 曖昧性Domain, Range の上位語を(BabelNet から ) 求めて、その上で曖昧性を計算 パタンの長さ

Page 10: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

スコアの計算例

10

Page 11: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

Relation Taxonomization

11

Page 12: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

Evaluation• 入力コーパス :

– BabelNet の ``definition’’ : 4.4M sentence• Wikipedia の first-sentence が主

– WSD, EL: • 比較

– NELL [Carlson+, 2010]– PATTY+Wikipedia [Nakashole+, 2012]– ReVerb+ClueWeb [Fader+, 2010]– WiSeNet+Wikipedia [Moro and Navigli, 2013]

12

グラフベースの手法 [Moro, 2013]

Page 13: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

Evaluation (Size, Precision)

13

入力テキストコーパスは比較的小さい (4.4M Sentence)が、より多くの知識を獲得できている

定義文だけ Full Wikipedia

Full Wikipedia

ClueWeb09

Page 14: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

Evaluation (Precision, Novelty)

14

サンプルした知識を人手で見て正しいか評価

等価な知識が存在するか、対抗 KBに対して人手で調査6 割の知識はReVerb では取れない

Page 15: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

Evaluation (Coverage)

15

Musician に関する Wikipedia の記事 5 記事に対して人力 IE して Gold を作成、そのうちどれくらいをカバーできるか調査• FB, Dbpedia は本文の情報を使っていないFreebase から 100 個取ってくると、そのうち 83 個くらいは DefIE でカバーできている

ウェブスケールのコーパスを使わなくても、 7 割くらいカバーできる

Page 16: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

Evaluation ( その他 )

16

non-definitional text を入力にすると、 precision がガクッと下がる

既存手法の入力をdefinitional text だけにすると、獲得数がガクッと下がる

従属節 , 共参照 etc…

Page 17: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

まとめ

• モノの定義に関する「グラウンドされた知識」をテキストから抽出– EL, WSD, Parsing

• やみくもに大規模コーパスを使うのではなく、定義文のみから既存の KB に入っていないような知識が獲得できている

17

ここから知識を抽出

Page 18: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

18

BabelNet• Multilingual Encyclopedic Dictionary

– Lexicographic & Encyclopedic knowledge– Based on Automatic Integration of :

• WordNet, Wikipedia, Wiktionary, …

Named Entities and specialized concepts from Wikipedia

Concepts from WordNet

50 Languages21M definitions62M entries

18Concepts integrated from both resources

Page 19: Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

19

Lexical Knolwdge Base

Encyclopedical Knolwdge Base

Integrated Knowledge Base

Thomas Muller

striker

Munich

Mario GomezThomas Millan

playing

FC Bayern MunichSemantic Interpretation Graph

Semantic Signature

→ Select most suitable meaning on the Graph

Thomas and Mario are strikers playing in Munich. They are …

Input Text

[Moro+, 2013]