Top Banner
Enrique Alfonseca, Daniele Pighin, Guillermo Garrido ACL2013 HEADY: News headline abstraction through event pattern clustering id:skozawa 論文輪読会
18

Heady news headline abstraction through event pattern clustering

Jul 21, 2015

Download

Technology

Shunsuke Kozawa
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Heady  news headline abstraction through event pattern clustering

Enrique Alfonseca, Daniele Pighin, Guillermo GarridoACL2013

HEADY: News headline abstraction through event pattern clustering

id:skozawa

論文輪読会

Page 2: Heady  news headline abstraction through event pattern clustering

Headline Generation

● 同じニュースが複数の媒体、複数の観点で書かれる○ 要約○ ヘッドライン

● 右の例の場合○ Carmelo Anthony … がヘッ

ドラインとして妥当

Page 3: Heady  news headline abstraction through event pattern clustering

Goal

● 研究目的○ オープンドメインなヘッドライン生成

■ コストの高い学習データを必要としない教師なし手法○ 同じイベントを参照する類似表現を汎化○ 要約的なアプローチをとる

■ 抜粋的(extractive)■ 要約的(abstractive)

Page 4: Heady  news headline abstraction through event pattern clustering

Headline Generation

● HEADY○ 入力:同じ話題のニュースコレクション○ 出力:ニュースコレクションのヘッドライン

○ パターン抽出■ 固有表現を1つ以上含む構文木

○ 学習■ Noisy-OR Baysian Network■ パターン(観測変数)、イベント(隠れ変数)

○ 推論■ パターン抽出■ 隠れイベント変数の事後確率推定■ ヘッドライン生成のために最尤のパターンを選択

Page 5: Heady  news headline abstraction through event pattern clustering

Pattern Extraction (CollectionToPatterns)

● PreProcessData○ トークン化、文境界解析○ 形態素解析○ 構文解析○ 照応解析○ 固有表現抽出

■ Wikipedia, Freebase■ Freebaseのclassを付与

Page 6: Heady  news headline abstraction through event pattern clustering

Pattern Extraction (CollectionToPatterns)

● GetRelevantEntities○ ニュースコレクションからよく言

及されている固有表現Eを取得

● Combinations○ 固有表現の組み合わせ○ 3単語以下

● ExtractPatterns○ 固有表現を含むイベントパ

ターンを抽出

Page 7: Heady  news headline abstraction through event pattern clustering

Pattern Extraction (ExtractPatterns)

● タイトルと本文1文目のみ● GetMentionNodes

○ 固有表現であるノードMを識別

■ 固有表現を含むまない文は無視

● GetMinimumSpaningTree○ ノードMを含む最小の構文木

を取得

Page 8: Heady  news headline abstraction through event pattern clustering

Pattern Extraction (ExtractPatterns)

● ApplyHeuristics○ 高い確率で構文木は非文法

的、もしくは、非有用

○ 例のe1とe2のペア(2)は良い概要ではない

○ 意味がわかる最小限の集合を

目的とした変換を後処理としておこなう■ rootや主部を含む■ conjunctionsを含む

● CombineEntityTypes○ e1, e2をclassに置き換えて個

別のパターンを生成

Page 9: Heady  news headline abstraction through event pattern clustering

Training

● 抽出したパターンを使ってNosiy-ORで学習● パターンが1つ以上のイベントを活性化する確率を推定● 隠れ変数(イベント)と観測変数(パターン)● 全パターンにはノイズイベントがリンクされる

○ 言語背景によって生成されるイベント(ノイズ)を許容

● パターンが与えられたときのイベントeiの条件付確率

● 学習プロセスを100,000ニュースコレクションで初期化し、重みを40EMで最適化

qij = P(ei=1|pj=1) : パターンpjからイベントeiの確率qi0 : ノイズパターンからイベントeiの確率 未観測パターンからのイベント生起

Page 10: Heady  news headline abstraction through event pattern clustering

Inference (generation of news headlines)

● HEADY○ 入力:ニュースコレクションN○ 出力:ヘッドライン

● 仮定:NのヘッドラインはNに関連する固有表現Eの重要なイベントについて述べなければならない

● Nに関連する1つのイベント-パターン対 p* が必要● p*のプレースホルダーを、Nで観測された固有表現の表層形で

埋める

Page 11: Heady  news headline abstraction through event pattern clustering

Inference (Inference(n, E))

● Inference(n, E)○ 基本的な推論アルゴリズムは2段階ランダムウォーク○ n: ニュース記事○ E: 固有表現集合

○ パターン抽出■ ExtractPatterns(n, E)

○ 観測変数の確率分布の取得■ 抽出したパターンの頻度を正規化

Page 12: Heady  news headline abstraction through event pattern clustering

Inference (extraction of p*)

1. 固有表現サブセットEiの確率分布wiの計算○ ニュースコレクション内の固有表現Eから3つまで取得

○ サブセットEiに対して、Inference(n, Ei)を実行し、Eiを含むパターンの単語分布を計算

2. 確率分布wの計算○ 全ての固有表現のサブセットに対してInference(n, Ei)を実行

3. 確率分布wiの選択○ 全体の分布wと各固有表現のサブセットEiの分布wiを比較○ 最も類似するwiを選択

4. パターンp*の選択○ w*に最も大きい重みをつけるパターンを選択

Page 13: Heady  news headline abstraction through event pattern clustering

Experiment settings

● 実験データ○ Noisy-ORモデルには大規模データが必要○ 2008年~2012年のWebデータをクロール

■ 時間とコサイン類似度を使ってクラスタリング■ 5文書以下のクラスタは削除■ 最大50文書以内に

○ 1700万文書集合、うち、数百万文書集合はテスト用

● Nosiy-OR○ 100,000の潜在イベント○ 40のEM

● パターン抽出○ CollectionToPatternsアルゴリズムにより2.3億のイベントパターンを

生成○ 同じコレクションから生成されたものをまとめると1700万

Page 14: Heady  news headline abstraction through event pattern clustering

System Used (Method for picking one)

● Latest headline○ 最新の記事のタイトルを利用

● Most frequest headline○ ニュースコレクション内の最頻のタイトルを利用

● TopicSum○ 3層(background, content, doc-specific)のトピックモデル

○ コレクションのunigramモデルとのカルバックライブラー情報量が最小のタイトルを利用

Page 15: Heady  news headline abstraction through event pattern clustering

System Used (Generate Headline)

● Multi-Sentence Compression (MSC)○ 1文書からの要約手法○ 単語グラフを生成○ 最短パスを取得

● Most frequest pattern○ 提案手法のNoisy-ORなしバージョン

■ Noisy-ORの有効性を示すためのベースライン○ 生成したパターンの中から最頻のパターンを利用

Page 16: Heady  news headline abstraction through event pattern clustering

Results

● 8人の評価者により以下の指標をアノテーション○ Readability:文法的かを5段階評価○ Informativeness:情報量を5段階評価

● すべてのシステムがタイトルを生成できた50文書集合をランダムに取得

● HEADYとMSCは有意差あり● HEADYとMost freq. patternは有意差なし

Page 17: Heady  news headline abstraction through event pattern clustering

Other Results

● 1つ目○ 噂を否定したニュース

● 2つ目○ HEADYがFrequent patternを改

● 3つ目○ HEADYがノイズの多いコレク

ションから正しくヘッドラインを生成

● 自動評価○ 従来はROUGE○ TopicSumが利用できるかも

Page 18: Heady  news headline abstraction through event pattern clustering

Conclusion

● HEADY○ Noisy-OR Bayesian Network○ 要約的ヘッドライン生成手法

○ 人手のアノテーションデータは不要で、Webサイズのコーパスに効率的にスケールできる

● 従来手法(MSC)より高い性能