A complex network approach to text summarization

A complex network approach to text summarization

1

論⽂文架構1. Introduc+on2. Related work3. CN-‐summary4. Informa+veness results and discussion5. Correla+ons betweens CN-‐Summ strategies6. Final remarks

2

INTRODUCTION 3

Introduction• 本段介紹兩種不同的摘要產⽣生⽅方式的優缺點以及⽂文字網路

的基礎介紹。• 摘要產⽣生⽅方式:• Abstract• 產⽣生摘要並且改變來源⽂文本的⽂文字，為⼀一種概括或是意

譯，通常⼈人類產⽣生的都是abstract• 產⽣生abstracts的系統需要複雜的機制例如話語以及語意分析

器以找出原⽂文的意義，還有語⾔言產⽣生器來編成摘要• Extract• 當摘要藉由選擇或排列原⽂文的部份時便為extract• 不需要上述複雜的語⾔言知識來選擇最有關的原⽂文組成摘要

4

Introduction• ⼀一個圖形或是網路，可以是⼀一個⽂文字架構的多種表現⽅方

法，因此可說是適合⽤用於extract摘要⽅方法• 節點(Network nodes (ver+ces) )• 代表字詞、句⼦子或是段落。

• 連結(Network edges (links) )• 依據某些訂定條件關係來連接節點

• hubs• ⼀一些⾼高度連接的節點組成⼀一個hub

• 本論⽂文使⽤用只需要簡單的⽂文字預先處理動作的⽂文句網路，這讓系統不需要複雜的語⾔言類知識

• 如果以⼀一個網路來代表原⽂文，每個節點將代表為⼀一句原⽂文並且以具相同的原型名詞來決定是否連結。 5

RELATED WORK 6

Related Work• 本段介紹其他學者所研究的⾃自動產⽣生摘要之演算法以及本

論⽂文所提出的⽅方法之不同。• Salton et al• 以段落為節點，並以共通的字詞數量為判斷是否連結• 雖然簡單，但以段落為基礎的⽅方式會被壓縮率給限制，因為⼀一

個段落無法被打散來放進 extract 裡• Mihalcea• 藉由⽤用來分類網際網路上的網⾴頁的演算法評估截取原⽂文來產⽣生 extract ，例如:Google的 PageRank以及HITS(Hyperlink-‐Induced Topic Search)

7

Related Work• 本段上述所提及的各種⽅方法⽤用了不同的語⾔言學知識去建⽴立

網路中節點的連結

• 雖然有些語⾔言，例如英⽂文，已經有了許多複雜的資源(例如:語意分析等等)可以使⽤用，但對於其他語⾔言來說仍然是這種資源還是稀少的

• 在這論⽂文提出的⽅方法要求只需淺顯的語⾔言學知識即可產⽣生

• 論⽂文的⽅方法只⽤用了⼀一個詞性還原(lemma+zer)以及詞性分類器(Part-‐of-‐Speech Tager)去決定節點是否互相連結

8

CN-‐SUMMARY 9

CN-‐Summ• 節點代表句⼦子，如果兩個節點之間有連結存在代表句⼦子之

間⾄至少有⼀一個詞彙重複。並且只有詞性還原的名詞才列⼊入考慮

• ⽂文中提到重覆的字詞代表兩個句⼦子之間可能會有重複意思的潛在問題

• 但論⽂文認為重複出現的字詞在⼤大多數的情況下是互補⽽而⾮非重複意義。因為⼈人們寫作的習慣鮮少⽤用多句話重複同樣的內容。

10

CN-‐Summ• 具體分為四步驟：

A. 將⽂文章進⾏行預處理，根據句⼦子分隔符將句⼦子分開，並將名詞提取出。

B. 根據⽂文章構建成兩個N*N的矩陣，⼀一個是表⽰示鄰接關係的矩陣，⼀一個是表⽰示權重的矩陣，分別叫做A和W，N為句⼦子的個數。

C. 計算節點的值D. 根據壓縮⽐比例並使⽤用使⽤用14種不同的策略之⼀一，取出前n個

句⼦子組成摘要。

11

CN-‐Summ•

12

CN-‐Summ•

13

CN-‐Summ•

14

CN-‐Summ•

15

CN-‐Summ•

16

CN-‐Summ•

17

CN-‐Summ•

18

CN-‐Summ•

19

INFORMATIVENESS RESULTS AND DISCUSSION

20

Result and discussion• 進⾏行了兩個實驗，使⽤用葡萄⽛牙語的語料庫。• 100則新聞為摘要擷取對象(平均613字，29句話)

• 第⼀一項實驗依Precision/Recall score為基準(sec+on 4.1)• 第⼆二項實驗依Rouge metric為基準(sec+on 4.2)• 也進⾏行了補充的實驗以評估不同的⽂文章壓縮率是否會影響CN-‐Summ的成效

21

Result and discussion•

22

23

實驗⼀一之數據CN-‐Vo0ng ⽐比起ClassSumm, SuPor 以及 SuPor-‐v2有著較⾼高的Precision ,⽐比起 ClassSumm 有較⾼高的Recall

⼀一個顯卓的成績是所有的CN-‐Summ版本都超越了TF-‐ISF-‐Summ, GistSumm 以及 NeuralSumm。這些系統也和CN-‐Summ⼀一樣僅⽤用淺顯的語⾔言資源

Result and discussion• 總結來說CN-‐Summ策略可分類為兩個群組，超過或低於40%的平均F-‐measure。

• 最低的p值⼀一般來說分布於兩個群組之間，⽽而最⾼高的p值則通常位於群組之內

24

SuPor-‐v2 不能被認為⽐比CN-‐Vo0ng, CN-‐SP wc; CN-‐Rings k, CN-‐Degree and CN-‐SPwi, 更好，因為其相對應的p值皆⼤大於0.05(統計上的顯著性差異)

Result and discussionSecond Experiment• 在第⼆二個實驗中採⽤用了 ROUGE metric來評估摘要的效果

25

Result and discussion• 使⽤用度數、最短路徑、d-‐rings跟k-‐core的CN-‐Summ版本在兩

次實驗中皆展現了良好的表現。

• 這表⽰示當在為新聞擷取摘要⽽而選擇節點的時候，連結的數⺫⽬目(度數)、與其他節點的距離、離Hub的距離(d-‐ring)以及是否為核⼼心群組的節點(k-‐core)以上各種因素看似佔了⼗十分重要的⾓角⾊色

26

Result and discussion•

27

CORRELATIONS BETWEENS CN-‐SUMM STRATEGIES

28

Correlations betweens CN-‐Summ

29

• 右圖中⾼高度相關的策略被刻意的放在左上⽅方的位置來強化視覺效果。

• 從CN-‐Degreee開始到CN-‐Vo0ng為⽌止這⼀一區塊涵蓋了幾乎所有的⾼高度相關策略(29個其中的27個)

Correlations betweens CN-‐Summ

•

30

FINAL REMARKS 31

Final Remark• 論⽂文中的⽅方法只定義了⼀一個只需簡單的⽂文字預先處理步驟

的網路來代表⽂文章中的語句。因此此⽅方法的潛⼒力可以藉由注重在摘要演算法的⾝身上⽽而⾮非網路的架構⽅方法

• 某些CN-‐Summ的版本在同樣的實驗背景下，其效果與葡萄⽛牙語中數⼀一數⼆二的⾃自動摘要器之表現不分上下。

32

Final Remark• 網路的定義是極為重要的，因為它很有可能對基於網路的

摘要策略的成效產⽣生巨⼤大的影響• 改善⽅方法如下:

1. 照應詞的解決⽅方法(anaphor resolu+on)找出照應詞與對應的先⾏行詞之間的關係，因⽽而能夠創造之前所被忽略的連結。

2. 多重組合字的識別(recogni+on of mul+word expressions)論⽂文中預先處理的步驟中只⼀一次辨識⼀一個單字，並且將複合名詞當作個別不同的名詞。

3. 同義字庫或詞彙鏈(a thesaurus or lexical chains)如果能夠偵測語義或詞彙上的關係，例如同義詞/反義詞、下位詞/上位詞，將能夠允許給予不同型態的詞彙連結不同的edge weight

33

Final Remark更進⼀一步的改進:• 將全部的CN-‐Summ策略加⼊入到⼀一個機器學習的⽅方法

• 整合兩個或多個不相關的摘要策略形成新的摘要策略結論:• 基於網路的摘要擷取⽅方法並不依靠語⾔言或是其他領域，但

⼜又能夠得到與使⽤用更複雜語⾔言處理以及冗⻑⾧長運算的系統幾乎⼀一樣的成效。

34

A complex network approach to text summarization

Technology