HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ ... - UET

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THU TRANG

HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG

VÀ TẠO NHÃN CỤM TÀI LIỆU

Ngành: Công nghệ Thông tinChuyên ngành: Hệ thống Thông tinMã số: 60 48 05

luận văn thạc sĩ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy

Hà Nội - 2008

Lời cam đoan

Tôi xin cam đoan đây là công trình nghiên cứu của bản thân. Các số liệu, kết quảtrình bày trong luận văn này là trung thực và chưa từng được ai công bố trong bấtkỳ công trình luận văn nào trước đây.

Học ViênNguyễn Thu Trang

ii

Lời cảm ơn

Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến PGS.TS Hà Quang Thụy -Người thầy kính yêu, người hướng dẫn, chỉ bảo em tận tình từ những bước nghiêncứu đầu tiên và hoàn thành luận văn.

Tôi chân thành cảm ơn các thầy cô trong bộ môn Các Hệ Thống Thông Tin, vàphòng thí nghiệm SISLAB, nhóm xemina Data Mining và đặc biệt gửi lời cảm ơntới ThS.Nguyễn Cẩm Tú đã giúp đỡ, hỗ trợ tôi trong quá trình nghiên cứu, hoànthành đề tài.

Tôi cảm ơn các thầy cô và các cán bộ của trường Công nghệ đã tạo cho tôi nhữngđiều kiện thuận lợi để học tập và nghiên cứu.

Cuối cùng, xin gửi lời cảm ơn tới gia đình, GB và bạn bè nguồn động viên tinhthần to lớn với tôi, luôn cổ vũ và tin tưởng tôi.

Nguyễn Thu Trang

iii

Mục lục

MỞ ĐẦU 1

1 Xếp hạng đối tượng 2

1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Phương pháp PageRank . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 Xếp hạng đối tượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.4 Phương pháp đánh giá xếp hạng . . . . . . . . . . . . . . . . . . . . . 6

1.5 Tổng kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Học xếp hạng 9

2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 Phương pháp học xếp hạng . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.1 Hồi quy có thứ tự và Pairwise . . . . . . . . . . . . . . . . . . 11

2.2.2 Học xếp hạng danh sách Listwise . . . . . . . . . . . . . . . . 13

2.3 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3 Xếp hạng trong máy tìm kiếm thực thể 16

3.1 Máy tìm kiếm thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . 17

iv

MỤC LỤC v

3.2 Xếp hạng thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2.1 Mô hình Impression . . . . . . . . . . . . . . . . . . . . . . . . 22

3.2.2 Nhận xét, đánh giá mô hình Impression . . . . . . . . . . . . . 27

3.2.3 Mô hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.3 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.3.1 Công cụ sử dụng . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.3.2 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.3.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 34

3.4 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4 Tạo nhãn cụm tài liệu 37

4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.2 Phương pháp lựa chọn nhãn . . . . . . . . . . . . . . . . . . . . . . . 39

4.3 Học xếp hạng nhãn cụm . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.3.1 Các đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.3.2 Học hàm tính hạng . . . . . . . . . . . . . . . . . . . . . . . . 44

4.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.4.1 Nguồn dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.4.2 Dữ liệu học . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.4.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 47

4.5 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

Kết luận 49

Tài liệu tham khảo 51

A Dữ liệu 59

MỤC LỤC vi

A.1 Dữ liệu tìm kiếm thuốc . . . . . . . . . . . . . . . . . . . . . . . . . . 59

A.2 Cây wiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Danh sách hình vẽ 62

Danh sách bảng 63

Bảng ký hiệu và từ viết tắt

Từ viết tắt Mô tả Trang định nghĩa

IR Information Retrieval 6

SVM Suport Vector Machine 2

LTR Learning To Rank 1

MAP Mean Average Precision 7

OR Ordinal Regression 10

vii

MỞ ĐẦU

Xếp hạng các đối tượng (trang Web, tác giả, chủ đề, trường đại học, công ty...) có ýnghĩa quan trọng trong lĩnh vực khai phá dữ liệu, là trung tâm của nhiều ứng dụng- điển hình là máy tìm kiếm. Các phương pháp tính hạng được nghiên cứu và pháttriển từ rất nhiều năm trước, nhưng khoảng 3 năm trở lại đây, hướng tiếp cận sửdụng phương pháp học máy để xếp hạng đối tượng trở thành một vấn đề thu hútđược rất nhiều sự quan tâm như trong SIGIR 2007 và SIGIR 2008 đã tổ chức hộithảo chuyên đề về học xếp hạng (learning to rank: LTR)[49].

Học xếp hạng đang được nhiều nhà khoa học trên thế giới quan tâm nghiên cứuvà ứng dụng, như cải tiến hàm tính hạng trong máy tìm kiếm của nhóm Yuehua Xutại ICML năm 2007 [59], mô hình tính hạng thực thể trong máy tìm kiếm thực thểcủa nhóm các tác giả Tao Cheng, Kevin Chang trong [17, 18, 19], và sử dụng họcxếp hạng để đánh giá trọng số của các cụm từ [65, 53].

Luận văn Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu thựchiện khảo sát, phân tích các phương pháp học xếp hạng đang được quan tâm hiệnnay và từ đó đưa ra mô hình xếp hạng thực thể áp dụng vào máy tìm kiếm thực thểtrong tiếng Việt, cụ thể là tìm kiếm thực thể thuốc và học xếp hạng để tạo nhãncho cụm tài liệu. Qua đó cho thấy ứng dụng to lớn và ý nghĩa quan trọng của bàitoán học xếp hạng.

Luận văn này gồm bốn chương, nội dung được mô tả như dưới đây.

Chương 1. Tổng quan về xếp hạng đối tượng giới thiệu những nội dung cơ bảnnhất về bài toán xếp hạng và đặt vấn đề học xếp hạng đối tượng.

1

MỞ ĐẦU 2

Chương 2. Học xếp hạng đối tượng trình bày hai phương pháp học xếp hạng cơbản. Đồng thời, chương này cũng giới thiệu thuật toán học được sử dụng nhiềutrong học xếp hạng là máy véc-tơ hỗ trợ (SVM) và hồi quy tuyến tính.

Chương 3. Học xếp hạng trong máy tìm kiếm thực thể đưa ra mô hình học xếphạng đối tượng và thực nghiệm tính hạng thực thể thuốc trong máy tìm kiếmthực thể.

Chương 4. Gán nhãn cụm tài liệu phân tích, áp dụng và báo cáo kết quả thựcnghiệm học xếp hạng từ/cụm từ để tạo nhãn cho các cụm tài liệu.

Phần kết luận tổng kết và tóm lược nội dung chính của luận văn.

C h ư ơ n g 1

Xếp hạng đối tượng

1.1 Giới thiệu

Trong nhiều ứng dụng cần xếp hạng các đối tượng theo tiêu chí nào đó, đơn giảnnhư việc xếp hạng học sinh trong một lớp theo điểm trung bình, hay xếp hạng cáctrường đại học,.. và đặc biệt là việc xếp hạng các kết quả trả về của máy tìm kiếm.Xếp hạng đối tượng là việc sắp xếp các đối tượng theo độ phù hợp với tiêu chí tùyvào từng ứng dụng cụ thể. Do đó cần xác định hàm tính giá trị về độ phù hợp đểsắp xếp của các đối tượng theo tiêu chí đã đặt ra, và hàm đó được gọi là hàm tínhhạng (ranking function: RF). Mỗi khi nói tới xếp hạng đối tượng chúng ta quan tâmtới hàm tính hạng.

Một điển hình của bài toán xếp hạng là việc xếp hạng các kết quả trả về củamáy tìm kiếm. Trong máy tìm kiếm thông thường (như Google, Yahoo) độ quantrọng hay còn gọi hạng trang là đại lượng cơ sở để xếp hạng. Giá trị này được xácđịnh dựa vào việc phân tích đồ thị liên kết giữa các trang web. Với tập các tài liệuD = d1, ..dn, khi có truy vấn q của người dùng máy tìm kiếm cần tìm những tài liệu

2

CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 3

trong D phù hợp với truy vấn q, và sau đó sắp xếp các tài liệu theo độ phù hợp vớitruy vấn và độ quan trọng giảm dần. Đó là quá trình xếp hạng và hàm tính hạnglà hàm kết hợp của giá trị độ tương tự giữa tài liệu với truy vấn similarity(q, di)

và hạng trang thành chỉ số xếp hạng được Arvind Arasu và các tác giả đề cập tớitrong [6]. Việc xác định hàm tính hạng đóng vai trò quan trọng và quyết định đốivới chất lượng của máy tìm kiếm.

Từ những năm 98, Cohen [21] đã đưa ra nhận định rằng có nhiều ứng dụng cầnsắp xếp các đối tượng hơn là cần phân lớp chúng. Mọi ứng dụng mà kết quả trả vềcho người dùng là một danh sách các đối tượng cần được sắp xếp, xếp hạng giúpngười dùng nhanh chóng tiếp cận với kết quả gần với yêu cầu của mình nhất có thể.Thực tế chúng ta gặp rất nhiều các bảng xếp hạng như ví dụ ở trên. Điều đó chothấy, xếp hạng là một bài toán quan trọng và có ý nghĩa.

Tuy nhiên khái niệm xếp hạng (ranking) ra đời ban đầu với định hướng xếphạng các đối tượng trên Web - cụ thể là các trang web. Các trang web cần được sắpxếp theo độ quan trọng giảm dần. Giá trị độ quan trọng đó gọi là hạng trang vàPageRank [43] là phương pháp tính hạng đầu tiên, tính hạng trang các trang webdựa vào phân tích mối liên kết giữa các trang web trong đồ thị Web.

1.2 Phương pháp PageRank

Page và các đồng tác giả [43] đã đưa ra ý tưởng: độ quan trọng của một trangchịu ảnh hưởng của độ quan trọng từ các trang liên kết đến nó. Và công thức tínhPageRank cho một trang u, gọi là πu được tính như sau:

πu =∑

i∈BI (i)

πi

Ni

(1.1)

Với BI(i) là tập hợp các trang có liên kết đến trang i

và Ni là số trang liên kết ra từ trang i.

Biểu diễn đồ thị Web bởi ma trận chuyển P , khi đó phương trình 1.1 được viếtlại dưới dạng ma trận:

π = πP (1.2)


Trong đó: π = (π1, π2, . . . πn) là véc-tơ hạng các trang web, với thành phần πi làhạng của trang i.

Từ 1.2 cho thấy véc-tơ hạng trang π chính là véc-tơ riêng của ma trận chuyểnP tương ứng với giá trị riêng λ = 1.

Do tính chất của chuỗi Markov, để tính véc-tơ riêng của P thuật toán giả thiếtrằng đồ thị trang web là liên thông, tức với cặp hai trang web i, j bất kì luôn cóđường đi từ i tới j và ngược lại. Tuy nhiên thực tế trên World Wide Web (WWW)vẫn tồn tại không ít các trang web không có liên kết đến hoặc liên kết ra nên việcgiả thiết đồ thị Web liên thông là không hợp lý. Và trong ma trận P vẫn tồn tạihàng chỉ toàn số 0, nên không tồn tại một phân phối xác suất dừng ổn định của P

hay chính là véc-tơ hạng trang. Vì vậy cần phải biến đổi ma trận P thành P ′ saocho phù hợp.

Định nghĩa véc-tơ v, được chuẩn hóa ‖v‖ = 1, xác định xác suất phân phối vớivi là xác suất trang web i được gọi đến ở lần duyệt web đầu tiên. véc-tơ v có vai tròtrong việc hướng kết quả PageRank theo chủ đề, lĩnh vực mong muốn. Khi khôngxét đến ngữ cảnh đó có thể chọn vi = 1

nvới ∀i = 1, 2..n .

Gọi d là véc-tơ n× 1 xác định các trang không có liên kết ra (dangling nút trênđồ thị Web):

di =

{1 nếu N(i) = 0

0 ngược lại

Ma trận P ′ được xác định:P ′ = P + dv (1.3)

Khi thay đổi ma trận P như vậy tức thêm các liên kết ảo từ các dangling nút tớitất cả các nút khác trong đồ thị Web theo phân phối xác suất v. Điều đó giúp tránhviệc khi duyệt các trang không có liên kết ra sẽ không duyệt tiếp được.

Để đảm bảo phân phối dừng ổn định (duy nhất), chuỗi Markov tương ứng vớiquá trình duyệt Web của người dùng cần có tính chất ergodic, tức từ một trangweb người dùng có thể chuyển tới một trang bất kì khác. Do vậy ma trận MarkovP được xác định như sau:

P = αP ′ +(1 − α)

J(1.4)


Với: J = [1]n×1 v và α: là hệ số hãm

α thường được chọn giá trị 0.85, với ý nghĩa tại mỗi bước duyệt Web người dùngcó thể chuyển tới một trang trong các liên kết ra từ trang hiện tại với xác suất α vàchuyển tới các trang khác trong đồ thị Web với xác suất (1 − α) theo phân phối v.

Khi đó, thay vì tính vector riêng của ma trận P ta tính vector riêng π của matrận P : π = πP .

Theo tính chất của chuỗi Markov, tổng các thành phần của véc-tơ π bằng 1:∑n

i=1 πi = 1

Vậy véc-tơ hạng trang chính là véc-tơ riêng của ma trận P .

1.3 Xếp hạng đối tượng

Hạng trang PageRank là độ đo đầu tiên để xếp hạng các trang web. Và vì vậy, cóthể coi hạng trang là hàm xếp hạng các đối tượng - cụ thể đối tượng trong trườnghợp này là các trang web. Và ngày càng có nhiều các nghiên cứu về xếp hạng khôngchỉ là các trang web như xếp hạng các trường đại học [4, 3, 55], xếp hạng các nhàkhoa học, bài báo [48]...

Với những xếp hạng đơn giản như xếp hạng học sinh theo điểm trung bình, xếphạng các doanh nghiệp theo doanh thu năm...có một tiêu chí xếp hạng rõ ràng vàhàm tính hạng "dễ dàng" xác định. Tuy nhiên trong nhiều ứng dụng như xếp hạngcác trường đại học, xếp hạng các nhà khoa học, xếp hạng các kết quả trả về củamáy tìm kiếm,...mỗi loại đối tượng cần xếp hạng có nhiều đặc trưng khác nhau,cần tìm ra mối quan hệ về độ quan trọng của các đặc trưng đó. Và từ đó kết hợpcác đặc trưng thành một hàm gọi l hàm tính hạng để xếp hạng các đối tượng. Đốitượng có giá trị hạng càng cao thì có thứ hạng càng cao (thứ hạng cao nhất là 1,và lần lượt giảm dần 2, 3 ..)

Ví dụ, vấn đề xếp hạng các trường đại học đang nhận được nhiều sự quan tâm.Webometric [55, 4] là một phương pháp xếp hạng trường đại học dựa vào các thôngtin trên web với có 4 chỉ số đặc trưng được xác định. Hàm xếp hạng các trường là


một hàm tuyến tính của 4 chỉ số đó và Webometric cũng đưa ra hệ số cụ thể chotừng chỉ số. Việc xếp hạng các trường đại với độ đo Webometric vẫn đang được cácnhà khoa học quan tâm nghiên cứu [55, 4] với các nghiên cứu về các chỉ số và xácđịnh hàm xếp hạng.

Học xếp hạng được Joachims [36, 49] đánh giá là lĩnh vực nổi lên với sự pháttriển lớn mạnh trong các nghiên cứu về truy tìm thông tin (information retrieval)vàhọc máy (machine learning). Nói một cách khác, học hàm tính hạng hiện đang làvấn đề được quan tâm trong lĩnh vực học máy và có nhiều ứng dụng trong truy tìmthông tin, theo [61]. Học xếp hạng là học hàm của các đặc trưng để sắp xếp các đốitượng theo độ phù hợp, ưu tiên hay độ quan trọng...tùy vào từng ứng dụng cụ thể.Hiện nay nghiên cứu các phương pháp học tính hạng đang được nhiều nhà khoa họctrên thế giới quan tâm [8, 12, 16, 26, 37, 44, 46, 45, 50], có nhiều phương pháp họcxếp hạng được đưa ra như RankSVM [34], SVM-MAP [62]..

Chương sau sẽ giới thiệu cụ thể các phương pháp học xếp hạng hiện nay.

1.4 Phương pháp đánh giá xếp hạng

Để đánh giá chất lượng một xếp hạng, các độ đo thông dụng trong học máy như độchính xác (precision), độ hồi tưởng (recall), độ đo F không sử dụng. Xếp hạng yêucầu các đối tượng "đúng" (phù hợp tiêu chí) cần được xếp ở các vị trí đầu tiên củabảng xếp hạng càng tốt.

Giả sử 6 đối tượng tương ứng là: a, b, c, d, e

Trong đó a, b, c là các đối tượng phù hợp và d, e là các đối tượng không phùhợp.

Một xếp hạng của các đối tượng cần đánh giá là: c, a, d, b, e.

Các độ đo về độ chính xác của xếp hạng thường được sử dụng:


Độ chính xác mức K: P@K

Độ chính xác xếp hạng ở mức K - Precision@K (P@K): độ chính xác của K đốitượng đầu bảng xếp hạng. Xác định số đối tượng đúng ở K vị trí đầu tiên của xếphạng và gọi là Match@K, và độ chính xác mức K:

P@K =Match@K

K

Với ví dụ trên ta có: P@3 = 2/3 ; P@4 = 3/4; P@5 = 3/5;

Độ chính xác trung bình: MAP

Độ chính xác trung bình là giá trị trung bình của các P@K tại các mức K có đốitượng đúng. Gọi I(K) là hàm xác định đối tượng ở vị trí hạng K nếu đúng I(K) =1và ngược lại I(K) = 0. Độ chính xác trung bình:

AP =

∑n

K=1 P@K × I(K)∑n

j=1 I(j)

Với n là số đối tượng được xét.

Giá trị trung bình trên m xếp hạng (với bài toán tìm kiếm thì đó là giá trị trungbình của AP trên các truy vấn):

MAP =

∑m

i=1 APi

m

Ví dụ trên có:MAP =

1

3.(

1

1+

2

2+

3

4)

Trung bình nghịch đảo thứ hạng: MRR

Xác định vị trí hạng của đối tượng đúng đầu tiên trong bảng xếp hạng: r, khi đónghịch đảo hạng: RR = 1/r. Với ví dụ trên, ta có RR = 1/1.

Trung bình nghịch đảo thứ hạng là giá trị trung bình nghịch đảo thứ hạng RR

của tất cả các truy vấn/hay xếp hạng đang xét.

MRR =

∑m

i=1 RRi

m


Một số độ đo khác

Các độ đo ít được sử dụng hơn như:

• Số đối tượng đúng ở mức K: Match@K.

• Trung bình tổng nghịch đảo thứ hạng của các đối tượng đúng (MTRR): Vớigiá trị tổng nghịch đảo được xác định:

TRR =n∑

i=1

(1

i× I(i))

Trong ví dụ ta có TRR = 1/1 + 1/2

1.5 Tổng kết

Xếp hạng là một bài toán phổ biến, có ý nghĩa quan trọng và có nhiều ứng dụngtrong thực tế. Vấn đề học xếp hạng là vấn đề thời sự đang nhận được nhiều sự quantâm của các nhà khoa học. Hướng tiếp cận bài toán học xếp hạng đã được giới thiệutrong chương này, các chương sau tiếp tục làm rõ hơn về bài toán học xếp hạng vàứng dụng.

C h ư ơ n g 2

Học xếp hạng

2.1 Giới thiệu

Các nghiên cứu về học xếp hạng chủ yếu tập trung vào ứng dụng xếp hạng các tàiliệu trả về từ máy tìm kiếm dựa theo truy vấn. Có tập các tài liệu D = {d1, d2, ..., dn}

và với truy vấn q, cần xác định hàm xếp hạng r để sắp xếp các tài liệu D theo độphù hợp với truy vấn.

Tổng quát bài toán xếp hạng đối tượng nói chung, ta có: tập X ⊂ Rn của cácđối tượng x = (x1, .., xn) ∈ Rn, với n là số đặc trưng của mỗi đối tượng. Cần tìmhàm h(x) : X → R để sắp xếp các đối tượng x theo độ phù hợp.

Dữ liệu học S là xếp hạng đúng của một tập các đối tượng X ′ ⊂ X được đưara để học hàm h(x). Tùy từng ứng dụng mà người dùng có các mức yêu cầu khácnhau về sắp xếp thứ hạng đúng và có các kiểu dữ liệu học:

1. Xác định giá trị độ phù hợp y cụ thể của từng đối tượng trong S. Do trongứng dụng xếp hạng, người dùng quan tâm nhiều tới thứ tự thay vì giá trị xếp

9

CHƯƠNG 2. HỌC XẾP HẠNG 10

hạng (độ phù hợp) nên y thường được xác định:

• Hai giá trị tương ứng xếp hạng phù hợp (releval) và không phù hợp(inreleval). Người dùng chỉ quan tâm các đối tượng có phù hợp tiêu chíđặt ra hay không (2 hạng).

• N giá trị xác định tương ứng N hạng nhất định, ví dụ: rất phù hợp, phùhợp, có thể phù hợp, không phù hợp.

2. Đưa ra các so sánh độ phù hợp của từng cặp đối tượng.

3. Danh sách sắp thứ tự đúng của "tất cả" các đối tượng theo độ phù hợp.

Với mỗi kiểu dữ liệu trên, xác định các kiểu ràng buộc xếp hạng khác nhau và cócác phương pháp học xếp hạng tương ứng. Các phương pháp học xếp hạng theoSoumen Chakrabarti [14] và Tie-Yan Liu [40]:

Hồi quy (Regression): Có S = {(xi, yi)} mỗi đối tượng xi xác định giá trị yi

tương ứng về độ phù hợp. Học hàm h(x) thỏa mãn:

h(xi) = yi với ∀x ∈ X ′

Trong học xếp hạng, khi giá trị yi xác định thứ hạng của đối tượng xi thìphương pháp gọi là hồi quy có thứ tự (Ordinal Regression).

Cặp thứ tự (Pairwise): Có S = {(xi, xj)} là tập các cặp đối tượng được sắp thứtự, với mỗi cặp (xi, xj) có nghĩa xi có thứ hạng cao hơn xj (xi phù hợp hơnxj : xi � xj). Tìm h(x):

∀(xi, xj) ∈ S có xi � xj thì h(xi) > h(xj)

Danh sách sắp xếp (Listwise): Một thứ tự sắp xếp của tất cả các đối tượngđược xác định [62]. Tuy nhiên trong nhiều ứng dụng (ví dụ máy tìm kiếm),việc sắp thứ tự của tất cả các đối tượng là không khả thi, thì một xếp hạngcủa K đối tượng đầu tiên được xác định, và tất cả các đối tượng khác đều cóhạng thấp hơn [12]

Có S = {x1, x2, ..., xm} với xi ∈ X ′ là một sắp thứ tự (x1 � x2 � ... � xm)

tìm hàm h(x) sao cho: h(x1) > h(x2) > ... > h(xm)


2.2 Phương pháp học xếp hạng

2.2.1 Hồi quy có thứ tự và Pairwise

Học xếp hạng với phương pháp hồi quy có thứ tự: tập dữ dữ liệu học S = {(xi, yi)}li=1với

yi ∈ 1, 2, ...R là một tập sắp thứ tự, cần học hàm h(x) thỏa mãn:

Với mọi cặp (xi, yi) và (xj , yj) thuộc S thì yi > yj ⇔ h(xi) > h(xj)

Gọi P là tập hợp tất cả các cặp (i, j) mà thứ hạng của xi cao hơn của xj (xi � xj)trong S: P = {(i, j) : yi > yj} và |P | = m. Do vậy có thể phát biểu lại bài toán: cócác cặp so sánh thứ tự S ′ = {(xi, xj)

∣∣xi � xj}, tìm h(x) thỏa mãn:

∀(xi, xj) ∈ S ′ có xi � xj thì h(xi) > h(xj)

Như vậy, từ bài toán hồi quy có thứ tự đã được chuyển về bài toán Pairwise. Vídụ có tập sắp thứ tự S = {(d1, 2), (d2, 1), (d3, 1)} khi đó có các cặp so sánh thứ tựS ′ = {(d2, d1), (d3, d1)}. Với ví dụ này có d2 và d3 không xác định thứ tự so sánh(cùng thứ hạng trong S).

Để giải quyết bài toán Pairwise, vấn đề xếp hạng (ranking) được đưa về bài toánphân lớp cho từng cặp đối tượng [40, 66, 34, 9, 30, 33, 22]. Giá trị của hàm phânlớp là giá trị xếp hạng đối tượng. Hàm tính hạng h : X → R

h(x) = wTx

SVM[33] (Support Vector Machine - máy véc-tơ hỗ trợ) là phương pháp học máyhọc bộ phân lớp nhị phân (chia các đối tượng thành hai lớp). Tư tưởng chính củaSVM là xác định biên (siêu phẳng) chia không gian các đối tượng thành hai nửa vàtìm siêu phẳng tốt nhất (tối ưu) mà khoảng cách từ siêu phẳng tới đối tượng gầnnhất trong cả 2 tập phân chia là lớn nhất.

Với dữ liệu có thể phân tách tuyến tính, siêu phẳng có dạng wT x + b = 0. Dễdàng nhận thấy mối liên hệ giữa hàm tính hạng h(x) và siêu phẳng. Do vậy vớiphương pháp SVM tìm được siêu phẳng ta suy ra hàm tính hạng h(x).


Để xác định siêu phẳng tối ưu, Joachims [33] đưa ra công thức tối ưu:

minw,ξi≥0

(1

2wTw +

C

n

n∑

i=1

ξi

)

Với ∀i ∈ {1, ..., n} : yi.(wT xi) ≥ 1 − ξij.

Trong đó ξi là hệ số nới lỏng được mô tả như trong hình 2.2.

Herbrich [30] đã dựa vào công thức tối ưu trên của Joachims để đưa ra tối ưutương tự trong hồi quy có thứ tự gọi là ordinal regression SVM (OR-SVM):

minw,ξi,j≥0

(1

2wTw +

C

m

∑

(i,j)∈P

ξij

)

Với ∀(i, j) ∈ P : (wT xi) ≥ (wTxj) + 1 − ξij

Thuật toán SVM với tối ưu này tìm hàm h(x) tuyến tính, siêu phẳng tốt nhấtmà làm cực tiểu số cặp đối tượng x phải hoán đổi vị trí trong sắp xếp được dùngbởi siêu phẳng. Mô tả ý tưởng như hình 2.1.

Viết lại ràng buộc của công thức tối ưu trên ta có:

với ∀(i, j) ∈ P : wT (xi − xj) ≥ 1 − ξij

Công thức tương tự với công thức của ràng buộc trong tối ưu phân lớp SVM [33].Do vậy mọi biến đổi tối ưu trên phân lớp SVM đều có thể được thực hiện đối vớihồi quy có thứ tự như các biến đổi của Joachims [34].

Vậy hồi quy có thứ tự đã được đưa về bài toán học phân lớp nhị phân, sử dụngphân lớp SVM để học được mô hình tham số w cho hồi quy tuyến tính, được gọi làphương pháp RankSVM.

Wei Chu và S. Sathiya Keerthi [20] năm 2005 cũng đưa ra phương pháp học hồiquy có thứ tự dựa vào SVM với việc xác định các ngưỡng phân chia thứ hạng: Vớir thứ hạng trong S cần tối ưu (r − 1) ngưỡng để phân các đối tượng vào từng lớp,mô tả trong hình 2.2.

Ngoài ra, các phương pháp trong [11, 35] cũng dựa vào tối ưu của SVM tươngtự như trên.

Công cụ SV M light do Joachims [34] cung cấp đã cho người dùng lựa chọn họcxếp hạng đối tượng dựa vào phương pháp này.


Hình 2.1: Xếp hạng với SVM [34]

b2

b1

y=1 y=2 y=3

b2-1 b

2+1b

1-1 b

1+1

ξ i*1+1

ξ i2

ξ i*2+1

ξ i1

f(x) = w φ(x).

Hình 2.2: Xác định ngưỡng phân thứ hạng [20]

2.2.2 Học xếp hạng danh sách Listwise

Với các ứng dụng xếp hạng, như xếp hạng các trang web trả về cho người dùngtrong máy tìm kiếm, người dùng nhận được danh sách các kết quả được sắp xếptheo thứ tự độ phù hợp giảm dần thay vì so sánh thứ hạng của mỗi cặp kết quả.

Xét ví dụ các đối tượng được xếp thành 3 thứ hạng (p: rất tốt, g: tốt và b: khôngtốt), khi đó giả sử có 5 đối tượng được xếp hạng lần lượt: (p, g, g, b, b). Có haidanh sách xếp hạng được đưa ra như sau: (g, p, g, b, b) và (p, g, b, g, b).


Hai xếp hạng trên đều chỉ xếp hạng sai một cặp đối tượng, nhưng có thể thấyviệc xếp sai g,p là lỗi lớn hơn so với xếp sai b,g. Đây chính là điểm yếu của phươngpháp Pairwise. Do chỉ xét từng cặp đối tượng để so sánh nên phương pháp Pairwisekhông tối ưu các độ đo đánh giá chất lượng xếp hạng ví dụ như MAP, vì vậy khôngphân biệt được sự khác nhau giữa hai xếp hạng trên [40].

Do đó, thay vì chuyển bài toán xếp hạng về bài toán hồi quy và phân lớp, họcxếp hạng từ danh sách sắp thứ hạng đã được các tác giả [62, 12, 10, 50] quan tâm.Với Listwise, dữ liệu học là tập S = {x1, ..., xn} các đối tượng thuộc X với thứ hạngsắp xếp tương ứng Y = {y1, ..., yn}

Phương pháp học xếp hạng trực tiếp từ danh sách xếp hạng do Yisong Yue vàcác đồng tác giả [62] đưa ra sử dụng SVM để tìm tối ưu và ràng buộc về độ đo đánhgiá MAP trên danh sách xếp hạng.

Yisong Yue đã dựa vào tối ưu Multivar [35] của Joachims, công thức:

minw,ξi,j≥01

2wT w +

C

m

N∑

i=1

ξij

Với ràng buộc: ∀i, ∀y ∈ Y có wTΨ(xi, yi) ≥ wTΨ(xi, y) + ∆(yi, y) − ξi

Trong đó Ψ(x, y) là độ đo xác định độ khác biệt giữa các sắp xếp thứ hạng vớisắp thứ hạng đúng. Yisong Yue hướng tối ưu độ đo MAP và xác định:

Ψ(x, y) =∑

i:rel

∑

j:!rel

yij.(xi − xj)

và ∆(y, y′) = 1 − MAP (y′)

Với MAP (y′) là độ chính xác trung bình của xếp hạng y′.

(i : rel) có nghĩa thứ hạng i được xếp đúng và (j :!rel) là thứ hạng j xếp sai.

yij = 1 nếu xi có thứ hạng cao hơn xj và ngược lại yij = −1 nếu xi có thứ hạngthấp hơn xj .

Khi số lượng đối tượng được xếp hạng tăng thì số ràng buộc cũng tăng nhanh,do vậy Yisong Yue và các đồng tác giả đưa ra phương pháp học từng bước. Mỗibước, xác định ràng buộc mà bị vi phạm lớn nhất (lỗi nhất) trong tập các ràng buộc


và tìm tối ưu thỏa mãn ràng buộc đó. Và quá trình tối ưu trên từng ràng buộc nhưvậy được lặp đi lặp lại tới khi không tìm được ràng buộc bị vi phạm.

Đó là học xếp hạng Listwise với tối ưu MAP, ngoài ra có các phương pháp với cáctối ưu khác như các phương pháp AdaRank [58], SoftRank [50], ListNet [12],... Vớikết quả do Yisong Yue đưa ra và qua phân tích các kết quả công bố trên LETOR∗

(một dự án về học xếp hạng), phương pháp SVM-MAP có chất lượng cao (so vớicác phương pháp đã công bố kết quả của cùng dữ liệu của LETOR).

2.3 Tổng kết chương

Chương này đã giới thiệu chung về các phương pháp học xếp hạng hiện nay và haiphương pháp học xếp hạng SVM-MAP, RankSVM được đề cập. Đó là hai phươngpháp được áp dụng vào hai ứng dụng học xếp hạng được trình bày ở chương sau.

∗http://research.microsoft.com/en-us/um/beijing/projects/letor/

C h ư ơ n g 3

Xếp hạng trong máy tìm kiếmthực thể

Các máy tìm kiếm thông dụng hiện nay như Google, Yahoo, MSN, truy vấn ngườidùng đưa vào là tập các từ khóa và kết quả trả về là danh sách các địa chỉ tới cáctrang web. Do vậy để nhận được thông tin mong muốn, người dùng phải duyệt quatừng địa chỉ web đó, và có thể phải duyệt qua nhiều trang không có thông tin mongmuốn.

Với sự phát triển của các kỹ thuật rút trích thông tin (Information Extraction-IE) cụ thể là rút trích các thực thể, hướng phát triển máy tìm kiếm thực thể đãđược Kevin Chang và các cộng sự [17, 18, 19] nghiên cứu, xây dựng. Truy vấn củangười dùng trên máy tìm kiếm thực thể không đơn thuần là các từ khóa mà ngườidùng xác định rõ hơn về loại đối tượng dữ liệu đang muốn tìm và ngữ cảnh tìmkiếm. Kết quả trả về cho người dùng thay vì chỉ là các địa chỉ web, người dùng cònnhận được các thông tin cụ thể về đối tượng mình mong muốn tìm kiếm. Cũng nhưvới máy tìm kiếm thông thường xếp hạng là vấn đề quan trọng, xếp hạng thực thể

16

CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 17

là cốt lõi và quan trọng của máy tìm kiếm thực thể.

Không chỉ các tác giả T.Cheng, X.Yan, K.Chang [17, 18, 19] mà xếp hạng thựcthể thu hút được sự quan tâm của nhiều nhà khoa học với các nghiên cứu xếp hạngthực thể trên các trang web của wikipedia∗ [51, 23, 68, 24, 54, 64]. Đặc điểm dữ liệuwiki là các trang web đều được xác định chủ đề/thể loại (category) và trong mỗitrang có các khái niệm (concept) được đánh dấu (tag) hay tạo liên kết tới các trangmô tả khái niệm đó. Do vậy, với cấu trúc web giàu ngữ nghĩa đó, việc xếp hạng cácthực thể trên wikipedia thường dựa trên các liên kết giữa các thực thể (hay các kháiniệm), liên kết giữa các trang web, độ tương đồng ngữ nghĩa giữa các khái niệm nhưđược đề cập trong [23]. Song song với các nghiên cứu đó là các nghiên cứu xếp hạngthực thể dựa trên việc xây dựng đồ thị quan hệ giữa các thực thể, mạng xã hội cácthực thể trên web [47, 15, 13, 2, 7].

Qua phân tích các nghiên cứu [51, 23, 24, 54, 47, 13, 15, 17, 18, 19], với địnhhướng xây dựng hệ tìm kiếm thực thể trên web nói chung, việc xếp hạng trong tìmkiếm thực thể của nhóm T.Cheng, X.Yan và K.Cheng được quan tâm và phân tích.

3.1 Máy tìm kiếm thực thể

Người dùng thường tìm kiếm thông tin về đối tượng nào đó, ví dụ như khi sử dụngtruy vấn "thuốc chống viêm", người dùng muốn tìm các thực thể thuốc mà có tácdụng chống viêm. Và các máy tìm kiếm hiện nay (như Google, Yahoo, MSN) bằngcách so sánh văn bản (text) trên từng trang web với truy vấn và trả về cho ngườidùng địa chỉ các trang mà có chứa từ khóa trong truy vấn. Do vậy người dùng khôngtrực tiếp nhận được thông tin mong muốn mà phải duyệt qua nội dung các trangweb trả về đó và không chắc chắn có được thông tin mong muốn ở những kết quảđầu tiên. Đó là nhược điểm của các máy tìm kiếm này, không hiểu mục đích tìmkiếm của người dùng, và tìm kiếm trên các trang web độc lập chỉ dựa vào từ khóa.

Theo [17] máy tìm kiếm thực thể hướng người dùng tốt hơn, cho phép chỉ ra trongtruy vấn đối tượng mà người dùng muốn tìm. Và kết quả trả về của máy tìm kiếm là

∗http://wikipedia.org


các thực thể của đối tượng cần tìm, mỗi thực thể được xác định không chỉ xét trênmột trang độc lập mà có thể được tổng hợp qua nhiều trang web. Ví dụ máy tìmkiếm thực thể của dự án WISDM∗ của nhóm T.Cheng, X.Yan và K.Chang. Với truyvấn thông thường q = "phone number of New York Department of Motor Vehices"

tức người dùng đang cần tìm điện thoại của văn phòng của "Motor Vehices" ở "NewYork". Khi đó truy vấn của người dùng tương ứng trong máy tìm kiếm thực thểWISDM là q = "New York DMV #phone", chỉ rõ đối tượng muốn tìm "phone" vàngữ cảnh xuất hiện của đối tượng "New York DMV". Kết quả trả về của máy tìmkiếm là các số điện thoại, và với mỗi số điện thoại có danh sách các địa chỉ webtương ứng chứa thông tin điện thoại đó như bảng 3.1.

Bảng 3.1: Ví dụ kết quả trả về của truy vấn q

phone urls1-800-225-5368 http://www.dmv-department-of-motor-vehicles.com,

https://www.nysdot.gov/about-nysdot/contact,http://nysparks.state.ny.us/snow/contact.asp

... ...

Sơ đồ hình 3.2 cho thấy sự khác biệt cơ bản giữa máy tìm kiếm thông thường vớimáy tìm kiếm thực thể. Máy tìm kiếm thực thể đã xem không gian web không chỉlà tập các trang web với các từ khóa như máy tìm kiếm thông thường mà còn là tậpcác đối tượng hay các kiểu thực thể E = E1, E2, ..., En như hình 3.1. Mỗi đối tượngEi có các thực thể ei tương ứng được trích ra từ các trang web, ví dụ đối tượngthuốc #drug có các thực thể {"Diclofenac", "Steroid", "Chloramphenicol",...}. Khiđó ngoài chỉ mục (index) từ, máy tìm kiếm còn có chỉ mục cho thực thể. Bài toántìm kiếm thực thể được phát biểu [18]:

• Giả thiết: Có tập các tài liệu D = {d1, ..., dn} và các kiểu thực thể E =

{E1, ..., EN}

• Input: Truy vấn q = α(E1, ..., Em, k1, ..., kl) là một hàm của các kiểu thực thểvà các từ khóa thể hiện yêu cầu của người dùng tìm kiếm các loại thực thể

∗http://parrot.cs.uiuc.edu/entitysearch/large-demo.html


Hình 3.1: Đồ thị web với khung nhìn thực thể [18]

Tìm kiếm truyền thống Tìm kiếm thực thể

Các từ khóa Thực thể

Kết quảKết quả

Hình 3.2: Mô hình tìm kiếm truyền thống và tìm kiếm thực thể [56]

E1, ..., Em với ngữ cảnh các từ khóa k1, ..., kl.

• Output: Danh sách đã xếp hạng của các bộ t = (e1, ..., em).

Tao Cheng, X.Yan và Kevin C.C Chang tại SIGMOD’07 [19] đã đưa ra kiến trúc cơbản của hệ thống tìm kiếm thực thể hình 3.3. Hệ thống được chia thành hai phần:một phần xử lý ngoại tuyến (offline) gồm rút trích thực thể (Entity extraction) và


Global Query Processing

Ranking Model

Keyword&Entity Indexer

entityquery

results, scores

Entity Extractor

Local Query

Local Index Local Index…

Processing

Local Query

Processing…

Aggregation

Local Index

Local Query

Processing

Sort Merge Join

, 05, 71,, 21 62 ddamazon �

,...8 . 0 ,123,, 32# 6dphone �......

Hình 3.3: Kiến trúc hệ thống[19]

đánh chỉ mục (indexing) (khối được bao nét đứt), và phần xử lý trực tuyến (online)đó là xếp hạng thực thể (khối bao nét liền Ranking Model).

Entity Extraction thực hiện việc rút trích các thực thể từ các trang tài liệu đượclấy về.

Indexing tạo chỉ mục và chỉ mục ngược của các thực thể được trả về từ mô-dulrút trích trên.

Ranking xếp hạng các thực thể, với hai bước chính: cục bộ (locally), và toàn cục


(globally). Như kiến trúc được đề cập ở phần trên do T.Cheng, X.Yan vàK.Chang [19] đưa ra, modul xếp hạng gồm có hai thành phần chính: xử lýtruy vấn cục bộ (local) và xử lý truy vấn toàn cục (global).

1. Xử lý cục bộ: Từ chỉ mục ngược của tất cả các thực thể thuộc kiểu Ei

và từ khóa kj, modul thực hiện phép nối trên tài liệu để tìm các tài liệuchứa các thực thể thuộc Ei, và các từ khóa kj thỏa mãn hàm α. Trọng sốcục bộ (local score) được xác định dựa vào độ tin cậy của thực thể đượcrút trích và mối quan hệ ngữ cảnh giữa các thực thể đó với các từ khóatrong từng tài liệu.

2. Xử lý toàn cục: Module thực hiện nhận truy vấn người dùng, gửi truyvấn cho modul xử lý cục bộ, sau đó đợi kết quả trả về từ modul xử lý cụcbộ. Sau khi nhận được tất cả các trọng số cục bộ, modul tiến hành tổnghợp trọng số cho từng bộ thực thể t, kết hợp trọng số cục bộ với trọngsố xác định cho t trên toàn tập tài liệu để có giá trị Score cuối cùng choxếp hạng.

Trong giới hạn của luận văn này, tôi tập trung phân tích thành phần xếp hạng.Vấn đề xếp hạng thực thể được phân tích ở phần tiếp sau và mô hình áp dụng vàobài toán xếp hạng thực thể thuốc được đề cập.

3.2 Xếp hạng thực thể

Máy tìm kiếm thực thể trả về cho người dùng kết quả là danh sách các thực thể.Không chỉ tìm được thực thể mà vấn đề của máy tìm kiếm là những thực thể phùhợp nhất với truy vấn cần được đưa lên từ những kết quả đầu tiên trả về cho ngườidùng. Do đó xếp hạng thực thể là vấn đề quan trọng, cốt lõi của máy tìm kiếm thựcthể.

Giả thiết có tập tài liệu D = {d1, d2, ..., dn}, tập các kiểu thực thể E = {E1, ..., EN},truy vấn q = α(E1, ..., Em, k1, ..., kl) với kj là các từ khóa, và bộ các thực thểt = (e1, ..., em). Khi đó độ phù hợp của t đối với truy vấn q trên tập tài liệu D được


xác định bởi:Score(q(t)) = p(q(t)|D) =

∑

d∈D

p(d) × p(q(t)|d) (3.1)

Với p(q(t)|d) là xác suất xảy ra quan hệ α của t trên tài liệu d.

Giá trị của Score(q(t)) được dùng để xếp hạng các bộ kết quả trả về, do đó việcxác định hàm Score(q(t)) là vấn đề quan trọng chúng ta quan tâm.

Những đặc điểm của tìm kiếm thực thể có ảnh hưởng tới giá trị xếp hạng Score()đã được đưa ra trong [18]:

R-Contextual : Xác suất liên kết giữa thực thể và từ khóa phụ thuộc vào các ngữcảnh khác nhau và ảnh hưởng bởi hai yếu tố chính:

• Pattern: Từ khóa và thực thể có thể liên kết với nhau theo các mẫu, vídụ: tên thường xuất hiện liền trước số điện thoại.

• Proximity: Từ khóa và thực thể có thể xuất hiện nhiều lần trong trangweb và không giống nhau, khi chúng càng gần nhau thì mối quan hệ càngcó ý nghĩa cao hơn.

R-Holistic: Một thực thể có thể xuất hiện cùng với từ khóa nhiều lần trong mộttrang, do đó cần ước lượng tìm liên kết phù hợp nhất

R-Uncertainty: Việc rút trích thực thể không chính xác tuyệt đối, do đó cần cógiá trị độ tin cậy tương ứng cho mỗi thực thể.

R-Associative: Cần phân biệt liên kết giữa từ khóa và thực thể là liên kết mang ýnghĩa thực hay chỉ là sự xuất hiện ngẫu nhiên giữa chúng. Do đó cần có kiểmđịnh để loại bỏ những liên kết ngẫu nhiên.

R-Discriminative: Các thực thể trên các trang phổ biến hơn sẽ được đánh giácao hơn so với trên trang ít phổ biến hơn.

3.2.1 Mô hình Impression

Từ những phân tích về máy tìm kiếm thực thể, nhóm tác giả Tao Cheng[18] đãđưa ra mô hình xếp hạng "Impression Model" hình 3.4. Mô hình gồm 3 tầng: Truy


Global Access Layer

Local Recognition Layer

Global Access Layer

Local Recognition Layer

Validation Layer

Collection E over D Virtual Collection E’ over D’

... ... ... ... ... ...

< amazon customer service, >: ??


... ... ... ... ... ...



... ... ... ... ... ...



randomize

Hình 3.4: Impression model [18]

nhập toàn cục (Global Access), nhận dạng cục bộ (Local Recognition), đánh giá(Validation).

Tầng truy nhập

Để đảm bảo tính "R-Discriminative" của tìm kiếm thực thể, nhiệm vụ của modulnày xác định trọng số toàn cục p(d), là khả năng để một tài liệu d được quan sát,xét tới. Trong ngữ cảnh máy tìm kiếm với các tài liệu web, giá trị này là độ phổbiến của trang web, hay chính là độ quan trọng của trang web - hạng trang. Và dođó tác giả Tao Cheng đã chọn PageRank (PR) [43] để xác định: p(d) = PR[d]. Tacó:

Score(q(t)) =∑

d∈D

PR[d] × p(q(t)|d) (3.2)


DICLOFENAC

Tên gốc: Diclofenac

Tên thương mại: VOLTAREN, CATAFLAM, VOLTAREN-XR

Nhóm thuốc và cơ chế: Diclofenac là một thuốc chống viêm phi steroid

(NSAID) hiệu quả trong điều trị sốt, đau và viêm trong cơ thể. Các NSAID là

những thuốc không gây ngủ giảm các chứng đau từ nhẹ đến vừa do nhiều

nguyên nhân gây ra, như chấn thương, thống kinh, viêm khớp và các chứng

bệnh cơ xương khác. Vì mỗi bệnh nhân có đáp ứng khác nhau với NSAID,

http://www.cimsi.org.vn/Duoc%20pham/Thuoc%20goc/diclofenac.htm

O1O2

. . .

Hình 3.5: Ví dụ rút trích thực thể thuốc

Tầng nhận dạng

Với mỗi tài liệu d được xét ở tầng truy nhập, trọng số cục bộ - xác suất xuất hiệncủa từng bộ thực thể t = (e1, ..., em) với các từ khóa k = {k1, ..., kl} trong tài liệuđó được xác định bởi p(q(t)|d). Gọi γ = (o1, ..., og) là một quan sát (xuất hiện)của q(t) = α(e1, ..., em, k1, ..., kl) trên d (có g = m + l). Ví dụ: trong hình 3.5 vớiE = {#drug}, k ="viêm", q = {"viêm"#drug} thì ta có một quan sát γ = (o1, o2).Trong mỗi tài liệu có thể có nhiều quan sát γ (tính chất R-Holistic) và do đó p(q(t)|d)

cần được ước lượng trên tất cả các quan sát γ đó, [18] đưa ra công thức ước lượng:

p(q(t)|d) = maxγ

p(α(γ)) (3.3)

Với p(α(γ)) là xác suất/khả năng mà một quan sát γ phù hợp với hàm ngữ cảnh α.Tuy nhiên khi được rút trích từ tài liệu d, các quan sát oi biểu diễn một thực thểei là một thể hiện của kiểu Ei và được xác định với một xác suất p(ei ∈ Ei|d) (tínhchất R-Uncertainty). Giá trị này do modul rút trích xác định, và lưu lại trong khiđánh chỉ mục nên có thể được xác định một cách đơn giản bằng ei.conf . Vì vậy, tacó:

p(α(γ)) =∏

ei∈γ

ei.conf × pcontext(α(γ) (3.4)


Thay vào công thức 3.3 suy ra:

p(q(t)|d) = maxγ

(∏

ei∈γ

ei.conf × pcontext(α(γ))

(3.5)

Theo tính chất R-Contextual, độ phù hợp của γ trong ngữ cảnh α phụ thuộc vàohai yếu tố: độ phù hợp mẫu (pattern) gọi là αB và độ gần nhau (proximity) giữathực thể và từ khóa gọi là αP . Do đó ta có:

pcontext(α(γ)) = αB(γ) × αP (γ)

• αB là hàm lô-gic trả về giá trị 0 hoặc 1, cho biết quan sát γ với các oi có thỏamãn ràng buộc về mẫu không. Ví dụ mẫu phrase(o1, ..., om) yêu cầu các oi

phải xuất hiện đúng thứ tự như xác định.

• αP là xác suất quan sát γ phù hợp với t trong cửa sổ quan sát s. Để đơn giản,trong [18] các tác giả đã sử dụng mô hình Span Proximity để ước lượng xácsuất này, và đưa ra công thức: αP (γ) = p(s|γ).

Thay vào công thức 3.5 ta được:

p(q(t)|d) = maxγ

(∏

ei∈γ

ei.conf × αB(γ) × p(s|γ))

(3.6)

Vậy công thức Score(q(t)) được xác định:

Score(q(t)) =∑

d∈D

PR[d] × maxγ

(∏

ei∈γ


(3.7)

Tầng đánh giá

Phía bên phải của mô hình (hình 3.4) gọi là một quan sát ảo, tập dữ liệu D′ đượclấy ngẫu nhiên từ D để làm đối chứng so sánh những nhận định trên D. Tầng đánhgiá kiểm định giả thuyết thống kê, với giả thuyết không H0 (null hypothesis) vàG-test theo [18] để đánh giá độ tin cậy thông tin nhận được từ D.

Giả thuyết không: giả thiết rằng liên kết giữa các thực thể, từ khóa trong t =

(e1, ..., em, k1, ..., kl) xảy ra ngẫu nhiên. Tập D′ được lấy ngẫu nhiên từ tập D, D′


cần "giống" với D ngoại trừ trong D′ liên kết của các từ khóa và các thực thể hoàntoàn là ngẫu nhiên. Xây dựng tập D′ từ D bằng việc tạo các tài liệu d′ ngẫu nhiên:Đưa ngẫu nhiên các thực thể và từ khóa vào d′, mỗi thực thể, từ khóa được đưa vàođộc lập, với xác suất giống như xác suất xuất hiện của chúng trong D. Do đó mốiliên hệ giữa thực thể và từ khóa là ngẫu nhiên, nhưng vẫn đảm bảo xác suất quansát một từ khóa, hay thực thể trong D′ cũng giống như trong D:

p(ei ∈ d′) =∑

ei∈d,d∈D

p(d) ; p(kj ∈ d′) =∑

kj∈d,d∈D

p(d)

Do đặc điểm của D′ trên nên giá trị trung bình của độ tin cậy của tất cả các thựcthể ej trong D cũng là độ tin cậy của các thực thể ej (xác suất ej là Ej) trong D′:ej .conf . Và ta có nếu q(t) không xuất hiện trong d′ thì p(q(t)|d′) = 0, ngược lại nếuq(t) ∈ d′ thì p(q(t)|d′) là như nhau với mọi d′. Do đó:

p(q(t)|D′) =∑

d′∈D′&q(t)∈d′

p(d′) × p(q(t)|d′)

= p(q(t)|d′) ×∑

d′∈D′&q(t)∈d′

p(d′)

= p(q(t)|d′) × p(q(t) ∈ d′) (3.8)

Trong đó p(q(t) ∈ d′) là xác suất của t xuất hiện trong d′. Do từ khóa và các thựcthể được lấy độc lập vào d′ nên xác suất xuất hiện của q(t) trong d′ được tính bởi:

p(q(t) ∈ d′) =

j=1∏

m

p(ej ∈ d′)

l∏

i=1

p(ki ∈ d′)

Tương tự như công thức 3.5, lấy giá trị trung bình ta có:

p(q(t)|d′) = (

m∏

j=1

ej.conf) × pcontext(q(t)|d′)

Trong đó, với q(t) ∈ d′, tương tự công thức tính pcontext(q(t)|d) có:

pcontext(q(t)|d′) = p(q(t)|s)

Từ đó suy ra:

pcontext(q(t)|d′) = p(q(t)|s) =

∑s p(q(t)|s)

|s|


Với |s| là số các giá trị s được xét.

Thay các công thức trên vào 3.8 được:

p(q(t)|D′) =

j=1∏

m

p(ej ∈ d′)l∏

i=1

p(ki ∈ d′)×

× (

m∏

j=1

ej .conf) ×

∑s p(q(t)|s)

|s|(3.9)

Sử dụng kiểm định giả thiết thống kê G-test so sánh quan sát p0 với ngẫu nhiên pr

để kiểm tra quan sát p0 có phải là ngẫu nhiên không:

Score(q(t)) = 2(p0 logp0

pr

+ (1 − po) log1 − p0

1 − pr

) (3.10)

Do p0, pr � 1 nên công thức 3.10 có thể ước lượng:

Score(q(t)) ∝ p0 logp0

pr

Trong đó:

p0 = p(q(t)|D) =∑

d∈D

PR(d) × maxγ

(∏

ei∈γ


pτ = p(q(t)|D′) =m∏

j=1

(∑

ej∈d,d∈D

p(d)) ×l∏

i=1

(∑

ki∈d,d∈D

p(d))×

×

m∏

j=1

ej.conf ×

∑s p(q(t)|s)

|s|

3.2.2 Nhận xét, đánh giá mô hình Impression

Ưu điểm

Với những đặc điểm của tìm kiếm thực thể được phân tích, mô hình Impression đãbám sát và xác định hàm tính hạng Score(q(t)) để đảm bảo các tính chất đó:

1. Tính chất R-Contextual được thể hiện ở các trọng số αB và p(s|γ)

2. Xác định giá trị cực đại theo γ để chọn ra quan sát "phù hợp" nhất (R-Holistic)


3. Tính chất R-Uncertainty của việc rút trích các thực thể và đánh giá các thựcthể được thể hiện ở trọng số ei.conf

4. Bằng kiểm định giả thiết thống kê trong tầng đánh giá (Validate), tính chấtR-Associative được đảm bảo

5. Sử dụng trọng số PR - độ quan trọng/phổ biến của trang web (đảm bảo tínhchất R-Discriminative)

Đánh giá chất lượng của xếp hạng các bộ thực thể t tìm được, [18] giới thiệu cácphương pháp xếp hạng làm đối sánh:

• N (Naive): xếp hạng theo phần trăm các tài liệu có chứa t.

• L (Local Model Only): xếp hạng dựa theo trọng số cục bộ cao nhất của t trongtừng tài liệu.

• G (Global Aggregation Only): xếp hạng theo tổng trọng số của các tài liệu cóchứa t. Và PR được chọn là trọng số cho mỗi tài liệu.

• C (Combination of Local Model and Global Aggregation): xếp hạng theo tổngtrọng số cục bộ của t trong tất cả các tài liệu chứa t.

• W (EntityRank Without G-test): xếp hạng theo trọng số tổng hợp của EntityRank nhưng không sử dụng đánh giá G-test (p0).

Và theo đánh giá trong [18] (hình 3.6) độ chính xác kết quả xếp hạng của thuậttoán EntityRank (xếp hạng với mô hình Impression) có MRR u 0.65 cao hơn gấpnhiều lần những phương pháp xếp hạng đối sánh được đưa ra.

Nhược điểm

Trong tài liệu d, một thực thể có thể xuất hiện nhiều lần và phù hợp với ngữ cảnhtruy vấn (các quan sát γ) theo tính chất R-Holistic. Việc ước lượng với công thức3.5 chỉ mang ý nghĩa lựa chọn quan sát phù hợp nhất trong tài liệu. Tuy nhiên, ta


Measure EntityRank L N G C W

M R R 0.648 0.047 0.037 0.050 0.266 0.379

M R R 0.648 0.125 0.106 0.138 0.316 0.387

Query Type I MRR Comparison

Measure EntityRank L N G C W

M R R 0.659 0.112 0.451 0.053 0.573 0.509

M R R 0.660 0.168 0.454 0.119 0.578 0.520

Query Type II MRR Comparison

Hình 3.6: So sánh độ chính xác MRR [18]

có thể dễ dàng nhận thấy số lần xuất hiện trong tài liệu của thực thể mà phù hợpngữ cảnh cũng có một vai trò quan trọng, ảnh hưởng hạng của thực thể.

Ví dụ: trong tài liệu trích chọn các thực thể thuốc hình 3.5, với truy vấnq = {"viêm"#drug}. Nếu chỉ xét trên tài liệu này thì một cách trực giác tathấy các thực thể thuốc nên được xếp hạng {"Diclofenac", "NSAID", "Voltaren",

"Catafram","Voltaren-XR","steroid"}. Nếu chỉ dựa vào công thức 3.5, thì rõ ràngở đây thuốc "steroid" được xếp hạng đầu tiên- như vậy không hợp lý.

Thêm nữa, từ bảng so sánh độ chính xác của một số phương pháp xếp hạnghình 3.6, ta dễ dàng nhận thấy độ đo C có ý nghĩa cao hơn hẳn L, tức độ đo dựavào tổng trọng số cục bộ trong từng tài liệu có ý nghĩa cao hơn lấy trọng số cục bộcao nhất.

3.2.3 Mô hình đề xuất

Mô hình xếp hạng Impression, công thức xác định giá trị để xếp hạng thực thể đượcđưa ra hoàn toàn dựa vào việc phân tích các đặc điểm và tìm công thức để thỏa mãncác nhận định đó. Tuy nhiên sau khi phân tích nhược điểm ở trên đã cho thấy nhưvậy là chưa đầy đủ. Học xếp hạng cho ta giải pháp để giải quyết vấn đề, tìm hàmtính hạng "tốt nhất" với các đặc trưng xác định. Qua phân tích các đặc điểm của


tìm kiếm để đưa ra các trọng số tương ứng với các đặc trưng của thực thể. Mô hìnhhọc xếp hạng thực thể trong máy tìm kiếm thực thể đề xuất hình 3.7. Trong mô

Learning

Ranking

Mô hình

),( tqf

),(,

),(,

22

11

tqft

tqft

ii

ii

)1(2

)1(1

)1(

t

t

q

)(2

)(1

)(

m

m

m

t

t

q

Truy vấn

Dữ liệu học

?),(......,

?),(?),,( 21

nt

tt

q

Hàm

thự

c th

ể

... ..

.

... ..

.

... ..

.

Hình 3.7: Mô hình học xếp hạng trong máy tìm kiếm thực thể

hình, thành phần được bao đen là một thành phần xếp hạng trong máy tìm kiếm.Mô-dul học xếp hạng độc lập với phần tìm kiếm, có nhiệm vụ học hàm xếp hạng(có thể chỉ cần một lần) để đưa ra mô hình/hàm xếp hạng phù hợp cho mô-dul xếphạng của máy tìm kiếm.

Dữ liệu học

Tập dữ liệu học gồm DT tài liệu- đã xác định các thực thể trong mỗi tài liệu, và tậptruy vấn QT . Với mỗi truy vấn q ∈ QT , q = α(e1, ..., em, k1, ..., kl) có danh sách cácthực thể (t(1..m)

i ) tương ứng phù hợp truy vấn q và được sắp xếp giảm dần độ phùhợp. Mỗi bộ thực thể t có các đặc trưng tương ứng với mỗi truy vấn q, từ nhữngphân tích về máy tìm kiếm thực thể và xếp hạng thực thể, tôi xác định các đặctrưng của thực thể:


1. Tỷ lệ trang tài liệu chứa t phù hợp với q:

N =|D′|

|DT |với ∀d ∈ D′có q(t) ∈ d

2. Tổng trọng số PR của các trang tài liệu chứa t phù hợp với q:

G =∑

d∈DT , q(t)∈d

PR[d]

3. Trọng số cục bộ lớn nhất (công thức 3.3) của t với truy vấn q trên tất cả cáctài liệu:

L = maxd∈DT , q(t)∈d

maxγ∈d

p(α(γ))

Với γ là một quan sát của t trên tài liệu d

4. Tổng trọng số cục bộ của t trong tất cả các tài liệu chứa t phù hợp q:

SL =∑

d∈DT , q(t)∈d, γ∈d

p(α(γ))

5. Tổng các tích trọng số cục bộ của t trong từng tài liệu chứa t phù hợp q nhânvới PR của tài liệu đó:

GL =∑


(p(α(γ)) × PR[d]

)

6. Giá trị cực đại của tích trọng số cục bộ của t nhân PR của tài liệu chứa t

tương ứng:M = max


(p(α(γ)) × PR[d]

)

Trong các công thức trên, p(α(γ)) là trọng số cục bộ của thực thể t ứng với quansát γ trong tài liệu d đang xét. Với các phạm vi (domain ) tìm kiếm thực thể khácnhau, giá trị trọng số cục bộ có thể được thay đổi phù hợp. Thực nghiệm với domaincụ thể dưới đây, tôi sẽ đưa ra cách tính cho đại lượng này.


3.3 Thực nghiệm

Hiện nay, đang có một dự án nghiên cứu xây dựng "hệ theo dõi sức khỏe toàn cầu"mang tên BioCaster∗ giúp tìm kiếm những thông tin về y-sinh học một cách chínhxác hơn các máy tìm kiếm thông thường. Điều đó cho thấy việc xây dựng hệ tìmkiếm y tế đang rất được quan tâm. Tiếp cận vấn đề thời sự về xếp hạng thực thể vàtìm kiếm y tế, tôi tiến hành thử nghiệm mô hình xếp hạng thực thể của mình vàomáy tìm kiếm trong lĩnh vực y tế tiếng Việt, mà cụ thể là tìm kiếm thực thể thuốc.

Vấn đề rút trích thực thể không nằm trong phạm vi của luận văn này, với thửnghiệm của mình, khi khảo sát dữ liệu, tôi đưa ra cách xác định thực thể thuốc đơngiản như sau:

• Thực thể thuốc trên trang web tiếng Việt: tên thuốc thường là tiếng Anh,ngoại trừ tên các nước, tên viết tắt của doanh nghiệp (tuân theo một số mẫuxác định, ví dụ: "Rottapharm., Ltd", "dược phẩm Hà Nội HAPHARCO").

• Một thực thể đã được xác định là thuốc thì chắc chắn đó là thuốc.

Như mô hình đã đưa ra, trọng số cục bộ của một quan sát γ trên d cần đượcxác định. Với quan nhận định: mối liên kết giữa thực thể và từ khóa ngữ cảnh càngkhăng khít khi chúng càng gần nhau, nên trọng số cục bộ được xách định:

p(α(γ)) =1

Sγ

Với Sγ là kích thước của đoạn tài liệu bao quan sát γ, ví dụ hình 3.8.

3.3.1 Công cụ sử dụng

Các chương trình phần mềm mã mở đã được sử dụng trong thực nghiệm này:

SV Mmap† là công cụ (tool) học giám sát với tối ưu MAP để học xếp hạng tàiliệu. Trong thực nghiệm tôi sử dụng công cụ này áp dụng vào học mô hình xếp hạngthực thể.

∗http://biocaster.nii.ac.jp/†http://projects.yisongyue.com/svmmap/


Tài liệu: d = “Desipramin1 là2 thuốc3 được4 dùng5 điều6 trị7 trầm8 cảm9”

Truy vấn: q=("trầm cảm" #drug)

Với quan sát: γ=(o1,o2) thì

o1 o2

Hình 3.8: Ví dụ xác định trọng số cục bộ p(α(γ))

Lucene‡ là một máy tìm kiếm văn bản (text) mã mở được lựa chọn để tiến hànhcài đặt các modul:

• Rút trích thực thể thuốc

• Đánh chỉ mục (index) thực thể

• Xếp hạng thực thể thuốc

3.3.2 Dữ liệu

Dữ liệu tìm kiếm

Tiến hành thu thập (crawl) các trang web về y tế tiếng Việt, từ nguồn của 10 website (phụ lục A.1)

• Tổng số trang web tiếng Việt được crawl và index: 6217 trang (không indexnhững trang web có nội dung quá ngắn- dưới 20 từ, và các trang web chỉ chứaliên kết)

• Kích thước dữ liệu: sấp xỉ 180MB

• Số thể hiện của thực thể thuốc được index: 14794‡http://lucene.apache.org


Các mẫu truy vấn được sử dụng

1. q=(context #drug): Tìm thực thể thuốc với ngữ cảnh context mà truyvấn xác định.

2. q=(context #drug=[Thuoc] #drug): Tìm thực thể thuốc có quan hệvới thực thể thuốc Thuoc trong ngữ cảnh context được xác định trong truyvấn.

Xây dựng tập dữ liệu học đưa vào mô-dul học hàm tính hạng

Tạo 5 truy vấn cho mỗi mẫu truy vấn trên, với mỗi truy vấn xác định 10 thực thểtrả về đầu tiên tương ứng và sắp xếp theo độ phù hợp giảm dần. Khi tìm kiếm ngườidùng quan tâm tới các kết quả trả về đầu tiên, việc xếp hạng đúng các thực thể vào10 kết quả đầu tiên quan trọng hơn việc các xếp hạng sau đó. Do giới hạn thời gianlàm thực nghiệm, nên tôi chỉ xây dựng tập dữ liệu học với 10 thực thể xếp hạngđầu tiên cho mỗi truy vấn. Cách xác định 10 thực thể đầu tiên:

• Tìm kiếm thực thể với mô hình xếp hạng Impression (Cài đặt Impression vớihàm p(s|γ) = 1

s) để tìm các thực thể với các trang chứa thực thể tương ứng

• Tìm kiếm thuốc với máy tìm kiếm thông thường (cài đặt Lucene với hàm xếphạng BM25[63]) có được các trang tốt nhất theo đánh giá BM25.

• Từ 2 kết quả trên, lựa chọn 10 thực thể tốt nhất và sắp xếp để được kết quảtrả về "đúng" cần có.

3.3.3 Kết quả và đánh giá

Kết quả có hàm tính hạng:

rf(t) = 0.0010 × N + 0.0011 × G + 0.0120 × L+

+ 0.3305 × SL + 0.2953 × GL + 0.3601 × M


Bảng 3.2: So sánh MRR, MAP của BM25, Impression, LTR

Phương pháp BM25 Impression LTRMRR 0.283 0.767 0.800MAP 0.275 0.651 0.705

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1 2 3 4 5

Av

era

ge

Pre

cesi

on

Query

BM25

ER

LTR

Hình 3.9: So sánh độ chính xác trung bình AP trên 5 query

Từ hàm tính hạng trên, cho ta thấy vai trò quan trọng của trọng số: M, SL và GL.Trọng số N, G ít quan trọng nhất, có thể bỏ qua - do giá trị N, G thường rất nhỏ,mà hệ số lại nhỏ nên thành phần đó không có ảnh hưởng lớn tới kết quả xếp hạng.Và trọng số L (cực đại trọng số cục bộ) có ít giá trị hơn trọng số SL (tổng trọng sốcục bộ)

Áp dụng hàm tính hạng vào mô-dul xếp hạng thực thể trong máy tìm kiếm, thựchiện tìm kiếm trên 5 query khác nhau để đánh giá. Bảng 3.2 so sánh MRR và MAPcủa ba phương pháp sử dụng Okapi BM25 để xếp hạng, với mô hình Impression củaEntityRank trong phần trước và với mô hình học xếp hạng (gọi tắt LTR: Learn ToRank).

Các nhận xét:

• LTR và Impression có MRR, MAP hơn hẳn BM25, cho thấy việc tìm kiếm


thực thể trả lại kết quả tốt hơn cho người dùng.

• MRR của LTR là 0.8 cao hơn của mô hình Impression bằng 0.767 (+0.023)chứng tỏ kết quả đúng đầu tiên của LTR trả về xuất hiện ở thứ hạng tốt hơn(thấp hơn) của Impression.

• So sánh MAP cho thấy độ chính xác trung bình của LTR cũng cao hơn củaImpression (+0.054).

• Biểu đồ so sánh chi tiết độ chính xác trung bình AP trên từng truy vấn (hình3.9) càng cho ta khẳng định phương pháp LTR đã học hàm tính hạng thựcthể hiệu quả.


Qua phân tích một mô hình xếp hạng thực thể trong máy tìm kiếm thực thể [17,18, 19], và học xếp hạng để học hàm tính hạng thực thể hiệu quả trên lĩnh vực tìmkiếm thực thể thuốc. Các kết quả thu được đã chứng minh vai trò và hiệu quả củahọc xếp hạng áp dụng vào máy tìm kiếm.

C h ư ơ n g 4

Tạo nhãn cụm tài liệu

Chương này giới thiệu các phương pháp tạo nhãn cụm tài liệu, và tự động tạo nhãncho cây phân cấp tài liệu.

4.1 Giới thiệu

Máy tìm kiếm ngày nay được sử dụng rộng rãi và trở thành một công cụ không thểthiếu của người dùng khi tìm kiếm thông tin trên môi trường web. Kết quả trả vềcủa máy tìm kiếm cho mỗi truy vấn thường rất lớn (từ vài nghìn tới hàng triệu kếtquả). Với cùng truy vấn nhưng mỗi người dùng khác nhau có thể có mong muốnkhác nhau, ví dụ khi tìm kiếm "phân cụm" (cluster) có người quan tâm tới cácphương pháp và thuật toán phân cụm nhưng có người lại quan tâm tới tính toáncụm. Để nâng cao chất lượng của máy tìm kiếm và giúp định hướng chủ đề chongười dùng, một nhu cầu đặt ra đó là phân cụm kết quả trả về của máy tìm kiếm

37

CHƯƠNG 4. TẠO NHÃN CỤM TÀI LIỆU 38

giống như Vivisimo∗ hay Carrot†.

Phân cụm không phải là lĩnh vực mới nhưng vấn đề phân cụm các kết quảtrả về từ máy tìm kiếm được nhiều nhà khoa học quan tâm trong những nămgần đây, với các nghiên cứu về phân cụm để cải tiến chất lượng tìm kiếm web[65, 41, 31, 28, 27, 67]. Kết quả trả về của máy tìm kiếm được phân thành các tậpnhỏ hơn, mỗi cụm này bao gồm các tài liệu tương tự nhau, khi đó các tài liệu trongmột cụm sẽ cùng hướng tới một chủ đề chung nào đó. Mỗi cụm cần được tạo nhãnchủ đề giúp định hướng nội dung cho người dùng về các tài liệu thuộc cụm đó. Dođó việc tạo nhãn cho cụm tài liệu là một bài toán quan trọng, và nó cũng thể hiệnchất lượng phân cụm tài liệu. Vấn đề tạo nhãn cho cụm tài liệu cũng được nhiềunhà khoa học [28, 42, 39, 38, 65, 5] quan tâm.

Không chỉ tạo nhãn cho các kết quả trả về từ máy tìm kiếm, vấn đề tạo nhãncó thể được áp dụng để tạo nên các danh bạ web (Web directory) như Dmoz củaODP∗ hay Yahoo!Directory† mà hiện nay trong tiếng Việt có Zing‡ đang phát triểnmột danh bạ web. Và các trang web cũng thường được phân loại (category) và tổchức thành cấu trúc cây phân loại như các trang tin tức (vietnamnet, vnexpress).Tất cả đều được tổ chức dạng cấu trúc cây phân cấp gọi là cây phân cấp chủ đề.Cách tổ chức dạng cây phân cấp khá phổ biến bởi nó biểu diễn thông tin ở các mứcchi tiết khác nhau: từ đỉnh của cây càng đi xuống sâu hơn càng nhận được thôngtin chi tiết hơn về chủ đề riêng giúp người dùng tiếp cận thông tin có định hướng vàdễ dàng hơn. Mỗi đỉnh của cây phân cấp có một tập các tài liệu và có nhãn tươngứng về chủ để các tài liệu đó (cụm tài liệu). Ví dụ của báo vnexpress có: mục "Vănhóa" chứa các mục con "âm nhạc", "thời trang", "điện ảnh",... Mục tiêu của phâncấp tài liệu là để cải thiện khả năng cho người dùng hiển thị thông tin, vì vậy mộtcây tốt cần có mô tả tốt - tức có nhãn cụm tài liệu ở các đỉnh tốt.

Dmoz[25] là cây phân cấp chủ đề Web lớn nhất đã được xây dựng và được tổ chứctheo từng ngôn ngữ khác nhau Anh, Pháp, Nhật, Trung Quốc, Hàn Quốc,...chưa

∗http:/vivisimo.com†http://search.carrot2.org∗http://dmoz.org†http://dir.yahoo.com/‡http://directory.zing.vn/


có tiếng Việt. Dmoz cung cấp cấu trúc phân cấp chủ đề cho các trang Web từ tổngquát tới chi tiết và được sử dụng trong tìm kiếm nâng cao của Google.

Nhu cầu xây dựng cây phân cấp chủ đề Web tiếng Việt được đặt ra, nhằm mụcđích hỗ trợ người dùng việc tìm kiếm theo từng chủ đề. Và Zing!Directory là mộtcây phân cấp chủ đề Web tiếng Việt đang được xây dựng.

Với sự phát triển của các danh bạ web (tiếng Anh), C.Yang và J.Lin [60] năm2007, T.C. Wu và W.L. Hsu [57] năm 2006 đã đưa ra hướng tích hợp các danh bạweb có sẵn để tạo một cây phân cấp chủ đề duy nhất, hỗ trợ người dùng tìm kiếmthông tin từ nhiều nguồn khác nhau. Kỹ thuật tích hợp cho phép mở rộng, sửađổi cây phân loại bằng cách học cách tổ chức các tài liệu từ các cây nguồn để tạocây mới [60], và dựa vào mô hình trường ngẫu nhiên (CRFs: Conditional RandomFields)[57]. Trong tiếng Việt, danh bạ web của trang tin tức việt nam§ là danh bạtrang web của các tổ chức đã đăng ký, hoạt động trong các lĩnh vực khác nhau vàđược cấu trúc dạng cây phân cấp chủ đề nhưng mới chỉ có chủ đề tới mức 3. Haymột số danh bạ web tiếng Việt khác như vnn777.com hướng các chủ đề về tin tứcvà giải trí, và các danh bạ đó chỉ có phân cấp cao nhất tới mức 3. Nên không đặtvấn đề tích hợp các danh bạ web cho tiếng Việt.

Một câu hỏi đưa ra: làm thế nào tạo cây phân cấp chủ đề cho các trang webtiếng Việt giống như Dmoz? Qua các phân tích về phân cụm và tạo nhãn cụm tàiliệu, một phương pháp khả thi đó là phân cụm phân cấp các trang web [1], sau đóxác định chủ đề cho từng cụm ở mỗi cấp.

Vấn đề tạo nhãn cụm tài liệu có vai quan trọng trong cả bài toán phân cụm kếtquả trả về của máy tìm kiếm và xây dựng cây phân cấp chủ đề. Nghiên cứu và đưara mô hình học tạo nhãn cho cụm tài liệu được đề cập trong các phần tiếp theo.

4.2 Phương pháp lựa chọn nhãn

Trong tạo nhãn cụm phân cấp, giả thiết đã có sẵn một cây phân cấp tốt các cụm tàiliệu và cần tạo mô tả tốt cho mỗi cụm tài liệu trên cây gọi là nhãn cụm. Nhãn cụm

§httt://tintuc.vnn.vn/danhbaweb


có thể là cụm từ hoặc danh sách các từ, cụm từ nói lên chủ đề chung của cụm, vídụ: cụm các tài liệu về xử lý ngôn ngữ tự nhiên có nhãn "xử lý ngôn ngữ tự nhiên"hoặc danh sách cụm từ "thẻ, ngôn ngữ, từ vựng, tạo nhãn, từ, cấu trúc, ngữ pháp".Danh sách các cụm từ thường ít hữu dụng hơn là một nhãn chủ đề bởi nó yêu cầungười dùng phải tự xác định khái niệm tương ứng. Tuy nhiên danh sách các cụmtừ là lựa chọn phổ biến cho tạo nhãn tự động các cụm theo [53, 65, 42, 28].

Khái niệm nhãn cụm tốt: ko chỉ mô tả chủ đề chính được đề cập trong cụm cáctài liệu mà còn phân biệt cụm đó với các cụm cùng cấp và cụm cha. Xác định nhãnduy nhất tốt cho một cụm tức chọn một từ/cụm từ xuất hiện trong các tài liệuthuộc cụm có ý nghĩa bao quát nội dung cho cụm đó là việc khó khả thi. Một ví dụđơn giản như đã đưa ra ở trên: một cụm các tài liệu về xử lý ngôn ngữ tự nhiên,nhãn tốt cho cụm là "xử lý ngôn ngữ tự nhiên". Nhưng có thể trong các tài liệuthuộc cụm không tài liệu có chính xác cụm từ này, trong khi dễ dàng thấy sự xuấthiện nhiều của các từ "ngôn ngữ, từ vựng, corpus, tạo nhãn, cấu trúc, ngữ pháp".Do vậy nhãn được tạo thường là danh sách các từ có khả năng làm nhãn cao đượclựa chọn. Tuy nhiên, số lượng nhãn khả năng được lựa chọn cần vừa đủ, vì nếu quánhiều sẽ gây nhiễu, khó hiểu cho người dùng nhưng nếu quá ít (ví dụ một từ "cấutrúc"), nhãn trở thành trừu tượng và cũng khó hiểu với người dùng. P.Treeratpitukvà J.Callan [53] đưa ra phương pháp xác định nhãn cho mỗi cụm: là danh sách cácnhãn khả năng được xếp hạng theo độ phù hợp với cụm và đưa ra cách xác định sốlượng nhãn phù hợp vì danh sách nhãn này nên ngắn nhất có thể để mô tả chủ đềcủa cụm.

Vì vậy tạo nhãn cụm tài liệu là xác định các nhãn khả năng và xếp hạng chúngtheo độ phù hợp làm nhãn cho cụm giảm dần. Sau đó chọn một số lượng nhất địnhnhãn khả năng đầu tiên làm nhãn cho cụm tài liệu đó.

Theo [53], Popescul sử dụng phương pháp thống kê để lựa chọn nhãn dựa trênngữ cảnh của các cụm liên quan (cụm cha và các cụm con cùng cấp): loại bỏ cáccụm từ có xác suất xuất hiện như nhau ở các cụm khác nhau. Do đó các từ đồngthời xuất hiện ở nhiều cụm không được lựa chọn làm nhãn, tránh trường hợp nhãnquá tổng quát. Và Glover [29] phân tích tần số xuất hiện của các từ đơn có thể dựđoán nhãn cho các cụm, với nhận định một từ phổ biết trong cụm và ít quan hệ với


các cụm khác thì là đặc trưng tốt cho cụm. Các từ/cụm từ (gọi chung là cụm từ)được ứng cử làm nhãn cụm được chọn dựa vào tiêu chuẩn:

Candidates ={

p∣∣DFC

|C|< maxColPos &

DFS

|S|> minSelfPos

}

Trong đó:

• DFC : số tài liệu trong cả tất cả các cụm tài liệu mà chứa cụm từ p

• DFS: số tài liệu trong cụm đang xét có chứa cụm từ p

• |C|, |S|: lần lượt số tài liệu của tất cả các cụm và của cụm đang xét.

• maxColPos, minSelfPos : ngưỡng tần suất xuất hiện lớn nhất, nhỏ nhất củacác nhãn được chọn.

Những từ được chọn để có thể làm nhãn có tính chất xuất hiện hơn minSelPos lần,và nhỏ hơn maxColPos lần ở mỗi tài liệu trong cụm. Sau đó các nhãn khả năng p

này được xếp hạng theo DFS.

Phương pháp của Glover đơn giản nhưng còn hạn chế: cần xác định giá trịngưỡng và tối ưu ngưỡng đó cho mọi cụm, khi xếp hạng dựa theo DFS dễ dàng thấycác từ đơn thường có hạng tốt hơn trong khi các cụm từ thường mang ý nghĩa caohơn khi làm nhãn.

Filippo Geraci và các cộng sự [28] sử dụng độ đo Information Gain để chọn cáctừ "giàu thông tin nhất" trong cụm làm nhãn. Dawn.J.Lawrie và W.Bruce Croft[39] xây dựng mô hình thống kê để xác định các từ chủ đề cho mỗi cụm (dùng độđo Kullback–Leibler). Các phương pháp này dựa vào phân phối của các từ, cụm từtrên các cụm để lựa chọn các nhãn ứng viên cho mỗi cụm.

P.Treeratpituk và J.Callan [52] đã đưa ra thuật toán tự động tạo nhãn cụm tàiliệu dựa vào học xếp hạng, và trong phương pháp phân cụm của H.Zeng và Q.He[65] cũng sử dụng học xếp hạng các cụm từ làm nhãn.


4.3 Học xếp hạng nhãn cụm

Nhãn của cụm tài liệu là các từ, cụm từ được xác định từ các tài liệu thuộc cụm.Tất cả các từ, cụm từ đều có khả năng làm nhãn, cần tìm nhãn tốt nhất có thể, đólà bài toán xếp hạng nhãn cụm. Với S là cụm đang xét, có cụm cha là P: bao gồmtất cả tài liệu của cụm S và các cụm cùng cấp với S, thuật toán chọn nhãn cho cụmS được P.Treeratpituk và J.Callan trong [52] đưa ra gồm 4 bước như sau:

1. Thống kê tất cả các cụm từ: 1-3 gram (gram trong tiếng Việt có thể hiểu làtiếng) trong cụm S, tính tần số xuất hiện của cụm từ trong mỗi tài liệu, trongcụm đang xét, cụm cha và trên tập dữ liệu chung (corpus E).

2. Chọn các nhãn khả năng: Chọn tập ứng cử từ các cụm trên dựa vào tần sốxuất hiện của tài liệu trong cụm và trong ngôn ngữ.

3. Tính trọng số DScore cho mỗi ứng cử làm nhãn trên và sắp xếp theo trọng sốđó.

4. Tính điểm cắt: Quyết định bao nhiêu ứng cử được chọn dựa trên DScore.

Với mỗi cụm từ p, và cụm tài liệu C, ký hiệu DFC là số tài liệu trong cụm C cóchứa cụm từ p, và TFC là số lần xuất hiện của p trong tất cả các tài liệu của cụmC.

Ngoài ra, các tác giả còn dựa vào một tập dữ liệu chung (corpus E) để xác địnhđộ phổ biến của các cụm từ trong ngôn ngữ đang xét (tiếng Anh), những từ xuấthiện với tần suất hơn 20% trong E gọi là từ dừng và sẽ không được xét làm nhãn.

Không phải tất cả các cụm từ đều được chọn, chỉ những từ 1-gram xuất hiện ởít nhất 20% tài liệu trong cụm và những từ 2,3-gram xuất hiện ở ít nhất 5% tài liệutrong cụm mới được coi là mô tả tốt và được chọn là nhãn ứng viên.

4.3.1 Các đặc trưng

Hàm xếp hạng có ý nghĩa xác định khả năng là một nhãn của cụm từ với một cụmtài liệu xác định, và là một hàm của các đặc trưng của cụm từ. Với mỗi cụm từ p,


P.Treeratpituk và J.Callan [52] xác định các đặc trưng:

nDFC tỷ lệ của số tài liệu trong cụm C chứa cụm từ trên tổng số tài liệu trongcụm C đó. Một cụm từ có khả năng mô tả tốt nếu xảy ra tương đối thườngxuyên ở cụm cha P nhưng rất thường xuyên ở cụm đang xét S.

nDFC =DFC

|C|

TFIDF là độ đo tương tự của tích tần số và nghịch đảo tần số xuất hiện được xácđịnh bởi công thức:

TFIDFC = TFC ∗ log|C|

DFC

r(TFIDF), r(nDF) thứ hạng của TFIDF, nDF trong sắp xếp giảm dần. Sử dụngr(TFIDF), r(nDF) có thể đem lại ý nghĩa cao hơn khi so sánh các giá trị thựcTFIDF, nDF.

Boost Rank nDF : độ đo về tính gia tăng của nDF . Một mô tả tốt cần có nDFP

khá cao, nDFS cao hơn. Để xác định tính chất này sử dụng độ đo về tính giatăng

log[r(DFp/|p|] − log[r(DFs/|S|)]

Công thức trên xác định độ thay đổi hạng nDF của cụm từ ở cụm cha vớicụm đang xét, và hạng nDF được tính log bởi những thay đổi thứ hạng càngở phần đầu (top rank) thì càng có ý nghĩa. Ví dụ: một nhãn mà thay đổi từthứ hạng thứ 200 trong cụm cha tới thứ 100 trong cụm con thì khả năng môtả ít hơn nhãn có thứ hạng 100 ở cụm cha và thứ hạng ở cụm con là 5.

Boost Rank TFIDF độ đo về tính gia tăng của TFIDF . Một cụm từ là mô tảtốt thì cần có thứ hạng TFIDF cao hơn trong cụm con so với ở cụm cha. Độđo được xác định:

log[r(TFIDFp)] − log[r(TFIDFs)]

LEN độ dài của cụm từ p. LEN càng lớn càng tốt, do ưu tiên các cụm từ dài hơnlàm nhãn.


H.Zeng và Q.He [65] cũng chọn độ đo TFIDF và LEN như P.Treeratpituk vàJ.Callan đã đưa ra làm các đặc trưng của cụm từ, và ngoài ra còn có một số đặctrưng về xác định cụm như độ co cụm của các tài liệu chứa cụm từ (Intra-clustersimilarity ICS). Do H.Zeng và Q.He sử dụng phương pháp xếp hạng cụm từ để tiếnhành phân cụm tài liệu nên đã sử dụng các độ đo đó để xác định các tài liệu thuộccùng cụm. Và trong ngữ cảnh của chúng ta, không cần thiết xét tới các độ đo cụmđó.

Kết hợp giá trị các đặc trưng bằng hàm tuyến tính gọi là hàm DScore- mô tảmột cụm từ có khả năng tạo nhãn cho cụm S như thế nào với cụm cha P theo côngthức:

DScorep =

m∑

i=1

(αi × fi(p)) + α0

Với fi(p) là đặc trưng thứ i của cụm từ p, m là số đặc trưng.

Sau đó các nhãn được sắp xếp theo DScore nên được gọi là hàm tính hạng.

4.3.2 Học hàm tính hạng

Hàm DScore với các trọng số αi của các đặc trưng được P.Treeratpituk và J.Callanước lượng dựa vào phương pháp quy hồi tuyến tính. Ước lượng DScore∗ của nhãnL được xác định dựa vào việc so sánh độ tương đồng của nhãn đó với nhãn đúngCL đã được cho trong dữ liệu học, DScore∗ được tính bỏi ước lượng nhãn L vớinhãn đúng là CL:

DScore∗L = maxSL∈Synonym(L)

overlap(SL, CL)

max (len(SL), len(CL))

Trong đó, overlap(SL, CL) là số các từ mà xuất hiện trong cả SL và CL, và len(x)

là độ dài của x, Synonym(L) là hàm xác định các cụm từ đồng nghĩa với L. Nếunhãn được chọn đồng nghĩa của nhãn đúng thì DScore=1 và ngược lại DScore =0.

Mỗi cụm được xác định một nhãn đúng duy nhất CL, trong khi thực tế có thểcó một số nhãn cùng tốt như nhau. Để xử lý trường hợp này, hàm ước lượng đã sửdụng hàm xác định từ đồng nghĩa, để xác định các nhãn tốt là các nhãn đồng nghĩavới nhãn đúng. Tuy nhiên vẫn còn nhiều trường hợp lỗi- nhãn tốt có DScore = 0, ví


dụ: cụm tài liệu có nhãn đúng "cardiovascular disorder" (rối loạn tim), thuật toánđưa ra các nhãn cho cụm là "heart" và "heart disease" (bệnh tim). Với chúng ta,trong trường hợp này nhãn "heart" và "heart disease" là hoàn toàn phù hợp nhưngvới đánh giá tự động trên thì nhãn này bị bỏ qua bởi "cardiovascular" và "heart"không thực sự đồng nghĩa.

Phương pháp học hàm xếp hạng RankingSVM[34] được tôi lựa chọn học hàmxếp hạng nhãn tài liệu. Đây là phương pháp học ghép cặp, dữ liệu học các đối tượnglà nhãn cần được sắp xếp theo độ phù hợp giảm dần.

Số lượng cụm từ được chọn làm nhãn cho cụm chỉ nên có từ 3 tới 5 cụm từ đượcxác định trong [52, 28] nên dữ liệu học: mỗi cụm tài liệu với các nhãn ứng viên đượcsắp xếp theo độ phù hợp giảm dần. Đặc biệt cần đảm bảo 5 nhãn đầu tiên là 5nhãn tốt nhất và thứ tự sắp xếp 5 nhãn này có thể chỉ là tương đối - khi các nhãnđều phù hợp làm nhãn tốt nhất ví dụ: "giáo dục" với "dạy học" hay "công nghệ","thông tin" và "tin học".

4.4 Thực nghiệm

4.4.1 Nguồn dữ liệu

Trên wikipedia tiếng Việt¶ các trang web được xác định chủ đề, và mỗi chủ đề cótrang web tương ứng tên chủ đề chứa thông tin các chủ đề con của chủ đề đó nếucó. Ví dụ: chủ đề "dược khoa" gồm có các chủ đề con ("dược phẩm", "dược điển","công ty dược"). Do đó ta dễ dàng xây dựng cấu trúc phân cấp chủ đề của các trangweb trên wikipedia. Mỗi chủ đề được coi là một cụm các tài liệu thuộc chủ đề đó.

Tiến hành thu thập (crawl) các trang web của wikipedia tiếng Việt:

• 5280 trang web

• 15 chủ đề mức 1 (mức 0 là gốc)

• 870 chủ đề các mức¶http://vi.wikipedia.org


• Độ sâu phân cấp cây chủ đề: 5 mức (ví dụ: 1. Địa chất học | 2. Niên đại địachất| 3. Liên đại Hiển Sinh | 4. Đại Cổ Sinh | 5. Kỷ Cambri)

Các trang web được lọc bỏ thẻ html, lấy nội dung chính và cho đi qua modul thốngkê ngram [32] (thực hiện thống kê 1-gram, 2-gram, 3-gram).

4.4.2 Dữ liệu học

Lấy một phần dữ liệu cây phân cấp chủ đề của wikipedia trên để tạo nhãn cho cáccụm (dựa trên chủ đề của cụm được wiki xác định):

1. Các cụm có chủ đề rõ ràng dễ phân tách- các chủ đề mức 1 của cây phân cấpchủ đề của wikipedia: 232 trang web, 8 cụm mức 1 và 5 cụm mức 2 (bảngA.1).

2. Các cụm chủ đề gần nhau ở mức 2 của cây phân cấp wikipedia: chủ đề giáodục gồm 6 cụm con và 75 trang web (bảng A.2).

3. Các cụm thuộc chủ đề "động vật học" được chọn làm dữ liệu đánh giá: độngvật học gồm 8 cụm con và 76 trang web (bảng A.3).

Mỗi cụm trong dữ liệu học được xác định danh sách các nhãn ứng viên (có khảnăng làm nhãn) dựa vào giới hạn nDFC lớn hơn 20%. Tuy nhiên do một số cụmtrong wiki có số lượng tài liệu ít (nhỏ hơn 10), khi đó nDFC được xác định phải lớnhơn 40%

Sau khi có danh sách nhãn ứng viên, tiến hành sắp xếp các nhãn ứng viên theođộ phù hợp giảm dần (đặc biệt quan trọng cần xác định 5 nhãn đầu tiên tốt nhất),rồi thực hiện tính các giá trị đặc trưng để tạo dữ liệu học đưa vào mô-dul học hàmxếp hạng của SV M light ‖.

‖http://svmlight.joachims.org/


Các đặc trưng được xác định đưa vào hàm học lần lượt:

f1 = LEN

f2 = r(nDFS)

f3 = r(nDFP )

f4 = r(TFIDFS)

f5 = r(TFIDFP )

f6 = log(r(nDFP ) − log(r(nDFS))

f7 = log(r(TFIDFP ) − log(r(TFIDFS))

Trong thực nghiệm, P.Treeratpituk và J.Callan chỉ sử dụng 6 đặc trưng f2 tới f7,và bỏ qua một đặc trưng rất quan trọng là độ dài LEN của cụm từ được chọn.

4.4.3 Kết quả và đánh giá

Hàm xếp hạng thu được:

RF (p) = 0.0150 × LEN(p)+

+ 0.0210 × r(nDFS)+

− 0.0011 × r(nDFP )+

+ 0.2470 × r(TFIDFS)+

− 0.0524 × r(TFIDFP )+

+ 0.1932 × [log(r(nDFP ) − log(r(nDFS))]+

+ 0.5713 × [log(r(TFIDFP ) − log(r(TFIDFS))]

Sau khi có được hàm xếp hạng, tiến hành tạo nhãn cho cụm dữ liệu kiểm tra (chủđề "động vật").

Kết quả tạo nhãn cụm tài liệu được tiến hành đánh giá so sánh với phương phápcủa Glover (chỉ dựa vào xác định ngưỡng tần suất xuất hiện) đã được trình bày ởtrên. Các độ đo đánh giá chất lượng tạo nhãn:

• Match@N: số nhãn đúng ở N nhãn đầu tiên


• MRR: Là trung bình của nghịch đảo thứ hạng nhãn đúng đầu tiên.

• MTRR: Nếu có hơn một nhãn đúng, MTRR là trung bình của tổng nghịchđảo thứ hạng của tất cả nhãn đúng.

Bảng 4.1 so sánh độ đo MRR và MTRR giữa phương pháp của Glover và phươngpháp sử dụng hàm RF(p), cho thấy với hàm RF kết quả xếp hạng cụm từ để tạonhãn có chất lượng tốt hơn. Với MRR, MTRR cao hơn chứng tỏ các nhãn đúngxuất hiện ở thứ hạng nhỏ hơn (ở hạng đầu). Bảng 4.2 so sánh về số nhãn trung bình

Bảng 4.1: So sánh MRR, MTRR

MRR MTRRGlover 0.51 0.57

RF 0.69 0.90

phù hợp ở N hạng đầu tiên, cho thấy các nhãn đúng thường được xác định ở hạng1, 2. Với kết quả này cho thấy hiệu quả của việc học hàm xếp hạng, cho chúng ta

Bảng 4.2: So sánh Match@N

Match@N N=1 N=2 N=3 N=4Glover 0.29 0.43 0.57 1.00

RF 0.43 1.00 1.00 1.00

hàm xết hạng tốt hơn.


Xếp hạng các nhãn ứng viên để tạo nhãn cụm tài liệu là một trong các ứng dụngcủa học xếp hạng đối tượng, cụ thể đối tượng ở đây là "nhãn" của cụm tài liệu. Vớikết quả đạt được của chất lượng tạo nhãn, cho ta cơ sở để xây dựng cây phân cấpchủ đề web cho các trang web tiếng Việt một cách tự động.

KẾT LUẬN

Học xếp hạng là một lĩnh vực đang rất được quan tâm. Vấn đề xác định hạng củacác đối tượng mà cụ thể trong máy tìm kiếm là các trang web và các thực thể cómột vai trò quan trọng bởi nó giúp định hướng, chỉ dẫn người dùng đến với nhữngthông tin phù hợp theo nhu cầu. Bên cạnh đó cùng sự phát triển của các phươngpháp phân cụm, đặt ra vấn đề gán nhãn cụm tài liệu nhằm hỗ trợ người dùng tiếpcận kết quả phân cụm và định hướng tạo cây phân cấp chủ đề web tiếng Việt.

Luận văn này đã tiếp cận vấn đề học xếp hạng và nghiên cứu, đưa ra mô hình,áp dụng vào máy tìm kiếm để nâng cao chất lượng của máy tìm kiếm.

Luận văn đã đạt được những kết quả:

• Phân tích các vấn đề thời sự nhất về bài toán xếp hạng, trình bày các phươngpháp học xếp hạng trong vài năm gần đây.

• Đưa ra mô hình học xếp hạng thực thể và thực nghiệm tìm kiếm thực thểtrong lĩnh vực y tế - cụ thể là thuốc trong tiếng Việt.

• Mô-dul tạo nhãn cụm tài liệu có ứng dụng không chỉ trong máy tìm kiếm màcòn trong việc tạo tạo danh bạ web (web directory).

49

Các công trình công bố của tác giả

[TTT08 ]Nguyen, C.-T., Nguyen, T.-T., Ha, Q.-T., Phan, X.-H., and

Horiguchi,S. Web Search Clustering and Labeling with Hidden Topics.Journal of ACM Transaction on Asian Language Information Processing (ACM-

TALIP), 2008. (TALIP-08-0036, Resubmit after reviewed).

[CTT08 ] Nguyễn Thi Thu Chung, Nguyễn Thu Trang, Nguyễn Cẩm

Tú, Hà Quang Thụy. Đánh giá chất lượng phân cụm trên máy tìm kiếmtiếng Việt VNSEN Kỷ yếu Hội thảo Quốc gia Một số vấn đề chọn lọc về Công

nghệ thông tin và Truyền thông lần thứ XI. (Huế, 12-13/6/2008 2008),

[TNT06 ] Q.Ha, T., H.Nguyen, N., and T.Nguyen, T. Improve Performanceof PageRank Computation with Connected-Component PageRank. Interna-tional Journal of Natural Sciences and Technology, 1(1):53-60, 2006.

[NNT05 ]Đỗ Thị Diệu Ngọc, Nguyễn Hoài Nam, Nguyễn Thu Trang,

Nguyễn Yến Ngọc Giải pháp tính hạng trang modified adaptive pageranktrong máy tìm kiếm. Chuyên sang "Các công trình nghiên cứu về CNTT và

truyền thông". Tạp chí Bưu chính Viễn thông, 14: 65-71, 4-2005

50

Tài liệu tham khảo

[1] Adami, G., Avesani, P., and Sona, D. Clustering documents in a webdirectory. In WIDM ’03: Proceedings of the 5th ACM international workshop

on Web information and data management (New York, NY, USA, 2003), ACM,pp. 66–73.

[2] Agarwal, A., Chakrabarti, S., and Aggarwal, S. Learning to ranknetworked entities. In KDD ’06: Proceedings of the 12th ACM SIGKDD inter-

national conference on Knowledge discovery and data mining (New York, NY,USA, 2006), ACM, pp. 14–23.

[3] Aguillo, I., Ortega, J. L. L., and Fernandez, M. Webometric ranking ofworld universities: Introduction, methodology, and future developments. Higher

Education in Europe 33, 2-3 (July 2008), 233–244.

[4] Aguillo, I. F. Webometrics ranking of world universities. In 3rd Meeting

of the International Rankings Expert Group (IREG-3), (2007), Shanghai JiaoTong University.

[5] Amini, M. R., Usunier, N., and Gallinari, P. Automatic text summa-rization based on word clusters and ranking algorithms. In In Proceedings of

the 27 th European Conference on Information Retrieval (2005), pp. 142–156.

[6] Arasu, A., Cho, J., Garcia-Molina, H., Paepcke, A., and Raghavan,

S. Searching the web. ACM Trans. Interet Technol. 1, 1 (2001), 2–43.

51

TÀI LIỆU THAM KHẢO 52

[7] Balmin, A., Hristidis, V., and Papakonstantinou, Y. Objectrank:authority-based keyword search in databases. In VLDB ’04: Proceedings of

the Thirtieth international conference on Very large data bases (2004), VLDBEndowment, pp. 564–575.

[8] Burges, C. Learning to rank for web search: Some new directions. Keynotetalk at SIGIR Ranking Workshop, 7 2007.

[9] Burges, C., Shaked, T., Renshaw, E., Lazier, A., Deeds, M., Hamil-

ton, N., and Hullender, G. Learning to rank using gradient descent. InICML ’05: Proceedings of the 22nd international conference on Machine learn-

ing (New York, NY, USA, 2005), ACM, pp. 89–96.

[10] Burges, C. J. C., Ragno, R., and Le, Q. V. Learning to rank with non-smooth cost functions. In NIPS (2006), B. Scholkopf, J. C. Platt, T. Hoffman,B. Scholkopf, J. C. Platt, and T. Hoffman, Eds., MIT Press, pp. 193–200.

[11] Cao, Y., Xu, J., Liu, T.-Y., Li, H., Huang, Y., and Hon, H.-W. Adapt-ing ranking svm to document retrieval. In SIGIR ’06: Proceedings of the 29th

annual international ACM SIGIR conference on Research and development in

information retrieval (New York, NY, USA, 2006), ACM, pp. 186–193.

[12] Cao, Z., Qin, T., Liu, T.-Y., Tsai, M.-F., and Li, H. Learning to rank:from pairwise approach to listwise approach. In ICML ’07: Proceedings of

the 24th international conference on Machine learning (New York, NY, USA,2007), ACM, pp. 129–136.

[13] Chakrabarti, S. Dynamic personalized pagerank in entity-relation graphs.In WWW ’07: Proceedings of the 16th international conference on World Wide

Web (New York, NY, USA, 2007), ACM, pp. 571–580.

[14] Chakrabarti, S. Learning to rank in vector spaces and social networks.In WWW ’07: Tutorial - 16th international conference on World Wide Web

(2007).

[15] Chakrabarti, S., and Agarwal, A. Learning parameters in entity rela-tionship graphs from ranking preferences. In PKDD (2006), pp. 91–102.


[16] Chakrabarti, S., Khanna, R., Sawant, U., and Bhattacharyya, C.

Structured learning for non-smooth ranking losses. In KDD ’08: Proceeding of

the 14th ACM SIGKDD international conference on Knowledge discovery and

data mining (New York, NY, USA, 2008), ACM, pp. 88–96.

[17] Cheng, T., and Chang, K. C.-C. Entity search engine: Towards agile best-effort information integration over the web. In CIDR (2007), pp. 108–113.

[18] Cheng, T., Yan, X., and Chang, K. C.-C. Entityrank: searching entitiesdirectly and holistically. In VLDB ’07: Proceedings of the 33rd international

conference on Very large data bases (2007), VLDB Endowment, pp. 387–398.

[19] Cheng, T., Yan, X., and Chang, K. C.-C. Supporting entity search: alarge-scale prototype search engine. In SIGMOD ’07: Proceedings of the 2007

ACM SIGMOD international conference on Management of data (New York,NY, USA, 2007), ACM, pp. 1144–1146.

[20] Chu, W., and Keerthi, S. S. New approaches to support vector ordinalregression. In In ICML ’05: Proceedings of the 22nd international conference

on Machine Learning (2005), pp. 145–152.

[21] Cohen, W. W., Schapire, R. E., and Singer, Y. Learning to orderthings. In NIPS ’97: Proceedings of the 1997 conference on Advances in neural

information processing systems 10 (Cambridge, MA, USA, 1998), MIT Press,pp. 451–457.

[22] Collins, M., Schapire, R. E., and Singer, Y. Logistic regression, ad-aboost and bregman distances. In Machine Learning (2000), pp. 158–169.

[23] Demartini, G., Firan, C. S., Iofciu, T., Krestel, R., and Nejdl, W.

A model for ranking entities and its application to wikipedia. Web Congress,

Latin American 0 (2008), 29–38.

[24] Demartini, G., Firan, C. S., Iofciu, T., and Nejdl, W. Semanticallyenhanced entity ranking. In WISE ’08: Proceedings of the 9th international con-

ference on Web Information Systems Engineering (Berlin, Heidelberg, 2008),Springer-Verlag, pp. 176–188.


[25] Dmoz. http://dmoz.org.

[26] Duh, K., and Kirchhoff, K. Learning to rank with partially-labeled data.In SIGIR ’08: Proceedings of the 31st annual international ACM SIGIR con-

ference on Research and development in information retrieval (New York, NY,USA, 2008), ACM, pp. 251–258.

[27] Gelgi, F., Davulcu, H., and Vadrevu, S. Term ranking for clusteringweb search results. In WebDB (2007).

[28] Geraci, F., Pellegrini, M., Maggini, M., and Sebastiani, F. Clustergeneration and cluster labelling for web snippets: A fast and accurate hierar-chical solution. In SPIRE (2006), pp. 25–36.

[29] Glover, E., Pennock, D. M., Lawrence, S., and Krovetz, R. Infer-ring hierarchical descriptions. In CIKM ’02: Proceedings of the eleventh in-

ternational conference on Information and knowledge management (New York,NY, USA, 2002), ACM, pp. 507–514.

[30] Herbrich, R., Graepel, T., and Obermayer, K. Support vector learn-ing for ordinal regression. In In International Conference on Artificial Neural

Networks (1999), pp. 97–102.

[31] Jiang, Z., Joshi, A., Krishnapuram, R., and Yi, L. Retriever: Improv-ing Web Search Engine Results Using Clustering. Tech. rep., University ofMaryland Baltimore County, October 2000.

[32] JNSP. http://sourceforge.net/projects/jnsp/.

[33] Joachims, T. Making large-scale support vector machine learning practical.Advances in kernel methods: support vector learning (1999), 169–184.

[34] Joachims, T. Optimizing search engines using clickthrough data. In KDD ’02:

Proceedings of the eighth ACM SIGKDD international conference on Knowledge

discovery and data mining (New York, NY, USA, 2002), ACM, pp. 133–142.

http://dmoz.org

http://sourceforge.net/projects/jnsp/


[35] Joachims, T. A support vector method for multivariate performance mea-sures. In Proceedings of the 22nd International Conference on Machine Learn-

ing (2005), ACM Press, pp. 377–384.

[36] Joachims, T., Li, H., Liu, T.-Y., and Zhai, C. Learning to rank forinformation retrieval (lr4ir 2007). SIGIR Forum 41, 2 (2007), 58–62.

[37] Klementiev, A., Roth, D., and Small, K. An unsupervised learningalgorithm for rank aggregation. Machine Learning: ECML 2007 (2007), 616–623.

[38] Lawrie, D., Croft, W. B., and Rosenberg, A. Finding topic words forhierarchical summarization. In SIGIR ’01: Proceedings of the 24th annual inter-

national ACM SIGIR conference on Research and development in information

retrieval (New York, NY, USA, 2001), ACM, pp. 349–357.

[39] Lawrie, D. J., and Croft, W. B. Generating hierarchical summaries forweb searches. In SIGIR ’03: Proceedings of the 26th annual international ACM

SIGIR conference on Research and development in informaion retrieval (NewYork, NY, USA, 2003), ACM, pp. 457–458.

[40] Liu, T.-Y. Learning to rank in information retrieval. In WWW ’08: Tutorial

- 17th international conference on World Wide Web (2008).

[41] Mecca, G., Raunich, S., and Pappalardo, A. A new algorithm for clus-tering search results. Data Knowl. Eng. 62, 3 (2007), 504–522.

[42] Mei, Q., Shen, X., and Zhai, C. Automatic labeling of multinomial topicmodels. In KDD ’07: Proceedings of the 13th ACM SIGKDD international

conference on Knowledge discovery and data mining (New York, NY, USA,2007), ACM, pp. 490–499.

[43] Page, L., Brin, S., Motwani, R., and Winograd, T. The pagerankcitation ranking: Bringing order to the web. Tech. rep., Stanford University,1998.


[44] Qin, T., Liu, T.-Y., Zhang, X.-D., Wang, D.-S., Xiong, W.-Y., and

Li, H. Learning to rank relational objects and its application to web search.In WWW ’08: Proceeding of the 17th international conference on World Wide

Web (New York, NY, USA, 2008), ACM, pp. 407–416.

[45] Radlinski, F., and Joachims, T. Active exploration for learning rankingsfrom clickthrough data. In KDD ’07: Proceedings of the 13th ACM SIGKDD

international conference on Knowledge discovery and data mining (New York,NY, USA, 2007), ACM, pp. 570–579.

[46] Raykar, V. C., Duraiswami, R., and Krishnapuram, B. A fast algo-rithm for learning a ranking function from large-scale data sets. IEEE Trans.

Pattern Anal. Mach. Intell. 30, 7 (2008), 1158–1170.

[47] Rode, H., Serdyukov, P., Hiemstra, D., and Zaragoza, H. Entityranking on graphs: Studies on expert finding. Tech. Rep. TR-CTIT-07-81,University of Twente, 2007.

[48] Sciencegateway. http://www.sciencegateway.org/rank/index.html.

[49] SIGIR. on LR4IR. http://research.microsoft.com/users/LR4IR-2007/

http://research.microsoft.com/users/LR4IR-2008/.

[50] Taylor, M., Guiver, J., Robertson, S., and Minka, T. Softrank: op-timizing non-smooth rank metrics. In WSDM ’08: Proceedings of the interna-

tional conference on Web search and web data mining (New York, NY, USA,2008), ACM, pp. 77–86.

[51] Thom, J. A., Pehcevski, J., and Vercoustre, A.-M. Use of wikipediacategories in entity ranking. CoRR abs/0711.2917 (2007).

[52] Treeratpituk, P., and Callan, J. Automatically labeling hierarchicalclusters. In dg.o ’06: Proceedings of the 2006 international conference on Digital

government research (New York, NY, USA, 2006), ACM, pp. 167–176.

[53] Treeratpituk, P., and Callan, J. An experimental study on automat-ically labeling hierarchical clusters using statistical features. In SIGIR ’06:

http://www.sciencegateway.org/rank/index.html

http://research.microsoft.com/users/LR4IR-2007/

http://research.microsoft.com/users/LR4IR-2008/


Proceedings of the 29th annual international ACM SIGIR conference on Re-

search and development in information retrieval (New York, NY, USA, 2006),ACM, pp. 707–708.

[54] Vercoustre, A.-M., Thom, J. A., and Pehcevski, J. Entity ranking inwikipedia. In SAC ’08: Proceedings of the 2008 ACM symposium on Applied

computing (New York, NY, USA, 2008), ACM, pp. 1101–1106.

[55] Webometrics. http://webometrics.org.

[56] WISDM. http://wisdm.cs.uiuc.edu/.

[57] Wu, T. C.-W., and Hsu, W.-L. Web directory integration using conditionalrandom fields. In WI ’06: Proceedings of the 2006 IEEE/WIC/ACM Interna-

tional Conference on Web Intelligence (Washington, DC, USA, 2006), IEEEComputer Society, pp. 540–543.

[58] Xu, J., and Li, H. Adarank: a boosting algorithm for information retrieval.In SIGIR ’07: Proceedings of the 30th annual international ACM SIGIR con-

ference on Research and development in information retrieval (New York, NY,USA, 2007), ACM, pp. 391–398.

[59] Xu, Y., and Fern, A. On learning linear ranking functions for beam search.In ICML ’07: Proceedings of the 24th international conference on Machine

learning (New York, NY, USA, 2007), ACM, pp. 1047–1054.

[60] Yang, C. C., and Lin, J. Integrating web directories by learning theirstructures. In WWW ’07: Proceedings of the 16th international conference on

World Wide Web (New York, NY, USA, 2007), ACM, pp. 1239–1240.

[61] Yu, H. Svm selective sampling for ranking with application to data retrieval. InKDD ’05: Proceedings of the eleventh ACM SIGKDD international conference

on Knowledge discovery in data mining (New York, NY, USA, 2005), ACM,pp. 354–363.

http://webometrics.org

http://wisdm.cs.uiuc.edu/


[62] Yue, Y., Finley, T., Radlinski, F., and Joachims, T. A support vectormethod for optimizing average precision. In ACM Conference on Research and

Development in Information Retrieval (SIGIR) (2007), pp. 271–278.

[63] Zaragoza, H., and Robertson, S. The probabilistic relevance model: Bm25and beyond, 2007.

[64] Zaragoza, H., Rode, H., Mika, P., Atserias, J., Ciaramita, M., and

Attardi, G. Ranking very many typed entities on wikipedia. In CIKM ’07:

Proceedings of the sixteenth ACM conference on Conference on information and

knowledge management (New York, NY, USA, 2007), ACM, pp. 1015–1018.

[65] Zeng, H.-J., He, Q.-C., Chen, Z., Ma, W.-Y., and Ma, J. Learning tocluster web search results. In SIGIR ’04: Proceedings of the 27th annual inter-

national ACM SIGIR conference on Research and development in information

retrieval (New York, NY, USA, 2004), ACM, pp. 210–217.

[66] Zheng, Z., Chen, K., Sun, G., and Zha, H. A regression framework forlearning ranking functions using relative relevance judgments. In SIGIR ’07:

Proceedings of the 30th annual international ACM SIGIR conference on Re-

search and development in information retrieval (New York, NY, USA, 2007),ACM, pp. 287–294.

[67] Zhu, D., and Dreher, H. Improving web search by categorization, cluster-ing, and personalization. In ADMA ’08: Proceedings of the 4th international

conference on Advanced Data Mining and Applications (Berlin, Heidelberg,2008), Springer-Verlag, pp. 659–666.

[68] Zhu, J., Song, D., and Ruger, S. Integrating document features for entityranking. Focused Access to XML Documents: 6th International Workshop of

the Initiative for the Evaluation of XML Retrieval, INEX 2007 Dagstuhl Castle,

Germany, December 17-19, 2007. Selected Papers (2008), 336–347.

P h ụ l ụ c A

Dữ liệu

A.1 Dữ liệu tìm kiếm thuốc

Tập nhân các trang web để thu thập dữ liệu cho tìm kiếm thực thể thuốc:

1. http://www.thuoc.net.vn/Default.aspx?Mod=ClassifyDrugs

2. http://thuoc.net.vn/giathuoc.asp

3. http://www.cimsi.org.vn/Duoc pham/giathuoc/Index.htm

4. http://www.cimsi.org.vn/Duoc pham/Thuoc goc/Thuocgoc1.asp

5. http://www.cimsi.org.vn/Duoc pham/Phan loai thuoc/Phanloaithuoc.asp

6. http://www.cimsi.org.vn/Duoc pham/Thongbao/index.asp

7. http://www.cimsi.org.vn/Duoc pham/Danhmucthuoc/index.asp

8. http://www.yduocngaynay.com/5-Duoc Pham.html

59

PHỤ LỤC A. DỮ LIỆU 60

9. http://www.tudienthuoc.net/tudienthuoc/search.asp

10. http://www.ykhoanet.com/duoc/duocpham/index.htm

11. http://www.ykhoanet.com/duoc/khainiemthuoc/index.htm

12. http://www.ykhoanet.com/duoc/sudungthuoc/index.htm

13. http://thuocviet.vn/

14. http://www.thuocbietduoc.com.vn/thuoc/drgsearch.aspx

15. http://www.thuoc-suckhoe.com/

A.2 Cây wiki

Cây phân mục được lấy từ vn.wikipedia.com

Nhãn Số tài liệu trong cụmCong nghe thong tin (36)Internet (35)Sinh hoa hoc (14)Sinh hoc (61)Sinh hoc phan tu (27)Te bao hoc (23)Tin sinh hoc (12)Duoc pham (20)

Bảng A.1: Dữ liệu học: cụm mức 1

PHỤ LỤC A. DỮ LIỆU 61

Nhãn Số tài liệu trong cụmDai hoc (20)Mon hoc (6)Truong trung hoc (14)Hoc vi (24)Phuong phap giao duc (3)Tu duy (8)

Bảng A.2: Dữ liệu học - cụm chủ đề giáo dục

Nhãn Số tài liệu trong cụmlop thu (13)ho trau bo (10)dong vat thuan hoa (8)dong vat nguyen sinh (5)dong vat ky sinh (2)bo se (31)bo ca da tron (7)

Bảng A.3: Dữ liệu kiểm tra - cụm chủ đề động vật học

Nhãn Số tài liệu trong cụmCong nghe thong tin (778)Internet (210)Sinh hoa hoc (14)Sinh hoc (1283)Sinh hoc phan tu (27)Te bao hoc (23)Tin sinh hoc (12)Duoc khoa (25)Y hoc (13)Vien thong (23)Thuc vat hoc (6)Khoa hoc suc khoe (4)Dong vat hoc (339)Giao duc (2457)

Bảng A.4: Dữ liệu wiki đầy đủ mức 1

Danh sách hình vẽ

2.1 Xếp hạng với SVM [34] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2 Xác định ngưỡng phân thứ hạng [20] . . . . . . . . . . . . . . . . . . . . 13

3.1 Đồ thị web với khung nhìn thực thể [18] . . . . . . . . . . . . . . . . . . 193.2 Mô hình tìm kiếm truyền thống và tìm kiếm thực thể [56] . . . . . . . . 193.3 Kiến trúc hệ thống[19] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.4 Impression model [18] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.5 Ví dụ rút trích thực thể thuốc . . . . . . . . . . . . . . . . . . . . . . . . 243.6 So sánh độ chính xác MRR [18] . . . . . . . . . . . . . . . . . . . . . . . 293.7 Mô hình học xếp hạng trong máy tìm kiếm thực thể . . . . . . . . . . . 303.8 Ví dụ xác định trọng số cục bộ p(α(γ)) . . . . . . . . . . . . . . . . . . . 333.9 So sánh độ chính xác trung bình AP trên 5 query . . . . . . . . . . . . . 35

62

Danh sách bảng

3.1 Ví dụ kết quả trả về của truy vấn q . . . . . . . . . . . . . . . . . . . . . 183.2 So sánh MRR, MAP của BM25, Impression, LTR . . . . . . . . . . . . . 35

4.1 So sánh MRR, MTRR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.2 So sánh Match@N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

A.1 Dữ liệu học: cụm mức 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 60A.2 Dữ liệu học - cụm chủ đề giáo dục . . . . . . . . . . . . . . . . . . . . . 61A.3 Dữ liệu kiểm tra - cụm chủ đề động vật học . . . . . . . . . . . . . . . . 61A.4 Dữ liệu wiki đầy đủ mức 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 61

63