Lưu Vĩnh Trung. Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 59(2), 65-75 65 SỬ DỤNG KỸ THUẬT SO SÁNH CHUỖI KẾT HỢP TRÊN CÁC CHUỖI CÓ ĐỘ DÀI CHÊNH LỆCH LƯU VĨNH TRUNG Trường Đại học Mở Thành phố Hồ Chí Minh - [email protected](Ngày nhận: 31/07/2017; Ngày nhận lại: 09/10/2017; Ngày duyệt đăng: 05/12/2017) TÓM TẮT Bài báo này giới thiệu một thang đo kết hợp các thuật giải so sánh chuỗi toàn cục và cục bộ để đánh giá sự tương tự giữa các cặp chuỗi ký tự. Qua thực nghiệm, thang đo được chứng minh về hiệu quả khi làm việc trên các chuỗi có độ dài chênh lệch so với các thang đo khác. Thang đo hữu ích trong việc phân cụm người dùng web, nhằm dự đoán và đáp ứng yêu cầu về thông tin của các nhóm người dùng khác nhau trong thời gian thực. Từ khóa: Khai phá dữ liệu web; Phân loại người dùng; So sánh chuỗi; Thương mại điện tử. Using glocal alignment to compare sequences of significantly different lengths ABSTRACT This paper introduces a “glocal” combinatorial algorithm between global and local alignments to evaluate the similarity of symbol sequence pairs. This approach empirically proves its merit compared to competitors working on sequences of significantly different lengths. The measure is also useful for clustering web audiences to predict and meet information needs of various groups of users in real-time. Keywords: E-commerce; Sequence alignment; User segmentation; Web mining. 1. Giới thiệu Kỹ thuật khai phá dữ liệu từ hành vi người dùng đang nhận được sự quan tâm ngày càng lớn của các nhà nghiên cứu, nhằm phục vụ các ứng dụng thương mại điện tử trong việc tìm hiểu nhu cầu người dùng web. Phân cụm (clustering) là một trong những kỹ thuật được chú ý nhất cho mục đích phát hiện các nhóm người dùng web tiềm ẩn có nhu cầu tương tự nhau. Sự hiểu biết về nhu cầu này giúp các ứng dụng thương mại điện tử cải tiến cách thức và nội dung cung cấp, để thông tin đến đúng người có nhu cầu nhằm tối ưu hóa lợi nhuận. Trong bài báo trước (Lưu Vĩnh Trung, 2017), chúng tôi đã trình bày cách tiếp cận dựa trên sự kết hợp của hai kỹ thuật so sánh chuỗi toàn cục và cục bộ, mà đại diện là Needleman-Wunsh và Smith-Waterman, dưới hình thức các điều kiện lọc dữ liệu. Cách tiếp cận đó được phát triển thành thang đo chính thức trong bài báo này. Thang đo của chúng tôi đã chứng tỏ ưu thế so với các thang đo khác khi làm việc trên dữ liệu gồm các chuỗi có độ dài tương phản, bị nhiễu hoặc không cân bằng. 2. Phương pháp nghiên cứu Cho tập xác định ∑ gồm các ký tự, chuỗi bất kỳ có độ dài k>0 là một bộ (tuple) k được tạo thành bằng các phần tử của ∑. Ví dụ, với ∑={A,B,C}, một tập S={s 1, s 2, s 3, … , s n } với n chuỗi xác định được tạo ra từ ∑ có thể gồm s 1 = AB , s 2 = ABC , … , s n= = ACB. Trong mô hình của chúng tôi, các phiên truy cập của người dùng có thể được xem như chuỗi các sự kiện truy cập trang web, và tập chuỗi S như trên đại diện cho các phiên truy cập (session). S được phân thành các cụm (cluster) sao cho các phiên làm việc trong cùng cụm tương tự nhau và khác biệt với các phiên làm việc trong các cụm khác. Dựa trên kết quả thực nghiệm về sự kết
11
Embed
sử dụng kỹ thuật so sánh chuỗi kết hợp trên các chuỗi có độ ...
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Lưu Vĩnh Trung. Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh, 59(2), 65-75 65
SỬ DỤNG KỸ THUẬT SO SÁNH CHUỖI KẾT HỢP
TRÊN CÁC CHUỖI CÓ ĐỘ DÀI CHÊNH LỆCH
LƯU VĨNH TRUNG Trường Đại học Mở Thành phố Hồ Chí Minh - [email protected]
(Ngày nhận: 31/07/2017; Ngày nhận lại: 09/10/2017; Ngày duyệt đăng: 05/12/2017)
TÓM TẮT
Bài báo này giới thiệu một thang đo kết hợp các thuật giải so sánh chuỗi toàn cục và cục bộ để đánh giá sự
tương tự giữa các cặp chuỗi ký tự. Qua thực nghiệm, thang đo được chứng minh về hiệu quả khi làm việc trên các
chuỗi có độ dài chênh lệch so với các thang đo khác. Thang đo hữu ích trong việc phân cụm người dùng web, nhằm
dự đoán và đáp ứng yêu cầu về thông tin của các nhóm người dùng khác nhau trong thời gian thực.
Từ khóa: Khai phá dữ liệu web; Phân loại người dùng; So sánh chuỗi; Thương mại điện tử.
Using glocal alignment to compare sequences of significantly different lengths ABSTRACT
This paper introduces a “glocal” combinatorial algorithm between global and local alignments to evaluate the
similarity of symbol sequence pairs. This approach empirically proves its merit compared to competitors working on
sequences of significantly different lengths. The measure is also useful for clustering web audiences to predict and
meet information needs of various groups of users in real-time.
Keywords: E-commerce; Sequence alignment; User segmentation; Web mining.
1. Giới thiệu Kỹ thuật khai phá dữ liệu từ hành vi
người dùng đang nhận được sự quan tâm ngày
càng lớn của các nhà nghiên cứu, nhằm phục
vụ các ứng dụng thương mại điện tử trong
việc tìm hiểu nhu cầu người dùng web. Phân
cụm (clustering) là một trong những kỹ thuật
được chú ý nhất cho mục đích phát hiện các
nhóm người dùng web tiềm ẩn có nhu cầu
tương tự nhau. Sự hiểu biết về nhu cầu này
giúp các ứng dụng thương mại điện tử cải tiến
cách thức và nội dung cung cấp, để thông tin
đến đúng người có nhu cầu nhằm tối ưu hóa
lợi nhuận.
Trong bài báo trước (Lưu Vĩnh Trung,
2017), chúng tôi đã trình bày cách tiếp cận
dựa trên sự kết hợp của hai kỹ thuật so sánh
chuỗi toàn cục và cục bộ, mà đại diện là
Needleman-Wunsh và Smith-Waterman, dưới
hình thức các điều kiện lọc dữ liệu. Cách tiếp
cận đó được phát triển thành thang đo chính
thức trong bài báo này. Thang đo của chúng
tôi đã chứng tỏ ưu thế so với các thang đo
khác khi làm việc trên dữ liệu gồm các chuỗi
có độ dài tương phản, bị nhiễu hoặc không
cân bằng.
2. Phương pháp nghiên cứu Cho tập xác định ∑ gồm các ký tự, chuỗi