KHAI THÁC DÃY SỰ KIỆN PHỔ BIẾN SỬ DỤNG CÂY Seq-Tree Nguyễn Thị Thu Hiền 1 , Lê Hữu Hà 2,* , Văn Thế Thành 2 1 Khoa Công nghệ Thông tin, Trường ĐH Công nghệ Tp.HCM 2 Trung tâm Công nghệ Thông tin, Trường ĐH Công nghiệp Thực phẩm Tp.HCM * Học viện Kỹ thuật Quân sự 1 [email protected], 2 {halh, thanhvt}@cntp.edu.vn Tóm tắt: Tìm kiếm tập phổ biến là một bài toán quan trọng trong khai phá dữ liệu. Hơn nữa, trích xuất tập phổ biến có yếu tố thời gian từ cơ sở dữ liệu sẽ tốn kém nhiều chi phí đối sánh. Để giải quyết vấn đề này, bài báo tiếp cận xây dựng cấu trúc dữ liệu cây Seq-Tree lưu trữ các dãy sự kiện phổ biến. Sau đó, bài báo đưa ra thuật toán Seq-Alg nhằm truy xuất dãy sự kiện phổ biến từ cây Seq-Tree. Để minh họa tính hiệu quả của phương pháp đề xuất, bài báo đánh giá kết quả thực nghiệm so với phương pháp TSET max -Miner. Từ khóa: Tập phổ biến, Dãy tuần tự, Dãy sự kiện 1 Giới thiệu Khai thác dữ liệu là quá trình tìm kiếm tri thức quan tâm từ các cơ sở dữ liệu thuộc các lĩnh vực khác nhau. Kỹ thuật khai thác dữ liệu ([1], [2], [3]) thường chỉ quan tâm đến khai thác tập phổ biến mà không xét đến yếu tố thời gian trong các giao dịch. Trong khi đó, yếu tố thời gian là một trong những thuộc tính quan trọng và có vai trò quyết định trong các chuỗi sự kiện gắn liền với thời gian như giao dịch chứng khoán, giao dịch thương mại, các sự kiện dự báo, các chuỗi sự kiện theo thời gian trong bộ xử lý,… Vì vậy, khai thác dữ liệu theo thời gian là một chủ đề quan trọng trong lĩnh vực khai thác dữ liệu. Có nhiều kỹ thuật khai thác dữ liệu theo thời gian như khai thác các mẫu tuần tự [5], khai thác các mẫu quan tâm bằng luật kết hợp [7], khám phá tập phần tử đóng phổ biến đại diện cho các luật kết hợp [6], một cấu trúc cây cho việc khai thác dãy tuần tự [4],… Trong đó, thuật toán AprioriAll [5] là thuật toán sinh ứng viên, nên không hiệu quả trên các cơ sở dữ liệu có mật độ trùng lắp thấp và quá trình sinh dãy sự kiện phải duyệt cơ sở dữ liệu nhiều lần với số lần duyệt tối đa bằng chiều dài của tập phần tử trong cơ sở dữ liệu. Một cách giải quyết hiệu quả đó là sử dụng thuật toán TSET-Miner [4], tuy nhiên thuật toán này dựa trên cấu trúc cây TSET [4] trên cơ sở cấu trúc cây Set Enumeration Tree [8] nên có nhược điểm là sinh quá nhiều tập con, hơn nữa nếu khung thời gian lớn thì việc xây dựng cây sẽ tiêu tốn nhiều chi phí. Ngoài ra, cây TSET phải xây dựng lại từ đầu nếu cơ sở dữ liệu thay đổi vì cấu trúc dữ liệu cây này không có khả năng tăng trưởng. Một cải tiến của TSET-Miner là thuật toán TSET max -Miner [4] đã cải thiện đáng kể về số lượng các dãy sự kiện được sinh ra. Tuy nhiên, thuật toán TSET max -Miner vẫn dựa trên cấu trúc cây TSET [4] do đó vẫn bị các nhược điểm tương tự như TSET-Miner. Để khắc phục các nhược điểm trên, bài báo trình bày cấu trúc cây Seq-Tree lưu trữ các dãy sự kiện phổ biến. Cây Seq-Tree được tạo ra bằng cách kết hợp ngữ nghĩa thời gian vào các nút trong cây. Hơn nữa, cây Seq-Tree là cây tăng trưởng nên quá trình xây dựng cây chỉ tốn chi phí
13
Embed
KHAI THÁC DÃY SỰ KIỆN PHỔ BIẾN SỬ DỤNG CÂY Seq-Treeit.husc.edu.vn/Media/ChuyenMuc/KhoaHoc/Hoithao-Hoinghi/SAICT_2015... · lại cây như trong thuật toán TSETmax-Miner.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
KHAI THÁC DÃY SỰ KIỆN PHỔ BIẾN SỬ DỤNG CÂY Seq-Tree
Nguyễn Thị Thu Hiền1, Lê Hữu Hà2,* , Văn Thế Thành2
1 Khoa Công nghệ Thông tin, Trường ĐH Công nghệ Tp.HCM 2 Trung tâm Công nghệ Thông tin, Trường ĐH Công nghiệp Thực phẩm Tp.HCM
* Học viện Kỹ thuật Quân sự 1 [email protected], 2 {halh, thanhvt}@cntp.edu.vn
Tóm tắt: Tìm kiếm tập phổ biến là một bài toán quan trọng trong khai phá dữ liệu. Hơn
nữa, trích xuất tập phổ biến có yếu tố thời gian từ cơ sở dữ liệu sẽ tốn kém nhiều chi phí đối
sánh. Để giải quyết vấn đề này, bài báo tiếp cận xây dựng cấu trúc dữ liệu cây Seq-Tree lưu
trữ các dãy sự kiện phổ biến. Sau đó, bài báo đưa ra thuật toán Seq-Alg nhằm truy xuất dãy
sự kiện phổ biến từ cây Seq-Tree. Để minh họa tính hiệu quả của phương pháp đề xuất, bài
báo đánh giá kết quả thực nghiệm so với phương pháp TSETmax-Miner.
Từ khóa: Tập phổ biến, Dãy tuần tự, Dãy sự kiện
1 Giới thiệu
Khai thác dữ liệu là quá trình tìm kiếm tri thức quan tâm từ các cơ sở dữ liệu thuộc các
lĩnh vực khác nhau. Kỹ thuật khai thác dữ liệu ([1], [2], [3]) thường chỉ quan tâm đến khai thác
tập phổ biến mà không xét đến yếu tố thời gian trong các giao dịch. Trong khi đó, yếu tố thời
gian là một trong những thuộc tính quan trọng và có vai trò quyết định trong các chuỗi sự kiện
gắn liền với thời gian như giao dịch chứng khoán, giao dịch thương mại, các sự kiện dự báo, các
chuỗi sự kiện theo thời gian trong bộ xử lý,… Vì vậy, khai thác dữ liệu theo thời gian là một chủ
đề quan trọng trong lĩnh vực khai thác dữ liệu.
Có nhiều kỹ thuật khai thác dữ liệu theo thời gian như khai thác các mẫu tuần tự [5], khai
thác các mẫu quan tâm bằng luật kết hợp [7], khám phá tập phần tử đóng phổ biến đại diện cho
các luật kết hợp [6], một cấu trúc cây cho việc khai thác dãy tuần tự [4],… Trong đó, thuật toán
AprioriAll [5] là thuật toán sinh ứng viên, nên không hiệu quả trên các cơ sở dữ liệu có mật độ
trùng lắp thấp và quá trình sinh dãy sự kiện phải duyệt cơ sở dữ liệu nhiều lần với số lần duyệt
tối đa bằng chiều dài của tập phần tử trong cơ sở dữ liệu. Một cách giải quyết hiệu quả đó là sử
dụng thuật toán TSET-Miner [4], tuy nhiên thuật toán này dựa trên cấu trúc cây TSET [4] trên cơ
sở cấu trúc cây Set Enumeration Tree [8] nên có nhược điểm là sinh quá nhiều tập con, hơn nữa
nếu khung thời gian lớn thì việc xây dựng cây sẽ tiêu tốn nhiều chi phí. Ngoài ra, cây TSET
phải xây dựng lại từ đầu nếu cơ sở dữ liệu thay đổi vì cấu trúc dữ liệu cây này không có khả
năng tăng trưởng. Một cải tiến của TSET-Miner là thuật toán TSETmax-Miner [4] đã cải thiện đáng
kể về số lượng các dãy sự kiện được sinh ra. Tuy nhiên, thuật toán TSETmax-Miner vẫn dựa trên
cấu trúc cây TSET [4] do đó vẫn bị các nhược điểm tương tự như TSET-Miner.
Để khắc phục các nhược điểm trên, bài báo trình bày cấu trúc cây Seq-Tree lưu trữ các dãy
sự kiện phổ biến. Cây Seq-Tree được tạo ra bằng cách kết hợp ngữ nghĩa thời gian vào các nút
trong cây. Hơn nữa, cây Seq-Tree là cây tăng trưởng nên quá trình xây dựng cây chỉ tốn chi phí