KHAI PHÁ WEB DATA MINING o Võ Minh Phát o Phan Sơn Hải
KHAI PHÁ WEBDATA MINING
o Võ Minh Pháto Phan Sơn Hải
NỘI DUNG
Giới thiệu về khai phá web
Khai phá nội dung
Khai phá cấu trúc
Khai phá sử dụng web
GIỚI THIỆU
KHÁI NIỆM
Trích chọn ra các thành phần được quan tâm hay được đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan đến World Wide Web.
KHAI PHÁ WEB
Xử lý ngôn ngữ tự nhiên
Khai phá dữ
liệu
World Wide Web
WEBSITE – THỐNG KÊ
255 triệu – Số website tính đến thời điểm tháng 12/2010.
21.4 triệu – Số website mới của năm 2010
http://www.pingdom.com
ĐẶC TRƯNG WEB
Quá lớn để tổ chức thành kho dữ liệu
Độ phức tạp là rất lớn
Là một nguồn tài nguyên thông tin có độ thay đổi cao
Phục vụ một cộng đồng người dùng rộng lớn và đa dạng
Chỉ một phần rất nhỏ của thông tin trên web là thực sự hữu ích
THUẬN LỢI
Tính «dữ liệu bán cấu trúc»
Không chỉ có các trang mà còn có các liên kết
Weblog entry
CÁC BÀI TOÁN ỨNG DỤNG
Khai phá dữ liệu text + bổ sung các yếu tố của miền ứng dụng dữ liệu web
Khai phá dữ liệu mang tính đặc thù của Web
PHÂN LOẠI
KHAI PHÁ WEB
KHAI PHÁ NỘI DUNG WEB
KHAI PHÁ NỘI DUNG TRANG
WEB
TỐI ƯU HOÁ KẾT QUẢ TRẢ
VỀKHAI PHÁ CẤU
TRÚC
KHAI PHÁ SỬ DỤNG WEB
KHAI PHÁ CÁC MẪU TRUY CẬP
PHÂN TÍCH CÁC XU HƯỚNG CÁ
NHÂN
KHAI PHÁ NỘI DUNG
WEB PAGE SUMMARIZATION
Truy xuất các thông tin từ các văn bản có cấu trúc, văn bản siêu liên kết, hay các văn bản bán cấu trúc.
Liên quan chủ yếu tới việc khai phá bản thân nội dung các văn bản.
SEARCH ENGINE RESULT SUMMARIZATION
Tìm ra những trang Web thoả mãn yêu cầu
Chọn lọc kết quả theo mức độ hợp lệ với yêu cầu người dùng
QUÁ TRÌNH KHAI PHÁ TEXT
Thu thập dữ liệu text thuộc miền ứng dụng
Biểu diễn sang khuôn dạng phù hợp
Lựa chọn tập dữ liệu đầu vào
Thực hiện thuật toán khai phá dữ liệu
Khai thác sử dụng
LĨNH VỰC ỨNG DỤNG
Y tế và chăm sóc sức khoẻ
Sinh học
An toàn thông tin
Phát triển phần mềm
...
KHAI PHÁ CẤU TRÚC
ĐỊNH NGHĨALà quá trình xử lý, nhằm rút ra các tri thức từ cách tổ chức và liên kết giữa các tham chiếu của các trang web.
Gồm: Khai phá đồ thị Web Khai phá cấu trúc Web
KHAI PHÁ ĐỒ THỊ WEB
WEB
WEBWEB
WEBWEB
WEB
WEB
WEB
LINK
LINK
LINK
LINK
LINK
LINK
LINK LINKLINK
LINK
LINK
VÍ DỤ
KHAI PHÁ ĐỒ THỊ WEB
Hạng trang Web: tính “độ quan trọng” của một trang Web.
KHAI PHÁ ĐỒ THỊ WEB
KHAI PHÁ CẤU TRÚC TRANG WEB
Cấu trúc trang Web
Trang Web tuân thủ theo quy định của ngôn ngữ định dạng trang web (HTML,…)
Trang web được tổ chức dưới dạng hình cây.
Output khai phá cấu trúc là input khai phá dữ liệu
Phân tích cấu trúc trang Web
Tìm các mẫu cấu trúc trang Web
Kết hợp với khai phá nội dung Web
SITE MAP
KHAI PHÁ SỬ DỤNG WEB
ĐỊNH NGHĨAXử lý để lấy ra các thông tin hữu ích trong hồ sơ truy cập web.
Gồm: Phân tích các mẫu truy cập Phân tích xu hướng cá nhân
PHÂN TÍCH CÁC MẪU TRUY CẬP
Định nghĩa: Phân tích các Web log để khám phá ra các mẫu truy cập của người dùng.
IP, TIME, Browser, Device
VÍ DỤ:
VÍ DỤ
PHÂN TÍCH XU HƯỚNG CÁ NHÂN
Định nghĩa: Phân tích các mẫu truy cập của người dùng tại mỗi thời điểm để biết xu
hướng truy cập trang Web của từng đối tượng người dùng tại mỗi thời điểm khác nhau.
Giới thiệu
“Cá nhân hóa”: Thông tin cá nhân và tư vấn cá nhân hóa
Thông tin cá nhân: CSDL quản lý; Máy khách..
Ngữ cảnh làm việc của cá nhân: vào mấy giờ user đó truy cập vào, mục hay truy cập…
Hệ thống khai phá sử dụng Web tư vấn
hướng cá nhân
THANKS FOR LISTENING!
END