Top Banner
KHAI PHÁ WEB DATA MINING o Võ Minh Phát o Phan Sơn Hải
31

Webmining[final]

Jun 29, 2015

Download

Education

Hari Hari
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Webmining[final]

KHAI PHÁ WEBDATA MINING

o Võ Minh Pháto Phan Sơn Hải

Page 2: Webmining[final]

NỘI DUNG

Giới thiệu về khai phá web

Khai phá nội dung

Khai phá cấu trúc

Khai phá sử dụng web

Page 3: Webmining[final]

GIỚI THIỆU

Page 4: Webmining[final]

KHÁI NIỆM

Trích chọn ra các thành phần được quan tâm hay được đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan đến World Wide Web.

Page 5: Webmining[final]

KHAI PHÁ WEB

Xử lý ngôn ngữ tự nhiên

Khai phá dữ

liệu

World Wide Web

Page 6: Webmining[final]

WEBSITE – THỐNG KÊ

255 triệu – Số website tính đến thời điểm tháng 12/2010.

21.4 triệu – Số website mới của năm 2010

http://www.pingdom.com

Page 7: Webmining[final]

ĐẶC TRƯNG WEB

Quá lớn để tổ chức thành kho dữ liệu

Độ phức tạp là rất lớn

Là một nguồn tài nguyên thông tin có độ thay đổi cao

Phục vụ một cộng đồng người dùng rộng lớn và đa dạng

Chỉ một phần rất nhỏ của thông tin trên web là thực sự hữu ích

Page 8: Webmining[final]

THUẬN LỢI

Tính «dữ liệu bán cấu trúc»

Không chỉ có các trang mà còn có các liên kết

Weblog entry

Page 9: Webmining[final]

CÁC BÀI TOÁN ỨNG DỤNG

Khai phá dữ liệu text + bổ sung các yếu tố của miền ứng dụng dữ liệu web

Khai phá dữ liệu mang tính đặc thù của Web

Page 10: Webmining[final]

PHÂN LOẠI

KHAI PHÁ WEB

KHAI PHÁ NỘI DUNG WEB

KHAI PHÁ NỘI DUNG TRANG

WEB

TỐI ƯU HOÁ KẾT QUẢ TRẢ

VỀKHAI PHÁ CẤU

TRÚC

KHAI PHÁ SỬ DỤNG WEB

KHAI PHÁ CÁC MẪU TRUY CẬP

PHÂN TÍCH CÁC XU HƯỚNG CÁ

NHÂN

Page 11: Webmining[final]

KHAI PHÁ NỘI DUNG

Page 12: Webmining[final]

WEB PAGE SUMMARIZATION

Truy xuất các thông tin từ các văn bản có cấu trúc, văn bản siêu liên kết, hay các văn bản bán cấu trúc.

Liên quan chủ yếu tới việc khai phá bản thân nội dung các văn bản.

Page 13: Webmining[final]

SEARCH ENGINE RESULT SUMMARIZATION

Tìm ra những trang Web thoả mãn yêu cầu

Chọn lọc kết quả theo mức độ hợp lệ với yêu cầu người dùng

Page 14: Webmining[final]

QUÁ TRÌNH KHAI PHÁ TEXT

Thu thập dữ liệu text thuộc miền ứng dụng

Biểu diễn sang khuôn dạng phù hợp

Lựa chọn tập dữ liệu đầu vào

Thực hiện thuật toán khai phá dữ liệu

Khai thác sử dụng

Page 15: Webmining[final]

LĨNH VỰC ỨNG DỤNG

Y tế và chăm sóc sức khoẻ

Sinh học

An toàn thông tin

Phát triển phần mềm

...

Page 16: Webmining[final]

KHAI PHÁ CẤU TRÚC

Page 17: Webmining[final]

ĐỊNH NGHĨALà quá trình xử lý, nhằm rút ra các tri thức từ cách tổ chức và liên kết giữa các tham chiếu của các trang web.

Gồm: Khai phá đồ thị Web Khai phá cấu trúc Web

Page 18: Webmining[final]

KHAI PHÁ ĐỒ THỊ WEB

WEB

WEBWEB

WEBWEB

WEB

WEB

WEB

LINK

LINK

LINK

LINK

LINK

LINK

LINK LINKLINK

LINK

LINK

Page 19: Webmining[final]

VÍ DỤ

Page 20: Webmining[final]

KHAI PHÁ ĐỒ THỊ WEB

Hạng trang Web: tính “độ quan trọng” của một trang Web.

Page 21: Webmining[final]

KHAI PHÁ ĐỒ THỊ WEB

Page 22: Webmining[final]

KHAI PHÁ CẤU TRÚC TRANG WEB

Cấu trúc trang Web

Trang Web tuân thủ theo quy định của ngôn ngữ định dạng trang web (HTML,…)

Trang web được tổ chức dưới dạng hình cây.

Output khai phá cấu trúc là input khai phá dữ liệu

Phân tích cấu trúc trang Web

Tìm các mẫu cấu trúc trang Web

Kết hợp với khai phá nội dung Web

Page 23: Webmining[final]

SITE MAP

Page 24: Webmining[final]

KHAI PHÁ SỬ DỤNG WEB

Page 25: Webmining[final]

ĐỊNH NGHĨAXử lý để lấy ra các thông tin hữu ích trong hồ sơ truy cập web.

Gồm: Phân tích các mẫu truy cập Phân tích xu hướng cá nhân

Page 26: Webmining[final]

PHÂN TÍCH CÁC MẪU TRUY CẬP

Định nghĩa: Phân tích các Web log để khám phá ra các mẫu truy cập của người dùng.

IP, TIME, Browser, Device

Page 27: Webmining[final]

VÍ DỤ:

Page 28: Webmining[final]

VÍ DỤ

Page 29: Webmining[final]

PHÂN TÍCH XU HƯỚNG CÁ NHÂN

Định nghĩa: Phân tích các mẫu truy cập của người dùng tại mỗi thời điểm để biết xu

hướng truy cập trang Web của từng đối tượng người dùng tại mỗi thời điểm khác nhau.

Giới thiệu

“Cá nhân hóa”: Thông tin cá nhân và tư vấn cá nhân hóa

Thông tin cá nhân: CSDL quản lý; Máy khách..

Ngữ cảnh làm việc của cá nhân: vào mấy giờ user đó truy cập vào, mục hay truy cập…

Page 30: Webmining[final]

Hệ thống khai phá sử dụng Web tư vấn

hướng cá nhân

Page 31: Webmining[final]

THANKS FOR LISTENING!

END