1 Ch Ch ươ ươ ng ng 8: 8: Ứng Ứng dụng dụng khai khai phá phá dữ dữ liệu liệu Họckỳ 1 – 2011-2012 Khoa Khoa Khoa Khoa Học Học & & Kỹ Kỹ Thuật Thuật Máy Máy Tính Tính Tr Tr ư ư ờng ờng Đ Đ ại ại Học Học Bách Bách Khoa Khoa Tp Tp . . Hồ Hồ Chí Chí Minh Minh Cao Cao Học Học Ngành Ngành Khoa Khoa Học Học Máy Máy Tính Tính Giáo Giáo trình trình đ đ iện iện tử tử Biên Biên soạn soạn bởi bởi : TS. : TS. Võ Võ Thị Thị Ngọc Ngọc Châu Châu ( ( [email protected][email protected]) )
23
Embed
Chương 8: Ứng dụng khai phá dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm_-_chapter_8... · 1 1 Chương 8: Ứng dụng khai phá dữliệu Họckỳ1
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Tài liệu tham khảo[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001.[3] David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008.[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006.[5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009.[6] Daniel T. Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006.[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine learning tools and techniques”, Second Edition, Elsevier Inc, 2005. [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, “Successes and new directions in data mining”, IGI Global, 2008.[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + BusinessMedia, LLC 2005, 2010.
3
3
Nội dungChương 1: Tổng quan về khai phá dữ liệuChương 2: Các vấn đề tiền xử lý dữ liệuChương 3: Hồi qui dữ liệuChương 4: Phân loại dữ liệuChương 5: Gom cụm dữ liệuChương 6: Luật kết hợpChương 7: Khai phá dữ liệu và công nghệ cơ sởdữ liệuChương 8: Ứng dụng khai phá dữ liệuChương 9: Các đề tài nghiên cứu trong khai phádữ liệuChương 10: Ôn tập
4
4
Chương 8: Ứng dụng khai phá dữliệu
8.1. Tổng quan về vấn đề phát triển ứngdụng khai phá dữ liệu
8.2. Qui trình phát triển ứng dụng khaiphá dữ liệu
8.3. Các chuẩn dành cho khai phá dữ liệu
8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu
8.5. Tóm tắt
5
5
8.1. Tổng quan về vấn đề phát triển ứngdụng khai phá dữ liệu
Vấn đề dữ liệuLượng và chất lượng dữ liệu
Kiểu dữ liệu
Vấn đề tri thức từ quá trình khai pháBiểu diễn và tích hợp vào ứng dụng
Vấn đề kỹ thuật khai pháLựa chọn giải thuật khai phá
Vấn đề hiệu quả (effective) và hiệu suất(efficient)
6
6
8.2. Qui trình phát triển ứng dụng khaiphá dữ liệu
Qui trình phát triển ứng dụng
Qui trình phát triển ứng dụng khai phádữ liệu
Tương đồng và khác biệt
7
7
8.3. Các chuẩn dành cho khai phá dữ liệu
The Predictive Model Markup Language (PMML – www.dmg.org)
Standard application programming interfaces (APIs)
The Cross-Industry Standard Process for Data Mining (CRISP-DM – www.crisp-dm.org)
Nguồn: R. L. Grossman, M. F. Hornick, G. Meyer, Data Mining Standards Initiatives, Communications of the ACM 45 (8) 2002 59-61.
8
8
8.3. Các chuẩn dành cho khai phá dữ liệu
The Predictive Model Markup Language (PMML – www.dmg.org)
Chuẩn dựa trên XMLMô tả các mô hình thống kê và khai phá dữ liệu, các tácvụ làm sạch và biến đổi dữ liệu
Các thành phần của PMMLData dictionary
Mining schema
Transformation dictionary
Model statistics
Models
9
9
8.3. Các chuẩn dành cho khai phá dữ liệu
10
10
8.3. Các chuẩn dành cho khai phá dữ liệu
11
11
8.3. Các chuẩn dành cho khai phá dữ liệu
12
12
8.3. Các chuẩn dành cho khai phá dữ liệu
Standard application programming interfaces (APIs)
SQL/MM Part 6: Data Mining
The Java Specification Request-73 (JSR-73)
Jcp.org/jsr/detail/073.jsp
Microsoft APIs
Microsoft.AnalysisServices.AdomdClient
13
13
8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu
Các công cụ mã nguồn mở (open-source tools)
Các công cụ thương mại
14
14
8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu
Các công cụ mã nguồn mở (open-source)R (www.r-project.org)
Tanagra (eric.univ-lyon2.fr/~ricco/tanagra/)
Weka (www.cs.waikato.ac.nz/ml/weka)
YALE (rapid-i.com)
KNIME (www.knime.org)
Orange (www.ailab.si/orange)
…
Nguồn: B. Zupan, J. Demsar, “Open-Source Tools for Data Mining”, Clinics in Laboratory Medicine28(2008) 37-54.
15
15
8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu
16
16
8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu
17
17
8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu
18
18
8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu
19
19
8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu
20
20
8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu
21
21
8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu
Các công cụ thương mại
Hỗ trợ từ Intelligent Miner (IBM)
Hỗ trợ từ Microsoft data mining tools (MS SQL Server 2000/2005/2008)
Hỗ trợ từ Oracle Data Mining
Hỗ trợ từ Enterprise Miner (SAS Institute)
…
22
22
8.5. Tóm tắt
Xem xét sự tương đồng/khác biệt giữa qui trình phát triển ứng dụng truyền thống vàứng dụng khai phá dữ liệu
Sự cần thiết của các chuẩn (standards) dànhcho khai phá dữ liệu
Sự quan tâm của các nhà sản xuất phầnmềm đối với việc hỗ trợ phát triển ứngdụng khai phá dữ liệu