Top Banner
336331 การทาเหมืองข้อมูล (Data Mining) สอนโดย อาจารย์ หทัยรัตน์ เกตุมณีชัยรัตน์ ภาควิชาการจัดการเทคโนโลยีการผลิตและสารสนเทศ บทที1: การแนะนาการทาเหมืองข้อมูลเบื้องต ้น
56
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 01 introduction to data mining

336331 การท าเหมองขอมล (Data Mining)

สอนโดย

อาจารย หทยรตน เกตมณชยรตน

ภาควชาการจดการเทคโนโลยการผลตและสารสนเทศ

บทท 1: การแนะน าการท าเหมองขอมลเบองตน

Page 2: 01 introduction to data mining

ความเปนมาของ Data Mining การประมวลผลแฟมขอมล (File Processing) คอ การจดเกบขอมลโดยใชโครงสราง

ขอมลทเหมาะสม (Data Structure) การเรยงล าดบขอมลโดยใชวธการจดล าดบขอมล (Sorting) การท าดชน (Indexing) การคนขอมล (Searching)

ขอดอยทชดเจนของการประมวลผลแฟมขอมล คอ โปรแกรมสารสนเทศทถกพฒนาจากนกพฒนาโปรแกรมคนละกลมไมสามารถใชงานรวมกนได

ขอมลทจดเกบอยขาดความเปนอสระตอระบบของโปรแกรมสารสนเทศเอง ท าใหเปนอปสรรคตอการเปลยนแปลงระบบของโปรแกรมใหกาวหนาและไมยดหยน

Page 3: 01 introduction to data mining

ความเปนมาของ Data Mining (ตอ) ในป ค .ศ. 1960 ไดเ รมมการคนควาหาแนวคดใหมเพอแกไขจดดอยของการประมวลผล

แฟมขอมล ซงเปนจดเรมตนของการปฏวตเทคโนโลยฐานขอมล จนกระทงในป ค.ศ. 1970 ถง ป ค.ศ. 1980 ระบบจดการฐานขอมล (Database Management

Systems) ไดรบการน าเสนอขน โดยระบบจดการฐานขอมลนน จะท าหนาทแทนหนาทการประมวลผลแฟมขอมล ท าใหนกพฒนาโปรแกรมสารสนเทศสามารถพฒนาระบบสารสนเทศและใชงานรวมกนได

และทส าคญขอมลทจดเกบบนระบบจดการฐานขอมลมความเปนอสระตอระบบสารสนเทศ และมความยดหยน ซงมโมเดลฐานขอมลมากมายทไดรบการคดคนเพอน ามาใชส าหรบระบบจดการฐานขอมล โมเดลฐานขอมลทมชอเสยงในชวงเวลานน ไดแก Hierarchical Database System, Network Database System, Relational Database System ในภายหลงโมเดลฐานขอมลแบบ Relational Database System ประสบความส าเรจสงสดและยงคงถกงานอยในปจจบน

Page 4: 01 introduction to data mining

ความเปนมาของ Data Mining (ตอ) และในชวงเวลานเอง ไดมการคดคนโมเดลการออกแบบฐานขอมล (Data modeling) เชน Entity-Relationship Model เทคนคการท าดชนขอมล (B+Tree Indexing) ภาษาทใชสบคนฐานขอมล (SQL: Structure Query Language) การประมวลผลภาษาทใชสบคนฐานขอมล (Query Processing) การปรบแตงสวนการประมวลผลภาษาทใชสบคนขอมล (Query Optimization) การกคนขอมล (Data Recovery) การควบคมหลายหนวยการท างานของฐานขอมล (Concerrency Control) การประมวลผลแบบ On-Line Transaction Processing (OLTP) เกยวของกบการเพม ลด

ปรบปรง และเรยกดขอมล โดยมกจะมผใชระบบอยจ านวนมาก และใชงานพรอม ๆ กน

Page 5: 01 introduction to data mining

ความเปนมาของ Data Mining (ตอ) ดงนน ตงแต ป ค.ศ. 1980 เปนตนมา จงไดมแนวคดใหมเพอแกไขเทคโนโลยฐานขอมล

เนองจากปรมาณการจดเกบขอมลในปจจบนมจ านวนมหาศาลและความตองการน าขอมลทมอยมากมายเหลานมาวเคราะหเพอคนหาขอมลทอาจซอนเรน

ประการแรกคดคนระบบจดการฐานขอมลทท างานเพอการจดเกบขอมลส าหรบการวเคราะหขอมลโดยเฉพาะ จงเกดเทคโนโลยคลงขอมล (Data Warehouse)

และอกประการหนงคอวธการวเคราะหดวย OLAP (Online Analytical Processing) เพอชวยวเคราะหและแสดงผลขอมลในมตตาง ๆ

อยางไรกตาม OLAP ยงมขอจ ากดในเรองความสามารถการวเคราะหขอมลเนองจาก OLAP ใชเทคนคทางคณตศาสตรและสถตมาประยกตใช

ดงนนจงเกดการท าเหมองขอมลขน (Data Mining)

Page 6: 01 introduction to data mining

ความเปนมาของ Data Mining (ตอ) การท าเหมองขอมลน นมเทคนคมากมายจากหลายแขนงของสาขาวชาวทยาการ

คอมพวเตอร ไดแก Statistics, Machine Learning, Information Science และ Visualization จดประสงคของการท าเหมองขอมล คอ เพอวเคราะหและขดเจาะขอมลทมอยจ านวน

มหาศาลเพอใหขอมลเชงลกหรอซอนเรนอยและเปนขอมลทมประโยชน สามารถน าขอมลทไดมาใชท าขนตอนวธใหเปนขอมลทกรองแลว และเปนประโยชนตอ

องคกร ในบางองคกรไดน าการท าเหมองขอมลเพองานดานขาวกรอง เชน NSA Data Mining , CIA Wins Control of Terrorist Data Mining Program, ขาวกรองทางธรกจ (Business Intelligence)

หรอส าหรบวเคราะหขอมลงานวจยดานวทยาศาสตร เชน การท าเหมองขอมลส าหรบชวสารสนเทศศาสตร (Bioinformatics) การท าเหมองขอมลส าหรบขอมลทรพยากรน า(Hydroinformatics) ฯลฯ

Page 7: 01 introduction to data mining

การท าเหมองขอมลคออะไร การท าเหมองขอมล (Data Mining) เปนการคนพบความรในฐานขอมล (Knowledge

Discovery in Database : KDD) คอ กระบวนการทกระท ากบขอมลจ านวนมากเพอคนหารปแบบ (Patterns) และความสมพนธ (associations) ทซอนอยในชดขอมลนน ๆ

Data Mining คอ การน าขอมลจากฐานขอมลมาวเคราะหและประมวลผล โดยการสรางแบบจ าลอง และความสมพนธ

Data Mining คอ ชด software วเคราะหขอมลทไดถกออกแบบมาเพอระบบสนบสนนการตดสนใจของผใช มนเปน software ทสมบรณทงเรองการคนหา การท ารายงาน และโปรแกรมในการจดการ

Page 8: 01 introduction to data mining

ววฒนาการของการวเคราะหขอมลData Collection

-Primitive File Processing

Database management system - Network and relational database management system

- Data Modeling Tools- Query Language

Advanced database management system - Advanced data model

- Object-oriented database management system- Object relational database management system

Decision Support System - Data warehouse

- Data mining- XML-based database System, Web Mining

1970’s

1960’s & earlier

1980’s- present

1990’s- present

Page 9: 01 introduction to data mining

ขอมล สารสนเทศ และความร

ขอมล

ประมวลผลสารสนเทศความร

Page 10: 01 introduction to data mining

เหตผลการท าเหมองขอมล ค ากลาวทวา “ความจ าเปนกอใหเกดสงประดษฐใหม” กลาวคอ ดวยเทคโนโลย

ทางดานฐานขอมลในโลกปจจบน กอใหเกดการเกบขอมลดบในปรมาณมหาศาล และไมสามารถน าขอมลทงหลายมาแปลงใหเปนสารสนเทศ เพอน าความรน นไปใชใหเกดประโยชนกบองคกรได

We are drowning in data, but starving for knowledge!

Page 11: 01 introduction to data mining

เหตผลการท าเหมองขอมล ปญหาการมขอมลลนเหลอ (Data Explosion) แตไมสามารถน าความรในขอมลนนมา

กอใหเกดประโยชน น าไปสหนทางการแกไข โดยวธจดเกบแบบคลงขอมล (Data Warehousing) และการท าเหมองขอมล เพอชวยดงความรทนาสนใจ อาท กฎตางๆ รปแบบ หรอขอจ ากด จากขอมลในฐานขอมลขนาดใหญมาใชใหเกดประโยชน

การเรยนรของเครอง (Machine Learning) เปนสาขาหนงของปญญาประดษฐ (Artificial Intelligence) โดยมงเนนทจะพยายามสอนคอมพวเตอรใหเรยนรไดเหมอนมนษย ดงนนการท าเหมองจงไดน าวธการเรยนรของเครองมาใช

Page 12: 01 introduction to data mining

การบรณาการกนของศาสตรตางๆ ฐานขอมล (Database systems, data warehouses, OLAP) ซงเปนเทคโนโลยการ

จดเกบและรวบรวม และเตรยมขอมลทใชการท าเหมอง การเรยนรของเครอง (Machine Learning) ใชเปนอลกอรทมหลกทใชในการคนหา

รปแบบและความสมพนธทซอนอยในขอมล หลกสถต (Statistic and data analysis methods) ส าหรบวเคราะหขอมลเบองตน ซง

อาจจะชใหเหนถงรปแบบและความสมพนธของขอมลทซอนอยได วทยาศาสตรสารสนเทศ (information science)

Page 13: 01 introduction to data mining

การบรณาการกนของศาสตรตางๆ การโปรแกรมทางคณตศาสตร (mathematical programming) การค านวณประสทธภาพสง (High performance computing) เนองจากขอมลทมาก

จะท าใหการท าเหมองขอมลใชเวลานาน จงจ าเปนตองมการค านวณทรวดเรวรองรบ

การท าจนตทศน (Visualization) เพอแสดงผลลพธ รปแบบ และความสมพนธของขอมลออกมาใหผใชเขาใจงายทสด ซงเปนประโยชนตอการตความและน าผลลพธนนไปใช

Page 14: 01 introduction to data mining

คณสมบตของความรทตองการจากการท าเหมองขอมล มสาระ (nontrivial) มความถกตอง (valid) เปนรปแบบหรอความรใหมทไมเคยทราบมากอน (novel/ previously unknown) น าไปใชใหเปนประโยชนได (potentially useful) นาสนใจ (interesting) สามารถท าความเขาใจได (understandable)

Page 15: 01 introduction to data mining

ประเภทของขอมลทใชในการท าเหมองขอมล Relational database Transactional database Data warehouses Advanced databases and information repositories

Object-oriented and object-relational database Spatial databases

Page 16: 01 introduction to data mining

ประเภทของขอมลทใชในการท าเหมองขอมลTime-series data and temporal dataText databasesMultimedia databaseswww

Page 17: 01 introduction to data mining

Relational Database Database management system (DBMS)

โครงสรางของฐานขอมลประกอบไปดวยกลมของตาราง แตละตารางประกอบดวยเซตของแอตตรบวท (columns or fields)และเกบขอมลเปนจ านวมากดวยเซตของทเปล (Tuple)

Cust_ID name address age income

Credit_info

C1 Smith 111, Chicago,.. 21 $2700 1 ..

Trans_ID Cust_ID Item_ID

Date Time Method_pay amount

001 C1 I3 31/05/10 10:00 Visa $20000

customer

purchase

Page 18: 01 introduction to data mining

Relational DatabaseDatabase management system (DBMS) การคนถามขอมลในฐานขอมล Relational จะใชภาษาเรยกคน SQL เชน ตองการทราบยอดขายทงหมดในปทแลวแยกตามสาขา เปนตน

แต... ไมสามารถใชภาษาเรยกคน SQL ในการคนหาแนวโนม หรอรปแบบของขอมลทซอนอยในฐานขอมล เหมอนทการท าเหมองท าได เชน การท านายความเสยงในการอนมตแกลกคาใหม โดยตองทราบคณลกษณะของ ลกคา ไดแก รายได อาย ประเภททพกอาศย ฯลฯ

Page 19: 01 introduction to data mining

Transactional databases ฐานขอมล Transaction ประกอบไปดวย

แฟมขอมล ระเบยนในแฟมขอมลจะแทนหนง transaction แตละ transaction ประกอบไปดวยเลขท transaction และรายการสงของ เชน รายการสงของทซอจากรานคา

ขอมลในฐานขอมลประเภทน มกเปนขอมล ณ จดขาย เรยกวา point-of-sale

Page 20: 01 introduction to data mining

Transactional databases การท าเหมองขอมลบนฐานขอมล transactional มกน าไปประยกตใชงาน

Market basket analysis เพอเพมยอดขายกลมสนคาทปรากฎกนบอย(frequent itemsets)

Trans_ID Item_ID qty

T100 Item3 1

T100 Item8 2

.. .. ..

.. .. ..

Item_sold

Page 21: 01 introduction to data mining

Data Warehouses คลงขอมล เปนแหลงทเกบขอมลจากแหลงตางๆ ซงแตกตางกน

(Heterogeneous data source) มาจดเกบไวทเดยวกนภายใตโครงสรางการจดเกบเดยวกน (Unified schema)

Query and analysis tools

Client

Data Warehouse

Data Source 1

Data Source 2

Data Source 3

Clean Transform

Integrate Load

Client

Page 22: 01 introduction to data mining

ตวอยาง Data Warehouses Problem of multiple source:

ความแตกตางทางโครงสรางการจดเกบ (Schema Differences) ความแตกตางจากการตงชอ (Naming Differences) ความแตกตางจากประเภทขอมล (Data Type Differences) ความแตกตางจากคา (Value Differences) ความแตกตางจากความหมาย (Semantic Differences) ความแตกตางจากคาขอมลขาดหาย (Missing Values)

Page 23: 01 introduction to data mining

ตวอยาง Data Warehouses

ตวอยาง เชน บรษท QuickCar ขายรถยนตยหอหนง มตวแทนจ าหนาย 3 แหงทวประเทศ แตละแหงมฐานขอมลสตอกรถยนตของตนเอง บรษทน ตองการสรางฐานขอมลกลาง โดยรวมขอมลจากฐานขอมลของตวแทนจ าหนาย 3 แหง มาไวทเดยวกน ประโยชนของการสรางฐานขอมล ไดแก ชวยตวแทนจ าหนายจดหารถยนตตามความตองการของลกคา ในกรณทไมมรถในสตอก

ชวยนกวเคราะหของบรษทในการวเคราะหท านายตลาดได ชวยฝายผลตในการปรบก าลงผลตรนทเปนทตองการของตลาดไดทนทวงท

Page 24: 01 introduction to data mining

ตวอยาง Data Warehouses การบรณาการขอมลจากแหลงเกบขอมล หรอฐานขอมลตางๆ มปญหาความยงยากเนองมาจากความแตกตางของขอมลจากแหลงตางๆ

Query and analysis tools

Client

Data Warehouse

Khon Kaen

Chiang Mai

Songkla

Clean Transform

Integrate Load

Client

Multiple source

Page 25: 01 introduction to data mining

ตวอยาง Data Warehouses ตวอยางการบรณการขอมลเขาดวยกนนน บรษท Quickcar มปญหาทตองค านงถง ดงน มโครงสรางทแตกตางกน (Schema Differences)

Branch A: Cars(serialNo, model, color, autoTrans, cdPlayer, …) Branch B: QuickCar(serial, model, color), Options(serial, option)

การตงชอตารางตางกน เปนปญหาเรอง (Naming Differences)

Branch A: Table name → Cars Branch B: Table name → QuickCar

ประเภทขอมลทตางกน (Data Type Differences)

Branch A: serialNo→ integer Branch B: serial → string

Page 26: 01 introduction to data mining

ตวอยาง Data Warehouses คาขอมลทตางกน (Value Differences)

Branch A: color → “black” Branch B: color → “BL” (confused in BLUE color)

ศพทหรอคาทใชมความหมายตางกน (Semantic Differences)

Branch A: QuickCar→ cars Branch B: QuickCar→ cars and 4x4 W

คาบางคาอาจไมถกจดเกบในฐานขอมลหนงๆ (Missing Values)

Branch A: model → Civic DX, LX or EX Branch B: model → Civic

Page 27: 01 introduction to data mining

Advanced databases and information repositories Object-Oriented Databases

เนองจากการมแอพพลเคชนใหมๆ บนฐานขอมล ซงตองการโครงสรางขอมลทมประสทธภาพ และมวธการทสามารถจดการกบโครงสรางวตถทซบซอน ระเบยนทมความยาวไมแนนอน ขอมลอกษร (text) ขอมลสอผสม (multimedia data) ขอมลทไรโครงสราง เปนตน

Object-Relational Databases

เปนการบรณาการหลกการแนวคดเชงวตถเขากบแบบจ าลองขอมลเชงสมพนธ โดยเพมความสามารถจดการกบขอมลทซบซอนแบบล าดบชนของคลาส และคณสมบตการสบทอดของวตถตางๆ

Page 28: 01 introduction to data mining

Spatial Database ไดแก ฐานขอมลทเกบสภาพภมศาสตร (แผนท) ภาพถายดาวเทยม ภาพถายทาง

การแพทย หรอแผนภาพการออกแบบวงจรรวมขนาดใหญมาก ประโยชนของฐานขอมลประเภทนชวยในการวางแผนงานปาไมและระบบนเวศนวทยา

การท าเหมองขอมลประเภทน อาจจะคนพบรปแบบซงอธบายเกยวกบ สภาพภมอากาศแบบภเขาทระดบความสงตางๆ กน เปนตน

Page 29: 01 introduction to data mining

Time-Series and Temporal Database

ไดแก ฐานขอมลทเกบล าดบคาคณลกษณะทแปรเปลยนไปตามเวลา เชน มลคาหน เปนตน

การท าเหมองขอมลประเภทน จะชวยในการคนพบลกษณะววฒนาการ หรอแนวโนมการเปลยนแปลงของสงทสนใจซงเปนขอมลทจดเกบอยในฐานขอมล หรออาจน าความรทไดไปชวยวางแผนการลงทนซอหนในชวงเวลาทเหมาะสม เปนตน

Page 30: 01 introduction to data mining

Text database เปนฐานขอมลทเกบตวอกษรลวนๆ ไดแก ฐานขอมลสงตพมพ (articles)ขอก าหนดผลตภณฑ รายงานความผดพลาด

การท าเหมองขอมลประเภทนจะชวยในการคนหาความสมพนธระหวางค าส าคญหรอเนอหาและใชความสมพนธทคนพบในการจดกลม เอกสารตามค าทปรากฎในเอกสารนน ซงเปนประโยชนในการสรางตวสบคน

Page 31: 01 introduction to data mining

Multimedia database แอปพลเคชนบนขอมลในปจจบน ไมไดจ ากดอยบนขอมลทเปนตวอกษรหรอ

ตวเลขเทานน แตไดขยายไปถงการท างานกบขอมลทมความซบซอนมากยงขน เชน ขอมลภาพ เสยง เปนตน

การประยกตการท าเหมองขอมลกบฐานขอมลประเภทน ไดแก สวนตอประสานผใชแบบใชเสยง ระบบ voice mail งานการคนคนรปภาพ การท างานบนฐานขอมลประเภทนมความยงยาก จงตองมเทคนคทมประสทธภาพในการจดเกบและการสบคนขอมลขนาดใหญไดทนกาลเวลา เปนตน

Page 32: 01 introduction to data mining

World Wide Web

เปนแหลงเกบขอมลแบบกระจาย (distributed) ทเกบขอมลขนาดมหาศาล และสามารถเขาถงฐานขอมลตางๆ ผานทางอนเตอรเนตในการท าเหมองขอมลบน www เชน การคนหารปแบบการทองไปตาม web pages ตางๆ ของผใช ซงจะเกบขอมลทางเดนการเขาเยยมชมของผใชจะถกบนทกอยใน web access log ประโยชนของการท าเหมอง คอ ชวยใหตดสนใจทางการตลาดไดดขน เชน การวางแผนโฆษณา ชวยในการวเคราะหพฤตกรรมและจ าแนกประเภทลกคา ท าใหทราบลกคากลมเปาหมาย

Page 33: 01 introduction to data mining

ขนตอนการท าเหมองขอมลProblem Understanding-Determine objective-Define success criteria-Asses situation-Determine data mining goals-Produce a project plan

Modeling-Select modeling technique-Generate test design-Build a model-Asses the model

Data Understanding-Collect initial data-Define success criteria-Describe data-Explore data-Verify data quality

Data Preparation-Select data-Clean data-Transform data

Evaluation-Evaluate Results-Review process-Determine next steps

Deployment-Plan the deployment-monitor and maintain-Final Report

Page 34: 01 introduction to data mining

ขนตอนการท าเหมองขอมล

1. การท าความเขาใจปญหา ประกอบดวยกระบวนการยอย ดงน ตงเปาหมายวาการท าเหมองขอมลครงนตองการทจะแกปญหา ตงเกณฑวดความส าเรจในการท าเหมองขอมล ซงอาจเปนไดทงความส าเรจในดานรปธรรม เชน สามารถเพมยอดขายสนคาได 5% และความส าเรจในดานนามธรรม เชน สามารถคนพบความรใหมจากขอมล

การประเมนสถานการณในดานตางๆ ตงเปาหมายในเชงการท าเหมองขอมล วางแผนการท าเหมองขอมล

Page 35: 01 introduction to data mining

ขนตอนการท าเหมองขอมล2. การท าความเขาใจขอมล ประกอบดวยกระบวนการยอย ดงน

เกบรวบรวมขอมล ก าหนดคณสมบตของขอมลทเกบมาได ส ารวจดขอมลอยางคราวๆ ถงคาสถตตางๆ ของขอมล ตรวจสอบขอมลขนตน โดยตรวจสอบทงความสมบรณและความถกตองของขอมล

Page 36: 01 introduction to data mining

ขนตอนการท าเหมองขอมล3. การเตรยมขอมล ประกอบดวยกระบวนการยอย ดงน

คดเลอกขอมลทจะน ามาใช การท าความสะอาดขอมล แกไขขอมลในถกตองสมบรณ

การตรวจจบและก าจดคาขอมลรบกวน หรอขอมลผดปกต ปรบเปลยนรปแบบขอมล ลดรปขอมล เชน การท าใหเปนคาไมตอเนอง หรอแทนคาขอมลดวยคาทมความเปนทวไป

Page 37: 01 introduction to data mining

ขนตอนการท าเหมองขอมล4. การสรางแบบจ าลอง ประกอบดวยกระบวนการยอย ดงน

เลอกอลกอรทมทเหมาะสมในการท าเหมองขอมล ก าหนดรปแบบการทดสอบผลลพธ สรางแบบจ าลองตามอลกอรทมทเลอก ทดสอบแบบจ าลองทไดมานนวามความถกตองและนาเชอถอเพยงใด

Page 38: 01 introduction to data mining

ขนตอนการท าเหมองขอมล

5. การประเมน อาจจะประเมนแบบจ าลองทสรางขนดวยการลองน าไปใชกบสถานการณจรงหรอน าไปใชในสถานการณทจ าลองขน เพอดวาแบบจ าลองนไดผลหรอไมเพยงใด และมความผดพลาดตรงไหนบาง

6. การน าไปใช น าไปใชและตรวจสอบผลวาบรรลเปาหมายทตงไวเพยงใด

Page 39: 01 introduction to data mining

สวนประกอบทส าคญของระบบการท าเหมองขอมล

Graphical User Interface

Pattern Evaluation

Data Mining Engine

Database or Data Warehouse Server

Database warehouse

FilteringData Preprocessing:-Data Cleaning-Data Integration

KnowledgeBase

Page 40: 01 introduction to data mining

สวนประกอบทส าคญของระบบการท าเหมองขอมล Database & Data Warehouse เปนแหลงทเกบขอมลอนๆ เชน แฟมขอมล สเปรดชท ซงเปนแหลงทเกบขอมลดบส าหรบการท าเหมองขอมล

Database/Data Warehouse server ท าหนาทน าเขาขอมลตามค าขอของผใช

Knowledge base ไดแก ความรในงานทท าจะเปนประโยชนตอการชน าทางการสบคน หรอการประเมนความนาสนใจของรปแบบผลลพธทได โดยเปนความรเฉพาะดานในงานทท า เชน ความรเฉพาะทางการแพทย หรอดาราศาสตร เปนตน

Page 41: 01 introduction to data mining

สวนประกอบทส าคญของระบบการท าเหมองขอมล Data Mining Engine เปนสวนประกอบหลก ประกอบดวยโมดล (Modules) ซง

รบผดชอบงานท าเหมองประเภทตางๆ ไดแก การหากฎความสมพนธ การจ าแนกประเภท การจดกลม เปนตน

Pattern Evaluation Module ท างานรวมกบ Data Mining Engine โดยใชคาขดแบงมาตรวดความนาสนใจในการกลนกรองรปแบบผลลพธทได ซงใชประเมนความนาสนใจของรปแบบการท าเหมองทได

Graphical User Interface สวนตดตอประสานระหวางผใชกบระบบท าเหมอง ซงชวยใหผใชสามารถระบงานท าเหมองทตองการ

Page 42: 01 introduction to data mining

กลยทธในการท าเหมองขอมล

DM Strategies

Predictive or Supervised Modeling

Descriptive or Unsupervised Modeling

Classification Prediction

Estimation/ Regression

Associations Clustering

Page 43: 01 introduction to data mining

กลยทธในการท าเหมองขอมล

1. แบบจ าลองในการท านาย (Predictive/ Supervised Modeling) เปนผลลพธทสรางจากการอนมาน (Inference) ชดขอมลปจจบน เพอใชในการท านายประเภทตวอยางในอนาคต

2. แบบจ าลองในการบรรยาย (Descriptive/ Unsupervised Modeling) ในทนอาจเปนการหาความสมพนธตางๆ (Association) หรอหาการจดกลมขอมล (Clustering) ซงไมไดมจดมงหมายเพอการท านาย

Page 44: 01 introduction to data mining

งานส าหรบการท าเหมองขอมลการท าเหมองกฎความสมพนธ (Mining Association Rules) การคนหากฎความสมพนธ มกเปนงานท าเหมองบนฐานขอมล Transactional เพอ

คนหาสหสมพนธ (correlation) หรอความเปนเหตแลผล (causality) ของสงของ สวนใหญจะใชในการชวยการวเคราะห Market basket analysis

การหากฎความสมพนธแสดงอยในรปแบบ

หมายถง การเกดขของไอเทมเซต x เกดขนรวมกนของไอเทมเซต Y ดวยคาสนบสนน (Support) และคาความเชอมน (Confidence)

ไอเทมเซต เชน เซตของสนคาในราน หรอเซตของประเภทบรการ

X → Y

Page 45: 01 introduction to data mining

ตวอยาง: งานส าหรบการท าเหมองขอมล AllElectronics shop relation database, a data mining system may find

association rule:“Single-dimensional association rules”

computer → software orcontains (T, “computer”) → contains (T, “software”)

[support = 1%, confidence = 50%] T contains “computer”, ther is a 50% chance that it contains

“software” 1% of all of the transactions contain “software”

Page 46: 01 introduction to data mining

ตวอยาง: งานส าหรบการท าเหมองขอมล AllElectronics shop relation database, a data mining system may find association

rule:“Multidimensional association rule”

Age(X, “20..29”) income (X, “20K..29K”) → buys (X, “CD player”)[support = 2%, confidence = 60%]

2% support are 20 to 29 year of age with an income of 20K to 29K and have purchased a CD player at AllElectronics shop

60% probability that a customer in this age and income group will purchase a CD player

Page 47: 01 introduction to data mining

งานส าหรบการท าเหมองขอมล การท าเหมองจ าแนกประเภทขอมลและการท านาย

เปนการคนหาแบบจ าลองหรอฟงกชน ผลลพธทไดจากการท าเหมองอาจจะอยในรปแบบตนไมตดสนใจ กฎการจ าแนกประเภทขอมล หรอเครอขายประสาทเทยม เปนตน

Page 48: 01 introduction to data mining

ตวอยาง: งานส าหรบการท าเหมองขอมล

Classification: Decision Tree

Age Rent Period Buy233620272050363622

31.51.521

2.512

2.5

NoNoNoYesNoYesNoYesno

Business Info

Rent Property

Customer renting property > 2 year?

Customer age > 25 year?

Rent Property

Buy Property

YesNo

No Yes

Page 49: 01 introduction to data mining

ตวอยาง: งานส าหรบการท าเหมองขอมล Prediction: Neural Network

Customer renting property > 2 years ?

Customer age

> 25 years ?

0.6

0.4

0.5

0.3

0.7

0.4

Class (Rent or buy property

Page 50: 01 introduction to data mining

งานส าหรบการท าเหมองขอมลการท าเหมองวเคราะหการจดกลม

เปนการตรวจหากลมตามธรรมชาตของขอมล โดยพจารณาจากคามาตรวดทก าหนด วาวตถทอยกลมเดยวกนจะมความคลายคลงกนมากทสด และวตถตางกลมจะมความคลายคลงนอยทสด

Max. the intraclass

Min. the intrerclass

Class A

Class B

Page 51: 01 introduction to data mining

งานส าหรบการท าเหมองขอมลการท าเหมองวเคราะหขอมลผดปกต

ปกตขอมลทมคาสงหรอคาต ากวาผดปกต มกจะถกเปนขอมลรบกวน แตบางกรณมกจะมประโยชน เชน

monthly

Payment (baht)

1 10,000.00

2 15,000.00

3 1,500,000.00

2010

monthly

Payment (baht)

1 25,000.00

2 30,000.00

3 17,000.00

.. …

12 23,500.00

… 2009

Outlier value can be detected-Location-Type of purchase-Purchase frequency

Page 52: 01 introduction to data mining

งานส าหรบการท าเหมองขอมล

การท าเหมองวเคราะหแนวโนมหรอววฒนาการ

เปนงานท าเหมองขอมลทเ กยวกบเวลา เพอบรรยายและสรางแบบจ าลองของความสม าเสมอ หรอแนวโนมของวตถซงมพฤตกรรมเปลยนแปลงไปตามเวลา โดยชวยท านายแนวโนมในอนาคต เชน ราคาหน

Page 53: 01 introduction to data mining

การประยกตใชงานการท าเหมองขอมลเพอการวเคราะหฐานขอมลและสนบสนนการตดสนใจ ไดแก

การวเคราะหการตลาดและการจดการ เชน การตลาดเพอก าหนดลกคากลมเปาหมาย เฉพาะผลตภณฑ การตลาดเพอคงไวซงลกคาเดม การวเคราะหตะกราตลาด (Market Basket Analysis)

การวเคราะหความเสยงและการจดการ ไดแก การประยกตใชการท าเหมองขอมลกบ การแขงขนทางธรกจ เชน การท านายทศทางการตลาด การวเคราะหสนทรพยและการวางแผนการเงน เชน การวเคราะหแนวโนมการ

เปลยนแปลง การตรวจจบการปลอมแปลง

Page 54: 01 introduction to data mining

แอปพลเคชนอน ไดแก

การวเคราะหเวบ ไดแก การท าเหมองเสนทางการทองเวบ (Mining Path Traversal) โดยวเคราะหแฟมบนทกการเขาเยยมชมเวบตางๆ ของผใช เพอคนหาพฤตกรรม เปนตน

การวเคราะหทางการแพทย งานดานดาราศาสตร งานดานการกฬา

Page 55: 01 introduction to data mining

Data Mining Program Oracle Data Warehouse Building

SQL Analysis

Weka

RapidMiner

Knime

Keel

Page 56: 01 introduction to data mining