336331 การทาเหมืองข้อมูล (Data Mining) สอนโดย อาจารย์ หทัยรัตน์ เกตุมณีชัยรัตน์ ภาควิชาการจัดการเทคโนโลยีการผลิตและสารสนเทศ บทที่ 1: การแนะนาการทาเหมืองข้อมูลเบื้องต ้น
Jul 11, 2015
336331 การท าเหมองขอมล (Data Mining)
สอนโดย
อาจารย หทยรตน เกตมณชยรตน
ภาควชาการจดการเทคโนโลยการผลตและสารสนเทศ
บทท 1: การแนะน าการท าเหมองขอมลเบองตน
ความเปนมาของ Data Mining การประมวลผลแฟมขอมล (File Processing) คอ การจดเกบขอมลโดยใชโครงสราง
ขอมลทเหมาะสม (Data Structure) การเรยงล าดบขอมลโดยใชวธการจดล าดบขอมล (Sorting) การท าดชน (Indexing) การคนขอมล (Searching)
ขอดอยทชดเจนของการประมวลผลแฟมขอมล คอ โปรแกรมสารสนเทศทถกพฒนาจากนกพฒนาโปรแกรมคนละกลมไมสามารถใชงานรวมกนได
ขอมลทจดเกบอยขาดความเปนอสระตอระบบของโปรแกรมสารสนเทศเอง ท าใหเปนอปสรรคตอการเปลยนแปลงระบบของโปรแกรมใหกาวหนาและไมยดหยน
ความเปนมาของ Data Mining (ตอ) ในป ค .ศ. 1960 ไดเ รมมการคนควาหาแนวคดใหมเพอแกไขจดดอยของการประมวลผล
แฟมขอมล ซงเปนจดเรมตนของการปฏวตเทคโนโลยฐานขอมล จนกระทงในป ค.ศ. 1970 ถง ป ค.ศ. 1980 ระบบจดการฐานขอมล (Database Management
Systems) ไดรบการน าเสนอขน โดยระบบจดการฐานขอมลนน จะท าหนาทแทนหนาทการประมวลผลแฟมขอมล ท าใหนกพฒนาโปรแกรมสารสนเทศสามารถพฒนาระบบสารสนเทศและใชงานรวมกนได
และทส าคญขอมลทจดเกบบนระบบจดการฐานขอมลมความเปนอสระตอระบบสารสนเทศ และมความยดหยน ซงมโมเดลฐานขอมลมากมายทไดรบการคดคนเพอน ามาใชส าหรบระบบจดการฐานขอมล โมเดลฐานขอมลทมชอเสยงในชวงเวลานน ไดแก Hierarchical Database System, Network Database System, Relational Database System ในภายหลงโมเดลฐานขอมลแบบ Relational Database System ประสบความส าเรจสงสดและยงคงถกงานอยในปจจบน
ความเปนมาของ Data Mining (ตอ) และในชวงเวลานเอง ไดมการคดคนโมเดลการออกแบบฐานขอมล (Data modeling) เชน Entity-Relationship Model เทคนคการท าดชนขอมล (B+Tree Indexing) ภาษาทใชสบคนฐานขอมล (SQL: Structure Query Language) การประมวลผลภาษาทใชสบคนฐานขอมล (Query Processing) การปรบแตงสวนการประมวลผลภาษาทใชสบคนขอมล (Query Optimization) การกคนขอมล (Data Recovery) การควบคมหลายหนวยการท างานของฐานขอมล (Concerrency Control) การประมวลผลแบบ On-Line Transaction Processing (OLTP) เกยวของกบการเพม ลด
ปรบปรง และเรยกดขอมล โดยมกจะมผใชระบบอยจ านวนมาก และใชงานพรอม ๆ กน
ความเปนมาของ Data Mining (ตอ) ดงนน ตงแต ป ค.ศ. 1980 เปนตนมา จงไดมแนวคดใหมเพอแกไขเทคโนโลยฐานขอมล
เนองจากปรมาณการจดเกบขอมลในปจจบนมจ านวนมหาศาลและความตองการน าขอมลทมอยมากมายเหลานมาวเคราะหเพอคนหาขอมลทอาจซอนเรน
ประการแรกคดคนระบบจดการฐานขอมลทท างานเพอการจดเกบขอมลส าหรบการวเคราะหขอมลโดยเฉพาะ จงเกดเทคโนโลยคลงขอมล (Data Warehouse)
และอกประการหนงคอวธการวเคราะหดวย OLAP (Online Analytical Processing) เพอชวยวเคราะหและแสดงผลขอมลในมตตาง ๆ
อยางไรกตาม OLAP ยงมขอจ ากดในเรองความสามารถการวเคราะหขอมลเนองจาก OLAP ใชเทคนคทางคณตศาสตรและสถตมาประยกตใช
ดงนนจงเกดการท าเหมองขอมลขน (Data Mining)
ความเปนมาของ Data Mining (ตอ) การท าเหมองขอมลน นมเทคนคมากมายจากหลายแขนงของสาขาวชาวทยาการ
คอมพวเตอร ไดแก Statistics, Machine Learning, Information Science และ Visualization จดประสงคของการท าเหมองขอมล คอ เพอวเคราะหและขดเจาะขอมลทมอยจ านวน
มหาศาลเพอใหขอมลเชงลกหรอซอนเรนอยและเปนขอมลทมประโยชน สามารถน าขอมลทไดมาใชท าขนตอนวธใหเปนขอมลทกรองแลว และเปนประโยชนตอ
องคกร ในบางองคกรไดน าการท าเหมองขอมลเพองานดานขาวกรอง เชน NSA Data Mining , CIA Wins Control of Terrorist Data Mining Program, ขาวกรองทางธรกจ (Business Intelligence)
หรอส าหรบวเคราะหขอมลงานวจยดานวทยาศาสตร เชน การท าเหมองขอมลส าหรบชวสารสนเทศศาสตร (Bioinformatics) การท าเหมองขอมลส าหรบขอมลทรพยากรน า(Hydroinformatics) ฯลฯ
การท าเหมองขอมลคออะไร การท าเหมองขอมล (Data Mining) เปนการคนพบความรในฐานขอมล (Knowledge
Discovery in Database : KDD) คอ กระบวนการทกระท ากบขอมลจ านวนมากเพอคนหารปแบบ (Patterns) และความสมพนธ (associations) ทซอนอยในชดขอมลนน ๆ
Data Mining คอ การน าขอมลจากฐานขอมลมาวเคราะหและประมวลผล โดยการสรางแบบจ าลอง และความสมพนธ
Data Mining คอ ชด software วเคราะหขอมลทไดถกออกแบบมาเพอระบบสนบสนนการตดสนใจของผใช มนเปน software ทสมบรณทงเรองการคนหา การท ารายงาน และโปรแกรมในการจดการ
ววฒนาการของการวเคราะหขอมลData Collection
-Primitive File Processing
Database management system - Network and relational database management system
- Data Modeling Tools- Query Language
Advanced database management system - Advanced data model
- Object-oriented database management system- Object relational database management system
Decision Support System - Data warehouse
- Data mining- XML-based database System, Web Mining
1970’s
1960’s & earlier
1980’s- present
1990’s- present
ขอมล สารสนเทศ และความร
ขอมล
ประมวลผลสารสนเทศความร
เหตผลการท าเหมองขอมล ค ากลาวทวา “ความจ าเปนกอใหเกดสงประดษฐใหม” กลาวคอ ดวยเทคโนโลย
ทางดานฐานขอมลในโลกปจจบน กอใหเกดการเกบขอมลดบในปรมาณมหาศาล และไมสามารถน าขอมลทงหลายมาแปลงใหเปนสารสนเทศ เพอน าความรน นไปใชใหเกดประโยชนกบองคกรได
We are drowning in data, but starving for knowledge!
เหตผลการท าเหมองขอมล ปญหาการมขอมลลนเหลอ (Data Explosion) แตไมสามารถน าความรในขอมลนนมา
กอใหเกดประโยชน น าไปสหนทางการแกไข โดยวธจดเกบแบบคลงขอมล (Data Warehousing) และการท าเหมองขอมล เพอชวยดงความรทนาสนใจ อาท กฎตางๆ รปแบบ หรอขอจ ากด จากขอมลในฐานขอมลขนาดใหญมาใชใหเกดประโยชน
การเรยนรของเครอง (Machine Learning) เปนสาขาหนงของปญญาประดษฐ (Artificial Intelligence) โดยมงเนนทจะพยายามสอนคอมพวเตอรใหเรยนรไดเหมอนมนษย ดงนนการท าเหมองจงไดน าวธการเรยนรของเครองมาใช
การบรณาการกนของศาสตรตางๆ ฐานขอมล (Database systems, data warehouses, OLAP) ซงเปนเทคโนโลยการ
จดเกบและรวบรวม และเตรยมขอมลทใชการท าเหมอง การเรยนรของเครอง (Machine Learning) ใชเปนอลกอรทมหลกทใชในการคนหา
รปแบบและความสมพนธทซอนอยในขอมล หลกสถต (Statistic and data analysis methods) ส าหรบวเคราะหขอมลเบองตน ซง
อาจจะชใหเหนถงรปแบบและความสมพนธของขอมลทซอนอยได วทยาศาสตรสารสนเทศ (information science)
การบรณาการกนของศาสตรตางๆ การโปรแกรมทางคณตศาสตร (mathematical programming) การค านวณประสทธภาพสง (High performance computing) เนองจากขอมลทมาก
จะท าใหการท าเหมองขอมลใชเวลานาน จงจ าเปนตองมการค านวณทรวดเรวรองรบ
การท าจนตทศน (Visualization) เพอแสดงผลลพธ รปแบบ และความสมพนธของขอมลออกมาใหผใชเขาใจงายทสด ซงเปนประโยชนตอการตความและน าผลลพธนนไปใช
คณสมบตของความรทตองการจากการท าเหมองขอมล มสาระ (nontrivial) มความถกตอง (valid) เปนรปแบบหรอความรใหมทไมเคยทราบมากอน (novel/ previously unknown) น าไปใชใหเปนประโยชนได (potentially useful) นาสนใจ (interesting) สามารถท าความเขาใจได (understandable)
ประเภทของขอมลทใชในการท าเหมองขอมล Relational database Transactional database Data warehouses Advanced databases and information repositories
Object-oriented and object-relational database Spatial databases
ประเภทของขอมลทใชในการท าเหมองขอมลTime-series data and temporal dataText databasesMultimedia databaseswww
Relational Database Database management system (DBMS)
โครงสรางของฐานขอมลประกอบไปดวยกลมของตาราง แตละตารางประกอบดวยเซตของแอตตรบวท (columns or fields)และเกบขอมลเปนจ านวมากดวยเซตของทเปล (Tuple)
Cust_ID name address age income
Credit_info
…
C1 Smith 111, Chicago,.. 21 $2700 1 ..
Trans_ID Cust_ID Item_ID
Date Time Method_pay amount
001 C1 I3 31/05/10 10:00 Visa $20000
customer
purchase
Relational DatabaseDatabase management system (DBMS) การคนถามขอมลในฐานขอมล Relational จะใชภาษาเรยกคน SQL เชน ตองการทราบยอดขายทงหมดในปทแลวแยกตามสาขา เปนตน
แต... ไมสามารถใชภาษาเรยกคน SQL ในการคนหาแนวโนม หรอรปแบบของขอมลทซอนอยในฐานขอมล เหมอนทการท าเหมองท าได เชน การท านายความเสยงในการอนมตแกลกคาใหม โดยตองทราบคณลกษณะของ ลกคา ไดแก รายได อาย ประเภททพกอาศย ฯลฯ
Transactional databases ฐานขอมล Transaction ประกอบไปดวย
แฟมขอมล ระเบยนในแฟมขอมลจะแทนหนง transaction แตละ transaction ประกอบไปดวยเลขท transaction และรายการสงของ เชน รายการสงของทซอจากรานคา
ขอมลในฐานขอมลประเภทน มกเปนขอมล ณ จดขาย เรยกวา point-of-sale
Transactional databases การท าเหมองขอมลบนฐานขอมล transactional มกน าไปประยกตใชงาน
Market basket analysis เพอเพมยอดขายกลมสนคาทปรากฎกนบอย(frequent itemsets)
Trans_ID Item_ID qty
T100 Item3 1
T100 Item8 2
.. .. ..
.. .. ..
Item_sold
Data Warehouses คลงขอมล เปนแหลงทเกบขอมลจากแหลงตางๆ ซงแตกตางกน
(Heterogeneous data source) มาจดเกบไวทเดยวกนภายใตโครงสรางการจดเกบเดยวกน (Unified schema)
Query and analysis tools
Client
Data Warehouse
Data Source 1
Data Source 2
Data Source 3
Clean Transform
Integrate Load
Client
ตวอยาง Data Warehouses Problem of multiple source:
ความแตกตางทางโครงสรางการจดเกบ (Schema Differences) ความแตกตางจากการตงชอ (Naming Differences) ความแตกตางจากประเภทขอมล (Data Type Differences) ความแตกตางจากคา (Value Differences) ความแตกตางจากความหมาย (Semantic Differences) ความแตกตางจากคาขอมลขาดหาย (Missing Values)
ตวอยาง Data Warehouses
ตวอยาง เชน บรษท QuickCar ขายรถยนตยหอหนง มตวแทนจ าหนาย 3 แหงทวประเทศ แตละแหงมฐานขอมลสตอกรถยนตของตนเอง บรษทน ตองการสรางฐานขอมลกลาง โดยรวมขอมลจากฐานขอมลของตวแทนจ าหนาย 3 แหง มาไวทเดยวกน ประโยชนของการสรางฐานขอมล ไดแก ชวยตวแทนจ าหนายจดหารถยนตตามความตองการของลกคา ในกรณทไมมรถในสตอก
ชวยนกวเคราะหของบรษทในการวเคราะหท านายตลาดได ชวยฝายผลตในการปรบก าลงผลตรนทเปนทตองการของตลาดไดทนทวงท
ตวอยาง Data Warehouses การบรณาการขอมลจากแหลงเกบขอมล หรอฐานขอมลตางๆ มปญหาความยงยากเนองมาจากความแตกตางของขอมลจากแหลงตางๆ
Query and analysis tools
Client
Data Warehouse
Khon Kaen
Chiang Mai
Songkla
Clean Transform
Integrate Load
Client
Multiple source
ตวอยาง Data Warehouses ตวอยางการบรณการขอมลเขาดวยกนนน บรษท Quickcar มปญหาทตองค านงถง ดงน มโครงสรางทแตกตางกน (Schema Differences)
Branch A: Cars(serialNo, model, color, autoTrans, cdPlayer, …) Branch B: QuickCar(serial, model, color), Options(serial, option)
การตงชอตารางตางกน เปนปญหาเรอง (Naming Differences)
Branch A: Table name → Cars Branch B: Table name → QuickCar
ประเภทขอมลทตางกน (Data Type Differences)
Branch A: serialNo→ integer Branch B: serial → string
ตวอยาง Data Warehouses คาขอมลทตางกน (Value Differences)
Branch A: color → “black” Branch B: color → “BL” (confused in BLUE color)
ศพทหรอคาทใชมความหมายตางกน (Semantic Differences)
Branch A: QuickCar→ cars Branch B: QuickCar→ cars and 4x4 W
คาบางคาอาจไมถกจดเกบในฐานขอมลหนงๆ (Missing Values)
Branch A: model → Civic DX, LX or EX Branch B: model → Civic
Advanced databases and information repositories Object-Oriented Databases
เนองจากการมแอพพลเคชนใหมๆ บนฐานขอมล ซงตองการโครงสรางขอมลทมประสทธภาพ และมวธการทสามารถจดการกบโครงสรางวตถทซบซอน ระเบยนทมความยาวไมแนนอน ขอมลอกษร (text) ขอมลสอผสม (multimedia data) ขอมลทไรโครงสราง เปนตน
Object-Relational Databases
เปนการบรณาการหลกการแนวคดเชงวตถเขากบแบบจ าลองขอมลเชงสมพนธ โดยเพมความสามารถจดการกบขอมลทซบซอนแบบล าดบชนของคลาส และคณสมบตการสบทอดของวตถตางๆ
Spatial Database ไดแก ฐานขอมลทเกบสภาพภมศาสตร (แผนท) ภาพถายดาวเทยม ภาพถายทาง
การแพทย หรอแผนภาพการออกแบบวงจรรวมขนาดใหญมาก ประโยชนของฐานขอมลประเภทนชวยในการวางแผนงานปาไมและระบบนเวศนวทยา
การท าเหมองขอมลประเภทน อาจจะคนพบรปแบบซงอธบายเกยวกบ สภาพภมอากาศแบบภเขาทระดบความสงตางๆ กน เปนตน
Time-Series and Temporal Database
ไดแก ฐานขอมลทเกบล าดบคาคณลกษณะทแปรเปลยนไปตามเวลา เชน มลคาหน เปนตน
การท าเหมองขอมลประเภทน จะชวยในการคนพบลกษณะววฒนาการ หรอแนวโนมการเปลยนแปลงของสงทสนใจซงเปนขอมลทจดเกบอยในฐานขอมล หรออาจน าความรทไดไปชวยวางแผนการลงทนซอหนในชวงเวลาทเหมาะสม เปนตน
Text database เปนฐานขอมลทเกบตวอกษรลวนๆ ไดแก ฐานขอมลสงตพมพ (articles)ขอก าหนดผลตภณฑ รายงานความผดพลาด
การท าเหมองขอมลประเภทนจะชวยในการคนหาความสมพนธระหวางค าส าคญหรอเนอหาและใชความสมพนธทคนพบในการจดกลม เอกสารตามค าทปรากฎในเอกสารนน ซงเปนประโยชนในการสรางตวสบคน
Multimedia database แอปพลเคชนบนขอมลในปจจบน ไมไดจ ากดอยบนขอมลทเปนตวอกษรหรอ
ตวเลขเทานน แตไดขยายไปถงการท างานกบขอมลทมความซบซอนมากยงขน เชน ขอมลภาพ เสยง เปนตน
การประยกตการท าเหมองขอมลกบฐานขอมลประเภทน ไดแก สวนตอประสานผใชแบบใชเสยง ระบบ voice mail งานการคนคนรปภาพ การท างานบนฐานขอมลประเภทนมความยงยาก จงตองมเทคนคทมประสทธภาพในการจดเกบและการสบคนขอมลขนาดใหญไดทนกาลเวลา เปนตน
World Wide Web
เปนแหลงเกบขอมลแบบกระจาย (distributed) ทเกบขอมลขนาดมหาศาล และสามารถเขาถงฐานขอมลตางๆ ผานทางอนเตอรเนตในการท าเหมองขอมลบน www เชน การคนหารปแบบการทองไปตาม web pages ตางๆ ของผใช ซงจะเกบขอมลทางเดนการเขาเยยมชมของผใชจะถกบนทกอยใน web access log ประโยชนของการท าเหมอง คอ ชวยใหตดสนใจทางการตลาดไดดขน เชน การวางแผนโฆษณา ชวยในการวเคราะหพฤตกรรมและจ าแนกประเภทลกคา ท าใหทราบลกคากลมเปาหมาย
ขนตอนการท าเหมองขอมลProblem Understanding-Determine objective-Define success criteria-Asses situation-Determine data mining goals-Produce a project plan
Modeling-Select modeling technique-Generate test design-Build a model-Asses the model
Data Understanding-Collect initial data-Define success criteria-Describe data-Explore data-Verify data quality
Data Preparation-Select data-Clean data-Transform data
Evaluation-Evaluate Results-Review process-Determine next steps
Deployment-Plan the deployment-monitor and maintain-Final Report
ขนตอนการท าเหมองขอมล
1. การท าความเขาใจปญหา ประกอบดวยกระบวนการยอย ดงน ตงเปาหมายวาการท าเหมองขอมลครงนตองการทจะแกปญหา ตงเกณฑวดความส าเรจในการท าเหมองขอมล ซงอาจเปนไดทงความส าเรจในดานรปธรรม เชน สามารถเพมยอดขายสนคาได 5% และความส าเรจในดานนามธรรม เชน สามารถคนพบความรใหมจากขอมล
การประเมนสถานการณในดานตางๆ ตงเปาหมายในเชงการท าเหมองขอมล วางแผนการท าเหมองขอมล
ขนตอนการท าเหมองขอมล2. การท าความเขาใจขอมล ประกอบดวยกระบวนการยอย ดงน
เกบรวบรวมขอมล ก าหนดคณสมบตของขอมลทเกบมาได ส ารวจดขอมลอยางคราวๆ ถงคาสถตตางๆ ของขอมล ตรวจสอบขอมลขนตน โดยตรวจสอบทงความสมบรณและความถกตองของขอมล
ขนตอนการท าเหมองขอมล3. การเตรยมขอมล ประกอบดวยกระบวนการยอย ดงน
คดเลอกขอมลทจะน ามาใช การท าความสะอาดขอมล แกไขขอมลในถกตองสมบรณ
การตรวจจบและก าจดคาขอมลรบกวน หรอขอมลผดปกต ปรบเปลยนรปแบบขอมล ลดรปขอมล เชน การท าใหเปนคาไมตอเนอง หรอแทนคาขอมลดวยคาทมความเปนทวไป
ขนตอนการท าเหมองขอมล4. การสรางแบบจ าลอง ประกอบดวยกระบวนการยอย ดงน
เลอกอลกอรทมทเหมาะสมในการท าเหมองขอมล ก าหนดรปแบบการทดสอบผลลพธ สรางแบบจ าลองตามอลกอรทมทเลอก ทดสอบแบบจ าลองทไดมานนวามความถกตองและนาเชอถอเพยงใด
ขนตอนการท าเหมองขอมล
5. การประเมน อาจจะประเมนแบบจ าลองทสรางขนดวยการลองน าไปใชกบสถานการณจรงหรอน าไปใชในสถานการณทจ าลองขน เพอดวาแบบจ าลองนไดผลหรอไมเพยงใด และมความผดพลาดตรงไหนบาง
6. การน าไปใช น าไปใชและตรวจสอบผลวาบรรลเปาหมายทตงไวเพยงใด
สวนประกอบทส าคญของระบบการท าเหมองขอมล
Graphical User Interface
Pattern Evaluation
Data Mining Engine
Database or Data Warehouse Server
Database warehouse
FilteringData Preprocessing:-Data Cleaning-Data Integration
KnowledgeBase
สวนประกอบทส าคญของระบบการท าเหมองขอมล Database & Data Warehouse เปนแหลงทเกบขอมลอนๆ เชน แฟมขอมล สเปรดชท ซงเปนแหลงทเกบขอมลดบส าหรบการท าเหมองขอมล
Database/Data Warehouse server ท าหนาทน าเขาขอมลตามค าขอของผใช
Knowledge base ไดแก ความรในงานทท าจะเปนประโยชนตอการชน าทางการสบคน หรอการประเมนความนาสนใจของรปแบบผลลพธทได โดยเปนความรเฉพาะดานในงานทท า เชน ความรเฉพาะทางการแพทย หรอดาราศาสตร เปนตน
สวนประกอบทส าคญของระบบการท าเหมองขอมล Data Mining Engine เปนสวนประกอบหลก ประกอบดวยโมดล (Modules) ซง
รบผดชอบงานท าเหมองประเภทตางๆ ไดแก การหากฎความสมพนธ การจ าแนกประเภท การจดกลม เปนตน
Pattern Evaluation Module ท างานรวมกบ Data Mining Engine โดยใชคาขดแบงมาตรวดความนาสนใจในการกลนกรองรปแบบผลลพธทได ซงใชประเมนความนาสนใจของรปแบบการท าเหมองทได
Graphical User Interface สวนตดตอประสานระหวางผใชกบระบบท าเหมอง ซงชวยใหผใชสามารถระบงานท าเหมองทตองการ
กลยทธในการท าเหมองขอมล
DM Strategies
Predictive or Supervised Modeling
Descriptive or Unsupervised Modeling
Classification Prediction
Estimation/ Regression
Associations Clustering
กลยทธในการท าเหมองขอมล
1. แบบจ าลองในการท านาย (Predictive/ Supervised Modeling) เปนผลลพธทสรางจากการอนมาน (Inference) ชดขอมลปจจบน เพอใชในการท านายประเภทตวอยางในอนาคต
2. แบบจ าลองในการบรรยาย (Descriptive/ Unsupervised Modeling) ในทนอาจเปนการหาความสมพนธตางๆ (Association) หรอหาการจดกลมขอมล (Clustering) ซงไมไดมจดมงหมายเพอการท านาย
งานส าหรบการท าเหมองขอมลการท าเหมองกฎความสมพนธ (Mining Association Rules) การคนหากฎความสมพนธ มกเปนงานท าเหมองบนฐานขอมล Transactional เพอ
คนหาสหสมพนธ (correlation) หรอความเปนเหตแลผล (causality) ของสงของ สวนใหญจะใชในการชวยการวเคราะห Market basket analysis
การหากฎความสมพนธแสดงอยในรปแบบ
หมายถง การเกดขของไอเทมเซต x เกดขนรวมกนของไอเทมเซต Y ดวยคาสนบสนน (Support) และคาความเชอมน (Confidence)
ไอเทมเซต เชน เซตของสนคาในราน หรอเซตของประเภทบรการ
X → Y
ตวอยาง: งานส าหรบการท าเหมองขอมล AllElectronics shop relation database, a data mining system may find
association rule:“Single-dimensional association rules”
computer → software orcontains (T, “computer”) → contains (T, “software”)
[support = 1%, confidence = 50%] T contains “computer”, ther is a 50% chance that it contains
“software” 1% of all of the transactions contain “software”
ตวอยาง: งานส าหรบการท าเหมองขอมล AllElectronics shop relation database, a data mining system may find association
rule:“Multidimensional association rule”
Age(X, “20..29”) income (X, “20K..29K”) → buys (X, “CD player”)[support = 2%, confidence = 60%]
2% support are 20 to 29 year of age with an income of 20K to 29K and have purchased a CD player at AllElectronics shop
60% probability that a customer in this age and income group will purchase a CD player
งานส าหรบการท าเหมองขอมล การท าเหมองจ าแนกประเภทขอมลและการท านาย
เปนการคนหาแบบจ าลองหรอฟงกชน ผลลพธทไดจากการท าเหมองอาจจะอยในรปแบบตนไมตดสนใจ กฎการจ าแนกประเภทขอมล หรอเครอขายประสาทเทยม เปนตน
ตวอยาง: งานส าหรบการท าเหมองขอมล
Classification: Decision Tree
Age Rent Period Buy233620272050363622
31.51.521
2.512
2.5
NoNoNoYesNoYesNoYesno
Business Info
Rent Property
Customer renting property > 2 year?
Customer age > 25 year?
Rent Property
Buy Property
YesNo
No Yes
ตวอยาง: งานส าหรบการท าเหมองขอมล Prediction: Neural Network
Customer renting property > 2 years ?
Customer age
> 25 years ?
0.6
0.4
0.5
0.3
0.7
0.4
Class (Rent or buy property
งานส าหรบการท าเหมองขอมลการท าเหมองวเคราะหการจดกลม
เปนการตรวจหากลมตามธรรมชาตของขอมล โดยพจารณาจากคามาตรวดทก าหนด วาวตถทอยกลมเดยวกนจะมความคลายคลงกนมากทสด และวตถตางกลมจะมความคลายคลงนอยทสด
Max. the intraclass
Min. the intrerclass
Class A
Class B
งานส าหรบการท าเหมองขอมลการท าเหมองวเคราะหขอมลผดปกต
ปกตขอมลทมคาสงหรอคาต ากวาผดปกต มกจะถกเปนขอมลรบกวน แตบางกรณมกจะมประโยชน เชน
monthly
Payment (baht)
1 10,000.00
2 15,000.00
3 1,500,000.00
2010
monthly
Payment (baht)
1 25,000.00
2 30,000.00
3 17,000.00
.. …
12 23,500.00
… 2009
Outlier value can be detected-Location-Type of purchase-Purchase frequency
งานส าหรบการท าเหมองขอมล
การท าเหมองวเคราะหแนวโนมหรอววฒนาการ
เปนงานท าเหมองขอมลทเ กยวกบเวลา เพอบรรยายและสรางแบบจ าลองของความสม าเสมอ หรอแนวโนมของวตถซงมพฤตกรรมเปลยนแปลงไปตามเวลา โดยชวยท านายแนวโนมในอนาคต เชน ราคาหน
การประยกตใชงานการท าเหมองขอมลเพอการวเคราะหฐานขอมลและสนบสนนการตดสนใจ ไดแก
การวเคราะหการตลาดและการจดการ เชน การตลาดเพอก าหนดลกคากลมเปาหมาย เฉพาะผลตภณฑ การตลาดเพอคงไวซงลกคาเดม การวเคราะหตะกราตลาด (Market Basket Analysis)
การวเคราะหความเสยงและการจดการ ไดแก การประยกตใชการท าเหมองขอมลกบ การแขงขนทางธรกจ เชน การท านายทศทางการตลาด การวเคราะหสนทรพยและการวางแผนการเงน เชน การวเคราะหแนวโนมการ
เปลยนแปลง การตรวจจบการปลอมแปลง
แอปพลเคชนอน ไดแก
การวเคราะหเวบ ไดแก การท าเหมองเสนทางการทองเวบ (Mining Path Traversal) โดยวเคราะหแฟมบนทกการเขาเยยมชมเวบตางๆ ของผใช เพอคนหาพฤตกรรม เปนตน
การวเคราะหทางการแพทย งานดานดาราศาสตร งานดานการกฬา
Data Mining Program Oracle Data Warehouse Building
SQL Analysis
Weka
RapidMiner
Knime
Keel