Top Banner
Báo cáo tốt nghiệp đại học Khai thác luật kết hợp trong khai phá dữ liệu GVHD ThS Lưu Nguyễn Kỳ Thư SVTH Lê Minh Phiên Lớp Đ07THPM HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA CÔNG NGHỆ THÔNG TIN II
51

Data mining - Luật kết hợp và ứng dụng

Aug 06, 2015

Download

Technology

Phien Le Minh
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Data mining - Luật kết hợp và ứng dụng

Báo cáo tốt nghiệp đại họcKhai thác luật kết hợp trong khai phá dữ liệuGVHD ThS Lưu Nguyễn Kỳ ThưSVTH Lê Minh PhiênLớp Đ07THPM

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNGKHOA CÔNG NGHỆ THÔNG TIN II

Page 2: Data mining - Luật kết hợp và ứng dụng

Nội dung

Tổng quan khai phá dữ liệuLuật kết hợp

Giới thiệuGiá trị support và confident

Thuật toán AprioriThuật toán AprioriTIDThuật toán FP Growth

Cải tiến tốc độ bằng kỹ thuật mảngỨng dụng trong bài toán CKKết luận

Page 3: Data mining - Luật kết hợp và ứng dụng

Tổng quan khai phá dữ liệu

Là quá trình trích xuất thông tin, khám phá tri thức có mối tương quan nhất định từ một kho dữ liệu khổng lồ nhằm mục đích dự đoán các xu thế, hành vi trong tương lai, hoặc tìm kiếm tập các thông tin hữu ích mà bình thường không thể nhận diện được. Giải quyết các vần đề thực tế:

Siêu thị wallmart có hơn 2triệu giao dịch/ngàyGoogle, Youtube, ...

Page 4: Data mining - Luật kết hợp và ứng dụng

Tổng quan khai phá dữ liệu

Các giai đoạn của của quá trình khai phá:1. Data cleaning2. Data integration3. Data seletion4. Data Transformation5. Data mining6. Pattern Evaluation7. Knowledge Presentation

Page 5: Data mining - Luật kết hợp và ứng dụng

Luật kết hợp (Agrawal)

I = {i1,i2, … ,in} là tập n thuộc tính nhị phân. D = {t1,t2, … ,tn} là tập các giao tác gọi là cơ sở dữ liệu, mỗi ti có một ID duy nhất và chứa tập các mục trong IMột luật định nghĩa sự kéo theo có dạng X Y trong đó X,Y I và X Y = . X gọi là phần mệnh đề điều kiệnY gọi là mệnh đề kết quả của luật tương ứng

Page 6: Data mining - Luật kết hợp và ứng dụng

Luật kết hợp

Độ phổ biến:Supp(X) = |X|/|D|Supp(XY)=|{TD:XYT}|/|D|

Độ tin cậy:

Ví dụ: |D|=10;|XY|=5; |X|=7;|Y|=6

Supp(XY) = 5/10 = 0,5Conf(XY) = 5/7 ≈ 0,71

Page 7: Data mining - Luật kết hợp và ứng dụng

Dữ liệu mẫu

Từ bảng lịch sử giá

Trích những mã CP theo nhu cầu nhà đầu tưBiến động giảm trong ngàyBiến động tăng trong ngày

Page 8: Data mining - Luật kết hợp và ứng dụng

Dữ liệu mẫuDữ liệu thô

Danh sách mã CP có biến động tăng trong

ngày

Page 9: Data mining - Luật kết hợp và ứng dụng

Dữ liệu mẫuDữ liệu nhị phân

Mã không có biến động giá hoặc giảm

trong ngày

Mã có giá biến động tăng trong

ngàyBiến động giá của các mã CP trong

một ngày

minSup = 0,4

Tìm những tập các item xuất hiện cùng nhau ít nhất 4 lần.

Page 10: Data mining - Luật kết hợp và ứng dụng

Bài toán tìm các mã CP tăng đồng thời với tần suất ≥ minSup

Input: Cơ sở dữ liệu giao dịchGiá trị minSup

Output:Tất cả các tập chứa các mã CP có đồng thời biến động tăng trong ngày với tần suất xuất hiện của tập ≥ minSup

Page 11: Data mining - Luật kết hợp và ứng dụng

Bài toán tìm các tập phổ biến

Input: Cơ sở dữ liệu giao dịchGiá trị minSup

Output:Tất cả tập Largek (với 1 ≤ k ≤ số lượng item thuộc CSDL )

Largek

• Mỗi phần tử thuộc tập có dạng <{a1,a2,…,ak},sup>

• ai là một item• sup: Tần suất xuất hiện cùng

nhau của các item.• sup ≥ minSup

Page 12: Data mining - Luật kết hợp và ứng dụng

Thuật toán Apriori (Agrawal-1994)

Tìm kiếm theo chiều rộngSinh ra ứng viên k item từ tập k-1 itemLoại dần các tập không đủ điều kiện

a c da c e a c d e

Page 13: Data mining - Luật kết hợp và ứng dụng

Thuật toán Apriori (Agrawal-1994)

Large1 = { large 1-itemsets }for (k=2; Largek-1 <> Ø; k++) do {

Candidatek = apriori-gen(Largek-1)for tất cả giao dịch t Db do {

Ct = subset (Candidatek, t)for tất cả ứng viên c Ct do c.count++

}Largek = {c Ct | c.count minSup}

}return k Largek

Tính tần suất xuất hiện từng item

Ví dụLarge1

[1]{DRC},8[2]{NAG},4[3]{TCR},9[4]{VLA},3[5]{VSH},7[6]{ACB},3

Candidatek

• Mỗi phần tử thuộc tập có dạng: <{a1,a2,…,ak}>

• ai là một item

apriori-gen(Lk-1)Sinh ra tất cả ứng viên độ lớn k item từ tập L có độ lớn k-1 item.

subset(Ck,t)Lọc ra những phần tử thuộc Ck xuất hiện ở giao tác t

Page 14: Data mining - Luật kết hợp và ứng dụng

Danh sách ứng viên 2 item

{DRC,NAG}{DRC,TCR}{DRC,VSH}{NAG,TCR}{NAG,VSH}{TCR,VSH}

Thuật toán AprioriVí dụ

Đầu tiênk=2

Item1 Sup{DRC} 8{NAG} 4{TCR} 9{VSH} 7

376447

Item2 Sup

{DRC,TCR} 7{DRC,VSH} 6{NAG,TCR} 4{NAG,VSH} 4{TCR,VSH} 7

Page 15: Data mining - Luật kết hợp và ứng dụng

Thuật toán AprioriVí dụ

k=3Item2 Sup

{DRC,TCR} 7{DRC,VSH} 6{NAG,TCR} 4{NAG,VSH} 4{TCR,VSH} 7

Danh sách ứng viên 3 item{DRC,TCR,VSH}{NAG,TCR,VSH} 6

4

Item3 Sup

{DRC,TCR,VSH} 6{NAG,TCR,VSH} 4

Page 16: Data mining - Luật kết hợp và ứng dụng

Item1 Sup{DRC} 8{NAG} 4{TCR} 9{VSH} 7

Item2 Sup

{DRC,TCR} 7{DRC,VSH} 6{TCR,VSH} 7{NAG,TCR} 4{NAG,VSH} 4

Thuật toán AprioriVí dụ

k=4

Danh sách ứng viên 3 item

Item3 Sup

{DRC,TCR,VSH} 6{NAG,TCR,VSH} 4

Xuất kết quả tìm được

Page 17: Data mining - Luật kết hợp và ứng dụng

Thuật toán AprioriTID

Nhận xét về thuật toán Apriori:Tại mỗi bước, quét toàn bộ CSDL, so sánh tập ứng viên gây lãng phí thời gian

Ý tưởng AprioriTID: Chỉ quét CSDL cho lần đầu tiênDùng đối tượng Transk để lưu các tập đủ điều kiện CSDL tại mỗi bước kMỗi phần tử Transk có dạng:

<t.TID,{c Candidatek|giao tác t chứa c}>

Page 18: Data mining - Luật kết hợp và ứng dụng

Thuật toán AprioriTID

Large1 = { large 1-itemsets }Trans1 = database Dbfor (k=2; Largek-1 <> Ø; k++) {

Candidatek = apriori-gen(Largek-1)Transk = Ø

for tất cả giao dịch t Transk-1 do {C’t = {c Candidatek | c\c.ak t Ʌ c\c.ak-1 t}for tất cả ứng viên c C’t do c.count++if (Ct ) then Transk += <t.TID, C’t>

} Largek = {c C’t | c.count minSup}

}return k Largek

Transk

Chứa các tập phổ biến độ lớn k cho từng giao tácMỗi phần tử thuộc Transk có dạng:<t.TID,{c Candidatek|giao tác t chứa c}>TID : nhận dạng cho từng giao tác

Trans1

[1] <1,{{DRC}} >

[2]<2,{{TCR},{VLA}}>

[3]<3,{{DRC},{TCR},{VSH}}>

[4]<4,{{NAG},{TCR},{VSH}}>

[5]<5,{{DRC},{NAG},{TCR},{VLA},{VSH} }>

[6]<6,{{DRC},{NAG},{TCR},{VSH}}>

[7]<7,{{DRC},{NAG},{TCR},{VLA},{VSH}}>

[8]<8,{{DRC},{TCR},{ACB}}>

[9] <9,{{DRC},{TCR},{VSH},{ACB}}>

[10]<10,{{DRC},{TCR},{VSH},{ACB}}>

Page 19: Data mining - Luật kết hợp và ứng dụng

Danh sách ứng viên 2 item

{DRC,NAG}{DRC,TCR}{DRC,VSH}{NAG,TCR}{NAG,VSH}{TCR,VSH}

Thuật toán AprioriTIDVí dụ

Đầu tiênk=2

TID Danh sách tập 1 item1 {DRC}2 {TCR}3 {DRC}, {TCR}, {VSH}4 {NAG},{TCR},{VSH}5 {DRC}, {NAG}, {TCR}, {VSH}6 {DRC}, {NAG}, {TCR}, {VSH}7 {DRC}, {NAG}, {TCR}, {VSH}8 {DRC}, {TCR}9 {DRC}, {TCR}, {VSH}

10 {DRC}, {TCR}, {VSH}

Item1 Sup{DRC} 8{NAG} 4{TCR} 9{VSH} 7

TID Danh sách tập 2 item3 {DRC,TCR},{DRC,VSH},{TCR,VSH}4 {NAG,TCR},{NAG,VSH},{TCR,VSH}

5{DRC,NAG},{DRC,TCR},{DRC,VSH},{DRC,VSH},{NAG,TCR},{NAG,VSH},{TCR,VSH}

6{DRC,NAG},{DRC,TCR},{DRC,VSH},{DRC,VSH},{NAG,TCR},{NAG,VSH},{TCR,VSH}

7{DRC,NAG},{DRC,TCR},{DRC,VSH},{DRC,VSH},{NAG,TCR},{NAG,VSH},{TCR,VSH}

8 {DRC,TCR}9 {DRC,TCR},{DRC,VSH},{TCR,VSH}

10 {DRC,TCR},{DRC,VSH},{TCR,VSH}

Support<4

Page 20: Data mining - Luật kết hợp và ứng dụng

Danh sách ứng viên 3 item{DRC,TCR,VSH}{NAG,TCR,VSH}

Thuật toán AprioriTIDVí dụ

k=3

TID Danh sách tập 2 item3 {DRC,TCR},{DRC,VSH},{TCR,VSH}4 {NAG,TCR},{NAG,VSH},{TCR,VSH}

5{DRC,TCR},{DRC,VSH},{DRC,VSH},{NAG,TCR},{NAG,VSH},{TCR,VSH}

6{DRC,TCR},{DRC,VSH},{DRC,VSH},{NAG,TCR},{NAG,VSH},{TCR,VSH}

7{DRC,TCR},{DRC,VSH},{DRC,VSH},{NAG,TCR},{NAG,VSH},{TCR,VSH}

8 {DRC,TCR}9 {DRC,TCR},{DRC,VSH},{TCR,VSH}

10 {DRC,TCR},{DRC,VSH},{TCR,VSH}

Item2 Sup

{DRC,TCR} 7{DRC,VSH} 4{TCR,VSH} 7{NAG,TCR} 4{NAG,VSH} 4

TID Danh sách tập 3 item3{DRC,TCR,VSH}4{NAG,TCR,VSH}5{DRC,TCR,VSH},{NAG,TCR,VSH}6{DRC,TCR,VSH},{NAG,TCR,VSH}7{DRC,TCR,VSH},{NAG,TCR,VSH}9{DRC,TCR,VSH}

10{DRC,TCR,VSH}

Page 21: Data mining - Luật kết hợp và ứng dụng

Item1 Sup{DRC} 8{NAG} 4{TCR} 9{VSH} 7

Item2 Sup

{DRC,TCR} 7{DRC,VSH} 6{TCR,VSH} 7{NAG,TCR} 4{NAG,VSH} 4

Danh sách ứng viên 4 item

ø

Thuật toán AprioriTIDVí dụ

k=4

Item3 Sup

{DRC,TCR,VSH} 6{NAG,TCR,VSH} 4

TID Danh sách tập 3 item3{DRC,TCR,VSH}4{NAG,TCR,VSH}5{DRC,TCR,VSH},{NAG,TCR,VSH}6{DRC,TCR,VSH},{NAG,TCR,VSH}7{DRC,TCR,VSH},{NAG,TCR,VSH}9{DRC,TCR,VSH}

10{DRC,TCR,VSH}

Xuất kết quả tìm được

Page 22: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-GrowthGiới thiệu

Khuyết điểm của các thuật toán trước đây:Tốn kém do việc sinh ra và kiểm tra các ứng viên

FP-Growth: (Frequent Pattern Growth)Không cần sinh và kiểm tra ứng viênXây dựng cấu trúc Cây FP để lưu trữ toàn bộ CSDLKhai phá cây FP để tìm các mẫu phổ biến

Page 23: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-GrowthCây FP

Mục đíchTránh quét lại CSDL nhiều lầnGiảm thiểu lưu trữ đối với các giao tác chứa cùng các tập phổ biến

Xây dựng cây FP chỉ cần 2 lần quét CSDL:1. Tính support từng item tìm ra các item phổ biến2. Đọc lại CSDL theo thứ tự support giảm dần, loại những item có support<minSup

Page 24: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-GrowthCây FPXây dựng cây FP

Nút gốc có giá trị NULL (cấp độ 0)Thông tin mỗi nút: <name, support, parent_node>Trên cùng 1 nhánh, nút cấp độ k có giá trị support lớn hơn hoặc bằng nút có cấp độ k+1 (1 ≤ k ≤ N)N: số lượng item phổ biến

Page 25: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-GrowthCây FP

Input:CSDL giao tácGiá trị minSup

OutputCây FP

Page 26: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-GrowthCây FPGiải thuật xây dựng cây FP:Header={<name,sup,link*>|sup>=minSup}F = {item|item.sup≥minSup}Flist= F.Sort(item.support desc);Cây T = nút gốc là null;for tất cả giao tác t trong DB do{

tlist = getFP(t,Flist)insert_tree(tlist.first(), tlist.removefirst() ,T)

}return Cây T

Header• Chứa danh sách các item phổ

biến theo thứ tự giảm • Trỏ đến các node cùng tên

trên cây FP

getFP(t,Flist)• Đọc các item phổ

biến trong giao tác t theo thứ tự Flist

insert_tree(item,List,T)if(T có nút con N & N.name=item.name){

N.count++} else {

tạo nút N mới;N.parent=T;N.count=1;

}if(List<>) insert_tree(List.first(),List.removefirst(),N)

Page 27: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-GrowthXây dựng cây FP

Quét lần đầu tiên

ID Danh sách tập 1 item1 DRC2 TCR3 TCR, DRC, VSH4 TCR, VSH, NAG5 TCR, DRC, VSH, NAG6 TCR, DRC, VSH, NAG7 TCR, DRC, VSH, NAG8 TCR, DRC9 TCR, DRC, VSH

10 TCR, DRC, VSH

Item SupTCR 9DRC 8VSH 7NAG 4

{TCR DRC VSH NAG}

Page 28: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-GrowthXây dựng cây FP

Quét lần haiID Danh sách tập 1 item1 DRC

NULL

DRC:1DRC:1

2 TCR

TCR:1TCR:1

Page 29: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-GrowthXây dựng cây FP

Quét lần haiID Danh sách tập 1 item1 DRC

NULL

DRC:1

2 TCR

TCR:1

3 TCR, DRC, VSH

TCR:2

DRC:1

VSH:1

Page 30: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-GrowthXây dựng cây FP

Quét lần haiID Danh sách tập 1 item1 DRC

NULL

DRC:1

2 TCR

TCR:2

3 TCR, DRC, VSH DRC:1

VSH:1

4 TCR, VSH, NAG

TCR:3

VSH:1

NAG:1

Page 31: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-GrowthXây dựng cây FP

Quét lần haiID Danh sách tập 1 item1 DRC

NULL

DRC:1

2 TCR

TCR:3

3 TCR, DRC, VSH DRC:1

VSH:1

4 TCR, VSH, NAG

TCR:4

VSH:1

NAG:1

5 TCR, DRC, VSH, NAG

DRC:2

VSH:2

NAG:1

Page 32: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-GrowthXây dựng cây FP

Quét lần haiID Danh sách tập 1 item1 DRC

NULL

DRC:1

2 TCR

TCR:4

3 TCR, DRC, VSH DRC:2

VSH:2

4 TCR, VSH, NAG

TCR:5

VSH:1

NAG:1

5 TCR, DRC, VSH, NAG

DRC:3

VSH:3

NAG:1NAG:2

6 TCR, DRC, VSH, NAG

Page 33: Data mining - Luật kết hợp và ứng dụng

DRC:3

VSH:3

NAG:2NAG:3

VSH:4

DRC:4

Thuật toán FP-GrowthXây dựng cây FP

Quét lần haiID Danh sách tập 1 item1 DRC

NULL

DRC:1

2 TCR

TCR:5

3 TCR, DRC, VSH4 TCR, VSH, NAG

TCR:6

VSH:1

NAG:1

5 TCR, DRC, VSH, NAG6 TCR, DRC, VSH, NAG7 TCR, DRC, VSH, NAG

Page 34: Data mining - Luật kết hợp và ứng dụng

DRC:4

TCR:6

DRC:5

TCR:7

VSH:4

NAG:3

Thuật toán FP-GrowthXây dựng cây FP

Quét lần haiID Danh sách tập 1 item1 DRC

NULL

DRC:1

2 TCR3 TCR, DRC, VSH4 TCR, VSH, NAG

VSH:1

NAG:1

5 TCR, DRC, VSH, NAG6 TCR, DRC, VSH, NAG7 TCR, DRC, VSH, NAG8 TCR, DRC

Page 35: Data mining - Luật kết hợp và ứng dụng

DRC:5

TCR:7

VSH:4

DRC:6

TCR:8

VSH:5

NAG:3

Thuật toán FP-GrowthXây dựng cây FP

Quét lần haiID Danh sách tập 1 item1 DRC

NULL

DRC:1

2 TCR3 TCR, DRC, VSH4 TCR, VSH, NAG

VSH:1

NAG:1

5 TCR, DRC, VSH, NAG6 TCR, DRC, VSH, NAG7 TCR, DRC, VSH, NAG8 TCR, DRC9 TCR, DRC, VSH

Page 36: Data mining - Luật kết hợp và ứng dụng

DRC:6

TCR:8

VSH:5

DRC:7

TCR:9

VSH:6

NAG:3

Thuật toán FP-GrowthXây dựng cây FP

Quét lần haiID Danh sách tập 1 item1 DRC

NULL

DRC:1

2 TCR3 TCR, DRC, VSH4 TCR, VSH, NAG

VSH:1

NAG:1

5 TCR, DRC, VSH, NAG6 TCR, DRC, VSH, NAG7 TCR, DRC, VSH, NAG8 TCR, DRC9 TCR, DRC, VSH

10 TCR, DRC, VSH

Page 37: Data mining - Luật kết hợp và ứng dụng

DRC:7

VSH:6

TCR:9

NAG:3

Thuật toán FP-GrowthXây dựng cây FP

Quét lần hai

NULL

DRC:1

VSH:1

NAG:1

Item Sup linkTCR 9DRC 8VSH 7NAG 4

Page 38: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-GrowthKhai phá cây FP

Nhận xét nút mLj (với Lj: tập phổ biến có chứa ai) m nằm cùng nhánh với ai

aik (nút ai ở cấp độ k,k[0,K),1≤K≤N),aik chỉ có 1 con không tồn tại ajl(l[K,N])ajl.name=aik.name

Page 39: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-GrowthKhai phá cây FP

Ý tưởng cho việc khai pháChia cây FP làm 2 phần

P: Chứa chuỗi nút liên tục từ gốc chỉ có 1 con (1 nhánh đơn từ gốc đến k) gọi là nhánh tiền tố đơnQ: phần chứa các nút thuộc phần nhiều nhánh

Tìm tất cả các tập phổ biến có chứa các nút aiQKết quả là các tập thuộc P Q (P Q)

Page 40: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-GrowthKhai phá cây FP

InputCây FPGiá trị minSup

OutputTập các mẫu phổ biến

Page 41: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-GrowthGiải thuật khai phá cây FPPROCEDURE FP-growth(Tree, ){if(Tree chứa đường dẫn prefix đơn) {

P = phần chứa nhánh prefix đơn của TreeQ = phần chứa nhiều nhánh của cây Tree, Q.root= NULL;foreach tổ hợp các node thuộc P(kí hiệu ) do

Sinh ra các mẫu với support=support nhỏ nhất trong Gán freq_pattern_set(P) là tập các mẫu được sinh ra

}else gán Q là Tree;foreach (item ai thuộc Q) do{

Sinh ra mẫu =ai với support=ai.supportXây dựng cơ sở mẫu ước định của và cây ước định Tree

Gọi FP-growth (Tree,)Gán freq_pattern_set(Q) là tập các mẫu được sinh ra

} RETURN freq_pattern_set(P) freq_pattern_set(Q) (freq_pattern_set(P) freq_pattern_set(Q))}

Page 42: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-Growth

Ví dụ:

Page 43: Data mining - Luật kết hợp và ứng dụng

Thuật toán FP-Growth

Ví dụ cách xây dựng cây FP={NAG}

Item SupTCR 9DRC 8VSH 7NAG 4

Item SupTCR 4DRC 3VSH 4

Page 44: Data mining - Luật kết hợp và ứng dụng

Cải tiến tốc độ FP-growth bằng kỹ thuật mảng

Nhận xét FP-Growth80% thời gian duyệt các node trên cây FPCông việc chính cho mỗi bước khai phá

Xây dựng cây FP={ai} chưa hoàn chỉnh từ cây FP chaĐếm count của các node trên cây mới FPXóa các node không đủ điều kiệnCấu trúc lại các node trên cây theo thứ tự mới

Giải pháp nào tối ưu hơn?

Page 45: Data mining - Luật kết hợp và ứng dụng

Cải tiến tốc độ FP-growth bằng kỹ thuật mảng

Ý tưởng: Khi xây dựng cây FPDựa trên thứ tự support giảm dần của bảng headerĐối với mỗi item x, ta có các item yi cây FP={x} yi.support<x.support (yi cùng nhánh x)Trong khi xây dựng cây FP, ta có thể tính support của một item yj bất kỳ chung nhánh với item x (với yj.support ≥ x.support) cho cây FP={x}

Page 46: Data mining - Luật kết hợp và ứng dụng

Cải tiến tốc độ FP-growth bằng kỹ thuật mảng

Ví dụ:

Item SupTCR 9DRC 8VSH 7NAG 4

7

7

4

6

3 4

Page 47: Data mining - Luật kết hợp và ứng dụng

Ứng dụng trong bài toán CK

Từ bảng lịch sử giáTrích những mã CP theo nhu cầu nhà đầu tư

Biến động giảm trong ngàyBiến động tăng trong ngày

Xây dựng bảng dữ liệu nhị phân

Page 48: Data mining - Luật kết hợp và ứng dụng

Ứng dụng trong bài toán CK

Dữ liệu thực tế:Lịch sử giá chứng khoán từ ngày 6/2001 đến ngày 21/12/2011 Tổng số mẫu tin: 559654Tổng loại mã CP: 712Tổng số ngày giao dịch: 2114

Page 49: Data mining - Luật kết hợp và ứng dụng

Ứng dụng trong bài toán CK

Hiệu suất thực thi:

0,09 0,1 0,12 0,15 0,25 0,3 0,5 0,70

500

1000

1500

2000

2500

3000

FPGrowth

Apriori

AprioriTID

minSup

Thờ

i gia

n th

ực

thi (

giây

)

Page 50: Data mining - Luật kết hợp và ứng dụng

Kết luậnLuật kết hợp có khả năng ứng dụng được vào nhiều lĩnh vực khác nhau trên thực tếƯu điểm:

Áp dụng được giải thuật tốt giúp cải thiện tốc độ khai pháỨng dụng sử dụng được dữ liệu thực tế

Khuyết điểm:Hướng lưu trữ hợp lý khi dữ liệu không thể chứa trong bộ nhớ trongChưa ứng dụng khả năng sử dụng lại kết quả khai phá

Page 51: Data mining - Luật kết hợp và ứng dụng

Kết thúc

Cảm ơn thầy cô và các bạn đã quan theo dõi!