Data mining - Luật kết hợp và ứng dụng

Báo cáo tốt nghiệp đại họcKhai thác luật kết hợp trong khai phá dữ liệuGVHD ThS Lưu Nguyễn Kỳ ThưSVTH Lê Minh PhiênLớp Đ07THPM

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNGKHOA CÔNG NGHỆ THÔNG TIN II

Nội dung

Tổng quan khai phá dữ liệuLuật kết hợp

Giới thiệuGiá trị support và confident

Thuật toán AprioriThuật toán AprioriTIDThuật toán FP Growth

Cải tiến tốc độ bằng kỹ thuật mảngỨng dụng trong bài toán CKKết luận

Tổng quan khai phá dữ liệu

Là quá trình trích xuất thông tin, khám phá tri thức có mối tương quan nhất định từ một kho dữ liệu khổng lồ nhằm mục đích dự đoán các xu thế, hành vi trong tương lai, hoặc tìm kiếm tập các thông tin hữu ích mà bình thường không thể nhận diện được. Giải quyết các vần đề thực tế:

Siêu thị wallmart có hơn 2triệu giao dịch/ngàyGoogle, Youtube, ...

Tổng quan khai phá dữ liệu

Các giai đoạn của của quá trình khai phá:1. Data cleaning2. Data integration3. Data seletion4. Data Transformation5. Data mining6. Pattern Evaluation7. Knowledge Presentation

Luật kết hợp (Agrawal)

I = {i1,i2, … ,in} là tập n thuộc tính nhị phân. D = {t1,t2, … ,tn} là tập các giao tác gọi là cơ sở dữ liệu, mỗi ti có một ID duy nhất và chứa tập các mục trong IMột luật định nghĩa sự kéo theo có dạng X Y trong đó X,Y I và X Y = . X gọi là phần mệnh đề điều kiệnY gọi là mệnh đề kết quả của luật tương ứng

Luật kết hợp

Độ phổ biến:Supp(X) = |X|/|D|Supp(XY)=|{TD:XYT}|/|D|

Độ tin cậy:

Ví dụ: |D|=10;|XY|=5; |X|=7;|Y|=6

Supp(XY) = 5/10 = 0,5Conf(XY) = 5/7 ≈ 0,71

Dữ liệu mẫu

Từ bảng lịch sử giá

Trích những mã CP theo nhu cầu nhà đầu tưBiến động giảm trong ngàyBiến động tăng trong ngày

Dữ liệu mẫuDữ liệu thô

Danh sách mã CP có biến động tăng trong

ngày

Dữ liệu mẫuDữ liệu nhị phân

Mã không có biến động giá hoặc giảm

trong ngày

Mã có giá biến động tăng trong

ngàyBiến động giá của các mã CP trong

một ngày

minSup = 0,4

Tìm những tập các item xuất hiện cùng nhau ít nhất 4 lần.

Bài toán tìm các mã CP tăng đồng thời với tần suất ≥ minSup

Input: Cơ sở dữ liệu giao dịchGiá trị minSup

Output:Tất cả các tập chứa các mã CP có đồng thời biến động tăng trong ngày với tần suất xuất hiện của tập ≥ minSup

Bài toán tìm các tập phổ biến

Input: Cơ sở dữ liệu giao dịchGiá trị minSup

Output:Tất cả tập Largek (với 1 ≤ k ≤ số lượng item thuộc CSDL )

Largek

• Mỗi phần tử thuộc tập có dạng <{a1,a2,…,ak},sup>

• ai là một item• sup: Tần suất xuất hiện cùng

nhau của các item.• sup ≥ minSup

Thuật toán Apriori (Agrawal-1994)

Tìm kiếm theo chiều rộngSinh ra ứng viên k item từ tập k-1 itemLoại dần các tập không đủ điều kiện

a c da c e a c d e

Thuật toán Apriori (Agrawal-1994)

Large1 = { large 1-itemsets }for (k=2; Largek-1 <> Ø; k++) do {

Candidatek = apriori-gen(Largek-1)for tất cả giao dịch t Db do {

Ct = subset (Candidatek, t)for tất cả ứng viên c Ct do c.count++

}Largek = {c Ct | c.count minSup}

}return k Largek

Tính tần suất xuất hiện từng item

Ví dụLarge1

[1]{DRC},8[2]{NAG},4[3]{TCR},9[4]{VLA},3[5]{VSH},7[6]{ACB},3

Candidatek

• Mỗi phần tử thuộc tập có dạng: <{a1,a2,…,ak}>

• ai là một item

apriori-gen(Lk-1)Sinh ra tất cả ứng viên độ lớn k item từ tập L có độ lớn k-1 item.

subset(Ck,t)Lọc ra những phần tử thuộc Ck xuất hiện ở giao tác t

Danh sách ứng viên 2 item

{DRC,NAG}{DRC,TCR}{DRC,VSH}{NAG,TCR}{NAG,VSH}{TCR,VSH}

Thuật toán AprioriVí dụ

Đầu tiênk=2

Item1 Sup{DRC} 8{NAG} 4{TCR} 9{VSH} 7

376447

Item2 Sup

{DRC,TCR} 7{DRC,VSH} 6{NAG,TCR} 4{NAG,VSH} 4{TCR,VSH} 7


k=3Item2 Sup

{DRC,TCR} 7{DRC,VSH} 6{NAG,TCR} 4{NAG,VSH} 4{TCR,VSH} 7

Danh sách ứng viên 3 item{DRC,TCR,VSH}{NAG,TCR,VSH} 6

4

Item3 Sup

{DRC,TCR,VSH} 6{NAG,TCR,VSH} 4


Item2 Sup

{DRC,TCR} 7{DRC,VSH} 6{TCR,VSH} 7{NAG,TCR} 4{NAG,VSH} 4


k=4


Item3 Sup


Xuất kết quả tìm được

Thuật toán AprioriTID

Nhận xét về thuật toán Apriori:Tại mỗi bước, quét toàn bộ CSDL, so sánh tập ứng viên gây lãng phí thời gian

Ý tưởng AprioriTID: Chỉ quét CSDL cho lần đầu tiênDùng đối tượng Transk để lưu các tập đủ điều kiện CSDL tại mỗi bước kMỗi phần tử Transk có dạng:

<t.TID,{c Candidatek|giao tác t chứa c}>

Thuật toán AprioriTID

Large1 = { large 1-itemsets }Trans1 = database Dbfor (k=2; Largek-1 <> Ø; k++) {

Candidatek = apriori-gen(Largek-1)Transk = Ø

for tất cả giao dịch t Transk-1 do {C’t = {c Candidatek | c\c.ak t Ʌ c\c.ak-1 t}for tất cả ứng viên c C’t do c.count++if (Ct ) then Transk += <t.TID, C’t>

} Largek = {c C’t | c.count minSup}

}return k Largek

Transk

Chứa các tập phổ biến độ lớn k cho từng giao tácMỗi phần tử thuộc Transk có dạng:<t.TID,{c Candidatek|giao tác t chứa c}>TID : nhận dạng cho từng giao tác

Trans1

[1] <1,{{DRC}} >

[2]<2,{{TCR},{VLA}}>

[3]<3,{{DRC},{TCR},{VSH}}>

[4]<4,{{NAG},{TCR},{VSH}}>

[5]<5,{{DRC},{NAG},{TCR},{VLA},{VSH} }>

[6]<6,{{DRC},{NAG},{TCR},{VSH}}>

[7]<7,{{DRC},{NAG},{TCR},{VLA},{VSH}}>

[8]<8,{{DRC},{TCR},{ACB}}>

[9] <9,{{DRC},{TCR},{VSH},{ACB}}>

[10]<10,{{DRC},{TCR},{VSH},{ACB}}>


{DRC,NAG}{DRC,TCR}{DRC,VSH}{NAG,TCR}{NAG,VSH}{TCR,VSH}

Thuật toán AprioriTIDVí dụ

Đầu tiênk=2

TID Danh sách tập 1 item1 {DRC}2 {TCR}3 {DRC}, {TCR}, {VSH}4 {NAG},{TCR},{VSH}5 {DRC}, {NAG}, {TCR}, {VSH}6 {DRC}, {NAG}, {TCR}, {VSH}7 {DRC}, {NAG}, {TCR}, {VSH}8 {DRC}, {TCR}9 {DRC}, {TCR}, {VSH}

10 {DRC}, {TCR}, {VSH}


TID Danh sách tập 2 item3 {DRC,TCR},{DRC,VSH},{TCR,VSH}4 {NAG,TCR},{NAG,VSH},{TCR,VSH}

5{DRC,NAG},{DRC,TCR},{DRC,VSH},{DRC,VSH},{NAG,TCR},{NAG,VSH},{TCR,VSH}



8 {DRC,TCR}9 {DRC,TCR},{DRC,VSH},{TCR,VSH}

10 {DRC,TCR},{DRC,VSH},{TCR,VSH}

Support<4

Danh sách ứng viên 3 item{DRC,TCR,VSH}{NAG,TCR,VSH}


k=3

TID Danh sách tập 2 item3 {DRC,TCR},{DRC,VSH},{TCR,VSH}4 {NAG,TCR},{NAG,VSH},{TCR,VSH}

5{DRC,TCR},{DRC,VSH},{DRC,VSH},{NAG,TCR},{NAG,VSH},{TCR,VSH}



8 {DRC,TCR}9 {DRC,TCR},{DRC,VSH},{TCR,VSH}

10 {DRC,TCR},{DRC,VSH},{TCR,VSH}

Item2 Sup


TID Danh sách tập 3 item3{DRC,TCR,VSH}4{NAG,TCR,VSH}5{DRC,TCR,VSH},{NAG,TCR,VSH}6{DRC,TCR,VSH},{NAG,TCR,VSH}7{DRC,TCR,VSH},{NAG,TCR,VSH}9{DRC,TCR,VSH}

10{DRC,TCR,VSH}


Item2 Sup



ø


k=4

Item3 Sup


TID Danh sách tập 3 item3{DRC,TCR,VSH}4{NAG,TCR,VSH}5{DRC,TCR,VSH},{NAG,TCR,VSH}6{DRC,TCR,VSH},{NAG,TCR,VSH}7{DRC,TCR,VSH},{NAG,TCR,VSH}9{DRC,TCR,VSH}

10{DRC,TCR,VSH}

Xuất kết quả tìm được

Thuật toán FP-GrowthGiới thiệu

Khuyết điểm của các thuật toán trước đây:Tốn kém do việc sinh ra và kiểm tra các ứng viên

FP-Growth: (Frequent Pattern Growth)Không cần sinh và kiểm tra ứng viênXây dựng cấu trúc Cây FP để lưu trữ toàn bộ CSDLKhai phá cây FP để tìm các mẫu phổ biến

Thuật toán FP-GrowthCây FP

Mục đíchTránh quét lại CSDL nhiều lầnGiảm thiểu lưu trữ đối với các giao tác chứa cùng các tập phổ biến

Xây dựng cây FP chỉ cần 2 lần quét CSDL:1. Tính support từng item tìm ra các item phổ biến2. Đọc lại CSDL theo thứ tự support giảm dần, loại những item có support<minSup

Thuật toán FP-GrowthCây FPXây dựng cây FP

Nút gốc có giá trị NULL (cấp độ 0)Thông tin mỗi nút: <name, support, parent_node>Trên cùng 1 nhánh, nút cấp độ k có giá trị support lớn hơn hoặc bằng nút có cấp độ k+1 (1 ≤ k ≤ N)N: số lượng item phổ biến

Thuật toán FP-GrowthCây FP

Input:CSDL giao tácGiá trị minSup

OutputCây FP

Thuật toán FP-GrowthCây FPGiải thuật xây dựng cây FP:Header={<name,sup,link*>|sup>=minSup}F = {item|item.sup≥minSup}Flist= F.Sort(item.support desc);Cây T = nút gốc là null;for tất cả giao tác t trong DB do{

tlist = getFP(t,Flist)insert_tree(tlist.first(), tlist.removefirst() ,T)

}return Cây T

Header• Chứa danh sách các item phổ

biến theo thứ tự giảm • Trỏ đến các node cùng tên

trên cây FP

getFP(t,Flist)• Đọc các item phổ

biến trong giao tác t theo thứ tự Flist

insert_tree(item,List,T)if(T có nút con N & N.name=item.name){

N.count++} else {

tạo nút N mới;N.parent=T;N.count=1;

}if(List<>) insert_tree(List.first(),List.removefirst(),N)

Thuật toán FP-GrowthXây dựng cây FP

Quét lần đầu tiên

ID Danh sách tập 1 item1 DRC2 TCR3 TCR, DRC, VSH4 TCR, VSH, NAG5 TCR, DRC, VSH, NAG6 TCR, DRC, VSH, NAG7 TCR, DRC, VSH, NAG8 TCR, DRC9 TCR, DRC, VSH

10 TCR, DRC, VSH

Item SupTCR 9DRC 8VSH 7NAG 4

{TCR DRC VSH NAG}


Quét lần haiID Danh sách tập 1 item1 DRC

NULL

DRC:1DRC:1

2 TCR

TCR:1TCR:1



NULL

DRC:1

2 TCR

TCR:1

3 TCR, DRC, VSH

TCR:2

DRC:1

VSH:1



NULL

DRC:1

2 TCR

TCR:2

3 TCR, DRC, VSH DRC:1

VSH:1

4 TCR, VSH, NAG

TCR:3

VSH:1

NAG:1



NULL

DRC:1

2 TCR

TCR:3


VSH:1

4 TCR, VSH, NAG

TCR:4

VSH:1

NAG:1

5 TCR, DRC, VSH, NAG

DRC:2

VSH:2

NAG:1



NULL

DRC:1

2 TCR

TCR:4


VSH:2

4 TCR, VSH, NAG

TCR:5

VSH:1

NAG:1


DRC:3

VSH:3

NAG:1NAG:2


DRC:3

VSH:3

NAG:2NAG:3

VSH:4

DRC:4



NULL

DRC:1

2 TCR

TCR:5

3 TCR, DRC, VSH4 TCR, VSH, NAG

TCR:6

VSH:1

NAG:1

5 TCR, DRC, VSH, NAG6 TCR, DRC, VSH, NAG7 TCR, DRC, VSH, NAG

DRC:4

TCR:6

DRC:5

TCR:7

VSH:4

NAG:3



NULL

DRC:1

2 TCR3 TCR, DRC, VSH4 TCR, VSH, NAG

VSH:1

NAG:1

5 TCR, DRC, VSH, NAG6 TCR, DRC, VSH, NAG7 TCR, DRC, VSH, NAG8 TCR, DRC

DRC:5

TCR:7

VSH:4

DRC:6

TCR:8

VSH:5

NAG:3



NULL

DRC:1


VSH:1

NAG:1

5 TCR, DRC, VSH, NAG6 TCR, DRC, VSH, NAG7 TCR, DRC, VSH, NAG8 TCR, DRC9 TCR, DRC, VSH

DRC:6

TCR:8

VSH:5

DRC:7

TCR:9

VSH:6

NAG:3



NULL

DRC:1


VSH:1

NAG:1

5 TCR, DRC, VSH, NAG6 TCR, DRC, VSH, NAG7 TCR, DRC, VSH, NAG8 TCR, DRC9 TCR, DRC, VSH

10 TCR, DRC, VSH

DRC:7

VSH:6

TCR:9

NAG:3


Quét lần hai

NULL

DRC:1

VSH:1

NAG:1

Item Sup linkTCR 9DRC 8VSH 7NAG 4

Thuật toán FP-GrowthKhai phá cây FP

Nhận xét nút mLj (với Lj: tập phổ biến có chứa ai) m nằm cùng nhánh với ai

aik (nút ai ở cấp độ k,k[0,K),1≤K≤N),aik chỉ có 1 con không tồn tại ajl(l[K,N])ajl.name=aik.name


Ý tưởng cho việc khai pháChia cây FP làm 2 phần

P: Chứa chuỗi nút liên tục từ gốc chỉ có 1 con (1 nhánh đơn từ gốc đến k) gọi là nhánh tiền tố đơnQ: phần chứa các nút thuộc phần nhiều nhánh

Tìm tất cả các tập phổ biến có chứa các nút aiQKết quả là các tập thuộc P Q (P Q)


InputCây FPGiá trị minSup

OutputTập các mẫu phổ biến

Thuật toán FP-GrowthGiải thuật khai phá cây FPPROCEDURE FP-growth(Tree, ){if(Tree chứa đường dẫn prefix đơn) {

P = phần chứa nhánh prefix đơn của TreeQ = phần chứa nhiều nhánh của cây Tree, Q.root= NULL;foreach tổ hợp các node thuộc P(kí hiệu ) do

Sinh ra các mẫu với support=support nhỏ nhất trong Gán freq_pattern_set(P) là tập các mẫu được sinh ra

}else gán Q là Tree;foreach (item ai thuộc Q) do{

Sinh ra mẫu =ai với support=ai.supportXây dựng cơ sở mẫu ước định của và cây ước định Tree

Gọi FP-growth (Tree,)Gán freq_pattern_set(Q) là tập các mẫu được sinh ra

} RETURN freq_pattern_set(P) freq_pattern_set(Q) (freq_pattern_set(P) freq_pattern_set(Q))}

Thuật toán FP-Growth

Ví dụ:

Thuật toán FP-Growth

Ví dụ cách xây dựng cây FP={NAG}


Item SupTCR 4DRC 3VSH 4

Cải tiến tốc độ FP-growth bằng kỹ thuật mảng

Nhận xét FP-Growth80% thời gian duyệt các node trên cây FPCông việc chính cho mỗi bước khai phá

Xây dựng cây FP={ai} chưa hoàn chỉnh từ cây FP chaĐếm count của các node trên cây mới FPXóa các node không đủ điều kiệnCấu trúc lại các node trên cây theo thứ tự mới

Giải pháp nào tối ưu hơn?


Ý tưởng: Khi xây dựng cây FPDựa trên thứ tự support giảm dần của bảng headerĐối với mỗi item x, ta có các item yi cây FP={x} yi.support<x.support (yi cùng nhánh x)Trong khi xây dựng cây FP, ta có thể tính support của một item yj bất kỳ chung nhánh với item x (với yj.support ≥ x.support) cho cây FP={x}


Ví dụ:


7

7

4

6

3 4

Ứng dụng trong bài toán CK

Từ bảng lịch sử giáTrích những mã CP theo nhu cầu nhà đầu tư

Biến động giảm trong ngàyBiến động tăng trong ngày

Xây dựng bảng dữ liệu nhị phân


Dữ liệu thực tế:Lịch sử giá chứng khoán từ ngày 6/2001 đến ngày 21/12/2011 Tổng số mẫu tin: 559654Tổng loại mã CP: 712Tổng số ngày giao dịch: 2114


Hiệu suất thực thi:

0,09 0,1 0,12 0,15 0,25 0,3 0,5 0,70

500

1000

1500

2000

2500

3000

FPGrowth

Apriori

AprioriTID

minSup

Thờ

i gia

n th

ực

thi (

giây

)

Kết luậnLuật kết hợp có khả năng ứng dụng được vào nhiều lĩnh vực khác nhau trên thực tếƯu điểm:

Áp dụng được giải thuật tốt giúp cải thiện tốc độ khai pháỨng dụng sử dụng được dữ liệu thực tế

Khuyết điểm:Hướng lưu trữ hợp lý khi dữ liệu không thể chứa trong bộ nhớ trongChưa ứng dụng khả năng sử dụng lại kết quả khai phá

Kết thúc

Cảm ơn thầy cô và các bạn đã quan theo dõi!

Data mining - Luật kết hợp và ứng dụng

Technology