Page 1
Sửdụngwekađểphâncụmdữliệu:
-Càiđặtwekadownloadtừlink:https://filehippo.com/download_weka/
-Chạyweka:
Cácchứcnăngchínhcủaweka:
+Chứcnăngexplorer
-Tiềnxửlýdữliệu
-Phânlớp
-Phâncụm
-Khaipháluậtkếthợp
-Lựachọnthuộctính
-Trựcquanhóa
Page 2
+ChứcnăngExperimenter:
-Thiếtkếcácthínghiệm
-Lựachọnthuậttoánvàtậpdữliệu
-Chạythínghiệm
-Phântíchkếtquả(sosánhcáckếtquả,…)
Page 3
+ChứcnăngKnowlegeFlow:
-Thiếtkếquátrìnhkhaiphádữliệu1cáchtrựcquan
-Từxửlýdữliệu->chạymôhình->trìnhbàykếtquả
Page 4
+ChứcnăngWorkbench:
-Tổnghợpcácchứcnăngởtrênvàotrongmộtứngdụng
-Cungcấpchongườisửdụngcôngcụmạnhđểkhaiphádữliệu
+ChứcnăngSimpleCLI:
Page 5
-ChophépngườidùngtươngtácvớiWEKAbằngcáchgõlệnh
TậptinxửlýchínhcủawekadạngARFF:
-Môtảđốitượngtrongkhônggiann-chiều
-TậptinARFFcóphầnheader
-TậptinARFFcóphầndata
-Cáckiểudữliệu
-LàmộtvănbảntheobảngmãASCII
-Môtảcácđốitượngcócùngchungtậpthuộctính
-Đượcsửdụnglàmđịnhdangchuẩnchodữliệuđượcdùngbớicácmôhìnhcủaweka
Ngườidùngcóthểđọccácloạitậptinđầuvàokhácnhư:csv,xls,…
Cácbướcxửlýbàitoánphâncụm:
Bước1:Chọnchứcnăngexplorer
Page 6
Bước2:ĐọcdữliệutừPreprocess
Page 7
-Đọcdữliệutừfile:openfile
-ĐọcdữliệutừđịachỉURL:openURL
-Đọcdữliệutừ1CSDL:openDB
-Đọcdữliệuphátsinh(phátsinhdữliệutừcácbộphátsinhdữliệuDataGenerators):Generators
Chọnđọcdữliệulàopenfile,sauđóchọnđườngdẫnđếnnơichứafile,chọnkiểufilecầnmở.
Bước3:Chỉnhsửadữliệu,chọnEdit
-Edit:biểudiễndữliệudướidạngbảng.
-Nhấnchuộtphảiracácchứcnăngwekahỗtrợtiềnxửlýdữliệu:thayđổitênthuộctính,thayđổigiátrịthuộctính,chọnthuộctínhlàmnhãn,….
Bước4:ChọnCluster
Page 8
Bước5:Chọnthuậttoánsửdụng:choose
Page 9
ChọnSimpleKmean
Bước6:thayđổicácthamsốcủathuậttoán(nhấnchuộtvàothuậttoán,chọnsốcụm)
Page 10
Bước7:Chọnmodeđểtest:
-Usetrainingset:toànbộtậptrainingdùngđểtest.
-Suppliedtestset:chọn1tậptinđểtest.
-Precentagesplit:chọntheotỷlyệcủatậptraining.
-Classestoclustersvisualization:đánhgiátheothuộctínhphânlớp
Bước8:kếtquảđầura
Page 11
-NếuchọnUsetrainingset(sốcụmlà5)
-Classestoclustersvisualization:đánhgiátheothuộctínhphânlớp(sốcụmlà5=sốnhãncủathuộctínhgánnhãn)
Page 13
BộdữliệuFIMS1:Dựbáodelay
Môtảdữliệu:gồm16thuộctính,31793bảnghi:
STT Tênthuộctính Diễngiải
1 LEG_NO IDchuyếnbay(Netlines)
2 CAUSE N/A(blank)
3 FIGHT_TYPE Loạichuyếnbay(QT,QN)
4 SDEP Điểmxuấtphát
5 SARR Điếmđếntheolịch
6 AARR Điểmđếnthựctế
7 STD Thờigiankhởihànhtheolịch
8 STA Thờigianđếntheolịch
9 ETD ETD:thờigiankhởihànhdựkiến
10 ETA ETA:thờigianđếndựkiến
11 OUT_TIME Thờiđiểmrútchèn
12 OFF_TIME Thờiđiểmcấtcánh
13 ON_TIME Thờiđiểmhạcánh
14 IN_TIME Thờiđiểmđóngchèn
15 DELAY_TIME Thờigianchậmchuyến
16 DELAY_CODE Mãchậmchuyến
17 DELAY_GROUP Nhómchậmchuyến
ChọnthuộctínhgánnhãnlàDELAY_Group(có11nhómchậmchuyếnkhácnhauvớiđộdelaykhácnhau)
ChọnCluster:SimpleKmeans:việcsửdụngtoànbộdữliệu,vớisốcụmlà11,kếtquảthuđượcnhưsau:
Page 14
ChọnCluster:SimpleKmeans:vớisốcụmlà11tươngứngvớithuộctínhgánlớp,kếtquảthuđượcnhưsau:
ChọnphâncumvớithuậttoánEM: