Learning decision rules with evolutionary optimizationeprints.fri.uni-lj.si/4297/1/63030182-MATEJ... · pokrije prvi, drugi in šesti primer iz tabele ter napoveduje razred Kredit

Učenje odločitvenih pravil z evolucijsko optimizacijo

Matej Pičulin

doktorska disertacijapredana

Fakulteti za računalništvo in informatikokot del izpolnjevanja pogojev za pridobitev naziva

doktor znanostis področja

računalništva in informatike

Ljubljana, 2018

IZJAVA

Izjavljam, da sem avtor dela in da slednje ne vsebuje materiala, ki bi ga kdorkolipredhodno že objavil ali oddal v obravnavo za pridobitev naziva na univerzi ali na

drugem visokošolskem zavodu, razen v primerih, kjer so navedeni viri.—Matej Pičulin—september 2018

Oddajo so odobrili

dr. Igor Kononenkoredni profesor za računalništvo in informatiko

predsednik ocenjevalne komisije

dr. Marko Robnik-Šikonjaredni profesor za računalništvo in informatikočlan ocenjevalne komisije in mentor

dr. Mitja Luštrekvišji znastveni sodelavec

zunanji član ocenjevalne komisijeInstitut Jožef Stefan

PREDHODNAOBJAVA

Izjavljam, da so bili rezultati obravnavane raziskave predhodno objavljeni/sprejeti za ob-javo v recenzirani reviji ali javno predstavljeni v naslednjih primerih:

[1] M. Pičulin, and M. Robnik-Šikonja. Handling numeric attributes with ant colony based classi-fier for medical decision making. Expert Systems with Applications, 41(16):7524-7535, 2014.

Potrjujem, da sem pridobil pisna dovoljenja vseh lastnikov avtorskih pravic, ki mi do-voljujejo vključitev zgoraj navedenega materiala v pričujočo disertacijo. Potrjujem, dazgoraj navedeni material opisuje rezultate raziskav, izvedenih v času mojega podiplom-skega študija na Univerzi v Ljubljani.

Doktorski študij je delno sofinancirala Evropska unija, in sicer iz Evropskega socialnegasklada. Sofinanciranje se izvaja v okviru Operativnega programa razvoja človeških virov

za obdobje 2007-2013, 1. razvojne prioritete Spodbujanje podjetništva inprilagodljivosti; prednostne usmeritve_1. 3: Štipendijske sheme.

ABSTRACT

University of LjubljanaFaculty of Computer and Information Science

Matej PičulinLearning decision rules with evolutionary optimization

One of successful predictive and descriptive approaches in machine learning is decisionrule learning. Decision rules achieve reasonable classification accuracy and are inter-pretable, which is important to end users, who trust predictions more if they are sup-ported with explanations. The challenge in mining decision rules is to find a short andcomprehensible rule list with high classification accuracy. This led to many differenttypes of classification rules like crisp rules, soft rules, probabilistic rules, etc.We developed two new methods for mining classification rules based on ant colony

optimization, which is a successful discrete optimization method. In the first part ofthe dissertation, we present a new method called nAnt-Miner, which can, contrary tomost other ant colony based approaches, handle numeric attributes. This leads to anincreased search space and affects the running time and use of memory. We showedthat the nAnt-Minermethod is comparable to other ant colony optimization based rulelearning methods, but is worse than fuzzy rules based method FURIA. The advantageof the nAnt-Miner method is that it can detect strong dependencies between attributes.In the second part of the dissertation we present the ProAnt-Miner method, which

mines probabilistic rules. We introduce a novel interpretation of pheromone values forthis approach. ProAnt-Miner is faster, achieves better prediction accuracy than nAnt-Miner, anduses lessmemorydue to adifferent search graph. We showed that theProAnt-Miner classification accuracy does not statistically differ from the state-of-the-art meth-ods like FURIAandRIPPER.TheProAnt-Minermethodhas new rule form,which cangive the user new insights. We evaluated both methods on real and artificial datasets.

Key words ant colonyoptimization, evolutionary computation,machine learning, rulelearning, probabilistic rules, soft rules

ix

POVZETEK

Univerza v LjubljaniFakulteta za računalništvo in informatiko

Matej PičulinUčenje odločitvenih pravil z evolucijsko optimizacijo

Učenje pravil je eno od uspešnih napovednih in opisnih metod strojnega učenja. Pravi-la dosegajo solidno klasifikacijsko točnost in so razložljiva, kar je pomembno za končneuporabnike, ki napovedim z razlago bolj zaupajo. Izziv pri iskanju odločitvenih pravilje dobiti kratke in razumljive sezname pravil z visoko klasifikacijsko točnostjo. To je vo-dilo do razvoja mnogih različnih oblik klasifikacijskih pravil, kot so trda pravila, mehkapravila, verjetnostna pravila itd.Razvili smo dve metodi za iskanje odločitvenih pravil z uporabo optimizacije s kolo-

nijo mravelj, ki je uspešna metoda za diskretno optimizacijo. V prvem delu disertacijepredstavimo novo metodo imenovano nAnt-Miner, ki, za razliko od večine drugih me-tod, osnovanih na koloniji mravelj, obravnava tudi številske atribute. To vodi do večjegapreiskovalnega prostora in vpliva na čas izvajanja ter porabo pomnilnika. Pokazali smo,da je metoda nAnt-Miner primerljiva z ostalimi metodami na osnovi kolonije mravelj,vendar je slabša od metode FURIA za iskanje mehkih pravil. Prednost metode nAnt-Miner je v tem, da lahko zazna močne odvisnosti med atributi.V drugem delu disertacije predstavimo metodo ProAnt-Miner, ki išče verjetnostna

pravila. Predstavimo novo interpretacijo feromonov za delovanje te metode. MetodaProAnt-Miner je v primerjavi z metodo nAnt-Miner hitrejša, dosega višjo klasifikacijskotočnost in porabi manj pomnilnika, predvsem zaradi uporabe drugačnega preiskovalne-ga grafa. Pokazali smo, da se metoda ProAnt-Miner, glede na klasifikacijsko točnost,statistično ne razlikuje od vodilnihmetod, kot sta FURIA inRIPPER.Metoda ProAnt-Miner ima novo obliko pravil, ki lahko da nov pogled na podatke. Metodi smo ovredno-tili na realnih in umetnih podatkovnih množicah.

Ključne besede kolonija mravelj, evolucijsko računanje, strojno učenje, učenje pravil,verjetnosta pravila, mehka pravila

xi

ZAHVALA

Najprej bi se rad zahvalil mojemu mentorju, rednemu profesorju Marku Robniku Ši-konji, saj brez njegove pomoči in usmerjanja ter tudi potrpežljivosti to delo ne bi nastalo.

Rad bi se zahvalil vsem članom Laboratorija za kognitivno modeliranje za sproščenovzdušje v laboratoriju in za pomoč pri delu, predvsem v prvih dveh letih.

Nenazadnje bi se zahvalil svojim staršem, ki so me podpirali na poti do disertacije.—Matej Pičulin, Ljubljana, september 2018.

xiii

KAZALO

Abstract ix

Povzetek xi

Zahvala xiii

1 Uvod 11.1 Pregled vsebine . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Prispevki k znanosti . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Izhodišča in sorodne raziskave 52.1 Oblika klasifikacijskih pravil . . . . . . . . . . . . . . . . . . . . . 72.2 Mere za vrednotenje pravil . . . . . . . . . . . . . . . . . . . . . . 82.3 Algoritmi za učenje pravil . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.1 AQ in PRISM . . . . . . . . . . . . . . . . . . . . . . . . 112.3.2 CN2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.3.3 FOIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.3.4 RIPPER . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.3.5 FURIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 Optimizacija z metodo kolonije mravelj . . . . . . . . . . . . . . . . 122.4.1 Navdih iz narave . . . . . . . . . . . . . . . . . . . . . . . 122.4.2 Uporaba v računalništvu . . . . . . . . . . . . . . . . . . . 13

2.5 Učenje pravil z uporabo metod kolonije mravelj . . . . . . . . . . . 142.5.1 Ant-Miner . . . . . . . . . . . . . . . . . . . . . . . . . . 152.5.2 Ant-Miner+ . . . . . . . . . . . . . . . . . . . . . . . . . 18

xv

xvi MPičulin Učenje odločitvenih pravil z evolucijsko optimizacijo

2.5.3 Ostale izboljšave in sorodne metode . . . . . . . . . . . . . 20

3 Metoda nAnt-Miner 253.1 nAnt-Miner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.1.1 Predstavitev grafa . . . . . . . . . . . . . . . . . . . . . . 273.1.2 Verjetnosti na povezavah . . . . . . . . . . . . . . . . . . . 293.1.3 Posodabljanje vrednosti feromona . . . . . . . . . . . . . . 303.1.4 Hevristika kakovosti poti . . . . . . . . . . . . . . . . . . . 323.1.5 Rezanje pravil . . . . . . . . . . . . . . . . . . . . . . . . 323.1.6 Ustavitveni pogoj . . . . . . . . . . . . . . . . . . . . . . 32

3.2 Empirično vrednotenje metode . . . . . . . . . . . . . . . . . . . . 333.2.1 Določanje privzetih vrednosti parametrov . . . . . . . . . . 333.2.2 Primerjava z ostalimi metodami . . . . . . . . . . . . . . . 383.2.3 Umetne podatkovne množice . . . . . . . . . . . . . . . . 443.2.4 Medicinska domena . . . . . . . . . . . . . . . . . . . . . 483.2.5 Zaključek . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4 Metoda ProAnt-Miner 514.1 Oblika pravil metode ProAnt-Miner . . . . . . . . . . . . . . . . . 524.2 Napovedovanje z verjetnostnimi pravili . . . . . . . . . . . . . . . . 534.3 Mehka pravila z večjim pokritjem . . . . . . . . . . . . . . . . . . . 544.4 ProAnt-Miner . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.4.1 Inicializacija feromonov . . . . . . . . . . . . . . . . . . . 554.4.2 Gradnja pravil . . . . . . . . . . . . . . . . . . . . . . . . 574.4.3 Izboljševanje pravil . . . . . . . . . . . . . . . . . . . . . . 584.4.4 Kakovost pravil . . . . . . . . . . . . . . . . . . . . . . . 584.4.5 Posodobitev feromonov . . . . . . . . . . . . . . . . . . . 604.4.6 Uteži primerov . . . . . . . . . . . . . . . . . . . . . . . . 614.4.7 Ustavitveni pogoj . . . . . . . . . . . . . . . . . . . . . . 62

4.5 Empirično vrednotenje metode . . . . . . . . . . . . . . . . . . . . 624.5.1 Realne podatkovne množice . . . . . . . . . . . . . . . . . 634.5.2 Umetne množice . . . . . . . . . . . . . . . . . . . . . . . 684.5.3 Medicinska domena . . . . . . . . . . . . . . . . . . . . . 694.5.4 Vpliv velikosti seznama pravil . . . . . . . . . . . . . . . . 71

Kazalo xvii

4.5.5 Zaključek . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5 Zaključek 75

Literatura 79

1

Uvod

2 MPičulin Učenje odločitvenih pravil z evolucijsko optimizacijo

Strojno učenje se vedno več uporablja na mnogih področjih. Marsikje se beležijo po-datki o navadah ljudi in organizacij. Tako se na primer zbirajo podatki o zdravju ljudi,nakupovalnih navadah, finančnih investicijah, poteku športnih tekem, literaturi, proce-sih v podjetji itd. V grobem ločimo dva načina strojnega učenja, in sicer nadzorovanoin nenadzorovano učenje. Pri nadzorovanem učenju želimo na označenih podatkih na-povedati označbe še ne-videnih primerov, pri nenadzorovanem učenju pa iščemo zako-nitosti v podatkih. Primer nadzorovanega strojnega učenja je iz nakupovalne košaricepotrošnice napovedati, ali je noseča ali ne. S takimi podatki lahko podjetje potrošnikompošilja prilagojene reklame. Primer nenadzorovanega strojnega učenja na istih podatkihje iskanje artiklov, ki se velikokrat prodajajo skupaj. To lahko podjetje izkoristi za boljšoorganizacijo prodajalnih polic.Pri prejšnjem primeru uporabnika zanima predvsem napovedna točnost algoritma

strojnega učenja. V nekaterih panogah, kot na primer v medicini, pa je pomembna tudirazlaga dobljene napovedi. Ljudje velikokrat raje zaupamo odgovoru, ki ima tudi poja-snilo. Tako imajo v splošnemnevronskemreže visoko klasifikacijsko točnost, vendar jimmanjka razlaga. Klasifikacijska pravila pa na drugi strani dosegajo manjšo klasifikacijskotočnost, a nudijo preprosto razlago.Eden izmednačinov, kako se lahko naučimo klasifikacijskih pravil, je preiskovanje pro-

stora vsehmožnih seznamov pravil. Prostor vsehmožnih seznamov pravil je za določenodomeno ponavadi neskončen, a ga lahko smiselno omejimo, čeprav je še prevelik, da bilahko ocenili ali našteli vse možne sezname pravil. Za preiskovanje tega prostora sezna-mov uporabimo hevristike, ki nas v doglednem času vodijo do zadovoljivih rešitev. Vtem delu za preiskovanje prostora odločitvenih pravil uporabljamo biološko navdihnje-nometodo kolonije mravelj, ker se je le-ta na sorodnih problemih izkazala za učinkovito.Skupina znanih metod za iskanje klasifikacijskih pravil iz podatkov na osnovi kolonijemravelj se imenuje Ant-Miner. Težave obstoječih metod Ant-Miner so pri obravnavizveznih atributov, saj je kolonija mravelj primernejša za diskretno optimizacijo. Oteroin sod. [1] so poskušali rešiti to težavo s sprotno diskretizacijo atributov. Delo je bilopovod za prvi del disertacije, v kateri smo razvili metodo nAnt-Miner, ki uporablja zapreiskovanje prostora pravil kolonijo mravelj in je zmožna obravnavati tudi zvezne atri-bute. Cilj metode nAnt-Miner je razvoj nove metode, osnovane na metodi Ant-Miner+[2], ki je vodilnametoda zasnovana na koloniji mravelj za iskanje trdih pravil tako, da boodpravila pomanjkljivost metode Ant-Miner+, ki ne zna obravnavati zveznih atributovin hkrati bila še vedno statistično primerljiva glede na klasifikacijsko točnost z metodo

Uvod 3

Ant-Miner+, pri čemer smo za diskretizacijo zveznih atributov predhodnouporabilime-todo Fayyad-Irani [3].V drugem delu disertacije smo se osredotočili na novo, verjetnostno predstavitev pra-

vil, ki jih dobimo s kolonijomravelj. Tometodo smo poimenovali ProAnt-Miner in lah-ko obravnava diskretne in zvezne atribute ter sočasno gradi mehke intervale pravil. Ciljmetode ProAnt-Miner je iskanje verjetnostnih pravil, ki nam lahko podajo drugačen po-gled v podatke, hkrati pa želimo, da jemetoda glede na klasifikacijsko točnost primerljivaz obstoječimi vodilnimi metodami, kot sta FURIA [4] in RIPPER [5].

1.1 Pregled vsebineV poglavju 2 najprej opišemo ozadje dela, kot sta oblika klasifikacijskih pravil in mere zavrednotenje le-teh. Opišemometode za rudarjenje pravil, ki so vodile do danes vodilnihmetod za rudarjenje pravil [4, 5]. Temu sledi opis optimizacije s kolonijo mravelj, ra-zvoj metod za iskanje pravil, osnovanih na koloniji mravelj, ter kratek pregled sorodnihraziskav. V poglavju 3 opišemo novo razvito metodo za iskanje pravil z uporabo koloni-je mravelj, ki lahko obravnava diskretne in številske atribute, čeprav je kolonija mraveljosnovana za preiskovanje diskretnega prostora. V poglavju 4 predstavimo drugo razvitometodoProAnt-Miner, ki je namenjena iskanju verjetnostnih pravil. Obe razvitimetodismo empirično ovrednotili na realnih in umetnih podatkovnih množicah. V zaključkupovzamemo narejeno in predstavimo ideje za izboljšave in nadaljnje delo.

1.2 Prispevki k znanostiV disertaciji sta predstavljena naslednja prispevka k znanosti:

Razvoj metode za klasifikacijo, osnovano na koloniji mravelj, ki omogoča narav-no obravnavanje vseh tipov atributov. Razvili smo metodo nAnt-Miner za učenjepravil, ki obravnava nominalne, ordinalne in številske atribute, čeprav je meto-da kolonije mravelj zasnovana za diskretno optimizacijo [6]. V našem delu smojo za učenje pravil uporabili na številskih atributih, tako da smo dinamično spre-minjali graf preiskovanja. S tem dosežemo dovolj nizko prostorsko in časovnozahtevnost algoritma za praktično uporabo. Podrobnosti o metodi so v poglavju3 in objavljene v članku [7].


Razvoj metode za iskanje verjetnostnih pravil z metodo kolonije mravelj. Razvilismo metodo ProAnt-Miner, ki, tako kot metoda nAnt-Miner, obravnava števil-ske atribute.Metoda se uči mehkih pravil Gaussovske oblike, ki jih za lažjo inter-petacijo lahko spremenimo v obliko podobno trapezoidni obliki. Metoda za svo-je delovanje inovativno interpretira pomen feromonov, ki hkrati usmerjajo potekpreiskovanja, prestavljajo verjetnostno distribucijo vrednosti zveznih atributov inpredstavljajo končni mehki interval vsakega člena pravila. Metoda je podrobnejepredstavljena in ovrednotena v poglavju 4. Metoda še ni publicirana.

2

Izhodišča in sorodne raziskave


Tabela 2.1Primer majhne podatkovne množice za klasifikacijo. Prvih pet stolpcev so atributi, razred pa predstavlja podatek,ali je oseba vrnila kredit.

Izobrazba Zakonski stan Spol Otroci Starost Kredit

Osnovna Samski Moški Ne 27 NeOsnovna Samski Moški Da 44 NeOsnovna Poročen Moški Ne 24 DaUniverzitetna Ločen Ženski Ne 30 DaUniverzitetna Poročen Ženski Da 33 DaSrednja Samski Moški Ne 45 NeUniverzitetna Samski Ženski Ne 27 Ne

V strojnem učenju imamo velikokrat opravka z množico podatkov, ki so opisani z atri-buti in vrednostjo, ki jo želimo napovedati. Podatke najlažje predstavimo s tabelo, kjervsak stolpec predstavlja atribut oziroma razred, vsaka vrstica pa predstavlja en učni pri-mer, za katerega poznamo razred. Primer podatkov lahko vidimo v tabeli 2.1. Proces,ki je generiral te podatke, želimo modelirati, kar pomeni, da želimo pridobiti model, kiomogoča čim točnejše napovedovanje razreda še ne-videnih primerov. Temu procesupravimo strojno učenje. Ločimo dve vrsti napovednih modelov, in sicer, če napovedu-jemo diskretno vrednost, imenujemo dobljeni model klasifikator; če pa je napovedanavrednost zvezna, ga poimenujemo regresor. V našem delu smo se osredotočili na klasifi-katorje, saj razvijamo metodi, ki napovedujeta diskretne razrede.Napovedne modele delimo tudi glede na njihov opisni jezik. V našem delu se bomo

osredotočili na modele v obliki odločitvenih pravil. Drugi modeli so na primer Bayevso-ki modeli, drevesni modeli ali nevronske mreže. Podrobnejša delitev modelov strojne-ga učenja in osnove strojnega učenja opisuje knjiga avtorjev Kononenko in Kukar [8].Pravila ločimo na klasifikacijska in povezovalna. Za razliko od klasifikacijskih pravil prirudarjenju povezovalnih pravil kot razred obravnavamopoljuben atribut in iščemo stati-stične povezavemed atributi. V našem delu smo se osredotočili na klasifikacijska pravila.Področje učenja pravil je podrobno opisano v knjigi avtorjev Fürnkranz in sodelavcev[9], po katerem je zasnovano nadaljevanje tega poglavja.

V razdelku 2.1 predstavimo možne oblike klasifikacijskih pravil, v razdelku 2.2 poda-momere, ki se uporabljajo za vrednotenje pravil, v razdelku 2.3 pa predstavimo obstoječe

Izhodišča in sorodne raziskave 7

metode za učenje pravil. V razdelku 2.4 opišemometodo optimizacije s kolonijomravelj,v razdelku 2.5 pa predstavimo dosedanje metode za učenje pravil na osnovi optimizacijes kolonijo mravelj.

2.1 Oblika klasifikacijskih pravilKlasifikacijska pravila največkrat zapišemo v treh oblikah, in sicer eksplicitni, formalniin obliki logike prvega razreda v zapisu jezika prolog.Eksplicitna oblika: Primer eksplicitnega pravila, ki ga lahko izluščimo iz podatkov ta-

bele 2.1 je IF Spol = Moški AND Starost > 25 THEN Kredit = Ne. To pravilopokrije prvi, drugi in šesti primer iz tabele ter napoveduje razred Kredit z vredno-stjo Ne. Takšen zapis pravila je za splošnega uporabnika preprosto razumljiv.Formalna oblika: Formalna oblika pravil izhaja iz formalne logike. V formalni

logiki lahko zapišemo primer, ki smo ga uporabili pri eksplicitni obliki kot:Ne ← Spol = Moški ∧ Starost > 25.Pravila v obliki jezika prolog: Pogosto srečamo zapis, ki se uporablja v program-

skem jeziku prolog. V tem primeru bi bilo naše pravilo zapisano kot:negative(X) :- Spol(X, moški), Starejsi(X, 25), kjer je predikat Starejsi(X, Y) defi-niran kot Starejsi(X, C) :- Starost(X, S), S > C.Obliko pravil smo prikazali na podatkih iz tabele 2.1. Tabela vsebuje pet

atributov in razred. Pravila bomo v nadaljevanju prikazovali v eksplicitni obliki,ki so sestavljena iz konjunkcije pogojev, vezanih z AND v delu pravila IF, iniz zaključka v delu pravila THEN. Ta prikaz bomo uporabljali zaradi njegovepreprostosti in razumljivosti. Pravilo IF Spol = Moški AND Starost > 25 THENKredit = Ne pokrije tri učne primere in ima na podani učni množici 100%klasifikacijsko točnost, saj pravilno napove vse primere iz tabele 2.1, za katere veljapogojni del pravila. Če v tem pravilu člen Starost > 25 zamenjamo s členomStarost > 26, ima to pravilo ravno tako 100% točnost, saj je pri numeričnihatributih marsikdaj težko določiti ostro mejo, kjer pravilo še drži in kje prenehaveljati. Taka pravila imenujemo trda pravila, ker tvorijo trde meje med razredi.Znana in uspešna sistema za rudarjenje trdih pravil sta CN2 [10] in RIPPER [5].

Omejitve trdih pravil omilimo z mehkim pravilom oziroma mehkim intervalom,kot je prikazan na sliki 2.1. Če desni interval poimenujemo Starejši, dobimopravilo IF Spol = Moški AND Starost = Starejši THEN Kredit = Ne. To pravilo


klasificira vse moške starejše od 26 let v razred Ne, tiste s starostjo med 23 in26 let pa bi v razred Ne klasificiralo z verjetnostjo, podano z narisano daljico.Mehki intervali so lahko omejeni z obeh strani in imajo takrat trikotno oziromatrapezoidno obliko. Ena uspešnejših metod za rudarjenje mehkih pravil je FURIA[4], njena podrobnejša analiza je objavljena v članku avtorjev Hühn in Hüllermeier[11].V tem delu prikažemo tudi novo obliko pravil in intervalov, osnovano na

normalni distribuciji in prikazano na sliki 2.2, ki je podrobneje opisana v razdelku4.1. Taka pravila so verjetnostna pravila, saj vsako pravilo z določeno verjetnostjoglasuje za določen razred. Intervali so podobni trapezoidnim mehkim intervalomin popolnoma pokrijejo primere blizu vrednosti 0,6, primere pod 0,5 in nad 0,7pa le z določeno verjetnostjo.

Slika 2.1Primer mehkegaintervala.

20 22 24 26 28 30

0.0

0.2

0.4

0.6

0.8

1.0

Starost

vsebovanost

2.2 Mere za vrednotenje pravilVsako zgrajeno pravilo pokriva določeno število primerov. Tukaj se omejimo nabinarni razred oziroma na pozitivne in negativne primere. Privzamemo, da želimos pravili pokriti pozitivne primere. Naučiti se želimo seznama pravil, ki pokrijejocelotno učno množico ter se dobro posplošijo na še ne videne primere. Dapravilno pokrijemo čim več primerov, optimiziramo naslednja kriterija:


0.4 0.5 0.6 0.7 0.8

0.0

0.2

0.4

0.6

0.8

1.0

x

covera

ge

Slika 2.2Primer verjetnostnegaintervala.

popolnost: število pozitivnih primerov, ki jih pravila pokrijejo, mora bitičim večje;

konsistentnost: število negativnih primerov, ki jih pravila pokrijejo, morabiti čim manjše.

Za vsako pravilo 𝑟 izračunamo štiri osnove karakteristike:

P: število pozitivnih primerov, ki jih pravilo pokrije,

N: število negativnih primerov, ki jih pravilo pokrije,

P: število vseh pozitivnih primerov,

N: število vseh negativnih primerov.

Večino mer za vrednotenje pravil izpeljemo iz teh štirih karakteristik. Dve osnov-ni meri sta specifičnost in občutljivost in ju izračunamo z naslednjimi enačbami:

Specifičnost(r) = N −NN . (2.1)

in

Občutljivost(r) = PP . (2.2)


Specifičnost meri delež pravilno pokritih negativnih primerov in zato ne ma-ksimizira popolnosti pravila. Občutljivost meri delež pravilno pokritih pozitivnihprimerov in zato ne optimizira konsistentnosti. Ti dve meri za ocenjevanje pravilzato uporabljamo skupaj. Občutljivost trivialno maksimiziramo tako, da s pravilompokrijemo vse primere, a s tem dobimo najslabšo možno konsistentnost.Uporabimo lahko tudi mero podpora:

Podpora(r) = PP + N, (2.3)

ki pa je podobna občutljivosti, saj se razlikuje le za normalizacijski faktor in imazato enake slabosti kot občutljivost. Mera, ki upošteva število pravilno napoveda-nih pozitivnih in negativnih primerov, je klasifikacijska točnost, ki izračuna deležpravilno klasificiranih primerov in je definirana kot

Točnost(r) = P + (N − N)P + N , (2.4)

Izračunamo lahko tudi delež vseh primerov, ki jih pravilo pokrije. Mero imenujemopokritost in je uporabna, če želimo pravilo posplošiti tako, da zajame čim večprimerov. Definirana je kot:

Pokritost(r) = P + NP + N . (2.5)

Uporabna mera za vrednotenje pravil je tudi natančnost:

Natančnost(r) = PP + N

, (2.6)

ki jo lahko maksimiziramo tako, da ne pokrijemo nobenega negativnega primera.Z maksimizacijo te mere dobimo pravila, ki pokrivajo le pozitivne primere. Težavate mere je, da pri njeni uporabi dobimo mnogo specifičnih pravil, ki pokrijejomajhno število primerov.Obstajajo še druge mere za ocenjevanje kakovosti pravil, kot so entropija, gini in-

deks, mera F, koeficient Q, Laplace, m-Estimate ter druge, ki pa jih v nadaljevanjudisertacije ne bomo uporabljali.


2.3 Algoritmi za učenje pravilOdločitvena pravila so pomembna za področje strojnega učenja, ker so kompaktnain razumljiva. V tem razdelku opišemo pomembne metode za učenje pravil.Nekatere metode so pomembni zgodovinski mejniki, druge pa so v uporabi šedanes.

2.3.1 AQ in PRISM

Metoda AQ [12] je bila prva metoda za učenje pravil, ki je uporabljala pristoploči in obvladaj (separate and conquer1), da je pokrila množico učnih primerov.Izraz loči in obvladaj sta pri učenju pravil prvič uporabila Bagallo in Haussler[13]. Algoritem za svoje delovanje potrebuje en naključno izbran pozitiven in ennegativen učni primer. AQ zgradi pravilo, ki pokrije pozitiven primer, hkrati pa nepokrije negativnega. Ker sta izbrana dva naključna primera, je delovanje algoritmaodvisno od izbranih učnih primerov. PRISM [14] za svoje delovanje ne uporabljanaključnih primerov, ampak pregleda celotno učno množico. Za preiskovanjeuporablja princip preiskovanja od zgoraj navzdol. Težava obeh algoritmov je, dane znata delati s šumnimi podatki.

2.3.2 CN2

Algoritem CN2 [10] je združil ideje algoritma AQ [12] in algoritma za učenjeodločitvenih dreves ID3 [15]. Cendrowska [14] je opazil povezavo med drevesi inpravili v tem, da vsaka pot od korena do lista v drevesu predstavlja pravilo. Praviladobljena iz drevesa so neprekrivajoča, kar je sicer omejitev algoritma. AlgoritemCN2 je odpravil pomanjkljivost prejšnjih algoritmov, ker se izogiba prevelikemuprileganju učnim podatkom ter zna obravnavati podatke z več razredi in ne lebinarne razrede, kot predhodni algoritmi.

2.3.3 FOIL

Algoritem FOIL [16] je prvi, ki je vpeljal možnost podajanja predhodnega znanjav sistem v obliki logike prvega reda.

1Podoben znan angleški izraz je ’divide and conquer’ (deli in vladaj), ki je tehnika rekurzinega pro-gramiranja.


2.3.4 RIPPER

Algoritem RIPPER [5] je eden izmed vodilnih sistemov za rudarjenje pravil. No-vost sistema je pri obravnavanju šumnih podatkov, s čimer se izogne prevelikemuprileganju podatkov učni množici. Sistem daje primerljive rezultate s sistemomC4.5 [17] za rudarjenje odločitvenih dreves.

2.3.5 FURIA

Algoritem FURIA [4] je eden izmed vodilnih algoritmov za rudarjenje mehkihpravil. Osnovan je na metodi RIPPER in za razliko od ostalih sistemov rudarineurejene sezname pravil, kar pomeni, da pri klasifikaciji pravil ne izvajamo povrstnem redu, pač pa upoštevamo vsa pravila, ki pokrijejo dani primer.

2.4 Optimizacija z metodo kolonije mraveljV tem razdelku 2.4.1 najprej opišemo osnovno idejo optimizacije z metodo kolonijemravelj. V razdelku 2.4.2 sledi kratek opis uporabe optimizacije s kolonijo mraveljs poudarkom na uporabi pri strojnem učenju. Razdelka 2.5.1 in 2.5.2 vsebujetakratek opis metod za učenje pravil, na katerih je osnovano naše delo.

2.4.1 Navdih iz narave

Optimizacija z metodo kolonije mravelj je biološko navdihnjena metoda. Principsimulira proces iskanja hrane pri mravljah. V naravi mravlje med seboj posrednokomunicirajo preko feromonov - kemičnih snovi, ki jih izločajo njihove žleze.Feromoni sprožajo naravni odziv drugih osebkov iste vrste. Ko mravlje iskalciiščejo hrano, na svoji poti spuščajo feromon, s katerim označijo pot, da se ponjej lahko vrnejo v mravljišče. Druge mravlje raje sledijo potem, na katerih jeveč feromona. Zaradi tega in dejstva, da feromon s časom izhlapeva, se navadnoustvari samo ena močno označena pot, ki ji sledijo vse mravlje.To biološko zakonitost izkoriščamo pri optimizaciji s simuliranjem umetnih

mravelj. Recimo, da več mravelj pri iskanju hrane naleti na kamen in na njegovidrugi strani je hrana, kot je prikazano na sliki 2.3. Na sliki zelen krog predstavljamravljišče, rdeč krog pa hrano. Če mravlje po narisanih poteh prispejo do hrane,se bo mravlja, ki je šla po zeleni in hkrati najkrajši poti, hitreje vrnila v mravljišče


in bo zato na tej poti v tem trenutku več feromona. Zaradi tega bo naslednjamravlja z večjo verjetnostjo sledila tej najkrajši poti in jo s tem še bolj ojačala.Kmalu bodo zaradi močne sledi feromona (skoraj) vse mravlje izbrale to pot, ki jeoptimalna z vidika optimizacije.

Slika 2.3Prikaz različnih poti,ki jih lahko opravijomravlje.

2.4.2 Uporaba v računalništvu

Simulacija mravelj pri iskanju hrane se je v računalništvu uveljavila kot optimi-zacijska metoda. Uporabljena sta principa feromonov in izhlapevanja feromonov.Dodatno pri simulaciji umetnih mravelj uporabljamo tudi hevristike za lažji hladnizagon.Princip delovanja kolonije mravelj je najlažje obrazložiti na primeru trgovskega

potnika, pri katerem se je metoda izkazala za učinkovito. Pri problemu trgovskegapotnika iščemo najkrajšo pot, ki obišče vsa mesta in se vrne v izhodišče. Problemlahko predstavimo z grafom, v katerem vsako vozlišče predstavlja eno mesto. Pove-zave med mesti označimo z razdaljo med mesti. Tak graf je poln, saj dopuščamoprehode med vsemi mesti. Če prehod med dvemi mesti ni možen, razdaljo mednjima označimo z ∞.

Mravlje iščejo najkrajšo pot tako, da vsaka mravlja začne v naključnem vozliščugrafa in izbere eno izmed povezav, ki vodijo iz tega vozlišča. V naslednjem vozliščumravlja izbere naslednjo povezavo, pri čemer ne more izbrati povezav, ki vodijov že obiskana vozlišča. To ponavlja, dokler ne obišče vseh vozlišč. Vsak obhod


predstavlja eno od možnih rešitev problema trgovskega potnika. Mravlja izbirapovezave na podlagi feromonov in hevristike za zaželjenost povezav. Hevristika ses časom ne spreminja in je v primeru trgovskega potnika določena kot obratnavrednost razdalje med mesti. To pomeni, da mravlje raje izbirajo krajše poti, česo na povezavah podobne vrednosti feromonov, kar večinoma drži na začetkuizvajanja algoritma. Feromoni se spreminjajo glede na prejšnje pohode mravelj, sajvsaka mravlja na svoji poti pušča sled feromona glede na kakovost zgrajene rešitve.Zaradi izhlapevanja se vrednosti feromonov na vseh poteh s časom zmanjšujejo.S tem se začetne slabe izbire s časom pozabijo. Izbira naslednje povezave jeizračunana verjetnostno na podlagi vrednosti feromona in hevristik zaželjenosti, pričemer imajo poti z večjimi vrednostmi večjo verjetnost izbire. Mravlje preiskujejograf, dokler niso izpolnjenji ustavitveni pogoji.Zgornji postopek opisuje inačico optimizacije s kolonijo mravelj imenovano Ant

System(AS). Boljše rezultate pri učenju odločitvenih pravil daje sistem MAX-MINAnt System [18], ki se od AS razlikuje v treh podrobnostih. V vsaki iteraciji vre-dnosti feromonov posodablja le mravlja z najboljšo rešitvijo. Vrednosti feromonovso omejene na interval [τ𝑚𝑖𝑛, τ𝑚𝑎𝑥] in začetne vrednosti feromonov so nastavljenena τ𝑚𝑎𝑥 namesto na 0, kot pri sistemu AS. Te spremembe povzročijo boljše iskanjepravil na začetku preiskovanja.

2.5 Učenje pravil z uporabo metod kolonije mraveljPri strojnem učenju pricip kolonije mravelj [19] uporabljamo predvsem za gručenjein učenje pravil. Ant-Miner [20], prva metoda za učenje klasifikacijskih pravilz uporabo metode mravelj, je bila razvita leta 2001 in objavljena leto kasneje.Glavna ideja te metode je, da se problem klasifikacije prevede na iskanje poti vgrafu, pridobljene iz učnih primerov. Kasnejše manjše izboljšave te metode stanaredila Wang in Feng [21] ter Liu in sod. [22], večja izboljšava pa se imenujeAnt-Miner+, ki jo je razvili Martens [2]. Metodi Ant-Miner in Ant-Miner+ stana kratko predstavljeni v nadaljevanju, na koncu pa omenimo še druge manjšeizboljšave teh metod.


2.5.1 Ant-Miner

Ant-Miner [20] je prva metoda, ki išče pravila oblike IF-THEN z uporabo kolo-nije mravelj. Metoda lahko obravnava le nominalne atribute, uporablja prekrivniprincip in ustvari urejen seznam pravil. Pravila morajo biti zato pri klasifikacijiuporabljena v istem vrstnem redu, kot so bila ustvarjena. Metoda se nauči enegapravila, nato so s tem pravilom pokriti primeri odstranjeni iz učne množice in uče-nje se ponovi na novi učni množici. Parpinelli in sod. [20] so metodo podrobnoopisal in jo primerjal z algoritmom CN2, s katerim dobiva primerljive rezultate.Slika 2.4 prikazuje preiskovalni graf te metode. Primer prikazuje tri atribute:

Sex, Age in Country. Prvi atribut ima dve nominalni vrednosti, drugi štiri in tretjitri. Vsaka vrednost atributa je predstavljena z vozliščem. V graf sta poleg vozlišč, kipredstavljajo vrednosti atributov, dodani še vozlišči Start in End. Mravlje potujejood vozlišča Start preko različnih povezav proti vozlišču End. Pri tej inačici somožni vsi prehodi, tako da je graf poln. Izbira naslednjega vozlišča je odvisna odhevristike η in feromonov τ, ki se hranijo v vsakem vozlišču posebej. Mravlja začnes praznim pravilom, z vsakim obiskom vozlišča pa doda člen k trenutnemu pravilu.Recimo, če mravlja izbere vozlišče Fra, bo dodala člen Country = Fra v pravilo.Ko mravlja izbere vozlišče atributa, onemogoči vse ostale vrednosti tega atributater tako prepreči njihovo naknadno izbiro. V našem primeru mravlja ne moreveč izbrati vozlišč Ger in Spain. To prepreči nesmiselna pravila, kot na primerIF Country = Fra AND Country = Ger THEN True. Mravlja dodaja člene,dokler ne izbere vseh vozlišč oziroma dokler pravilo ne doseže praga minimalnegapokritja (če torej trenutno pravilo pokrije premalo primerov, se algoritem ustavi).Ko mravlja izbere vozlišče End, se algoritem ustavi in doda pravilo, ki je sestavljenoiz do sedaj izbranih členov in večinskega razreda primerov, ki ga pravilo pokrije.Ko mravlja zgradi pravilo, se le-to obreže, oziroma odstrani odvečne člene. Mra-

vlja posodobi vrednosti feromonov glede na kakovost zgrajenega pravila. Kakovostpravila Q je definirana kot:

Q = PP ⋅

N − NN , (2.7)

kjer so definicije spremenljivk P, P, N in N podane v razdelku 2.2. Preprostejelahko Q predstavimo kot Občutljivost(𝑟) ⋅ Specifičnost(𝑟) pravila 𝑟, kar pomeni,da velja 0 < Q < 1. Vrednosti feromonov obiskanih vozlišč se posodobijo po


Slika 2.4Primer grafa za meto-do Ant-Miner.

Start M

F

Sex

5

10

15

20

Age

Fra

Ger

Spain

Country

End

enačbi (2.8). Vrednosti feromonov normaliziramo z vsoto vseh τ𝑖𝑗 , kar simuliraizhlapevanje feromonov, saj normalizacija zmanjša vrednost feromonov na vozliščih,ki niso bila posodobljena v prejšnjem koraku. Vrednost τ𝑖𝑗(𝑡) predstavlja vrednostferomona 𝑗-te vrednosti 𝑖-tega atributa v času 𝑡. Začetna vrednost feromona τ𝑖𝑗(0)je določena z enačbo (2.9), kjer 𝑎 predstavlja število atributov in 𝑏𝑖 predstavljaštevilo različnih vrednosti atributa 𝑖.

τ𝑖𝑗(𝑡 + 1) = τ𝑖𝑗(𝑡) + Q ⋅ τ𝑖𝑗(𝑡) (2.8)

τ𝑖𝑗(0) =1𝑎∑𝑖𝑏𝑖

(2.9)

Hevristika η se uporablja za usmerjanje iskanja na začetku, ko so vrednosti fero-monov nizke. Pri metodi Ant-Miner je hevristika izračunana na podlagi entropije.P𝑖𝑗 je verjetnost izbire vozlišča, ki predstavlja 𝑗-to vrednost 𝑖-tega atributa. Iz-

računamo jo z enačbo (2.10), kjer 𝑖 teče le čez atribute, ki jih mravlja še niizbrala.

P𝑖𝑗 =τ𝑖𝑗(𝑡) ⋅ η𝑖𝑗

𝑎∑𝑖

𝑏𝑖∑𝑗τ𝑖𝑗(𝑡) ⋅ η𝑖𝑗

. (2.10)


Ta postopek se ponavlja, dokler ne dosežemo konvergence. Konvergenca pomeni,da se isto pravilo večkrat ponovi. Iskanje ustavimo tudi, če presežemo vnaprejdoločeno število mravelj, ki jih pošljemo skozi graf. Psevdo koda pristopa je vidnav algoritmu 1. Algoritem najprej za učenje v prvi vrstici izbere vse učne primere(TS) in ustvari prazen seznam pravil (RL). Zanka while med vrsticami 3 in 13se ponavlja, dokler algoritem ne pokrije dovolj učnih primerov, kar je parametermetode. V vsakem obhodu te zanke se najprej v vrstici 4 iz učnih primerov TSzgradi graf in posodobi začetne vrednosti hevristik, feromonov in verjetnosti zaizbiro vozlišč. Nato notranja zanka while med vrsticami 5 in 10 dobi najboljšepravilo, ki se v vrstici 11 doda v seznam dobljenih pravil RL. V vrstici 12 pa seprimeri, ki jih dobljeno pravilo dobi, odstranijo iz učne množice. Notranja zankawhile predstavlja en obhod mravlje čez graf. V vrstici 6 mravlja naredi sprehodčez graf, kar predstavlja pravilo R𝑖 . Pravilo se nato v vrstici 7 obreže in z njim seposodobijo feromoni v grafu. Če je trenutno pravilo, glede na kakovost pravila,boljše od prejšnjih, se le-ta posodobi v vrstici 9 in shrani v Rbest.

Algorithm 1 : Ant-Miner.Input: dataset, number of ants, convergenceOutput: set of rules

1: TS ← {All training examples}2: RL ← {}3: while not enough instances covered do4: Initialize heuristic(η), pheromones(τ) and probabilities(P)5: while max number of ants not reached or convergence not reached do6: Let an ant run from Start to End, defining rule R𝑖7: Prune Rule R𝑖8: Update pheromone values9: Update Rbest if better rule R𝑖 is found10: end while11: Add Rbest to RL12: TS = TS \ {examples covered by Rbest}13: end while


2.5.2 Ant-Miner+

Ant-Miner+ [2] je izboljšava algoritma Ant-Miner, ki uporablja MAX-MIN AntSystem. Dve poglavitni izboljšavi sta nova predstavitev grafa preiskovanja, s čimerse zmanjša prostor preiskovanja in posledično dobi pravila z boljšo klasifikacijskotočnostjo, in razlikovanje med nominalnimi in ordinalnimi atributi, kar doprinesek razumljivosti dobljenih pravil. Metoda se ustavi, ko so vrednosti feromonov naeni poti enake τ𝑚𝑎𝑥 , na vseh ostalih pa τ𝑚𝑖𝑛. Vrednosti feromonov niso shranjenev vozliščih, ampak na povezavah, kar je smiselno glede na predstavitev grafa, ki jeprikazana na sliki 2.5.Ant-Miner+ razlikuje med nominalnimi in ordinalnimi atributi in jih različno

obravnava. Ordinalni atributi so predstavljeni z dvema skupinama atributov, kjervsaka skupina vsebuje vse vrednosti atributa. Prva skupina predstavlja spodnjomejo, druga pa zgornjo mejo vrednosti člena v pravilu. S to predstavitvijo imamoza ordinalne atribute dve meji in ne le ene kot pri metodi Ant-Miner. Slika (2.5)prikazuje obhod mravlje s pravilom :

IF Sex = male AND Age > 15 AND Age <= 20 ANDCountry = Germany > THEN True.

Na sliki je z odebeljeno črto označena pot mravlje. V danem primeru je možnaizbira vrednosti razreda le True, ker Ant-Miner+ v graf doda vse vrednosti razreda,razen večinskega razreda. S tem skuša dobiti bolj specifična pravila in prepustitiprivzetemu pravilu, da pokrije večinski razred.

Slika 2.5Prikaz grafa metodeAnt-Miner+.

Start True

Class

M

F

Any

Sex

5

10

15

20

Age(min)

5

10

15

20

Age(max)

Fra.

Ger.

Spain

Any

Country

End

Iz slike 2.5 je razvidno, da graf ni poln. To ni potrebno, ker je pri metodiAnt-Miner+ vrstni red atributov določen vnaprej, pri metodi Ant-Miner pa vrstni


red atributov določajo mravlje sproti. Zaradi vsiljenega vrstnega reda atributovse nominalnim atributom doda vozlišče Any, da lahko mravlja preskoči določennominalni atribut, če je neuporaben. Metoda Ant-Miner tega vozlišča ne potre-buje, ker konča gradnjo pravila, ko obišče vozlišče End. Ordinalni atributi sopredstavljeni z dvema skupinama atributov, ena predstavlja spodnjo mejo in drugazgornjo. Ordinalni atribut preskočimo z izbiro minimalne vrednosti v prvi skupiniin maksimalne vrednosti v drugi skupini. Povezave obstajajo iz skupine 𝑔𝑖 doskupine 𝑔𝑖+1, kjer je vsako vozliče iz skupine 𝑔𝑖 povezano z vsakim vozliščemskupine 𝑔𝑖+1. Izjema so skupine, ki predstavljajo isti ordinalni atribut. V temprimeru je vozliče 𝑣𝑖,𝑗 skupine 𝑔𝑖 povezano z vozliščem 𝑣𝑖+1,𝑘 skupine 𝑔𝑖+1 le vprimeru, ko velja 𝑣𝑖+1,𝑘 > 𝑣𝑖,𝑗 . V najslabšem primeru imamo O(𝑢2) povezav medskupinama vozlišč, kjer 𝑢 predstavlja število unikatnih vrednosti atributa.V grafu so tudi skrita vozlišča za izbiro vrednosti parametrov α in β z vrednostmi

1, 2 ali 3. Ta vozlišča na sliki 2.5 niso vidna, so pa postavljena med vozličem Startin skupino za izbiro razreda. Ta dva parametra sta uporabljena pri izračunuverjetnosti za izbiro naslednjega vozlišča v grafu, tako da vrednost feromonovpotenciramo z α in vrednost hevristike z β, kar pomeni, da visoke vrednosti αdajo večjo težo feromonom, visoke vrednosti β pa večjo težo začetni hevristiki.Empirični testi so pokazali boljše delovanje metode Ant-Miner+ v primerjavi

z metodo Ant-Miner. Metoda Ant-Miner+ uporablja validacijsko množico kotustavitveni pogoj pri rudarjenju velikih učnih množic. Psevdo koda je vidna prialgoritmu 2. Algoritem najprej za učenje v prvi vrstici izbere vse učne primere(TS) in ustvari prazen seznam pravil (RL), enako kot metoda Ant-Miner. Zankawhile med vrsticami 3 in 15 se ponavlja dokler ni dosežen ustavitveni pogoj, kina posebni validacijski množici spremlja napako dobljenih pravil. Če se ta napakazačne večati se algoritem ustavi. V vsakem obhodu te zanke se najprej v vrstici4 iz učnih primerov TS zgradi graf in posodobi začetne vrednosti hevristik, fero-monov in verjetnosti prehodov. Nato notranja zanka while med vrsticami 5 in 12dobi najboljše pravilo, ki se v vrstici 13 doda v seznam dobljenih pravil RL. Vvrstici 14 pa se primeri, ki jih dobljeno pravilo dobi, odstranijo iz učne množice.Notranja zanka while predstavlja iskanje enega pravila, ki je najboljše pravilo priprehodu večjega števila mravelj v vrstici 6. Vrstica 7 simulira izhlapevanje feromo-nov. Najboljše pravilo, dobljeno v vrstici 6, se v vrstici 8 obreže in v vrstici 9to pravilo doda feromone na svojo pot. Ker morajo zaradi uporabe MAX-MIN


Ant-Sistema biti vrednosti feromonov omejene, se v vrstici 10 le-te po potrebipopravijo. Nazadnje se v vrstici 11 posodobijo verjetnosti prehodov.

Algorithm 2 : Ant-Miner+.Input: dataset, number of ants, convergance, ρOutput: set of rules

1: TS ← {All training examples}2: RL ← {}3: while not early stopping do4: Initialize probabilities, pheromones and heuristics5: while not converged do6: Let ants run from Start node to End node7: Evaporate pheromone8: Prune rule of the best ant R𝑏𝑒𝑠𝑡9: Add pheromone to the path of R𝑏𝑒𝑠𝑡10: Adjust pheromones if needed11: Update probabilities of edges12: end while13: Add R𝑏𝑒𝑠𝑡 to RL14: TS = TS \ {examples covered by R𝑏𝑒𝑠𝑡}15: end while

Slaba lastnost metode Ant-Miner+ je v predhodno določenem vrstnem reduatributov. Algoritem daje pravila glede na začetno izbiro vrstnega reda atributov.Pri velikih grafih metoda včasih ne konvergira, zato je določeno maksimalno številomravelj, ki lahko preiskujejo graf. Če je to število doseženo, algoritem vrne dotakrat najboljše pravilo.

2.5.3 Ostale izboljšave in sorodne metode

Ker učenje pravil z mravljami daje dobre rezultate, je mnogo raziskovalcev poskuša-lo obstoječe metode izboljšati. Raziskave so potekale predvsem glede oblike grafa,posodabljanja feromonov, obravnave zveznih atributov, uporabe različnih vredno-tnih funkcij in oblike dobljenih pravil. V nadaljevanju na kratko predstavimo tepristope.


Večina metod na osnovi kolonije mravelj uprablja pristop loči in obvladaj [23]za gradnjo seznama pravil, kar pomeni, da najprej zgradi eno pravilo, nato papokrite podatke odstrani iz učne množice.Posodabljanje feromonov v grafu je lahko globalno ali lokalno. Pri lokalnem

posodabljanju nimamo informacije o feromonih na celotnem grafu, ampak le odelu tega. Globalno posodabljanje se je izkazalo za boljše, kot so opisali Dorigo insod. [24], takšno posodabljanje uporabljamo v obeh razvitih metodah. Podobnosta avtorja Wang in Feng [21] za računanje feromonov uporabila hevristiko ins tem pohitrila algoritem na račun nekoliko slabše napovedi, hkrati pa sta tudiuporabila prilagodljiv faktor izhlapevanja, ki se spreminja skozi čas. Obstajajo tudiomejitve na vrednosti feromonov, tako so na primer pri sistemu MAX-MIN AntSystem [18] le-te omejene med τ𝑚𝑖𝑛 in τ𝑚𝑎𝑥 , kar pa se s časom spreminja. Vtem sistemu so začetni feromoni nastavljeni na maksimalno vrednost namesto naminimalno ter le izbrane najboljše mravlje posodabljajo feromone. Naša razvitametoda nAnt-Miner uporablja MAX-MIN Ant System.Liu in sodelavci [22] so pri določanju izbire naslednjega prehoda v grafu poleg

feromonov in hevristik uporabili tudi naključna števila, da so s tem razširil razi-skovanje algoritma, saj je algoritem tako preveril večje število poti v grafu. AvtorjaYildirim in Çatay [25] sta vrednost feromonov spreminjala glede na čas. To jena primer uporabno pri optimizaciji problema usmerjanja vozil, ki so omejena sčasovnimi okni. Te razširitve v našem delu niso uporabljene.Nekateri avtorji so poskušali obogatiti metodo mravelj s principi drugih metod,

na primer Cordón in sodelavci [26] so uvedli mutacijo feromona, osnovano nagenetskih algoritmih, ter ponovne zagone določanja feromonov, da se metodaizogne lokalnim optimumom. Ti pristopi so bili testirani na problemu kvadratnegaprirejanja (Quadratic Assignment Problem, QAP) in niso uporabljeni v našem delu,vendar bi bila možna uporaba ponovnega zagona določanja feromonov za razširitevmetode ProAnt-Miner.Avtorja Salama in Abdelbar [27] sta učenje pravil pri rudarjenju pravil s kolonijo

mravelj razširila z uporabo logične NOT operacije. Dodala sta tudi muhastemravlje, ki raje sledijo svoji poti, kot drugim, in mravlje z osebnostjo, kjer senekateri parametri prilagajajo vsaki mravlji posebej. Del, ki je uporabljen tudiv našem delu, je, da so uporabljeni različni feromoni za vsak napovedan razred,ostalih lastnosti mravelj pa nismo vključili. Te razširitve so bile podrobno raziskane


in testirane v delu avtorja Liu in sod. [22]. Avtorja Chan in Freitas [28] staoptimizirala časovno zahtevnost rezanja seznama pravil, ki upočasnjuje delovanjealgoritmov za rudarjenje pravil, osnovanih na metodi kolonije mravelj. V našemdelu v obeh metodah na koncu seznama pravil ne režemo, vendar bi bilo tokoristno pri metodi ProAnt-Miner, kot je razvidno iz rezultatov v razdelku 4.5.4.Avtorja Medland in Otero [29] sta metode za učenje pravil s kolonijo mravelj

primerjala z različnimi funkcijami za ovrednotenje kakovosti pravil, kot so obču-tljivost ⋅ specifičnost, Klogsenova mera, m-ocena, Jaccardova mera ter zaupanje+ pokritost. V obeh naših metodah uporabljamo občutljivost ⋅ specifičnost; tooceno kakovosti pravil uporablja tudi Ant-Miner+. Primerjata tudi različne mereza kakovost celotnega seznama, kot so točnost, mikro-povprečna F-mera (micro-average f-measure), makro-povprečna F-mera (macro-average f-measure), uteženamakro-povprečna F-mera (weighted macro-average f-measure) in obrnjena uteženamakro-povprečna F-mera (inverse weighted macro-average f-measure). Avtor Liuin sodelavci [30] so poskušali pohitriti prvotni Ant-Miner z uporabo preprostejšehevristike. Članek avtorjev Baig in Shahzad [31] raziskuje vpliv nove hevrističnefunkcije, ki temelji na korelaciji med členi dobljenega pravila in rezanega seznamapravil.Otero in sod. [1, 32] opisujejo metodo cAnt-Miner, ki je obravnavala številske

atribute pri metodah s kolonijo mravelj. Atribute avtomatsko diskretizirajo gledena entropijo podatkov v trenutku, ko mravlja izbere številski atribut. V našemalgoritmu nAnt-Miner to težavo odpravimo s tem, da uporabimo večje številovozlišč za predstavitev vsakega številskega atributa, pri metodi ProAnt-Miner paso številski atributi predstavljeni z distribucijo feromonov. Zanimiva razširitevoptimizacije tega algoritma je v delu avtorja Otero in sod. [33], kjer za optimizacijouporabljajo pristop Pittsburg, ki optimizira celoten seznam pravil namesto vsakegapravila posebej. Za uporabo tega pristopa bi bilo v našem delu treba povečati grafpreiskovanja.Metode optimizacije s kolonijo mravelj so tudi širše uporabne v strojnem uče-

nju. V nadaljevanju navajamo nekaj primerov. Iskanje Pareto optimalnih rešitev skolonijo mravelj so opisali avtorji López-Ibáñez in Stützle [34] ter Said in sodelavci[35]. Za rudarjenje hierarhij so Otero in sodelavci [36] razvili metodo za potreberudarjenja ontologij genov. Ti pristopi kažejo na veliko število možnih uporabkolonije mravelj.


Kolonijo mravelj so uporabili za rudarjenje mehkih pravil s predhodno podanimimehkimi intervali, kot so pokazali Aribarg in sodelavci [37]. Pri tem pristopu jemetoda združena z idejami simuliranega ohlajanja. Pravila naše metode ProAnt-Miner, ki so sicer verjetnostna, lahko spremenimo v podobno obliko teh mehkihpravil. Prednost metode ProAnt-Miner je v tem, da sama gradi mehke intervale injih ni treba podati vnaprej. Mehka pravila mnogokrat dosegajo boljšo klasifikacijskotočnost kot trda pravila, zato se razvijajo tudi algoritmi, ki pretvarjajo trda pravilav mehka. Eden izmed takšnih algoritmov je opisan v članku avtorjev Bounhasin sodelavcev [38]. Zaradi razumljivosti odločitvenih pravil pa velja tudi obratno,kot je pretvarjanje mehkih pravil v trda ali pretvorba rezultatov drugih metod vodločitvena pravila. Tako so na primer McGarry in sodelavci [39] opisal metodoza pretvorbo nevronskih mrež v odločitvena pravila. Verjetnostna pravila pa sorazvijali tudi Tresp in sodelavci [40].

Pellegrini in sod. [41] so pri optimizaciji s kolonijo mravelj uporabili dinamič-no prilagajanje parametrov, kar pomeni, da so se parametri metode avtomatskoprilagajali med potekom iskanja pravil. Ta pristop bi bilo smiselno dodati metodiProAnt-Miner in parametre prilagajati vsaki učni množici posebej.

3

Metoda nAnt-Miner


V tem poglavju predstavimo našo prvo razvito metodo imenovano nAnt-Miner(numeric Ant-Miner), ki je zasnovana na metodi Ant-Miner+ [2], vendar od-pravlja pomanjkljivost te metode tako, da zna poleg nominalnih in ordinalnihatributov obravnavati tudi zvezne atribute. V razdelku 3.1 opišemo implemen-tacijo algoritma, v razdelku 3.2 pa predstavimo empirično primerjavo z drugimisorodnimi metodami.

3.1 nAnt-MinerMetodo nAnt-Miner [7] smo razvili z namenom odprave slabosti algoritmov, osno-vanih na koloniji mravelj, pri obravnavi številskih atributov. Obstoječe metode, kotsta Ant-Miner in Ant-Miner+, teh atributov ne obravnavajo. Za uporabo teh me-tod na številskih podatkih je treba zato podatke najprej diskretizirati. MetodonAnt-Miner natančno opišemo ter razložimo, kako obravnava zvezne atribute.Metoda nAnt-Miner je zasnovana na metodi Ant-Miner+. Glavna ideja meto-

de je implicitno upoštevanje številskih atributov, ki jih metoda Ant-Miner+ nemore obravnavati brez predhodne diskretizacije. To lahko vodi v slabše delovanjeklasifikacijskega modela, saj se pri postopku diskretizacije izgubi del informacijev podatkih. Z našo metodo to informacijo obdržimo in jo lahko učenje izkori-sti. Metoda nAnt-Miner obravnava nominalne in ordinalne atribute enako kotAnt-Miner+. Za številske atribute uporablja predstavitev grafa, kar je opisano vnadaljevanju.

Algoritem 3 prikazuje psevdo kodo algoritma nAnt-Miner. V prvi vrstici naloživse učne podatke (TS), druga pa ustvari prazen seznam pravil (RL). Vsak obhodzanke while v vrsticah od 3 do 15 zgradi eno pravilo in ga doda v seznam pravil.Proces dodajanja novih pravil ustavimo, ko so pokriti vsi primeri, oziroma ko nanovo dodano pravilo zmanjša klasifikacijsko točnost na validacijski množici, karpreveri zanka while v tretji vrstici. Vrstici 4 in 5 zgradita graf preiskovanja in na-stavita začetne vrednosti hevristik, feromonov in verjetnosti prehodov. Vrstici 13 in14 dodata dobljeno najboljše pravilo Rbest, dobljeno v zanki while med vrsticami 6in 12, v seznam pravil in odstranita pokrite primere iz učne množice. Konvergencanotranje zanke while se preveri na dva načina, in sicer, če se pravilo dovoljkratponovi in s preverjanjem vrednosti feromonov številskega atributa (opisano v raz-delku 3.1.6). V sedmi vrstici se zgradi pravilo s simulacijo obhoda mravlje skozi

Metoda nAnt-Miner 27

graf. Vsaka mravlja gre skozi več skupin vozlišč in s tem dodaja člene k svojemupravilu. Vsaka mravlja naredi pot od vozlišča Start do vozlišča End in s tem zgradinatanko eno pravilo. Osma vrstica shrani omejeno število najboljših pravil, ki jihimenujemo elitna pravila. Deveta vrstica poreže dobljena pravila in s tem odstraninepotrebne člene iz pravila ter poveča pokritost pravil, kot je opisano v razdelku3.1.5. Deseta vrstica shrani do sedaj najboljše dobljeno pravilo Rbest in vrstica 11posodobi vrednosti feromonov v grafu glede na najboljše pravilo in elitna pravila,kar je podrobneje opisano v razdelku 3.1.3.

Algorithm 3 : nAnt-Miner.Input: dataset, number of ants, elite, w, ω, convergence, ρOutput: set of rules

1: TS ← {All training instances}2: RL ← {}3: while not stopping criterion do4: 𝑐𝑜𝑛𝑠𝑡𝑟𝑢𝑐𝑡 𝑔𝑟𝑎𝑝ℎ5: Initialize heuristic(η), pheromones(τ), probabilities(P)6: while not converged do7: Let ants run from Start to End nodes8: Keep ’elite’ number of rules9: Prune rules10: Update global best rule Rbest

11: Update pheromone values on paths defined by elite rules and global bestrule

12: end while13: Add Rbest to RL14: TS = TS \ {instances covered by Rbest}15: end while16: return RL

3.1.1 Predstavitev grafa

Preiskovalni graf je pri metodi nAnt-Miner usmerjen. Vsako vozlišče grafa pred-stavlja eno vrednost atributa, enako kot pri metodi Ant-Miner+ [2]. Povezave v


grafu predstavljajo možne prehode med vozlišči, ki vedno vodijo iz ene skupineatributov do druge skupine in so zasnovane podobno kot pri metodi Ant-Miner+.Graf je sestavljen iz več skupin, vsaka skupina predstavlja en atribut, razen

skupin Start, End in Class. Skupina Start ima samo eno vozlišče, v kateremzačnejo mravlje preiskovati graf. Skupina End ima ravno tako samo eno vozlišče,kjer mravlje zaključijo svoje preiskovanje. Skupina Class opisuje vrednosti razredov.Ta skupina vsebuje 𝑟 − 1 vozlišč, kjer je 𝑟 število možnih razredov. Dodani so vsirazredi razen večinskega. Večinski razred pokrije privzeto pravilo.

Slika 3.1Predstavitev grafametode nAnt-Miner.

Start True

Class

Yes

No

Any

Nominal

−∞

0.03

0.14

...

1.32

3.45

Numeric(low)

0.03

0.14

...

1.32

3.45

∞

Numeric(high)

End

Preostale skupine predstavljajo atribute učne množice. Vsak nominalni atributje predstavljen z eno skupino, ordinalni in številski pa s po dvema skupinama.Nominalni atributi vsebujejo vozlišča, ki predstavljajo vrednosti nominalnega atri-buta ter vozlišče Any. Ko mravlja izbere eno od teh vozlišč, ustvari člen pravilaA = 𝑣𝑖 , kjer je A ime atributa in 𝑣𝑖 𝑖-ta vrednost tega atributa. V primeru, damravlja izbere vozlišče Any, se atribut preskoči brez gradnje člena. To vozlišče mo-ra biti na voljo, ker algoritem obišče vse atribute in bi brez vozlišča Any vsiljevalprisotnost vseh nominalnih atributov v vseh pravilih.Vsak ordinalni atribut je predstavljen z dvema skupinama. Prva skupina izbere


spodnjo mejo 𝑣𝑖 , druga skupina pa zgornjo mejo 𝑣𝑗 člena 𝑣𝑖 ≤ O < 𝑣𝑗 , kjerO predstavlja ime ordinalnega atributa, 𝑣𝑖 in 𝑣𝑗 pa sta vrednosti tega atributa.Povezave v grafu so ustvarjene tako, da dovoljujejo le povezave, ki zagotavljajo𝑣𝑖 < 𝑣𝑗 .Tudi vsak številski atribut je predstavljen z dvema skupinama. Vozlišča teh dveh

skupin so sestavljena iz vseh možnih unikatnih vrednosti atributa iz učne množice.Vozlišče z vrednostjo -∞ je dodano k skupini za izbiro spodnje meje, vozlišče+∞ pa k skupini za izbiro zgornje meje. Številske atribute je možno preskočiti zizbiro vrednosti -∞ v prvi skupini in +∞ v drugi skupni. Zgrajeni člen je oblike𝑣𝑖 ≤ A < 𝑣𝑗 , kjer je A ime številskega atributa, 𝑣𝑖 in 𝑣𝑗 pa vrednosti atributa A.Tudi v tem primeru povezave v grafu dopuščajo le izbiro vrednosti tako, da velja𝑣𝑖 < 𝑣𝑗 . Število vozlišč v vsaki skupni je navzgor omejeno s številom primerov vučni množici.Povezave potekajo iz skupine 𝑔𝑖 proti skupini 𝑔𝑖+1. Vsako vozlišče skupine 𝑔𝑖

je povezano z vsakim vozliščem skupine 𝑔𝑖+1, razen v primeru, ko 𝑔𝑖 in 𝑔𝑖+1pripadata istemu atributu. Kot rečeno, v tem primeru obstajajo le povezave,pri katerih je vrednost vozlišča iz skupine 𝑔𝑖 manjša ali enaka vrednosti vozliščav skupini 𝑔𝑖+1. Število povezav med dvema skupinama, ki sestavljata številskiatribut, kvadratično narašča s številom različnih učnih primerov, kar lahko privededo velike prostorske zahtevnosti algoritma pri večjih učnih množicah. Rešitev tetežave je opisana v razdelku 3.1.3.

3.1.2 Verjetnosti na povezavah

Verjetnost izbire povezave iz vozlišča 𝑣𝑖−1,𝑘 do vozlišča 𝑣𝑖,𝑗 se izračuna z enačbo(3.1)

𝑝𝑖𝑘𝑗 =[τ𝑣𝑖−1,𝑘 ,𝑣𝑖,𝑗 ]α ⋅ [η𝑣𝑖,𝑗 ]β

|V𝑖|∑𝑙=1

[τ𝑣𝑖−1,𝑘 ,𝑣𝑖,𝑙 ]α ⋅ [η𝑣𝑖,𝑙 ]β, (3.1)

kjer 𝑣𝑖,𝑗 predstavlja 𝑗-to vrednost v skupini 𝑖. Vrednost τ𝑣𝑖−1,𝑘 ,𝑣𝑖,𝑗 predstavljavrednost feromona na povezavi med vozliščem 𝑣𝑖−1,𝑘 ter 𝑣𝑖,𝑗 , vrednost η𝑣𝑖,𝑗 papredstavlja hevristično vrednost vozlišča 𝑣𝑖,𝑗 . |V𝑖| pa je število vseh vrednosti vskupini 𝑖. Vrednost feromona je v enačbi kvadrirana, s čimer daje feromonom večjivpliv pri usmerjanju iskanja, ker s tem okrepi razlike. V algoritmu Ant-Miner+


sta za izbiro razmerja moči med feromoni in hevristiko potrebna še parametra αin β. V našem primeru sta ti dve vrednosti vedno konstantni, in sicer α = 2 inβ = 1, kar sta tudi privzeti vrednosti v algoritmu Ant-Miner+.

Po enačbi (3.1) lahko izberemo tudi pot, ki ne pokrije nobenega učnega primera.To se lahko zgodi zaradi eksponentnega števila možnih poti v grafu pri velikemštevilu atributov. V takem primeru lahko mravlja naredi korak nazaj in izberevrednost, ki pokrije več primerov.

3.1.3 Posodabljanje vrednosti feromona

Metoda nAnt-Miner uporablja princip MAX-MIN Ant System [18]. Vrednostiferomonov so shranjene na povezavah in so vedno med τ𝑚𝑖𝑛 = 0 in τ𝑚𝑎𝑥 = 1.Na začetku izvajanja algoritma so nastavljene na τ𝑚𝑎𝑥 . Algoritem ustavimo, ko sovrednosti feromona na eni poti skozi graf τ𝑚𝑎𝑥 , na ostalih poteh pa je vrednostferomona pod τ𝑚𝑖𝑛 + ϵ, kjer je epsilon nastavljen na majhno vrednost 0,05.

Vrednosti feromonov posodabljamo v dveh korakih, in sicer z izhlapevanjemin ojačanjem. Izhlapevanje v vsaki iteraciji algoritma zmanjša vrednost feromonas faktorjem ρ (tipične vrednosti so med 0,8 in 0,99). Ojačanje poveča vrednostferomonov na poti, ki jo obišče mravlja z najboljšim pravilom ali elitna mravlja,z vrednostjo Q𝑖

𝑡 , kjer je 𝑡 tipično 10 in Q𝑖 kakovost pravila trenutne mravlje.Delitelj 𝑡 preprečuje premočno ojačanje, sicer bi algoritem prehitro konvergiral inse verjetneje ustavil v lokalnem optimumu. Po korakih izhlapevanja in ojačanjase vrednosti popravijo tako, da prevelike vrednosti oziroma vrednosti blizu τ𝑚𝑖𝑛nastavimo na τ𝑚𝑎𝑥 oziroma τ𝑚𝑖𝑛.Kakovost pravil izračunamo z enačbo (3.2), pri kateri lahko z utežjo 𝑤 nastavlja-

mo, ali naj pravila preferirajo pokritost ali natančnost. Privzeta vrednost uteži je0,5.

Q = Pokritost(𝑟) ⋅ 𝑤 +Natančnost(𝑟) ⋅ (1 − 𝑤) (3.2)

Do sedaj opisani pristop deluje, če imamo atribute s približno 15 ali manjvrednostmi in 1000 ali manj učnih primerov, kot je pokazal Martens [2]. Številskiatributi imajo večinoma število različnih vrednosti enako številu primerov, pričemer ta naivni pristop odpove. Pri taki učni množici in iz nje sestavljenemgrafu algoritem ne konvergira dovolj hitro. Da se temu izognemo, predpostavimo,


da je količina feromonov na podobnih poteh podobna. Uporabimo normalnodistribucijo N(μ, σ), s katero ocenimo kakovost poti in jih nato tudi posodobimo.Slika (3.1) prikazuje poti, ki jih posodobi ena mravlja. Izbrana pot je prikazana spuščicami, vse posodobljene poti pa so ojačane.Vsaki skupini, ki predstavlja številski atribut A𝑖 , dodelimo σ𝑖 , ki predstavlja

začetni razpon posodabljanja. Vrednost σ𝑖 je izračunana kot standardna deviacijavrednosti 𝑖-tega atributa. Ko mravlja izbere vozlišče 𝑣𝑖,𝑗 , uporabimo to vrednostkot središče μ posodobitvene distribucije feromonov. Vrednost σ𝑖 skupine upora-bimo kot standardno deviacijo, pomnoženo s faktorjem λ, s čimer nadzorujemoširino posodobitvene distribucije feromonov. Faktor λ se v vsaki iteraciji zmanjšaza faktor ω (tipične vrednosti so med 0,8 in 0,99). S tem je širina normalne po-razdelitve na začetku preiskovanja široka, s čimer preprečimo prehitro konvergenco,kasneje pa se zoža, da pohitri konvergenco.Na poti skozi vozlišča 𝑣𝑖−1,𝑘 , 𝑣𝑖,𝑗 , 𝑣𝑖+1,𝑙 , kjer 𝑣𝑖,𝑗 predstavlja 𝑗-to vrednost

številskega atributa 𝑖-te skupine, posodobimo do 2𝑛 povezav, kjer je 𝑛 številovozlišč v skupini 𝑖. Posodobljene povezave povezujejo vozlišče z vrednostjo 𝑣𝑖−1,𝑘 zvozlišči skupine 𝑖 in vozlišča skupine 𝑖 z vozliščem z vrednostjo 𝑣𝑖+1,𝑙 . Vse vmesnepovezave so posodobljene z enačbo (3.3).

Δτ𝑣𝑖−1,𝑘 ,𝑣𝑖,𝑙 =0, 1 ⋅ Q𝑏𝑒𝑠𝑡σ𝑖√2π

𝑒−12 (

𝑣𝑖,𝑙 −𝑣𝑖,𝑗σ𝑖 )2 . (3.3)

Kljub takšnemu posodabljanju feromonov ima v grafu večina povezav enakevrednosti. Vrednost Δτ𝑣𝑖−1,𝑘 ,𝑣𝑖,𝑙 v zgornji enačbi se prišteje obstoječi vrednosti fe-romona τ𝑣𝑖−1,𝑘 ,𝑣𝑖,𝑙 . Vrednost Q𝑏𝑒𝑠𝑡 predstavlja kakovost najboljšega pravila, saj seferomoni posodabljajo glede na njegovo kakovost. Enačba izhaja iz Gaussove kri-vulje, tako da bolj oddaljene vrednosti od izbrane posodobi šibkeje. Izračunajmoštevilo povezav, ki se razlikujejo od privzete vrednosti. V vsaki iteraciji mravljaposodobi do 2𝑛 povezav skupine, ki predstavlja številski atribut. Te povezave ozna-čimo in jih hranimo. V najslabšem primeru bomo v 𝑛 iteracijah brez izhlapevanjav grafu imeli 2𝑛2 povezav različnih od privzete vrednosti. Če privzamemo faktorizhlapevanja ρ ∈ (0, 1] ter če vrednosti feromona, ki padejo pod neko majhnovrednost ϵ (0,05) nastavimo na 0, zadostuje, da hranimo dosti manj povezav. Šte-vilo potrebnih iteracij, da vrednost feromona pade iz 1 na ϵ, je 𝑖 = logρ(ϵ). Topomeni, da ima vsak številski atribut največ 2𝑖𝑛 povezav različnih od privzete vre-


dnosti. Na primer, vrednost feromona se v 𝑖 iteracijah zmanjša iz 1 na ϵ. Privzetavrednost feromonov je v tej iteraciji tudi ϵ, ker tudi privzeta vrednost izhlapeva. Zasmiselne vrednosti ϵ ∈ [0, 01, 0, 05] in ρ ∈ [0, 85, 0, 99] dobimo 𝑖 ∈ (30, 500),kar omogoča velik prihranek prostora pri velikih učnih množicah.

3.1.4 Hevristika kakovosti poti

Začetna vrednost hevristike v vozliščih je določena z enačbo (3.4).

η𝑖𝑗 =|T𝑖𝑗 ∧ Class = 𝑙ant|

|T𝑖𝑗|, (3.4)

kjer je |T𝑖𝑗| število primerov pokritih s pravilom V𝑖 = 𝑣𝑖𝑗 in 𝑙ant je vrednostizbranega razreda mravlje, vrednost |T𝑖𝑗∧Class = 𝑙ant| pa predstavlja število pokritihprimerov razreda 𝑙ant. Hevristika je odvisna od izbranega razreda, kar pomeni, daima vsako vozlišče 𝑟 − 1 hevristik, kjer je 𝑟 število razredov. Takšna hevristika jeuporabljena za nominalne in ordinalne atribute.

Za številske atribute je večinoma |T𝑖𝑗| = 1, zato je naša hevristika za številskeatribute 1

𝑛 , kjer je 𝑛 število učnih primerov. Zaradi tega je iskanje pri številskihatributih na začetku naključno in popolnoma prepuščeno feromonom.

3.1.5 Rezanje pravil

Pravila na požrešen način porežemo, saj s tem povečamo zaupanje vanje. Pravilo"IF T1 AND T2 AND ... AND T𝑡 THEN 𝑙ant" z 𝑡 členi iterativno režemo.Vsak člen T𝑖 odstranimo in izračunamo zaupanje pravila brez tega člena. Če jezaupanje večje ali enako pravilu z vsemi členi, potem člen odstranimo in postopekponavljamo. S tem postopkom se zaupanje pravila kvečjemu povečuje, hkrati pase tudi pokrivnost pravil kvečjemu veča.

3.1.6 Ustavitveni pogoj

S preverjanjem vrednosti na povezavah grafa se odločimo, kdaj bomo algoritemustavili. Če so vse vrednosti povezav iz skupine 𝑖 do skupine 𝑖+1 pod ϵ, razen naeni sami povezavi, kjer je vrednost feromona vsaj 1−ϵ, potem gradnjo ustavimo. Zanominalne in ordinalne atribute je lahko ϵ = 0. Pri številskih atributih potrebujemoϵ blizu 0. Vrednosti feromonov lahko konvergirajo po logω(ϵ) iteracijah, kerzmanjšujemo vrednost σ𝑖 , ki predstavlja standardni odklon posodobitvene funkcije


feromonov v enačbi 3.3, s faktorjem ω ∈ [0, 1]. Gradnjo pravila ustavimo tudi,če se isto pravilo pojavlja v več iteracijah. Od učne množice pred začetkom učenjaodstranimo 10 odstotkov za množico za ovrednotenje (evalvation set). Algoritemse ustavi, če začne klasifikacijska točnost padati na množici za ovrednotenje, ki sepreverja z dodajanjem vsakega novega pravila v seznam pravil.

3.2 Empirično vrednotenje metodeNajprej smo poskušali poiskati privzete parametre metode. Našo metodo s privze-timi parametri smo nato primerjali z metodami Ant-Miner+, RIPPER, FURIAin CN2. Uporabili smo učne množice, pridobljene iz repozitorija UCI [42], inumetne množice z močnimi pogojnimi odvisnostmi med atributi. Na koncu smov razdelku 3.2.4 različne metode primerjali še na realni medicinski domeni sinkopa.

Ker ima naša metoda več parametrov, je zaželeno, da za specifično učno množicopoiščemo ustrezne parametre na validacijski množici. Kljub temu smo pokazali,da metoda zadovoljivo deluje s privzetimi vrednostmi parametrov. Primerjamoklasifikacijsko točnost, velikost seznama pravil, povprečno velikost pravila ter časizvajanja.

3.2.1 Določanje privzetih vrednosti parametrov

Analizirali smo vpliv parametrov na klasifikacijsko točnost, velikost seznama pra-vil, število členov na pravilo ter čas izvajanja. Vsak test smo ponovili 10-krat z10-kratnim prečnim preverjanjem na štirih učnih množicah. Tukaj smo uporabi-li veliko ponovitev za vsak test, da bi varianca algoritma čim manj vplivala pridoločanju privzetih parametrov. Uporabljene učne množice za določitev privzetihparametrov so Iris (iris), Acute Inflammations (dia), Congressional Voting Records (vot)in Japanese Credit Screening (japc), pridobljene iz repozitorija UCI Machine Lear-ning [42]. Učne množice, uporabljene v tem podpoglavju, niso bile uporabljenev nadaljevanju testiranja, s čimer preprečimo nepošteno primerjavo, ko bi za našometodo vnaprej poiskali dobro delujoče parametre. Učne množice smo izbrali tako,da vsebujejo številske atribute, ker je to poglavitna prednost metode nAnt-Minerglede na ostale predhodne razvite metode Ant-Miner. Učna množica Iris ima leštevilske atribute, druge učne množice pa vsebujejo različne tipe atributov. Testi-ranja so bila opravljena na več različnih računalnikih, zato se lahko časi izvajanja


razlikujejo tudi za enake vrednosti parametrov in časi niso popolnoma primerljivimed različnimi tabelami. Podani časi so povprečni časi za en pregib prečnegapreverjanja.Nastavili smo pet parametrov: število mravelj na iteracijo, vrednost uteži 𝑤 iz

enačbe (3.2), faktor ω za zmanjševanje širine posodabljanja feromonov σ, številoelitnih mravelj in mejo za konvergenco. Vsak parameter smo testirali posebej.Privzete vrednosti so nastavljene na 500 mravelj za vsako iteracijo, meja za konver-genco je 50 iteracij, faktor izhlapevanja je ρ = 0, 85, ω = 0, 8 (hitrost zmanjševanjaširine posodabljanja pri številskih atributih), 𝑤 = 0, 5 (razmerje med pokritostjo innatančnostjo pravil pri ocenjevanju le-teh) ter 5 elitnih mravelj. Tabele od 3.1 do3.5 prikazujejo povprečne rezultate, dobljene na vseh štirih podatkovnih množicah.Tabela 3.1 prikazuje rezultate za različno število uporabljenih mravelj pri vsaki

iteraciji algoritma. Metoda se upočasnjuje linearno z večanjem števila mravelj, kar jepričakovano, saj je potrebno simulirati vsak sprehod mravlje. Klasifikacijska točnostdoseže optimum pri 1000 mravljah. Velikost seznama pravil se z večanjem številamravelj linearno zmanjšuje. Število pravil se z večanjem števila mravelj manjša,ker je večja verjetnost, da bomo pri več poskusih že na začetku dobili pravilo zvisoko pokrivnostjo. Rezultati kažejo, da z večanjem števila mravelj dobimo boljrazumljive (krajše) sezname pravil, vendar se s prevelikim številom mravelj manjšaklasifikacijska točnost.Tabela 3.2 prikazuje rezultate za različne vrednosti 𝑤 iz enačbe (3.2), ki vpliva na

to, ali želimo dobiti bolj pokrivna ali bolj natančna pravila. Nizke vrednosti po-menijo, da metoda daje večji poudarek pravilom z veliko pokritostjo; kot rezultatdobimo krajša pravila. Vrednosti blizu 1 pomenijo poudarek natančnosti pravila,kar pomeni, da dobimo večje število daljših pravil. Ko povečujemo vpliv natanč-nosti, se metoda začne pretirano prilagajati učnim podatkom. Poskusi kažejo, daje privzeta vrednost 𝑤 = 0, 5 smiselna. Klasifikacijska točnost očitno pade le, če sepribližamo ekstremnim vrednostim blizu 0 ali 1. Za preproste nešumne množicelahko uporabimo večji 𝑤, za ostale pa manjši, da se metoda ne prilagodi šumu.Tabela 3.3 prikazuje rezultate za različne vrednosti parametra ω, ki prilagaja hi-

trost krčenja širine normalne porazdelitve, s katero posodabljamo poti pri številskihatributih. Rezultati kažejo, da metoda v splošnem na ta parameter ni občutljiva.Parameter ω smo vseeno ohranili v algoritmu, saj dopušča uporabniku iskanje boljsplošnih (ω blizu 1) ali bolj specifičnih pravil (ω blizu 0). Parameter tudi ne vpliva

Metoda nAnt-Miner 35Tabela 3.1Povprečni rezultati metode nAnt-Miner za različno število mravelj na štirih domenah.

# mravelj točnost # pravil členov/pravilo čas (s)

25 88,92 ± 1,59 6,17 1,58 250 89,61 ± 1,30 6,24 1,57 3100 89,26 ± 1,74 5,97 1,56 3200 89,55 ± 1,08 5,72 1,55 4500 89,74 ± 1,55 5,26 1,51 91000 90,40 ± 1,00 5,30 1,49 152000 89,64 ± 1,44 5,23 1,45 295000 89,89 ± 1,54 4,93 1,45 6310000 89,31 ± 1,75 4,90 1,48 120

Tabela 3.2Povprečni rezultati metode nAnt-Miner za različne vrednosti 𝑤 na štirih domenah.

w točnost # pravil členov/pravilo čas (s)

0,00 75,24 ± 4,00 2,80 1,09 160,25 91,00 ± 1,62 5,15 1,57 330,50 92,08 ± 0,85 5,91 1,84 340,75 91,92 ± 0,89 7,02 2,07 391,00 83,45 ± 2,61 11,54 1,74 35

na časovno zahtevnost algoritma.Tabela 3.4 prikazuje rezultate za različno število uporabljenih elitnih mravelj, ki

jih uporabljamo za posodabljanje feromonov v vsaki iteraciji algoritma. Vrednost0 pomeni, da lahko le globalno najboljša mravlja posodobi feromone. Rezultatiso pokazali, da večje število elitnih mravelj poveča klasifikacijsko točnost na računčasa izvajanja. Za privzeto vrednost in nadaljnje teste smo izbrali 5 elitnih mravelj.Večanje števila elitnih mravelj nekoliko upočasnjuje delovanje algoritma. Upočasnje-vanje algoritma z večanjem števila elitnih mravelj je pričakovano, saj mora metodaposodabljati več poti vsako iteracijo izvajanja. Hkrati se število pravil pri uporabielitnih mravelj zmanjša, saj metoda več časa preiskuje prostor pravil, ker ohranja


Tabela 3.3Povprečni rezultati metode nAnt-Miner za različne vrednosti ω na štirih domenah.

ω točnost # pravil # členov/pravilo čas (s)

0,05 90,03 ± 1,66 5,51 1,50 90,10 90,27 ± 1,35 5,47 1,52 90,15 90,28 ± 1,21 5,46 1,52 90,20 90,04 ± 1,27 5,43 1,51 90,25 89,75 ± 1,62 5,56 1,53 90,30 89,57 ± 0,95 5,38 1,51 90,35 89,77 ± 1,60 5,37 1,51 90,40 89,95 ± 1,43 3,98 1,50 90,45 90,33 ± 1,34 5,46 1,52 90,50 90,37 ± 1,17 5,44 1,49 90,55 90,24 ± 1,28 5,41 1,52 90,60 89,99 ± 1,37 5,34 1,51 90,65 90,35 ± 1,54 5,29 1,52 90,70 89,99 ± 1,30 5,38 1,51 90,75 89,65 ± 1,11 5,40 1,49 90,80 89,74 ± 1,55 5,48 1,51 90,85 90,05 ± 1,78 5,43 1,54 90,90 90,13 ± 1,41 5,24 1,52 90,95 90,16 ± 1,15 5,49 1,52 90,99 89,74 ± 1,79 5,41 1,53 9

feromon na več poteh v grafu.Tabela 3.5 prikazuje različne vrednosti za mejo konvergence. Opazimo, da se

dolžina seznama pravil krajša z večjo vrednostjo tega parametra in da se klasifika-cijska točnost veča. Z večanjem tega parametra se linearno veča tudi izvajalni časalgoritma. Izbrana privzeta vrednost parametra je 10, kot kompromis med želenotočnostjo in časom izvajanja. Iz tega sledi, da je priporočljivo izbrati čim večjomejo za konvergenco, če imamo na voljo dovolj časa, saj s tem dobimo točnejšain razumljivejša pravila. V tem primeru je to pričakovan rezultat, saj se metodaz večanjem vrednosti za mejo konvergence lažje izogne lokalnim optimumom, kerima več poskusov, da se temu izogne.

Ugotovitve tega razdelka smo uporabili za nastavitev privzetih vrednosti naše

Metoda nAnt-Miner 37Tabela 3.4Povprečni rezultati metode nAnt-Miner za različno število elitnih mravelj na štirih domenah.

elite točnost # pravil # členov/pravilo čas (s)

0 89,07 ± 1,59 6,24 1,53 81 88,84 ± 1,65 5,84 1,53 85 89,74 ± 1,55 5,48 1,51 910 89,81 ± 1,09 5,44 1,52 1020 89,96 ± 1,09 5,53 1,52 1030 89,80 ± 1,63 5,60 1,53 1040 90,20 ± 1,10 5,56 1,53 1150 89,39 ± 1,25 5,61 1,58 12100 90,31 ± 1,22 5,62 1,57 17

Tabela 3.5Povprečni rezultati metode nAnt-Miner za različne vrednosti meje konvergence na štirih domenah.

kon. točnost # pravil # členov/pravilo čas (s)

3 90,84 ± 1,07 6,65 1,78 115 91,85 ± 0,78 6,43 1,84 2110 92,08 ± 0,85 5,92 1,84 4050 92,34 ± 0,79 5,80 1,88 103100 92,27 ± 0,84 5,82 1,87 177200 92,37 ± 0,74 5,71 1,84 320

implementacije. Uporabljene vrednosti so: število mravelj 500, faktor izhlapevanjaρ = 0, 85, ω = 0, 8, meja konvergence je nastavljena na 10 iteracij, število elitnihmravelj je 5. Parameter ρ smo izbrali med ρ ∈ [0, 85, 0, 99]. Prenizko izbranρ, nižji od 0,85, bi pomenil prehitro izhlapevanje feromonov na že obiskanihpoteh. Višja vrednost tega parametra vodi k večji prostorski kompleksnosti našegaalgoritma, kot je pojasnjeno v razdelku 3.1.3. Za število mravelj smo privzelivrednost 500, kljub temu da daje vrednost 1000 nekoliko boljše rezultate, kerčasovna zahtevnost algoritma linearno narašča s tem parametrom. Enak razlogsmo uporabili pri nastavitvi privzete vrednosti parametra za konvergenco, saj želimo


obdržati dobro razmerje med časom izvajanja in klasifikacijsko točnostjo.

3.2.2 Primerjava z ostalimi metodami

Metodo nAnt-Miner smo primerjali na 11-ih učnih množicah, pridobljenih iz UCIMachine Learning repositorija [42]. Učne množice so bile izbrane glede na številoštevilskih atributov. Izbrali smo nekaj množic brez številskih atributov, nekaj zmešanimi atributi in nekaj s samo številskimi atributi. S tem želimo pokazati, dametoda nAnt-Miner deluje neodvisno od tipa atributov podatkovne množice. Upo-rabljene učne množice so: Tic-Tac-Toe Endgame (ttt), Australian Credit Approval(aus), German Credit Data (ger), Balance Scale (bal), Teaching Assistant Evaluation(tae), Breast Cancer Wisconsin (bcw), Car Evaluation (car), Ripley dataset (rip),Contraceptive Method Choice (cmc), Glass Identification (gla) in Seeds (seed).Tabela 3.6 prikazuje osnovne podatke izbranih množic. Stolpci prikazujejo število

atributov, število številskih atributov, število učnih primerov in število razredov. Vsitesti so bili ponovljeni 5-krat z 2-kratnim prečnim preverjanjem. Metodo nAnt-Miner (nAM) smo primerjali z metodami: Ant-Miner+ [2] (AM+), RIPPER[5], FURIA [4] in CN2 [10]. Metoda Ant-Miner+ je izbrana, ker je metodanAnt-Miner zasnovana na njej in je trenutno vodilna metoda za rudarjenje trdihpravil z uporabo kolonije mravelj. Metodi RIPPER in FURIA sta trenutnomed najboljšimi metodami za rudarjenje odločitvenih pravil. RIPPER rudari trdapravila, FURIA pa mehka. CN2 spada med preprostejše preiskovalne algoritme inmnogokrat služi kot osnova za primerjavo klasifikacijskih pravil.

Metoda nAnt-Miner 39Tabela 3.6Opis uporabljenih množic pri testiranju izbranih metod.

Množica # at. # št. at. # prim. # raz.

ttt 9 0 958 2aus 14 6 690 2ger 20 7 1000 2bal 4 0 625 3tae 5 1 151 3bcw 10 0 699 2car 6 0 1728 4rip 2 2 1250 2cmc 9 2 1473 3gla 9 9 214 6seed 7 7 210 3

Pri metodi Ant-Miner+ smo opravili teste s privzetimi vrednostmi, priporočeni-mi s strani avtorjev. Uporabili smo 1000 mravelj v vsaki iteraciji in omejili izvajanjena največ 200 iteracij za iskanje posameznega pravila. Hevristika za ocenjevanjepravila je razmerje med pokritostjo in zaupanjem. Faktor izhlapevanja smo pustilina privzeti vrednosti 0,85. Ker metoda Ant-Miner+ ne more implicitno obrav-navati številskih atributov, smo atribute za to metodo predhodno diskretizirali zmetodo Fayyad-Irani [3]. Za teste smo uporabili implementacijo, dostopno nawww.antminerplus.com. Pri ostalih metodah smo uporabili privzete parametremetode.Metodi nAnt-Miner smo nastavili število mravelj na 500, faktor izhlapevanja

ρ = 0, 85, ω = 0, 8, meja konvergence je nastavljena na 10, število elitnih mraveljna 5 in parameter 𝑤 na 0,5. Parametri so izbrani glede na rezultate testov izrazdelka 3.2.1 in so uporabljeni tudi v nadaljevanju disertacije.


Tabela 3.7Dobljene klasifikacijske točnosti in njihovi standardni odkloni za izbrane metode na vseh 11-ih množicah. Zadnjavrstica predstavlja povprečni rang vsake metode in njegov standardni odklon.

Metod

anA

MAM+

RIPPE

RFU

RIA

CN2

ttt97,68±0,50

(3)

95,64±4,75

(4)

98,12

±0,30

(1)98,04±0,12

(2)

78,65±4,50

(5)

aus

76,72±3,8

5(5)

84,41±1,0

3(3)

84,96±0,82

(1)84,93±0,35

(2)

77,41±3,2

4(4)

ger

67,62±2,2

5(4)

71,12

±0,83

(2)

70,10

±1,25(3)

72,42±0,83

(1)66,97±1,37(5)

bal

45,57

±1,91(5)

76,70±2,0

0(3)

73,18

±1,71(4)

78,11±1,4

5(1)

77,25

±1,88(2)

tae

41,72±8,68

(2)

38,94±4,12

(3)

38,28

±2,6

7(4)

38,01±1,59(5)

54,29

±7,59

(1)bcw

83,75±4,76

(5)

94,74±0,75

(1)93,19

±0,60

(3)

93,33

±0,08

(2)

92,71±1,51(4)

car

68,92±1,20(5)

88,65±2,0

2(3)

83,19

±0,88

(4)

89,11±0,66

(2)

93,36

±1,32(1)

rip88,24

±1,73(3)

88,55

±0,92

(1)87,98±0,74

(4)

88,38

±0,50

(2)

69,27

±7,36

(5)

cmc

41,33

±1,0

9(5)

45,66±0,89

(4)

52,57

±1,0

8(2)

53,52

±1,80(1)

45,78±1,80(3)

gla

52,34

±10,4

(4)

51,03±5,11(5)

62,15±1,78(2)

62,24

±3,6

6(1)

56,14

±5,35(3)

seed

85,90±3,9

3(5)

88,67±1,32(2)

88,29

±1,29(3)

91,62±0,99

(1)85,99±4,28

(4)

rang

4,18±1,0

82,8

2±1,25

2,82±1,17

1,82±1,17

3,36±1,50


Tabela 3.7 prikazuje dobljene klasifikacijske točnosti na 11-ih množicah. Zadnjavrstica v tabeli predstavlja povprečni rang uvrstitve vsake metode in standardniodklon uvrstitve. Rezultate metod smo po Demšar [43] testirali najprej s Fried-manovim testom. P-vrednost statističnega testa je 0,0105, s čimer lahko ovržemoničelno hipotezo, da so vse metode enakovredne. Nato smo naredili še parni testNemenyi med vsemi metodami. Dobljene p-vrednosti so prikazane v tabeli 3.8. Iztabele je razvidno, da sta statistično različni samo metodi nAnt-Miner in FURIA.Metoda FURIA je ena od vodilnih metod za rudarjenje mehkih pravil, ostale štirimetode pa iščejo trda pravila. To daje metodi FURIA prednost. Grafična predsta-vitev rezultatov je vidna na sliki 3.2, kjer so s črto povezane skupine algoritmov, zakatere ne moremo statistično trditi, da se med seboj razlikujejo. Kritična razlika zatest Nemenyi je v tem primeru 1,839, ki pove, da se statistično razlikujejo metode,ki imajo razliko povprečnega ranga večjo od 1,839.

Tabela 3.8P-vrednosti parnega testa Nemenyi.

nAM AM+ RIPPER FURIA

AM+ 0,2550 - - -RIPPER 0,2550 1,0000 - -FURIA 0,0042 0,5734 0,5734 -CN2 0,7435 0,9280 0,9280 0,1473

Friedman: p = 0.011

CD: 1.839

FU

RIA

− 1

.82

AM

+ −

2.8

2

RIP

PE

R −

2.8

2

CN

2 −

3.3

6

nA

M −

4.1

8 Slika 3.2Grafični prikaz rezulta-tov testa Nemenyi.

Tabela 3.9 prikazuje povprečno dobljeno število pravil (R), povprečno številočlenov na pravilo (T) in povprečno število členov celotnega seznama (S). V osmih


primeri izmed enajstih ima najmanjše povprečno število členov v celotnem seznamumetoda Ant-Miner+. S primerjavo metod Ant-Miner+ in nAnt-Miner vidimo, daima nAnt-Miner v povprečju krajša pravila (T) kot metoda Ant-Miner+. Tonakazuje, da so posamezna pravila metode nAnt-Miner razumljivejša, vendar zatorudari daljše sezname. Metoda RIPPER ravno tako išče krajša pravila, vendar dobivečje sezname kot Ant-Miner+. Metodi FURIA in CN2 imata daljša pravila in večpravil na seznam v primerjavi z ostalimi tremi metodami. Največji skok v številupravil glede na metodo Ant-Miner+ imata metodi nAnt-Miner in RIPPER primnožici car. Ta množica odstopa od ostalih po tem, da ima več učnih primerovin večje število razredov. Ker pri metodah RIPPER, FURIA in CN2 zaradiuporabljenih implementacij v programu Weka [44] ali Orange [45] nismo dobiliseznama pravil za vsak pregib prečnega preverjanja, je pri teh metodah povprečjeizračunano le na končnih seznamih za vsak test, kar lahko vpliva na kakovostrezultatov.

Metoda nAnt-Miner 43Tabela 3.9Število pravil (R), število členov (T), velikost seznama pravil (S) pri primerajnju vseh metod.

Metoda

nAM

AM+

RIPPER

FURIA

CN2R

TS

RT

SR

TS

RT

SR

TS

ttt11,8

2,731,86

(3)8,0

3,0724,56

(1)9,4

2,9127,35

(2)21,6

3,5175,82

(4)119,3

2,29272,71

(5)aus

9,42,9

27,26(4)

3,02,27

6,81(2)

3,21,69

5,41(1)

8,42,83

25,06(3)

64,11,54

98,71(5)

ger5,5

3,016,50

(3)2,3

4,149,52

(1)4,2

2,3810,00

(2)9,8

2,2722,25

(4)78,5

2,84223,17

(5)bal

9,42,2

20,68(2)

5,73,53

20,12(1)

15,02,05

30,75(3)

46,82,35

109,98(4)

182,71,74

318,54(5)

tae20,7

1,020,70

(3)9,4

2,0619,36

(2)5,4

7,8042,12

(4)9,0

1,3111,79

(1)36,3

1,9671,09

(5)bcw

8,31,6

13,28(2)

2,61,88

4,89(1)

12,41,44

17,86(3)

22,81,99

45,37(5)

24,51,72

42,05(4)

car19,3

4,892,64

(2)6,6

4,7531,35

(1)40,6

3,89157,93

(3)92,6

4,38405,59

(5)79,5

2,06163,39

(4)rip

11,11,7

18,87(4)

2,41,85

4,44(1)

6,02,13

12,78(2)

7,21,97

14,18(3)

190,92,01

384,06(5)

cmc

4,64,2

19,32(2)

4,45,58

24,55(3)

4,22,71

11,38(1)

10,62,36

25,02(4)

369,33,22

1190(5)

gla9,0

2,421,60

(3)3,7

3,0911,43

(1)8,6

2,2819,61

(2)17,0

3,2655,42

(4)36,8

1,5958,53

(5)seed

6,41,7

10,88(3)

3,42,15

7,31(1)

5,01,80

9,00(2)

8,22,41

19,76(5)

12,81,29

16,54(4)


Tabela 3.10Izvajalni čas metod Ant-Miner+ in nAnt-Miner

Množica ttt aus ger bal tae bcw

AM+ 30 48 52 47 63 91nAM 15 260 326 14 13 109

Množica car rip cmc gla seed

AM+ 154 4 30 77 20nAM 197 162 116 141 61

Tabela 3.10 prikazuje čase izvajanja metod nAnt-Miner in Ant-Miner+. Ostalemetode so veliko hitrejše, ker ne uporabljajo kolonije mravelj za preiskovanje. Časiso merjeni v sekundah za eno prečno preverjanje. Opazimo, da nobena metoda niboljša na vseh množicah, ampak da so časi izvajanja odvisni od posamezne množice.Množica rip je posebno zahtevna za metodo nAnt-Miner, saj pri tej množicialgoritem potrebuje veliko iteracij, preden se ustavi. Enako velja tudi za množiciaus in ger. Množice ttt, bal in tae se z metodo nAnt-Miner obdelajo hitreje. Nadveh izmed teh množic (ttt in tae) nAnt-Miner dosega tudi boljšo klasifikacijskotočnost kot Ant-Miner+. To nakazuje, da je za ti dve množici metoda nAnt-Miner primernejša. Pri množici bal dobi nAnt-Miner nizko klasifikacijsko točnost.Razlog za to je v tem, da ima ta množica močno odvisnost med atributi v oblikimnoženja atributov. V članku [7] smo z desetkratnim prečnim preverjanjem natej množici dobili boljše rezultate, kar nakazuje, da je imela metoda nAnt-Minerzaradi dvakratnega prečnega preverjanja na voljo premalo učnih primerov, da bizaznala to odvisnost.

3.2.3 Umetne podatkovne množice

Da smo preverili, če metoda nAnt-Miner zazna pogojne odvisnosti med atributi,smo metodo testirali tudi na štirih umetnih problemih z močnimi pogojnimiodvisnostmi med atributi. Množice so pridobljene iz članka avtorjev Robnik-Šikonja in Kononenko [46]. Osnovni podatki množic so predstavljeni v tabeli3.11.

Metoda nAnt-Miner 45Tabela 3.11Opis umetnih množic

množica # atributov # primerov # razredov

xor 2 100 2chess 4 100 2modGroup 4 100 3xorCross 6 100 2

xor Množica XOR je sestavljena iz dveh številskih atributov z vrednostmi med -1in 1. Če sta vrednosti atributov nad ali pod 0 hkrati, potem primer pripadapozitivnemu razredu, drugače negativnemu razredu. Množico prikazuje slika3.3.

−1.0 −0.5 0.0 0.5 1.0

−1

.0−

0.5

0.0

0.5

1.0

I1

I2

Slika 3.3Prikaz podatkovnemnožice xor. Trikotni-ki in krogi prikazujejodva različna razreda.

groups Na sliki 3.4 sta prikazana dva pomembna atributa I1 in I2, ter razred.Vrednosti so razpršene okoli centrov skupin, ki predstavljajo razred. Množicista dodana tudi dva atributa, ki nista v povezavi z razredom. Primeri, kipripadajo razredu 0, 1 in 2, so prikazani s krogi, trikotniki in znaki plus vtem vrstnem redu.


Slika 3.4Prikaz dveh pomenb-nih atributov na mno-žici groups.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

I1

I2

cross Slika 3.5 prikazuje dva pomembna atributa, I1 in I2 množice. Razred 1,označen z rdečimi trikotniki, ustreza pogoju (I1 − 0, 5)(I2 − 0, 5) > 0.Množica ima še štiri atribute, ki ne vplivajo na razred.

chess Na sliki (3.6) sta prikazana dva pomembna atributa I1 in I2, ter razred.Množica je sestavljena iz 4 × 4 šahovnice, kjer črni krogi predstavljajo razred0 in rdeči trikotniki razred 1. Množica ima tudi dva atributa, ki ne vplivatana razred.

Tabela 3.12Klasifikacijske točnosti na umetnih množicah z močno pogojno odvisnostjo med atributi.

Metoda nAM AM+ RIPPER FURIA

xor 96,80 ± 1,93 51,40 ± 6,23 88,90 ± 3,11 98,00 ± 0,71chess 58,20 ± 7,15 47,70 ± 5,37 60,60 ± 2,07 55,8 ± 3,77modGroup 65,20 ± 9,85 31,40 ± 1,95 42,40 ± 10,90 37,40 ± 9,84xorCross 89,00 ± 8,12 47,70 ± 5,37 84,40 ± 10,92 89,80 ± 0,45


0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

I1

I2

Slika 3.5Prikaz pomembnihatributov na množicicross.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

I1

I2

Slika 3.6Prikaz množice chess.

Tabela 3.12 prikazuje klasifikacijske točnosti, dobljene na umetnih podatkovnihmnožicah. Vidimo, da metoda Ant-Miner+ deluje slabše v primerjavi z ostalimiprimerjanimi metodami na vseh štirih množicah. Razlog je predvsem v predhodnidiskretizaciji z metodo Fayyan-Irani, ki ne zazna odvisnosti med atributi in zato


napačno postavi meje. V dveh primerih ima metoda FURIA najvišjo klasifikacijskotočnost, na teh dveh množicah je tudi metoda nAnt-Miner uspešna. MetodinAnt-Miner in Ripper imata vsaka v enem primeru najvišjo klasifikacijsko točnost,vendar metoda nAnt-Miner dosega veliko boljše rezultate na množici modGroup,kar nakazuje na to, da je edina metoda, ki je v tem primeru zaznala močneodvisnosti med atributi. Množica modGrop se od ostalih razlikuje po tem, da imatri različne razrede in ne samo dva kot ostale. Kadar slutimo, da podatki vsebujejomočne pogojne odvisnosti med atributi, priporočamo uporabo metode nAnt-Miner.S pravilno predhodno diskretizacijo atributov, bi tudi metoda Ant-Miner+ zaznalamočne odvisnosti med atributi in dosegla boljše rezultate. Zaznavanje pogojneodvisnosti med atributi je mogoče zaradi oblike preiskovalnega grafa pri obehmetodah nAnt-Miner in Ant-Miner+. Tukaj ima nAnt-Miner prednost pred Ant-Miner+, ker lahko avtomatsko zazna pravilne meje za diskretizacijo in uporabnikne potrebuje predznanja o dotični učni množici.

3.2.4 Medicinska domena

Metodo smo preizkušali še na realni podatkovni množici syncope. Množica vsebujeinformacije pri izvajanju testa z nagibno mizo (tilt-table) za 94 pacientov. Za vsa-kega pacienta so bile meritve krvnega tlaka in EKG-ja preoblikovane v standardnoBrS (Brugada EKG vzorec) in frekvenčne EKG indikatorje (nizek, visok in skupen).Za vsakega pacienta imamo 11 meritev za vsak indikator. Meritve so bile opravljenevsakih 5 minut. Razred prikazuje, ali je test povzročil sinkopo, kar pomeni, daje pacient omedlel oziroma izgubil zavest. Test smo opravili na dveh različicahpodatkov. Prvega smo poimenovali syncope123 in vsebuje le meritve prvih 15 minuttesta. Drugi test syncope vsebuje vse meritve. Prvi test je še posebno zanimiv,ker bi dobri rezultati tega testa zmanjšali čas testiranja pacientov. Vsi testi so bilipognani s privzetimi nastavitvami metod.Tabela 3.13 prikazuje klasifikacijske točnosti, dobljene z izbranimi metodami.

Na tej domeni se najbolje izkaže metoda Ant-Miner+, ki na obeh množicahdoseže najboljši rezultat. V iskanju razloga, zakaj metoda nAnt-Miner doseženizko klasifikacijsko točnost na množici syncope, smo jo preizkusili tudi z 10-kratnim prečnim preverjanjem. V tem primeru je klasifikacijska točnost narasla na64,52. Razlog je v tem, da metoda potrebuje več podatkov, da se nauči pravil.Iz tabele 3.14 vidimo, da ima metoda Ant-Miner+ kratka pravila na množici


syncope123, bolj natančno rezultat 1.0 pomeni, da je vedno uporabljeno le privzetopravilo. To kaže na to, da je na tej množici večinski klasifikator dober in da sedruge metode z dodajanjem pravil preveč prilagajajo šumu v podatkih. Pri metodiFURIA klasifikacijska točnost z dodajanjem pravil ne pada tako izrazito, ker gradimehka pravila. Iz tabele 3.15 je razvidno, da je najpočasnejša metoda nAnt-Miner.Metoda Ant-Miner+ ima v prvem primeru nizek čas, ker gradi le privzeta pravila.

Tabela 3.13Klasifikacijske točnosti na medicinski domeni.


syncope123 47,13 ± 6,27 53,78 ± 17,0 40,64 ± 5,81 43,01 ± 5,99syncope 50,74 ± 7,65 64,25 ± 10,6 62,58 ± 2,33 61,08 ± 2,45

Tabela 3.14Velikost pravil na medicinski domeni. Podana je vrednost S, ki je zmnožek števila pravil in povprečnega številačlenov na pravilo.


syncope123 8,55 1,00 1,6 9,2syncope 8,46 6,21 3,2 16

Tabela 3.15Čas izvajanja metod za 5 × 2 prečno preverjanje v sekundah.


syncope123 53 <1 <1 <1syncope 315 22 <1 <1

3.2.5 Zaključek

Analiza parametrov in empirično vrednotenje metode nakazuje, da je največja pred-nost metode nAnt-Miner pred Ant-Miner+ v tem, da implicitno zazna močne od-visnosti med atributi, kot kaže razdelek 3.2.3. Ker je metoda nAnt-Miner zasnovanana metodi Ant-Miner+, bi s pravilno podanimi diskretnimi mejami tudi metoda


Ant-Miner+ dosegla višjo klasifikacijsko točnost, vendar se pri metodi nAnt-Minerkončnemu uporabniku prihrani korak izbire primerne diskretizacije.Slabost metodesta nizka klasifikacijska točnost - če uporabimo premalo učnih primerov - in njenčas izvajanja. Ker smo želeli za to delo zmanjšati čas izvajanja metode nAnt-Minerna nekaj minut za vsako množico, smo uporabili 5 × 2 prečno preverjanje. Rezul-tati primerjav v članku avtorjev Pičulin in Robnik-Šikonja [7] so dobljeni z 10 × 10prečnim preverjanjem in se zato nekoliko razlikujejo od teh v disertaciji. Predvsemse izkaže, da je metoda bolj primerljiva z ostalimi glede na klasifikacijsko točnost.Glede na prednosti in slabosti metode priporočamo uporabo metode nAnt-Minerna množicah, za katere sumimo, da imajo močno odvisnost med atributi, pri temmoramo seveda imeti na razpolago dovolj učnih primerov.

4

Metoda ProAnt-Miner


Metoda ProAnt-Miner (PRObalistic ANT-based rule miner) se razlikuje od obstoje-čih metod za učenje pravil, ker sočasno gradi mehke intervale in gradi verjetnostnapravila. Oblika pravil, ki jih rudari metoda ProAnt-Miner, je podrobno opisanav razdelku 4.1, uporaba pravil s to obliko pri napovedovanju v razdelku 4.2 terrazširitev te oblike pravil v razdelku 4.3. Delovanje metode je opisano v razdelku4.4, njeno ovrednotenje pa v razdelku 4.5.

4.1 Oblika pravil metode ProAnt-MinerOdločitvena pravila zgrajena z metodo ProAnt-Miner so v obliki IF-THEN pravil.Členi pravila za nominalne attribute so oblike X = 𝑣𝑖 , kjer je X ime atributa, 𝑣𝑖pa je 𝑖-ta vrednost tega atributa. Členi pravila za številske atribute imajo novopredstavitev pravil, v obliki porezane Gaussove krivulje. Primer pravil je:

IF X1=N(12, 8, 1, 6) AND X2=N(14, 5, 1, 9) THEN △IF X1=N(4, 5, 0, 9) AND X2=N(13, 5, 1, 6) THEN ○IF X1=N(13, 2, 1, 6) AND X2=N(1, 4, 1, 6) THEN ○IF X1=N(2, 3, 1, 6) AND X2=N(1, 2, 1, 6) THEN △

(4.1)

Pravila so zgrajena za podatke, prikazane na sliki 4.1. Podatki predstavljajo dvaštevilska atributa X1 in X2, ki sta med seboj pogojno odvisna glede na razred.Če sta vrednosti obeh atributov pod 7,5, ali če sta oba atributa nad to mejo,potem primer pripada razredu △, sicer razredu ∘. Slika 4.1 prikazuje pravila izzbirke (4.1). N(μ, σ) v členih predstavlja Gaussovo porazdelitev s središčem μ instandardnim odklonom σ. Na sliki 4.1 so ta pravila prikazana z elipsami, kjerizohipse predstavljajo normalno porazdelitev pri standardnih deviacijah σ = 1, 2 in3. Člen X = N(μ, σ) lahko interpretiramo kot; X je blizu μ. V našem primeruto pomeni, če je X1 blizu 12,8 in X2 blizu 14,5 potem primer pripada razredu△. Vrednosti σ določajo pomen besede blizu. Manjša, kot je σ, bližje vrednosti μmora biti primer, da ga pravilo pokrije.

Metoda ProAnt-Miner 53

0.4 0.5 0.6 0.7 0.8

0.0

0.2

0.4

0.6

0.8

1.0

x

covera

ge

Slika 4.1Primer Gaussovedistribucije in mehkegapravila, ki ga iz njeizpeljemo.

4.2 Napovedovanje z verjetnostnimi praviliNaj bo pravilo R𝑖 iz seznama pravil dolžine 𝑠

IF T𝑖1 AND T𝑖2 AND …AND T𝑖t THEN l𝑖, (4.2)

kjer je R𝑖 𝑖-to pravilo v seznamu. T𝑖𝑗 je 𝑗-ti člen pravila R𝑖 , 𝑙𝑖 pa razred, kipripada množici razredov L. Člen T𝑖𝑗 pokrije primer 𝑘 s pokritjem 𝑐𝑖,𝑗,𝑘 . Čečlen T𝑖𝑗 trenutno predstavlja nominalni atribut oblike A𝑓 = 𝑣, potem je 𝑐𝑖,𝑗,𝑘 = 1,če ima primer 𝑘 vrednost atributa A𝑓 = 𝑣, sicer pa 0. Če člen T𝑖𝑗 predstavljaštevilski atribut oblike A𝑓 = N(μ𝑖𝑗 , σ𝑖𝑗), potem člen T𝑖𝑗 pokrije primer 𝑘, ki imavrednost 𝑣𝑘 z vrednostjo:

𝑐𝑖,𝑗,𝑘 = {2 cdf(𝑣𝑘, μ𝑖𝑗 , σ𝑖𝑗) če 𝑣𝑘 < μ𝑖𝑗 ,2 cdf(2μ𝑖𝑗 − 𝑣𝑘, μ𝑖𝑗 , σ𝑖𝑗) če 𝑣𝑘 ≥ μ𝑖𝑗 ,

(4.3)

kjer je cdf(𝑥, μ, σ) kumulativna distribucijska funkcija definirana kot:

cdf(𝑥, μ, σ) = 12(1 + erf (𝑥 − μ

σ√2)), (4.4)

pri čemer je erf(𝑥) funkcija napake definirana kot:

erf(𝑥) = 1√π ∫

𝑥

−𝑥𝑒−𝑡2 d𝑡. (4.5)


Ta postopek priredi večjo verjetnost primerom blizu centrov Gaussovih krivuljin manjšo verjetnost bolj oddaljenim primerom. Vsako pravilo pokrije primer 𝑘 zverjetnostjo:

𝑐𝑖,𝑘 =𝑡∏𝑗=1

𝑐𝑖,𝑗,𝑘 (4.6)

Vsak seznam pravil pokrije primer 𝑘 z razredom 𝑙𝑐 z vrednostjo pokritosti:

𝑐l𝑐𝑘 = ∑𝑖∈{𝑥|l𝑥=l𝑐}

𝑐𝑖,𝑘 (4.7)

Za vsak razred imamo svojo pokritost. Verjetnost, da primer 𝑘 pripada razredu𝑙𝑐, je torej:

𝑝l𝑐𝑘 =𝑐l𝑐𝑘

∑|L|𝑚=1 𝑐

l𝑚𝑘

(4.8)

Napovedan je razred z največjo verjetnostjo.

4.3 Mehka pravila z večjim pokritjemVrednosti, ki jih dobimo z enačbo (4.7) so navadno nizke, saj med seboj množimomajhne vrednosti. Ker hočemo, da pravilo vsaj nekatere primere bolj ali celopopolnoma pokrije, vsako Gaussovo krivuljo množimo s parametrom λ, kjer jeprodukt navzgor omejen. Kot rezultat dobimo mehka pravila, podobna trapezomz gladkim prehodom med pokritjem in nepokritjem. Slika 4.1 prikazuje normalnodistribucijo z μ = 0, 6 in σ = 0, 06 in mehko trapezno obliko, pri čemer smouporabili λ = 3. Na ta način pravilo popolnoma pokrije primere, ki padejo med0,512 ter 0,688. Ta oblika se nekoliko približa trapezoidni obliki mehkih pravil,kot jih rudari metoda FURIA [4].

4.4 ProAnt-MinerProAnt-Miner je metoda za rudarjenje pravil, kot so opisana v razdelku 4.3. Me-toda uporablja princip loči in obvladaj [23]. To pomeni, da algoritem poišče eno


pravilo in nato vse primere, ki so pokriti, odstrani iz učne množice. Na preostan-ku primerov išče novo pravilo, ki ga bo dodal med dobljena pravila. Ker oblikapredlaganih pravil ne pokrije nujno celotnih primerov, so le-ti uteženi z deležemše nepokritega primera. Utež 1 pomeni, da je primer popolnoma nepokrit, utež 0pa, da je popolnoma pokrit. Ko algoritem pokrije dovolj velik delež primerov, seustavi in vrne dobljeni seznam pravil.Metoda uporablja pristop optimizacije s kolonijo mravelj, kjer distribucija fero-

monov predstavlja obliko mehkih pravil. Mravlje ponavljajo pohod, dokler distri-bucije feromonov ne konvergirajo. Iz oblike feromonov pri konvergenci sklepamona obliko pravila.Okvirna ideja je prikazana v pseudokodi algoritma 4. Vrstici 1-2 inicializirata

učno množico (TS) in seznam pravil (RL). Glavna zanka while v vrsticah 5-22zgradi celoten seznam pravil. Glavna zanka inicializira feromone v vrstici 6. Zankawhile v vrsticah 8-19 za vsak razred zgradi 𝑛 pravil in nato najboljše pravilo v vrstici17 shrani v Rbest ter nato na podlagi kakovosti tega pravila v vrstici 18 posodobivrednosti feromonov v grafu. Dvojna zanka for v vrsticah 9-16 za vsak razredzgradi 𝑛 pravil. Vrstica 12 simulira sprehod mravlje, ki zgradi pravilo R𝑖,𝑙 , vrstica13 to pravilo obreže, vrstica 14 pa izračuna kakovost tega pravila. Ko feromonizanke while v vrsticah 8-19 konvergirajo v Rbest ostane najboljše pravilo te iteracije,ki se nato v vrstici 20 doda v seznam pravil RL. S tem pravilom v vrstici 21zmanjšamo uteži pokritosti za vsak učni primer. Vrstica 23 vrne končni seznampravil.

4.4.1 Inicializacija feromonov

Vsak atribut je predstavljen s svojo distribucijo feromonov. Vrednosti feromonovležijo med τ𝑚𝑖𝑛 = 0 in τ𝑚𝑎𝑥 = 1. Nominalni atributi imajo število košev priaproksimaciji distribucije enako številu različnih vrednosti, ki jih lahko zavzemajo.Za številske atribute lahko število košev določimo sami s podanim parametrom 𝑏.Empirično priporočena vrednost je 𝑏 = 128, saj želimo dovolj podrobno razdelitevza izračun empirične kumulativne distribucijske funkcije (ecdf).Pri nominalnih atributih vsak koš predstavlja eno od vrednosti 𝑣 atributa. Zače-

tna vrednost v tem košu je relativna frekvenca vrednosti 𝑣 v podatkih. Za številskeatribute zgradimo ekvidistančni histogram, vrednost vsakega koša pa je frekvencapodatkov iz intervala, ki ga predstavlja koš.


Algorithm 4 : ProAnt-Miner.Input: dataset, number of ants, number of bins, minCover, α, λOutput: set of rules

1: TS ← {All training instances}2: RL ← {}3: Initialize weights of instances to 14: //Find a rule set5: while not stopping criterion do6: Initialize pheromones (τ)7: //Find a single rule8: while pheromones not converged do9: for each class 𝑙 do10: //Find a rule candidate11: for 𝑖 in 1…𝑛 ants do12: Let an ant construct a rule R𝑖,𝑙13: Refine and prune the rule R𝑖,𝑙14: Calculate the quality of the rule R𝑖,𝑙15: end for16: end for17: Find best rule Rbest based on the rule quality18: Use Rbest to update pheromones19: end while20: Add R𝑏𝑒𝑠𝑡 to RL21: Update weights of instances based on Rbest

22: end while23: return RL

Feromoni na začetku predstavljajo distribucijo vrednosti atributov. Visoke vre-dnosti feromonov usmerjajo iskanje v smeri večje gostote, kar povzroči, da algori-tem išče bolj splošna pravila.


4.4.2 Gradnja pravil

Vsak obhod mravlje zgradi eno pravilo. Za vsak razred posebej se zgradi 𝑛 pravil,kjer je 𝑛 vhodni parameter. Vsaka mravlja izbere naključni vrsti red, v katerem boobiskala atribute in sproti gradi pravilo z dodajanjem členov. Permutacija izbirevrstnega reda je potrebna, ker je vsak dodani člen odvisen od trenutno zgrajenegapravila.Ko mravlja izbere atribut A𝑓 , uporabi njegovo distribucijo feromonov P𝑓 , da

zgradi prvi člen. Ker so vrednosti feromonov normalizirane na [0, 1], je vrednostvsakega koša hkrati tudi verjetnost, da bo ta koš izbran. Če je A𝑓 nominalenatribut in mravlja izbere koš z vrednostjo 𝑣, se zgradi člen A𝑓 = 𝑣.Če je A𝑓 numeričen atribut, se zgradi pravilo oblike A𝑓 = N(μ, σ). Vrednost μ

je srednja vrednost koša, ki ga izbere mravlja. Vrednost σ je na začetku izračunanaz enačbo (4.9), kjer sta max(A𝑓 ) in min(A𝑓 ) maksimalna in minimalna vrednostatributa A𝑓 . Konstanta 100 v enačbi je izbrana empirično in je dovolj velika, dazagotavlja, da člen na začetku pokrije le majhen del podatkov. σ se nato povečuje,dokler s tem narašča tudi kakovost pravila. Če se po večkratnem povečanju σ-me (npr. 30-krat) pravilo še vedno izboljšuje, ta člen odstranimo, saj v temprimeru distribucija N(μ, σ) pokrije vse vrednosti atributa, kar pomeni, da je členneuporaben v tem pravilu.

σ =max(A𝑓 ) −min(A𝑓 )

100 (4.9)

Postopek ponavljamo, dokler ne dodamo vseh členov v pravilo. Pravilo natoizboljšamo tako, da iterativno širimo širino σ oziroma odstranjujemo nominalnečlene, če s tem pridobimo boljšo kakovost pravila. S tem posplošujemo dobljenapravila.S tem postopkom vsaka mravlja zgradi svoje pravilo. Ko so vsa pravila zgrajena,

izberemo pravilo R𝑏𝑒𝑠𝑡 z najvišjo kakovostjo in z njim posodobimo vrednostiferomonov, kot je opisano v razdelku 4.4.5.Postopek ponavljamo, dokler se vrednosti feromonov pri vseh atributih ne sta-

bilizirajo. Za detekcijo stabilizacije številskih atributov uporabljamo Hellingerjevorazdaljo med trenutno vrednostjo feromonov in vrednostjo feromonov v prejšnjiiteraciji. Hellingerjeva razdalja je izračunana z enačbo


H(P𝑖, P𝑖−1) =1√2√

𝑏∑𝑘=1

(√𝑝𝑖,k − √𝑝𝑖−1,k)2, (4.10)

kjer sta P𝑖 = (𝑝𝑖,1, 𝑝𝑖,2, ..., 𝑝𝑖,b) in P𝑖−1 = (𝑝𝑖−1,1, 𝑝𝑖−1,2, ..., 𝑝𝑖−1,b) diskretni dis-tribuciji feromonov v trenutni in prejšnji iteraciji za izbrani atribut. Metoda seustavi, ko je H(P𝑖, P𝑖−1) < minH za vsak atribut. Vrednost 𝑚𝑖𝑛H je določena kotparameter, s privzeto vrednostjo 0,05. Ko se algoritem zaključi, se zadnje praviloRbest doda v seznam pravil.

4.4.3 Izboljševanje pravil

Vsaka mravlja na začetku zgradi pravilo R𝑖 oblike IF T𝑖1 AND T𝑖2 AND ... ANDT𝑖t THEN 𝑙𝑖 . To pravilo skušamo posplošiti. Ko gradimo pravilo R𝑖 , najprejdoločimo člen T𝑖1 in nato T𝑖2. Pri gradnji člena T𝑖2 že upoštevamo, da je členT𝑖1 zmanjšal preiskovalni prostor. Ko dodamo T𝑖2, tudi ta člen zmanjša prostor,a tega zmanjšanja člen T𝑖1 pri gradnji ni upošteval. Zato iterativno poskušamopovečati σ vseh členov, dokler se kakovost pravila še izboljšuje. V tem postopkulahko nekatere člene tudi odstranimo. Iterativno izboljševanje pravila smo prikazaliv algoritmu 5.

4.4.4 Kakovost pravil

Kakovost Q pravila R𝑖 je lahko izračunana na več načinov. Najpogosteje upora-bljena mera za oceno kakovosti pravila pri klasifikatorjih, ki uporabljajo kolonijomravelj, je:

Q = P𝑜𝑘𝑟𝑖𝑡𝑜𝑠𝑡(R𝑖) ⋅ α + Z𝑎𝑢𝑝𝑎𝑛𝑗𝑒(R𝑖) ⋅ (1 − α), (4.11)

kjer je α vhodni parameter z vrednostmi med 0 in 1. Funkcija Pokritost(R𝑖) vrnepokritost pravila R𝑖 , ki je definirana kot delež števila pokritih primerov s tempravilom. Funkcija Zaupanje(R𝑖) je zaupanje v pravilo R𝑖 , definirana kot razmerjemed pravilno pokritimi primeri in vsemi pokritimi primeri. Vsak primer je zaradipodane oblike pravil le delno pokrit. Pokritost člena 𝑐𝑖,𝑗 je izračunana kot vsotadelnih pokritosti:


Algorithm 5 : Rule refinement.Input: rule, datasetOutput: improved rule

1: change ← TRUE2: while change = TRUE do3: change ← FALSE4: for each term t in the rule do5: increase σ of the term6: if rule improved on dataset then7: change ← TRUE8: if σ increased 20 times then9: remove term t10: end if11: end if12: end for13: end while

𝑐𝑖,𝑗 =𝑎∑𝑘=0

𝑐𝑖,𝑗,𝑘 , (4.12)

kjer 𝑘 teče preko vseh 𝑎 atributov.Pokritost(R𝑖) pravila R𝑖 je zmnožek pokritosti njegovih členov:

Pokritost(R𝑖) =𝑡∏𝑗=0

𝑐𝑖,𝑗 (4.13)

Zaupanje(R𝑖) pravila R𝑖 izračunamo kot:

Zaupanje(R𝑖) =∏𝑡

𝑗=0∑𝑎𝑘=0 𝑐

l𝑐𝑖,𝑗,𝑘

Pokritost(R𝑖), (4.14)

kjer je 𝑐l𝑐𝑖,𝑗,𝑘 definiran kot:

𝑐l𝑐𝑖,𝑗,𝑘 = {𝑐𝑖,𝑗,𝑘 če 𝑖 ∈ {𝑥; l𝑥 = l𝑐},0 sicer,

(4.15)


kar pomeni, da so upoštevana samo pokritja primerov pravilnega razreda.Do sedaj opisan postopek ne upošteva uteži učnih primerov. Vsak učni primer

ima za vsak razred svojo utež 𝑤𝑙𝑖𝑘 . Z upoštevanjem uteži učnih primerov se enačba(4.12) spremeni v enačbo (4.16) ter enačba (4.14) v enačbo (4.17).

𝑐𝑖,𝑗 =𝑎∑𝑘=0

𝑐𝑖,𝑗,𝑘 ⋅ 𝑤l𝑖𝑘 (4.16)

Zaupanje(R𝑖) =∏𝑡

𝑗=0∑𝑎𝑘=0 𝑐

l𝑖𝑖,𝑗,𝑘 ⋅ 𝑤

l𝑐𝑘

Pokritost(R𝑖)(4.17)

Pri gradnji pravila moramo upoštevati le pokritost iskanega razreda, ostale prime-re pa obravnavamo kot nepokrite. Sliki 4.2 in 4.3 prikazujeta, zakaj je to potrebno.Na sliki 4.2 sta vidni pravilno zgrajeni prvi pravili, na sliki 4.3 pa sta vidni napačnozgrajeni prvi pravili. V prvem primeru so uporabljene uteži za vsak razred posebej,v drugem pa samo ena utež pokritosti za vsak primer. V drugem primeru se pogradnji prvega pravila najbolj zmanjšajo uteži primerom v zgornjem desnem kotu.Pri gradnji drugega pravila so ti primeri za pravilo 2 že pokriti in zato to praviloposkušamo posplošiti tudi čez te primere v smeri atributa X1. To preprečimo tako,da pravilo 2 upošteva le uteži za isti razred. Na ta način so primeri iz ostalihrazredov upoštevani kot nepokriti, kar omejuje pretirane posplošitve, izognemo pase tudi večkratnemu pokrivanju istega prostora.

4.4.5 Posodobitev feromonov

Feromoni se posodabljajo v dveh korakih, in sicer v koraku ojačanja in izhlapevanja.Ojačanje poveča vrednost feromonov na dobrih poteh, izhlapevanje pa zmanjšujevrednost feromonov skozi iteracije. Ojačanje se izvede za najboljše pravilo R𝑏𝑒𝑠𝑡 ,izhlapevanje pa se simulira z normalizacijo vsote vrednosti na 1, kar pomeni, davrednosti feromonov delimo z vsoto vseh feromonov. Tako se vrednost feromo-na na ojačani poti zviša, na vseh ostalih poteh pa se vrednost feromona zaradinormalizacije zmanjša.

Pri nominalnih atributih je ojačana le vrednost, ki nastopa v pravilu. Dodanavrednost je β ⋅ Q𝑏𝑒𝑠𝑡 . Izhlapevanje simuliramo z normalizacijo vseh intervalov navsoto 1.

Pri številskih atributih so ojačani vsi intervali. Vzemimo na primer numeričničlen T𝑖𝑗 oblike A = N(μ𝑖𝑗 , σ𝑖𝑗). Zgradimo Gaussovo krivuljo N(μ𝑖𝑗 , σ𝑖𝑗) in jo


0 5 10 15

05

10

15

X1

X2

12

Slika 4.2Prikaz pravilno zgraje-nih prvih dveh pravilna množici xor.

normaliziramo tako, da je skupna vsota 1, kot prikazuje naslednja enačba.

Pupdate𝑖,𝑗 = {

1σ𝑖𝑗√2π

𝑒−(𝑥𝑓𝑚−µ𝑖𝑗 )2

2σ2𝑖𝑗

∑𝑏𝑜=1 ( 1

σ𝑖𝑗√2π𝑒−(𝑥𝑓 𝑜−µ𝑖𝑗 )2

2σ2𝑖𝑗 );𝑚 ∈ {1, ..., 𝑏}}, (4.18)

kjer je 𝑥𝑓𝑚 srednja vrednost intervala 𝑚 atributa A𝑓 . Dobljena distribucija, po-množena z β in Q𝑏𝑒𝑠𝑡 se prišteje k trenutni distribuciji feromonov.

4.4.6 Uteži primerov

Ko je pravilo zgrajeno, pokritim primerom zmanjšamo uteži glede na kakovostpravila Q𝑖 in vrednostjo, s katero je primer pokrit. Pokritost je izračunana poenačbi (4.6). Vsaka utež 𝑤𝑘 je zmanjšanja za vrednost Q𝑖 ⋅ 𝑐𝑖𝑘 . Če vrednost utežipade pod prag (na primer 0,05), jo nastavimo na 0, zato ne vpliva več na nadaljnjepreiskovanje. Na ta način hranimo tudi uteži, odvisne od razreda 𝑤𝑙𝑐𝑘 . Izračunteh uteži upošteva le primere, kjer je razred 𝑙𝑐 enak razredu pravila R𝑏𝑒𝑠𝑡 , kar


Slika 4.3Prikaz nepravilnozgrajenih prvih dvehpravil na množici xor.

0 5 10 15

05

10

15

X1

X2

12

preprečuje pretirane posplošitve pravil.

4.4.7 Ustavitveni pogoj

Algoritem gradi pravila, dokler ni pokritih dovolj primerov ali doseženo maksimal-no število pravil. Vsak primer začne z utežjo 𝑤𝑘 = 1. Vsota uteži se z novimipravili manjša. Ko vsota pade pod minimalno (𝑚𝑖𝑛C𝑜𝑣𝑒𝑟), ali ko dosežemomaksimalno število pravil (𝑚𝑎𝑥R𝑢𝑙𝑒𝑠), se algoritem ustavi.

4.5 Empirično vrednotenje metodeV tem razdelku metodo ProAnt-Miner primerjamo na enajstih realnih množicah,dobljenih iz UCI repozitorija [42] in na štirih umetnih množicah z močnimipogojnimi odvisnostmi med atributi, opisanih v razdelku 3.2.3. Na koncu smoponovno naredili analizo na podatkih o sinkopi.


4.5.1 Realne podatkovne množice

V tem razdelku primerjamo metodo ProAnt-Miner z naključnimi gozdovi (RF)[47], metodo RIPPER [5], metodo Ant-Miner+ [2], metodo FURIA [4], meto-do CN2 [10] in našo metodo nAnt-Miner [7] na enajstih realnih podatkovnihmnožicah. Množice, na katerih smo primerjali metode, so Balance Scale (bal),Glass Identification (glass), Teaching Assistant Evaluation (tae), Wine (wine), Ha-berman’s Survival (hab), Ionosphere (iono), Statlog(Heart) (heart), Liver Disorder(bupa), Pima Indians Diabetes (pima), Sonar (sonar) in Ecoli (ecoli). Množiceso bile izbrane glede na število vsebovanih številskih atributov. Tabela 4.1 prika-zuje osnovne podatke izbranih množic. Metodo ProAnt-Miner primerjamo tudiz metodo naključnih gozdov, ker robustno dosega visoko klasifikacijsko točnost.Rezultati te metode predstavljajo oceno zgornje meje klasifikacijske točnosti, ki jolahko dosežemo. Metodo primerjamo tudi z metodami Ant-Miner+, RIPPER,FURIA in CN2, ki so opisane v razdelku 3.2.2.

Teste smo naredili s 5 × 2 prečnim preverjanjem. Uporabljene metode naključnihgozdov, RIPPER in FURIA so dostopne v programu Weka [44]. Implementacijauporabljene metode CN2 pa je dostopna v programu Orange [45]. Metoda Ant-Miner+ je prosto dostopna na spletu1. Pri metodi naključnih gozdov smo uporabili100 dreves, pri vseh ostalih metodah smo uporabili privzete parametre. Pri metodiAnt-Miner+ smo uporabili 1000 mravelj, faktor izhlapevanja 0,85, največje številoiteracij pa smo omejili na 200. Za oceno kakovosti pravil smo uporabili razmerjemed pokritostjo in zaupanjem pravila, za diskretizacijo zveznih atributov pa me-todo Fayyad-Irani. Pri metodi FURIA smo za določanje širine mehkih intervalovuporabili privzeto metodo raztezanja. Privzeti parametri za metodo ProAnt-Minerso 10 mravelj, minCover = 𝑛/2, kjer je 𝑛 število primerov v učni množici, α = 0, 05(glej enačbo 4.11) in λ = 3 (faktor, s katerim množimo Gaussove krivulje, zmnožekje omejen navzgor z 1). Privzeti parametri so bili nastavljeni s poskušanjem metodena množici Iris.

1www.antminerplus.com


Tabela 4.1Opis množic. Vrednosti stolpcev so: #𝑎𝑡. - število atributov, #𝑠𝑡.𝑎𝑡. - število številskih atributov, #𝑝𝑟𝑖𝑚 - številoprimerov in #𝑟𝑎𝑧 - število razredov

Množica # at. # št. at. # prim. # raz

bal 4 4 625 3glass 9 9 214 6tae 5 3 151 3wine 13 13 178 3hab 3 3 306 2iono 34 34 351 2heart 13 7 270 2bupa 6 6 345 2pima 8 8 768 2sonar 60 60 208 2ecoli 7 7 336 8

Tabela 4.2 prikazuje dobljene klasifikacijske točnosti na 11-ih množicah. Rezultatemetod smo po [43] testirali najprej s Friedmanovim testom. Ker smo metodonaključnih gozdov uporabili predvsem za določanje zgornje meje klasifikacijsketočnosti in ne zato, da bi pokazali, da lahko s to metodo primerjamo razvitometodo ProAnt-Miner, smo to metodo odstranili iz statističnega testa. Dobljenap-vrednost statističnega testa 5, 57 ⋅ 10−5 na primerjanih šestih metodah zavrneničelno hipotezo, da so vse metode enakovredne. Rezultati Nemenyjevega testa soprikazani v tabeli 4.3 in na sliki 4.4. Iz te tabele in slike vidimo, da je metodaFURIA statistično boljša od metod Ant-Miner+, CN2 in nAnt-Miner (𝑝 < 0, 05),ravno tako je metoda RIPPER statistično boljša kot metoda nAnt-Miner. Kritičnarazdalja je v tem primeru 2,273. Iz slike 4.4 vidimo, da je vodilna skupina metod,za katere ne moremo trditi, da se med seboj razlikujejo, sestavljena iz metodFURIA, RIPPER in ProAnt-Miner.

Metoda ProAnt-Miner 65Tabela 4.2Primerjava in rangiranje algoritmov RF, ProAnt-Miner, Ant-Miner+, RIPPER in FURIA glede na dobljenje klasi-fikacijske točnosti. Odebeljeni so najboljši rezultati brez upoštevanje metode RF. Rang v zadnji vrstici predstavljapovprečen rang metode in standardni odklon ranga.

Metoda

ProAnt

nAM

AM+

RIPPER

FURIA

CN2

RF

bal77,28

±3,08

(5)46,46

±2,48

(7)74,62

±3,24

(6)80,67

±0,74

(3)83,46

±0,56

(2)77,68

±2,70

(4)84,83±

0,46(1)

glass59,81±

4,93(4)

55,70±

9,68(7)

58,79±

5,07(6)

62,15±1,78

(3)62,24

±3,66

(2)59,38

±5,78

(5)74,86

±0,90

(1)tae

43,99±

8,42(3)

38,03±7,07

(5)36,56

±5,12

(7)38,28

±2,66

(4)38,01±

1,60(6)

54,26±

7,54(1)

53,37±

1,37(2)

wine

88,20±

9,83(4)

87,19±

2,71(5)

85,17±

2,20(6)

88,54±

1,84(3)

95,10±

0,00(2)

83,27±

4,01(7)

96,97±

0,85(1)

hab72,16

±2,41

(3)69,54

±7,09

(5)47,12

±20,7

(7)73,14

±1,02

(2)74,68

±0,94

(1)63,78

±1,49

(6)70,79

±0,18

(4)iono

81,93±7,20

(7)83,71±

4,14(5)

90,09±

1,01(2)

88,09±

1,38(3)

87,12±

0,85(4)

82,23±3,83

(6)93,11±

0,33(1)

heart77,19

±2,92

(2)50,81±

5,56(7)

76,15±3,12

(4)74,74

±4,77

(5)76,96

±1,13

(3)70,37

±4,10

(6)78,37

±0,89

(1)bupa

60,46±

2,32(4)

55,77±

5,57(6)

43,65±2,06

(7)60,58

±2,19

(3)62,61±

0,66(2)

57,50±

3,81(5)

65,86±

0,76(1)

pima

69,95±2,39

(5)67,84

±2,03

(6)71,80

±1,68

(4)72,81±

1,08(3)

73,80±

1,25(2)

66,04±

2,39(7)

75,34±

0,62(1)

sonar63,85±

4,97(5)

60,96±

6,70(6)

69,23±2,26

(4)71,25±

3,74(3)

72,12±

0,80(2)

60,53±7,60

(7)78,46

±1,19

(1)ecoli

64,05±5,19

(5)60,36

±9,96

(7)77,44

±1,90

(4)79,05±

1,60(3)

82,80±

0,79(2)

72,18±

5,35(5)

83,39±

0,39(1)

rang4,33±

1,375,67

±1,44

4,83±1,99

3,5±1,31

2,83±1,64

5,17±

1,801,67

±1,37


Tabela 4.3P-vrednosti parnega testa Nemenyi.

ProAnt nAM AM+ RIPPER FURIA

nAM 0,37919 - - - -AM+ 0,94368 0,90950 - - -RIPPER 0,67620 0,00826 0,15849 - -FURIA 0,20250 0,00036 0,01779 0,96799 -CN2 0,81015 0,98379 0,99939 0,06851 0,00551

Slika 4.4Grafični prikaz testaNemenyi.

Friedman: p = 0.000

Nemenyi CD: 2.273

FU

RIA

− 1

.64

RIP

PE

R −

2.2

7

Pro

Ant −

3.4

5

AM

+ −

4.1

8

CN

2 −

4.4

5

nA

M −

5.0

0

Tabela 4.4 prikazuje klasifikacijske točnosti metode ProAnt-Miner pri različnemštevilu uporabljenih mravelj od 3 do 50. Če se osredotočimo le na povprečen rangpri različnem številu mravelj, bi to lahko kazalo, da je najboljša vrednost 50, vendarvidimo, da so najboljši rezultati dokaj enakomerno razporejeni čez vse vrednostiparametra. To nakazuje, da je metoda občutljiva na število mravelj in je treba taparameter določiti za vsako množico posebej.

Metoda ProAnt-Miner 67Tabela 4.4Klasifikacijske točnosti glede na uporabljeno število mravelj pri metodi ProAnt-Miner.

Ants

35

1020

50

bal77,57

±2,63

(5)78,46

±2,86

(4)79,07

±5,42

(3)79,74

±1,93

(1)79,49

±2,32

(2)glass

51,50±5,51

(5)54,49

±3,66

(4)55,42

±8,81

(3)57,76

±5,84

(2)58,97

±7,34

(1)tae

42,79±7,88

(2)42,27

±6,21

(5)45,43±

6,80(1)

42,51±8,25

(4)42,54

±8,26

(3)wine

92,02±3,53

(3)92,70

±3,97

(1)88,43±

8,86(5)

90,45±4,53

(4)92,25±

4,12(2)

hab72,42

±1,87

(4)73,07

±3,23

(1)72,75±

1,63(3)

71,83±2,47

(5)72,87

±1,31

(2)iono

82,34±5,59

(4)81,94

±4,33

(5)85,65±

4,17(1)

83,30±4,31

(3)83,76

±5,59

(2)heart

76,52±4,94

(1)72,60

±5,55

(4)74,89

±4,17

(2)74,44

±4,24

(3)71,41±

7,26(5)

bupa56,41±

3,70(5)

58,61±4,30

(1)57,04

±2,25

(4)57,28

±3,73

(3)58,32

±3,06

(2)pim

a69,66

±3,83

(4)69,79

±2,54

(3)70,55±

2,35(2)

69,45±5,36

(5)70,99

±3,37

(1)sonar

65,29±7,40

(1)60,29

±6,10

(5)63,37

±4,85

(2)63,27

±6,13

(3)63,08

±6,85

(4)ecoli

63,63±6,07

(3)61,31±

7,07(5)

62,86±9,01

(4)65,48

±7,32

(2)65,95±

4,58(1)

rang3,36

±1,50

3,45±1,69

2,73±1,27

3,18±1,25

2,27±1,27


Tabela 4.5 predstavlja rezultate za različne vrednosti parametra λ. Tudi tukajrangi glede na vrednosti parametra nakazujejo, da privzetega parametra ne more-mo preprosto določiti, ampak ga je treba določiti za vsako podatkovno množicoposebej. Tako velikih odstopanj, kot pri parametru Ants tukaj ni, razlog je, daparametra σ in λ podobno razširita mehki interval, kar pomeni, da imajo pravilaz nizko vrednostjo λ večkrat višjo vrednost σ. Pri tem metoda ProAnt-Minerimplicitno določa vrednost σ.

Tabela 4.5Klasifikacijske točnosti glede na različne vrednosti parametra λ pri metodi ProAnt-Miner.

λ 1 3 5 10

bal 78,53 ± 3,97 (3) 78,58 ± 4,34 (2) 78,05 ± 4,81 (4) 79,94 ± 3,41 (1)glass 59,63 ± 7,67 (2) 55,05 ± 6,82 (4) 56,17 ± 7,57 (3) 60,0 9± 4,09 (1)tae 41,87 ± 5,88 (3) 40,39 ± 8,01 (4) 42,67 ± 9,91 (1) 42,51 ± 6,31 (2)wine 91,67 ± 4,18 (2) 93,03 ± 3,47 (1) 91,24 ± 2,53 (3) 90,34 ± 3,19 (4)hab 72,35 ± 1,27 (3) 71,57 ± 3,83 (4) 72,48 ± 2,23 (2) 73,27 ± 1,55 (1)iono 83,82 ± 5,36 (3) 83,48 ± 5,39 (4) 86,15 ± 2,88 (1) 86,15 ± 3,93 (1)heart 75,26 ± 3,92 (3) 75,78 ± 1,60 (2) 76,74 ± 2,52 (1) 75,11 ± 4,05 (4)bupa 58,15 ± 2,93 (2) 58,38 ± 5,01 (1) 57,97 ± 2,95 (3) 57,86 ± 3,30 (4)pima 71,35 ± 2,65 (1) 71,04 ± 1,94 (2) 69,58 ± 4,04 (4) 69,87 ± 2,41 (3)sonar 66,15 ± 5,38 (2) 59,71 ± 8,93 (4) 64,04 ± 6,59 (3) 71,06 ± 5,60 (1)ecoli 63,99 ± 4,87 (1) 59,40 ± 10,6 (4) 62,56 ± 8,71 (2) 61,85 ± 10,4 (3)mean 2,27 ± 0,79 2,91 ± 1,30 2,45 ± 1,13 2,27 ± 1,35

4.5.2 Umetne množice

Metodo smo preizkusili na umetnih množicah z znanimi močnimi pogojnimiodvisnostmi med atributi. Množice so pridobljene iz članka [46] in so iste kot vrazdelku 3.2.3.

Tabela 4.6 prikazuje dobljene klasifikacijske točnosti na umetnih množicah. Me-toda Ant-Miner+ je tukaj odpovedala, ker je prišlo do izgube informacije priuporabi metode Fayyad-Irani za diskretizacijo. Na množicah xor, chess in xorCrossmetoda ProAnt-Miner dosega nižje klasifikacijske točnosti od metod nAnt-Miner,RIPPER in FURIA. Razlog za to je v tem, da metoda ProAnt-Miner gradi ver-jetnostna oz. Gaussovska pravila, ki so elipsne oblike, kot je prikazano na sliki


4.3 in zaradi tega zelo težko dobi stroge meje, kot jih imajo vse te tri množice.Na množici modGroups metoda ProAnt-Miner deluje najboljše, ker nima težav sstrogimi ravnimi mejami, čeprav ima ta množica več razredov in močno pogojnoodvisnost med atributi. Ker ima FURIA trapezoidno obliko mehkih pravil se tapravila lažje prilegajo umetnim množicam.

Tabela 4.6Klasifikacijske točnosti na umetnih množicah z močno pogojno odvisnostjo med atributi.

Metoda ProAnt nAM AM+

xor 82,40 ± 8,88 96,80 ± 1,93 51,40 ± 6,23chess 51,00 ± 5,83 58,20 ± 7,15 47,70 ± 5,37modGroup 65,40 ± 14,8 65,20 ± 9,85 31,40 ± 1,95xorCross 58,00 ± 7,42 89,00 ± 8,12 47,70 ± 5,37

Metoda RIPPER FURIAxor 88,90 ± 3,11 98,00 ± 0,71chess 60,60 ± 2,07 55,8 ± 3,77modGroup 42,40 ± 10,90 37,40 ± 9,84xorCross 84,40 ± 10,92 89,80 ± 0,45

4.5.3 Medicinska domena

Metodo smo preizkušali še na realni podatkovni množici syncope, kot v poglavju3.2.4. Test smo opravili na dveh različicah podatkov. Prvega smo poimenovalisyncope123 in vsebuje le meritve prvih 15 minut testa. Drugi test syncope vsebujevse meritve. Vsi testi so bili pognani s privzetimi nastavitvami metod.

Tabela 4.7 prikazuje rezultate klasifikacijske točnosti. Vidimo, da metoda Ant-Miner+ dobi dobre rezultate pri obeh množicah. Zanimivo je, da so vse trimetode, zasnovane na osnovi kolonije mravelj, ProAnt-Miner, nAnt-Miner in Ant-Miner+ boljše od preostalih metod na množici syncope123, na množici syncope zveč atributi pa dosegajo slabšo klasifikacijsko točnost. Izjema je Ant-Miner+, kitudi tukaj dosega visoko klasifikacijsko točnost. Število pravil pri metodi ProAnt-Miner je visoko, vendar kot je opisano v razdelku 4.5.4, ni vedno treba, dauporabimo vsa pravila, saj velikokrat že nekaj prvih pravil zadošča za klasifikacijoin je to število potrebno naknadno določiti za boljše rezultate. Razvidno je tudi,


da z upoštevanjem optimalnega števila pravil metoda ProAnt-Miner dosega boljšerezultate od predstavljenih v tem poglavju. Čas izvajanja metode ProAnt-Minerje tudi manjši v primerjavi z nAnt-Miner, predvsem, ker ima manjši preiskovalnigraf, saj so pri tej metodi zvezni atributi predstavljeni z le enim vozliščem.

Tabela 4.7Klasifikacijske točnosti na medicinski domeni.


syncope123 47,98 ± 7,17 47,13 ± 6,27 53,78 ± 17,0syncope 53,93 ± 8,51 50,74 ± 7,65 64,25 ± 10,6

Metoda RIPPER FURIA RFsyncope123 40,64 ± 5,81 43,01 ± 5,99 44,96 ± 2,45syncope 62,58 ± 2,33 61,08 ± 2,45 65,16 ± 2,10

Tabela 4.8Velikost pravil na medicinski domeni. Podana je vrednost S, ki je zmnožek števila pravil in povprečnega številačlenov na pravilo.

Metoda ProAnt nAM AM+ RIPPER FURIA

syncope123 16,8 8,55 1,00 1,6 9,2syncope 12,5 8,46 6,21 3,2 16

Tabela 4.9Čas izvajanja metod za 5 × 2 prečno preverjanje v sekundah.


syncope123 31 53 <1syncope 33 315 22

Metoda RIPPER FURIA RFsyncope123 <1 <1 <1syncope <1 <1 <1


4.5.4 Vpliv velikosti seznama pravil

ProAnt-Miner rudari verjetnostna pravila, dokler ne pokrije dovolj učnih primerov.Če algoritem ustavimo prezgodaj, ne dobimo dovolj pravil za visoko klasifikacijskotočnost. Če algoritem pustimo, da zgradi velik seznam pravil, v večini primerovpovečamo točnost, vendar je velik seznam pravil nerazumljiv. V tem razdelkusmo opazovali klasifikacijsko točnost na množicah iris, balance in syncopa glede navelikost dobljenega seznama pravil. Parametre metode smo nastavili na α = 0, 05,število mravelj = 5, λ = 1 in minCoverage = 1. Parameter minCoverage = 1zagotavlja, da bomo dobili velik seznam pravil. Za to testiranje smo množicerazdelili na dve polovici, prvo polovico smo uporabili za učenje, drugo pa zatestiranje. Slike 4.5-4.7 prikazujejo rezultate za en zagon algoritma.

Vidimo, da metoda že z nizkim številom pravil doseže visoko klasifikacijskotočnost. Le-ta z dodajanjem pravil ostane več ali manj enaka oziroma v zadnjemprimeru celo pade. To pomeni, da lahko naknadno dobljeni seznam odrežemo ins tem povečamo klasifikacijsko točnost. To mejo bi lahko avtomatsko določili zinternim prečnim preverjanjem ali z uporabo validacijske množice.

Na naslednji strani je podan primer začetka dobljenega seznama. V tem primeruimajo vsa pravila v seznamu samo en člen. Prvi člen prvega pravila petallength =N(1, 40, 0, 51), nam pove, da primeri z vrednostjo petallength blizu 1,4 pripadajorazredu setosa. Standardni odklon 0,51, nam pove, kako velikim odmikom od 1,4še lahko zaupamo. Podobno za razred versicolor velja, da morajo biti vrednostipetalwidth blizu 1,18, vendar ker je v tem primeru standardni odklon 0,18, morajobiti vrednosti bližje. Vidimo, da so vsa pravila sestavljena tako, da vrednostipetalwidth nad 1,7 napovedujejo razred virginica, vrednosti pod 1,7 pa razredversicolor. Bolj kot se vrednost atributa petalwidth v členih pravil bliža vrednosti1,7, manjši je standardni pripadajoči odklon, kar nakazuje, da so napovedi blizu


vrednosti 1,7 manj zaupljive.

IF petallength=N(1, 40, 0, 51) THEN setosa

IF petalwidth=N(1, 18, 0, 18) THEN versicolor

IF petalwidth=N(2, 10, 0, 15) THEN virginica





...

Slika 4.5Klasifikacijska točnostglede na velikost sezna-ma pravil na množiciiris.


Slika 4.6Klasifikacijska točnostglede na velikost sezna-ma pravil na množicibalance.

Slika 4.7Klasifikacijska točnostglede na velikost sezna-ma pravil na množicisyncope.

4.5.5 Zaključek

Rezultati v razdelku 4.5.1 so pokazali, da je metoda ProAnt-Miner primerljiva zostalimi metodami za iskanje pravil. Razvidno je, da je parametra število mravelj inλ (faktor za množenje Gaussovskih krivulj) treba prilagajati vsaki množici posebej,če želimo dobiti dobre rezultate. Paziti je treba tudi na velikost seznama pravilin ga prilagajati podatkovni množici. Z uporabo pazljivo izbranih parametrov jerezultate torej mogoče izboljšati. Nadaljnje delo je zato v avtomatskem iskanjunajboljših parametrov, na primer z uporabo množice za ovrednotenje (evalvationset). Razdelek 4.5.2 pokaže na slabost metode ProAnt-Miner, da ne išče ostrihoziroma pravokotnih mej v podatkih, kar bi bila možna razširitev metode. Prednostmetode je v tem, da za klasifikacijo zadostuje že nekaj prvih dobljenih pravil in


lahko seznam pravil na koncu porežemo, da je bolj razumljiv.

5

Zaključek


V tem poglavju najprej povzamemo narejeno delo in nato podamo ideje za nadalj-nje delo.V disertaciji opišemo razvoj dveh metod za učenje klasifikacijskih pravil na pod-

lagi optimizacije s kolonijo mravelj, in sicer nAnt-Miner in ProAnt. MetodanAnt-Miner je primerna za učenje v domenah s številskimi atributi, kadar imamona voljo dovolj učnih primerov in sumimo, da so v podatkih močne pogojneodvisnosti med atributi, kar smo pokazali v razdelku 3.2.3. Za zaznavo nekaterihpogojnih odvisnosti, kot je v množici bal, bi metoda potrebovala več učnih prime-rov, kot je razvidno iz članka [7], kjer je za učenje uporabljenih 90 odstotkov učnihprimerov in so zato rezultati na tej množici primerljivi z metodo Ant-Miner+. Vvseh testih je metoda nAnt-Miner uporabljala 10 odstotkov učne množice za vali-dacijsko množico. To bi lahko na majhnih množicah za boljše rezultate odstranili.Ker metoda nAnt-Miner uporablja kolonijo mravelj za iskanje pravil, je počasnejšaod metod, ki tega pristopa ne uporabljajo. Vrednotenje metod v razdelku 3.2.1kaže, da lahko predvsem s parametrom za nastavitev meje konvergence dosežemoboljše rezultate na račun daljšega časa izvajanja.Metoda ProAnt se po klasifikacijski točnosti statistično ne razlikuje od metod

FURIA in RIPPER, ki sta vodilni metodi za iskanje pravil. Metoda ProAnt-Minerišče verjetnostna pravila, ki jih, pomnožene s parameterom λ, lahko interpretiramopodobno kot mehka pravila pri metodi FURIA. Vrednotenje metode na umetnihmnožicah v razdelku 4.5.2 je pokazalo, da ima metoda težave z določanjem ostrihin ravnih mej. Ovrednotenje metode v razdelkih 4.5.1 in 4.5.4 pa kaže, da jemetodo treba prilagajati vsaki množici posebej, predvsem število mravelj, parameterλ in število uporabljenih pravil za klasifikacijo. Prednost metode ProAnt-Minerpred metodo nAnt-Miner je tudi v času izvajanja in porabljenem pomnilniku zadelovanje, ker si metoda ProAnt-Miner številske atribute predstavi z distribucijoferomonov in ima zato veliko manj povezav v grafu preiskovanja. Ta težava je primetodi nAnt-Miner privedla do uporabe dinamičnega grafa preiskovanja.Iz dobljenih rezultatov sledi, da je kot nadaljnje delo potrebno avtomatsko

določanje parametrov metode ProAnt-Miner in razširitev metode, da bo iskalatako verjetnostna pravila kot ostra pravila na številskih atributih. Prvi del lahkorealiziramo podobno, kot so opisali avtorji Pellegrini in sodelavci [41].

Pri iskanju pravil s kolonijo mravelj ima na dobljena pravila velik vpliv tudimera za ocenjevanje pravil. Smiselno je preizkusiti uporabo drugih mer za izra-

Zaključek 77

čun kakovosti pravil oziroma konstruirati primerno oceno kakovosti pravil za tometodo, podobno kot Medland in Otero [29].

Glede na to, da so verjetnostna pravila s porezano normalno obliko podob-na trapezoidnim mehkim intervalom, je smiselno pretvoriti verjetnostna pravila vmehka pravila in sistem preizkusiti za rudarjenje mehkih pravil.Metoda ProAnt-Miner pri klasificiranju upošteva vsa pravila hkrati. Glede na to

bi lahko algoritem zagnali večkrat s spremenjenimi parametri in dobili ansambelpravil. Pri nadaljnjem delu bomo skušali metodo verjetnostnih pravil razširiti vansambel in tako izboljšati klasifikacijsko točnost na račun razumljivosti.Metodi sta bili razviti z namenom praktične uporabe na farmacevtskih podatkih

oziroma tam, kjer med atributi verjetno obstajajo odvisnosti, obenem pa želimorazumljiv opis. Takšen primer so stranski učinki jemanja več vrst zdravil.

LITERATURA

[1] Otero FE, Freitas AA, Johnson CG (2008)cAnt-Miner: An ant colony classificationalgorithm to cope with continuous attribu-tes in International Conference on Ant Co-lony Optimization and Swarm Intelligence.doi: 10.1007/978-3-540-87527-7_5.

[2] Martens D et al. (2007) Classification wi-th ant colony optimization. IEEE Tran-sactions on Evolutionary Computationdoi: 10.1109/TEVC.2006.890229.

[3] Fayyad U, Irani K (1993) Multi-interval discre-tization of continuous-valued attributes forclassification learning in Proceedings of the 13thInternational Joint Conference on ArtificialIntelligence. pp. 1022–1029.

[4] Hühn J, Hüllermeier E (2009) FURIA: analgorithm for unordered fuzzy rule inducti-on. Data Mining and Knowledge Discoverydoi: 10.1007/s10618-009-0131-8.

[5] CohenWW (1995) Fast effective rule inductioninMachine Learning Proceedings. pp. 115–123.

[6] Dorigo M, Caro GD, Gambardella LM (1999)Ant algorithms for discrete optimization. Arti-ficial life doi: 10.1162/106454699568728.

[7] Pičulin M, Robnik-Šikonja M (2014) Han-dling numeric attributes with ant colonybased classifier for medical decision ma-king. Expert systems with applicationsdoi: 10.1016/j.eswa.2014.06.017.

[8] Kononenko I, Kukar M (2007)Machine lear-ning and data mining: Introduction to princi-ples and algorithms. (Horwood Publishing).

[9] Fürnkranz J, Gamberger D, Lavrač N (2012)Foundations of rule learning. (Springer).

[10] Clark P, Niblett T (1989)The CN2 in-duction algorithm. Machine learningdoi: 10.1023/A:1022641700528.

[11] Hühn JC, Hüllermeier E (2010) An analysis ofthe FURIA algorithm for fuzzy rule inductionin Proceedings of Advances in machine learningI. doi: 10.1007/978-3-642-05177-7_16.

[12] Michalski RS (1969) On the quasi-minimalsolution of the general covering problem in Pro-ceedings of the Fifth International Symposiumon Information Processing. pp. 125–128.

[13] Bagallo G, Haussler D (1990) Boolean feature di-scovery in empirical learning. Machine learningdoi: 10.1007/bf00115895.

[14] Cendrowska J (1987) PRISM: An algorithm forinducing modular rules. International Journalof Man-Machine Studies 27(4):349–370.

[15] Quinlan JR (1983) Learning efficient classifica-tion procedures and their application to chessend games inMachine learning: An artificialintelligence approach. pp. 463–482.

[16] Quinlan JR (1990) Learning logical defini-tions from relations. Machine learningdoi: 10.1007/BF00117105.

[17] Quinlan JR (1993) C4.5: programs for machinelearning. (Morgan Kaufmann Publishers Inc.).

[18] Stützle T, Hoos HH (2000) MAX-MIN antsystem. Future generation computer systemsdoi: 10.1016/S0167-739X(00)00043-1.

79

http://dx.doi.org/10.1007/978-3-540-87527-7_5

http://dx.doi.org/10.1109/TEVC.2006.890229

http://dx.doi.org/10.1007/s10618-009-0131-8

http://dx.doi.org/10.1162/106454699568728

http://dx.doi.org/10.1016/j.eswa.2014.06.017

http://dx.doi.org/10.1023/A:1022641700528

http://dx.doi.org/10.1007/978-3-642-05177-7_16

http://dx.doi.org/10.1007/bf00115895

http://dx.doi.org/10.1007/BF00117105

http://dx.doi.org/10.1016/S0167-739X(00)00043-1


[19] Dorigo M, Di Caro G (1999) Ant colony optimi-zation: A new meta-heuristic in Proceedings ofthe 1999 Congress on Evolutionary Computation.Vol. 2, doi: 10.1109/CEC.1999.782657.

[20] Parpinelli RS, Lopes HS, Freitas AA (2002) Da-ta mining with an ant colony optimizationalgorithm. IEEE transactions on evolutionarycomputation doi: 10.1109/TEVC.2002.802452.

[21] Wang Z, Feng B (2004) Classification rule mi-ning with an improved ant colony algorithmin AI 2004: Advances in Artificial Intelligence.doi: 10.1007/978-3-540-30549-1_32.

[22] Liu B, Abbas HA, McKay B (2003) Classifi-cation rule discovery with ant colony op-timization in IEEE/WIC InternationalConference on Intelligent Agent Technology.doi: 10.1109/iat.2003.1241052.

[23] Fürnkranz J (1999) Separate-and-conquer ru-le learning. Artificial Intelligence Reviewdoi: 10.1023/A:1006524209794.

[24] Dorigo M, Maniezzo V, Colorni A (1996) Antsystem: optimization by a colony of coopera-ting agents. IEEE Transactions on Systems,Man and Cybernetics, Part B (Cybernetics)doi: 10.1109/3477.484436.

[25] Yildirim UM, Çatay B (2012) A time-basedpheromone approach for the ant system. Opti-mization Letters doi: 10.1007/s11590-012-0451-2.

[26] Cordón O, de Viana IF, Herrera F (2002) Ana-lysis of the best-worst ant system and its vari-ants on the QAP in International Workshop onAnt Algorithms. doi: 10.1007/3-540-45724-0_20.

[27] Salama KM, Abdelbar AM (2010) Extensions tothe Ant-Miner classification rule discovery al-gorithm in International Conference on SwarmIntelligence. doi: 10.1007/978-3-642-15461-4_15.

[28] Chan A, Freitas A (2005) A new classification-rule pruning procedure for an ant colonyalgorithm in International Conference onArtificial Evolution (Evolution Artificielle).doi: 10.1007/11740698_3.

[29] Medland M, Otero F (2012) A study of di-fferent quality evaluation functions in thecAnt-Miner(PB) classification algorithmin Proceedings of the 14th annual conferen-ce on Genetic and evolutionary computation.doi: 10.1145/2330163.2330171.

[30] Liu B, Abbass HA, McKay B (2002) Density-based heuristic for rule discovery with Ant-Miner inThe 6th Australia-Japan joint wor-kshop on intelligent and evolutionary system.Vol. 184, pp. 180–184.

[31] Baig AR, Shahzad W (2012) A correlation-based Ant Miner for classification rule disco-very. Neural Computing and Applicationsdoi: 10.1007/s00521-010-0490-5.

[32] Otero FE, Freitas AA, Johnson CG (2009)Handling continuous attributes in ant colonyclassification algorithms in IEEE Symposium onComputational Intelligence and Data Mining.doi: 10.1109/cidm.2009.4938653.

[33] Otero FE, Freitas AA, Johnson CG (2013) A newsequential covering strategy for inducing classi-fication rules with ant colony algorithms. IEEETransactions on Evolutionary Computationdoi: 10.1109/tevc.2012.2185846.

[34] López-Ibáñez M, Stützle T (2012) Anexperimental analysis of design choicesof multi-objective ant colony optimiza-tion algorithms. Swarm Intelligencedoi: 10.1007/s11721-012-0070-7.

[35] Said N, Hammami M, Ghedira K (2011)MulO-AntMiner: A new ant colony algo-rithm for the multi-objective classificati-on problem in International Conference onComputational Science and Its Applications.doi: 10.1007/978-3-642-21887-3_45.

[36] Otero FE, Freitas AA, Johnson CG (2009) Ahierarchical classification ant colony algorithmfor predicting gene ontology terms in Europe-an Conference on Evolutionary Computation,Machine Learning and Data Mining in Bioin-formatics. doi: 10.1007/978-3-642-01184-9_7.

[37] Aribarg T, Supratid S, Lursinsap C (2012) Op-timizing the modified fuzzy Ant-Miner forefficient medical diagnosis. Applied Intelligencedoi: 10.1007/s10489-011-0332-x.

http://dx.doi.org/10.1109/CEC.1999.782657

http://dx.doi.org/10.1109/TEVC.2002.802452

http://dx.doi.org/10.1007/978-3-540-30549-1_32

http://dx.doi.org/10.1109/iat.2003.1241052

http://dx.doi.org/10.1023/A:1006524209794

http://dx.doi.org/10.1109/3477.484436

http://dx.doi.org/10.1007/s11590-012-0451-2

http://dx.doi.org/10.1007/3-540-45724-0_20

http://dx.doi.org/10.1007/3-540-45724-0_20

http://dx.doi.org/10.1007/978-3-642-15461-4_15

http://dx.doi.org/10.1007/11740698_3

http://dx.doi.org/10.1145/2330163.2330171

http://dx.doi.org/10.1007/s00521-010-0490-5

http://dx.doi.org/10.1109/cidm.2009.4938653

http://dx.doi.org/10.1109/tevc.2012.2185846

http://dx.doi.org/10.1007/s11721-012-0070-7

http://dx.doi.org/10.1007/978-3-642-21887-3_45

http://dx.doi.org/10.1007/978-3-642-01184-9_7

http://dx.doi.org/10.1007/s10489-011-0332-x

Literatura 81

[38] Bounhas M, Prade H, Serrurier M, Mellou-li K (2012) A possibilistic rule-based clas-sifier in International Conference on In-formation Processing and Management ofUncertainty in Knowledge-Based Systems.doi: 10.1007/978-3-642-31709-5_3.

[39] McGarry KJ, Tait J, Wermter S, MacIntyre J(1999) Rule-extraction from radial basis functi-on networks in Proceedings of the 9th Internati-onal Conference on Artificial Neural Networks.Vol. 2, doi: 10.1049/cp:19991178.

[40] Tresp V, Hollatz J, Ahmad S (1997) Repre-senting probabilistic rules with networks ofgaussian basis functions. Machine Learningdoi: 10.1023/A:1007381408604.

[41] Pellegrini P, Stützle T, Birattari M (2012) Acritical analysis of parameter adaptation inant colony optimization. Swarm Intelligencedoi: 10.1007/s11721-011-0061-0.

[42] Asuncion A, Newman D (2010) UCI machine le-arning repository (http://archive.ics.uci.edu/ml).

[43] Demšar J (2006) Statistical comparisons ofclassifiers over multiple data sets. Journal ofMachine learning research 7(1):1–30.

[44] Hall M et al. (2009)TheWEKA data miningsoftware: An update. SIGKDD explorationsnewsletter doi: 10.1145/1656274.1656278.

[45] Demšar J et al. (2013) Orange: data miningtoolbox in Python. The Journal of MachineLearning Research 14(1):2349–2353.

[46] Robnik-Šikonja M, Kononenko I (2008) Expla-ining classifications for individual instances.IEEE Transactions on Knowledge and DataEngineering doi: 10.1109/tkde.2007.190734.

[47] Breiman L (2001) Random forests. Machinelearning doi: 10.1023/A:1010933404324.

http://dx.doi.org/10.1007/978-3-642-31709-5_3

http://dx.doi.org/10.1049/cp:19991178

http://dx.doi.org/10.1023/A:1007381408604

http://dx.doi.org/10.1007/s11721-011-0061-0

http://archive.ics.uci.edu/ml

http://dx.doi.org/10.1145/1656274.1656278

http://dx.doi.org/10.1109/tkde.2007.190734

http://dx.doi.org/10.1023/A:1010933404324

Learning decision rules with evolutionary optimizationeprints.fri.uni-lj.si/4297/1/63030182-MATEJ... · pokrije prvi, drugi in šesti primer iz tabele ter napoveduje razred Kredit

Documents