Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Random Forests - Véletlen erdok

Szabó AdriennAdatbányászat és Webes Keresés Kutatócsoport

2010

sztaki-logo


TartalomFo forrás: Leo Breiman: Random Forests

Machine Learning, 45, 5-32, 2001Alapok

Döntési faVéletlen erdok

Véletlen erdok építéseNem formálisanFormálisanVéletlen erdo típusok

A véletlen erdok jó tulajdonságaiBelso becslések

KiértékelésKlasszifikációTovábbi eredményekRegresszió

sztaki-logo


Amibol építkezni fogunk: döntési faAz egyes attribútumok értékei alapján a mintákathierarchikusan csoportosítjuk. A levelek: osztálycímkék.

ID Gyártás helye Kor Motor Szín ccm Jól eladható?

1 Németo. 3-6 dízel fehér 1300-1600 igen

2 Japán 6-10 dízel piros 1600 felett igen

3 Japán 3-6 dízel piros 1300-1600 nem

sztaki-logo


Döntési fa

• A jó döntési fa: példákkal konzisztens, minél tömörebb(leheto legkevesebb teszttel döntésre jussunk)

Hogyan építsük fel?• Legegyszerubb az ID3 algoritmus:

a gyökértol kezdve építjük a fát, mohó módon mindig úgyválasszunk döntési attribútumot egy csúcspontban, hogyaz információnyereség ( IG(S,a) = H(S)− H(S|a) )maximális legyen

• Továbbfejlesztés: Information Gain helyett Gain Ratio, aminem súlyozza túl azokat az attribútumokat amik sokkülönbözo értéket felvehetnek

sztaki-logo


Döntési fa





sztaki-logo


Döntési fa





sztaki-logo


Döntési fa





sztaki-logo


Mik a véletlen erdok?

• Alapötlet: sok döntési fa, amik valamennyire különbözoek• Mindegyik tippel majd valamit, a szavazás

végeredményeként a leggykoribb választ fogadjuk el

Az erdo hatékonysága a következokön múlik:• generált fák számán (ált. ha több fa szavaz, javul az

eredmény) és minoségén• generált fák közötti korreláción (ha no a fák közötti

korreláció, az eredmény romlik)

sztaki-logo


Mik a véletlen erdok?

• Alapötlet: sok döntési fa, amik valamennyire különbözoek• Mindegyik tippel majd valamit, a szavazás

végeredményeként a leggykoribb választ fogadjuk el

Az erdo hatékonysága a következokön múlik:• generált fák számán (ált. ha több fa szavaz, javul az

eredmény) és minoségén• generált fák közötti korreláción (ha no a fák közötti

korreláció, az eredmény romlik)

sztaki-logo


Random forest elonyei

• Jó eredmények (pontos klasszifikáció)• Gyorsan lefut, nagy adatokra is használható• Több ezres dimenziójú bemenetet is képes kezelni• Becsléseket ad arra hogy mely változók fontosak• Hiányzó adatokat képes megbecsülni• Használható regresszióra; kis kiterjesztéssel

klaszterezésre vagy outlier-szurésre is

sztaki-logo


Véletlen erdo építése

Breiman módszere:

• Képezünk K döntési fát úgy, hogy bootstrapping-gal(visszatevéses sorsolás, N-bol N-et sorsolunk) külön-különtanuló adathalmazt készítünk hozzájuk

• Az egyes fák építésekor a csomópontokban az attribútumválasztáskor a lehetséges attribútumhalmazt megszorítjukegy jóval kisebb méreture véletlenszeru választással.(Utána a max. IG-t vesszük)

• Nyesést nem alkalmazunk a fákon

sztaki-logo



Breiman módszere:




sztaki-logo



Breiman módszere:




sztaki-logo



Breiman módszere:




sztaki-logo



sztaki-logo


Véletlen erdok építése

Az egyes fák egyes csúcsainál véletlenszeruen sorsoltattribútumokól választhatjuk csak ki a döntési attribútumot.

sztaki-logo


Formális definíció

Véletlen erdonek nevezzük azt az osztályozót amely döntésifák {h(x, θk ), k = 1, . . .K } halmazából áll ahol a {θk }-kfüggetlen, azonos eloszlású random vektorok, és a fák többségiszavazással döntenek (minden fa egy-egy szavazatot adhat leegy-egy osztályozandó vektorra).

Tétel: A fák számának növelésével a klasszifikáció minoségekonvergál (nem lesz túltanulás).

Bizonyítás: Nagy számok eros törvénye segítségével.

sztaki-logo



Véletlen erdonek nevezzük azt az osztályozót amely döntésifák {h(x, θk ), k = 1, . . .K } halmazából áll ahol a {θk }-kfüggetlen, azonos eloszlású random vektorok, és a fák többségiszavazással döntenek (minden fa egy-egy szavazatot adhat leegy-egy osztályozandó vektorra).

Tétel: A fák számának növelésével a klasszifikáció minoségekonvergál (nem lesz túltanulás).

Bizonyítás: Nagy számok eros törvénye segítségével.

sztaki-logo



Margin: minél nagyobb, annál biztosabb az eredmény; hanegatív akkor hibázott az erdo:

mg(X,Y ) = avgk I(hk (X) = Y )−maxj 6=Y

(avgk I(hk (X) = j))

(X: a bemeneti vektorok, Y : a hozzájuk tartozó osztályok)

A döntési fák általánosítási hibája (generalization error):

PE = PX,Y (mg(X,Y ) < 0)

sztaki-logo



Margin: minél nagyobb, annál biztosabb az eredmény; hanegatív akkor hibázott az erdo:

mg(X,Y ) = avgk I(hk (X) = Y )−maxj 6=Y

(avgk I(hk (X) = j))

(X: a bemeneti vektorok, Y : a hozzájuk tartozó osztályok)

A döntési fák általánosítási hibája (generalization error):

PE = PX,Y (mg(X,Y ) < 0)

sztaki-logo


A fák ereje és korrelációja

Felso korlát adható a véletlen erdo általánosítási hibájára, amikét dologtól függ:• az egyes klasszifikátorok (döntési fák) pontosságától• a fák közötti korrelációtól

PE ≤ ρ(1− s2)/s2

ahol ρ az átlagos korreláció a fák között, és s a h(x, θ)klasszifikátorhalmaz ereje: s = EX,Y mg(X,Y )

sztaki-logo


A fák ereje és korrelációja

Felso korlát adható a véletlen erdo általánosítási hibájára, amikét dologtól függ:• az egyes klasszifikátorok (döntési fák) pontosságától• a fák közötti korrelációtól

PE ≤ ρ(1− s2)/s2

ahol ρ az átlagos korreláció a fák között, és s a h(x, θ)klasszifikátorhalmaz ereje: s = EX,Y mg(X,Y )

sztaki-logo


Véletlen erdo típusok

• Egyszeru bagging: lehetne belül más klasszifikátor is, dedöntési fa van

• Random Split Selection: faépítésnél mindig a legjobb Bválozóból választunk egyet véletlenszeruen

• Random Subspace: minden fát egy-egy rögzített,véletlenül választott attribútumhalmaz alapján építünk fel

• Breiman módszere: a fent bemutatott (bagging + randomm változóból a legjobb választása a facsúcsoknál, aholm << M, ahol M az attribútumok száma; általábanm < log2 M)

sztaki-logo







sztaki-logo







sztaki-logo







sztaki-logo


„Out-of-bag” becslések

• A bagging alkalmazásának elonyei: a pontosságot növeli,szórást csökkenti

• Minden fánál a tanítómintából kihagyott értékekre („out-ofbag” vagy „OOB” értékek, ált. kb. a minták egyharmada)jóslatokat kérhetünk

• Az eredményeket átlagolva elég pontosan becsülheto azerdo hibája (PE), és a fák közötti korreláció is

• Kb olyan pontos becsléseket kapunk a jóságra mintha egytanítóhalmaz méretu teszthalmazunk lenne1

• Ezért nem kell Cross Validation-t alkalmazni

1Breiman egy korábbi cikkének empirikus eredménye, akkor igaz ha Kelég nagy (a hiba már konvergált).

sztaki-logo









sztaki-logo









sztaki-logo









sztaki-logo









sztaki-logo


Fontos változók (Feature selection)

Egy v bemeno attribútum (feature) fontossága így becsülheto:• Minden fát szavaztassunk meg a hozzá tartozó „OOB”

bemenetekre• Jegyezzük meg a helyes válaszok arányát• Permutáluk meg az „OOB” halmazon belül a v változó

értékeit, és így is kérjünk jóslatokat a fától• A helyes válaszok aránya mennyivel csökkent?• Ezt átlagoljuk az összes fára =⇒ v fontossági értéke

Nagyon sok bemeneti változó esetén eloször kiválaszthatjuk ajobbakat, aztán csak ezeket használva új, hatékonyabb erdotépíthetünk.

sztaki-logo







sztaki-logo







sztaki-logo







sztaki-logo







sztaki-logo







sztaki-logo







sztaki-logo


A bemeneti vektorok hasonlóságának becslése

Mire is jó ez?• Outlier-szurés: Az összes többitol nagyon különbözo

tanítóminták zajnak tekinthetok (pl. elrontott mérés), jobbha kidobjuk ezeket. Akár osztályonként is szurhetjük oket.

• Klaszterezés: A minták közti hasonlóság alapjánklaszterezést is végezhetünk.

Hogyan?• Minden bemenet-párra vegyük azon fáknak az arányát

amikre ugyanabban a levélben ér véget a hozzájuk tartozódöntési folyamat. „Proximity”: si,j

• „Dissimilarity”: di,j =√

1− si,j

sztaki-logo









1− si,j

sztaki-logo









1− si,j

sztaki-logo









1− si,j

sztaki-logo









1− si,j

sztaki-logo









1− si,j

sztaki-logo


Hiányzó adatok kitöltése

Iteratívan becsülhetjük a tanítóhalmaz hiányzó értékeit:

• Elso közelítés: vegyük a hiányzó attribútum átlagát (ill.leggyakoribb értékét) a többi soron, és ezt helyettesítsükbe

• Az így kiegészített adatokkal építsünk erdot• Minden i adatsorhoz amiben f hiányzott, vegyük az összes

(nem-f -hiányos j sorral páronként vett hasonlóságait (si,j )• Az új becslés: si,j súlyokkal átlagoljuk a j-kben talált

f -értékeket, ezt tegyük if -be• Ezt iterálhatjuk (új erdo építése, stb.) amíg már nem

változnak az értékek (általában 4-6 kör elég)

sztaki-logo









sztaki-logo









sztaki-logo









sztaki-logo









sztaki-logo









sztaki-logo



sztaki-logo


A kiértékeléshez használt adathalmazok

Data set Train size Test size Dimension Classes

Letters 15000 5000 16 26

Sat-images 4435 2000 36 6

Zip-code 7292 2007 256 10

Waveform 300 3000 21 3

Twonorm 300 3000 20 2

Threenorm 300 3000 20 2

Ringnorm 300 3000 20 2

sztaki-logo


Eredmények (hibaszázalékok)

Data set Adaboost Forest-RI2 Forest-RI3 One tree

Letters 3.4 3.5 4.7 19.8

Sat-images 8.8 8.6 10.5 17.2

Zip-code 6.2 6.3 7.8 20.6

Waveform 17.8 17.2 17.3 34.0

Twonorm 4.9 ? 3.9 24.7

Threenorm 18.8 ? 17.5 38.4

Ringnorm 6.9 ? 4.9 25.7

Forest-RI (Random Input selection): Véletlen erdo, véletlen attribútum választással.Fák száma: K = 100 (kivéve Zip-code: K = 200)AdaBoost iterációk száma: 50 (kivéve Zip-code: 100)

2m = log2 M3m = 1

sztaki-logo


Eredmények (hibaszázalékok)

Data set Adaboost Forest-RC4 Forest-RC5 One tree

Letters 3.4 3.4 4.1 23.8

Sat-images 8.8 9.1 10.2 17.3

Zip-code 6.2 6.2 7.2 22.7

Waveform 17.8 16.0 16.1 33.2

Twonorm 4.9 3.8 3.9 20.9

Threenorm 18.8 16.8 16.9 34.8

Ringnorm 6.9 4.8 4.6 24.6

Forest-RC: bemenetek lineáris kombinációival épített erdo.Összekombinált változók száma: 3

4m = 85m = 2

sztaki-logo


A korreláció és jóslóero változása m növelésével

sztaki-logo


A hiba változása m növelésével

sztaki-logo


Zaj tolerancia

A véletlen erdok sokkal jobban tolerálják a zajt mint az AdaBoost.Amikor az AdaBoost elrontja (vagyis valójában jól klasszfikálná) azaj-bementeteket akkor növekvo súllyal kerül a tanítóhalmazba ahibás adat, és ez eltozítja a végso eredményt is.5%-os osztálycímke-permutáció után a hibák növekedése (%):

Data set Adaboost Forest-RI Forest-RC

Breast cancer 43.2 1.8 11.1

Diabetes 6.8 1.7 2.8

Sonar 15.1 -6.6 4.2

Ionosphere 27.7 3.8 5.7

Soybean 26.9 3.2 8.5

Ecoli 7.5 7.9 7.8

Liver 10.3 -0.2 4.8

sztaki-logo


Regresszió

A döntési fák képesek regresszióra is – ekkor mindenelágazásnál az alapján határozzuk meg a döntési attrubútumotés vágási határt, hogy a két új halmazon belül a jóslandó értékszórásnégyzetei minimálisak legyenek.

Data set Train size Test size Dimension

Boston Housing 506 10% 12

Ozone 330 10% 8

Abalone 4177 25% 8

Robot Arm 15000 5000 12

Friedman#1 200 2000 10

Friedman#2 200 2000 4

Friedman#3 200 2000 4

sztaki-logo


Regresszió eredményeiErdok paraméterei: 100 fa, m = 25, random lineáriskombinációi 2 bemenetnek.Megfigyelések: a fák közti korreláció itt lassababn no mnövelésével.

Mean squared test set errors

Data set Bagging Adapt. bag. Forest

Boston Housing 11.4 9.7 10.2

Ozone 17.8 17.8 16.3

Abalone 4.9 4.9 4.6

Robot Arm 4.7 2.8 4.2

Friedman#1 6.3 4.1 5.7

Friedman#2 21.5 21.5 19.6

Friedman#3 24.8 24.8 21.6

sztaki-logo


Összefoglalás

A véletlen erdok hatékony klasszifikátorok, nagyadathalmazokkal is megbirkóznak. A két paraméter, K és mválasztására nem túl érzékeny (de K legyen elég nagy, m pedigne legyen túl nagy).

sztaki-logo


Köszönöm a figyelmet!

Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

Documents