Top Banner
Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására Hidasi Balázs Konzulens: Gáspár-Papanek Csaba 2009. Május 20. [email protected] Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Távközlési és Médiainformatikai Tanszék VÉGZŐS KONFERENCIA 2009 2009. május 20, Budapest
23

Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

Feb 17, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Hidasi Balázs

Konzulens: Gáspár-Papanek Csaba

2009. Május 20.

[email protected]

Budapesti Műszaki és Gazdaságtudományi EgyetemVillamosmérnöki és Informatikai Kar

Távközlési és Médiainformatikai Tanszék

VÉGZŐS KONFERENCIA 20092009. május 20, Budapest

Page 2: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

2

Tartalom� Motiváció� Célok� A ShiftTree algoritmus

� A módszer alapjai� Tanulás (ötlet)� Osztályozás példa� Optimalizálás: többszörös modellezés

� Eredmények� Benchmark� Verseny

� Alkalmazási lehetőségek� Beszélő felismerése� Gesztusfelismerés (+felhasználó azonosítás)� „Gondolatok” felismerése

� Összefoglalás

Page 3: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

3

Motiváció� Idősorok osztályozása

� Sok az idősor-jellegű adat� Előtérbe kerülő alkalmazási területek

� Nyomkövetés� Hangfelismerés� Diagnosztika� Gesztusfelismerés

ModellTanítás

Modell

Osztályozás

� Jelenlegi algoritmusok hátrányai� Klasszikus módszerek

� Jelentős emberi munka (előkészítés)� Nem erre találták ki

� Információvesztés (pontatlanság)� Általában nem magyaráz

� Terület-specifikus algoritmusok� Más területen nem hatékony

Page 4: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

4

Célok� Automatikus

� Kevés emberi munka� Rövid előkészítési fázis

� Minél több típus általános kezelése� Változók száma, osztályok száma, idősorok hossza, stb.

� Több területen használható (általános)� Pontos osztályozás

� Magas találati arány� Magyarázó

� Könnyen értelmezhető modellt épít� Ellenőrizhető

Page 5: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

5

ShiftTree – A módszer alapjai� Hibrid algoritmus

� Döntési fa alap� Szerkezet� Vágások jóság értékei� Leállási feltételek

� Módosított csomópont-szerkezet� Moduláris felépítés

� Szemtologató (EyeShifter)� ES-Operator (ESO)� Szem (pointer) mozgatás

� Feltételállító (ConditionBuilder)� CB-Operator (CBO)� Érték származtatás a szem által

mutatott értékből � (és környezetéből)

� Döntő (Decider)� Vágási helyek vizsgálata� Jóságérték számítás� Optimális vágás választása a

lehetségesekből� Feltétel kiszámítása

L1

Cs1

Cs2

L2Cs3

ES: Szem beállítása

L3 L4

CB: Érték számítása

D: Feltétel választása

Modell

Felt?

F(x)

M

Page 6: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

6

ShiftTree – Tanulás (ötlet)� „Dinamikus attribútumok”

� Hol nézzük? (ESO)� 25 időegységgel előrefele (ESONext(25))� A globális maximumnál (ESOMax)� 60 méretű intervallumon belül a legkisebb értéknél� …

� Mit nézzünk? (CBO)� A pontbeli értéket (CBOSimple)� Az érték környezetének normális eloszlás szerinti súlyozott átlagát (CBONormal)� Az ugrás során a lokális maximumok számát� Az ugrás hosszát� …

� Tanulás egy csomópontban� Leállási feltételek vizsgálata� Lehetséges attribútumok kiszámolása (ESO-CBO párok)� Az (első) optimális vágás megtalálása (ezt végzi a Decider)

� Attribútumok közül egy� Feltétel érték

� Operátorok és a feltétel érték megjegyzése� Vágás az attribútum és a feltétel alapján

� Kettéosztani a tanítópontokat a jobb és bal gyermeknek� Rekurzívan ugyanez a gyermek csomópontokban

F(x)

Page 7: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Page 8: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Page 9: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Érték:1,89136

Érték:2,15333

Érték:2,97557

Page 10: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Érték:1,89136

Érték:2,15333

Érték:2,97557

Page 11: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Page 12: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Page 13: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Érték:1,32432

Érték:-0,953538

Page 14: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Érték:1,32432

Érték:-0,953538

Page 15: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Page 16: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Page 17: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

8

1. szintESONext(25)CBOSimpleFeltétel1

2. szint 2. szint

Levél Levél

Optimalizálás: többszörös modellezés� Több optimális attribútum esetén

� Az összeset kiválasztjuk� Az összes szerint vágunk� Többszörös fát építünk

� De csak ott sokszorozunk, ahol kell, nem az egész fát� Egy másik halmazzal kiválasztjuk a legjobbat

Az 1. optimális

(25-öt előre)

Ez is optimális

(25-öt vissza)

1. szintESOPrev(25)CBOSimpleFeltétel2

2. szint 2. szint

Levél Levél

Page 18: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

9

Eredmények: benchmark adatokon� 20 adatsor különböző területekről

� Egy változó� Eltérő tulajdonságok� 7 másik algoritmussal szemben

� KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest

� Konfiguráció� Nincs optimalizálás� Legegyszerűbb operátorok

� Ugrás előre/hátra fix távot� Ugrás a következő lokális maximumra/minimumra� Ugrás a maximumra/minimumra� Pontbeli érték, normális súlyozás, exponenciális súlyozás

ShiftTree vs más osztályozók

0

2

4

6

8

10

12

14

16

18

20

1 2 3 4 5 6 7 8

Helyezés

Optimalizálás hatása

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%

50W

ord

s

Adia

c

Beef

CB

F

Coff

ee

EC

G200

FaceA

ll

FaceF

our

Fis

h

GunP

oin

t

Lig

hting2

Lig

hting7

Oliv

eO

il

OS

ULeaf

Sw

edis

hLeaf

Synth

eticC

ontr

ol

Tra

ce

Tw

oP

att

ern

s

Wafe

r

Yoga

Adatsorok

Po

nto

sság

(%

)

Többszörös modellezés nyeséssel

Többszörös modellezés

Egyszerű modellezés

Page 19: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

10

Eredmények: verseny körülmények� SIGKDD’07 Time Series Challange

adatsorain� 20 adatsor� Kombinált osztályozók ellen

� Erősebb konfiguráció� Fejlettebb operátorok� Több futtatás, többségi szavazás� De a paraméterek nincsenek

finomhangolva� Eredmények

� 6 első helyezés (legtöbb)� 4 adatsoron még lehetne nyerni� 2 adatsoron lehetne javítani� 8 adatsoron kevés a tanítóminta

� Modell alapú algoritmusok itt elvéreznek

� Összesítésben: 6-8 hely � Holtversenyben (a 13-ból)

Helyezések megoszlása

0

1

2

3

4

5

6

7

1 2 3 4 5 6 7 8 9 10 11 12 13

Helyezés

Db ShiftTree

Győztes

Page 20: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

11

� Gesztus adatai gyorsulásmérővel� 3 változó (koordináta tengelyek)� 10 gesztus, 4 felhasználó� Kevés adat

� Lehetséges feladatok:� Gesztus felismerése� Adott gesztusnál a felhasználó

felismerése (nehéz feladat)� Bonyolult gesztusnál jobb eredmény� Kiemelkedő találati arány

Alkalmazás: hang- és, gesztusfelismerésHangfelismerés (AE): pontosság

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Tanítópontok aránya (%)

Talá

lati

ará

ny (

%)

Felhasználó felismerés a "love" gesztusnál: pontosság

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Tanítópontok aránya (%)

Talá

lati

ará

ny (

%)

� Személy felismerése az aemagánhangzó kiejtése alapján� 12 változó� 9 személy (osztály)

� Egyszerű operátorok� Nincs optimalizálás� Találati arány kellően magas

Page 21: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

12

Alkalmazás: „Gondolat” felismerés

� EEG hullámok osztályozása� Adatsor:

� Két osztály: FEL, LE� 6 változó

� Jelenleg ~90% körüli pontosság� 2003-as versenyen a top3-ban

� Alkalmazás típusai� Offline osztályozás

� Alkatrészek tesztelésének automatikus kiértékelése

� Stream adatsorban jelek felismerése� Még sok nyitott kérdés� Folyamatban lévő kutatás

Page 22: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

13

Összefoglalás� Új idősor-osztályozó: ShiftTree

� Automatikus� Minden egydimenziós idősorral működik� Operátorok definiálása a szakértő feladata

� Nem automatikus� Pontos

� Már egyszerű operátorokkal, optimalizálás nélkül is kellően pontos� Optimalizálással kifejezetten hatékony

� Ha a tanítóminta nem túl kicsi� Magyarázó

� Könnyen értelmezhető modellek, ellenőrizhető� Legnagyobb előnye: általános

� Tématerülettől függetlenül hatékonyan használható

Page 23: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

Köszönöm a figyelmet!

ES: Szem beállítása

CB: Érték számítása

D: Feltétel választása

Modell

ES: Szem beállítása

CB: Érték számítása

D: Feltétel választása

Modell

ES: Szem beállítása

CB: Érték számítása

D: Feltétel választása

Modell

További ShiftTree-vel kapcsolatos kutatási anyagok az oldalamon: http://www.hidasi.eu