Top Banner
Keresési feladatok molekulagráfokon Kovács Péter ab , Tichler Krisztián a , Fekete István a a ELTE, Informatikai Kar, Algoritmusok és Alkalmazásaik Tanszék b ChemAxon Kft. {kpeter, ktichler, fekete.istvan}@inf.elte.hu Kivonat Az utóbbi években az ELTE és egy kémiai informatikai cég, a ChemAxon Kft. között egyre intenzívebb együttm˝ uködés alakult ki az oktatás és kutatás terén. Ennek keretében mo- lekulagráfokon értelmezett különféle keresési problémákat vizsgálunk. Az ezekhez szükséges algoritmikus háttérrel a programtervez ˝ o informatikus hallgatók két MSc tantárgy ke- retében ismerkedhetnek meg. A kutatás eredményei TDK dolgozat, BSc/MSc szakdolgozat és folyóiratcikk formájá- ban jelennek meg. 1. Bevezetés A kémiai informatikában felmerül˝ o problémák középpont- jában molekulák szerkezetét leíró gráfok állnak. A ké- miai adatbázisok nagy mennyiség ˝ u molekulát tartalmaz- nak, amelyeken különböz˝ o nehéz keresési feladatokat kell megoldani. Az egyik leggyakrabban felmerül˝ o probléma a hasonlósági keresés. Lehetséges megközelítési módok: molekulaleírók (fingerprintek ) távolságának kiszámításá- val (2. fejezet); bonyolultabb gráfillesztési módszerekkel, pl. a szerkesz- tési távolság meghatározásával (3. fejezet). Hasonlósági keresés molekula-adatbázisban Fontos feladat a molekulagráfok topológiai vizsgálata is. Ennek kulcsfontosságú eleme a gy˝ ur˝ uk és gy˝ ur˝ urendsze- rek feltérképezése (4. fejezet). 2. Hasonlósági keresés fingerprintek segítségével Résztvev ˝ ok: Kovács Balázs, Tamaga István, Kovács Péter, Fekete István Molekulák vizsgálatához gyakran alkalmazunk különböz ˝ o leírókat, fingerprinteket. Egy fingerprint általában egy hosszú bináris sorozat (pl. d = 1024 bit), amely jól rep- rezentálja a struktúra bizonyos kémiai tulajdonságait. Így molekulák hasonlóságát a fingerprintjeik távolságával jelle- mezhetjük. Hasonlósági keresés a fingerprintek terében 2.1 Helyzetérzékeny hasítás (LSH) A hasonlósági keresést a fingerprintek {0, 1} d terében mi- nél hatékonyabban kell elvégezni. Az alacsony dimenziós terekben megszokott térfelosztó módszerek itt nem alkal- mazhatók, viszont az ún. helyzetérzékeny hasítás (Locality Sensitive Hashing, LSH) egy megfelel˝ o közelít ˝ o módszer. LSH módszer – hash-tábla építése Az eljárás alapötlete az, hogy kiválasztunk néhány bitpo- zíciót, és a keresést csak azon fingerprintek között végez- zük el, amelyek ezen koordinátáikban megegyeznek a le- kérdez ˝ o fingerprinttel. Az LSH módszer teszteléséhez és elemzéséhez készült egy demonstrációs program. 2.2 Statisztikai vizsgálatok Elméleti úton és mérésekkel egyaránt vizsgáltuk az LSH módszer paramétereinek hatását, becslést adtunk a hibavalószín˝ uségre. A bemeneti adatok statisztikai vizsgálata alapján javasla- tot adtunk a hasítókoordináták kiválasztására. 2.3 Dimenziócsökkentés okomponens-analízis (PCA) és véletlen vetítés alkal- mazása a fingerprintek hosszának csökkentésére. Az utóbbi módszer hatékonyabbnak bizonyult, kétszint˝ u ke- resést tesz lehet ˝ ové. Hasítókoordináták kiválasztása a kovariancia-mátrix alapján: jóval hatékonyabb a véletlen választásnál. 3. Molekulák szerkesztési távolsága Résztvev ˝ ok: Hodobay Balázs, Kovács Péter, Tichler Krisz- tián Molekulagráfok hasonlóságát definiálhatjuk a szerkesztési távolságukkal (edit distance) is. Megengedett m ˝ uveletek: csúcsok és élek beszúrása, törlése, átcímkézése. Szerkesztési távolság becslése (példák) Gráfok szerkesztési távolságának (a transzformációs lépések minimális számának) meghatározása NP-nehéz feladat. Megvalósítottunk egy hatékony közelít˝ o algorit- must, amely a két gráf lokális környezeteinek („csillagok- nak”) optimális párosításából indul ki. Ez alapján közvet- lenül meghatározható egy alsó becslés a szerkesztési tá- volságra. Az atomok illesztésének iteratív javításával pedig egy elég jó fels˝ o becslést is kapunk. Szerkesztési távolság becslése atomkörnyezetek illesztése alapján Az irodalomban talált módszert kis mértékben általánosítot- tuk, valamint különböz ˝ o heurisztikus javításokkal egészítet- tük ki (els ˝ osorban a fels˝ o becslés meghatározásához). 4. Gy ˝ ur ˝ uk és gy ˝ ur ˝ urendszerek keresése Résztvev ˝ ok: Kendi János, Kiss Bence, Kovács Péter, Tich- ler Krisztián Vizsgált problémák: Egy molekula ciklikus és aciklikus részeinek felderítése, a topológiát leíró ún. feature tree el˝ oállítása. Összes gy ˝ ur˝ u (kör) megkeresése. SSSR (Smallest Set of Smallest Rings ) megkeresése. Az SSSR egy minimális körbázis, vagyis a gráf összes körét meghatározó minimális körrendszer. Az SSSR mérete megegyezik a gráf ciklomatikus számával. Hatékony polinomiális algoritmusokat implementáltunk mindhárom feladat megoldására. Molekulák szerkezeti felépítése (példák) Összes kör és SSSR (példák) 5. További kutatási irányok Résztvev ˝ ok: Ásványi Tibor, Gazdag Zsolt, Nagy Sára, Veszprémi Anna, Baláz Adam, Matuszka Tamás, Vigula Mónika Részstruktúra-keresés molekula-adatbázisokban Hasításos módszerek alkalmazása fingerprintekre Gráfmetrikák vizsgálata Párhuzamosítás elméletének számítástudományi meg- közelítése Struktúraelemzés és hibakezelés logikai programozással 6. Oktatási háttér Résztvev ˝ ok: Hunyadvári László, Fekete István, Kovács Péter A Programtervez ˝ o informatikus MSc szakon két „haladó” Algoritmusok félév: Speciális algoritmusok és adatstruktúrák (2 + 2, k + gy) Algoritmusok tervezése és elemzése (2 + 2, k + gy) Az el ˝ oadások tematikája: algoritmustervezési módsze- rek: rekurzió (oszd meg és uralkodj), dinamikus progra- mozás, mohó algoritmusok (matroidok); közelít ˝ o és vé- letlenített algoritmusok (fingerprint módszer, univerzális hasítás); algoritmusok m ˝ uveletigénye, Mester-tétel. A gyakorlatok anyaga, beadandó programok témái: maximális párosítás páros gráfban; maximális folyam probléma; molekulák reprezentációja; SMILES formá- tum; molekulaleírók, fingerprintek; részstruktúra- és ha- sonlósági keresés molekulagráfokon. 7. Publikációk 1. Kovács Balázs, Tamaga István: Molekulagráfok leíróinak vizsgálata a hasonlósági keresés szempontjából. TDK dolgozat, ELTE IK, 2010. (kari 1., országos 3. díj) 2. Kendi János: Részstruktúrák keresése molekulagráfok- ban. MSc diplomamunka, ELTE IK, 2011. 3. Hodobay Balázs: Hasonló részstruktúrák keresése mo- lekulagráfokban. MSc diplomamunka, ELTE IK, 2011. 4. Vigula Mónika: A részgráf-izomorfizmus probléma adat- bázisokban. BSc szakdolgozat, ELTE TTK, 2011. 5. B. Kovács, I. Tamaga, P. Kovács, I. Fekete. Similarity search on fingerprints of molecule graphs. (benyújtás el˝ ott) 6. Oktatási anyagok, 2009-2011. http://people.inf.elte.hu/kpeter/
1

Keresési feladatok molekulagráfokon - ELTE

Nov 26, 2021

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Keresési feladatok molekulagráfokon - ELTE

Keresési feladatok molekulagráfokonKovács Péterab, Tichler Krisztiána, Fekete Istvána

a ELTE, Informatikai Kar, Algoritmusok és Alkalmazásaik Tanszékb ChemAxon Kft.

{kpeter, ktichler, fekete.istvan}@inf.elte.hu

Kivonat

Az utóbbi években az ELTE és egy kémiai informatikai cég,a ChemAxon Kft. között egyre intenzívebb együttmuködésalakult ki az oktatás és kutatás terén. Ennek keretében mo-lekulagráfokon értelmezett különféle keresési problémákatvizsgálunk. Az ezekhez szükséges algoritmikus háttérrel aprogramtervezo informatikus hallgatók két MSc tantárgy ke-retében ismerkedhetnek meg. A kutatás eredményei TDKdolgozat, BSc/MSc szakdolgozat és folyóiratcikk formájá-ban jelennek meg.

1. Bevezetés

A kémiai informatikában felmerülo problémák középpont-jában molekulák szerkezetét leíró gráfok állnak. A ké-miai adatbázisok nagy mennyiségu molekulát tartalmaz-nak, amelyeken különbözo nehéz keresési feladatokat kellmegoldani.Az egyik leggyakrabban felmerülo probléma a hasonlóságikeresés. Lehetséges megközelítési módok:• molekulaleírók (fingerprintek ) távolságának kiszámításá-

val (2. fejezet);• bonyolultabb gráfillesztési módszerekkel, pl. a szerkesz-

tési távolság meghatározásával (3. fejezet).

Hasonlósági keresés molekula-adatbázisban

Fontos feladat a molekulagráfok topológiai vizsgálata is.Ennek kulcsfontosságú eleme a gyuruk és gyururendsze-rek feltérképezése (4. fejezet).

2. Hasonlósági keresés fingerprintek segítségével

Résztvevok: Kovács Balázs, Tamaga István, Kovács Péter,Fekete István

Molekulák vizsgálatához gyakran alkalmazunk különbözoleírókat, fingerprinteket. Egy fingerprint általában egyhosszú bináris sorozat (pl. d = 1024 bit), amely jól rep-rezentálja a struktúra bizonyos kémiai tulajdonságait. Ígymolekulák hasonlóságát a fingerprintjeik távolságával jelle-mezhetjük.

Hasonlósági keresés a fingerprintek terében

2.1 Helyzetérzékeny hasítás (LSH)A hasonlósági keresést a fingerprintek {0, 1}d terében mi-nél hatékonyabban kell elvégezni. Az alacsony dimenziósterekben megszokott térfelosztó módszerek itt nem alkal-mazhatók, viszont az ún. helyzetérzékeny hasítás (LocalitySensitive Hashing, LSH) egy megfelelo közelíto módszer.

LSH módszer – hash-tábla építése

Az eljárás alapötlete az, hogy kiválasztunk néhány bitpo-zíciót, és a keresést csak azon fingerprintek között végez-zük el, amelyek ezen koordinátáikban megegyeznek a le-kérdezo fingerprinttel.

Az LSH módszer teszteléséhez és elemzéséhez készültegy demonstrációs program.

2.2 Statisztikai vizsgálatok• Elméleti úton és mérésekkel egyaránt vizsgáltuk az

LSH módszer paramétereinek hatását, becslést adtunka hibavalószínuségre.

• A bemeneti adatok statisztikai vizsgálata alapján javasla-tot adtunk a hasítókoordináták kiválasztására.

2.3 Dimenziócsökkentés• Fokomponens-analízis (PCA) és véletlen vetítés alkal-

mazása a fingerprintek hosszának csökkentésére. Azutóbbi módszer hatékonyabbnak bizonyult, kétszintu ke-resést tesz lehetové.

• Hasítókoordináták kiválasztása a kovariancia-mátrixalapján: jóval hatékonyabb a véletlen választásnál.

3. Molekulák szerkesztési távolsága

Résztvevok: Hodobay Balázs, Kovács Péter, Tichler Krisz-tián

Molekulagráfok hasonlóságát definiálhatjuk a szerkesztésitávolságukkal (edit distance) is. Megengedett muveletek:csúcsok és élek beszúrása, törlése, átcímkézése.

Szerkesztési távolság becslése (példák)

Gráfok szerkesztési távolságának (a transzformációslépések minimális számának) meghatározása NP-nehézfeladat. Megvalósítottunk egy hatékony közelíto algorit-must, amely a két gráf lokális környezeteinek („csillagok-nak”) optimális párosításából indul ki. Ez alapján közvet-lenül meghatározható egy alsó becslés a szerkesztési tá-volságra. Az atomok illesztésének iteratív javításával pedigegy elég jó felso becslést is kapunk.

Szerkesztési távolság becslése atomkörnyezetek illesztése alapján

Az irodalomban talált módszert kis mértékben általánosítot-tuk, valamint különbözo heurisztikus javításokkal egészítet-tük ki (elsosorban a felso becslés meghatározásához).

4. Gyuruk és gyururendszerek keresése

Résztvevok: Kendi János, Kiss Bence, Kovács Péter, Tich-ler Krisztián

Vizsgált problémák:• Egy molekula ciklikus és aciklikus részeinek felderítése,

a topológiát leíró ún. feature tree eloállítása.• Összes gyuru (kör) megkeresése.

• SSSR (Smallest Set of Smallest Rings) megkeresése. AzSSSR egy minimális körbázis, vagyis a gráf összes körétmeghatározó minimális körrendszer. Az SSSR méretemegegyezik a gráf ciklomatikus számával.

Hatékony polinomiális algoritmusokat implementáltunkmindhárom feladat megoldására.

Molekulák szerkezeti felépítése (példák)

Összes kör és SSSR (példák)

5. További kutatási irányok

Résztvevok: Ásványi Tibor, Gazdag Zsolt, Nagy Sára,Veszprémi Anna, Baláz Adam, Matuszka Tamás, VigulaMónika

• Részstruktúra-keresés molekula-adatbázisokban• Hasításos módszerek alkalmazása fingerprintekre• Gráfmetrikák vizsgálata• Párhuzamosítás elméletének számítástudományi meg-

közelítése• Struktúraelemzés és hibakezelés logikai programozással

6. Oktatási háttér

Résztvevok: Hunyadvári László, Fekete István, KovácsPéter

A Programtervezo informatikus MSc szakon két „haladó”Algoritmusok félév:• Speciális algoritmusok és adatstruktúrák (2 + 2, k + gy)• Algoritmusok tervezése és elemzése (2 + 2, k + gy)

Az eloadások tematikája: algoritmustervezési módsze-rek: rekurzió (oszd meg és uralkodj), dinamikus progra-mozás, mohó algoritmusok (matroidok); közelíto és vé-letlenített algoritmusok (fingerprint módszer, univerzálishasítás); algoritmusok muveletigénye, Mester-tétel.

A gyakorlatok anyaga, beadandó programok témái:maximális párosítás páros gráfban; maximális folyamprobléma; molekulák reprezentációja; SMILES formá-tum; molekulaleírók, fingerprintek; részstruktúra- és ha-sonlósági keresés molekulagráfokon.

7. Publikációk

1. Kovács Balázs, Tamaga István: Molekulagráfok leíróinakvizsgálata a hasonlósági keresés szempontjából. TDKdolgozat, ELTE IK, 2010. (kari 1., országos 3. díj)

2. Kendi János: Részstruktúrák keresése molekulagráfok-ban. MSc diplomamunka, ELTE IK, 2011.

3. Hodobay Balázs: Hasonló részstruktúrák keresése mo-lekulagráfokban. MSc diplomamunka, ELTE IK, 2011.

4. Vigula Mónika: A részgráf-izomorfizmus probléma adat-bázisokban. BSc szakdolgozat, ELTE TTK, 2011.

5. B. Kovács, I. Tamaga, P. Kovács, I. Fekete. Similaritysearch on fingerprints of molecule graphs. (benyújtáselott)

6. Oktatási anyagok, 2009-2011.http://people.inf.elte.hu/kpeter/