Keresési feladatok molekulagráfokon Kovács Péter ab , Tichler Krisztián a , Fekete István a a ELTE, Informatikai Kar, Algoritmusok és Alkalmazásaik Tanszék b ChemAxon Kft. {kpeter, ktichler, fekete.istvan}@inf.elte.hu Kivonat Az utóbbi években az ELTE és egy kémiai informatikai cég, a ChemAxon Kft. között egyre intenzívebb együttm˝ uködés alakult ki az oktatás és kutatás terén. Ennek keretében mo- lekulagráfokon értelmezett különféle keresési problémákat vizsgálunk. Az ezekhez szükséges algoritmikus háttérrel a programtervez ˝ o informatikus hallgatók két MSc tantárgy ke- retében ismerkedhetnek meg. A kutatás eredményei TDK dolgozat, BSc/MSc szakdolgozat és folyóiratcikk formájá- ban jelennek meg. 1. Bevezetés A kémiai informatikában felmerül˝ o problémák középpont- jában molekulák szerkezetét leíró gráfok állnak. A ké- miai adatbázisok nagy mennyiség ˝ u molekulát tartalmaz- nak, amelyeken különböz˝ o nehéz keresési feladatokat kell megoldani. Az egyik leggyakrabban felmerül˝ o probléma a hasonlósági keresés. Lehetséges megközelítési módok: • molekulaleírók (fingerprintek ) távolságának kiszámításá- val (2. fejezet); • bonyolultabb gráfillesztési módszerekkel, pl. a szerkesz- tési távolság meghatározásával (3. fejezet). Hasonlósági keresés molekula-adatbázisban Fontos feladat a molekulagráfok topológiai vizsgálata is. Ennek kulcsfontosságú eleme a gy˝ ur˝ uk és gy˝ ur˝ urendsze- rek feltérképezése (4. fejezet). 2. Hasonlósági keresés fingerprintek segítségével Résztvev ˝ ok: Kovács Balázs, Tamaga István, Kovács Péter, Fekete István Molekulák vizsgálatához gyakran alkalmazunk különböz ˝ o leírókat, fingerprinteket. Egy fingerprint általában egy hosszú bináris sorozat (pl. d = 1024 bit), amely jól rep- rezentálja a struktúra bizonyos kémiai tulajdonságait. Így molekulák hasonlóságát a fingerprintjeik távolságával jelle- mezhetjük. Hasonlósági keresés a fingerprintek terében 2.1 Helyzetérzékeny hasítás (LSH) A hasonlósági keresést a fingerprintek {0, 1} d terében mi- nél hatékonyabban kell elvégezni. Az alacsony dimenziós terekben megszokott térfelosztó módszerek itt nem alkal- mazhatók, viszont az ún. helyzetérzékeny hasítás (Locality Sensitive Hashing, LSH) egy megfelel˝ o közelít ˝ o módszer. LSH módszer – hash-tábla építése Az eljárás alapötlete az, hogy kiválasztunk néhány bitpo- zíciót, és a keresést csak azon fingerprintek között végez- zük el, amelyek ezen koordinátáikban megegyeznek a le- kérdez ˝ o fingerprinttel. Az LSH módszer teszteléséhez és elemzéséhez készült egy demonstrációs program. 2.2 Statisztikai vizsgálatok • Elméleti úton és mérésekkel egyaránt vizsgáltuk az LSH módszer paramétereinek hatását, becslést adtunk a hibavalószín˝ uségre. • A bemeneti adatok statisztikai vizsgálata alapján javasla- tot adtunk a hasítókoordináták kiválasztására. 2.3 Dimenziócsökkentés • F˝ okomponens-analízis (PCA) és véletlen vetítés alkal- mazása a fingerprintek hosszának csökkentésére. Az utóbbi módszer hatékonyabbnak bizonyult, kétszint˝ u ke- resést tesz lehet ˝ ové. • Hasítókoordináták kiválasztása a kovariancia-mátrix alapján: jóval hatékonyabb a véletlen választásnál. 3. Molekulák szerkesztési távolsága Résztvev ˝ ok: Hodobay Balázs, Kovács Péter, Tichler Krisz- tián Molekulagráfok hasonlóságát definiálhatjuk a szerkesztési távolságukkal (edit distance) is. Megengedett m ˝ uveletek: csúcsok és élek beszúrása, törlése, átcímkézése. Szerkesztési távolság becslése (példák) Gráfok szerkesztési távolságának (a transzformációs lépések minimális számának) meghatározása NP-nehéz feladat. Megvalósítottunk egy hatékony közelít˝ o algorit- must, amely a két gráf lokális környezeteinek („csillagok- nak”) optimális párosításából indul ki. Ez alapján közvet- lenül meghatározható egy alsó becslés a szerkesztési tá- volságra. Az atomok illesztésének iteratív javításával pedig egy elég jó fels˝ o becslést is kapunk. Szerkesztési távolság becslése atomkörnyezetek illesztése alapján Az irodalomban talált módszert kis mértékben általánosítot- tuk, valamint különböz ˝ o heurisztikus javításokkal egészítet- tük ki (els ˝ osorban a fels˝ o becslés meghatározásához). 4. Gy ˝ ur ˝ uk és gy ˝ ur ˝ urendszerek keresése Résztvev ˝ ok: Kendi János, Kiss Bence, Kovács Péter, Tich- ler Krisztián Vizsgált problémák: • Egy molekula ciklikus és aciklikus részeinek felderítése, a topológiát leíró ún. feature tree el˝ oállítása. • Összes gy ˝ ur˝ u (kör) megkeresése. • SSSR (Smallest Set of Smallest Rings ) megkeresése. Az SSSR egy minimális körbázis, vagyis a gráf összes körét meghatározó minimális körrendszer. Az SSSR mérete megegyezik a gráf ciklomatikus számával. Hatékony polinomiális algoritmusokat implementáltunk mindhárom feladat megoldására. Molekulák szerkezeti felépítése (példák) Összes kör és SSSR (példák) 5. További kutatási irányok Résztvev ˝ ok: Ásványi Tibor, Gazdag Zsolt, Nagy Sára, Veszprémi Anna, Baláz Adam, Matuszka Tamás, Vigula Mónika • Részstruktúra-keresés molekula-adatbázisokban • Hasításos módszerek alkalmazása fingerprintekre • Gráfmetrikák vizsgálata • Párhuzamosítás elméletének számítástudományi meg- közelítése • Struktúraelemzés és hibakezelés logikai programozással 6. Oktatási háttér Résztvev ˝ ok: Hunyadvári László, Fekete István, Kovács Péter A Programtervez ˝ o informatikus MSc szakon két „haladó” Algoritmusok félév: • Speciális algoritmusok és adatstruktúrák (2 + 2, k + gy) • Algoritmusok tervezése és elemzése (2 + 2, k + gy) Az el ˝ oadások tematikája: algoritmustervezési módsze- rek: rekurzió (oszd meg és uralkodj), dinamikus progra- mozás, mohó algoritmusok (matroidok); közelít ˝ o és vé- letlenített algoritmusok (fingerprint módszer, univerzális hasítás); algoritmusok m ˝ uveletigénye, Mester-tétel. A gyakorlatok anyaga, beadandó programok témái: maximális párosítás páros gráfban; maximális folyam probléma; molekulák reprezentációja; SMILES formá- tum; molekulaleírók, fingerprintek; részstruktúra- és ha- sonlósági keresés molekulagráfokon. 7. Publikációk 1. Kovács Balázs, Tamaga István: Molekulagráfok leíróinak vizsgálata a hasonlósági keresés szempontjából. TDK dolgozat, ELTE IK, 2010. (kari 1., országos 3. díj) 2. Kendi János: Részstruktúrák keresése molekulagráfok- ban. MSc diplomamunka, ELTE IK, 2011. 3. Hodobay Balázs: Hasonló részstruktúrák keresése mo- lekulagráfokban. MSc diplomamunka, ELTE IK, 2011. 4. Vigula Mónika: A részgráf-izomorfizmus probléma adat- bázisokban. BSc szakdolgozat, ELTE TTK, 2011. 5. B. Kovács, I. Tamaga, P. Kovács, I. Fekete. Similarity search on fingerprints of molecule graphs. (benyújtás el˝ ott) 6. Oktatási anyagok, 2009-2011. http://people.inf.elte.hu/kpeter/