Multirelační GUHA, Ferda a genetická data Martin Ralbovský KIZI FIS VŠE
Jan 02, 2016
Metoda GUHA
• Původní česká metoda explorační analýzy dat• Založena na– logice (observační kalkuly)– statistice (testování hypotéz)
• Téměř 40 let vývoje
Patterny, hypotézy, verifikace
• Pattern – jedna vygenerovaná formulka observačního kalkulu
• Prime pattern – pattern, který je pravdivý v datech a nevyplývá z jiného jednoduššího pravdivého patternu
• Hypotéza = pattern• Verifikace = ověření jednoho patternu
Příklad procedury – 4FT
• Hledá asociační pravidla ve tvaruA ~ B
kde A a B jsou Booleovské atributy a ~ je 4ft-kvantifikátor
• Příklad pravidla:District(SouthEast) ~ Status(Good)
Proč multirelační?
• Původní metoda byla omezena na minování pouze nad jednou tabulkou
• Jedna tabulka – tvrzení o vlastnostech jedné entity
• Více tabulek – vztahy mezi entitamiMotivační příklad:• Údaje o klientech v jedné tabulce• Údaje o transakcích klientů v druhé tabulce
(Multi)relační metody - ILP
• ILP – inductive logic programmingvhodné pro HODNĚ relací, z pozitivních a negativních příkladů (+ background knowledge) inferuje tvrzení
• ILP propozicionalizacez vícero tabulek sestrojí jednu, nad kterou se dají spustit jiné algoritmyvýsledné atributy jsou konjunkce (negovaných) literálů predikátové logiky
(Multi)relační metody - další
WARMR• Spojení ILP a asociačních pravidel• Nejdříve provede propozicionalizaci a potom
hledá asociační pravidlaRELAGGS• Vypočítá agregace záznamů přímo v databázi• Poté hledá asociační pravidla
Multirelační GUHA - princip
• Rozdělení úlohy na hlavní a vedlejší• Master a detail tabulka - hvězdicové schéma• Přidávání patternů z vedlejší úlohy do hlavní – virtuální
atributy
Příklad:• Detail tabulka – klient často platící kartou
ClientID ~ Payment(CreditCard)• Master tabulka
District(SoutEast)&ClientPayingByCreditCard ~ Status(Good)
Multirelační GUHA – detaily
• Pro každého klienta se vyberou pouze jemu odpovídající řádky v tabulce transakcí
• Pro každého klienta je různá hodnota virtuálního atributu (prozatím 0, 1)
• Co odpovídá virtuálnímu atributu – hypotéza nebo pattern?
Multirelační GUHA – omezení
• Problém s počtem virtuálních atributů v hlavní tabulce
• Hvězdicové schéma není teoretickým, ale praktickým omezením
• Příklad
Multirelační GUHA vs. Ostatní metody
• Ze všech metod umožňuje GUHA největší expresivitu
• Tato je vykoupena omezením na malý počet relací
• Hodí se na úlohy s málo tabulkami, ideálně velká master a malá detail.
Multirelační GUHA - implementace
• Konec 90. let – implementace v rámci systému LISp-Miner – nepoužívala se
• Disertace T. Karbana, Rel-Miner – nedokončeno
• Diplomová práce A. Kuzmina, Ferda – implementace multirelačních 4FT a SD4FT– Neúspěšné pokusy na Barboře– Slibné pokusy na genetických datech
Ferda - historie
• Poslední z nástrojů implementující metodu GUHA
• Původně projekt MFF UK, nyní vyvíjen na KIZI FIS VŠE
• Založen 2003/2004• Obhájen 2006• Dále 6 diplomových a 1 bakalářská práce
Devatero řemesel…
• Vysoce modulární systém:– Používá se middleware pro komunikaci– Moduly mohou být napsány v 5 různých jazycích– Moduly mohou komunikovat libovolně po síti
• Vlastní částečně rekurzivní programovací jazyk• 7 relačních GUHA procedur, 2 multirelační
procedury, nové kvantifikátory• Podpora ontologií, podpora uživatelského
rozhodování…
Genetická data
• Datový zdroj zkompilovaný na FEL ČVUT• Měření expresí genů pomocí DNA mikrosond
Affymetrics• 2 zkoumané typy buňek – hematopoetická a
stromální (tvorba kostní dřeně)• 3 zkoumané organismy• Data měření obohacená o informace o
pathways a fluxes
Pathway a flux
• Molekulární pathway – graf reprezentující síť molekulárních reakcí a interakcí
• Full-coupled-flux (FCF) – lineární podgraf pathway (všechny geny v něm mají expresi)
Pracovní hypotéza: exprese genů nějakým způsobem souvisí s tvorbou buňek
• Úroveň genů je příliš malá granularita• Úroveň pathways je příliš velká granularita• Zkusme FCF!
Experimenty
• Virtuální atributy typu „Vysoká exprese genu X ve FCF“
• Výsledek: pravidla ve tvaru[FluxID(a) ~ GeneLevel(b)] ~ CellType(c)Použité kvantifikátory: 100% konfidence
• Prohlížení experimentů