Page 1
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟΣχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών ΥπολογιστώνΤομέας Τεχνολογίας Πληροφορικής και Υπολογιστών
Διπλωματική Εργασία
DIANA 2.0: Προηγμένη Εφαρμογή Ιστού Διαχείρισης Δεδομένων Βιοεπιστημών
Φωτοπούλου Χ. Γεωργία
Επίβλεψη: Τιμολέων Σελλής
12 Ιουλίου 2010
Page 2
Φωτοπούλου Γεωργία 1
Υπόβαρθο
DNA
Page 3
Φωτοπούλου Γεωργία 1
Υπόβαρθο
DNA
mRNA
Page 4
Φωτοπούλου Γεωργία 1
Υπόβαρθο
DNA
mRNA
πρωτεϊνη
Page 5
Φωτοπούλου Γεωργία 1
Υπόβαρθο
DNA
mRNA
πρωτεϊνη
γονίδιο ↔ mRNA
Page 6
Φωτοπούλου Γεωργία 2
Υπόβαρθο
microRNA
στόχοι
πειραματικές και υπολογιστές τεχνικές
Ε.Κ. Βιοϊατρικών Επιστημών “Αλέξανδρος Φλέμινγκ”
Page 7
Φωτοπούλου Γεωργία 3
Αρχιτεκτονική
Page 8
Φωτοπούλου Γεωργία 4
Αποφάσεις
Ανάλυση απαιτήσεων → Περιπτώσεις χρήσης
Σχεδιασμός → Model-View-Controller (MVC)
Yλοποίηση → Apache+MySQL+PHP+Yii
Αξιολόγηση/Έλεγχος → Σενάρια εκτέλεσης
Page 9
Φωτοπούλου Γεωργία 5
Χαρακτηριστικά DIANA 2.0
Αναζήτηση βιολογικών στόχων
Παροχή προτάσεων σε λανθασμένους όρους
Προβολή στόχων με βάση άλλους αλγορίθμους
Περιβάλλον διαχείρισης χρηστών
Page 10
Φωτοπούλου Γεωργία 6
Αναζήτηση βιολογικών στόχων Υποστήριξη όρων διαφόρων τύπων
- όνομα microRNAπχ “hsa-let-7e”
- κωδικός ΜΙΜΑ microRNAπχ “ΜΙΜΑΤ0000062” ή “MI0000401”
- όνομα γονιδίου πχ “FIGN”
- κωδικός ENSEMBL γονιδίουπχ ENSG00000000005 ή ENSMUSG00000070000
- κωδικός TRANSCRIPT γονιδίουπχ ENST00000400000 ή ENSMUST00000020000
- κωδικός Refseq γονιδίουπχ XM_905004 ή XR_002000 ή NM_012001 ή NR_000003
Απλοποίηση
Page 11
Φωτοπούλου Γεωργία 7
Παροχή προτάσεων Εξοικονομεί μνήμη και χρόνο
Μαντεύει
Εκμεταλλεύεται τη δομή των όρων
Χρησιμοποιεί συντακτική απόσταση LevenshteinL(seq1,seq2) = #delete + #insert + #substitution
πχ L (foo, fo) = 1 → 1 deleteL (hat, cat) = 1 → 1 substitution L (beta, res) = 3 → 1 insert, 2 substitutions
Page 12
Φωτοπούλου Γεωργία 8
tokenizationπχ hsa-let-100g → 4 tokens
db-tokens
hsa → Ναι let → Ναι 100 → Ναι g → Όχι
Παροχή προτάσεων – microRNA ονόματα
Page 13
Φωτοπούλου Γεωργία 8
tokenizationπχ hsa-let-100g → 4 tokens
db-tokens
hsa → Ναι let → Ναι 100 → Ναι g → Όχι
Παροχή προτάσεων – microRNA ονόματα
Page 14
Φωτοπούλου Γεωργία 9
ranking
Λίστα “Ναι”: σκορ εμφάνισης
[(hsa-let-7i → 2), (hsa-mir-95 → 1), (mmu-mir-100 → 1)]
Λίστα “Όχι”: απόσταση levenshtein
[(hsa-let-7i → 1)]
normalization
Λίστα “Ναι” : (item / #tokens)*0.5
[(hsa-let-7i → 0.25), (hsa-mir-95 → 0.125), (mmu-mir-100 → 0.125)]
Λίστα “Όχι”: (item / min_levenshtein) * 0.5]
[(hsa-let-7i → 0.5)]
Παροχή προτάσεων – microRNA ονόματα
Page 15
Φωτοπούλου Γεωργία 10
merge
merged_list = [(hsa-let-7i → 0.75),(hsa-mir-95 → 0.125),(mmu-mir-100 → 0.125)]
suggest top-k terms
για k=2:- hsa-let-7i- hsa-mir-95
Παροχή προτάσεων – microRNA ονόματα
Page 16
Φωτοπούλου Γεωργία 11
βασική μορφή- Κωδικός ΜΙΜΑ: ΜΙΜΑΤ ή ΜΙ + 7 ψηφία - Κωδικός ENSEMBL: ΕNSG ή ENSMUSG + 11 ψηφία - Κωδικός TRANSCRIPT: ENST ή ENSMUST + 11 ψηφία- Κωδικός Refseq: XM_ ή XR_ ή ΝΜ_ ή NR_ + ψηφία
tokenization - πχ ΜΙΜΑΤ0087 → MIMAT και 0087
σταθεροποίηση αριθμού ψηφίων- πχ 0087 → 0000087- πχ 00000000087 → 0000087
levenshtein -πχ 0000087 → 0000097, 0000017, 0000117 κοκ
concatenation0087 → ΜΙΜΑΤ0000097, ΜΙΜΑΤ0000017, ΜΙΜΑΤ0000117
Παροχή προτάσεων – κωδικοί
Page 17
Φωτοπούλου Γεωργία 12
τελική περίπτωση
levenshtein
Παροχή προτάσεων – όνομα γονιδίου
Page 18
Φωτοπούλου Γεωργία 13
Εμφάνιση κατάλληλου συνδέσμου στη λίστα αποτελεσμάτων
Δεν υποστηριζόταν στην προηγούμενη έκδοση
Προβολή στόχων άλλων αλγορίθμων
Page 19
Φωτοπούλου Γεωργία 14
Προβολή λίστας χρηστών Τροποποίηση στοιχείων χρήστη
Διαγραφή χρήστη
Πρόσθεση νέου χρήστη
Ανέβασμα αρχείων στόχων
Περιβάλλον διαχείρισης
Page 20
Φωτοπούλου Γεωργία 15
Εύχρηστο περιβάλλον διαχείρισης
Απλοποιημένος μηχανισμός αναζητήσεων
Βελτιωμένος μηχανισμός παροχής προτάσεων
Συγκριτική παρουσίαση προβλέψεων με βάση άλλους αλγορίθμους
Διευκόλυνση μελλοντικών επεκτάσεων λόγω τεκμηρίωσης
Συνεισφορά
Page 21
Φωτοπούλου Γεωργία 16
Ακολουθεί επίδειξη της εφαρμογής DIANA 2.0 ...
Page 22
Φωτοπούλου Γεωργία 17
Ερωτήσεις;
Page 23
Φωτοπούλου Γεωργία 18
Ευχαριστώ!