Semmelweis Egyetem / Élettani Intézet / Budapest Bioinformatika és genomanalízis az orvostudományban Integrált biológiai adatbázisok Cserző Miklós 2018
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban
Integrált biológiai adatbázisok
Cserző Miklós
2018
Semmelweis Egyetem / Élettani Intézet / Budapest
A mai előadás
➢ A genom annotálás jelentősége
➢ Genome Reference Consortium
➢ Gene Ontology
➢ Az „ensembl” pipeline
➢ Lekérdezés a web-felületen keresztül
➢ Az osztott annotációs rendszer (DAS)
➢ A BioMart felület használata
➢ Adatelérés FTP-portálon
Bioinformatika és genomanalízis az orvostudományban - 6 2
Semmelweis Egyetem / Élettani Intézet / Budapest
Miért annotálunk genomot?
➢ A szekvenálás gyors és olcsó
➢ Az adatok kisérletes igazolása viszont drága
➢ Az élőlények származástani rokonságban állnak egymással
➢ Az egyik élő rendszerben megszerzett kisérletes adatot fel lehet használni egy rokon esetében is
➢ Ezzel időt, pénzt, fáradtságot lehet megtakarítani
Bioinformatika és genomanalízis az orvostudományban - 6 3
Semmelweis Egyetem / Élettani Intézet / Budapest
Genom Reference Consortium
➢ A nagy genom szekvenálások nemzetközi összefogással mennek
➢ Nemcsak egyetlen egyed genomja érdekes
➢ Kell egy referencia az egyes fajokra
➢ A fajon belüli eltéréseket ehhez viszonyítjuk
➢ Honlap: http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/index.shtml
Bioinformatika és genomanalízis az orvostudományban - 6 4
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 5
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 6
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 7
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 8
Semmelweis Egyetem / Élettani Intézet / Budapest
Mivel annotáljunk?
➢ Gene Ontology Consortium
➢ Zárt annotációs szótár – egy bizottság dönt, mi kerülhet bele
➢ Cél: a gének pontos és teljes leírása
➢ Követelmény: a leírás legyen koherens, általános és gépi feldolgozásra alkalmas
Bioinformatika és genomanalízis az orvostudományban - 6 9
Semmelweis Egyetem / Élettani Intézet / Budapest
A megvalósítás
➢ Besorolás három szempont szerint:
➢ Folyamat (biological_process)
➢ Sejtalkotó (cellular_component)
➢ Működés (molecular_function)
➢ Három viszony:
➢ „is_a”
➢ „part_of”
➢ „regulates”
Bioinformatika és genomanalízis az orvostudományban - 6 10
Semmelweis Egyetem / Élettani Intézet / Budapest
A módszer
➢ 12 modell-lény – és egy népes szakértői csapat
➢ Elsődleges forrás: közvetlen kisérletes adatok
➢ Másodlagos forrás: homológ fehérjék annotációja
➢ Azt is jelzik, ha nincs adat
➢ Honlap: http://www.geneontology.org/
Bioinformatika és genomanalízis az orvostudományban - 6 11
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 12
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 13
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 14
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 15
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 16
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 17
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 18
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 19
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 20
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 21
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 22
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 23
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 24
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 25
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 26
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 27
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 28
Semmelweis Egyetem / Élettani Intézet / Budapest
Az ENSEMBL analízis pipeline
➢ Az automatikus genomi annotáció a cél
➢ A kézi annotáció lassú és szubjektív
➢ A gépi gyors és konzisztens
➢ A legtöbb felhasználandó eszköz már kész
➢ Bemenő adatokbázisok: ENA, cDNS, UniProt, EST
➢ A pipe-line megfelelő sorrendben meghívja a programokat és az eredményt adatbázisba rendezi
Bioinformatika és genomanalízis az orvostudományban - 6 32
Semmelweis Egyetem / Élettani Intézet / Budapest
A megvalósítás
➢ A pipeline moduláris szerkezetű – Runnable és RunnableDB
➢ Ezek egy bizonyos feladatot végeznek
➢ Hierarchikus – RuleManager
➢ Ez osztja ki a feladatokat és ellenőrzi az eredményt
➢ A számítások „computer farm”-on mennek
➢ ~1000 node, közös adatbázist ér el
Bioinformatika és genomanalízis az orvostudományban - 6 33
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 34
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 35
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 36
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 37
Semmelweis Egyetem / Élettani Intézet / Budapest
„Automatic Gene Annotation Sytem”
➢ Része az ENSEMBL pipeline-nak
➢ Célja:
➢ Fehérje kódoló és RNS gének azonosítása
➢ Exon-intron szerkezetük feltérképezése
➢ Annotálása fehérje, cDNS és EST adatbázisok alapján
➢ A rendszer szabadon elérhető és használható
Bioinformatika és genomanalízis az orvostudományban - 6 38
Semmelweis Egyetem / Élettani Intézet / Budapest
Az eljárás ‘raw compute’
➢ Lépések:
➢ RepeatMasker – nagy számban előforduló szakaszok azonosítása
➢ Genescan – fehérje kódoló gének keresése
➢ tRNSscan – RNS gének keresése
➢ eponine – transcripciós start-helyek keresése
➢ BLAST – fehérjék keresése homológia alapján
➢ A feldolgozás clone és contig szinten folyik
➢ Először gyors keresés – aztán pontosítás
Bioinformatika és genomanalízis az orvostudományban - 6 39
Semmelweis Egyetem / Élettani Intézet / Budapest
Kombinált módszerek
➢ Az Ab initio génpredikció hasznos, de nem megbízható
➢ Genescan túl sok gént talál, viszont rövid exonokat hajlamos elveszíteni
➢ BLAST kereséssel meg kell támogatni az eredményt
➢ A BLAST viszont nem alkalmas exon-intron szerkezet megadására
Bioinformatika és genomanalízis az orvostudományban - 6 40
Semmelweis Egyetem / Élettani Intézet / Budapest
Transzkript modellek
➢ Az adatbázis kiválasztása kulcsfontosságú
➢ A saját faj adatbázisa az elsődleges
➢ Más fajok adatbázisát is felhasználják a saját adat hiányában, de csak másodlagosan
➢ Ez áll a fehérje és cDNS adatokra is
➢ Így transzkript modelleket jósolunk először
➢ A két modell biztosan nem esik egybe a nem-transzlált régiók miatt (UTR)
Bioinformatika és genomanalízis az orvostudományban - 6 41
Semmelweis Egyetem / Élettani Intézet / Budapest
Pmatch
➢ Gyorsan talál meg 100%-os egyezéseket
➢ A fehérje darabjainak egy szálon kell lenni
➢ A daraboknak jó sorrendben kell lenni
➢ A fehérje 25%-t legalább meg kell találni
➢ Egy fehérjéből a legjobb találatot megtartjuk
➢ Meg a továbbiakat is, ha csak 2% a különbség
Bioinformatika és genomanalízis az orvostudományban - 6 42
Semmelweis Egyetem / Élettani Intézet / Budapest
genewise
➢ A pmatch jelentősen lecsökkenti a vizsgálandó szegmensek hosszát
➢ Utána genewise – fehérje szintű illesztés splice-helyekkel és frame eltolással
➢ Viszont elég lassú
➢ miniseq: a megtalált nyers exonokat megtoldjuk 200 bázissal mindkét irányba
➢ Ez kezelhető méretűvé csökkenti a szekvenci hosszát
Bioinformatika és genomanalízis az orvostudományban - 6 43
Semmelweis Egyetem / Élettani Intézet / Budapest
További finomítás
➢ Az eljárást megismételjük más fajokból származó fehérjékkel
➢ Csak az új találatokkal foglalkozunk
➢ A cDNS adatbázis saját fajhoz tartozó részét illesztjük a genomra (exonerate)
➢ A találatokat rangsoroljuk és kiválogatjuk
➢ A génszerkezetet kiegészítjük az UTR szakaszokkal
Bioinformatika és genomanalízis az orvostudományban - 6 44
Semmelweis Egyetem / Élettani Intézet / Budapest
Végső modell (GeneBuilder)
1. Az egymással átfedő helyzetben lévő génmodelleket közös klaszterbe soroljuk
2. A közös exonnal rendelkező modelleket közös gén-klaszterekbe soroljuk
3. A nagyon nagy klasztereket megszűrjük és csak a legjobb 10-et tartjuk meg (ritka eset)
4. Ismét klaszterezzük a géneket, ha az előző lépés új klasztereket hozott volna létre
Bioinformatika és genomanalízis az orvostudományban - 6 45
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 46
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 47
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 48
Semmelweis Egyetem / Élettani Intézet / Budapest
Az ENSEMBL felület
➢ Honlap: http://www.ensembl.org/index.html
➢ Közel 200 élőlény – többségében gerinces
➢ Ingyenesen elérhető, folyamatosan fejlesztik
➢ Közös Európai fenntartású kezdeményezés
➢ Több módon is elérhetők az adatok:
➢ Web, BioMart, FTP
➢ Adatok feltöltése is lehetséges
Bioinformatika és genomanalízis az orvostudományban - 6 49
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 50
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 51
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 52
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 53
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 54
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 55
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 56
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 57
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 58
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 59
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 60
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 61
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 62
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 63
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 64
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 65
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 66
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 67
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 68
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 69
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 70
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 71
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 72
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 73
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 74
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 75
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 76
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 77
Semmelweis Egyetem / Élettani Intézet / Budapest
Az osztott annotációs rendszer (DAS)
➢ Célja:
➢ Saját adatok feltüntetése az ENSEMBL felületen
➢ Adatok megosztása együttműködők közt
➢ Feltöltéshez használható egy külön fül a felületen
➢ A formátum kötött, alapvetően szöveges (ld. „Help”)
➢ ENSEMBL regisztráció és belépés segít
Bioinformatika és genomanalízis az orvostudományban - 6 78
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 79
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 80
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 81
Semmelweis Egyetem / Élettani Intézet / Budapest
Kapcsolódó eszközök
➢ BLAST/BLAT
➢ BioMart
➢ Adatletöltési lehetőségek
Bioinformatika és genomanalízis az orvostudományban - 6 82
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 83
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 84
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 85
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 86
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 87
Semmelweis Egyetem / Élettani Intézet / Budapest
Tömeges lekérdezés
➢ BioMart rendszer
➢ Web-felületen át elérhető
➢ Az adattartalom azonos az interaktív felületem megjelenítettel
➢ Szöveges eredményt ad
➢ Nagy adattömeget fogunk kapni eredményül
Bioinformatika és genomanalízis az orvostudományban - 6 88
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 89
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 90
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 91
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 92
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 93
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 94
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 95
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 96
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 97
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 98
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 99
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 100
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 101
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 102
Semmelweis Egyetem / Élettani Intézet / Budapest
A teljes adatbázis letöltése
➢ FTP (File Transfer Protocol)
➢ Az összes faj összes adata ami az ENSEMBL-ben van
➢ Szekvencia adatok➢ Teljes változatban
➢ Részben feldolgozva
➢ Annotációs adatok
Bioinformatika és genomanalízis az orvostudományban - 6 103
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 104
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 105
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 106
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 107
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 108
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 109
Semmelweis Egyetem / Élettani Intézet / Budapest
Bioinformatika és genomanalízis az orvostudományban - 6 110
Semmelweis Egyetem / Élettani Intézet / Budapest
Mit tanultunk ma?
➢ Az integrált adatbázisok nagyon hatékonyeszközök
➢ Rugalmasak és könnyen használhatók
➢ Az adatbázisok egymástól függenek – ezveszélyes lehet
➢ A tökéletes adatbázis a bioinformatika végsőcélja
Bioinformatika és genomanalízis az orvostudományban - 6 111
Semmelweis Egyetem / Élettani Intézet / Budapest
Feladat 6.
➢ Keresd meg a neked legérdekesebb fehérjétvagy gént valamelyik ENSEMBL genombanés próbálj megtudni minnél többet róla.
Bioinformatika és genomanalízis az orvostudományban - 6 112