Top Banner
Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF [email protected]
41

Bevezetés a bioinformatikába

Jan 31, 2016

Download

Documents

faris

Bevezetés a bioinformatikába. Medzihradszky-F ölkl Katalin SzBK & UCSF [email protected]. Zajlik az eredeti adatfelhalmozás. Megszekvenáltunk egy csomó fehérjét Megszekvenáltunk (úgy, ahogy) néhány genomot És most már a proteomikai laborok/centrumok is adatot adatra halmoznak. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Bevezetés a bioinformatikába

Bevezetés a bioinformatikába

Medzihradszky-Fölkl KatalinSzBK & UCSF

[email protected]

Page 2: Bevezetés a bioinformatikába

Zajlik az eredeti adatfelhalmozás

Megszekvenáltunk egy csomó fehérjét

Megszekvenáltunk (úgy, ahogy) néhány genomot

És most már a proteomikai laborok/centrumok is adatot adatra halmoznak

Page 3: Bevezetés a bioinformatikába

Zajlik az eredeti adatfelhalmozás vannak 2D-gél adatbázisok Röntgen-krisztallográfián és NMR-en

alapuló térszerkezetek fehérje-komplex és fehérje-hálózat

leírások mindenfélét megjósoló (de hogy?!)

szoftverekIránytűt, nyomolvasót, varázslót,

szoftvert, komputert ide !!!

Page 4: Bevezetés a bioinformatikába

Proteomikához komputer kell

Lehet (csináltam) ismeretlen fehérjét alaposan kiismerni MS-alapon és adatértelmező szoftver nélkül – csak minta-, munka- és időigényes

A korszerű analízishez lekereső program és adatbázis szükségeltetikÖsszevetjük a mért adatokat a már

katalogizált tudásanyaggal

Page 5: Bevezetés a bioinformatikába

Lekereső programok elé „peak picking” programok Kezdetben vala, hogy az analitikus

maga mazsolázta végig a spektrumokat

Mostanság ezt az MS-cég által biztosított szoftver teszi

Az eredeti jel többszörös átalakításon esik keresztül

Felbontás? küszöb? Kalibráció?

Page 6: Bevezetés a bioinformatikába

Lekereső programok Olyan ez, mint az operációs rendszerek

– egységes és tökéletes kellene

Helyette több van

A leggyakrabban használatosakat NEM a készülékgyártó cégek produkálták

Page 7: Bevezetés a bioinformatikába

SEQUEST I

J. Yates, LCQ ioncsapdára írta nyilván tökéletes, mert nem fejlesztik nagyon lassú, drága, és túl sok

mindent talál meg Jellemző módon a féltriptikus peptid

az alapbeállítása Csak házon belül

Page 8: Bevezetés a bioinformatikába

SEQUEST II

Viszont a Systems biology atyjai és meg sokan ioncsapdákat használnak, és esküsznek rá

Eredményeinek finomítására, rendszerezésére született meg a Peptide és Protein Prophet

Keller, A.; Nesvizhskii, A. I.; Kolker, E.; Aebersold, R. Anal. Chem. 2002, 74, 5383-5392.

Nesvizhskii AI, Keller A, Kolker E, Aebersold R. Anal. Chem. 2003, 75, 4646-4658.

Page 9: Bevezetés a bioinformatikába

Mascot (www.matrixscience.com)

John Cottrell, kicsi, de lelkes csapat állandó megújulás Ingyen a neten is elérhető –

limitációkkal Saját verzióért CPUnként kell fizetni

ABI, Agilent – script a MascothozMascot Destiller – mindent „megemészt”

Page 10: Bevezetés a bioinformatikába

ProteinProspector Almost my baby Nincs ipari háttere Ingyen hozzáférhető ősverzió, csak

egyedi spektrumokra, PMF-rehttp://prospector.ucsf.edu Új LC-MS/MS verzió, -site –

meghívásos megvásárolható az új verzió belső verzió egyedi, kvantira - tesztelt

Page 11: Bevezetés a bioinformatikába

Futottak még Spektrum-Mill – Prospector „ága”

(Agilent Technologies) készülék-gyártók bágyatag

próbálkozásai SwissProt és egyebek kísérletei

Lehetnek előnyeik, különleges opcióik, nem használják őket elegen...

Mint PC vs MAC?

Page 12: Bevezetés a bioinformatikába

Fehérje „lerakat” vs adatbázis

Szimpla szekvencia listavs. Kimerítő információ raktár

Page 13: Bevezetés a bioinformatikába

Fehérje „lerakat” vs adatbázis

MS-alapú „azonosításra” az első is megteszi

De ez így elég agytalan: „hypothetical” protein „predicted” protein

Kiindulási alapnak azért jó

Page 14: Bevezetés a bioinformatikába

Milyen az ideális adatbázis?

Minden fehérje benne van Hibátlanul Olyan formában, ahogy előfordul Csak egyszer

Page 15: Bevezetés a bioinformatikába

Milyen az ideális adatbázis?

Benne van, minden, amit már tudunk a fehérjéről (referenciákkal!)

Poszt-transzlációs módosítások Térszerkezet Protein-komplexek/hálózatok, aminek

a fehérjénk része Funkció

Page 16: Bevezetés a bioinformatikába

Milyen az ideális adatbázis?

Benne van az is, amit még csak sejtünk

Predikciós programok Szintén referenciákkal

És mindez, könnyen, gyorsan hasznosítható/lekereshető

Page 17: Bevezetés a bioinformatikába

Valóságos „lerakatok” (repositories)

GenPept NCBI’s Entrez Protein NCBI’s RefSeq

Page 18: Bevezetés a bioinformatikába

GenPept (NCBI ez is) GenBank Gene Products Data Bank CSAK lefordított nukleotid szekvenciák Forrás: kombinált nukleotid adatbázisok DNA Data Bank of Japan (DDBJ) European Molecular Biology Laboratory

(EMBL) Nucleotide Sequence Databas GenBank

Page 19: Bevezetés a bioinformatikába

GenPept

Egy fehérje több „kópiája” Csupán nukleotid-szekvenciákon

alapuló információk Semmi egyéb rendszerezés

A lekereső programok nem használják (így magában)

Page 20: Bevezetés a bioinformatikába

NCBI’s Entrez Protein

Ebbe aztán beletettek apait, anyait GenPept SwissProt PIR RefSeq Protein Data Bank

Page 21: Bevezetés a bioinformatikába

NCBI káoszra példa: idézet egy jelentésből

16. A spektrumban 15 csúcsot detektáltunk 13/15 matches (86%). Acc. #: 24664391 Species: UNREADABLE Name: gi|24664391|ref|

NP_524076.2| Proteasome beta2 subunit CG3329-PA [Drosophila melanogaster]

Acc. #: 7294336 Species: DROSOPHILA MELANOGASTER Name: CG3329-PA Acc. #: 15292263 Species: DROSOPHILA MELANOGASTER Name: LD44234p MW: 29827 Da pI: 8,9 Cov: 42%12/15 matches (80%). Acc. #: 2582506 Species: DROSOPHILA MELANOGASTER Name: 20S

proteasome beta2 subunit MW: 29883 Da pI: 8.7 Cov: 33%12/15 matches (80%). Acc. #: 2582504 Species: DROSOPHILA MELANOGASTER Name: 20S

proteasome beta2 subunit MW: 29895 Da pI: 8.7 Cov: 33%

A fenti szekvenciák néhány (4-5) aminosavban különböznek egymástól.

Page 22: Bevezetés a bioinformatikába

NCBI káoszra példa: Mascot találat

gi|34811282 Chain F, X- Ray Crystal Structure Of The Rho Transcription Termination Factor I n Complex With Single gi|285802 elongation factor 1- alpha [Giardia intestinalis] gi|12517248 enolase [Escherichia coli O157:H7] gi|17318569 keratin 1 [Homo sapiens] gi|12513642 2- oxoglutarate dehydrogenase (dihydrolipoyltranssuccinase E2 component) [Escherichia coli O157:H7] gi|435476 cytokeratin 9 [Homo sapiens] gi|7767020 Chain D, X- Ray Crystal Structure At 2.7 Angstroms Resolution Of Ternary Complex Between The Y65f Mu gi|231037 Phosphorylated I socitrate Dehydrogenase (E.C.1.1.1.42)

Mindenféle mesterséges konstrukciót is listáznak

Page 23: Bevezetés a bioinformatikába

Példa fehérje-variánsok azonosításra (S. mansoni)

Van azért igazi változatosság is

Page 24: Bevezetés a bioinformatikába

NCBI’s Entrez Protein Ez redundáns csak igazán De néha az egyedüli forrás Valami plusz információt már tartalmaz

A lekereső programok opciói között többnyire szerepel

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=search&DB=protein

Page 25: Bevezetés a bioinformatikába

Reference Sequence collection

„Each RefSeq represents a single, naturally occurring molecule from a particular organism.”

„RefSeq is a synthesis of information, is an interpretation by a particular group at a particular time.

http://www.ncbi.nlm.nih.gov/RefSeq/

Page 26: Bevezetés a bioinformatikába

Adatbázisok

Swiss-Prot TrEMBL PIR UniProt

Page 27: Bevezetés a bioinformatikába

Swiss-Prot a legalaposabb (nem hiába, svájci!) egy fehérjéhez egy azonosító Részletes bibliográfia – szekvencia-

variációk, funkció, térszerkezet, poszt-transzlációs módosítások, asszociáció betegségekkel, fejlődéssel, hálózatokkal stb.

Ami nincs benne, még létezhet, fehérje, variáció, poszt-transzlációs módosítás

Page 28: Bevezetés a bioinformatikába

SwissProt

→ Sokan abszolút megbízható forrásnak tekintik.

Igaz ez?

Page 29: Bevezetés a bioinformatikába

SWISSPROT

Marha fetuin

296 is O-glikozilált, de innen hiányzik

Valós variánsok vagy hibák?!

Foszforilációról semmi!

Page 30: Bevezetés a bioinformatikába

TrEMBL

Translation from EMBL (DDBJ/GenBank)

hogy az új szekvenciák mielőbb elérhetőek legyenek

csak azok a nukleotid szekvenciák, amik még nincsenek a Swiss-Protban

Page 31: Bevezetés a bioinformatikába

PIR-PSD

Protein Information Resource Protein Sequence Database

http://pir.georgetown.edu/Ha ezt beütöd, a UniProt-hoz jutsz

Egy fehérje „ID – „családokba” szervezve, mindenféle információval ellátva, a genetikai és bibliográfiai adatbázisokhoz keresztreferenciákkal

Page 32: Bevezetés a bioinformatikába

UniProt (http://www.expasy.uniprot.org/index.shtml)

Swiss-Prot és PIR-PSD és TrEMBL

Naponta változik, viszonylag komplett, gondosan gyomlált

Talán ezt a legpraktikusabb használni

Page 33: Bevezetés a bioinformatikába

UniProt (http://www.expasy.uniprot.org/index.shtml)

UniProt Archive (UniParc), a comprehensive non-redundant collection of the protein sequences

UniProt Knowledgebase (UniProtKB), database with rich annotation and extensive cross-referencing

UniProt Reference Clusters databases (UniRef), clustered sets of UniProt proteins based on 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) sequence identity.

Page 34: Bevezetés a bioinformatikába

Addig jó, míg lúdfűvel meg egérrel dolgozunk...

Sok minden hiányzik a nagy adatbázisokból...

Pl. a rizs (felteszem, a Monsanto ül rajta)

Page 35: Bevezetés a bioinformatikába

Addig jó, míg lúdfűvel meg egérrel dolgozunk...

segíthet „the Institute of Genomic Research” - http://www.tigr.org/

meg a kismillió maszek genomiális adatbázis, feltéve, hogy akarnak együttműködni

ha van saját lekeresőd, és az adatbázis letölthető – finom

ha tudsz de novo szekvenálni - BLAST

Page 36: Bevezetés a bioinformatikába

Áradat

a) Nőnek az adathalmazokb) Rengeteg különböző adatlerakat,

adatbázis keletkezett mostanábanc) Próbáljuk gátak közé szorítani őketd) egységesítése) EgyszerűsítésEz utóbbi néha csak szőnyeg alásöpri a

szemetet (problémát)

Page 37: Bevezetés a bioinformatikába

Nagy adathalmazok

MudPIT kísérlet, SCX, LCMS – 55 ezer CID

ezt már csak a gép „nézi végig” automatizált adat-analízis – pontozás,

hol a hihetőségi határ STATISZTIKA! - nagyobb adatbázis

jobb Random adatbázisok ellenőrzésre

Page 38: Bevezetés a bioinformatikába

Nagy adathalmazok

Nemcsak az analízis, a jelentés/dokumentáció is komplikált

Peptideket azonosítunk De azonosítjuk-e a fehérjéket?

Page 39: Bevezetés a bioinformatikába

Azonosítjuk-e a fehérjéket?Rank D Acc # Shared Species1 Q8N175 23 HUMAN1-1 0 P13645 23 HUMAN1-2 0 Q14664 17 HUMAN1-3 14 P35527 15 HUMAN1-13 0 Q7Z3Y7 3 HUMAN1-14 0 Q7Z3Y8 3 HUMAN1-15 0 Q7Z3Z0 3 HUMAN1-18 0 Q6ZP84 3 HUMAN1-21 0 P08779 3 HUMAN1-22 0 P02533 3 HUMAN1-29 0 Q7Z3Y9 2 HUMAN1-38 0 Q6ZPD6 2 HUMAN1-46 0 Q2M2I5 1 HUMAN1-47 0 P13646 1 HUMAN1-48 0 Q9NXG7 1 HUMAN1-52 1 Q04695 2 HUMAN1-56 1 Q8N1P6 2 HUMAN1-71 0 Q99456 1 HUMAN1-73 0 Q2TAZ7 1 HUMAN1-75 0 P08727 1 HUMAN1-76 0 P19012 1 HUMAN

Rank Acc # Num Unique Species

1 Q8N175 23 HUMAN

Mindent felsorolunk

Csak a nyertest

Page 40: Bevezetés a bioinformatikába

Mit adjunk meg?

Nem egyértelmű Viták és egyeztetés tárgya

Egyáltalán, mi is az a humán/egér, agyi/máj/plazma proteom?!

Page 41: Bevezetés a bioinformatikába

HUPO

Vannak/lesznek nemzetközi standard követelmények az adatok dokumentálására

Remélhetőleg az eszközöket is biztosítják majd hozzá