Bevezetés a bioinformatikába

Bevezetés a bioinformatikába

Medzihradszky-Fölkl KatalinSzBK & UCSF

[email protected]

Zajlik az eredeti adatfelhalmozás

Megszekvenáltunk egy csomó fehérjét

Megszekvenáltunk (úgy, ahogy) néhány genomot

És most már a proteomikai laborok/centrumok is adatot adatra halmoznak

Zajlik az eredeti adatfelhalmozás vannak 2D-gél adatbázisok Röntgen-krisztallográfián és NMR-en

alapuló térszerkezetek fehérje-komplex és fehérje-hálózat

leírások mindenfélét megjósoló (de hogy?!)

szoftverekIránytűt, nyomolvasót, varázslót,

szoftvert, komputert ide !!!

Proteomikához komputer kell

Lehet (csináltam) ismeretlen fehérjét alaposan kiismerni MS-alapon és adatértelmező szoftver nélkül – csak minta-, munka- és időigényes

A korszerű analízishez lekereső program és adatbázis szükségeltetikÖsszevetjük a mért adatokat a már

katalogizált tudásanyaggal

Lekereső programok elé „peak picking” programok Kezdetben vala, hogy az analitikus

maga mazsolázta végig a spektrumokat

Mostanság ezt az MS-cég által biztosított szoftver teszi

Az eredeti jel többszörös átalakításon esik keresztül

Felbontás? küszöb? Kalibráció?

Lekereső programok Olyan ez, mint az operációs rendszerek

– egységes és tökéletes kellene

Helyette több van

A leggyakrabban használatosakat NEM a készülékgyártó cégek produkálták

SEQUEST I

J. Yates, LCQ ioncsapdára írta nyilván tökéletes, mert nem fejlesztik nagyon lassú, drága, és túl sok

mindent talál meg Jellemző módon a féltriptikus peptid

az alapbeállítása Csak házon belül

SEQUEST II

Viszont a Systems biology atyjai és meg sokan ioncsapdákat használnak, és esküsznek rá

Eredményeinek finomítására, rendszerezésére született meg a Peptide és Protein Prophet

Keller, A.; Nesvizhskii, A. I.; Kolker, E.; Aebersold, R. Anal. Chem. 2002, 74, 5383-5392.

Nesvizhskii AI, Keller A, Kolker E, Aebersold R. Anal. Chem. 2003, 75, 4646-4658.

Mascot (www.matrixscience.com)

John Cottrell, kicsi, de lelkes csapat állandó megújulás Ingyen a neten is elérhető –

limitációkkal Saját verzióért CPUnként kell fizetni

ABI, Agilent – script a MascothozMascot Destiller – mindent „megemészt”

ProteinProspector Almost my baby Nincs ipari háttere Ingyen hozzáférhető ősverzió, csak

egyedi spektrumokra, PMF-rehttp://prospector.ucsf.edu Új LC-MS/MS verzió, -site –

meghívásos megvásárolható az új verzió belső verzió egyedi, kvantira - tesztelt

Futottak még Spektrum-Mill – Prospector „ága”

(Agilent Technologies) készülék-gyártók bágyatag

próbálkozásai SwissProt és egyebek kísérletei

Lehetnek előnyeik, különleges opcióik, nem használják őket elegen...

Mint PC vs MAC?

Fehérje „lerakat” vs adatbázis

Szimpla szekvencia listavs. Kimerítő információ raktár

Fehérje „lerakat” vs adatbázis

MS-alapú „azonosításra” az első is megteszi

De ez így elég agytalan: „hypothetical” protein „predicted” protein

Kiindulási alapnak azért jó

Milyen az ideális adatbázis?

Minden fehérje benne van Hibátlanul Olyan formában, ahogy előfordul Csak egyszer


Benne van, minden, amit már tudunk a fehérjéről (referenciákkal!)

Poszt-transzlációs módosítások Térszerkezet Protein-komplexek/hálózatok, aminek

a fehérjénk része Funkció


Benne van az is, amit még csak sejtünk

Predikciós programok Szintén referenciákkal

És mindez, könnyen, gyorsan hasznosítható/lekereshető

Valóságos „lerakatok” (repositories)

GenPept NCBI’s Entrez Protein NCBI’s RefSeq

GenPept (NCBI ez is) GenBank Gene Products Data Bank CSAK lefordított nukleotid szekvenciák Forrás: kombinált nukleotid adatbázisok DNA Data Bank of Japan (DDBJ) European Molecular Biology Laboratory

(EMBL) Nucleotide Sequence Databas GenBank

GenPept

Egy fehérje több „kópiája” Csupán nukleotid-szekvenciákon

alapuló információk Semmi egyéb rendszerezés

A lekereső programok nem használják (így magában)

NCBI’s Entrez Protein

Ebbe aztán beletettek apait, anyait GenPept SwissProt PIR RefSeq Protein Data Bank

NCBI káoszra példa: idézet egy jelentésből

16. A spektrumban 15 csúcsot detektáltunk 13/15 matches (86%). Acc. #: 24664391 Species: UNREADABLE Name: gi|24664391|ref|

NP_524076.2| Proteasome beta2 subunit CG3329-PA [Drosophila melanogaster]

Acc. #: 7294336 Species: DROSOPHILA MELANOGASTER Name: CG3329-PA Acc. #: 15292263 Species: DROSOPHILA MELANOGASTER Name: LD44234p MW: 29827 Da pI: 8,9 Cov: 42%12/15 matches (80%). Acc. #: 2582506 Species: DROSOPHILA MELANOGASTER Name: 20S

proteasome beta2 subunit MW: 29883 Da pI: 8.7 Cov: 33%12/15 matches (80%). Acc. #: 2582504 Species: DROSOPHILA MELANOGASTER Name: 20S

proteasome beta2 subunit MW: 29895 Da pI: 8.7 Cov: 33%

A fenti szekvenciák néhány (4-5) aminosavban különböznek egymástól.

NCBI káoszra példa: Mascot találat

gi|34811282 Chain F, X- Ray Crystal Structure Of The Rho Transcription Termination Factor I n Complex With Single gi|285802 elongation factor 1- alpha [Giardia intestinalis] gi|12517248 enolase [Escherichia coli O157:H7] gi|17318569 keratin 1 [Homo sapiens] gi|12513642 2- oxoglutarate dehydrogenase (dihydrolipoyltranssuccinase E2 component) [Escherichia coli O157:H7] gi|435476 cytokeratin 9 [Homo sapiens] gi|7767020 Chain D, X- Ray Crystal Structure At 2.7 Angstroms Resolution Of Ternary Complex Between The Y65f Mu gi|231037 Phosphorylated I socitrate Dehydrogenase (E.C.1.1.1.42)

Mindenféle mesterséges konstrukciót is listáznak

Példa fehérje-variánsok azonosításra (S. mansoni)

Van azért igazi változatosság is

NCBI’s Entrez Protein Ez redundáns csak igazán De néha az egyedüli forrás Valami plusz információt már tartalmaz

A lekereső programok opciói között többnyire szerepel

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=search&DB=protein

Reference Sequence collection

„Each RefSeq represents a single, naturally occurring molecule from a particular organism.”

„RefSeq is a synthesis of information, is an interpretation by a particular group at a particular time.

http://www.ncbi.nlm.nih.gov/RefSeq/

Adatbázisok

Swiss-Prot TrEMBL PIR UniProt

Swiss-Prot a legalaposabb (nem hiába, svájci!) egy fehérjéhez egy azonosító Részletes bibliográfia – szekvencia-

variációk, funkció, térszerkezet, poszt-transzlációs módosítások, asszociáció betegségekkel, fejlődéssel, hálózatokkal stb.

Ami nincs benne, még létezhet, fehérje, variáció, poszt-transzlációs módosítás

SwissProt

→ Sokan abszolút megbízható forrásnak tekintik.

Igaz ez?

SWISSPROT

Marha fetuin

√

√

296 is O-glikozilált, de innen hiányzik

Valós variánsok vagy hibák?!

Foszforilációról semmi!

TrEMBL

Translation from EMBL (DDBJ/GenBank)

hogy az új szekvenciák mielőbb elérhetőek legyenek

csak azok a nukleotid szekvenciák, amik még nincsenek a Swiss-Protban

PIR-PSD

Protein Information Resource Protein Sequence Database

http://pir.georgetown.edu/Ha ezt beütöd, a UniProt-hoz jutsz

Egy fehérje „ID – „családokba” szervezve, mindenféle információval ellátva, a genetikai és bibliográfiai adatbázisokhoz keresztreferenciákkal

UniProt (http://www.expasy.uniprot.org/index.shtml)

Swiss-Prot és PIR-PSD és TrEMBL

Naponta változik, viszonylag komplett, gondosan gyomlált

Talán ezt a legpraktikusabb használni

UniProt (http://www.expasy.uniprot.org/index.shtml)

UniProt Archive (UniParc), a comprehensive non-redundant collection of the protein sequences

UniProt Knowledgebase (UniProtKB), database with rich annotation and extensive cross-referencing

UniProt Reference Clusters databases (UniRef), clustered sets of UniProt proteins based on 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) sequence identity.

Addig jó, míg lúdfűvel meg egérrel dolgozunk...

Sok minden hiányzik a nagy adatbázisokból...

Pl. a rizs (felteszem, a Monsanto ül rajta)

Addig jó, míg lúdfűvel meg egérrel dolgozunk...

segíthet „the Institute of Genomic Research” - http://www.tigr.org/

meg a kismillió maszek genomiális adatbázis, feltéve, hogy akarnak együttműködni

ha van saját lekeresőd, és az adatbázis letölthető – finom

ha tudsz de novo szekvenálni - BLAST

Áradat

a) Nőnek az adathalmazokb) Rengeteg különböző adatlerakat,

adatbázis keletkezett mostanábanc) Próbáljuk gátak közé szorítani őketd) egységesítése) EgyszerűsítésEz utóbbi néha csak szőnyeg alásöpri a

szemetet (problémát)

Nagy adathalmazok

MudPIT kísérlet, SCX, LCMS – 55 ezer CID

ezt már csak a gép „nézi végig” automatizált adat-analízis – pontozás,

hol a hihetőségi határ STATISZTIKA! - nagyobb adatbázis

jobb Random adatbázisok ellenőrzésre

Nagy adathalmazok

Nemcsak az analízis, a jelentés/dokumentáció is komplikált

Peptideket azonosítunk De azonosítjuk-e a fehérjéket?

Azonosítjuk-e a fehérjéket?Rank D Acc # Shared Species1 Q8N175 23 HUMAN1-1 0 P13645 23 HUMAN1-2 0 Q14664 17 HUMAN1-3 14 P35527 15 HUMAN1-13 0 Q7Z3Y7 3 HUMAN1-14 0 Q7Z3Y8 3 HUMAN1-15 0 Q7Z3Z0 3 HUMAN1-18 0 Q6ZP84 3 HUMAN1-21 0 P08779 3 HUMAN1-22 0 P02533 3 HUMAN1-29 0 Q7Z3Y9 2 HUMAN1-38 0 Q6ZPD6 2 HUMAN1-46 0 Q2M2I5 1 HUMAN1-47 0 P13646 1 HUMAN1-48 0 Q9NXG7 1 HUMAN1-52 1 Q04695 2 HUMAN1-56 1 Q8N1P6 2 HUMAN1-71 0 Q99456 1 HUMAN1-73 0 Q2TAZ7 1 HUMAN1-75 0 P08727 1 HUMAN1-76 0 P19012 1 HUMAN

Rank Acc # Num Unique Species

1 Q8N175 23 HUMAN

Mindent felsorolunk

Csak a nyertest

Mit adjunk meg?

Nem egyértelmű Viták és egyeztetés tárgya

Egyáltalán, mi is az a humán/egér, agyi/máj/plazma proteom?!

HUPO

Vannak/lesznek nemzetközi standard követelmények az adatok dokumentálására

Remélhetőleg az eszközöket is biztosítják majd hozzá

Bevezetés a bioinformatikába

Documents