Jan 31, 2016
Zajlik az eredeti adatfelhalmozás
Megszekvenáltunk egy csomó fehérjét
Megszekvenáltunk (úgy, ahogy) néhány genomot
És most már a proteomikai laborok/centrumok is adatot adatra halmoznak
Zajlik az eredeti adatfelhalmozás vannak 2D-gél adatbázisok Röntgen-krisztallográfián és NMR-en
alapuló térszerkezetek fehérje-komplex és fehérje-hálózat
leírások mindenfélét megjósoló (de hogy?!)
szoftverekIránytűt, nyomolvasót, varázslót,
szoftvert, komputert ide !!!
Proteomikához komputer kell
Lehet (csináltam) ismeretlen fehérjét alaposan kiismerni MS-alapon és adatértelmező szoftver nélkül – csak minta-, munka- és időigényes
A korszerű analízishez lekereső program és adatbázis szükségeltetikÖsszevetjük a mért adatokat a már
katalogizált tudásanyaggal
Lekereső programok elé „peak picking” programok Kezdetben vala, hogy az analitikus
maga mazsolázta végig a spektrumokat
Mostanság ezt az MS-cég által biztosított szoftver teszi
Az eredeti jel többszörös átalakításon esik keresztül
Felbontás? küszöb? Kalibráció?
Lekereső programok Olyan ez, mint az operációs rendszerek
– egységes és tökéletes kellene
Helyette több van
A leggyakrabban használatosakat NEM a készülékgyártó cégek produkálták
SEQUEST I
J. Yates, LCQ ioncsapdára írta nyilván tökéletes, mert nem fejlesztik nagyon lassú, drága, és túl sok
mindent talál meg Jellemző módon a féltriptikus peptid
az alapbeállítása Csak házon belül
SEQUEST II
Viszont a Systems biology atyjai és meg sokan ioncsapdákat használnak, és esküsznek rá
Eredményeinek finomítására, rendszerezésére született meg a Peptide és Protein Prophet
Keller, A.; Nesvizhskii, A. I.; Kolker, E.; Aebersold, R. Anal. Chem. 2002, 74, 5383-5392.
Nesvizhskii AI, Keller A, Kolker E, Aebersold R. Anal. Chem. 2003, 75, 4646-4658.
Mascot (www.matrixscience.com)
John Cottrell, kicsi, de lelkes csapat állandó megújulás Ingyen a neten is elérhető –
limitációkkal Saját verzióért CPUnként kell fizetni
ABI, Agilent – script a MascothozMascot Destiller – mindent „megemészt”
ProteinProspector Almost my baby Nincs ipari háttere Ingyen hozzáférhető ősverzió, csak
egyedi spektrumokra, PMF-rehttp://prospector.ucsf.edu Új LC-MS/MS verzió, -site –
meghívásos megvásárolható az új verzió belső verzió egyedi, kvantira - tesztelt
Futottak még Spektrum-Mill – Prospector „ága”
(Agilent Technologies) készülék-gyártók bágyatag
próbálkozásai SwissProt és egyebek kísérletei
Lehetnek előnyeik, különleges opcióik, nem használják őket elegen...
Mint PC vs MAC?
Fehérje „lerakat” vs adatbázis
Szimpla szekvencia listavs. Kimerítő információ raktár
Fehérje „lerakat” vs adatbázis
MS-alapú „azonosításra” az első is megteszi
De ez így elég agytalan: „hypothetical” protein „predicted” protein
Kiindulási alapnak azért jó
Milyen az ideális adatbázis?
Minden fehérje benne van Hibátlanul Olyan formában, ahogy előfordul Csak egyszer
Milyen az ideális adatbázis?
Benne van, minden, amit már tudunk a fehérjéről (referenciákkal!)
Poszt-transzlációs módosítások Térszerkezet Protein-komplexek/hálózatok, aminek
a fehérjénk része Funkció
Milyen az ideális adatbázis?
Benne van az is, amit még csak sejtünk
Predikciós programok Szintén referenciákkal
És mindez, könnyen, gyorsan hasznosítható/lekereshető
Valóságos „lerakatok” (repositories)
GenPept NCBI’s Entrez Protein NCBI’s RefSeq
GenPept (NCBI ez is) GenBank Gene Products Data Bank CSAK lefordított nukleotid szekvenciák Forrás: kombinált nukleotid adatbázisok DNA Data Bank of Japan (DDBJ) European Molecular Biology Laboratory
(EMBL) Nucleotide Sequence Databas GenBank
GenPept
Egy fehérje több „kópiája” Csupán nukleotid-szekvenciákon
alapuló információk Semmi egyéb rendszerezés
A lekereső programok nem használják (így magában)
NCBI’s Entrez Protein
Ebbe aztán beletettek apait, anyait GenPept SwissProt PIR RefSeq Protein Data Bank
NCBI káoszra példa: idézet egy jelentésből
16. A spektrumban 15 csúcsot detektáltunk 13/15 matches (86%). Acc. #: 24664391 Species: UNREADABLE Name: gi|24664391|ref|
NP_524076.2| Proteasome beta2 subunit CG3329-PA [Drosophila melanogaster]
Acc. #: 7294336 Species: DROSOPHILA MELANOGASTER Name: CG3329-PA Acc. #: 15292263 Species: DROSOPHILA MELANOGASTER Name: LD44234p MW: 29827 Da pI: 8,9 Cov: 42%12/15 matches (80%). Acc. #: 2582506 Species: DROSOPHILA MELANOGASTER Name: 20S
proteasome beta2 subunit MW: 29883 Da pI: 8.7 Cov: 33%12/15 matches (80%). Acc. #: 2582504 Species: DROSOPHILA MELANOGASTER Name: 20S
proteasome beta2 subunit MW: 29895 Da pI: 8.7 Cov: 33%
A fenti szekvenciák néhány (4-5) aminosavban különböznek egymástól.
NCBI káoszra példa: Mascot találat
gi|34811282 Chain F, X- Ray Crystal Structure Of The Rho Transcription Termination Factor I n Complex With Single gi|285802 elongation factor 1- alpha [Giardia intestinalis] gi|12517248 enolase [Escherichia coli O157:H7] gi|17318569 keratin 1 [Homo sapiens] gi|12513642 2- oxoglutarate dehydrogenase (dihydrolipoyltranssuccinase E2 component) [Escherichia coli O157:H7] gi|435476 cytokeratin 9 [Homo sapiens] gi|7767020 Chain D, X- Ray Crystal Structure At 2.7 Angstroms Resolution Of Ternary Complex Between The Y65f Mu gi|231037 Phosphorylated I socitrate Dehydrogenase (E.C.1.1.1.42)
Mindenféle mesterséges konstrukciót is listáznak
Példa fehérje-variánsok azonosításra (S. mansoni)
Van azért igazi változatosság is
NCBI’s Entrez Protein Ez redundáns csak igazán De néha az egyedüli forrás Valami plusz információt már tartalmaz
A lekereső programok opciói között többnyire szerepel
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=search&DB=protein
Reference Sequence collection
„Each RefSeq represents a single, naturally occurring molecule from a particular organism.”
„RefSeq is a synthesis of information, is an interpretation by a particular group at a particular time.
http://www.ncbi.nlm.nih.gov/RefSeq/
Adatbázisok
Swiss-Prot TrEMBL PIR UniProt
Swiss-Prot a legalaposabb (nem hiába, svájci!) egy fehérjéhez egy azonosító Részletes bibliográfia – szekvencia-
variációk, funkció, térszerkezet, poszt-transzlációs módosítások, asszociáció betegségekkel, fejlődéssel, hálózatokkal stb.
Ami nincs benne, még létezhet, fehérje, variáció, poszt-transzlációs módosítás
SwissProt
→ Sokan abszolút megbízható forrásnak tekintik.
Igaz ez?
SWISSPROT
Marha fetuin
√
√
296 is O-glikozilált, de innen hiányzik
Valós variánsok vagy hibák?!
Foszforilációról semmi!
TrEMBL
Translation from EMBL (DDBJ/GenBank)
hogy az új szekvenciák mielőbb elérhetőek legyenek
csak azok a nukleotid szekvenciák, amik még nincsenek a Swiss-Protban
PIR-PSD
Protein Information Resource Protein Sequence Database
http://pir.georgetown.edu/Ha ezt beütöd, a UniProt-hoz jutsz
Egy fehérje „ID – „családokba” szervezve, mindenféle információval ellátva, a genetikai és bibliográfiai adatbázisokhoz keresztreferenciákkal
UniProt (http://www.expasy.uniprot.org/index.shtml)
Swiss-Prot és PIR-PSD és TrEMBL
Naponta változik, viszonylag komplett, gondosan gyomlált
Talán ezt a legpraktikusabb használni
UniProt (http://www.expasy.uniprot.org/index.shtml)
UniProt Archive (UniParc), a comprehensive non-redundant collection of the protein sequences
UniProt Knowledgebase (UniProtKB), database with rich annotation and extensive cross-referencing
UniProt Reference Clusters databases (UniRef), clustered sets of UniProt proteins based on 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) sequence identity.
Addig jó, míg lúdfűvel meg egérrel dolgozunk...
Sok minden hiányzik a nagy adatbázisokból...
Pl. a rizs (felteszem, a Monsanto ül rajta)
Addig jó, míg lúdfűvel meg egérrel dolgozunk...
segíthet „the Institute of Genomic Research” - http://www.tigr.org/
meg a kismillió maszek genomiális adatbázis, feltéve, hogy akarnak együttműködni
ha van saját lekeresőd, és az adatbázis letölthető – finom
ha tudsz de novo szekvenálni - BLAST
Áradat
a) Nőnek az adathalmazokb) Rengeteg különböző adatlerakat,
adatbázis keletkezett mostanábanc) Próbáljuk gátak közé szorítani őketd) egységesítése) EgyszerűsítésEz utóbbi néha csak szőnyeg alásöpri a
szemetet (problémát)
Nagy adathalmazok
MudPIT kísérlet, SCX, LCMS – 55 ezer CID
ezt már csak a gép „nézi végig” automatizált adat-analízis – pontozás,
hol a hihetőségi határ STATISZTIKA! - nagyobb adatbázis
jobb Random adatbázisok ellenőrzésre
Nagy adathalmazok
Nemcsak az analízis, a jelentés/dokumentáció is komplikált
Peptideket azonosítunk De azonosítjuk-e a fehérjéket?
Azonosítjuk-e a fehérjéket?Rank D Acc # Shared Species1 Q8N175 23 HUMAN1-1 0 P13645 23 HUMAN1-2 0 Q14664 17 HUMAN1-3 14 P35527 15 HUMAN1-13 0 Q7Z3Y7 3 HUMAN1-14 0 Q7Z3Y8 3 HUMAN1-15 0 Q7Z3Z0 3 HUMAN1-18 0 Q6ZP84 3 HUMAN1-21 0 P08779 3 HUMAN1-22 0 P02533 3 HUMAN1-29 0 Q7Z3Y9 2 HUMAN1-38 0 Q6ZPD6 2 HUMAN1-46 0 Q2M2I5 1 HUMAN1-47 0 P13646 1 HUMAN1-48 0 Q9NXG7 1 HUMAN1-52 1 Q04695 2 HUMAN1-56 1 Q8N1P6 2 HUMAN1-71 0 Q99456 1 HUMAN1-73 0 Q2TAZ7 1 HUMAN1-75 0 P08727 1 HUMAN1-76 0 P19012 1 HUMAN
Rank Acc # Num Unique Species
1 Q8N175 23 HUMAN
Mindent felsorolunk
Csak a nyertest
Mit adjunk meg?
Nem egyértelmű Viták és egyeztetés tárgya
Egyáltalán, mi is az a humán/egér, agyi/máj/plazma proteom?!
HUPO
Vannak/lesznek nemzetközi standard követelmények az adatok dokumentálására
Remélhetőleg az eszközöket is biztosítják majd hozzá