Informační tok Informační tok
Jan 21, 2016
Informační tokInformační tok
Název Symbol Výskyt (%)
Alanine A, Ala 7.49
Arginine R, Arg 5.22
Asparagine N, Asn 4.53
Aspartic acid D, Asp 5.22
Cysteine C, Cys 1.82
Glutamine Q, Gln 4.11
Glutamic acid E, Glu 6.26
Glycine G, Gly 7.10
Histidine H, His 2.23
Isoleucine I, Ile 5.45
Leucine L, Leu 9.06
Lysine K, Lys 5.82
Methionine M, Met 2.27
Phenylalanine F, Phe 3.91
Proline P, Pro 5.12
Serine S, Ser 7.34
Threonine T, Thr 5.96
Tryptophan W, Trp 1.32
Tyrosine Y, Tyr 3.25
Valine V, Val 6.48
Název Symbol Výskyt (%)
20 základních L- aminokyselin
asparagineargininealanine
glutamine glycine histidine
aspartic acid cysteine
glutamic acid isoleucine
leucine lysine methionine phenylalanine proline
serine threonine tryptophan tyrosine valine
SQ Sequence 12847 BP; 2589 A; 4068 C; 3455 G; 2735 T; 0 other;
aagcttgata aataaatgga gggacagcag cgttatctcc acctcccata atgaaaaaac 60 ttgtctcatg tataatatta taatattaaa taattggttc tacaaatata caagagtcga 120 gggcattgaa ttgcagaaac tttgagtaga agtgtagtcc aatctttttt attaccaata 180 tttctcaatt ataattttct tcactatata tatatttttt taaaaggtgt catcctaaca 240 cattttatta aaataaatat gattagatat aataattata ccttgaagag atacaaaata 300 cagtgcataa aactagccct tgaacaattt aattgtgtaa tctacaaatt aggttctcaa 360 gttgagcaaa tatatatata tacatatatg ttgaaaaaac ataaatagaa aaggttgtta 420 tcaacataac cctatggaga cctataattc cctaaatcaa catgccctca tacattacgc 480 ttaaactcac ttggtagagg tggtcttgat ctaatccatg cacttccatt gacaacaata 540 tgctttatac gtttacacaa actctctaag gcaatatgat cttgaaaaat acctaggtgg 600 tgatagaaag agaagtgggg aattggagta gccaatctta tatgtttttg tatatgtggg 660 gcaataccat ttatatttcc ttaagttcaa aatcattttt gccaatcaaa tgtcttgagt 720 gattagactt ataaaaatgc aataatggct cttggttggt tgttctaagt tgcttaaaaa 780 aatattaaca tgaatcaaaa ttaactgctt caaggagttg aacattgact actaaaatgc 840 aaatgtcctt taaacaaatg agtaggaaca cttaacttag atcaaacata acatcctaat 900 cactttaaaa tgtcaattcc aaccccttta tcaacttcaa tcccaagatg tcctctctct 960 tattgatatt tgaacaacaa caaagataaa caaccattat ccctaccaag caagtaactt 1020 gtagaaaaaa agaaaaaaga aaaaaggaaa aaggatcctt taaaaagcca aaagccacca 1080 caattccaac cctttgatca acttcaatcc caagatgtcc tctctcttat tgatatttga 1140 acaacaacaa agataaacaa cctttatcct taccaagcag gtaacttgta gaaaaaaaaa 1200
Syntéza proteinu během translace
>1HCO:A|PDBID|CHAIN|SEQUENCE
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
>1HCO:B|PDBID|CHAIN|SEQUENCE
VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH
The sequence of a protein contains the information needed to determine its unique
three dimensional structure
6
• For sperm whalemyoglobin the structure has been determined (pdb code 1vxa)
• picture from
• This is known as the Anfinsen hypothesisVLSEGEWQLV LHVWAKVEAD VAGHGQDILI RLFKSHPETL EKFDRFKHLK LKKHGVTVLT ALGAILKKKG HHEAELKPLA QSHATKHKIP IKYLEFISEA IIHVLHSRHP GDFGADAQGA MNKALELFRK DIAAKYKELG YQG
Anfinsen, C. B. (1973). Principles that govern the folding of protein chains. Science, 181, 223-230
http://www.imb-jena.de/cgi-bin/ImgLib.pl?CODE=1vxa
Afinsenův postulát
Sekvence proteinu obsahuje veškerou nutnou informaci která určuje prostorovou strukturu proteinu.
SPERM WHALE MYOGLOBIN
MYSSSPCKLPSLSPVARSFSACSVGLGRSSYRATSCLPALCLPAGGFATSYSGGGGWFGEGILTGNEKETMQSLNDRLAGYLEKVRHVEQENASLESRIREWCEQQVPYMCPDYQSYFRTIEELQKKTLCSKAENARLVVEIDNAKLAADDFRTKYETEVSLRQLVESDINGLRRILDDLTLCKSDLEAQVESLKEELLCLKKNHEEEVNSLRCQLGDRLNVEVDAAPPVDLNRVLEEMR CQYETLVENNRRDAEDWLDTQSEELNQQVVSSSEQLQSCQAEIIELRRTVNALEIELQAQHSMRDALESTLAETEARYSSQLAQMQCMITNVEAQLAEIRADLERQNQEYQVLLDVRARLECEINTYRGLLESEDSKLPCNPCAPDYSPSKSCLPCLPAASCGPSAARTNCSPRPICVPCPGGRF
KÓDUJÍCÍ SEKVENCE (TEXT,PROTEIN,ČÍSLA??)
Jaký druh statistických dat hledat??
- ČETNOST ZASTOUPENÍ JEDNOTLIVÝCH PÍSMEN?- ZNAKOVÉ MOTIVY ?- PROSTOROVÉ ZOBRAZENÍ ?- PŘÍBUZNÉ SEKVENCE V DATABÁZÍCH?
>sp|Q92764|K1H5_HUMAN Keratin, type I cuticular Ha5 (Hair keratin, type I Ha5) - Homo sapiens (Human).
MYSSSPCKLPSLSPVARSFSACSVGLGRSSYRATSCLPALCLPAGGFATSYSGGGGWFGEGILTGNEKETMQSLNDRLAGYLEKVRHVEQENASLESRIREWCEQQVPYMCPDYQSYFRTIEELQKKTLCSKAENARLVVEIDNAKLAADDFRTKYETEVSLRQLVESDINGLRRILDDLTLCKSDLEAQVESLKEELLCLKKNHEEEVNSLRCQLGDRLNVEVDAAPPVDLNRVLEEMR CQYETLVENNRRDAEDWLDTQSEELNQQVVSSSEQLQSCQAEIIELRRTVNALEIELQAQHSMRDALESTLAETEARYSSQLAQMQCMITNVEAQLAEIRADLERQNQEYQVLLDVRARLECEINTYRGLLESEDSKLPCNPCAPDYSPSKSCLPCLPAASCGPSAARTNCSPRPICVPCPGGRF
Energetická hyperplocha proteinu zaujímajícího svou nativní strukturu z denaturovaného stavu
Department of Molecular ModelingDepartment of Molecular ModelingÚOCHB AV ČRÚOCHB AV ČR
Schematický model Proteinu
Rotamerní stavy aminokyselin ve struktuře proteinu
Sbalování proteinů je řízeno především aminokyselinami proteinového jádra
Aminokyseliny uvnitř molekuly proteinu jsou z hlediska nativní konformace nejdůležitější
Sbalování proteinů je řízeno hydrofobními interakcemi
Jak se proteiny sbalují a na čem opravdu záleží?
Kontakty mezi jednotlivými aminokyselinami korelují s rychlostí sbalování
Sbalování proteinů a jejich mechanismus je z velké části determinovánproteinovou topologií.
Mutační studie prokazují že převážná většina aminokyselin může být mutována s nulovým efektem na celkovou strukturu
Role lokálních kontaktů při sbalování proteinů
-Proteiny jejichž residua sousedící v sekvenci spolu interagují i ve struktuře mají tendenci se sbalovat rychleji než proteiny s převahou nelokálních kontaktů
-Interakce mezi vzdálenými aminokyselinami je z entropického hlediska nevýhodná
OTÁZKA:
Může vybraná aminokyselina a její fyzikální vlastnosti hrát zásadní roliv procesu nukleace či stabilizace nativní struktury?
Jakou vlastnost máme hledat?
Životní cyklus viru HIV
Definované terapeutické cíle
- Fúze- Reversní transkripce- Integrace- maturace
HIV Proteáza - terapeutický cíl
Folding, unfolding, misfolding, and aggregation
Choroby způsobené chybným sbalením popř. agregací
Mad cow (human forms, too), Parkinson’s, Huntington’s, ataxia,
Alzheimer’s, LCDD,
amyloidoses
Amyloidní fibrily z pohledu sbalování proteinů
Neural Network methodsNeural Network methods
• A neural network with multiple layers is presented with known sequences and structures - network is trained until it can predict those structures given those sequences
• Allows network to adapt as needed (it can consider neighboring residues like GOR)
Základní popis genetického algoritmu
1) Je stvořena populace individualit- individua jsou charakterizována a vyjádřena jako sekvence bitů. (obecně – řada)- je definována tzv. fittness funkce. je definována tak, že vezme jako vstup individuum a poskytne jako výstup číslo nebo vektor který udává kvalitu individua- určí se hierarchie individuí podle fittness funkce
2) Provede se ohodnocení všech individuí v první populaci
3) Vytvoří se nová individua. Reprodukční schopnost individuí je proporcionální jejich hierarchii v danné populaci. Zahrnuje
následující operace
Mutace Variace Křížení
4) Výběr individuí pro novou generaci rodičů - v originálním genet. algoritmu se zavrhnou rodiče
a pouze individua z nové generace mohou tvořit příští rodiče
- upravovaný GA uvažuje pro zhodnocení celou populaci včetně rodičů. Do další generace jsou selektováni
fittness funkcí. (tzv. elitářská výměna)
5) opakuj kroky 2 až 4 dokud není dosaženo požadované vlastnosti, nebo dokud neproběhne předepsaný počet iterací
Matematické základy GA položil J.H.Holland v tzv. „schemata theorem“
-schema je generalizací nebo částí individua