Informační tok

Informační tokInformační tok

Název Symbol Výskyt (%)

Alanine A, Ala 7.49

Arginine R, Arg 5.22

Asparagine N, Asn 4.53

Aspartic acid D, Asp 5.22

Cysteine C, Cys 1.82

Glutamine Q, Gln 4.11

Glutamic acid E, Glu 6.26

Glycine G, Gly 7.10

Histidine H, His 2.23

Isoleucine I, Ile 5.45

Leucine L, Leu 9.06

Lysine K, Lys 5.82

Methionine M, Met 2.27

Phenylalanine F, Phe 3.91

Proline P, Pro 5.12

Serine S, Ser 7.34

Threonine T, Thr 5.96

Tryptophan W, Trp 1.32

Tyrosine Y, Tyr 3.25

Valine V, Val 6.48

Název Symbol Výskyt (%)

20 základních L- aminokyselin

http://prowl.rockefeller.edu/aainfo/pdb/alanine.pdb

http://prowl.rockefeller.edu/aainfo/pdb/arginine.pdb

http://prowl.rockefeller.edu/aainfo/pdb/asparagine.pdb

http://prowl.rockefeller.edu/aainfo/pdb/aspartate.pdb

http://prowl.rockefeller.edu/aainfo/pdb/cysteine.pdb

http://prowl.rockefeller.edu/aainfo/pdb/glutamine.pdb

http://prowl.rockefeller.edu/aainfo/pdb/glutamate.pdb

http://prowl.rockefeller.edu/aainfo/pdb/glutamate.pdb

http://prowl.rockefeller.edu/aainfo/pdb/glycine.pdb

http://prowl.rockefeller.edu/aainfo/pdb/histidine.pdb

http://prowl.rockefeller.edu/aainfo/pdb/isoleucine.pdb

http://prowl.rockefeller.edu/aainfo/pdb/tyrosine.pdb

http://prowl.rockefeller.edu/aainfo/pdb/valine.pdb

asparagineargininealanine

glutamine glycine histidine

aspartic acid cysteine

glutamic acid isoleucine

leucine lysine methionine phenylalanine proline

serine threonine tryptophan tyrosine valine

SQ Sequence 12847 BP; 2589 A; 4068 C; 3455 G; 2735 T; 0 other;

aagcttgata aataaatgga gggacagcag cgttatctcc acctcccata atgaaaaaac 60 ttgtctcatg tataatatta taatattaaa taattggttc tacaaatata caagagtcga 120 gggcattgaa ttgcagaaac tttgagtaga agtgtagtcc aatctttttt attaccaata 180 tttctcaatt ataattttct tcactatata tatatttttt taaaaggtgt catcctaaca 240 cattttatta aaataaatat gattagatat aataattata ccttgaagag atacaaaata 300 cagtgcataa aactagccct tgaacaattt aattgtgtaa tctacaaatt aggttctcaa 360 gttgagcaaa tatatatata tacatatatg ttgaaaaaac ataaatagaa aaggttgtta 420 tcaacataac cctatggaga cctataattc cctaaatcaa catgccctca tacattacgc 480 ttaaactcac ttggtagagg tggtcttgat ctaatccatg cacttccatt gacaacaata 540 tgctttatac gtttacacaa actctctaag gcaatatgat cttgaaaaat acctaggtgg 600 tgatagaaag agaagtgggg aattggagta gccaatctta tatgtttttg tatatgtggg 660 gcaataccat ttatatttcc ttaagttcaa aatcattttt gccaatcaaa tgtcttgagt 720 gattagactt ataaaaatgc aataatggct cttggttggt tgttctaagt tgcttaaaaa 780 aatattaaca tgaatcaaaa ttaactgctt caaggagttg aacattgact actaaaatgc 840 aaatgtcctt taaacaaatg agtaggaaca cttaacttag atcaaacata acatcctaat 900 cactttaaaa tgtcaattcc aaccccttta tcaacttcaa tcccaagatg tcctctctct 960 tattgatatt tgaacaacaa caaagataaa caaccattat ccctaccaag caagtaactt 1020 gtagaaaaaa agaaaaaaga aaaaaggaaa aaggatcctt taaaaagcca aaagccacca 1080 caattccaac cctttgatca acttcaatcc caagatgtcc tctctcttat tgatatttga 1140 acaacaacaa agataaacaa cctttatcct taccaagcag gtaacttgta gaaaaaaaaa 1200

Syntéza proteinu během translace

>1HCO:A|PDBID|CHAIN|SEQUENCE

VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

>1HCO:B|PDBID|CHAIN|SEQUENCE

VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH

The sequence of a protein contains the information needed to determine its unique

three dimensional structure

6

• For sperm whalemyoglobin the structure has been determined (pdb code 1vxa)

• picture from

• This is known as the Anfinsen hypothesisVLSEGEWQLV LHVWAKVEAD VAGHGQDILI RLFKSHPETL EKFDRFKHLK LKKHGVTVLT ALGAILKKKG HHEAELKPLA QSHATKHKIP IKYLEFISEA IIHVLHSRHP GDFGADAQGA MNKALELFRK DIAAKYKELG YQG

Anfinsen, C. B. (1973). Principles that govern the folding of protein chains. Science, 181, 223-230

http://www.imb-jena.de/cgi-bin/ImgLib.pl?CODE=1vxa

Afinsenův postulát

Sekvence proteinu obsahuje veškerou nutnou informaci která určuje prostorovou strukturu proteinu.

SPERM WHALE MYOGLOBIN

MYSSSPCKLPSLSPVARSFSACSVGLGRSSYRATSCLPALCLPAGGFATSYSGGGGWFGEGILTGNEKETMQSLNDRLAGYLEKVRHVEQENASLESRIREWCEQQVPYMCPDYQSYFRTIEELQKKTLCSKAENARLVVEIDNAKLAADDFRTKYETEVSLRQLVESDINGLRRILDDLTLCKSDLEAQVESLKEELLCLKKNHEEEVNSLRCQLGDRLNVEVDAAPPVDLNRVLEEMR CQYETLVENNRRDAEDWLDTQSEELNQQVVSSSEQLQSCQAEIIELRRTVNALEIELQAQHSMRDALESTLAETEARYSSQLAQMQCMITNVEAQLAEIRADLERQNQEYQVLLDVRARLECEINTYRGLLESEDSKLPCNPCAPDYSPSKSCLPCLPAASCGPSAARTNCSPRPICVPCPGGRF

KÓDUJÍCÍ SEKVENCE (TEXT,PROTEIN,ČÍSLA??)

Jaký druh statistických dat hledat??

- ČETNOST ZASTOUPENÍ JEDNOTLIVÝCH PÍSMEN?- ZNAKOVÉ MOTIVY ?- PROSTOROVÉ ZOBRAZENÍ ?- PŘÍBUZNÉ SEKVENCE V DATABÁZÍCH?

>sp|Q92764|K1H5_HUMAN Keratin, type I cuticular Ha5 (Hair keratin, type I Ha5) - Homo sapiens (Human).

MYSSSPCKLPSLSPVARSFSACSVGLGRSSYRATSCLPALCLPAGGFATSYSGGGGWFGEGILTGNEKETMQSLNDRLAGYLEKVRHVEQENASLESRIREWCEQQVPYMCPDYQSYFRTIEELQKKTLCSKAENARLVVEIDNAKLAADDFRTKYETEVSLRQLVESDINGLRRILDDLTLCKSDLEAQVESLKEELLCLKKNHEEEVNSLRCQLGDRLNVEVDAAPPVDLNRVLEEMR CQYETLVENNRRDAEDWLDTQSEELNQQVVSSSEQLQSCQAEIIELRRTVNALEIELQAQHSMRDALESTLAETEARYSSQLAQMQCMITNVEAQLAEIRADLERQNQEYQVLLDVRARLECEINTYRGLLESEDSKLPCNPCAPDYSPSKSCLPCLPAASCGPSAARTNCSPRPICVPCPGGRF

Energetická hyperplocha proteinu zaujímajícího svou nativní strukturu z denaturovaného stavu

Department of Molecular ModelingDepartment of Molecular ModelingÚOCHB AV ČRÚOCHB AV ČR

Schematický model Proteinu

Rotamerní stavy aminokyselin ve struktuře proteinu

Sbalování proteinů je řízeno především aminokyselinami proteinového jádra

Aminokyseliny uvnitř molekuly proteinu jsou z hlediska nativní konformace nejdůležitější

Sbalování proteinů je řízeno hydrofobními interakcemi

Jak se proteiny sbalují a na čem opravdu záleží?

Kontakty mezi jednotlivými aminokyselinami korelují s rychlostí sbalování

Sbalování proteinů a jejich mechanismus je z velké části determinovánproteinovou topologií.

Mutační studie prokazují že převážná většina aminokyselin může být mutována s nulovým efektem na celkovou strukturu

Role lokálních kontaktů při sbalování proteinů

-Proteiny jejichž residua sousedící v sekvenci spolu interagují i ve struktuře mají tendenci se sbalovat rychleji než proteiny s převahou nelokálních kontaktů

-Interakce mezi vzdálenými aminokyselinami je z entropického hlediska nevýhodná

OTÁZKA:

Může vybraná aminokyselina a její fyzikální vlastnosti hrát zásadní roliv procesu nukleace či stabilizace nativní struktury?

Jakou vlastnost máme hledat?

Životní cyklus viru HIV

Definované terapeutické cíle

- Fúze- Reversní transkripce- Integrace- maturace

HIV Proteáza - terapeutický cíl

Folding, unfolding, misfolding, and aggregation

Choroby způsobené chybným sbalením popř. agregací

Mad cow (human forms, too), Parkinson’s, Huntington’s, ataxia,

Alzheimer’s, LCDD,

amyloidoses

Amyloidní fibrily z pohledu sbalování proteinů

Neural Network methodsNeural Network methods

• A neural network with multiple layers is presented with known sequences and structures - network is trained until it can predict those structures given those sequences

• Allows network to adapt as needed (it can consider neighboring residues like GOR)

Základní popis genetického algoritmu

1) Je stvořena populace individualit- individua jsou charakterizována a vyjádřena jako sekvence bitů. (obecně – řada)- je definována tzv. fittness funkce. je definována tak, že vezme jako vstup individuum a poskytne jako výstup číslo nebo vektor který udává kvalitu individua- určí se hierarchie individuí podle fittness funkce

2) Provede se ohodnocení všech individuí v první populaci

3) Vytvoří se nová individua. Reprodukční schopnost individuí je proporcionální jejich hierarchii v danné populaci. Zahrnuje

následující operace

Mutace Variace Křížení

4) Výběr individuí pro novou generaci rodičů - v originálním genet. algoritmu se zavrhnou rodiče

a pouze individua z nové generace mohou tvořit příští rodiče

- upravovaný GA uvažuje pro zhodnocení celou populaci včetně rodičů. Do další generace jsou selektováni

fittness funkcí. (tzv. elitářská výměna)

5) opakuj kroky 2 až 4 dokud není dosaženo požadované vlastnosti, nebo dokud neproběhne předepsaný počet iterací

Matematické základy GA položil J.H.Holland v tzv. „schemata theorem“

-schema je generalizací nebo částí individua

Informační tok

Documents