This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Анализ белковой последовательности
Анализ только аминокислотной последовательность (первичную структуру) белка без боковых цепей.
Предсказание физико-химических параметров белка Предсказание продуктов расщепления протеазами Гидрофобные, гидрофильные участки: например,
трансмембранные сегменты Пост-трансляционные модификации Функциональные домены, принадлежность к функциональным
семействам Фолдинг Клеточная локализация
Анализ белковой последовательности
The ExPASy server – протеомика http://www.expasy.ch/tools/#primary
The Swiss EMBnet – coiled-coil участки, выравнивания и др.http://www.ch.embnet.org
The CBS Prediction Servers – локализация, пост-трансляционные модификации…
Размер окна должен соответствовать характерному размеру анализируемого свойства (для ТМ – 19!)
Методы, основанные на технике скользящего окна, как правило, не интерпретируют результаты. При интерпретации важно: Учитывать только очень четко выраженные сигналы Не зависящие от параметров программы – размера окна, конкретного метода и т.п.
Предсказание трансмембранных сегментов: ProtScale
56 аминокислотных шкал (с литературными ссылками),скользящее окно -> выбор ширины окна
ProtScale - output
Более сложное предсказание трансмембранных сегментов: TMHMM
TMHMM предсказывает сегменты, а также топологию межсегментных участков
Нашёл 7 TMs
Домены• Домен – независимая глобулярная единица в
белке. Более функционально – часть белка, обладающая активностью (если отрезать, например). Как правило, каждый домен играет свою роль в функции белка (связывает ион или ДНК, содержит активный сайт и т.п.)
• Только небольшая часть известных доменов была изучена экспериментально, остальные описаны как сходные части гомологичных белков
• Очень сложно четко определить домен и его границы => существует много подходов и различных доменных коллекций. Какую выбрать?
История коллекций доменов1980ые – PROSITE: ручная выборка паттернов в
InterPro is a database of protein families, domains and functional sites in which identifiable features found in known proteins can be applied to unknown protein sequences.
Базируется на первичных классификациях целого ряда баз данных функциональных доменов и семейств, объединяет всю доступную информацию
С 2001 года – Release 18.0: 75.6% UniProt
Как это происходит
Каждое InterPro семейство объединяет первичные семейства других баз данных, описывающие один и тот же домен; включает все белки, принадлежащие хотя бы одной из первичных баз. Документация семейства подробно описывает функцию и структуру соответствующей белковой подписи.
Поиск доменов: InterProScan
InterProScan - результаты
Table View
CD server
Input - Accession number, gi или последовательность в FASTA формате
CD server – output
Красный – SMART, синий – Pfam, зеленый – COGsРваные концы указывают на неполные домены!!!!Курсор в графической части – краткое описание функции домена
CDART – поиск белков с аналогичной доменной структурой
Pfscan
Как правило, работает несколько минут
Pfscan - output Особенности вывода Pfscan
• Схема – легенда, как всегда под рисунком
• За легендой следует таблица с локализацией доменов
• Далее расшифровка каждого хита – с оценкой вероятности
• Затем следует графическая схема для каждого хита и scores (высокий score = хороший хит)
Structure Classification Databases
3D structural similarities (~70%):• SCOP (MRC Cambridge) • CATH (University College, London) • Dali FSSP (EBI, Cambridge)• 3 Dee (EBI, Cambridge)
Superfamily: Probable common evolutionary originБелки, имеющие низкую идентичность последовательностей, но чьи структурные и функциональные особенности позволяют предположить наличие общего предка, могут быть объединены в суперсемейства. Например, актин, the ATPase domain белков теплового шока и гексакиназы образуют суперсемейство
Fold: Major structural similarityОбщий фолд – одинаковая организация вторичной струкруры, с похожим пространственным расположением и с похожими соединениями.
Белки с одинаковым фолдом зачастую имеют концевые элементы вторичной структуры , изгибы и повороты различных разметов и конформаций (до половины всей структуры).
Белки, объединённые одним фолдом, могут не иметь общего предка (химия, физика упаковка и топология)
SCOP
SCOP
Family: Clear evolutionarily relationshipБелки, сгруппированные в семейство, тесно связаны эволюционно. Это значит, что парное выравнивание показывает 30% и выше.
Иногда похожие функция и структура показывают наличие общего предка и при отсутствии высокой идентичности последовательностей; например, многие глобины образуют семейство, хотя некоторые из них имеют идентичность 1D ~ 15%.
• The FSSP database (Fold classification based on Structure-Structure alignment of Proteins) базируется на all-against-all сравнении 3D структур белков в Protein Data Bank (PDB).
Классификация и выравнивание структур автоматически поддерживается и обновляется сервисом Dali search engine.
Dali Domain Dictionary
• Структурные домены выделяются автоматически. Каждый получает Domain Classification number.
DALI
Fold types
• Типы фолдов – кластеры структур в пространстве фолдов с средним парным Z-scores (by Dali) выше 2.
Высокий Z-score соответствует структурам с близкой архитектурой.
Pfam – коллекция результатов множественного выравнивания последовательностей и HMM, содержащая большое количество доменов и семейств белков. Для каждого семейства в Pfam:
•Просмотреть результаты MSA
•Увидеть архитектуру доменов
•Распределение по видам
•Перекрестные ссылки
•Получить известные 3D структуры
•Pfam can be accessed directly or from the PDB description.
•Предоставляет выровненные 3D структуры гомологичных белков.
•Homstrad - структурный эквивалент Pfam. Вначале структуры белков поступают из PDB, кандидаты семейств традиционно идентифицируются поиском по Pfam. Используются определения доменов из SCOP и информация о белках собирается из SwissProt, Pfam and Interpro.
• Аннотирование – в программе Joy, которая предоставляет следующую информацию:
• Тип вторичной структуры
• Относительную доступность боковых цепей
• Наличие водородных связей между амидом и карбонилом
Инструмент для классификации, базирующийся на иерархии 600 белков-представителей из PDB. Структурное выравнивание 600 структур было выполнено при помощи алгоритма 3dSearch.
3D Structure Validation Теория: Белки – молекулы несложные:
- Линейная структура цепей. - Только 20 различных аминокислот.
На практике: Мы не понимаем в деталях механизм сворачивания белковых структур.
Единственные «силы», используемые для уточнения, «улучшения» новой структуры – это данные измерений и некоторые факты, присущие для ВСЕХ молекул
В общем случае используемая информация недостаточна для распознавания уникальной структуры.
Значительная часть работы по уточнению структуры – взгляд эксперта и ручные корректировки.
Белки содержат тысячи атомов и невозможно постоянно выполнять ручные корректировки.
Это – источник неправильных структур и «слабых мест» в глобьально верных структурах.
Оценка качества стереохимии
«Исходя исключительно из координат атомов, есть ли методы, дающие оценку общему стереохимическому качеству структуры? Такие методы могут оказаться полезными для идентификации неправильно построенных структур во время циклов уточнения, или после завершения моделирования. Большинство PDB файлов содержат некоторую авторскую информацию о параметрах кристаллографии. В то же время эта информация обычно короткая, количественная не готовая к machine-reading и не предоставляет качественных оценок надёжности предоставленной структуры».
Morris et al (PROTEINS: Structure, Function, and Genetics 12:345-364, 1992)
Очень полезная информация для верификации посылаемой структуры белка
Introduction to structure verificationhttp://www.cmbi.kun.nl/gv/pdbreport/checkhelp/
Мы можем использовать эту PDB структуру?
Год публикации
Разрешение X-ray структуры
Проблемные остатки (отсутствующие аминокислоты/атомы/боковые цепи)
Растворитель/вода
Какая цель?
Важные параметры Judging the Quality of Macromolecular Models
http://www.cmbi.kun.nl/gv/pdbreport/checkhelp/
R-factor: величина, показывающая согласие между кристаллографической моделью и полученными данными X-ray. Оценивая построенную модель кристаллографер рассчитывает ожидаемую интенсивность рефлексов в образце дифракции и затем сравнивает его с экспериментальными данными, содержащими измеренные позиции и интенсивности. -R-factor используется для проверки прогресса в уточнении структуры. Финальный R-factor – единая мера качества модели. Чем меньше, тем лучше.
Разрешение: В X-ray кристаллографии "2-Å model" означает, что модель учитывает дифракцию в группе одинаковых, параллельных плоскостей с атомами с промежутком в 2 Å.
Точность атомных позиций: В кристаллографии, в отличии от световой микроскопии, термин «разрешение» означает количество данных, в конечном счете используемое для определения структуры. Напротив, точность атомной позиции частично зависит от разрешения, но в большей степени зависит от качества данных – R-factor.
- Хорошие данные могут приносить атомные полиции с точностью 0.2–0.1 от заявленного разрешения.
WHAT IF WHAT IF – CMBI (Centre for Molecular and Biomolecular Informatics)
CHECK - качество структуры/модели белка
FULCHK – наиболее подробный отчёт о проверке.
Производимые проверки – от простых проверок длин связей, торзионных углов и проверок поверхности до глубокого анализа контактов и сети водородных связей.
The PDBREPORT Database http://www.cmbi.kun.nl/gv/pdbreport/
Index of all diagnostic messages http://www.cmbi.kun.nl/gv/pdbreport/pdbreport/revindex.html
WHAT_CHECK CriteriaPeptide-Pl: RMS distance of the backbone oxygen from the oxygen in similar backbone conformations found in the database, distances in the range [3..1] are mapped to [0..9]Rotamer: Probability that the sidechain rotamer (chi-1 only) is correct, probabilities in the range [0.1 .. 0.9] are mapped to [0..9]Chi-1/Chi-2: Z-score for the sidechain chi-1/chi-2 combination, Z-scores in the range probabilities in the range [-4..+4] are mapped to [0..9]Bumps: Sum of bumps per residue, distances in the range [0.1 .. 0] are mapped to [0..9].Packing 1: First packing quality Z-score, Z-scores in the range [-5..+5] are mapped to [0..9].Packing 2: Second packing quality Z-score, Z-scores in the range [-3..+3] are mapped to [0..9].In/Out: Absolute inside/outside distribution Z-score per residue, Z-scores in the range [4..2] are mapped to [0..9].H-Bonds: 9 minus number of unsatisfied hydrogen bonds, 2 is subtracted for buried backbone nitrogen, 5 for buried sidechain.Flips: Indicates flipped Asn/Gln/His sidechain, 9=OK, 0=needs flipping.
WHAT_CHECK Criteria
Access: Relative side chain accessibility, 0=buried, 9=exposed.Quality: Several quality estimators from the PDBREPORTs.0=is oh no, 9=perfect.
B-Factors: Crystallographic B-factors, the range [10..60] is mapped to [9..0]Bonds: Absolute Z-score of the largest bond deviation per residue, absolute Z-Scores in the range [5..2] are mapped to [0..9].Angles: Absolute Z-score of the largest angle deviation per residue, absolute Z-Scores in the range [5..2] are mapped to [0..9].Torsions: Average Z-score of the torsion angles per residue, Z-Scores in the range [-3..+3] are mapped to [0..9].Phi/Psi: Ramachandran Z-score per residue, Z-Scores in the range [-4..+4] are mapped to [0..9].Planarity: Z-score for the planarity of the residue sidechain, Z-Scores in the range [6..2] are mapped to [0..9].Chirality: Average absolute Z-score of the chirality deviations per residue, average absolute Z-Scores in the range [4..2] are mapped to [0..9].Backbone: Number of similar backbone conformations found in the database, numbers in the range [0..10] are mapped to [0..9]
Procheck – программа и сервер для проверки геометрии структуры белка.
1. Геометрия ковалентных связей
2. Планарность
3. Торзионные углы
4. Хиральность
5. Нековалентные взаимодействия
6. Водородные связи основной цепи
7. Дисульфидные мостики
8. Сравнение параметров
9. Поаминокислотный анализ
Procheck. Отчёты
PDB Validation Tools
Ad it! http://pdb.rutgers.edu/validate/
The PDB Validation Suite - набор инструментов, используемый в PDB для обработки и проверки структурных данных http://pdb.rutgers.edu/mmcif/VAL/index.html
ERRAT•ERRAT - алгоритм верификации белковых структур, который особенно подходит для оценки процесса построения и улучшения моделей в кристаллографии.
• Программа анализирует статистики нековалентных взаимодействий между атомами различных типов.
• Общая диаграмма даёт значения функции ошибки (скоринг) vs позиция9-residue окна. Путём сравнения с статистиками из очень качественных структур функция ошибки калибруется.
• PROVE: PROtein Volume Evaluation, a validation package
• PROVE - ПО для проверки качества атомарной модели макромолекулярной структуры
• Базируется на расчете атомных объемов. PROVE считает объемы атомов в макромолекуле, используя алгоритм SURVOL (SURVOL обрабатывает атомы как твёрдые сферы с определенными радиусами, зависящими от типа атома)
• Использовались высококачественные структуры для выяснения ожидаемых (средних) объемов погруженных атомов.
• Отклонения в атомных объемах оценивается в Z-score (how many standard deviations their volume is away from the mean for that atom type). Ожидаемое Z-score – 0.
http://www.ucmb.ulb.ac.be/UCMB/PROVE/
Biotech Validation Suite
Biotech Validation Suite – EMBL http://biotech.ebi.ac.uk:8400/
SAV
SAV- Structure Analysis and Verification Server http://www.doe-mbi.ucla.edu/Services/SV/
Information about the server – Before you starthttp://www.doe-mbi.ucla.edu/Services/SV/Info.php
Для чего визуализация?ALLSFERKYRVRGGTLIGGDLFDFWVGPYFVGFFGVSAIFFIFLGVSLIGYAASQGPTWDPFAISINPPDLKYGLAAPLLEGGFWQAITVCALGAFISWMLREVEISRKLGIGWHVPLAFCVPIFMFCVLQVFRPLLLGSWGHAFPYGILSHLDWVNNFGYQYLNWHYNPGHMSSVSFLFVNAMALGLHGGLILSVANPGDGDKVKTAEHENQYFRDVVGYSIGALSIHRLGLFLASNIFLTGAFGTIASGPFWTRGWPEWWGWWLDIPFWS
An Introduction to Protein Architecture By A. M. Lesk
• Plugin для Netscape Communicator и других браузеров
• Основное предназначение – позволяет визуализировать биомолекулы на компьютерах, лишённых каких-либо других инструментов для структурной биологии, работает как надстройка в браузере.
• Подобен RasMol, но не поддерживает командной строки