Преддипломная практика Евфратова С.А., ХФ МГУ, каф. ХПС, лаб. химии нуклеопротеидов Научный руководитель: Елена Михайловна Смекалова , ХПС Научный куратор : Головин Андрей Викторович, ФББ На тему «Анализ мотивов в больших массивах данных»
Преддипломная практика
Евфратова С.А., ХФ МГУ, каф. ХПС, лаб. химии нуклеопротеидов
Научный руководитель: Елена Михайловна Смекалова , ХПС
Научный куратор : Головин Андрей Викторович, ФББ
На тему «Анализ мотивов в больших массивах данных»
Часть 1
Универсальный поиск по паттернам
Недостатки web BLAST:
Невозможность запроса множественных паттернов (только 1 запрос и нет фильтров)
Сильные ограничения в масштабах поиска (паттерн нельзя менее 7, урезание результатов, нет вырожденных)
Низкая скорость и стабильность
Существующие инструменты ?
Необходимы собственные средства для сложных автоматизированных поисков
Решение - инструменты BioPerl на локальных серверах ФББ, собственные web сервисы.
Недостатки инструментов работы с паттернами (fragrep2, DNA Pattern Find):
●Нет поддежки genome-size●Нет поддержки множественных паттернов●Низкая стабильность
Теломеразная РНК
● Низкая гомология● Вариабельность
длины
● Матричный участок● Характерные
элементы вторичной структуры
● Общие элементы в родственных организмах
● Нет длинных рамок считывания для консервативных белков
Сложности поиска
Критерии поиска
Постановка задачи при биоинформатическом подходе
●Отбор кандидатов на роль теломеразной РНК в выбранном организме. Критерии отбора:
●- наличие теломерного повтора (матричный участок теломеразной РНК)●- отсутствие ORF с высокой гомологией к известным белкам●-переменный паттерн, соответствующий консервативным элементам первичной структуры
WORKFLOW MAP
Белковый фильтр● Задаётся
минимальная длина транслята
● Задаётся минимальная длина HSP
● Задаётся доля гомологичных остатков
●Было сменено несколько концепций принципа работы фильтра●Фильтр — прототип, есть нестабильности●Параметры, программы, функции сравнения и базы активно дискутируются
Выполнено:
● Полный и безошибочный парсинг отчётов BLAST
● Поиск по легко задаваемому числу паттернов
● Вывод промежуточных данных
Запуск белкового фильтра
● База SwissProt — 330Мб● Вариабельные параметры сравнения:
● минимальная длина пептида для проверки
● минимальная длина HSP для рассмотрения
● критическое значение гомологии
Планируется:
● Обеспечить стабильность работы белкового фильтра
● Автоматизировать ввод первичного паттерна — повтора
● Доработать эффективное средство отсева гомологичных белков
● Устанавливать прототип сервиса на компьютеры сотрудников
● Приступить к написанию веб-сервиса
Организм-контроль — Hansenula Polymorpha
● Простой организм - дрожжи
● Есть полный геном WGS
● Известна TR● Известны общие
для дрожжей паттерны в TR
Объекты:● Candida Yarrowia
Lypolitica● Hansenula
Polymorpha● Tribolium Castaneum● Caenorhabditis
elegans● Heterocephalus
Glaber● ???...
Control
Working..
Working...No patterns
Discuss...No patterns
Found.Broken gene
List will becontinued
Известны паттерны
Нет паттернов,использованиебелковой базы
Высокая гомологияаналогов
● Теломерный повтор● Sm сайт: at{3,6}g● Est1 hairpin: gaatg● Pseudo-knot:
tt(t|c)a(t|g).{0,3}gat
Дрожжевые паттерны:Основной целевой объект:Yarrowia Lypolytica
Текущие результаты
Yarrowia LypoliticaNum. + 475 Num. - 470Number of search resuls = 945Number of primary split seq. = 945Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat.{500,1200}at{3,6}gNumber seq's for processing ORF Filter: 2
Pattern: caatcgtccNumber seq's for processing ORF Filter: 113Number candidats: 86
Number candidats: 1
Pattern: caatcgtcc.{100,300}gaatg
Number seq's for processing ORF Filter: 15Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat
Number seq's for processing ORF Filter: 3
Pattern: caatcgtcc.{100,500}tt(t|c)a(t|g).{0,3}gatNumber seq's for processing ORF Filter: 12Pattern: caatcgtcc.{100,900}at{3,6}gNumber seq's for processing ORF Filter: 72
Текущие результатыum. + 475 Num. - 470Number of search resuls = 945Number of primary split seq. = 945Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat.{500,1200}at{3,6}gNumber seq's for processing ORF Filter: 2
Processing candidat # 1Processing ORF +1No protein chains more that 100Processing ORF +2Processing protein chain +2 length = 103matching value 0.472222222222222 does not exceed critical matching 0.6No protein chains more that 100Processing ORF +3Processing protein chain +3 length = 164matching value 0 does not exceed critical matching 0.6No protein chains more that 100Processing ORF -1No protein chains more that 100Processing ORF -2Processing protein chain -2 length = 115matching value 0 does not exceed critical matching 0.6No protein chains more that 100Processing ORF -3No protein chains more that 100Candidat #1 pass ORF filter
Processing candidat # 2Processing ORF +1Processing protein chain +1 length = 105matching value 0 does not exceed critical matching 0.6No protein chains more that 100Processing ORF +2No protein chains more that 100Processing ORF +3Processing protein chain +3 length = 102matching value 0 does not exceed critical matching 0.6No protein chains more that 100Processing ORF -1No protein chains more that 100Processing ORF -2Processing protein chain -2 length = 318No protein chains more that 100Processing ORF -3No protein chains more that 100Candidat #2 removedNumber candidats: 1
Yarrowia Lypolitica
template Est1 Pseudo-knot Sm site
HeterocephalusGlaber
template CR2 CR3
CR3
CR8CR7CR6
CR5
CR5
Часть 2
Статистические распределения
Последовательности Шайн-Дальгарно
● Консервативные последовательности в бактериальных генах для эффективного связывания мРНК с рибосомой при инициации трансляции
Задача● Построение
распределений по:● Размеру блока ШД● Расстоянию до старта● Размеру [AU] участка● Расстоянию до [AU]● Первой буквы старта● Расстоянию до пред. гена● Доле [AU] перед геном
Объект: E.coli
AccNum U00096.2 GI 48994873
4639675 bp> 4500 аннотаций генов
Format: GeneBank
Условия
Работ с объектом
● gene complement(5683..6459)● /gene="yaaA"● /locus_tag="b0006"● /gene_synonym="ECK0006"● /gene_synonym="JW0005"● /db_xref="EcoGene:EG10011"
РаспределенияД
ли
на Ш
Д ЧислоГеновлокус-тэги Д
лин
а Ш
Д ЧислоГеновлокус-тэги
До пред. ОРС
Чи
сло
оши
бок
ШД
ЧислоГеновлокус-тэги
Стартовый нуклеотид
Доля АТ
Дл
ина
ШД Число
Геновлокус-тэги
Размер АТ
Дл
ина
ШД Число
Геновлокус-тэги
Спейсер до АТ
Дл
ина
ШД Число
Геновлокус-тэги
Спейсер до старта
До пред. ОРС До пред. ОРС До пред. ОРС
?
Рабочие и отладочные данные
b0044 .aaggag.. mis. 3 GGGCTTCATCAATCTAATCAAGGATGGCATGAAAGGAGTGACCGTTTTATGmatch seq: AAAGGAGTGACCGTTTTATG length agGg--Nug 12b0045 .aa..agg. mis. 4 TGATACGTAACGCCGCACTGACTCTCATTGCAAAAAACAGGAATAACCATGmatch seq: AAAACAGGAATAACCATG length agGg--Nug 10b0046 taa..a.g. mis. 4 ATGACTACACTTTGTGGGAAAACAAAGGCGTAATCACGCGGGCTACCTATGmatch seq: TAATCACGCGGGCTACCTATG length agGg--Nug 13b0047 ..aggagg. mis. 3 AGGCGCGTCACTATAAGCAACGTCTGCTGGAATGGCAGGAGGCCCATCATGmatch seq: GCAGGAGGCCCATCATG length agGg--Nug 9b0048 t..gga..t mis. 4 TTACGCTTTACGTATAGTGGCGACAATTTTTTTTATCGGGAAATCTCAATGmatch seq: TCGGGAAATCTCAATGlength agGg--Nug 8b0049 t.a..a... mis. 6 ATTCCCGTATTCCGACTCGCCGTTCCCACACTCATTCATTAAAAGAATATGmatch seq: TCATTAAAAGAATATG length agGg--Nug 8b0050 t..g.agg. mis. 4 GATGGCGAACTATCTGGCGGAGAACGCGCCTTTGCAGGAGAGTTAACGATGmatch seq: TTTGCAGGAGAGTTAACGATG length agGg--Nug 13
Рабочие таблицыStrand direct, shift value: + , >200Continuous SD block types: 0| 0 1| 1 2| 35 3| 232 4| 290 5| 227 6| 91 7| 24 8| 5
Num. SD cont block types 9, len. AT block 0-20, len. subseq 350 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
0| 1| 1 2| 10 22 27 32 20 10 14 4 3 3 1 1 3| 32 136 211 218 186 111 72 50 24 15 12 6 5 1 2 1 4| 2 36 201 316 322 234 160 85 56 32 26 10 6 4 5 4 1 1
1 5| 41 146 235 237 177 125 65 42 31 16 6 6 3 1 1 1 6| 16 61 92 94 76 36 29 19 8 7 1 1 2 1 1 1 7| 8 37 31 27 19 21 7 5 2 5 1 2 8| 3 7 4 2 1 2 1 9| 1
Strand direct, shift value: + , 21-200Continuous SD block types: 0| 0 1| 2 2| 44 3| 156 4| 225 5| 153 6| 65 7| 19 8| 4
Полученные распределения
SD vs START spacer
SD vs AT block
SD, prev ORF
SD vs AT stat
0 20 40 60 80 1000
0,02
0,04
0,06
0,08
0,1
0,12
0,14RND>20<20
AT distr.
00
SD vs AT stat ORF > 200
SD vs AT stat ORF 21-200
SD vs AT stat ORF 9-20
SD vs AT stat ORF 1-8
SD vs AT stat ORF 0
SD vs AT stat ORF -1
SD vs AT stat ORF -4
SD vs AT stat ORF < -4
SD vs AT block 1-8
SD vs AT block 9-20
SD vs AT block 21-200
SD vs AT block -4
SD vs AT block > 200 SD vs AT block 0
SD vs AT block -1
SD vs AT block < -4
Экспериментальная модель — репортёрная конструкция измерения относительной экспрессионной активности в зависимости от инициаторного участка
Control reporter Measured
T5 T5
UTR UTR
VariableSD len. AU rich
Ter +/- spacer startspacer AU 1st let.
Спасибо за внимание!