Top Banner
Преддипломная практика Евфратова С.А., ХФ МГУ, каф. ХПС, лаб. химии нуклеопротеидов Научный руководитель: Елена Михайловна Смекалова , ХПС Научный куратор : Головин Андрей Викторович, ФББ На тему «Анализ мотивов в больших массивах данных»
28

Pre - Diploma Work

May 24, 2015

Download

Documents

Sergey Evfratov
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Pre - Diploma Work

Преддипломная практика

Евфратова С.А., ХФ МГУ, каф. ХПС, лаб. химии нуклеопротеидов

Научный руководитель: Елена Михайловна Смекалова , ХПС

Научный куратор : Головин Андрей Викторович, ФББ

На тему «Анализ мотивов в больших массивах данных»

Page 2: Pre - Diploma Work

Часть 1

Универсальный поиск по паттернам

Page 3: Pre - Diploma Work

Недостатки web BLAST:

Невозможность запроса множественных паттернов (только 1 запрос и нет фильтров)

Сильные ограничения в масштабах поиска (паттерн нельзя менее 7, урезание результатов, нет вырожденных)

Низкая скорость и стабильность

Существующие инструменты ?

Необходимы собственные средства для сложных автоматизированных поисков

Решение - инструменты BioPerl на локальных серверах ФББ, собственные web сервисы.

Недостатки инструментов работы с паттернами (fragrep2, DNA Pattern Find):

●Нет поддежки genome-size●Нет поддержки множественных паттернов●Низкая стабильность

Page 4: Pre - Diploma Work

Теломеразная РНК

● Низкая гомология● Вариабельность

длины

● Матричный участок● Характерные

элементы вторичной структуры

● Общие элементы в родственных организмах

● Нет длинных рамок считывания для консервативных белков

Сложности поиска

Критерии поиска

Page 5: Pre - Diploma Work

Постановка задачи при биоинформатическом подходе

●Отбор кандидатов на роль теломеразной РНК в выбранном организме. Критерии отбора:

●- наличие теломерного повтора (матричный участок теломеразной РНК)●- отсутствие ORF с высокой гомологией к известным белкам●-переменный паттерн, соответствующий консервативным элементам первичной структуры

Page 6: Pre - Diploma Work

WORKFLOW MAP

Page 7: Pre - Diploma Work

Белковый фильтр● Задаётся

минимальная длина транслята

● Задаётся минимальная длина HSP

● Задаётся доля гомологичных остатков

●Было сменено несколько концепций принципа работы фильтра●Фильтр — прототип, есть нестабильности●Параметры, программы, функции сравнения и базы активно дискутируются

Page 8: Pre - Diploma Work

Выполнено:

● Полный и безошибочный парсинг отчётов BLAST

● Поиск по легко задаваемому числу паттернов

● Вывод промежуточных данных

Запуск белкового фильтра

● База SwissProt — 330Мб● Вариабельные параметры сравнения:

● минимальная длина пептида для проверки

● минимальная длина HSP для рассмотрения

● критическое значение гомологии

Page 9: Pre - Diploma Work

Планируется:

● Обеспечить стабильность работы белкового фильтра

● Автоматизировать ввод первичного паттерна — повтора

● Доработать эффективное средство отсева гомологичных белков

● Устанавливать прототип сервиса на компьютеры сотрудников

● Приступить к написанию веб-сервиса

Page 10: Pre - Diploma Work

Организм-контроль — Hansenula Polymorpha

● Простой организм - дрожжи

● Есть полный геном WGS

● Известна TR● Известны общие

для дрожжей паттерны в TR

Page 11: Pre - Diploma Work

Объекты:● Candida Yarrowia

Lypolitica● Hansenula

Polymorpha● Tribolium Castaneum● Caenorhabditis

elegans● Heterocephalus

Glaber● ???...

Control

Working..

Working...No patterns

Discuss...No patterns

Found.Broken gene

List will becontinued

Известны паттерны

Нет паттернов,использованиебелковой базы

Высокая гомологияаналогов

Page 12: Pre - Diploma Work

● Теломерный повтор● Sm сайт: at{3,6}g● Est1 hairpin: gaatg● Pseudo-knot:

tt(t|c)a(t|g).{0,3}gat

Дрожжевые паттерны:Основной целевой объект:Yarrowia Lypolytica

Текущие результаты

Yarrowia LypoliticaNum. + 475 Num. - 470Number of search resuls = 945Number of primary split seq. = 945Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat.{500,1200}at{3,6}gNumber seq's for processing ORF Filter: 2

Pattern: caatcgtccNumber seq's for processing ORF Filter: 113Number candidats: 86

Number candidats: 1

Pattern: caatcgtcc.{100,300}gaatg

Number seq's for processing ORF Filter: 15Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat

Number seq's for processing ORF Filter: 3

Pattern: caatcgtcc.{100,500}tt(t|c)a(t|g).{0,3}gatNumber seq's for processing ORF Filter: 12Pattern: caatcgtcc.{100,900}at{3,6}gNumber seq's for processing ORF Filter: 72

Page 13: Pre - Diploma Work

Текущие результатыum. + 475 Num. - 470Number of search resuls = 945Number of primary split seq. = 945Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat.{500,1200}at{3,6}gNumber seq's for processing ORF Filter: 2

Processing candidat # 1Processing ORF +1No protein chains more that 100Processing ORF +2Processing protein chain +2 length = 103matching value 0.472222222222222 does not exceed critical matching 0.6No protein chains more that 100Processing ORF +3Processing protein chain +3 length = 164matching value 0 does not exceed critical matching 0.6No protein chains more that 100Processing ORF -1No protein chains more that 100Processing ORF -2Processing protein chain -2 length = 115matching value 0 does not exceed critical matching 0.6No protein chains more that 100Processing ORF -3No protein chains more that 100Candidat #1 pass ORF filter

Processing candidat # 2Processing ORF +1Processing protein chain +1 length = 105matching value 0 does not exceed critical matching 0.6No protein chains more that 100Processing ORF +2No protein chains more that 100Processing ORF +3Processing protein chain +3 length = 102matching value 0 does not exceed critical matching 0.6No protein chains more that 100Processing ORF -1No protein chains more that 100Processing ORF -2Processing protein chain -2 length = 318No protein chains more that 100Processing ORF -3No protein chains more that 100Candidat #2 removedNumber candidats: 1

Yarrowia Lypolitica

template Est1 Pseudo-knot Sm site

Page 14: Pre - Diploma Work

HeterocephalusGlaber

template CR2 CR3

CR3

CR8CR7CR6

CR5

CR5

Page 15: Pre - Diploma Work

Часть 2

Статистические распределения

Page 16: Pre - Diploma Work

   

Последовательности Шайн-Дальгарно

● Консервативные последовательности в бактериальных генах для эффективного связывания мРНК с рибосомой при инициации трансляции

Page 17: Pre - Diploma Work

   

Задача● Построение 

распределений по:● Размеру блока ШД● Расстоянию до старта● Размеру [AU] участка● Расстоянию до [AU]● Первой буквы старта● Расстоянию до пред. гена● Доле [AU] перед геном

Объект: E.coli

AccNum U00096.2 GI 48994873

4639675 bp> 4500 аннотаций генов

Format: GeneBank

Page 18: Pre - Diploma Work

Условия

Page 19: Pre - Diploma Work

Работ с объектом

● gene complement(5683..6459)● /gene="yaaA"● /locus_tag="b0006"● /gene_synonym="ECK0006"● /gene_synonym="JW0005"● /db_xref="EcoGene:EG10011"

Page 20: Pre - Diploma Work

РаспределенияД

ли

на Ш

Д ЧислоГеновлокус-тэги Д

лин

а Ш

Д ЧислоГеновлокус-тэги

До пред. ОРС

Чи

сло

оши

бок

ШД

ЧислоГеновлокус-тэги

Стартовый нуклеотид

Доля АТ

Дл

ина

ШД Число

Геновлокус-тэги

Размер АТ

Дл

ина

ШД Число

Геновлокус-тэги

Спейсер до АТ

Дл

ина

ШД Число

Геновлокус-тэги

Спейсер до старта

До пред. ОРС До пред. ОРС До пред. ОРС

?

Page 21: Pre - Diploma Work

Рабочие и отладочные данные

b0044 .aaggag.. mis. 3 GGGCTTCATCAATCTAATCAAGGATGGCATGAAAGGAGTGACCGTTTTATGmatch seq: AAAGGAGTGACCGTTTTATG length agGg--Nug 12b0045 .aa..agg. mis. 4 TGATACGTAACGCCGCACTGACTCTCATTGCAAAAAACAGGAATAACCATGmatch seq: AAAACAGGAATAACCATG length agGg--Nug 10b0046 taa..a.g. mis. 4 ATGACTACACTTTGTGGGAAAACAAAGGCGTAATCACGCGGGCTACCTATGmatch seq: TAATCACGCGGGCTACCTATG length agGg--Nug 13b0047 ..aggagg. mis. 3 AGGCGCGTCACTATAAGCAACGTCTGCTGGAATGGCAGGAGGCCCATCATGmatch seq: GCAGGAGGCCCATCATG length agGg--Nug 9b0048 t..gga..t mis. 4 TTACGCTTTACGTATAGTGGCGACAATTTTTTTTATCGGGAAATCTCAATGmatch seq: TCGGGAAATCTCAATGlength agGg--Nug 8b0049 t.a..a... mis. 6 ATTCCCGTATTCCGACTCGCCGTTCCCACACTCATTCATTAAAAGAATATGmatch seq: TCATTAAAAGAATATG length agGg--Nug 8b0050 t..g.agg. mis. 4 GATGGCGAACTATCTGGCGGAGAACGCGCCTTTGCAGGAGAGTTAACGATGmatch seq: TTTGCAGGAGAGTTAACGATG length agGg--Nug 13

Page 22: Pre - Diploma Work

Рабочие таблицыStrand direct, shift value: + , >200Continuous SD block types: 0| 0 1| 1 2| 35 3| 232 4| 290 5| 227 6| 91 7| 24 8| 5

Num. SD cont block types 9, len. AT block 0-20, len. subseq 350 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

0| 1| 1 2| 10 22 27 32 20 10 14 4 3 3 1 1 3| 32 136 211 218 186 111 72 50 24 15 12 6 5 1 2 1 4| 2 36 201 316 322 234 160 85 56 32 26 10 6 4 5 4 1 1

1 5| 41 146 235 237 177 125 65 42 31 16 6 6 3 1 1 1 6| 16 61 92 94 76 36 29 19 8 7 1 1 2 1 1 1 7| 8 37 31 27 19 21 7 5 2 5 1 2 8| 3 7 4 2 1 2 1 9| 1

Strand direct, shift value: + , 21-200Continuous SD block types: 0| 0 1| 2 2| 44 3| 156 4| 225 5| 153 6| 65 7| 19 8| 4

Page 23: Pre - Diploma Work

Полученные распределения

SD vs START spacer

SD vs AT block

Page 24: Pre - Diploma Work

SD, prev ORF

SD vs AT stat

0 20 40 60 80 1000

0,02

0,04

0,06

0,08

0,1

0,12

0,14RND>20<20

AT distr.

00

Page 25: Pre - Diploma Work

SD vs AT stat ORF > 200

SD vs AT stat ORF 21-200

SD vs AT stat ORF 9-20

SD vs AT stat ORF 1-8

SD vs AT stat ORF 0

SD vs AT stat ORF -1

SD vs AT stat ORF -4

SD vs AT stat ORF < -4

Page 26: Pre - Diploma Work

SD vs AT block 1-8

SD vs AT block 9-20

SD vs AT block 21-200

SD vs AT block -4

SD vs AT block > 200 SD vs AT block 0

SD vs AT block -1

SD vs AT block < -4

Page 27: Pre - Diploma Work

Экспериментальная модель — репортёрная конструкция измерения относительной экспрессионной активности в зависимости от инициаторного участка

Control reporter Measured

T5 T5

UTR UTR

VariableSD len. AU rich

Ter +/- spacer startspacer AU 1st let.

Page 28: Pre - Diploma Work

Спасибо за внимание!