20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Post on 25-May-2015

325 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

Transcript

Графы

Николай Вяххиvyahhi@bioinf.spbau.ru

Computer Science клубЕкатеринбург, 2012

воскресенье, 7 октября 12 г.

Центральная Догма

воскресенье, 7 октября 12 г.

Омики

воскресенье, 7 октября 12 г.

Что мы узнали

• Редакционное расстояние• Глобальное и локальное выравнивание• Аффинная модель вставки• Всё за O(N2)

• Множественное выравнивание• Геномные перестройки

воскресенье, 7 октября 12 г.

Что мы узнали

• Поиск подстроки в строке• Таблица К-меров• Суффиксное дерево, массив• BLAST

воскресенье, 7 октября 12 г.

Графы

Николай Вяххиvyahhi@bioinf.spbau.ru

Computer Science клубЕкатеринбург, 2012

воскресенье, 7 октября 12 г.

Линейность генома

воскресенье, 7 октября 12 г.

Граф интервалов

воскресенье, 7 октября 12 г.

Граф интервалов

воскресенье, 7 октября 12 г.

Граф интервалов

воскресенье, 7 октября 12 г.

Граф интервалов

воскресенье, 7 октября 12 г.

Линейность генов

Линейный Нелинейныйвоскресенье, 7 октября 12 г.

Микрочипы

воскресенье, 7 октября 12 г.

Микрочипы

воскресенье, 7 октября 12 г.

Секвенирование

Видовое секвенирование: определить «общий геном» вида.

Индивидуальное секвенирование: определить, насколько индивидуум отличается от вида.

воскресенье, 7 октября 12 г.

Зачем?Видовое cеквенирование:

• Сравнить различные виды (например, человек и шимпанзе)

• Понять, как функционируют гены (например, какие гены важны для развития головного мозга).

• Выявить эволюционное родство между видами.

• Определить генетический состав предков.

воскресенье, 7 октября 12 г.

Зачем?

Индивидуальное секвенирование:

• Открытие генетической основы заболеваний.

• Судебные исследования.

воскресенье, 7 октября 12 г.

Краткая история

Конец 1970-х: Уолтер Гилберт и Фредерик Сэнгер развивают независимые методы секвенирования.

1980: Они получают Нобелевскую премию по химии.

Их методы выявления последовательности слишком дороги для больших геномов.

воскресенье, 7 октября 12 г.

Краткая история

1990: Общественный проект «Человеческий геном», возглавляемый Фрэнсисом Коллинзом, задаётся целью расшифровать человеческий геном.

1997: Крейг Вентер создаёт частную компанию «Celera Genomics» с той же целью.

воскресенье, 7 октября 12 г.

Краткая история2000: Черновой вариант человеческого генома одновременно завершён (общественным) проектом «Человеческий геном» и (частной) компанией Celera Genomics.

воскресенье, 7 октября 12 г.

воскресенье, 7 октября 12 г.

Персональная геномка2000-е: Компании запускают проекты с целью на порядок уменьшить затраты на секвенирование.

2010: Рождается рынок приборов, секвенирующих геном:

• Illumina уменьшает стоимость секвенирования индивидуального человеческого генома с 3 миллиардов долларов до 10 тысяч.

• Complete Genomics строит в Кремниевой долине предприятие по секвенированию с производительностью сотни геномов в месяц.

• Beijing Genomic Institute заказывает сотни секвенирующих машин, становясь крупнейшим секвенирующим центром в мире.

• 23andMe предлагает частичное чтение последовательности генома за 499 долларов (1M позиций).

воскресенье, 7 октября 12 г.

БудущееСеквенирование человеческого генома за 1000 долларов может стать реальностью уже в 2013-14 году.

Cеквенирование индивидуального генома вскоре станет таким же рутинным делом, как рентгеновский снимок.

воскресенье, 7 октября 12 г.

Объемы данных

Beijing Genomics Institute, based in China, is the world’s largest genomics research institute, with 167 DNA sequencers producing the equivalent of 2,000 human genomes a day.

BGI churns out so much data that it often cannot transmit its results to clients or collaborators over the Internet or other communications lines because that would take weeks. Instead, it sends computer disks containing the data, via FedEx.

The New York Times, 30 Nov 2011

воскресенье, 7 октября 12 г.

Объемы данных

2124 секвенирующих машин в 764 центрах (omicsmaps.com):

• 621, Illumina HiSeq 2000

• 532, Illumina Genome Analyser 2x

• 348, ABI SOLiD

• 320, Roche 454

• 167, Ion Torrent

• 76, Illumina MiSeq

• 39, Pacific Biosciences

воскресенье, 7 октября 12 г.

Illumina

HiSeq 2000/2500:

600Gb / 11 days

HiSeq 2500:

120Gb / 27 h

воскресенье, 7 октября 12 г.

621 Illumina HiSeq 2000

= 33.8 Tb / day = 12 Pb / year

Лучшее хранилище ДНК — холодильник.

Объемы данных

воскресенье, 7 октября 12 г.

BGI

воскресенье, 7 октября 12 г.

1000genomes.org

> 2500 геномов людей было прочитано

249 TB сжатых данных (FASTQs, BAMs, VCFs)

ftp://ftp.1000genomes.ebi.ac.uk, s3://1000genomes

29 Oct 2009 (pilot):

• 24581 CPU-days = 67 CPU-years

• Full production project is >10 times more data than the pilot.

воскресенье, 7 октября 12 г.

Genome10K.org

воскресенье, 7 октября 12 г.

СеквенированиеЧтение фрагментов (лабораторная):

Считать множество фрагментов из многих копий одного генома.

Сборка фрагментов (вычислительная):

Собрать геном из этих ридов с помощью алгоритмов.

воскресенье, 7 октября 12 г.

Next Gen Sequencing

воскресенье, 7 октября 12 г.

Исправление ошибок

воскресенье, 7 октября 12 г.

Исправление ошибок

воскресенье, 7 октября 12 г.

Исправление ошибок

воскресенье, 7 октября 12 г.

Сборка

воскресенье, 7 октября 12 г.

Сборка

By reference (Индивидуум)

De novo (Новые виды)

Assisted assembly (Похожие виды)

воскресенье, 7 октября 12 г.

SNP

SNP — Single Nucleotide Polymorphism.

Indel — insertion или deletion.

dbSNP — база данных известных SNP.

воскресенье, 7 октября 12 г.

По референсу

воскресенье, 7 октября 12 г.

Де ново

Overlap Graphs

de Bruijn Graphs

воскресенье, 7 октября 12 г.

TSP

overlap(s1, s2) — длина максимального суффикса s1 равного префиксу s2.

воскресенье, 7 октября 12 г.

TSP

overlap(s1, s2) — длина максимального суффикса s1 равного префиксу s2.

Вершины — строки.

Рёбра — перекрытия.

воскресенье, 7 октября 12 г.

TSP

overlap(s1, s2) — длина максимального суффикса s1 равного префиксу s2.

Вершины — строки.

Рёбра — перекрытия.

Travelling salesman problem (NP-hard)!воскресенье, 7 октября 12 г.

СпектрСпектр: мультимножество К-меров из строки.

Spectrum(TATGGTGC, 3) =

{TAT, ATG, TGG, GGT, GTG, TGC}

Spectrum(GTATCT, 2) = Spectrum(GTCTAT, 2) = {AT, CT, GT, TA, TC}

воскресенье, 7 октября 12 г.

Задача

Дано:

Spectrum(Genome, K)

Найти:

Genome

воскресенье, 7 октября 12 г.

Overlap Graph

Вершины: K-меры

Рёбра: (K-1)-меры

воскресенье, 7 октября 12 г.

Overlap Graph

Вершины: K-меры

Рёбра: (K-1)-меры

{ ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}

воскресенье, 7 октября 12 г.

Overlap Graph

Вершины: K-меры

Рёбра: (K-1)-меры

{ ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}

Hamiltonian path problem (NP-complete)!воскресенье, 7 октября 12 г.

de Bruijn Graph

воскресенье, 7 октября 12 г.

de Bruijn Graph

Вершины: (K-1)-меры

Рёбра: K-меры

воскресенье, 7 октября 12 г.

de Bruijn Graph

Вершины: (K-1)-меры

Рёбра: K-меры

{ ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}

воскресенье, 7 октября 12 г.

de Bruijn Graph

Вершины: (K-1)-меры

Рёбра: K-меры

{ ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}

Eulerian path problem (linear)!воскресенье, 7 октября 12 г.

Снова ошибки

К = ???

Tips

Bulges (bubbles)

Химерические фрагменты

воскресенье, 7 октября 12 г.

Assisted Assembly

воскресенье, 7 октября 12 г.

Exome Sequencing

воскресенье, 7 октября 12 г.

RNA-seq

воскресенье, 7 октября 12 г.

ChIP-seq

Chromatin ImmunoPrecipitation

воскресенье, 7 октября 12 г.

Single Cell Sequencing

воскресенье, 7 октября 12 г.

Одна клеткаМного клеток

Геном

Покрытие

воскресенье, 7 октября 12 г.

Масс-спектрометрия

H...-HN-CH-CO-NH-CH-CO-NH-CH-CO-…OH

Ri-1 Ri Ri+1

AA residuei-1 AA residuei AA residuei+1

N-terminus C-terminus

воскресенье, 7 октября 12 г.

Масс-спектрометрия

PRTEIN

воскресенье, 7 октября 12 г.

Масс-спектрометрия

PRTEIN

P RTEIN

воскресенье, 7 октября 12 г.

Масс-спектрометрия

PRTEIN

P RTEIN

PR TEIN

воскресенье, 7 октября 12 г.

Масс-спектрометрия

PRTEIN

P RTEIN

PR TEIN

PRT EIN

PRTE IN

PRTEI N

воскресенье, 7 октября 12 г.

Масс-спектрометрия

PRTEIN

P RTEIN

PR TEIN

PRT EIN

PRTE IN

PRTEI N

m(P) = 97

m(R) = 156

m(T) = 101

m(E) = 129

m(I) = 113

m(N) = 114

воскресенье, 7 октября 12 г.

Масс-спектрометрия

PRTEIN

P RTEIN

PR TEIN

PRT EIN

PRTE IN

PRTEI N

m(P) = 97

m(R) = 156

m(T) = 101

m(E) = 129

m(I) = 113

m(N) = 114

710

97 613

253 457

354 356

483 227

596 114

воскресенье, 7 октября 12 г.

Спектры

воскресенье, 7 октября 12 г.

Сборка белка

Де ново

По базе данных

воскресенье, 7 октября 12 г.

Де ново

воскресенье, 7 октября 12 г.

Spectrum Graph

воскресенье, 7 октября 12 г.

Spectrum Graph

воскресенье, 7 октября 12 г.

По базе данных

..., MDERHILNM, KLQWVCSDL, PTYWASDL, ENQIKRSACVM, TLACHGGEM, NGALPQWRT, HLLERTKMNVV, GGPASSDA, GGLITGMQSD,

MQPLMNWE, ALKIIMNVRT, AVGELTK, HEWAILF, GHNLWAMNAC, GVFGSVLRA, EKLNKAATYIN, ...

воскресенье, 7 октября 12 г.

По базе данных

..., MDERHILNM, KLQWVCSDL, PTYWASDL, ENQIKRSACVM, TLACHGGEM, NGALPQWRT, HLLERTKMNVV, GGPASSDA, GGLITGMQSD,

MQPLMNWE, ALKIIMNVRT, AVGELTK, HEWAILF, GHNLWAMNAC, GVFGSVLRA, EKLNKAATYIN, ...

воскресенье, 7 октября 12 г.

Похожие спектры

Shared peaks count (SPC) — количество общих пиков.

S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 }

(S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2)

SPC = (S1 ⊕ S2)(0)

воскресенье, 7 октября 12 г.

Spectral Convolution

Shared peaks count (SPC) — количество общих пиков.

S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 }

(S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2)

SPC = ?(S1 ⊕ S2)(0)

воскресенье, 7 октября 12 г.

Spectral Convolution

Shared peaks count (SPC) — количество общих пиков.

S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 }

(S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2)

SPC = (S1 ⊕ S2)(0)

воскресенье, 7 октября 12 г.

Сдвиги

S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100}

S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95}

S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95}

(S ⊕ S')(0) = (S ⊕ S'')(0) = 5

(S ⊕ S')(5) = (S ⊕ S'')(5) = 5

воскресенье, 7 октября 12 г.

Сдвиги

S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100}

S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95}

S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95}

(S ⊕ S')(0) = (S ⊕ S'')(0) = 5

(S ⊕ S')(5) = (S ⊕ S'')(5) = 5

воскресенье, 7 октября 12 г.

Сдвиги

S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100}

S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95}

S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95}

(S ⊕ S')(0) = (S ⊕ S'')(0) = 5

(S ⊕ S')(5) = (S ⊕ S'')(5) = 5

Выравнивание строк!

воскресенье, 7 октября 12 г.

КнигиAlgorithms on Strings, Trees and Sequences: Computer Science and Computational Biology. Dan Gusfield, 1997.

An Introduction to Bioinformatics Algorithms. Jones & Pevzner, 2004.

Computational Molecular Biology, An Algorithmic Approach. Pavel Pevzner, 2000.

http://bioinf.me/books

воскресенье, 7 октября 12 г.

Приезжайте к нам :)

Магистратура: http://mit.spbau.ru/bioinf

Курсы: http://bioinf.me

Лаборатория: http://bioinf.spbau.ru

Стажировка: http://bioinf.spbau.ru/int

Розалинд: http://rosalind.info

vyahhi@bioinf.spbau.ru

воскресенье, 7 октября 12 г.

top related