Top Banner
Графы Николай Вяххи [email protected] Computer Science клуб Екатеринбург, 2012 воскресенье, 7 октября 12 г.
83

20121007 algorithmsinbioinformatics vyahhi_lecture04_0

May 25, 2015

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Графы

Николай Вяххи[email protected]

Computer Science клубЕкатеринбург, 2012

воскресенье, 7 октября 12 г.

Page 2: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Центральная Догма

воскресенье, 7 октября 12 г.

Page 3: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Омики

воскресенье, 7 октября 12 г.

Page 4: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Что мы узнали

• Редакционное расстояние• Глобальное и локальное выравнивание• Аффинная модель вставки• Всё за O(N2)

• Множественное выравнивание• Геномные перестройки

воскресенье, 7 октября 12 г.

Page 5: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Что мы узнали

• Поиск подстроки в строке• Таблица К-меров• Суффиксное дерево, массив• BLAST

воскресенье, 7 октября 12 г.

Page 6: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Графы

Николай Вяххи[email protected]

Computer Science клубЕкатеринбург, 2012

воскресенье, 7 октября 12 г.

Page 7: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Линейность генома

воскресенье, 7 октября 12 г.

Page 8: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Граф интервалов

воскресенье, 7 октября 12 г.

Page 9: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Граф интервалов

воскресенье, 7 октября 12 г.

Page 10: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Граф интервалов

воскресенье, 7 октября 12 г.

Page 11: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Граф интервалов

воскресенье, 7 октября 12 г.

Page 12: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Линейность генов

Линейный Нелинейныйвоскресенье, 7 октября 12 г.

Page 13: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Микрочипы

воскресенье, 7 октября 12 г.

Page 14: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Микрочипы

воскресенье, 7 октября 12 г.

Page 15: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Секвенирование

Видовое секвенирование: определить «общий геном» вида.

Индивидуальное секвенирование: определить, насколько индивидуум отличается от вида.

воскресенье, 7 октября 12 г.

Page 16: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Зачем?Видовое cеквенирование:

• Сравнить различные виды (например, человек и шимпанзе)

• Понять, как функционируют гены (например, какие гены важны для развития головного мозга).

• Выявить эволюционное родство между видами.

• Определить генетический состав предков.

воскресенье, 7 октября 12 г.

Page 17: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Зачем?

Индивидуальное секвенирование:

• Открытие генетической основы заболеваний.

• Судебные исследования.

воскресенье, 7 октября 12 г.

Page 18: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Краткая история

Конец 1970-х: Уолтер Гилберт и Фредерик Сэнгер развивают независимые методы секвенирования.

1980: Они получают Нобелевскую премию по химии.

Их методы выявления последовательности слишком дороги для больших геномов.

воскресенье, 7 октября 12 г.

Page 19: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Краткая история

1990: Общественный проект «Человеческий геном», возглавляемый Фрэнсисом Коллинзом, задаётся целью расшифровать человеческий геном.

1997: Крейг Вентер создаёт частную компанию «Celera Genomics» с той же целью.

воскресенье, 7 октября 12 г.

Page 20: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Краткая история2000: Черновой вариант человеческого генома одновременно завершён (общественным) проектом «Человеческий геном» и (частной) компанией Celera Genomics.

воскресенье, 7 октября 12 г.

Page 21: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

воскресенье, 7 октября 12 г.

Page 22: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Персональная геномка2000-е: Компании запускают проекты с целью на порядок уменьшить затраты на секвенирование.

2010: Рождается рынок приборов, секвенирующих геном:

• Illumina уменьшает стоимость секвенирования индивидуального человеческого генома с 3 миллиардов долларов до 10 тысяч.

• Complete Genomics строит в Кремниевой долине предприятие по секвенированию с производительностью сотни геномов в месяц.

• Beijing Genomic Institute заказывает сотни секвенирующих машин, становясь крупнейшим секвенирующим центром в мире.

• 23andMe предлагает частичное чтение последовательности генома за 499 долларов (1M позиций).

воскресенье, 7 октября 12 г.

Page 23: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

БудущееСеквенирование человеческого генома за 1000 долларов может стать реальностью уже в 2013-14 году.

Cеквенирование индивидуального генома вскоре станет таким же рутинным делом, как рентгеновский снимок.

воскресенье, 7 октября 12 г.

Page 24: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Объемы данных

Beijing Genomics Institute, based in China, is the world’s largest genomics research institute, with 167 DNA sequencers producing the equivalent of 2,000 human genomes a day.

BGI churns out so much data that it often cannot transmit its results to clients or collaborators over the Internet or other communications lines because that would take weeks. Instead, it sends computer disks containing the data, via FedEx.

The New York Times, 30 Nov 2011

воскресенье, 7 октября 12 г.

Page 25: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Объемы данных

2124 секвенирующих машин в 764 центрах (omicsmaps.com):

• 621, Illumina HiSeq 2000

• 532, Illumina Genome Analyser 2x

• 348, ABI SOLiD

• 320, Roche 454

• 167, Ion Torrent

• 76, Illumina MiSeq

• 39, Pacific Biosciences

воскресенье, 7 октября 12 г.

Page 26: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Illumina

HiSeq 2000/2500:

600Gb / 11 days

HiSeq 2500:

120Gb / 27 h

воскресенье, 7 октября 12 г.

Page 27: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

621 Illumina HiSeq 2000

= 33.8 Tb / day = 12 Pb / year

Лучшее хранилище ДНК — холодильник.

Объемы данных

воскресенье, 7 октября 12 г.

Page 28: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

BGI

воскресенье, 7 октября 12 г.

Page 29: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

1000genomes.org

> 2500 геномов людей было прочитано

249 TB сжатых данных (FASTQs, BAMs, VCFs)

ftp://ftp.1000genomes.ebi.ac.uk, s3://1000genomes

29 Oct 2009 (pilot):

• 24581 CPU-days = 67 CPU-years

• Full production project is >10 times more data than the pilot.

воскресенье, 7 октября 12 г.

Page 30: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Genome10K.org

воскресенье, 7 октября 12 г.

Page 31: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

СеквенированиеЧтение фрагментов (лабораторная):

Считать множество фрагментов из многих копий одного генома.

Сборка фрагментов (вычислительная):

Собрать геном из этих ридов с помощью алгоритмов.

воскресенье, 7 октября 12 г.

Page 32: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Next Gen Sequencing

воскресенье, 7 октября 12 г.

Page 33: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Исправление ошибок

воскресенье, 7 октября 12 г.

Page 34: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Исправление ошибок

воскресенье, 7 октября 12 г.

Page 35: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Исправление ошибок

воскресенье, 7 октября 12 г.

Page 36: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Сборка

воскресенье, 7 октября 12 г.

Page 37: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Сборка

By reference (Индивидуум)

De novo (Новые виды)

Assisted assembly (Похожие виды)

воскресенье, 7 октября 12 г.

Page 38: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

SNP

SNP — Single Nucleotide Polymorphism.

Indel — insertion или deletion.

dbSNP — база данных известных SNP.

воскресенье, 7 октября 12 г.

Page 39: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

По референсу

воскресенье, 7 октября 12 г.

Page 40: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Де ново

Overlap Graphs

de Bruijn Graphs

воскресенье, 7 октября 12 г.

Page 41: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

TSP

overlap(s1, s2) — длина максимального суффикса s1 равного префиксу s2.

воскресенье, 7 октября 12 г.

Page 42: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

TSP

overlap(s1, s2) — длина максимального суффикса s1 равного префиксу s2.

Вершины — строки.

Рёбра — перекрытия.

воскресенье, 7 октября 12 г.

Page 43: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

TSP

overlap(s1, s2) — длина максимального суффикса s1 равного префиксу s2.

Вершины — строки.

Рёбра — перекрытия.

Travelling salesman problem (NP-hard)!воскресенье, 7 октября 12 г.

Page 44: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

СпектрСпектр: мультимножество К-меров из строки.

Spectrum(TATGGTGC, 3) =

{TAT, ATG, TGG, GGT, GTG, TGC}

Spectrum(GTATCT, 2) = Spectrum(GTCTAT, 2) = {AT, CT, GT, TA, TC}

воскресенье, 7 октября 12 г.

Page 45: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Задача

Дано:

Spectrum(Genome, K)

Найти:

Genome

воскресенье, 7 октября 12 г.

Page 46: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Overlap Graph

Вершины: K-меры

Рёбра: (K-1)-меры

воскресенье, 7 октября 12 г.

Page 47: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Overlap Graph

Вершины: K-меры

Рёбра: (K-1)-меры

{ ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}

воскресенье, 7 октября 12 г.

Page 48: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Overlap Graph

Вершины: K-меры

Рёбра: (K-1)-меры

{ ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}

Hamiltonian path problem (NP-complete)!воскресенье, 7 октября 12 г.

Page 49: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

de Bruijn Graph

воскресенье, 7 октября 12 г.

Page 50: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

de Bruijn Graph

Вершины: (K-1)-меры

Рёбра: K-меры

воскресенье, 7 октября 12 г.

Page 51: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

de Bruijn Graph

Вершины: (K-1)-меры

Рёбра: K-меры

{ ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}

воскресенье, 7 октября 12 г.

Page 52: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

de Bruijn Graph

Вершины: (K-1)-меры

Рёбра: K-меры

{ ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}

Eulerian path problem (linear)!воскресенье, 7 октября 12 г.

Page 53: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Снова ошибки

К = ???

Tips

Bulges (bubbles)

Химерические фрагменты

воскресенье, 7 октября 12 г.

Page 54: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Assisted Assembly

воскресенье, 7 октября 12 г.

Page 55: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Exome Sequencing

воскресенье, 7 октября 12 г.

Page 56: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

RNA-seq

воскресенье, 7 октября 12 г.

Page 57: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

ChIP-seq

Chromatin ImmunoPrecipitation

воскресенье, 7 октября 12 г.

Page 58: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Single Cell Sequencing

воскресенье, 7 октября 12 г.

Page 59: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Одна клеткаМного клеток

Геном

Покрытие

воскресенье, 7 октября 12 г.

Page 61: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Масс-спектрометрия

H...-HN-CH-CO-NH-CH-CO-NH-CH-CO-…OH

Ri-1 Ri Ri+1

AA residuei-1 AA residuei AA residuei+1

N-terminus C-terminus

воскресенье, 7 октября 12 г.

Page 62: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Масс-спектрометрия

PRTEIN

воскресенье, 7 октября 12 г.

Page 63: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Масс-спектрометрия

PRTEIN

P RTEIN

воскресенье, 7 октября 12 г.

Page 64: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Масс-спектрометрия

PRTEIN

P RTEIN

PR TEIN

воскресенье, 7 октября 12 г.

Page 65: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Масс-спектрометрия

PRTEIN

P RTEIN

PR TEIN

PRT EIN

PRTE IN

PRTEI N

воскресенье, 7 октября 12 г.

Page 66: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Масс-спектрометрия

PRTEIN

P RTEIN

PR TEIN

PRT EIN

PRTE IN

PRTEI N

m(P) = 97

m(R) = 156

m(T) = 101

m(E) = 129

m(I) = 113

m(N) = 114

воскресенье, 7 октября 12 г.

Page 67: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Масс-спектрометрия

PRTEIN

P RTEIN

PR TEIN

PRT EIN

PRTE IN

PRTEI N

m(P) = 97

m(R) = 156

m(T) = 101

m(E) = 129

m(I) = 113

m(N) = 114

710

97 613

253 457

354 356

483 227

596 114

воскресенье, 7 октября 12 г.

Page 68: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Спектры

воскресенье, 7 октября 12 г.

Page 69: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Сборка белка

Де ново

По базе данных

воскресенье, 7 октября 12 г.

Page 70: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Де ново

воскресенье, 7 октября 12 г.

Page 71: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Spectrum Graph

воскресенье, 7 октября 12 г.

Page 72: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Spectrum Graph

воскресенье, 7 октября 12 г.

Page 73: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

По базе данных

..., MDERHILNM, KLQWVCSDL, PTYWASDL, ENQIKRSACVM, TLACHGGEM, NGALPQWRT, HLLERTKMNVV, GGPASSDA, GGLITGMQSD,

MQPLMNWE, ALKIIMNVRT, AVGELTK, HEWAILF, GHNLWAMNAC, GVFGSVLRA, EKLNKAATYIN, ...

воскресенье, 7 октября 12 г.

Page 74: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

По базе данных

..., MDERHILNM, KLQWVCSDL, PTYWASDL, ENQIKRSACVM, TLACHGGEM, NGALPQWRT, HLLERTKMNVV, GGPASSDA, GGLITGMQSD,

MQPLMNWE, ALKIIMNVRT, AVGELTK, HEWAILF, GHNLWAMNAC, GVFGSVLRA, EKLNKAATYIN, ...

воскресенье, 7 октября 12 г.

Page 75: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Похожие спектры

Shared peaks count (SPC) — количество общих пиков.

S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 }

(S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2)

SPC = (S1 ⊕ S2)(0)

воскресенье, 7 октября 12 г.

Page 76: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Spectral Convolution

Shared peaks count (SPC) — количество общих пиков.

S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 }

(S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2)

SPC = ?(S1 ⊕ S2)(0)

воскресенье, 7 октября 12 г.

Page 77: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Spectral Convolution

Shared peaks count (SPC) — количество общих пиков.

S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 }

(S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2)

SPC = (S1 ⊕ S2)(0)

воскресенье, 7 октября 12 г.

Page 78: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Сдвиги

S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100}

S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95}

S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95}

(S ⊕ S')(0) = (S ⊕ S'')(0) = 5

(S ⊕ S')(5) = (S ⊕ S'')(5) = 5

воскресенье, 7 октября 12 г.

Page 79: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Сдвиги

S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100}

S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95}

S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95}

(S ⊕ S')(0) = (S ⊕ S'')(0) = 5

(S ⊕ S')(5) = (S ⊕ S'')(5) = 5

воскресенье, 7 октября 12 г.

Page 80: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Сдвиги

S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100}

S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95}

S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95}

(S ⊕ S')(0) = (S ⊕ S'')(0) = 5

(S ⊕ S')(5) = (S ⊕ S'')(5) = 5

Выравнивание строк!

воскресенье, 7 октября 12 г.

Page 81: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

КнигиAlgorithms on Strings, Trees and Sequences: Computer Science and Computational Biology. Dan Gusfield, 1997.

An Introduction to Bioinformatics Algorithms. Jones & Pevzner, 2004.

Computational Molecular Biology, An Algorithmic Approach. Pavel Pevzner, 2000.

http://bioinf.me/books

воскресенье, 7 октября 12 г.

Page 82: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Домашнее задание

http://rosalind.info

• LONG

• DBRU

• GASM

• ASMQ

• PRTM, SPEC

http://rosalind.info/classes/enroll/171da3d314a0b07e00883287cd2b6ddeeeba225b/

воскресенье, 7 октября 12 г.

Page 83: 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Приезжайте к нам :)

Магистратура: http://mit.spbau.ru/bioinf

Курсы: http://bioinf.me

Лаборатория: http://bioinf.spbau.ru

Стажировка: http://bioinf.spbau.ru/int

Розалинд: http://rosalind.info

[email protected]

воскресенье, 7 октября 12 г.