Графы Николай Вяххи [email protected] Computer Science клуб Екатеринбург, 2012 воскресенье, 7 октября 12 г.
Графы
Николай Вяххи[email protected]
Computer Science клубЕкатеринбург, 2012
воскресенье, 7 октября 12 г.
Центральная Догма
воскресенье, 7 октября 12 г.
Омики
воскресенье, 7 октября 12 г.
Что мы узнали
• Редакционное расстояние• Глобальное и локальное выравнивание• Аффинная модель вставки• Всё за O(N2)
• Множественное выравнивание• Геномные перестройки
воскресенье, 7 октября 12 г.
Что мы узнали
• Поиск подстроки в строке• Таблица К-меров• Суффиксное дерево, массив• BLAST
воскресенье, 7 октября 12 г.
Графы
Николай Вяххи[email protected]
Computer Science клубЕкатеринбург, 2012
воскресенье, 7 октября 12 г.
Линейность генома
воскресенье, 7 октября 12 г.
Граф интервалов
воскресенье, 7 октября 12 г.
Граф интервалов
воскресенье, 7 октября 12 г.
Граф интервалов
воскресенье, 7 октября 12 г.
Граф интервалов
воскресенье, 7 октября 12 г.
Линейность генов
Линейный Нелинейныйвоскресенье, 7 октября 12 г.
Микрочипы
воскресенье, 7 октября 12 г.
Микрочипы
воскресенье, 7 октября 12 г.
Секвенирование
Видовое секвенирование: определить «общий геном» вида.
Индивидуальное секвенирование: определить, насколько индивидуум отличается от вида.
воскресенье, 7 октября 12 г.
Зачем?Видовое cеквенирование:
• Сравнить различные виды (например, человек и шимпанзе)
• Понять, как функционируют гены (например, какие гены важны для развития головного мозга).
• Выявить эволюционное родство между видами.
• Определить генетический состав предков.
воскресенье, 7 октября 12 г.
Зачем?
Индивидуальное секвенирование:
• Открытие генетической основы заболеваний.
• Судебные исследования.
воскресенье, 7 октября 12 г.
Краткая история
Конец 1970-х: Уолтер Гилберт и Фредерик Сэнгер развивают независимые методы секвенирования.
1980: Они получают Нобелевскую премию по химии.
Их методы выявления последовательности слишком дороги для больших геномов.
воскресенье, 7 октября 12 г.
Краткая история
1990: Общественный проект «Человеческий геном», возглавляемый Фрэнсисом Коллинзом, задаётся целью расшифровать человеческий геном.
1997: Крейг Вентер создаёт частную компанию «Celera Genomics» с той же целью.
воскресенье, 7 октября 12 г.
Краткая история2000: Черновой вариант человеческого генома одновременно завершён (общественным) проектом «Человеческий геном» и (частной) компанией Celera Genomics.
воскресенье, 7 октября 12 г.
воскресенье, 7 октября 12 г.
Персональная геномка2000-е: Компании запускают проекты с целью на порядок уменьшить затраты на секвенирование.
2010: Рождается рынок приборов, секвенирующих геном:
• Illumina уменьшает стоимость секвенирования индивидуального человеческого генома с 3 миллиардов долларов до 10 тысяч.
• Complete Genomics строит в Кремниевой долине предприятие по секвенированию с производительностью сотни геномов в месяц.
• Beijing Genomic Institute заказывает сотни секвенирующих машин, становясь крупнейшим секвенирующим центром в мире.
• 23andMe предлагает частичное чтение последовательности генома за 499 долларов (1M позиций).
воскресенье, 7 октября 12 г.
БудущееСеквенирование человеческого генома за 1000 долларов может стать реальностью уже в 2013-14 году.
Cеквенирование индивидуального генома вскоре станет таким же рутинным делом, как рентгеновский снимок.
воскресенье, 7 октября 12 г.
Объемы данных
Beijing Genomics Institute, based in China, is the world’s largest genomics research institute, with 167 DNA sequencers producing the equivalent of 2,000 human genomes a day.
BGI churns out so much data that it often cannot transmit its results to clients or collaborators over the Internet or other communications lines because that would take weeks. Instead, it sends computer disks containing the data, via FedEx.
The New York Times, 30 Nov 2011
воскресенье, 7 октября 12 г.
Объемы данных
2124 секвенирующих машин в 764 центрах (omicsmaps.com):
• 621, Illumina HiSeq 2000
• 532, Illumina Genome Analyser 2x
• 348, ABI SOLiD
• 320, Roche 454
• 167, Ion Torrent
• 76, Illumina MiSeq
• 39, Pacific Biosciences
воскресенье, 7 октября 12 г.
Illumina
HiSeq 2000/2500:
600Gb / 11 days
HiSeq 2500:
120Gb / 27 h
воскресенье, 7 октября 12 г.
621 Illumina HiSeq 2000
= 33.8 Tb / day = 12 Pb / year
Лучшее хранилище ДНК — холодильник.
Объемы данных
воскресенье, 7 октября 12 г.
BGI
воскресенье, 7 октября 12 г.
1000genomes.org
> 2500 геномов людей было прочитано
249 TB сжатых данных (FASTQs, BAMs, VCFs)
ftp://ftp.1000genomes.ebi.ac.uk, s3://1000genomes
29 Oct 2009 (pilot):
• 24581 CPU-days = 67 CPU-years
• Full production project is >10 times more data than the pilot.
воскресенье, 7 октября 12 г.
Genome10K.org
воскресенье, 7 октября 12 г.
СеквенированиеЧтение фрагментов (лабораторная):
Считать множество фрагментов из многих копий одного генома.
Сборка фрагментов (вычислительная):
Собрать геном из этих ридов с помощью алгоритмов.
воскресенье, 7 октября 12 г.
Next Gen Sequencing
воскресенье, 7 октября 12 г.
Исправление ошибок
воскресенье, 7 октября 12 г.
Исправление ошибок
воскресенье, 7 октября 12 г.
Исправление ошибок
воскресенье, 7 октября 12 г.
Сборка
воскресенье, 7 октября 12 г.
Сборка
By reference (Индивидуум)
De novo (Новые виды)
Assisted assembly (Похожие виды)
воскресенье, 7 октября 12 г.
SNP
SNP — Single Nucleotide Polymorphism.
Indel — insertion или deletion.
dbSNP — база данных известных SNP.
воскресенье, 7 октября 12 г.
По референсу
воскресенье, 7 октября 12 г.
Де ново
Overlap Graphs
de Bruijn Graphs
воскресенье, 7 октября 12 г.
TSP
overlap(s1, s2) — длина максимального суффикса s1 равного префиксу s2.
воскресенье, 7 октября 12 г.
TSP
overlap(s1, s2) — длина максимального суффикса s1 равного префиксу s2.
Вершины — строки.
Рёбра — перекрытия.
воскресенье, 7 октября 12 г.
TSP
overlap(s1, s2) — длина максимального суффикса s1 равного префиксу s2.
Вершины — строки.
Рёбра — перекрытия.
Travelling salesman problem (NP-hard)!воскресенье, 7 октября 12 г.
СпектрСпектр: мультимножество К-меров из строки.
Spectrum(TATGGTGC, 3) =
{TAT, ATG, TGG, GGT, GTG, TGC}
Spectrum(GTATCT, 2) = Spectrum(GTCTAT, 2) = {AT, CT, GT, TA, TC}
воскресенье, 7 октября 12 г.
Задача
Дано:
Spectrum(Genome, K)
Найти:
Genome
воскресенье, 7 октября 12 г.
Overlap Graph
Вершины: K-меры
Рёбра: (K-1)-меры
воскресенье, 7 октября 12 г.
Overlap Graph
Вершины: K-меры
Рёбра: (K-1)-меры
{ ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}
воскресенье, 7 октября 12 г.
Overlap Graph
Вершины: K-меры
Рёбра: (K-1)-меры
{ ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}
Hamiltonian path problem (NP-complete)!воскресенье, 7 октября 12 г.
de Bruijn Graph
воскресенье, 7 октября 12 г.
de Bruijn Graph
Вершины: (K-1)-меры
Рёбра: K-меры
воскресенье, 7 октября 12 г.
de Bruijn Graph
Вершины: (K-1)-меры
Рёбра: K-меры
{ ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}
воскресенье, 7 октября 12 г.
de Bruijn Graph
Вершины: (K-1)-меры
Рёбра: K-меры
{ ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}
Eulerian path problem (linear)!воскресенье, 7 октября 12 г.
Снова ошибки
К = ???
Tips
Bulges (bubbles)
Химерические фрагменты
воскресенье, 7 октября 12 г.
Assisted Assembly
воскресенье, 7 октября 12 г.
Exome Sequencing
воскресенье, 7 октября 12 г.
RNA-seq
воскресенье, 7 октября 12 г.
ChIP-seq
Chromatin ImmunoPrecipitation
воскресенье, 7 октября 12 г.
Single Cell Sequencing
воскресенье, 7 октября 12 г.
Одна клеткаМного клеток
Геном
Покрытие
воскресенье, 7 октября 12 г.
http://www.youtube.com/watch?v=yKW4F0Nu-UY
воскресенье, 7 октября 12 г.
Масс-спектрометрия
H...-HN-CH-CO-NH-CH-CO-NH-CH-CO-…OH
Ri-1 Ri Ri+1
AA residuei-1 AA residuei AA residuei+1
N-terminus C-terminus
воскресенье, 7 октября 12 г.
Масс-спектрометрия
PRTEIN
воскресенье, 7 октября 12 г.
Масс-спектрометрия
PRTEIN
P RTEIN
воскресенье, 7 октября 12 г.
Масс-спектрометрия
PRTEIN
P RTEIN
PR TEIN
воскресенье, 7 октября 12 г.
Масс-спектрометрия
PRTEIN
P RTEIN
PR TEIN
PRT EIN
PRTE IN
PRTEI N
воскресенье, 7 октября 12 г.
Масс-спектрометрия
PRTEIN
P RTEIN
PR TEIN
PRT EIN
PRTE IN
PRTEI N
m(P) = 97
m(R) = 156
m(T) = 101
m(E) = 129
m(I) = 113
m(N) = 114
воскресенье, 7 октября 12 г.
Масс-спектрометрия
PRTEIN
P RTEIN
PR TEIN
PRT EIN
PRTE IN
PRTEI N
m(P) = 97
m(R) = 156
m(T) = 101
m(E) = 129
m(I) = 113
m(N) = 114
710
97 613
253 457
354 356
483 227
596 114
воскресенье, 7 октября 12 г.
Спектры
воскресенье, 7 октября 12 г.
Сборка белка
Де ново
По базе данных
воскресенье, 7 октября 12 г.
Де ново
воскресенье, 7 октября 12 г.
Spectrum Graph
воскресенье, 7 октября 12 г.
Spectrum Graph
воскресенье, 7 октября 12 г.
По базе данных
..., MDERHILNM, KLQWVCSDL, PTYWASDL, ENQIKRSACVM, TLACHGGEM, NGALPQWRT, HLLERTKMNVV, GGPASSDA, GGLITGMQSD,
MQPLMNWE, ALKIIMNVRT, AVGELTK, HEWAILF, GHNLWAMNAC, GVFGSVLRA, EKLNKAATYIN, ...
воскресенье, 7 октября 12 г.
По базе данных
..., MDERHILNM, KLQWVCSDL, PTYWASDL, ENQIKRSACVM, TLACHGGEM, NGALPQWRT, HLLERTKMNVV, GGPASSDA, GGLITGMQSD,
MQPLMNWE, ALKIIMNVRT, AVGELTK, HEWAILF, GHNLWAMNAC, GVFGSVLRA, EKLNKAATYIN, ...
воскресенье, 7 октября 12 г.
Похожие спектры
Shared peaks count (SPC) — количество общих пиков.
S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 }
(S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2)
SPC = (S1 ⊕ S2)(0)
воскресенье, 7 октября 12 г.
Spectral Convolution
Shared peaks count (SPC) — количество общих пиков.
S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 }
(S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2)
SPC = ?(S1 ⊕ S2)(0)
воскресенье, 7 октября 12 г.
Spectral Convolution
Shared peaks count (SPC) — количество общих пиков.
S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 }
(S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2)
SPC = (S1 ⊕ S2)(0)
воскресенье, 7 октября 12 г.
Сдвиги
S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100}
S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95}
S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95}
(S ⊕ S')(0) = (S ⊕ S'')(0) = 5
(S ⊕ S')(5) = (S ⊕ S'')(5) = 5
воскресенье, 7 октября 12 г.
Сдвиги
S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100}
S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95}
S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95}
(S ⊕ S')(0) = (S ⊕ S'')(0) = 5
(S ⊕ S')(5) = (S ⊕ S'')(5) = 5
воскресенье, 7 октября 12 г.
Сдвиги
S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100}
S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95}
S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95}
(S ⊕ S')(0) = (S ⊕ S'')(0) = 5
(S ⊕ S')(5) = (S ⊕ S'')(5) = 5
Выравнивание строк!
воскресенье, 7 октября 12 г.
КнигиAlgorithms on Strings, Trees and Sequences: Computer Science and Computational Biology. Dan Gusfield, 1997.
An Introduction to Bioinformatics Algorithms. Jones & Pevzner, 2004.
Computational Molecular Biology, An Algorithmic Approach. Pavel Pevzner, 2000.
http://bioinf.me/books
воскресенье, 7 октября 12 г.
Домашнее задание
http://rosalind.info
• LONG
• DBRU
• GASM
• ASMQ
• PRTM, SPEC
http://rosalind.info/classes/enroll/171da3d314a0b07e00883287cd2b6ddeeeba225b/
воскресенье, 7 октября 12 г.
Приезжайте к нам :)
Магистратура: http://mit.spbau.ru/bioinf
Курсы: http://bioinf.me
Лаборатория: http://bioinf.spbau.ru
Стажировка: http://bioinf.spbau.ru/int
Розалинд: http://rosalind.info
воскресенье, 7 октября 12 г.