Top Banner
Обработка данных секвенирования следующего поколения в один клик Афанасьев Андрей, Генеральный директор iBinom
19

Обработка данных секвенирования следующего поколения в один клик

Mar 21, 2016

Download

Documents

Audra

Обработка данных секвенирования следующего поколения в один клик. Афанасьев Андрей, Генеральный директор iBinom. Проблемы текущих решений. Сложная установка Сложная настройка Медленная работа Плохая воспроизводимость результатов Плохая визуализация результатов. Задача. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Обработка данных секвенирования  следующего  поколения в один  клик

Обработка данных секвенирования следующего поколения в один клик

Афанасьев Андрей,Генеральный директор iBinom

Page 2: Обработка данных секвенирования  следующего  поколения в один  клик

Проблемы текущих решений

• Сложная установка• Сложная настройка• Медленная работа• Плохая воспроизводимость результатов• Плохая визуализация результатов

Page 3: Обработка данных секвенирования  следующего  поколения в один  клик

Задача

Сделать продукт по анализу данных NGS для диагностики наследственных заболеваний для врачей:– Простой интерфейс– Минимум настроек– Высокая скорость работы и воспроизводимость

результатов– Высокая точность

Page 4: Обработка данных секвенирования  следующего  поколения в один  клик

Технические сложности

• Алгоритмическая сложность и ресурсоемкость (до 1000 CPU*h на анализ)

• Большой объем входных данных (1-500 Гб)• Разные форматы данных FastQ (длины

ридов, качество в phred33/phred64)• Обеспечение безопасности передачи и

хранения данных

Page 5: Обработка данных секвенирования  следующего  поколения в один  клик

Подход

• Фильтрация ридов по качеству• Картирование• Фильтрация по таргетным регионам• Поиск SNP и коротких indel• Аннотация• Сортировка по патогенности и

формирование отчета

Page 6: Обработка данных секвенирования  следующего  поколения в один  клик

Реализация

• Распределенные вычисление в облаке Amazon в рамках парадигмы MapReduce (неограниченная масштабируемость)

• Хранение данных в S3• Картирование BWA-MEM• Референс hg19 GRCh37.p13 assembly, ver. 73.37• Коллинг SamTools• Аннотация SnpEff• Собственная оценка патогенности –

ibinom score

Page 7: Обработка данных секвенирования  следующего  поколения в один  клик

Выравнивание(симулированные данные)

Total Correct Reads (%) Incorrectly Mapped Reads (%)

Unmapped Reads (%)

iBinom 7863529 101527 7

98.73% 1.27% 0.00%

Bowtie2 7670364 251234 41901

96.32% 3.15% 0.53%

Bwa 7363467 81561 518471

92.47% 1.02% 6.51%

Page 8: Обработка данных секвенирования  следующего  поколения в один  клик

Коллинг

Page 9: Обработка данных секвенирования  следующего  поколения в один  клик

Коллинг

Page 10: Обработка данных секвенирования  следующего  поколения в один  клик

iBinom Score

• Машинное обучение с помощью алгоритма градиентного бустинга

• Обучающая выборка: – Патогенные: записи из dbsnp c clinvar clinical

significance = pathogenic– Непатогенные: записи из dbsnp c частотой

самого редкого аллеля >5% во всех популяциях

Page 11: Обработка данных секвенирования  следующего  поколения в один  клик

iBinom Score

Точность: 93.44%Полнота: 90.96%F-measure: 92.18%

Обучение по базам и скорам:1000genomes, ClinVar, dbSNP, dbNSFP, Ensembl Project, EntrezGene, Exome Variant Server, GeneReviews, GERP++, GO, MutationAssessor, MutationTaster, Orpha Date, Reactome, RefSeq, SeattleSeq, SiPhy, snpEff, UniProt и др.

Page 12: Обработка данных секвенирования  следующего  поколения в один  клик
Page 13: Обработка данных секвенирования  следующего  поколения в один  клик

Использование iBinom

1. Поддерживается любой FASTQ файл, включая архивы .gz, кроме colorspace2. Встроенный тримминг адаптеров3. Можно объединять несколько файлов в один образец4. Можно скачать vcf-файл (в формате v.4.1)5. Для передачи используется шифрованное соединение https

Page 14: Обработка данных секвенирования  следующего  поколения в один  клик
Page 15: Обработка данных секвенирования  следующего  поколения в один  клик
Page 16: Обработка данных секвенирования  следующего  поколения в один  клик
Page 17: Обработка данных секвенирования  следующего  поколения в один  клик
Page 18: Обработка данных секвенирования  следующего  поколения в один  клик

Планы

1. Система подбора болезней(по симптомам, по списку генов, по списку болезней)

2. Ветвление пайплайна(например, выравнивание TMAP для IonTorrent)

3. Переделка и упрощение интерфейса программы

Page 19: Обработка данных секвенирования  следующего  поколения в один  клик

Приглашаем к сотрудничеству!

[email protected]