Top Banner
データベースから見た 次世代シーケンスによる研究の “これまでとこれから” 研究者を助けるために データベースは何をすべきか Database Center for Life Science 大田達郎 Tazro Ohta Now and then: next-generation sequencing database to encourage the big data science
36

Now and then: next-generation sequencing database to encourage the big data science

Jun 26, 2015

Download

Technology

Tazro Ohta

ビッグデータに踊らされる
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Now and then: next-generation sequencing database to encourage the big data science

データベースから見た 次世代シーケンスによる研究の “これまでとこれから” 研究者を助けるために データベースは何をすべきか

Database Center for Life Science 大田達郎 Tazro Ohta

Now and then: next-generation sequencing database to encourage the big data science

Page 2: Now and then: next-generation sequencing database to encourage the big data science

まとめ

• データ解析が大変な時代はもう終わった

• データを奉納する人々にご利益を

Summary: stop annoying about NGS data processing, giving rewards to open-data scientists

Page 3: Now and then: next-generation sequencing database to encourage the big data science

データ解析が大変な時代はもう終わった

“data processing is not the most annoying part anymore”

Page 4: Now and then: next-generation sequencing database to encourage the big data science

今、大規模シーケンスは何が大変なのか

• 自身でシーケンスするのと同じくらい公開データを使うケースが多い!

• それぞれのフローで共通する部分,異なる部分

• それぞれどこが大変なのか?

• 「データの解析が大変なんでしょ」と思われて『いた』!

• 自前シーケンスは実験デザインの方が大事

• 公開データは「実験デザインの情報をいかに手に入れるか」が大事

the hardest part is designing whole sequencing experiment, for both self-sequencing and using public sequencing data

Page 5: Now and then: next-generation sequencing database to encourage the big data science

通常のシーケンスプロジェクトにおける研究ワークフロー

サンプリング ライブラリプレップ シーケンシング QC マッピング/アセンブル 解析

• 「次世代はデータ解析が大変」から「良いシーケンスがあればどうにかなる」へ!

• ツールや手法、論文も多く出回っており、解析が大変な時代はもう終わる

• 計算機資源の問題も公共リソースなどによって解決できる

• 重要なのはよくデザインされた実験と質の高いライブラリ

後になってからはどうしようもない 技術的な問題なのでどうにかなる

over the data processing, just a technical part, now researcher must care about designing experiment

Page 6: Now and then: next-generation sequencing database to encourage the big data science

公共のシーケンスデータを利用するためのフロー

検索 メタデータの収集 ダウンロード QC マッピング/アセンブル 解析

• 「データの質は解析ではどうにもならない」のは同じ!

• データの質の判断には実験条件などのメタ情報の充実が必要

• 大量のデータから効率よく必要なデータを探さなくてはならない

• サイズの大きなデータはDL・展開に時間がかかるので「ハズレ」を引きたくない

解凍

on-line local

using public data requires retrieving detailed metadata to control the quality of sequencing

Page 7: Now and then: next-generation sequencing database to encourage the big data science

公開データの利用コストを下げるためのDB的アプローチ

• 必要なデータを素早く検索できる!

• 「目的とするデータがどのくらい登録されているか」を可視化

• 解析に必要なメタデータが確認できる!

• PubMed, PMCから文献情報を抽出

• リード情報の追加 (リード数,リード長,エラー率,etc.)

• 「ハズレ」を避けることでDL/解凍のコストを削減

• 予めクオリティを確認することでQC処理を省略

an approach from the database: improving data search system with method description from papers as metadata

Page 8: Now and then: next-generation sequencing database to encourage the big data science

検索システムの開発 DBCLS SRA (http://sra.dbcls.jp)

Page 9: Now and then: next-generation sequencing database to encourage the big data science

FastQCによるSequence Qualityの提供 (http://sra.dbcls.jp)

Page 10: Now and then: next-generation sequencing database to encourage the big data science

オッこのデータよさそう→ダウンロードする(一晩)→解凍する(一晩)→見てみる→全部Nでした→\(^o^)/

Page 11: Now and then: next-generation sequencing database to encourage the big data science

DBCLS SRAによって実現するコストの削減

検索 メタデータの収集 DLQC マッピング/アセンブル 解析

• 目的は“研究目的に合致する質の高いデータを最小コストで手に入れる”こと!

• 「ないものを探し続ける」ことを防ぐ

• 「同じものが複数あるなら良い方を使いたい」をサポートする

• 検索の自動化もサポート

解凍 QC

on-line local

“retrieving data that works for one’s study from the public database with minimum effort”

Page 12: Now and then: next-generation sequencing database to encourage the big data science

どうにかなったのか

“And it goes..”

Page 13: Now and then: next-generation sequencing database to encourage the big data science

どうにもならなかった

• データの量やバリエーションに依存する問題!

• データが分散する問題!

• メタ情報の問題!

• 文献情報など補足情報の問題

not so good: amount and variation of data, data distribution to various public DB, insufficient quality of metadata, difficulty with linking data to publication

Page 14: Now and then: next-generation sequencing database to encourage the big data science

データ量は延々増え続けている

http://www.ncbi.nlm.nih.gov/Traces/sra/

2PB >

Page 15: Now and then: next-generation sequencing database to encourage the big data science

データ量は延々増え続けている

http://trace.ddbj.nig.ac.jp/DRASearch/

Page 16: Now and then: next-generation sequencing database to encourage the big data science

データのバリエーションも増えている

http://liorpachter.wordpress.com/seq/

[*-Seq].size > 80

Page 17: Now and then: next-generation sequencing database to encourage the big data science

データのバリエーションも増えている

Page 18: Now and then: next-generation sequencing database to encourage the big data science

DB側はざっくりしたStudy Type

by study (http://sra.dbcls.jp/trends.html)

Page 19: Now and then: next-generation sequencing database to encourage the big data science

データが分散する

by study (http://sra.dbcls.jp/trends.html)

Page 20: Now and then: next-generation sequencing database to encourage the big data science

TCGA data moved to CGHub http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=history

Page 21: Now and then: next-generation sequencing database to encourage the big data science

メタ情報の問題

Total = 338,765!(words.size == 0).size = 92,089!(words.size > 200).size = 2,184Sanger Center

(template?)

Volumes of free word field “design description”

Page 22: Now and then: next-generation sequencing database to encourage the big data science

大切なことは全てPubMedが教えてくれた http://sra.dbcls.jp/cgi-bin/publication.cgi

Page 23: Now and then: next-generation sequencing database to encourage the big data science

「論文が出たからデータを公開する」はむしろ少数派? (もしくは出ても報告しない)

0

37500

75000

112500

150000

total publication#submission

0

50000

100000

150000

200000

total publication#sample

0

100000

200000

300000

400000

total publication#run

115440

3059

194338

31787

376904

51202

26.5%16.4% 13.6%

not all the published data has paper publication (or never update after the first data submission)

Page 24: Now and then: next-generation sequencing database to encourage the big data science

どげんかせな

• データの量やバリエーションに依存する問題!• 単純に計算量が増える

• 情報の粒度はどこまで対応するべきか

• データが分散する問題!• 管理上のコストと利用上のコストの兼ね合い

• メタ情報の問題!• 登録者によって記述量に差がある

• 文献情報など補足情報の問題!• そもそも文献がない

• Materials&Methods にどこまで詳しく書かれているか

“summary of those problems”

Page 25: Now and then: next-generation sequencing database to encourage the big data science

どうにかなるのか

Is there any hope?

Page 26: Now and then: next-generation sequencing database to encourage the big data science

どうにかなってくれ

• 未来予測

• Compression strategy の問題!

• Sequencing technology の進化は予測が難しい

The other problems; problems of data compression strategy, estimation of sequencing technology advance

Page 27: Now and then: next-generation sequencing database to encourage the big data science

Compression Strategy の問題 Cochrane, Guy, Charles E. Cook, and Ewan Birney. "The future of DNA sequence archiving." GigaScience 1.1 (2012): 2.

Page 28: Now and then: next-generation sequencing database to encourage the big data science

Compression Strategy の問題 Cochrane, Guy, Charles E. Cook, and Ewan Birney. "The future of DNA sequence archiving." GigaScience 1.1 (2012): 2.

Page 29: Now and then: next-generation sequencing database to encourage the big data science

Sequencing Technology の進化は予測が云々 (1) https://www.nanoporetech.com

Page 30: Now and then: next-generation sequencing database to encourage the big data science

Sequencing Technology の進化は予測が云々 (2) http://gnubio.com

Page 31: Now and then: next-generation sequencing database to encourage the big data science

Sequencing Technology の進化は予測が云々 (3) http://www.picoseq.com/

Page 32: Now and then: next-generation sequencing database to encourage the big data science

データを奉納する人々にご利益を

“giving rewards to open-data scientists”

Page 33: Now and then: next-generation sequencing database to encourage the big data science

http://www.flickr.com/photos/ogachin/5420953786/

Page 34: Now and then: next-generation sequencing database to encourage the big data science

データベース神社システムの実現に向けて

• 「質の高いメタ情報と共にデータを登録してもらう」ことが必須!

• データ登録時の負担を減らすことが大事

• 変化するデータの性質にフレキシブルに対応する

• データを登録する研究者の協力も欠かせない

• 質の高いデータ登録をしてくれる研究者に「ご利益」を!

• 今はメタ情報の質も「善意ベース」

• 論文がciteされる,グラントが取れるなどの評価に繋げる必要がある

Improving the DB ecosystem to make submission with high-quality metadata easy, giving rewards to researchers who made highly cited submission, etc.

Page 35: Now and then: next-generation sequencing database to encourage the big data science

まとめ

• データ解析が大変な時代はもう終わった!

• これからは「質の高いシーケンスをするのが大変」な時代

• 解析できる人が実験デザインの段階から関わる必要がある

• 公開データは「質の高いメタ情報を書いてもらう」ためにDBの改善が必須

• データを奉納する人々にご利益を!

• 善意ベースでは限界があるので質の高いデータを公開するインセンティブが必要

Summary: well-designed sequencing project for highly reusable data, make an incentive to submit high-quality metadata

Page 36: Now and then: next-generation sequencing database to encourage the big data science

Acknowledgement

• いつも綺麗なデータを公開してくれるみなさま

• データベースプロジェクトで日々暗躍するDBCLS, DDBJ, NBDCの同志のみなさま

• 有り難いアドバイスやご意見をくださるNGS現場の会のみなさま

• ちょっと協力してみようかな?と思ってくださった会場のみなさま

• オーガナイザのこだまさん、なかざとさん

Thank you!