Now and then: next-generation sequencing database to encourage the big data science

データベースから見た次世代シーケンスによる研究の “これまでとこれから” 研究者を助けるためにデータベースは何をすべきか

Database Center for Life Science 大田達郎 Tazro Ohta

Now and then: next-generation sequencing database to encourage the big data science

まとめ

• データ解析が大変な時代はもう終わった

• データを奉納する人々にご利益を

Summary: stop annoying about NGS data processing, giving rewards to open-data scientists

データ解析が大変な時代はもう終わった

“data processing is not the most annoying part anymore”

今、大規模シーケンスは何が大変なのか

• 自身でシーケンスするのと同じくらい公開データを使うケースが多い!

• それぞれのフローで共通する部分，異なる部分

• それぞれどこが大変なのか？

• 「データの解析が大変なんでしょ」と思われて『いた』!

• 自前シーケンスは実験デザインの方が大事

• 公開データは「実験デザインの情報をいかに手に入れるか」が大事

the hardest part is designing whole sequencing experiment, for both self-sequencing and using public sequencing data

通常のシーケンスプロジェクトにおける研究ワークフロー

サンプリングライブラリプレップシーケンシング QC マッピング/アセンブル解析

• 「次世代はデータ解析が大変」から「良いシーケンスがあればどうにかなる」へ!

• ツールや手法、論文も多く出回っており、解析が大変な時代はもう終わる

• 計算機資源の問題も公共リソースなどによって解決できる

• 重要なのはよくデザインされた実験と質の高いライブラリ

後になってからはどうしようもない技術的な問題なのでどうにかなる

over the data processing, just a technical part, now researcher must care about designing experiment

公共のシーケンスデータを利用するためのフロー

検索メタデータの収集ダウンロード QC マッピング/アセンブル解析

• 「データの質は解析ではどうにもならない」のは同じ!

• データの質の判断には実験条件などのメタ情報の充実が必要

• 大量のデータから効率よく必要なデータを探さなくてはならない

• サイズの大きなデータはDL・展開に時間がかかるので「ハズレ」を引きたくない

解凍

on-line local

using public data requires retrieving detailed metadata to control the quality of sequencing

公開データの利用コストを下げるためのDB的アプローチ

• 必要なデータを素早く検索できる!

• 「目的とするデータがどのくらい登録されているか」を可視化

• 解析に必要なメタデータが確認できる!

• PubMed, PMCから文献情報を抽出

• リード情報の追加 (リード数，リード長，エラー率，etc.)

• 「ハズレ」を避けることでDL/解凍のコストを削減

• 予めクオリティを確認することでQC処理を省略

an approach from the database: improving data search system with method description from papers as metadata

検索システムの開発 DBCLS SRA (http://sra.dbcls.jp)

FastQCによるSequence Qualityの提供 (http://sra.dbcls.jp)

オッこのデータよさそう→ダウンロードする(一晩)→解凍する(一晩)→見てみる→全部Nでした→＼(^o^)／

DBCLS SRAによって実現するコストの削減

検索メタデータの収集 DLQC マッピング/アセンブル解析

• 目的は“研究目的に合致する質の高いデータを最小コストで手に入れる”こと!

• 「ないものを探し続ける」ことを防ぐ

• 「同じものが複数あるなら良い方を使いたい」をサポートする

• 検索の自動化もサポート

解凍 QC

on-line local

“retrieving data that works for one’s study from the public database with minimum effort”

どうにかなったのか

“And it goes..”

どうにもならなかった

• データの量やバリエーションに依存する問題!

• データが分散する問題!

• メタ情報の問題!

• 文献情報など補足情報の問題

not so good: amount and variation of data, data distribution to various public DB, insufficient quality of metadata, difficulty with linking data to publication

データ量は延々増え続けている

http://www.ncbi.nlm.nih.gov/Traces/sra/

2PB >

データ量は延々増え続けている

http://trace.ddbj.nig.ac.jp/DRASearch/

データのバリエーションも増えている

http://liorpachter.wordpress.com/seq/

[*-Seq].size > 80

データのバリエーションも増えている

DB側はざっくりしたStudy Type

by study (http://sra.dbcls.jp/trends.html)

データが分散する

by study (http://sra.dbcls.jp/trends.html)

TCGA data moved to CGHub http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=history

メタ情報の問題

Total = 338,765!(words.size == 0).size = 92,089!(words.size > 200).size = 2,184Sanger Center

(template?)

Volumes of free word field “design description”

大切なことは全てPubMedが教えてくれた http://sra.dbcls.jp/cgi-bin/publication.cgi

「論文が出たからデータを公開する」はむしろ少数派？ (もしくは出ても報告しない)

0

37500

75000

112500

150000

total publication#submission

0

50000

100000

150000

200000

total publication#sample

0

100000

200000

300000

400000

total publication#run

115440

3059

194338

31787

376904

51202

26.5%16.4% 13.6%

not all the published data has paper publication (or never update after the first data submission)

どげんかせな

• データの量やバリエーションに依存する問題!• 単純に計算量が増える

• 情報の粒度はどこまで対応するべきか

• データが分散する問題!• 管理上のコストと利用上のコストの兼ね合い

• メタ情報の問題!• 登録者によって記述量に差がある

• 文献情報など補足情報の問題!• そもそも文献がない

• Materials&Methods にどこまで詳しく書かれているか

“summary of those problems”

どうにかなるのか

Is there any hope?

どうにかなってくれ

• 未来予測

• Compression strategy の問題!

• Sequencing technology の進化は予測が難しい

The other problems; problems of data compression strategy, estimation of sequencing technology advance

Compression Strategy の問題 Cochrane, Guy, Charles E. Cook, and Ewan Birney. "The future of DNA sequence archiving." GigaScience 1.1 (2012): 2.

Compression Strategy の問題 Cochrane, Guy, Charles E. Cook, and Ewan Birney. "The future of DNA sequence archiving." GigaScience 1.1 (2012): 2.

Sequencing Technology の進化は予測が云々 (1) https://www.nanoporetech.com

Sequencing Technology の進化は予測が云々 (2) http://gnubio.com

Sequencing Technology の進化は予測が云々 (3) http://www.picoseq.com/

データを奉納する人々にご利益を

“giving rewards to open-data scientists”

http://www.flickr.com/photos/ogachin/5420953786/

データベース神社システムの実現に向けて

• 「質の高いメタ情報と共にデータを登録してもらう」ことが必須!

• データ登録時の負担を減らすことが大事

• 変化するデータの性質にフレキシブルに対応する

• データを登録する研究者の協力も欠かせない

• 質の高いデータ登録をしてくれる研究者に「ご利益」を!

• 今はメタ情報の質も「善意ベース」

• 論文がciteされる，グラントが取れるなどの評価に繋げる必要がある

Improving the DB ecosystem to make submission with high-quality metadata easy, giving rewards to researchers who made highly cited submission, etc.

まとめ

• データ解析が大変な時代はもう終わった!

• これからは「質の高いシーケンスをするのが大変」な時代

• 解析できる人が実験デザインの段階から関わる必要がある

• 公開データは「質の高いメタ情報を書いてもらう」ためにDBの改善が必須

• データを奉納する人々にご利益を!

• 善意ベースでは限界があるので質の高いデータを公開するインセンティブが必要

Summary: well-designed sequencing project for highly reusable data, make an incentive to submit high-quality metadata

Acknowledgement

• いつも綺麗なデータを公開してくれるみなさま

• データベースプロジェクトで日々暗躍するDBCLS, DDBJ, NBDCの同志のみなさま

• 有り難いアドバイスやご意見をくださるNGS現場の会のみなさま

• ちょっと協力してみようかな？と思ってくださった会場のみなさま

• オーガナイザのこだまさん、なかざとさん

Thank you!

Now and then: next-generation sequencing database to encourage the big data science

Technology

public sequencing data

data distribution

published data

reusable data

linking data

variation of data

tcga data

data submission13