DDBJ データ解析チャレンジ概要 DDBJ Data Analysis Challenge Eli Kaminuma Center for Information Biology/DDBJ Center, National Institute of Genetics チャレンジキックオフ講習会 日時:2016年7月6日(水)10:30~10:50 場所:国立研究開発法人 科学技術振興機構(JST) 東京本部別館(K's 五番町)
DDBJデータ解析チャレンジ概要DDBJ Data Analysis Challenge
Eli KaminumaCenter for Information Biology/DDBJ Center, National Institute of Genetics
チャレンジキックオフ講習会日時:2016年7月6日(水)10:30~10:50場所:国立研究開発法人 科学技術振興機構(JST) 東京本部別館(K's 五番町)
日本DNAデータバンク(DDBJ)は、欧州・米国と共同で国際塩基配列データベースを運営する機関
スタッフ 6名
アノテータ 14名
運用SE(スパコン・DB) 15名
広報・秘書 5名
研究者が発表する塩基配列・アミノ酸配列をデータベース化。日・韓・欧・米の特許出願配列も含む。国立遺伝学研究所(静岡県三島市)に設置。
遺伝研スパコン
(Kaminuma et al., NAR 2010)
1. NGS Annotation Pipeline
Crowdsourcing
2. DNA Polymorphism Annotation Database
4. Citrus SNP Genotyping Array Design
for GWAS
6. CrowdScience Infrastructure
3. SNP-Trait Heritability Curation Database
(Mochizuki et al., submitted)
(Shimizu et al., submitted)(Kaminuma et al., NAR 2013)
OpenDataOpenData
OpenData
Curation
Curation
OpenData
Crowdsourcing
5. Urban Subway DNA Monitoring Project
Curation
http://p.ddbj.nig.ac.jp/ http://tga.nig.ac.jp/dnapod/
http://tga.nig.ac.jp/h2db/ A Portal Website for Participatory Science(Kaminuma et al., JSAI meeting 2016)
http://tga.nig.ac.jp/pathomapj/
チャレンジ開催の背景① 参加型研究↓神沼研究背景:生命情報データ自動注釈とクラウドソーシング
http://crowdrnd.jp/
DNA配列ビッグデータ↓
データ素材として未だ認知度低い
遺伝研スパコン↓
ビッグデータ解析環境を今後整備
チャレンジ開催の背景②DDBJ年度目標:ビッグデータ素材・解析環境整備へ
京大鹿島研ビッグデータ大学上でコンペ開催へ
- データ解析チャレンジで素材提供。- スパコンのビッグデータ解析環境も同時整備
チャレンジ開催までのハードル①研究倫理審査委員会で要承認
■参加型研究でクラウド(群衆)の個人情報を扱う場合には、IRB(Institutional Review Board)による研究倫理承認が必要
■研究倫理審査の要件に、クラウドの研究同意書(Informed Consent:IC)取得がある。
IC項目
1) 研究目的・協力方法・実施体制・研究期間について2) 本研究が国立遺伝学所の倫理審査委員会で承認された上、開始されること3) 本研究成果の公表について4) 利益・不利益について5) 本研究のデータの個人情報保護および匿名化について6) 本研究のデータの保管と廃棄について
今チャレンジでは、システム投稿ボタン操作を同意書ボタンとして扱いますので御注意をお願い致します。
■同意撤回の御意思の方は、チャレンジ窓口まで御一報ください。チャレンジ終了後の最終評価対象者に含めない様に対処致します。
2016年3月30日発行→ 開催へ!!
チャレンジ開催までのハードル②コンペティション課題の設計問題
■非公開データという厳しい条件有(公開データは正解が探せてしまう)
→実験研究では論文化前のデータ公開は基本無
→未公開データを独自作成で対処
■分野外参加者への配慮専門知識を使わなくても参加可能な課題
疾患・病害リスクとなるGWAS-SNP, cis-eQTL等DNA多型予測タスクを画策するも、、
→DNA多型予測精度に関連する、しかし理解し易いDNA配列からのクロマチン特徴予測に絞る事に。
Schaub MA et al., Genome Res22:1748,2012.
DDBJデータ解析チャレンジ課題
DNA配列からの高精度クロマチン特徴予測モデル構築を目指す。
DDBJチャレンジHPにも課題説明有
ビッグデータ大学に課題説明植物シロイヌナズナのDNA配列から条件毎にクロマチン特徴領域を含むかを予測して下さい。
------------------------------------------------------
入力訓練データ :60,000 DNA配列入力テストデータ:10,000 DNA配列出力訓練データ :8条件の正解(真偽)
-------------------------------------------------------
■入力1配列は、対象生物のゲノム上の200塩基1配列は、01コードで保存しており1行800データです。■出力出力訓練データ(正解データ)は01コードです。1が真で、DNA配列はクロマチン特徴領域を含む。0が偽でクロマチン特徴領域を含まない、に相当します。■課題入力テストデータの予測結果として、1万行8列で真の予測確率をビッグデータ大学に投稿して下さい。(列間区切はスペース)
クロマチン特徴情報を、DDBJ SRAデータベースの再解析で取得可能
(Bernstein et al., Nat Biotechnol,28:1045, 2010)
クロマチン特徴情報とは
オープンクロマチン領域情報、ヒストン修飾情報、転写因子結合部位情報などに分類され、遺伝子発現のオンオフに関係する。
DDBJ SRA (DNase-seq,ChIP-seq条件)
クロマチン情報注釈データベースChIP-Atlas(九大沖博士)
ChIP-Atlasの詳細は「 10:50-11:20 DDBJデータ解析事例ChIP-Atlasデータベースの紹介」講演(沖発表)を御参照ください。
課題データ①入力はDNA配列、出力はクロマチン特徴の有無
※上図条件は課題8条件と異なる可能性があります。また実際の条件は、より細分化されています。※植物シロイヌナズナの課題データは、ChIP-Atlas同条件で解析した未掲載生物種です。(ChIP-Atlasはシロイヌナズナを含まないので御注意ください)
全体のモデル
GGGGAATCTTGAATCAAATGTCGATTCAT 入力: DNA配列はゲノム上のある領域配列
条件毎のモデル
→予測へ
TCAGTAGAAGGTCACCTACATGGATATTAAGGCTATAAGCCGCAGGTAAGATATAGTTCATCGAAGGGGAATCTTGAATCAAATGTCGATTCATCTTAATTGTACGTCAATTCTAATTCAATTTGTTCTAAACTTCCTCGGGGCTAAAGCCTCGTGATTCAATTATGGCTCTTTGCTGCTATTAAGGTGATAGTATCTGCTTAGCCCATAGTAATAAGATGG
1
1
0
0
1
出力ゲノム上のピーク領域 (SRA再解析)
DNase, Flower
HistonMark1, Leaf
HistonMark1, Root
HistonMark2, Flower
TF1, Flower
条件
出力: クロマチン特徴領域がDNA配列領域に含まれるか否か
課題データ②置場所、ファイル形式、データ形式
[1]データ置場は2箇所 [2]ファイル形式
1) ビッグデータ大学ウェブサイト内
2) 遺伝研スパコン内
/home/challenge/data/DDBJ-challenge.matchallengeグループのみアクセス可能
DDBJ-challenge.matはMATLABバイナリファイル形式
→ Rで読込R.matlabのreadMat()
→Pythonで読込scipy.io.loadmat()
[3]データ形式データは論理値(1,0)で格納しています。
計算時には倍精度数値に変換してお使い下さい(Matlabの場合double)。変換はハンズオン資料を参考にしてください。
???
課題データ③DDBJ-challenge.matの形式
*訓練データ(out_tr,seq_tr)を予測モデルの学習に使う。*テストデータ(seq_te)を学習済モデルで予測した結果をビッグデータ大学に投稿する。
>> tmp=load('DDBJ-challenge.mat')tmp =
out_tr: [60000x8 logical]seq_te: [10000x800 logical]seq_tr: [60000x800 logical]
変数 入出分類 説明 用途
out_tr 出力 8条件の正解セット(クロマチン特徴を入力配列領域に含むor含まない)
モデル訓練
seq_te 入力 配列 テスト(課題投稿用)
seq_tr 入力 配列 モデル訓練
訓練入力8条件正解セット訓練出力
800列 8列
60,000行 seq_tr out_tr
①モデル学習
テスト入力
800列
10,000行 seq_te
テスト出力
8列
②学習済モデルで予測
③予測確率をビッグデータ大学へ投稿
課題データ④DNA配列データは特殊2進数で記述
DNA配列データの表現
塩基 アルファベット表現 数字表現 課題表現
Adenosine A 1 1000
Cytidine C 2 0100
Guanine G 3 0010
Thymidine T 4 0001
Unknown その他 0 0000
例: ACCGT=10000100010000100001注意:入力データDNA配列の長さは200。しかしDDBJ-challenge.matに
格納されている長さは800になる。
200bp
800
アルファベット表現
課題表現
講習会ハンズオンで、モデル構築から投稿まで
DDBJデータ解析チャレンジHPにハンズオン資料へのリンクを掲載。
遺伝研スパコンへのジョブ投入
ビッグデータ大学で結果投稿
予測結果の投稿条件
ビッグデータ大学(データサイエンス・コンペティション基盤:京大鹿島 )の投稿条件
ビッグデータ大学の詳細は「 14:05-14:30 機械学習コンペティション基盤の紹介」講演(鹿島発表)を御参照ください。
・予測結果は1日3回まで提出可能。・予測結果提出時の提示スコアは中間スコア。
(中間スコアは、テストデータの50%を対象に算出)・コンペティション終了時に最終スコアを算出。
(最終スコアは、残り50%のテストデータを対象に算出)・チャレンジ終了後の順位は、最後に提出したモデルの最終スコアで決定。
チャレンジ投稿受付期間と参考資料
■投稿受付期間2016/7/6—2016/8/31 JST23:59
結果発表9月30日予定
*学生が参加しやすい夏休みに実施
キックオフ講習会 プログラム
1 データ解析チャレンジ概要(NIG神沼)
2 DDBJ SRA解析事例(九大沖)
3 ビッグデータ大学の紹介(京大鹿島)
4 機械学習予測モデル紹介(京大馬場)
5 遺伝研スパコン紹介(NIG石川)
6 スパコン機械学習ハンズオン(NIG神沼)
■参考資料
→ オンライン参考資料としてYouTube, Slideshareにて公開(チャレンジHPにLINK掲載予定)
チャレンジの計算には遺伝研スパコン利用可利用申請〆切に注意
http://sc.ddbj.nig.ac.jp/ *6/27~8/21: チャレンジ用アカウント申請、OSSインストール受付
*7/6~8/31: Challenge投稿期間*9/1:アカウント閉鎖⇒年度末報告義務なし
■チャレンジ用スケジュール■遺伝研スパコン利用申請
遺伝研スパコンの詳細は、「 14:05-14:30 遺伝研スーパーコンピュータのビッグデータ解析環境」講演(石川発表)を御参照ください。
■GPUノードをChallenge参加者に提供。→ GPU利用Deep Learning解析が実施可
チャレンジ開催
<全体、スパコン準備、講習会>
・Toshihisa Takagi (NIG)・Osamu Ogasawara (NIG)・Masanori Arita (NIG)・Yasukazu Nakamura (NIG)・DDBJスパコンチーム・DDBJ 情報チーム・Yasuhiro Tanizawa (NIG)・Takako Mochizuki (NIG)・Takeru Nakazato (DBCLS)・Mathworks Japan
<倫理審査>
・Kousaku Okubo (NIG)・Isao Katsura (NIG)・NIG Ethical IRB committee
謝辞
課題関係
・Hisashi Kashima (Kyoto Univ)・Yukino Baba (Kyoto Univ)・Shinya Oki (Kyushu Univ)・Tarzo Ohta (DBCLS)・ Ayako Oka (NIG)
特に遺伝研スパコンのチャレンジ開催には、DDBJ運営スタッフの小笠原理博士、DDBJス
パコンチームの皆様に多大の御協力を頂きました事を感謝致します。