2014/10/24 第37回統合DBミーティング Integrated MTG in NIBIO 1
2014/10/24
第37回統合DBミーティングIntegrated MTG in NIBIO
1
本日の予定
• Sagace
– アクセス解析
– 進捗報告
• 医薬基盤研内のデータのRDF化
– 副作用を起点としたデータ統合について
• 分子生物学会のブース展示
– 展示内容の相談
2
進捗報告
• 医薬品のファセットを追加
• NBDCへ連絡• 副作用情報データベースの名前の変更の依頼→済
– Metabolomics.jpの重複エントリの修正
– KEGG Drugの日本語版の追加
3
医薬基盤研内のデータのRDF化
• 進捗報告
– 副作用を起点としたNIBIO内外のデータ統合を開始
– ICD10のRDFデータの調査,修正
– 内臓関連のRDFデータの調査
– 遺伝子発現のデータとの統合の検討
4
副作用起点のNIBIO内外のDB統合
• クエリ例
–副作用(例:頭痛)が報告されている医薬品(化合物)のうち,NIBIOのデータに該当するものを取得。
• 臨床データと非臨床データの統合
5
医薬品(化合物)
副作用 NIBIOのデータ
化合物を含むNIBIOのデータ
• Open TG-GATEs
– 肝障害,腎障害を引き起こすされる医薬品をラットや人の細胞に曝露した実験データ(RDF化しているのは実験条件)
• 希少疾病用医薬品– 日本国内で希少疾病用医薬品と指定された品目の一覧
• 化合物情報– Open TG-GATEs,希少疾病用医薬品ともに,もともと付与されているCAS番号をもとにDrugbankのIDを付与
6
医薬品(化合物)
NIBIOのデータ
統合先のデータベース
• SIDER (Side Effect Resource)
– 公的文書や添付文書をもとに作成した副作用データベース
– ある医薬品で報告された副作用について,副作用発生の割合,含まれる化合物の情報,参照元の文書を調べられる
• Drugbank
– 医薬品やそのターゲット情報を包括的に調べられるデータベース
– 今回はデータを繋ぐIDに使用
7
医薬品(化合物)
副作用
調査
• SIDER, Drugbank
–オリジナルのデータベースにはRDFが無い
• 大手のLODプロジェクトを参照
– Bio2RDF
– Chem2Bio2RDF
• drugbankIDでのデータ統合のため,今回はこちらを使用
8
• SPARQL クエリを参照
9
Chem2Bio2RDF
http://chem2bio2rdf.wikispaces.com/
• SIDERとdrugbankの記述を確認
10
サンプルのクエリを確認
http://chem2bio2rdf.wikispaces.com/Chem2Bio2RDF+Virtuoso
• クエリを書いて動作を確認
11
Chem2BIO2RDF SPARQL Endpoint
http://cheminfov.informatics.indiana.edu:8890/sparql
12
?sider
sider:cid
sider:umls_id
?compound
?side_effect
?sider_id
?drug
drugbank:CID
sider:side_effect
?drugbank_id
drugbank:DBID
?compound_cid
compound:CID
“headache”
検索結果
• 無事にデータ取得可能
13
関連データのダウンロード
14http://cheminfov.informatics.indiana.edu:8080/dow
nload/
SERVICEクエリが
使用できなかったため,sider,pubchem,drug
bankのデータをダ
ウンロードし,加工した。
前データ処理
• ダウンロードデータは大きいデータだったので,事前にデータ処理を行い,動作の高速化とクエリの簡略化を実施
15
sider_URI
sider:cid
sider:umls_id
compound
side_effect
sider_id
drug_URI
drugbank:CID
sider:side_effect
?drugbank_id
chem_drugbank:DBID
compound_cid
compound:CID
Open_TG_GATEs_Data
OrphanDrug_Data
dbowl:drugbank_ID
処理済データをアップロード
• トリプルストアに入れてデータ統合
16
http://10.100.0.34:8081/owlim-workbench-webapp-5.3.1/data/import
17
動作を確認
Chem2Bio2RDF 由来のデータ
NIBIO由来のデータ
実行結果
18
アプリケーション化
• SPARQL endpoint URI を指定,クエリを投げるのみ
• 多くの SPARQL endpointの場合,URIの後にクエリが書かれている。
– E.g. http://” SPARQL endpoint URI
“/sparql?query=select+*+where%0D%0A%7B
%3Fs+%3Fp+%3Fo.%7D%0D%0ALIMIT+10
&_implicit=false&implicit=true&_equivalent=fal
se&_form=%2Fsparql
19
20
SPARQL Endpoint URL
SPARQL クエリ
フォーマットの指定(トリプルストアによる)
デモ
• 副作用 -> PHP program [ Python
(SPARQL-> JSON) ] -> HTML• PHP,JavaScriptのみでも実装可能とのこと
21
Open TG-GATEsデータとの統合について
• 遺伝子発現のデータとの統合を検討
– 現状,ToxyGATEsはKyoto Cabinetを使用
– 懸念事項
– データ量が膨大なため,トリプルストアで処理できる量かどうか
– Control vs各実験の遺伝子発現量のP値をRDF化,あるいは異なる方法で取得
• 疾患分類,臓器別分類による結果表示の検討
– 後述
22
希少疾病用医薬品のデータとの統合について
• Drugbank,特許関連,文献データとの統合の検討
–国内外のデータ比較
23
ICD10のRDFデータの調査
• BioPortal由来のデータ– ttl形式– UMLSのID参照もあり(SIDERのID)– 森田さんとの調査でデータの欠陥やバージョンの混合が判明
• WHO由来のデータ– xml形式– 2010年(現時点での最新版)
• 化合物データとの統合を念頭にICD10のRDF利用を検討– BioPortal由来のデータのほうが妥当?
24
内臓関連のデータ
• SIDERのUMLS ID→OMIM– Bio2RDFのSPARQL Endpoint経由で臓器名は取得可能• 副作用と紐付けられる臓器名は125
– ただし,階層構造はなし
• 疾患コンパス– http://lodc.med-ontology.jp/
– ウェブ上にRDFは無い– BodyPart3DのIDをRDF化している可能性– BodyPart3Dには階層構造あり,より詳細なデータと臓器の可視化が可能
25
今後の予定
• 遺伝子発現量のデータとの統合の模索
• ICD10の最新版RDFの作成
–上記利用による疾患の階層構造を踏まえたNIBIOのデータ取得
• 内臓関連のデータの調査
26
分子生物学会11月25日(火)〜27日(木)@パシフィコ横浜
• 創薬・疾患研究のためのビッグデータ探索– 当日までの準備
• チラシ,ポスター,アンケートの作成• デモの準備,論文の印刷
– チラシ• スケジュール:11月7日までに作成(各自),8日〜14日の週に意見交換・修正,17日〜の週に印刷(伊藤)
• 提案:両面刷り,従来の説明に追加して,プロジェクトの概要やよく聞かれる質問の Q and A 集を用意– TargetMine(Chenさん)– Toxygates(五十嵐さん)– Sagace(伊藤)– 医薬基盤研内のデータベース(深川さん)
27
分子生物学会11月25日(火)〜27日(木)@パシフィコ横浜
– ポスター
• スケジュール:チラシに準ずる。
• 相談:例年だと各DBの紹介とSagace
• 創薬・疾患研究のためのビッグデータ探索というタイトルならば,Sagace, TargetMine, ToxyGATEs,
RDF化したNIBIOのDBの紹介,今後の予定の方が妥当?
28
分子生物学会11月25日(火)〜27日(木)@パシフィコ横浜
• アンケート
• 10月中に質問項目の修正(メンバー)– http://bit.ly/1wnQJRX
• 質問項目(昨年度)– 体験したデモ
– 使ったことのあるデータベース
– 今後必要とするサービスの要望
– ご質問・ご感想
• 昨年度の反省点より– 使ったことのあるデータベースの回答がほとんど無かった。
29
分子生物学会11月25日(火)〜27日(木)@パシフィコ横浜
• デモ
• 昨年度の反省より– 各データベースやサービスの一般的な説明の不足
– デモ用の準備の必要性
• 提案– 次回のMTGまで
» DB開発者によるチュートリアルの作成,またはおすすめ操作の説明
– 次回のMTG時
» 各サービスのひととおりの操作の把握
» 各サービスの操作の難しい点,注目点の共有
30
分子生物学会11月25日(火)〜27日(木)@パシフィコ横浜
• スケジュール案
• お願い• シフトを作成するので,OKな日&時間帯,NGな日&時間帯(多い方)を教えて下さい。
31
10/25〜31 11/4〜7 11/10〜14 11/17〜21
チラシ 草案意見交換・修正
印刷
ポスター 草案意見交換・修正
印刷
アンケート 修正 印刷
デモ チュートリアル作成最終確認・内部でのQA
今後の予定
• 次回
– 11月17日〜の週
• BioHackathon 2014
– 11月9日(日)〜14日(金)
• 分子生物学会
– 11月25日(火)〜27日(木)
32