2015/2/27 第41回統合DBミーティング Integrated MTG in NIBIO 1
2015/2/27
第41回統合DBミーティングIntegrated MTG in NIBIO
1
本日の予定
• Sagace– アクセス解析
– 新規追加DBについて
• 医薬基盤研内のデータのRDF化
– Opent TG-GATEs
• BH14.14での進捗報告
• アプリケーション化
– 実験動物研究資源バンク• アプリケーション化
2
新規追加予定のDB
• https://www.evernote.com/l/ANWfxInw105F665jeMwsYlApJl54JGtAg5c
3
Open TG-GATEsのRDF化
• BH14.14&SPARQLthon39 での進捗
– Schemaの作成(別紙参照)
• http://bit.ly/1EtNjm1
• 個体,実験,サンプル毎に分類
• Control vs Target については,解析に実験を紐付ける形で解決
–生化学的検査・血液学的検査値のRDF化
• http://bit.ly/1DsOm3P
• 個別の検査項目,単位までRDF化
4
生化学的検査・血液学的検査値のRDF化
抜粋(例:ALP)sio:SIO_000216 [
a obo:CMO_0000045 ;
sio:SIO_000300 763 ;
skos:prefLabel "plasma alkaline phosphatase activity level" ;
rdfs:label "plasma alkaline phosphatase activity level" ;
tgo:abbr "ALP";
sio:SIO_000221 snomedct:259001000 ;
#sio:SIO_000221 means has unit
#snomedct means Systematized Nomenclature of Medicine, 259001000 means International unit/liter (IU/L)
];
5
再RDF化に際して-直面した問題点等
• 個体と実験の区別をどう設計し,Schemaで表現するか
• 生化学的・血液学的検査値に該当するオントロジーは既存のもので対応可能か– 結果的には全て対応可能だった– 複数該当するオントロジーがある場合にどれを選択するか
– 上位のクラスを選択するか否か(例:blood or plasma)
• 上記のことは,BioHackathonやSPARQLthonで直接相談するのが早かった。
6
使用したオントロジー-SIO
• The Semanticscience Integrated
Ontology (SIO)
–計測系のオントロジー
– Bio2RDFも管理・運営しているSemantic
Web technologiesにより開発
–今回は,計測値が値を持つことの表現に使用
–例:has measurement value, has unit
7
使用したオントロジー-
SNOMED-CT• Systematized Nomenclature of
Medicine - Clinical Terms (SNOMED-CT)
–医療関連であれば,かなり網羅的に作成されているオントロジー。
–デンマークに本部がある非営利団体IHTSDO(International Health Terminology Standards
Development Organization)によって管理・運営
– BioPortalで最も人気
–今回は計測単位(unit/liter (IU/L)),(mg/dL)などに使用
8
使用したオントロジー-CMO
• Clinical Measurement Ontology
–ミシガン大学で開発されているオントロジーの1つ。
• 公開されているオントロジーは150
• 生物学的,環境学的など多くのオントロジーがある。
–今回は臨床検査に特化したオントロジーをAST, BUNなどの検査項目に使用
9
進捗
• サンプルデータの作成
• 現在のRDFから,プログラム処理でデータを変換中
• 今年度中にひと通り再RDF化する予定
10
アプリケーション化
• クエリ:副作用
• 結果:化合物名,その化合物が投与された際のラットの血液学的・生化学的検査値– 異常値には色付け
– High:赤,Low:青• 参考:Exotic Animal Companion Medicine Handbook for Veterinarians,
Johnson-Delaney, C., 1996, Zoological Education Network
• PHPにて実装– 直接トリプルストアにクエリを投げる
– 検索結果のJSONからhtmlに出力
11
今回注目する値
• 肝機能の指標– AST (GOT)
• アスパラギン酸アミノ基転移酵素
– ALT(GPT)• アラニンアミノトランスフェラーゼ
– LDH• 乳酸脱水素酵素
• 腎機能の指標– NA
– K
– Ca
– BUN• 尿素窒素
– CRE• 血中クレアチニン
12
結果の見方
• アプリケーションでは,化合物と血液学的・生化学的検査の値を表示。
• 特定の副作用経由のラットの実験値のうち,異常値(Highのみ)の割合を下部に表示。
13
コントロールのラットの場合
AST ALT LDH NA K Ca BUN CRE
Abnormal(high)/
Total (%)
3% 82% 50% 0% 0% 0% 6% 0%
14
• 注意:
–コントロールのラットでも異常の個数の割合が多いALTは異常値の設定が今回の実験に適合していない可能性がある。
LDH
• 心臓や肝臓の疾患,貧血や炎症などで高値になる傾向が知られている。
• 実験条件は以下に固定した場合
– Repeat
– in vivo
– Liver
– Middle dose
– 15 day
15
欠乏性貧血
16
自己免疫溶血性貧血
17
微小血管症性溶血性貧血
18
BUN
• 腎機能の指標値,腎機能の低下,腎不全などで高値となる。
• 実験条件は以下に固定した場合
– Repeat
– in vivo
– Kidney
– Middle dose
– 15 day
19
20
糖尿病性腎症
21
結果と応用例(仮説)
–実際に知られている知見と整合性の取れる結果が得られた。
–ラットで観察された血液学的・生化学的データ&遺伝子発現データを特徴量とし,特定の副作用で共通するパターンを見つける
–薬の開発時におけるラットによる非臨床試験で,Open TG-GATEsと同様な実験が行われた時にヒトに発生しうる副作用の予測
22
実験動物研究資源バンクのRDF化&アプリケーション化
• 再RDF化
–別紙参照
• アプリケーション化
–現在実験動物研究資源バンクがウェブ上で提供している機能の実装
– GUIでPostgreSQL等と同じように管理・運用できるかの実験
–基盤研内部・外部のトリプルストアとの統合とアプリケーション化の実験
23
基盤研内部データとの統合疾患(ICD-10)
実験動物研究資源バンク
24
難病研究資源バンク
21
希少疾病用医薬品
149
24
00
5
3
予想以上に重なるIDが少なかった
基盤研内部データとの統合Gene Symbol
• JCRB細胞バンクのデータとGene
Symbolで統合できるか実験
–実験動物研究資源バンクである119の遺伝子をSagaceで検索
–一致した8個のエントリについて,sagaceのインデックスファイルとmicrodataをもとにRDF化
–トリプルストアで統合
25
基盤研内部データとの統合Gene Symbol
• JCRB細胞バンクのデータとGene
Symbolで統合できるか実験
– 9遺伝子が細胞バンクのエントリと一致
–エントリ別
• 実験動物研究資源バンク:49/216
• JCRB細胞バンク:8/1194
• ちなみに疾患は疾患名で検索したところ
2疾患のみ一致
26
基盤研外部のデータとの統合MGI
• MGI(Mouse Genome Informatics)– ジャクソン研究所が提供しているマウスに関する遺伝子,Phenotypeなど生物学的な情報を提供する統合データベース
– Bio2RDFによりRDF化
• 文献経由でMGIが提供しているPhenotype情報を取得
• 実際のPhenotypeの名称はMonarchで取得– Monarchはオレゴン健康科学大学などで運営されているDB統合プラットフォーム
27
基盤研外部のデータとの統合MGI-文献の場合
• 関連付けられた実験動物研究資源バンク:
15/216エントリ
• 紐付けられた文献 : 10/130個
• 取り出せたPhenotype : 132個
28
基盤研外部のデータとの統合MGI-gene Symbolの場合
• 関連付けられた実験動物研究資源バンク:
140/216エントリ
• 紐付けられたGene Symbol : 85/120個
• 取り出せた染色体情報(染色体,位置) :
263個
29
アプリケーション化に際して課題など
• SQL的な操作は概ね可能
• IDを重複させないようにするためにはプログラム的な処理が必要
• 1対多,多対多の場合には,SPARQLで表示上の工夫– (GROUP_CONCAT(?gene; SEPARATOR = “, ”) AS ?geneList)など
• RDF化した複数のデータベース由来のデータをトリプルストアで統合して表示させることは現実的– 想像していたより一致するデータが少ない
• 外部のトリプルストアからデータを得るには時間がかかりすぎて現実的ではない
30
RDF化とデータ統合に際して• 細胞バンク
– Sagaceでmicrodataを付与していたので,提案語彙をそのまま使う場合にはRDF化は楽だった。
– まともにRDF化するならば,Schemaの設計からかなりコストがかかる。
• 理研ではかなりRDF化を進めているので,それらを利用すれば,負担は減る。
• ただ,理研のデータに特化した設計である可能性があるので,それなりに手間がかかる。
– 異種のデータと統合するなら,疾患,遺伝子,文献,臓器経由が妥当?
31
RDF化とデータ統合に際して• 横断検索とRDF
• 今後横断検索のインデックスがJSONになるならば,構造化された部分をRDF, JSON, WEB
APIで公開すれば役立つ可能性。
– 横断検索で使用されている構造化データは断片的だが,アプリケーションを作成する際には断片的なデータも役立つため。
32
その他
• TargetMineの統合TV
–キーワード・テンプレート検索編の完成
–リスト検索・クエリビルダ編
• 日本語版はほぼ完成
• 英語版は来週中に完成予定
33
今後の予定
• SPARQLthon30
– 3/12-13 @ 理研
• 次回
– 3/18?
34