ISMB/ECCB2015読み会：大上

Improving compound–protein interactionprediction by building up highly credible

negative samples

Hui Liu, Jianjiang Sun, Jihong Guan, Jie Zheng, Shuigeng ZhouSchool of Computer Science, Fudan University 他

ISMB/ECCB2015 読み会

SYSTEMS

発表者：大上雅史（東京工業大学大学院情報理工学研究科計算工学専攻助教）

twitter @tonets

高信頼の負例構築による化合物タンパク質相互作用予測の改良

Bioinformatics, 31, 2015, i221–i229

2015/8/10

2

概要

何をやった？

技術や手法の肝はどこ？

　化合物のタンパク質に対する活性の有無（相互作用の有無）はほとんど正例しか情報が存在しないため，負例を人工的に作ることになる．この研究ではより「負例っぽい」負例を既知実験データから構築する方法を示し，実際に予測精度が上がることを示した．

今までの化合物タンパク質相互作用予測・化合物の類似性（特徴ベクトル）は fingerprint を使っていた・タンパク質の類似性は smith-waterman や配列特徴量を使っていた・負例は正例ペアでないものからランダムに取っていたこの研究・化合物の特徴に fingerprint と副作用 (side effect database) を使った・タンパク質の特徴に smith-waterman ， GO term ， PFAM ドメイン情報を使った・「既知の正例ペアの化合物に似ていなければそのタンパク質は相手にならない」

化合物タンパク質相互作用予測？

　化合物が結合し活性を示すタンパク質を予測する問題．基本的には「似ている化合物は似たタンパク質をターゲットとする（逆も然り）」という考え方で予測をする．

3

化合物タンパク質相互作用 (CPI) 予測

化合物タンパク質既知の相互作用（正例）

予測したいところ（未知）

GefitinibEGFR

化合物とタンパク質のペアの特徴ベクトル v と教師ラベル t ∈ {+1, -1} から機械学習によって未知の相互作用を予測する

関連研究• Jabob and Vert (2008) Bioinformatics: Pairwised Kernel Method (SVM)• Yamanishi et al. (2008) ISMB2008: Bipartite Graph Learning (Kernel Reg.)• Gonen (2012) Bioinformatics: Bayesian matrix factorization

他多数

4

どうやって予測するのか• 「似ている奴は似た相互作用相手を持つはず」

• 配列や特徴ベクトルを使って類似度を定義したり機械学習にぶち込んだりするなどする

化合物の特徴ベクトルの代表例： fingerprint

化合物タンパク質相互作用 (CPI) 予測

Public MACCS Key (166 bit)PubChem fingerprint (881 bit)ECFP fingerprint (1024 bit)MolPrint2D (∞ bit)　　　　　　　　　　　などなど

類似度計算→ Tanimoto 係数 (Jaccard Index)

Gefitinib

ErlotinibEGFR

©AstraZeneca

© 中外製薬

©AIST

5

化合物タンパク質相互作用 (CPI) 予測 CPI 予測のタイプ分類 Brown JB, et al. Molecular Informatics (2013)

Figure 1 より

• Class I は簡単Class IV は難しい

• Cross Validation するときに訓練データの分割を賢くやらないと over estimate する

6

化合物タンパク質相互作用 (CPI) 予測相互作用情報（教師データ）の集め方• 化合物情報： PubChem , ChEMBL, ZINC, DrugBank• 相互作用情報： STITCH, DrugBank, Matador

負例はどうするの？• データベースにあるペアから

ランダムに組み合わせる「 (C1, P1), (C2, P2) が相互作用するとき，　 (C1, P2) や (C2, P1) が無ければこれらを　負例とする．」

STITCH で gefitinib と erlotinib をクエリにした場合

→ 「実験されてないだけで本当は　正例のペアがいるかもしれない」

※ 活性値 (IC50, Kd など ) を使って　負例を定義できるケースもある．（この研究では対象外）

詳しく知りたい人は Ding et al. (2014) Briefing Bioinformatics. （ CPI 予測レビュー論文）を参照．

7

手法：データセット使うデータ• 相互作用情報• DrugBank 4.1, Matador, STITCH 4.0 STITCH は 0~1000 のスコアで表現， DrugBank と Matador は正例 ( スコア1000)• H. sapiens: 2,290,630 相互作用 (367,142 化合物 , 19,342 タンパク質 )

• C. elegans: 2,141,740 相互作用 (276,294 化合物 , 11,234 タンパク質 )

• 化合物情報• Fingerprint と類似性指標• PubChem Fingerprint (881 bit)• Jaccard Index• Side effect 類似性• SIDER データベースから side effect 情報を取得• Top 10 の side effect から Jaccard Index を計算して類似性指標とする

• タンパク質情報• 配列類似性• 補正 smith-waterman スコア• GO term の Jaccard Index• PFAM domain の Jaccard Index• H. sapiens は 1,331 domain ， C. elegans は 3,837 domain ． 0/1 の

fingerprint 形式．

化合物タンパク質相互作用 CPIs

8

手法：化合物とタンパク質の距離の計算

化合物の類似性の統合

タンパク質の類似性の統合

「周りの似たタンパク質 l がみんな化合物 k をターゲットにしてたら自分 j も化合物 k をターゲットとする」度合いのスコア

fingerprint side effect

sw score GO term PFAM

化合物とタンパク質の距離を定義して負例っぽいペアを抽出する

pj

pa

pbck

PSja

PSjb

wka

wkb

SPCjk= wkaPSja + wkbPSjb

9

手法：化合物とタンパク質の距離の計算（逆パターン）「周りの似た化合物 i がみんなタンパク質 j

をターゲットにしてたら自分 k もタンパク質 j をターゲットとする」スコア

SPCjk と SCPkj で化合物 k とタンパク質 j の距離 dkj を定義 (0~1)

Fig. 2

「 dkj が大きいと，化合物 k と　タンパク質 j は相互作用　しないっぽい」

10

手法：全体の流れFig. 1: The flowchart of our negative CPI screening framework.

距離を計算したら，距離の値に基づいて負例を抽出，閾値で切る．閾値の決め方は省略（ 3.3 節を参照）．（ざっくり言うと , 全体に比べて類似度の分散が有意に大きくなる閾値の下限　をカイ二乗検定で調べる． human は dth=0.9, C. elegans は dth=0.37 ．）

11

評価の方法 2 つの 5-fold クロスバリデーション

指標• precision = TP/(TP+FP)• recall = TP/(TP+FN)• AUC (area under the ROC curve)

Pairwise CV Blockwise CV

12

Pairwise Cross Validation 学習の特徴ベクトル• 化合物 fingerprint とタンパク質 PFAM fingerprint のテンソル積（全ての要素の組み合わせで積をとった fingerprint ）

結果 Screened Random Screened Random Screened Random Screened Random Screened Random Screened Random

AUC 1 0.672 0.622 0.860 0.563 0.940 0.647 0.908 0.874 0.911 0.868 0.910 0.752

3 0.672 0.622 0.904 0.593 0.954 0.694 0.917 0.879 0.920 0.873 0.942 0.705

5 0.671 0.622 0.913 0.589 0.967 0.709 0.916 0.877 0.920 0.872 0.951 0.713

Precision 1 0.624 0.591 0.798 0.570 0.861 0.613 0.881 0.858 0.891 0.862 0.966 0.733

3 0.361 0.338 0.716 0.458 0.847 0.529 0.823 0.786 0.837 0.787 0.969 0.700

5 0.252 0.237 0.684 0.500 0.830 0.514 0.793 0.732 0.804 0.739 0.969 0.732

Recall 1 0.575 0.413 0.927 0.564 0.897 0.599 0.893 0.836 0.913 0.850 0.950 0.745

3 0.560 0.376 0.882 0.306 0.824 0.306 0.749 0.622 0.773 0.631 0.883 0.261

5 0.555 0.364 0.844 0.205 0.825 0.199 0.649 0.524 0.666 0.522 0.861 0.112

L2 logistic SVMMeasure

Neg. sampleratio

Naive Bayes kNN Random Forest L1 logistic

※Negative sample ratio を増やした場合， precision と recall は　 inbalanced なせいで下がりやすいバイアスがかかることに注意

Screened Random Screened Random Screened Random Screened Random Screened Random Screened Random

AUC 1 0.645 0.621 0.858 0.628 0.902 0.659 0.882 0.712 0.892 0.693 0.894 0.702

3 0.633 0.613 0.892 0.668 0.926 0.672 0.895 0.712 0.896 0.698 0.901 0.706

5 0.632 0.614 0.897 0.682 0.928 0.694 0.902 0.715 0.906 0.702 0.907 0.713

Precision 1 0.613 0.601 0.801 0.573 0.821 0.618 0.872 0.748 0.890 0.763 0.785 0.600

3 0.351 0.335 0.787 0.468 0.836 0.580 0.863 0.680 0.875 0.689 0.837 0.438

5 0.247 0.235 0.774 0.524 0.830 0.626 0.857 0.648 0.863 0.667 0.896 0.225

Recall 1 0.465 0.422 0.827 0.560 0.844 0.672 0.849 0.704 0.877 0.729 0.818 0.503

3 0.454 0.372 0.743 0.323 0.705 0.340 0.648 0.293 0.681 0.330 0.576 0.107

5 0.442 0.366 0.690 0.205 0.639 0.208 0.566 0.176 0.582 0.195 0.519 0.024

MeasureNeg. sampleratio

Naive Bayes kNN Random Forest L1 logistic L2 logistic SVM

上 : human (Table 1) ，下 : C. elegans (Table S1)

13

Blockwise Cross ValidationAUC の棒グラフ (Fig. S2, S3, 4, S4)

化合物 - タンパク質の距離で負例をスクリーニングした方が精度が良くなる

human C. elegans

◁クラシカルな　 6 つの手法

◁割と新しい　 3 つの手法

14

Prediction of New Interactions Donepezil (商品名アリセプト ) の予測と関連ネットワー

ク

Fig. 6

© エーザイ

15

まとめ

化合物タンパク質相互作用予測の負例セットの新しい構築方法を示した• 「似てない奴の相手は自分の相手にはならない」• 「似てない奴」を測るための指標（距離）を提案• 色んな情報を組み合わせた• activity cliff ( 似ている化合物なのに活性が異なる ) や， scaffold

hopping ( 似てない化合物だけど活性が似ている ) の対策をした▶スライド省略． 3.3 節参照．

• 高信頼の負例セットが構築できた（予測精度が向上した）• 既知のアッセイ情報との整合性もとれていた▶スライド省略． 4.4 節参照．

データセットや結果はウェブ上で公開されているhttp://admis.fudan.edu.cn/negative-cpi/

http://admis.fudan.edu.cn/negative-cpi/



16

FAQ 　（大上の小並感）

この論文のどこがすごいの？負例構築の妥当な方法を示したところ

この論文で負例構築は完璧なの？「既知の化合物と似ていなければ，その化合物の相手は自分の相手ではない（逆も然り）」という考え方は，人の興味で実験されているバイアスがどうしても入ってきてしまうということは変わらない（ので改良の余地があると思う）．

なんで ISMB に採択されたの？精度，他の学習系問題への応用可能性（一言も触れてないけど），

流行り（ drug repositioning とか）

今後の展望は？複数ホップ先も見る，特徴を増やす，学習方法に芸を見せる，Protein-Protein | RNA-Protein | RNA-RNA | 合コン (?)への応用