RG-001 » Ø C t , n X » ï Í « í ì ^ ; ' w Ï Ø C Ç C t ô^ S...Ø C t , n X » ï Í « í ì ^ ; ' w Ï Ø C Ç C t ô ^ S = ImprovementofSequence-basedProtein-ProteinInteractionPrediction
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
配列情報に基づくタンパク質間相互作用予測の構造情報付加による高精度化Improvement of Sequence-based Protein-Protein Interaction Prediction
る.この問題に対し,テンプレートベースの手法と denovoドッキングの手法の両予測結果に対してコンセンサスをとり,新たな予測とする方法 [13]が提案されているが,テンプレート構造が必要であることには変わりはなく,多くの種類のタンパク質に対して広く予測を行うという目的には,適用範囲が限定されるテンプレートベースの手法は適さないものと考える.そこで本研究では,配列情報からの予測手法と de
として評価値 E によって決定する.E∗ によって感度を調節することができるが,予測の際は PPIが既知なデータセットを用い,F値が最大となるように決定された E∗ を用いることが多い [11].
3 提案手法従来の配列情報を用いた予測手法 [8]と,de novoドッ
キング計算によって立体構造情報から予測を行う手法[11]を組み合わせた提案手法について述べる.提案手法の概要図を図 2に示す.本手法はタンパク質ペアに対して,配列情報からサポートベクターマシンによって求められる相互作用確率 P と,立体構造情報から求められる相互作用評価値 E を計算し,閾値 E∗ と P ∗
に対して「(P ≥ P ∗) ∧ (E ≥ E∗)」が満たされるとき,相互作用すると判定するものである.配列情報についての評価値(相互作用確率)P は,
Shenらの手法に基いて計算される.タンパク質ペアの配列から CTF特徴ベクトルを生成し,サポートベクターマシンによって学習器を生成する.サポートベクターマシンは通常分類超平面によって 2値の分類を行うものであるが,本研究ではサポートベクターマシンの分類超平面とサンプルの特徴ベクトルとの距離から求められる近似的な確率値 [22]を用いて,相互作用する確率 P を定義した.この確率値は,サンプルDAB
に対して以下のように計算される.
P = Pr(True|DAB) =1
1 + exp(w⊤DAB − h)(8)
ただし,w と hは分類超平面を決定する変数である.また,立体構造情報についての評価値 E は式 (6)に示した通りである.各評価値に対する閾値 P ∗とE∗を定め,評価値がいずれも閾値以上になる場合に相互作用すると予測した.ここで,P ∗ = 0のときは配列情報を用いずに立体構造情報のみをもとに予測することと同値となり,E∗ = −∞のときは配列情報のみをもとに予測することと同値となる.閾値 P ∗ と E∗ については,関連研究と同様に,既
トベクターマシンによって計算された相互作用確率値と,立体構造情報から de novoドッキング計算によって求められた相互作用評価値をもとに予測を行う手法を提案した.提案手法は,配列情報と構造情報のそれぞれの評価値に対する二分決定木を構築したことに相当する単純な方法でありながら,立体構造情報のみによるPPI予測と比較して精度が向上することを確認し,特に疎な性質を示す PPIネットワークの予測のような正例に比べて負例が多くなりやすいという問題に適していることが,ROC解析によって示された.今後の課題として,前述した学習データセットの構
[4] Keshava Prasad TS, Goel R, Kandasamy K,Keerthikumar S, et al. Human Protein Refer-ence Database–2009 update. Nucleic Acids Res.,37(suppl 1), D767–772, 2009.
[5] UniProt Consortium. Update on activities at theUniversal Protein Resource (UniProt) in 2013.Nucleic Acids Res., 41(D1), D43–47, 2013.
[6] Berman HM, Westbrook J, Feng Z, GillilandG, Bhat TN, Weissig H, Shindyalov IN, BournePE. The Protein Data Bank. Nucleic Acids Res.,28(1), 235–242, 2000.
[7] Nussinov R, Schreiber R. ComputationalProtein-Protein Interactions. CRC Press, 2009.
[8] Shen J, Zhang J, Luo X, Zhu W, Yu K, ChenK, Li Y, Jiang H. Predicting protein-protein in-teractions based only on sequences information.Proc. Natl. Acad. Sci. USA., 104(11), 4337–4341,2007.
[9] Valencia A, Pazos F. Prediction of protein-protein interactions from evolutionary informa-tion. Structural Bioinformatics, Second Edition,617–634, Wiley and Sons: New York, 2009.
[10] Tuncbag N, Gursoy A, Nussinov R, Keskin O.Predicting protein-protein interactions on a pro-teome scale by matching evolutionary and struc-tural similarities at interfaces using PRISM. Nat.Protoc., 6(9), 1341–1354, 2011.
[11] Matsuzaki Y, Matsuzaki Y, Sato T, Akiyama Y.In silico screening of protein-protein interactionswith all-to-all rigid docking and clustering: anapplication to pathway analysis. J. Bioinform.Comput. Biol., 7(6), 991–1012, 2009.
[12] Ohue M, Matsuzaki Y, Ishida T, Akiyama Y. Im-provement of the protein-protein docking predic-tion by introducing a simple hydrophobic inter-action model: an application to interaction path-way analysis. Lecture Notes in Computer Sci-ence, 7632, 178–187, 2012.
[13] Ohue M, Matsuzaki Y, Shimoda T, Ishida T,Akiyama Y. Highly precise protein-protein in-teraction prediction based on consensus betweentemplate-based and de novo docking methods.In Proc. Great Lakes Bioinformatics Conference2013, 100–109, 2013.
[14] Dyson HJ, Wright PE. Intrinsically unstructuredproteins and their functions. Nat. Rev. Mol. CellBiol., 6(3), 197–208, 2005.
[15] Vapnik VN. The Nature of Statistical LearningTheory. Springer: New York, 1995.
[16] Mintseris J, Pierce B, Wiehe K, Anderson R,Chen R, Weng Z. Integrating statistical pair po-tentials into protein complex prediction. Pro-teins, 69(3), 511–520, 2007.
[17] Schneidman-Duhovny D, Inbar Y, Nussinov R,Wolfson HJ. PatchDock and SymmDock: serversfor rigid and symmetric docking. Nucleic AcidsRes., 33(suppl 2), W363–367, 2005.
[19] Kozakov D, Brenke R, Comeau SR, Vajda S.PIPER: an FFT-based protein docking programwith pairwise potentials. Proteins, 65(2), 392–406, 2006.
[20] Guo M, Shapiro R, Morris GM, Yang XL,Schimmel P. Packaging HIV virion componentsthrough dynamic equilibria of a human tRNAsynthetase. J. Phys. Chem. B. 114(49), 16273–16279, 2010.
[21] Chen R, Robinson A, Gordon D, Chung SH.Modeling the binding of three toxins to thevoltage-gated potassium channel (Kv1.3). Bio-physical J., 101(11), 2652–2660, 2011.
[22] Platt JC. Probabilistic Outputs for Support Vec-tor Machines and Comparisons to RegularizedLikelihood Methods. Advances in Large MarginClassifiers, 61–74, MIT Press, 1999.
[23] Mintseris J, Wiehe K, Pierce B, Anderson R,Chen R, Janin J, Weng Z. Protein-protein dock-ing benchmark 2.0: an update. Proteins, 60(2),214–216, 2005.
[24] Chang CC, Lin C-J. LIBSVM: A library for sup-port vector machines. ACM Trans. on IntelligentSystems and Tech., 2(3), Article 27, 2011.
[25] Zweig MH, Campbell G. Receiver-operatingcharacteristic (ROC) plots: a fundamental eval-uation tool in clinical medicine. Clinical Chem-istry, 39(4), 561–577, 1983.
[26] Wuchty S, Oltvai ZN, Barabasi AL. Evolutionaryconservation of motif constituents in the yeastprotein interaction network. Nat. Genet., 35(2),176–179, 2003.
[27] Smialowski P, Pagel P, Wong P, Brauner B,Dunger I, Fobo G, Frishman G, Montrone C,Rattei T, Frishman D, Ruepp A. The Negatomedatabase: a reference set of non-interacting pro-tein pairs. Nucleic Acids Res., 38(suppl 1), D540–544, 2010.