Top Banner

of 5

Apl of Dt in Human Protein

Apr 06, 2018

Download

Documents

Navneet Khatri
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
  • 8/3/2019 Apl of Dt in Human Protein

    1/5

    D e c i s i o n T r e e C l a s s i f i e r f o r Human P r o t e i n F u n c t i o nP r e d i c t i o nM a n p r e e t S i n g hL e c t u r e r I . TG u r u N a n a k Dev E n g i n e e r i n gC o l l e g eL u d h i a n am p r e e t 7 8 g y a h o o . c o m

    P a r v i n d e r S i n g hA s s i s t a n t P r o f e s s o r CSEG u r u N a n a k Dev E n g i n e e r i n gC o l l e g eL u d h i a n ap a r v i n d e r . s a n d h u g g m a i l . c o m

    D r . H a r d e e p S i n g hP r o f e s s o r a n d H e a d CSEG u r u N a n a k Dev U n i v e r s i t yA m r i t s a rh a r d e e p _ g n d u g r e d i f f m a i l . c o m

    A b s t r a c t - Drug d i s c o v e r e r s n e e d t o p r e d i c t t h e f u n c t i o n s o fp r o t e i n s w h i c h a r e r e s p o n s i b l e f o r v a r i o u s d i s e a s e s i n humanb o d y . The p r o p o s e d m e t h o d i s t o u s e p r i o r i t y b a s e d p a c k a g e so f SDFs ( S e q u e n c e D e r i v e d F e a t u r e s ) s o t h a t d e c i s i o n t r e emay b e c r e a t e d b y t h e i r d e p t h e x p l o r a t i o n r a t h e r t h a ne x c l u s i o n . T h i s r e s e a r c h work d e v e l o p s a ne w d e c i s i o n t r e ei n d u c t i o n t e c h n i q u e i n w h i c h u n c e r t a i n t y m e a s u r e i s u s e d f o rb e s t a t t r i b u t e s e l e c t i o n . The m o d e l c r e a t e s b e t t e r d e c i s i o nt r e e i n t e r m s o f d e p t h t h a n t h e e x i s t i n g C 4 . 5 t e c h n i q u e . Thet r e e w i t h g r e a t e r d e p t h e n s u r e s more number o f t e s t s b e f o r ef u n c t i o n a l c l a s s a s s i g n m e n t a n d t h u s r e s u l t s i n more a c c u r a t ep r e d i c t i o n s t h a n t h e e x i s t i n g p r ed i ct i on t e ch n i qu e . F o r t h esame t e s t d a t a , t h e p e r c e n t a g e a c c u r a c y o f t h e ne w HPF(Human P r o t e i n F u n c t i o n ) p r e d i c t o r i s 72% a n d t h a t o f t h ee x i s t i n g p r e d i c t i o n t e c h n i q u e i s 4 4 % .

    I n d e x T e r m s S e q u e n c e D e r i v e d F e a t u r e s ,a t t r i b u t e , Human P r o t e i n F u n ct i o n , p r e d i c t o r .I INTRODUCTION

    1 . 1 . I m p o r t a n c e o f Human P r o t e i n F u n c t i o n P r e d i c t i o nT h e i m p o r t a n c e o f h u m a n p r o t e i n f u n c t i o n p r e d i c t i o nl i e s i n t h e p r o c e s s o f d r u g d e v e l o p m e n t . D r u gd e v e l o p m e n t h a s t w o m a j o r c o m p o n e n t s [ 9 ] .1 . D i s c o v e r y a n d2 . T e s t i n g

    1 . T h e t e s t i n g p r o c e s s i n v o l v e s p r e c l i n i c a l a n d c l i n i c a lt r i a l s . T h e c o m p u t a t i o n a l m e t h o d s a r e n o t g e n e r a l l ys u b j e c t e d t o p r o d u c e s i g n i f i c a n t e n h a n c e m e n t i n t e s t i n gp r o c e s s e s o f d r u g s .2 . B u t i n t h e d i s c o v e r y p r o c e s s t h e c o m p u t a t i o n a lm e t h o d s a r e v e r y h e l p f u l . T h e d r u g d i s c o v e r y p r o c e s s i sl a b o r i n t e n s i v e a n d e x p e n s i v e a n d h a s p r o v i d e d a f e r t i l eg r o u n d f o r b i o i n f o r m a t i c s r e s e a r c h . B i o i n f o r m a t i c sp r o m i s e s t o r e d u c e t h e l a b o r a s s o c i a t e d w i t h t h i s p r o c e s s ,a l l o w i n g d r u g s t o b e d e v e l o p e d f a s t e r a n d a t a l o w e r c o s t .

    T h e p r o c e s s o f d r u g d i s c o v e r y , i n v o l v e s t h e p r e d i c t i o no f p r o t e i n f u n c t i o n b a s e d u p o n e x i s t i n g f a c t s .S o p h i s t i c a t e d d a t a m i n i n g m o d e l s a r e n e e d e d f o r p r o t e i nf u n c t i o n p r e d i c t i o n . B i o i n f o r m a t i c s p r o m i s e s t o r e d u c e t h el a b o r , t i m e a s w e l l a s c o s t a s s o c i a t e d w i t h t h i s p r o c e s s .

    1 . 2 D e c i s i o n T r e e I n d u c t i o nA d e c i s i o n t r e e i s a f l o w - c h a r t - l i k e t r e e s t r u c t u r e , w h e r ee a c h i n t e r n a l n o d e d e n o t e s a t e s t o n a n a t t r i b u t e , e a c hb r a n c h r e p r e s e n t s a n o u t c o m e o f t h e t e s t , a n d l e a f n o d e sr e p r e s e n t c l a s s e s o r c l a s s d i s t r i b u t i o n s . T h e t o p - m o s t n o d ei n a t r e e i s t h e r o o t n o d e [ 2 ] .I n o r d e r t o c l a s s i f y a n u n k n o w n s a m p l e , t h e a t t r i b u t ev a l u e s o f t h e s a m p l e a r e t e s t e d a g a i n s t t h e d e c i s i o n t r e e . Ap a t h i s t r a c e d f r o m t h e r o o t t o a l e a f n o d e t h a t h o l d s t h ec l a s s p r e d i c t i o n f o r t h a t s a m p l e .

    1 . 3 T e c h n i q u e s f o r P r o t e i n F u n c t i o n P r e d i c t i o nT h e r e a r e v a r i o u s e x p e r i m e n t a l t e c h n i q u e s f o ri d e n t i f i c a t i o n o f p r o t e i n a n d d e t e r m i n a t i o n o f i t s 3 - Ds t r u c t u r e [ 9 ] .

    E x p e r i m e n t a l T e c h n i q u e s :A ) F o r P r o t e i n I d e n t i f i c a t i o n - 2 - D E l e c t r o p h o r e s i s , m a s ss p e c t r o m e t r y a n d p r o t e i n m i c r o a r r a y s [ 9 ] .B ) F o r 3 - D S t r u c t u r e D e t e r m i n a t i o n - X - r a yc r y s t a l l o g r a p h y a n d n u c l e a r m a g n e t i c r e s o n a n c e ( N M R )s p e c t r o s c o p y [ 9 ] .C o m p u t a t i o n a l T e c h n i q u e s :T h e c o m p u t a t i o n a l t e c h n i q u e s f o r i d e n t i f y i n g u n k n o w np r o t e i n s a n d f o r p r e d i c t i n g t h e i r s t r u c t u r e a n d f u n c t i o n sa r e :1 . T h e QMIMM s c h e m e i . e . t h e Q u a n t u mM e c h a n i c a l / M o l e c u l a r M e c h a n i c a l s c h e m e i s u s e d b ys o f t w a r e n a m e d GAMESS ( G e n e r a l A t o m i c a n dM o l e c u l a r E l e c t r o n i c S t r u c t u r e S y s t e m ) t o p r e d i c t a nu n k n o w n p r o t e i n . I t r e q u i r e s a l a r g e c o m p u t e r memory t op e r f o r m m a t h e m a t i c a l c a l c u l a t i o n s a n d i t r u n s o n L i n u xo p e r a t i n g s y s t e m .2 . A s o f t w a r e n a m e d a s S W I S S - M o d e l i s u s e d f o ra u t o m a t e d b u i l d i n g o f t h e t h e o r e t i c a l s t r u c t u r a l m o d e l s o fa g i v e n p r o t e i n ( a m i n o - a c i d s e q u e n c e ) b a s e d o n t h ek n o w n p r o t e i n s ' s t r u c t u r e s .3 . C l a s s i f i e r s , f o r e x a m p l e , n e u r a l n e t w o r k s , d e c i s i o n t r e e se t c . l e a r n c l a s s i f i c a t i o n r u l e s f r o m t h e g i v e n t r a i n i n g d a t aa n d a r e u s e d t o p r e d i c t p r o t e i n f u n c t i o n .

    1 - 4 2 4 4 - 0 7 1 6 - 8 / 0 6 / $ 2 0 . 0 0 2 0 0 6 I E E E . 5 6 4

  • 8/3/2019 Apl of Dt in Human Protein

    2/5

    I I PROBLEM STATEMENT AND SOLUTIONAPPROACH2 . 1 I n f o r m a t i o n T h e o r y a n d E n t r o p y

    A c c o r d i n g t o S h a n n o n , i f t h e t o t a l i n f o r m a t i o n t o b et r a n s m i t t e d i s d i v i d e d i n t o c e r t a i n a n d u n c e r t a i n , a n dl e s s e r n u m b e r o f b i t s a r e a s s i g n e d t o a s e q u e n c e o f c e r t a i ni n f o r m a t i o n t h a n u n c e r t a i n i n f o r m a t i o n , t h e n o n a na v e r a g e , l e s s e r n u m b e r o f b i t s a r e n e e d e d t o b e t r a n s m i t t e do v e r t h e c o m m u n i c a t i o n c h a n n e l [ 1 ] .

    L e t t h e v a r i a b l e x r a ng e o v er t h e v a l u e s t o b ee n c o d e d , a n d l e t P ( x ) d e n o t e t h e p r o b a b i l i t y o f t h a tv a l u e o c c u r r i n g . T h e n , a c c o r d i n g t o I n f o r m a t i o nT h e o r y , t h e e x p e c t e d n u m b e r o f b i t s r e q u i r e d t o e n c o d eo n e v a l u e i s t h e w e i g h t e d a v e r a g e o f t h e n u m b e r o f b i t sr e q u i r e d t o e n c o d e e a c h p o s s i b l e v a l u e , w h e r e t h ew e i g h t i s t h e p r o b a b i l i t y o f t h a t v a l u e [ 1 ] :D T C ( D e c i s i o n T r e e C l a s s i f i e r ) m e t h o d o l o g y i n v o l v e s

    e n t r o p y c a l c u l a t i o n . E n t r o p y i s t h e e x p e c t e d i n f o r m a t i o nb a s e d o n t h e p a r t i t i o n i n g i n t o s u b s e t s b y a n a t t r i b u t e . T h es m a l l e r t h e e n t r o p y v a l u e , t h e g r e a t e r i s t h e p u r i t y o f t h es u b s e t p a r t i t i o n s .2 . 2 A t t r i b u t e S e l e c t i o n i n D T C

    T h e i n f o r m a t i o n g a i n m e a s u r e i s u s e d t o s e l e c t t h e t e s ta t t r i b u t e a t e a c h n o d e i n t h e t r e e . S u c h a m e a s u r e i sr e f e r r e d t o a s a n a t t r i b u t e s e l e c t i o n m e a s u r e o r a m e a s u r eo f t h e g o o d n e s s o f s p l i t [ 2 ] [ 1 9 ] .T h e a t t r i b u t e w i t h t h e h i g h e s t i n f o r m a t i o n g a i n ( o rg r e a t e s t e n t r o p y r e d u c t i o n ) i s c h o s e n a s t h e t e s t a t t r i b u t ef o r t h e c u r r e n t n o d e . T h i s a t t r i b u t e m i n i m i z e s t h e

    i n f o r m a t i o n n e e d e d t o c l a s s i f y t h e s a m p l e s i n t h e r e s u l t i n gp a r t i t i o n s a n d r e f l e c t s t h e l e a s t r a n d o m n e s s o r " i m p u r i t y "i n t h e s e p a r t i t i o n s . S u c h a n i n f o r m a t i o n - t h e o r e t i c a p p r o a c hm i n i m i z e s t h e e x p e c t e d n u m b e r o f t e s t s n e e d e d t o c l a s s i f ya n o b j e c t a n d g u a r a n t e e s t h a t a s i m p l e ( b u t n o t n e c e s s a r i l yt h e s i m p l e s t ) t r e e i s f o u n d [ 1 9 ] .L e t S b e a s e t c o n s i s t i n g o f s d a t a s a m p l e s . S u p p o s e t h ec l a s s l a b e l a t t r i b u t e h a s ' m ' d i s t i n c t v a l u e s d e f i n i n g md i s t i n c t c l a s s e s : C i ( f o r i = 1 , , m ) . L e t s i b e t h en u m b e r o f s a m p l e s o f S i n c l a s s C i . T h e e x p e c t e di n f o r m a t i o n n e e d e d t o c l a s s i f y a g i v e n s a m p l e i s g i v e n b y[ 2 ] :

    mI ( S 1 , S 2 1 . . . . . , S m ) =-E pi l o g 2 ( p i )i = l ( 1 )w h e r e , P i i s t h e p r o b a b i l i t y t h a t a n a r b i t r a r y s a m p l eb e l o n g s t o C l a s s C i a n d i s e s t i m a t e d b y s i / s . L e t a t t r i b u t eA h a v e v d i s t i n c t v a l u e s , { a , , a 2 , , a v . A t t r i b u t e A c a nb e u s e d t o p a r t i t i o n S i n t o v s u b s e t s , { S I , S 2 , .Sv ,w h e r e S j c o n t a i n s t h o s e s a m p l e s i n S t h a t h a v e v a l u e a j o fA . I f A w e r e s e l e c t e d a s t h e t e s t a t t r i b u t e ( i . e . , t h e b e s ta t t r i b u t e f o r s p l i t t i n g ) , t h e n t h e s e s u b s e t s w o u l d

    c o r r e s p o n d t o t h e b r a n c h e s g r o w n f r o m t h e n o d ec o n t a i n i n g t h e s e t S . L e t s i j b e t h e n u m b e r o f s a mp l e s o fc l a s s C i i n a s u b s e t S j . T h e e n t r o p y , o r e x p e c t e di n f o r m a t i o n b a s e d o n t h e p a r t i t i o n i n g i n t o s u b s e t s b y A , i sg i v e n b y [ 2 ] :vE ( A ) =E ( ( S i l j.S m ] ) / s ) I ( s I j ....... s m ] ) ( 2 )j = 1

    T h e t e r m ( ( s l j + . . . + s m j ) / s ) a c t s a s t h e w e i g h t o f t h e j t hs u b s e t a n d i s t h e n u m b e r o f s a m p l e s i n t h e s u b s e t ( i . e .h a v i n g v a l u e a j o f A ) d i v i d e d b y t h e t o t a l n u m b e r o fs a m p l e s i n S . T h e s m a l l e r t h e e n t r o p y v a l u e , t h e g r e a t e rt h e p u r i t y o f t h e s u b s e t p a r t i t i o n s . T h e e n c o d i n gi n f o r m a t i o n t h a t w o u l d b e g a i n e d b y b r a n c h i n g o n A i s[ 2 ] :G a i n ( A ) = I ( S I , S 2 . . . . . . . . . S m ) - E ( A ) ( 3 )G a i n ( A ) i s t h e e x p e c t e d r e d u c t i o n i n e n t r o p y c a u s e d b yk n o w i n g t h e v a l u e o f a t t r i b u t e A .T h e a l g o r i t h m c o m p u t e s t h e i n f o r m a t i o n g a i n o f e a c ha t t r i b u t e . T h e a t t r i b u t e w i t h t h e h i g h e s t i n f o r m a t i o n g a i n i sc h o s e n a s t h e t e s t a t t r i b u t e f o r t h e g i v e n s e t S . A n o d e i sc r e a t e d a n d l a b e l e d w i t h t h e a t t r i b u t e , b r a n c h e s a r e c r e a t e df o r e a c h v a l u e o f t h e a t t r i b u t e , a n d t h e s a m p l e s a r ep a r t i t i o n e d a c c o r d i n g l y [ 1 2 ] .

    2 . 3 HPF P r e d i c t i o n u s i n g SDFsL . J e n s e n , e t a l . ( 2 0 0 2 ) , u s e d s e q u e n c e d e r i v e d f e a t u r e st o p r e d i c t H P F . T h e i d e a w a s t o i n t e g r a t e a l l p r o t e i nf e a t u r e s i n o r d e r t o p r e d i c t p r o t e i n f u n c t i o n . T h e a u t h o rd e v e l o p e d t h e d a t a m i n i n g m o d e l f o r p r o t e i n f u n c t i o np r e d i c t i o n u s i n g n e u r a l n e t w o r k s a s c l a s s i f i e r . T h e m e t h o d

    u s e d b y t h e a u t h o r i n c l u d e s t h e e x t r a c t i o n o f SDFs f r o m ag i v e n s e t o f a m i n o - a c i d ( p r o t e i n ) s e q u e n c e s u s i n g v a r i o u sw e b - b a s e d b i o i n f o r m a t i c s ' t o o l s . F o r e x a m p l e , ExPASyP r o t P a r a m t o o l i s u s e d t o o b t a i n t h e s e q u e n c e - d e r i v e df e a t u r e c a l l e d E x t i n c t i o n C o e f f i c i e n t w h i c h i s a p r o t e i np a r a m e t e r t h a t i s c o m m o n l y u s e d i n t h e l a b o r a t o r y f o rd e t e r m i n i n g t h e p r o t e i n c o n c e n t r a t i o n i n a s o l u t i o n b ys p e c t r o p h o t o m e t r y . I t d e s c r i b e s t o w h a t e x t e n t l i g h t i sa b s o r b e d b y t h e p r o t e i n a n d d e p e n d s u p o n t h e p r o t e i n s i z ea n d c o m p o s i t i o n a s w e l l a s t h e w a v e l e n g t h o f t h e l i g h t .F o r a w a v e l e n g t h o f 2 8 0 n m , t h e E x t i n c t i o n C o f f i c i e n t o f ap r o t e i n c a n b e c a l c u l a t e d f r o m t h e n u m b e r o f t r y p t o p h a n s( n T r p ) , t y r o s i n e s ( n T y r ) a n d c y s t i n e s ( n c y , ) i n t h e p r o t e i n [ 8 ] . p r o t e i n -7 T r p 8 i r p + T / y r i y r + l 7 c y s 8 c y s ( 4 )

    w h e r e , c T . , - T y r a n d C C y , a r e t h e e x t i n c t i o n c o e f f i c i e n t so f t h e i n d i v i d u a l a m i n o - a c i d r e s i d u e s . T h i s c a l c u l a t i o n i sp e r f o r m e d b y t h e ExPASy P r o t P a r a m t o o l . S i m i l a r l y ,o t h e r s e q u e n c e - d e r i v e d f e a t u r e s a r e a b t a i n e d f r o m t h eExPASy P r o t P a r a m t o o l a n d o t h e r s a s s h o w n i n T a b l e 2 . 1 .

    5 6 5

  • 8/3/2019 Apl of Dt in Human Protein

    3/5

    TABLE 2 . 1SDFS OBTAINED FROM VARIOUS WEB TOOLST o o l u s e d SD F O b t a i n e dE x t i n c t i o n C o e f f i c i e n tH y d r o p h o b i c i t yExPASy P r o t P a r a m N o . o f n e g a t i v e l y c h a r g e dr e s i d u e sN o . o f p o s i t i v e l y c h a r g e dr e s i d u e sN e t N g l y c N - g l y c o s y l a t i o n s i t e sN e t O g l y c 0 - g l y c o s y l a t i o n s i t e s

    S r a n d T h r p h o s p h o r y l a t i o nN e t P h o s T y r p h o s p h o r y l a t i o nP S I - P r e d S e c o n d a r y S t r u c t u r ePSORT S u b c e l l u l a r L o c a t i o nS i g n a l P S i g n a l P e p t i d eTMHMM T r a n s m e m b r a n e H e l i c e s

    I I I SOLUTION METHODOLOGY3 . 1 D a t a C o l l e c t i o n a n d P r e p r o c e s s i n g

    T h e a c t u a l d a t a r e l a t e d t o h u m a n p r o t e i n i s a c c e s s e df r o m Human P r o t e i n R e f e r e n c e D a t a b a s e ( H P R D ) . T h eHPRD r e p r e s e n t s a c e n t r a l i z e d p l a t f o r m t o v i s u a l l y d e p i c ta n d i n t e g r a t e i n f o r m a t i o n p e r t a i n i n g t o d o m a i na r c h i t e c t u r e , p o s t - t r a n s l a t i o n a l m o d i f i c a t i o n s , i n t e r a c t i o nn e t w o r k s a n d d i s e a s e a s s o c i a t i o n f o r e a c h p r o t e i n i n t h eh u m a n p r o t e o m e . A l l t h e i n f o r m a t i o n i n HPRD h a s b e e nm a n u a l l y e x t r a c t e d f r o m t h e l i t e r a t u r e b y e x p e r t b i o l o g i s t swho r e a d , i n t e r p r e t a n d a n a l y z e t h e p u b l i s h e d d a t a . I ti n c l u d e s a p p r o x i m a t e l y 1 6 2 c l a s s e s o f p r o t e i n f u n c t i o n s .T h e d a t a b a s e p r o v i d e s i n f o r m a t i o n a b o u t p r o t e i n f u n c t i o nu n d e r t h e h e a d i n g ' m o l e c u l a r c l a s s ' c o v e r i n g a l l t h e m a j o rp r o t e i n f u n c t i o n c a t e g o r i e s .From HPRD, t h e s e q u e n c e s r e l a t e d t o f i v e m o l e c u l a rc l a s s e s a r e o b t a i n e d . T h e s e a r e : D e f e n s i n ( D e f ) , C e l lS u r f a c e R e c e p t o r ( C S R ) , DNA R e p a i r P r o t e i n ( D R P ) ,H e a t S h o c k P r o t e i n ( H S P ) a n d V o l t a g e G a t e d C h a n n e l( V G C ) . V a r i o u s w e b - b a s e d t o o l s a r e t h e n u s e d t o d e r i v eS D F s f r o m t h e s e s e q u e n c e s . T h e S D F s a r e p r e p r o c e s s e db y p l a c i n g t h e i r v a l u e s i n p a r t i c u l a r v a l u e r a n g e s t o m a k et h e m s u i t a b l e f o r i n p u t t o c l a s s i f i e r .3 . 2 P a c k a g e s o f SDFs

    F o r c r e a t i n g p a c k a g e s o f S D F s :* T h e f r e q u e n c i e s o f v a l u e s o f SDFs a r e s t u d i e d f o re a c h f u n c t i o n a l c l a s s . I f a p a r t i c u l a r v a l u e o f SD Fr e p e a t s v e r y h i g h l y f o r a p a r t i c u l a r m o l e c u l a rc l a s s , t h e n i t i s c o n s i d e r e d a s d o m i n a n t f o r t h a tc l a s s .

    * On t h e b a s i s o f t h e d o m i n a n c y , p a c k a g e s o f S D F sa r e o b t a i n e d .* T h e p a c k a g e s o f S D F s o b t a i n e d a r e s h o w n i nT a b l e 3 . 1 . T h e s e p a c k a g e s a r e u s e d t o c r e a t ev a r i o u s d e c i s i o n t r e e s .T h e i m p l e m e n t a t i o n o f t h e d a t a m i n i n g m o d e l t h a tc r e a t e s d e c i s i o n t r e e s o n t h e b a s i s o f p a c k a g e s o f SD F

    c h o s e n , d e m o n s t r a t e s t h a t t h e u s e o f m o r e d o mi n a n t S D F si n d e c i s i o n t r e e c r e a t i o n a f f e c t s t h e d e p t h o f t r e e . T h ed e c i s i o n t r e e w i t h maximum d ep th o f e i g h t i s o b t a i n e d b yu s i n g t h i s t e c h n i q u e .B u t , t h i s t e c h n i q u e i n v o l v e s t h e d r a w b a c k o f t h eo v e r h e a d o f c r e a t i n g p a c k a g e o f SDFs b y s t u d y i n g t h e i rd o m i n a n c y f o r a p a r t i c u l a r m o l e c u l a r c l a s s .3 . 3 Ne w P r e d i c t i o n T e c h n i q u e

    T h e ne w p r e d i c t i o n t e c h n i q u e i n c o r p o r a t e s t h e e f f e c t o fc h o o s i n g d o m i n a n t S D F s f o r d e c i s i o n t r e e c r e a t i o n d u r i n ge n t r o p y ( o r u n c e r t a i n t y ) c a l c u l a t i o n i t s e l f . I t o v e r c o m e st h e l i m i t a t i o n o f t h e m o d e l i n v o l v i n g p a c k a g e s o f SDFs a si t d o e s n o t i n v o l v e t h e o v e r h e a d o f c r e a t i n g p a c k a g e s o fS D F s . T h e t e c h n i q u e d o e s n o t e n c o d e t h e i n f o r m a t i o n i nt e r m s o f b i t s , a s i t i s n o t r e q u i r e d i n t h i s a p p l i c a t i o n .

    TABLE 3 . 1PACKAGES OF SDFS OBTAINED

    P a c k a g e o f P a c k 1 P a c k 2 P a c k 3 P a c k 4F e a t u r e sE x P A S yP r o t P a r a m :Nneg X / /N p o s / /E x c l X /E x c 2 X /I n s t a b i l i t y I n d e x X/ /A l i p h a t i c I n d e x X / / /GRAVY / /N e t O G l y c :T X / /S / / / /N e t P h o s :S e r / / /T h r / / / /T y r V / V / / V /S i g n a l P :mean S X / /D / /P r o b a b i l i t y / / /TMHMM:ExpAA / / / /P r e d H e l / / / /

    5 6 6

  • 8/3/2019 Apl of Dt in Human Protein

    4/5

    T h e t e c h n i q u e c o n s i d e r s f o l l o w i n g f a c t o r s f o rm e a s u r i n g u n c e r t a i n t y :A ) U n c e r t a i n t y d u e t o s u b s e t c r e a t i o n ( S n ) :T h e r a t i o o f t h e n u m b e r o f s a m p l e s o f a l l c l a s s e s h a v i n gv a l u e j o f a t t r i b u t e A t o t h e t o t a l n u m b e r o f s a m p l e s i n S ,i n d i c a t e s t h e u n c e r t a i n t y d u e t o s u b s e t c r e a t i o n [ 2 ] .M a t h e m a t i c a l l y :

    o r ,U = S u ( 1 0 )k + S pw h e r e , k i s a c o n s t a n tF o r k = 1 , S P w i t h v a l u e g r e a t e r t h a n z e r o , ( i . e . S p > 0 ) c a no n l y c o n t r i b u t e t o t h e c a l c u l a t i o n o f u n c e r t a i n t y m e a s u r e .T h u s :

    vS u = Z ( ( S l j + S 2 j+ . . . . . . . . + S m j ) / S ) ( 5 )j = 1w h e r e , S u , i s u n c e r t a i n t y d u e t o s u b s e t c r e a t i o n ,j i s a p a r t i c u l a r v a l u e o f a t t r i b u t e A ,v i s t h e t o t a l n u m b e r o f v a l u e s o f a t t r i b u t e A a n d

    m i s t h e t o t a l n u m b e r o f c l a s s e sT h i s f a c t o r i n d i c a t e s t h e e n t r o p y ( o r u n c e r t a i n t y ) c a u s e dd u e t o t h e c r e a t i o n o f s u b s e t f o r a v a l u e o f a n a t t r i b u t e . I fS u i s h i g h , u n c e r t a i n t y i s h i g h , i . e .U a Su ( 6 )

    W h e r e U i n d i c a t e s u n c e r t a i n t y m e a s u r e .B ) S p e c i f i c i t y ( o r c e r t a i n t y ) o f a v a l u e o f a n a t t r i b u t e f o r ap a r t i c u l a r c l a s s ( S p ) :T h e r a t i o o f t h e n u m b e r o f s a m p l e s o f c l a s s h a v i n gv a l u e j o f a t t r i b u t e A t o t h e t o t a l n u m b e r o f s a m p l e s o f t h a tp a r t i c u l a r c l a s s , i n d i c a t e s t h e s p e c i f i c i t y ( o r d o m i n a n c y ) o fa v a l u e f o r t h e c l a s s .M a t h e m a t i c a l l y :

    v mS p = E ( S i / S i )j = l i = l ( 7 )w h e r e , S P i s s p e c i f i c i t y ( o r c e r t a i n t y ) o f a n a t t r i b u t e - v a l u ef o r a p a r t i c u l a r c l a s s ,i i s a p a r t i c u l a r m o l e c u l a r c l a s s ,j i s a p a r t i c u l a r v a l u e o f a t t r i b u t e A ,v i s t h e t o t a l n u m b e r o f v a l u e s o f a t t r i b u t e A a n d

    m i s t h e t o t a l n u m b e r o f c l a s s e sT h i s f a c t o r i n d i c a t e s c e r t a i n t y o f a p a r t i c u l a r f u n c t i o n a lc l a s s f o r a n a t t r i b u t e v a l u e . I f S p i s h i g h , c e r t a i n t y i s h i g ha n d t h u s u n c e r t a i n t y i s l o w , i . e .u( a l / s p ( 8 )

    C o m b i n i n g e q u a t i o n s ( 6 ) a n d ( 8 ) , we g e t :uasu / s ,

    U = - - S ul + S p ( 1 1 )i . e .

    vE .( ( S l .........+ S m i ) / S )j = 1v m1 + Z ( s i / j l s i )j = l i = l

    ( 1 2 )

    T h e a t t r i b u t e w i t h t h e l e a s t u n c e r t a i n t y m e a s u r e i sc h o s e n a s t h e b e s t a t t r i b u t e b y t h e ne w p r e d i c t i o nt e c h n i q u e d u r i n g d e c i s i o n t r e e c r e a t i o n . F i g u r e 3 . 1 s h o w st h e f l o w c h a r t f o r b e s t a t t r i b u t e s e l e c t i o n o n t h e b a s i s o fl e a s t u n c e r t a i n t y m e a s u r e b y ne w p r e d i c t i o n t e c h n i q u e .

    IA1Utd a xUe x t A ; t L t n b u . l c

    1 t o

    ( 9 )F i g u r e 3 . 1F l o w c h a r t f o r B e s t A t t r i b u t e S e l e c t i o n b y Ne w P r e d i c t i o n T e c h n i q u e

    5 6 7

  • 8/3/2019 Apl of Dt in Human Protein

    5/5

    V I R E F E R E N C E ST r a i n i n g D a t aT h e t r a i n i n g d a t a c o n s i s t s o f l a b e l e d f e a t u r e v e c t o r r e l a t e dt o f i v e m o l e c u l a r c l a s s e s o f HPRD. F i v e s e q u e n c e s o fe a c h m o l e c u l a r c l a s s i s a c c e s s e d f r o m HPRD. T h r o u g hw e b - b a s e d b i o i n f o r m a t i c s ' t o o l s , S D F s a r e o b t a i n e d f r o mt h e s e s e q u e n c e s a n d a r e p r o c e s s e d i n a f o r m s u i t a b l e f o ri n p u t t o c l a s s i f i e r b y p l a c i n g t h e m i n p a r t i c u l a r v a l u er a n g e s . T h e p r o c e s s e d S D F s a n d t h e m o l e c u l a r c l a s s e s a r et h e n c o m b i n e d t o f o r m l a b e l e d f e a t u r e v e c t o r ( o r t r a i n i n gd a t a ) .

    I V RESULTS AND DISCUSSIONT h e i mp l em e n t a ti o n o f t h e m o d e l d e m o n s t r a t e s t h ei n f l u e n c e o f S p ( i . e . s p e c i f i c i t y o r c e r t a i n t y o f a n a t t r i b u t e -v a l u e f o r a p a r t i c u l a r c l a s s ) o n t h e t r e e c r e a t i o n . A h i g hv a l u e o f S p l o w e r s t h e v a l u e o f u n c e r t a i n t y m e a s u r e ( a su n c e r t a i n t y m e a s u r e a 1 / S p ) a n d t h u s c o n t r i b u t e s i n t h eb e s t a t t r i b u t e s e l e c t i o n f o r t r e e c r e a t i o n . T h ei m p l e m e n t a t i o n o f t h e m o d e l s h o w s t h a t t h e c o m p u t a t i o n

    o f u n c e r t a i n t y m e a s u r e b y t h e ne w p r e d i c t i o n t e c h n i q u e i ss u p e r i o r t h a n t h e e n t r o p y c a l c u l a t i o n i n t h e e x i s t i n gt e c h n i q u e . T h e ne w p r e d i c t i o n t e c h n i q u e p r o v i d e s t h ed e c i s i o n t r e e w i t h b e t t e r q u a l i t y ( i n t e r m s o f d e p t h ) t h a nt h e e x i s t i n g m e t h o d o l o g y . T h e d e p t h o f t h e d e c i s i o n t r e e i sd i r e c t l y p r o p o r t i o n a l t o t h e S p ( i . e . t h e s p e c i f i c i t y o f av a l u e o f a n a t t r i b u t e f o r a p a r t i c u l a r c l a s s ) .D e p t h o f D e c is i o n T r e e a S p ( 1 3 )

    G r e a t e r t h e v a l u e o f S p f o r a p a r t i c u l a r v a l u e o f a na t t r i b u t e , m o r e i s t h e c h a n c e o f d e v e l o p i n g a b r a n c h f r o mt h a t v a l u e t o a f u n c t i o n a l c l a s s . T h e ne w d e c i s i o n t r e ei n d u c t i o n t e c h n i q u e p r o v i d e s t r e e w i t h g r e a t e r d e p t h t h a nt h e e x i s t i n g m e t h o d o l o g y d u e t o t h e c o n s i d e r a t i o n o f S p .T h e g r e a t e r d e p t h o f t h e d e c i s i o n t r e e p r o v i d e s g r e a t e rn u m b e r o f t e s t s b e f o r e f u n c t i o n a l c l a s s a s s i g n m e n t a n dh e n c e p r o v i d e s m o r e a c c u r a t e p r e d i c t i o n r e s u l t s .

    V CONCLUSIONT h e d a t a m i n i n g m o d e l f o r HPF p r e d i c t i o n p r o v i d e sb e t t e r c l a s s i f i c a t i o n r u l e s f o r t h e s a m e t r a i n i n g d a t a t h a nt h e e x i s t i n g t e c h n i q u e . T h e m o d e l c r e a t e s b e t t e r - q u a l i t yd e c i s i o n t r e e ( i n t e r m s o f d e p t h ) a n d h e n c e e n s u r e s m o r e

    a c c u r a t e p r e d i c t i o n s t h a n t h e e x i s t i n g m e t h o d o l o g y . D r u gd i s c o v e r e r s c a n e a s i l y u s e t h e m o d e l f o r p r e d i c t i n gf u n c t i o n s o f p r o t e i n s t h a t a r e r e s p o n s i b l e f o r v a r i o u sd i s e a s e s i n h u m a n b o d y . T h e s t e p s r e q u i r e d f o r t h e u s e o fne w p r e d i c t i o n t e c h n i q u e b y t h e d r u g d i s c o v e r e r a r ec l e a r l y d e m o n s t r a t e d . T h e r e i s l a r g e s c o p e f o r a p p l i c a t i o no f t h e ne w p r e d i c t i o n t e c h n i q u e i n d r u g d i s c o v e r y p r o c e s sd u e t o i t s b e t t e r q u a l i t y a n d c l e a r r e p r e s e n t a t i o n o f t h el e a r n e d c l a s s i f i c a t i o n r u l e s .

    [ 1 ] D . S . T o u r e t z k y " B a s i c s o f I n f o r m a t i o n T h e o r y . C o m p u t e rS c i e n c e D e p a r t me nt " , C a rn e g i e M e l l o n U n i v e r s i t y ,P i t t s b u r g h , PA 1 5 21 3 : 2 0 0 4.[ 2 ] J . H a n , a n d M . K a m b e r D a t a M i n i n g . C o n c e p t s a n dT e c h n i q u e s , M o r g a n K a u f m a n n P u b l i s h e r s . 2 0 0 4 .[ 3 ] H . A l m u a l l i m , e t a l . " D e v e l o p m e n t a n d A p p l i c a t i o n s o fD e c i s i o n T r e e s " , I n f o r m a t i o n a n d C o m p u t e r S c i e n c eD e p a r t m e n t , 1 1 , 2 0 0 3 , p p . 1 3 7 4 - 1 3 7 9 .[ 4 ] B . B o e c k m a n n , A . B a i r o c h , e t a l . " T h e SWISS-PROTp r o t e i n s e q u e n c e d a t a b a s e a n d i t s s u p p l e m e n t TrEMBL"N u c l e i c A c i d s R e s . , 3 1 ( 1 ) , 2 0 0 3 ' p p 3 6 5 - 3 7 0 .[ 5 ] T . E l o m a a " I n D e f e n s e o f C 4 . 5 : N o t e s o n L e a r n i n g o n e -l e v e l D e c i s i o n T r e e s " i n 2 0 0 3 P ro c e ed i n g s o f 1 1 t h I n t l .C o n f i M a c h i n e L e a r n i n g . M o r g a n K a u f m a n n . p p 6 2 - 6 9 .[ 6 ] R . J e n s e n , H . G u p ta , e t a l . " P r e d i c t i o n o f h u m a n p r o t e i nf u n c t i o n a c c o r d i n g t o G e n e O n t o l o g y C a t e g o r i e s " i n 2 0 0 3p r o c e e d i n g s o f B i o i n f o r m a t i c s , 1 9 , p p 6 3 5 - 6 4 2 .[ 7 ] L . J e n s e n , e t a l . " P r e d i c t i o n o f Human P r o t e i n F u n c t i o nf r o m P o s t - T r a n s l a t i o n a l M o d i f i c a t i o n s a n d L o c a l i z a t i o nF e a t u r e s " J o u r n a l o f M o l e cu l a r B i o l o g y , 3 1 9 ( 5 ) . 2 0 0 2 , p p1 2 5 7 - 6 5 .[ 8 ] L . J e n s e n " P r e d i c t i o n o f P r o t e i n F u n c t i o n f r o m S e q u e n c eD e r i v e d P r o t e i n F e a t u r e s " P h . D . t h e s i s 2 0 0 2 , T e c h n i c a lU n i v e r s i t y o f D e n m a r k .[ 9 ] D . K r a n e a n d M . R a y m e r , F u n d a m e n t a l C o n c e p t s o fB i o i n f o r m a t i c s , B e n j a m i n C u m m i n g : 2 0 0 2 .[ 1 0 ] E . K r e t s c h m a n n , W. F l e i s c h ma n n a n d R . A p w e i l e r" A u t o m a t i c r u l e g e n e r a t i o n f o r p r o t e i n a n n o t a t i o n w i t h t h eC 4 . 5 d a t a m i n i n g a l g o r i t h m a p p l i e d o n SWISS-PROT"B i o i n f o r m a t i c s , 1 7 , 2 0 0 1 , p p 9 2 0 - 9 2 6 .[ 1 1 ] R . D . K i n g , A . K a r w a t h , A . C l a r e a n d L . D e h a s p e" A c c u r a t e p r e d i c t i o n o f p r o t e i n f u n c t i o n a l c l a s s i n t h e M .t u b e r c u l o s i s a n d E . c o l i g e n o m e s u s i n g d a t a m i n i n g "C o m p a r a t i v e a n d F u n c t i o n a l G e n o m i c s , 1 7 , 2 0 0 0 p p . 2 8 3 -2 9 3 .[ 1 2 ] R . K o h a v i a n d R . Q u i n l a n " D e c i s i o n T r e e D i s c o v e r y " D a t aM i n i n g , 6 , 2 0 0 0 , p p . 1 0 - 1 8 .[ 1 3 ] P . A d r i a a n s a n d Z a n t i n g e , D a t a M i n i n g , P e a r s o n E d u c a t i o n :2 0 0 2 .[ 1 4 ] D . D e v o s a n d A . V a l e n c i a " P r a c t i c a l L i m i t s o f F u n c t i o nP r e d i c t i o n . P r o t e i n D e s i g n G r o u p " , N a t i o n a l C e n t r e f o rB i o t e c h n o l o g y , C N B - C S I C , 2 0 0 0 , M a d r i d , E - 2 8 0 4 9 , S p a i n .[ 1 5 ] J . Tamames e t a l . " E U C L I D : A u t o m a t i c c l a s s i f i c a t i o n o fp r o t e i n s i n f u n c t i o n a l c l a s s e s b y t h e i r d a t a b a s e a n n o t a t i o n s "B i o i n f o r m a t i c s , 1 9 9 8 , p p . 5 4 2 - 5 4 3 .[ 1 6 ] H . A l m u a l l i m , Y . A k i b a , a n d S . K a n e d a , "On h a n d l i n g t r e e -s t r u c t u r e d a t t r i b u t e s i n d e c i s i o n t r e e l e a r n i n g " i nP ro ce ed in gs o f t h e 1 2 t h I n t e r n a t i o n a l C o n f e r e n c e o nM a c h i n e L e a r n i n g ( I C M L 9 5 ) .[ 1 7 ] J . F r i e d m a n , R . K o h a v i a n d Y . Yun " L a z y d e c i s i o n t r e e s " i nP ro c e ed in g s o f t h e T h i r t e e n t h N a t i o n a l C o n f e r e n c e o nA r t i f i c i a l I n t e l l i g e n c e , AAAI P r e s s a n d t h e MIT P r e s s , 1 9 9 4p p . 7 1 7 - 7 2 4 .

    [ 1 8 ] J . R . Q u i n l a n , " I n d u c t i o n o f d e c i s i o n t r e e s " M a c h i n eL e a r n i n g , 1 , 1 9 9 3 , p p 8 1 - 1 0 6 .[ 1 9 ] S . R . S a f a v i a n a n d D . L a n d g r e b e "A S u r v e y o f D e c i s i o nT r e e C l a s s i f i e r M e t h o d o l o g y " IEEE T r a n s . S y s t e m s , Mana n d C y b e r n e t i c s , 2 1 ( 3 ) , 1 9 9 1 , p p . 6 6 0 - 6 7 4 .

    5 6 8