Top Banner

of 47

The Mathematics of Statistical Machine Translation

Apr 10, 2018

Download

Documents

thansautk
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
  • 8/8/2019 The Mathematics of Statistical Machine Translation

    1/47

    T h e M a t h e m a t i c s o f M a c h i n e T r a n s l a t i o n :

    P a r a m e t e r E s t i m a t i o n

    P e t e r F . B r o w n , S t e p h e n A . D e l l a P i e t r a

    V i n c e n t J . D e l l a P i e t r a , R o b e r t L . M e r c e r

    T h e a v a i l a b i l i t y o f l a r g e , b i l i n g u a l c o r p o r a h a s s t i m u l a t e d r e c e n t i n t e r e s t i n a l g o r i t h m s

    f o r m a n i p u l a t i n g t h e m . A n u m b e r o f a u t h o r s h a v e d i s c u s s e d a l g o r i t h m s f o r e x t r a c t -

    i n g f r o m s u c h c o r p o r a p a i r s o f s e n t e n c e s t h a t a r e t r a n s l a t i o n s o f o n e a n o t h e r . I n t h e

    c o u r s e o f o u r w o r k o n m a c h i n e t r a n s l a t i o n , w e h a v e d e v e l o p e d a s e r i e s o f v e s t a -

    t i s t i c a l m o d e l s o f t h e t r a n s l a t i o n p r o c e s s . H e r e , w e d e s c r i b e t h e s e m o d e l s a n d s h o w

    t h a t i t i s p o s s i b l e t o e s t i m a t e t h e i r p a r a m e t e r s a u t o m a t i c a l l y f r o m a l a r g e s e t o f p a i r s

    o f s e n t e n c e s . W e s h o w , f u r t h e r , t h a t i t i s p o s s i b l e t o a l i g n t h e w o r d s w i t h i n p a i r s o f

    s e n t e n c e s a l g o r i t h m i c a l l y . W e h a v e a g r e a t d e a l o f d a t a i n F r e n c h a n d E n g l i s h f r o m

    t h e p r o c e e d i n g s o f t h e C a n a d i a n P a r l i a m e n t . F o r t h i s r e a s o n w e h a v e r e s t r i c t e d o u r

    w o r k t o t h e s e t w o l a n g u a g e s , b u t w e f e e l t h a t b e c a u s e o u r a l g o r i t h m s h a v e m i n i m a l

    l i n g u i s t i c c o n t e n t t h e y w o u l d w o r k w e l l o n o t h e r p a i r s o f l a n g u a g e s . W e a l s o f e e l ,

    a g a i n b e c a u s e o f t h e m i n i m a l l i n g u i s t i c c o n t e n t o f o u r a l g o r i t h m s , t h a t i t i s r e a s o n a b l e

    t o a r g u e t h a t w o r d - b y - w o r d a l i g n m e n t s a r e i n h e r e n t i n a n y s u c i e n t l y l a r g e b i l i n g u a l

    c o r p o r a .

    1 . 1 I n t r o d u c t i o n

    T h e g r o w i n g a v a i l a b i l i t y o f b i l i n g u a l , m a c h i n e - r e a d a b l e t e x t s h a s s t i m u l a t e d i n t e r e s t i n m e t h o d s

    f o r e x t r a c t i n g l i n g u i s t i c a l l y v a l u a b l e i n f o r m a t i o n f r o m s u c h t e x t s . F o r e x a m p l e , a n u m b e r o f

    r e c e n t p a p e r s d e a l w i t h t h e p r o b l e m o f a u t o m a t i c a l l y o b t a i n i n g p a i r s o f a l i g n e d s e n t e n c e s f r o m

    p a r a l l e l c o r p o r a 9 5 , 2 8 , 5 2 , 6 5 ] . B r o w n e t a l . 2 7 ] a s s e r t , a n d B r o w n , L a i , a n d M e r c e r 2 8 ] a n d

    G a l e a n d C h u r c h 5 2 ] b o t h s h o w , t h a t i t i s p o s s i b l e t o o b t a i n s u c h a l i g n e d p a i r s o f s e n t e n c e s

    w i t h o u t i n s p e c t i n g t h e w o r d s t h a t t h e s e n t e n c e s c o n t a i n . B r o w n , L a i , a n d M e r c e r b a s e t h e i r

    a l g o r i t h m o n t h e n u m b e r o f w o r d s t h a t t h e s e n t e n c e s c o n t a i n w h i l e G a l e a n d C h u r c h b a s e a

    s i m i l a r a l g o r i t h m o n t h e n u m b e r o f c h a r a c t e r s t h a t t h e s e n t e n c e s c o n t a i n . T h e l e s s o n t o b e

    l e a r n e d f r o m t h e s e t w o e o r t s i s t h a t s i m p l e , s t a t i s t i c a l m e t h o d s c a n b e s u r p r i s i n g l y s u c c e s s f u l

    T h i s p a p e r r s t a p p e a r e d i n C o m p u t a t i o n a l L i n g u i s t i c s , v o l . 1 9 , n u m b e r 2 . J u n e , 1 9 9 3 . p p . 2 6 3 { 3 1 1

  • 8/8/2019 The Mathematics of Statistical Machine Translation

    2/47

    i n a c h i e v i n g l i n g u i s t i c a l l y i n t e r e s t i n g g o a l s . H e r e , w e a d d r e s s a n a t u r a l e x t e n s i o n o f t h a t w o r k :

    m a t c h i n g u p t h e w o r d s w i t h i n p a i r s o f a l i g n e d s e n t e n c e s .

    I n r e c e n t p a p e r s , B r o w n e t a l . 2 6 , 2 7 ] p r o p o s e a s t a t i s t i c a l a p p r o a c h t o m a c h i n e t r a n s l a t i o n

    f r o m F r e n c h t o E n g l i s h . I n t h e l a t t e r o f t h e s e p a p e r s , t h e y s k e t c h a n a l g o r i t h m f o r e s t i m a t i n g

    t h e p r o b a b i l i t y t h a t a n E n g l i s h w o r d w i l l b e t r a n s l a t e d i n t o a n y p a r t i c u l a r F r e n c h w o r d a n d

    s h o w t h a t s u c h p r o b a b i l i t i e s , o n c e e s t i m a t e d , c a n b e u s e d t o g e t h e r w i t h a s t a t i s t i c a l m o d e l o f

    t h e t r a n s l a t i o n p r o c e s s t o a l i g n t h e w o r d s i n a n E n g l i s h s e n t e n c e w i t h t h e w o r d s i n i t s F r e n c h

    t r a n s l a t i o n ( s e e t h e i r F i g u r e 3 ) . P a i r s o f s e n t e n c e s w i t h w o r d s a l i g n e d i n t h i s w a y o e r a v a l u a b l e

    r e s o u r c e f o r w o r k i n b i l i n g u a l l e x i c o g r a p h y a n d m a c h i n e t r a n s l a t i o n .

    T h e n e x t S e c t i o n i s a s y n o p s i s o f o u r s t a t i s t i c a l a p p r o a c h t o m a c h i n e t r a n s l a t i o n . F o l l o w i n g

    t h i s s y n o p s i s , w e d e v e l o p s o m e t e r m i n o l o g y a n d n o t a t i o n f o r d e s c r i b i n g t h e w o r d - b y - w o r d a l i g n -

    m e n t o f p a i r s o f s e n t e n c e s . I n S e c t i o n 1 . 4 w e d e s c r i b e o u r s e r i e s o f m o d e l s o f t h e t r a n s l a t i o n

    p r o c e s s a n d g i v e a n i n f o r m a l d i s c u s s i o n o f t h e a l g o r i t h m s b y w h i c h w e e s t i m a t e t h e i r p a r a m e t e r s

    f r o m d a t a . W e h a v e w r i t t e n S e c t i o n 1 . 4 w i t h t w o a i m s i n m i n d . F i r s t , w e w i s h e d t o p r o v i d e

    t h e i n t e r e s t e d r e a d e r w i t h s u c i e n t d e t a i l t h a t h e w o u l d b e a b l e t o r e p r o d u c e o u r r e s u l t s i f h e

    h a d a c c e s s t o a m o d e r n w o r k s t a t i o n a n d t o t h e n e c e s s a r y b i l i n g u a l d a t a ; a n d s e c o n d , w e w i s h e d

    t o h o l d t h e m a t h e m a t i c s a t a n e l e m e n t a r y l e v e l s o t h a t a r e a d e r w h o i s p r o c i e n t a t c o l l e g e

    c a l c u l u s , s p e c i c a l l y L a g r a n g e m u l t i p l i e r s a n d p a r t i a l d e r i v a t i v e s , w o u l d b e a b l e t o w o r k h i s w a y

    t h r o u g h i t . A f e w m o r e d i c u l t p a r t s o f t h e d i s c u s s i o n h a v e b e e n p o s t p o n e d t o t h e A p p e n d i x .

    I n S e c t i o n 1 . 5 , w e p r e s e n t r e s u l t s o b t a i n e d b y e s t i m a t i n g t h e p a r a m e t e r s f o r t h e s e m o d e l s

    f r o m a l a r g e c o l l e c t i o n o f a l i g n e d p a i r s o f s e n t e n c e s f r o m t h e C a n a d i a n H a n s a r d d a t a 2 8 ] . F o r

    a n u m b e r o f E n g l i s h w o r d s , w e s h o w t r a n s l a t i o n p r o b a b i l i t i e s t h a t g i v e c o n v i n c i n g e v i d e n c e

    o f t h e p o w e r o f a u t o m a t i c s t a t i s t i c a l m e t h o d s t o e x t r a c t l i n g u i s t i c a l l y i n t e r e s t i n g c o r r e l a t i o n s

    f r o m l a r g e c o r p o r a . W e a l s o s h o w a u t o m a t i c a l l y d e r i v e d w o r d - b y - w o r d a l i g n m e n t s f o r s e v e r a l

    s e n t e n c e s .

    I n S e c t i o n 1 . 6 , w e d i s c u s s s o m e s h o r t c o m i n g s o f o u r m o d e l s a n d p r o p o s e m o d i c a t i o n s t o

    a d d r e s s s o m e o f t h e m . I n t h e l a s t s e c t i o n , w e d i s c u s s t h e s i g n i c a n c e o f o u r w o r k a n d t h e

    p o s s i b i l i t y o f e x t e n d i n g i t t o o t h e r p a i r s o f l a n g u a g e s .

    F i n a l l y , w e i n c l u d e t w o A p p e n d i c e s : o n e t o s u m m a r i z e n o t a t i o n , a n d o n e t o c o l l e c t t h e

    f o r m u l a e f o r t h e v a r i o u s m o d e l s t h a t w e d e s c r i b e a n d t o l l a n o c c a s i o n a l g a p i n o u r d e v e l o p m e n t .

    1 . 2 S t a t i s t i c a l T r a n s l a t i o n

    I n 1 9 4 9 , W a r r e n W e a v e r s u g g e s t e d a p p l y i n g t h e s t a t i s t i c a l a n d c r y p t a n a l y t i c t e c h n i q u e s t h e n

    e m e r g i n g f r o m t h e n a s c e n t e l d o f c o m m u n i c a t i o n t h e o r y t o t h e p r o b l e m o f u s i n g c o m p u t e r s

    t o t r a n s l a t e t e x t f r o m o n e n a t u r a l l a n g u a g e t o a n o t h e r 9 6 ] . E o r t s i n t h i s d i r e c t i o n w e r e

    s o o n a b a n d o n e d f o r v a r i o u s p h i l o s o p h i c a l a n d t h e o r e t i c a l r e a s o n s , b u t a t a t i m e w h e n t h e m o s t

    a d v a n c e d c o m p u t e r s w e r e o f a p i e c e w i t h t o d a y ' s d i g i t a l w a t c h , a n y s u c h a p p r o a c h w a s s u r e l y

    d o o m e d t o c o m p u t a t i o n a l s t a r v a t i o n . T h e e x t r a o r d i n a r y p r o g r e s s i n c o m p u t e r t e c h n o l o g y o v e r

    t h e l a s t f o u r d e c a d e s m a k e s i t p r u d e n t t o l o o k o n c e a g a i n a t t h i s t y p e o f a p p r o a c h . T o d a y ,

    t h e f r u i t f u l a p p l i c a t i o n o f s t a t i s t i c a l m e t h o d s t o t h e s t u d y o f m a c h i n e t r a n s l a t i o n i s w i t h i n t h e

    c o m p u t a t i o n a l g r a s p o f a n y o n e w i t h a w e l l - e q u i p p e d w o r k s t a t i o n .

    A s t r i n g o f E n g l i s h w o r d s , e , c a n b e t r a n s l a t e d i n t o a s t r i n g o f F r e n c h w o r d s i n m a n y d i e r e n t

    w a y s . O f t e n , k n o w i n g t h e b r o a d e r c o n t e x t i n w h i c h e o c c u r s m a y s e r v e t o w i n n o w t h e e l d o f

    a c c e p t a b l e F r e n c h t r a n s l a t i o n s , b u t e v e n s o , m a n y a c c e p t a b l e t r a n s l a t i o n s w i l l r e m a i n ; t h e c h o i c e

    a m o n g t h e m i s l a r g e l y a m a t t e r o f t a s t e . I n s t a t i s t i c a l t r a n s l a t i o n , w e t a k e t h e v i e w t h a t e v e r y

    F r e n c h s t r i n g , f , i s a p o s s i b l e t r a n s l a t i o n o f e . W e a s s i g n t o e v e r y p a i r o f s t r i n g s ( e ; f ) a n u m b e r

    P r ( f e ) , w h i c h w e i n t e r p r e t a s t h e p r o b a b i l i t y t h a t a t r a n s l a t o r , w h e n p r e s e n t e d w i t h e w i l l

    p r o d u c e f a s h i s t r a n s l a t i o n . W e f u r t h e r t a k e t h e v i e w t h a t w h e n a n a t i v e s p e a k e r o f F r e n c h

  • 8/8/2019 The Mathematics of Statistical Machine Translation

    3/47

    p r o d u c e s a s t r i n g o f F r e n c h w o r d s , h e h a s a c t u a l l y c o n c e i v e d o f a s t r i n g o f E n g l i s h w o r d s , w h i c h

    h e t r a n s l a t e d m e n t a l l y . G i v e n a F r e n c h s t r i n g f , t h e j o b o f o u r t r a n s l a t i o n s y s t e m i s t o n d t h e

    s t r i n g e t h a t t h e n a t i v e s p e a k e r h a d i n m i n d w h e n h e p r o d u c e d f . W e m i n i m i z e o u r c h a n c e o f

    e r r o r b y c h o o s i n g t h a t E n g l i s h s t r i n g

    e f o r w h i c h P r ( e f ) i s g r e a t e s t .

    U s i n g B a y e s ' t h e o r e m , w e c a n w r i t e

    P r ( e f ) =

    P r ( e ) P r ( f e )

    P r ( f )

    ( 1 . 1 )

    S i n c e t h e d e n o m i n a t o r h e r e i s i n d e p e n d e n t o f e , n d i n g

    e i s t h e s a m e a s n d i n g e s o a s t o m a k e

    t h e p r o d u c t P r ( e ) P r ( f e ) a s l a r g e a s p o s s i b l e . W e a r r i v e , t h e n , a t t h e F u n d a m e n t a l E q u a t i o n

    o f S t a t i s t i c a l M a c h i n e T r a n s l a t i o n :

    e = a r g m a x

    e

    P r ( e ) P r ( f e ) ( 1 . 2 )

    A s a r e p r e s e n t a t i o n o f t h e p r o c e s s b y w h i c h a h u m a n b e i n g t r a n s l a t e s a p a s s a g e f r o m F r e n c h

    t o E n g l i s h , t h i s e q u a t i o n i s f a n c i f u l a t b e s t . O n e c a n h a r d l y i m a g i n e s o m e o n e r i i n g m e n t a l l y

    t h r o u g h t h e l i s t o f a l l E n g l i s h p a s s a g e s c o m p u t i n g t h e p r o d u c t o f t h e a p r i o r i p r o b a b i l i t y o f t h e

    p a s s a g e , P r ( e ) , a n d t h e c o n d i t i o n a l p r o b a b i l i t y o f t h e F r e n c h p a s s a g e g i v e n t h e E n g l i s h p a s s a g e ,

    P r ( f e ) . I n s t e a d , t h e r e i s a n o v e r w h e l m i n g i n t u i t i v e a p p e a l t o t h e i d e a t h a t a t r a n s l a t o r p r o c e e d s

    b y r s t u n d e r s t a n d i n g t h e F r e n c h , a n d t h e n e x p r e s s i n g i n E n g l i s h t h e m e a n i n g t h a t h e h a s

    t h u s g r a s p e d . M a n y p e o p l e h a v e b e e n g u i d e d b y t h i s i n t u i t i v e p i c t u r e w h e n b u i l d i n g m a c h i n e

    t r a n s l a t i o n s y s t e m s .

    F r o m a p u r e l y f o r m a l p o i n t o f v i e w , o n t h e o t h e r h a n d , E q u a t i o n ( 1 . 2 ) i s c o m p l e t e l y a d e q u a t e .

    T h e c o n d i t i o n a l d i s t r i b u t i o n P r ( f e ) i s n o t h i n g l e s s t h a n a n e n o r m o u s t a b l e t h a t a s s o c i a t e s a r e a l

    n u m b e r b e t w e e n z e r o a n d o n e w i t h e v e r y p o s s i b l e p a i r i n g o f a F r e n c h p a s s a g e a n d a n E n g l i s h

    p a s s a g e . W i t h t h e p r o p e r c h o i c e f o r t h i s d i s t r i b u t i o n , t r a n s l a t i o n s o f a r b i t r a r i l y h i g h q u a l i t y

    c a n b e a c h i e v e d . O f c o u r s e , t o c o n s t r u c t P r ( f e ) b y e x a m i n i n g i n d i v i d u a l p a i r s o f F r e n c h a n d

    E n g l i s h p a s s a g e s o n e b y o n e i s o u t o f t h e q u e s t i o n . E v e n i f w e r e s t r i c t o u r a t t e n t i o n t o p a s s a g e s

    n o l o n g e r t h a n a t y p i c a l n o v e l , t h e r e a r e j u s t t o o m a n y s u c h p a i r s . B u t t h i s i s o n l y a p r o b l e m

    i n p r a c t i c e n o t i n p r i n c i p a l . T h e e s s e n t i a l q u e s t i o n f o r s t a t i s t i c a l t r a n s l a t i o n , t h e n , i s n o t a

    p h i l o s o p h i c a l o n e , b u t a n e m p i r i c a l o n e : C a n o n e c o n s t r u c t a p p r o x i m a t i o n s t o t h e d i s t r i b u t i o n s

    P r ( e ) a n d P r ( f e ) t h a t a r e a t o n c e g o o d e n o u g h t o a c h e i v e a n a c c e p t a b l e q u a l i t y o f t r a n s l a t i o n

    a n d y e t t r a c t a b l e e n o u g h t o a l l o w a n a c c e p t a b l e s p e e d o f t r a n s l a t i o n

    E q u a t i o n ( 1 . 2 ) s u m m a r i z e s t h e t h r e e c o m p u t a t i o n a l c h a l l e n g e s p r e s e n t e d b y t h e p r a c t i c e o f

    s t a t i s t i c a l t r a n s l a t i o n : e s t i m a t i n g t h e l a n g u a g e m o d e l p r o b a b i l i t y , P r ( e ) ; e s t i m a t i n g t h e t r a n s l a -

    t i o n m o d e l p r o b a b i l i t y , P r ( f e ) ; a n d d e v i s i n g a n e e c t i v e a n d e c i e n t s u b o p t i m a l s e a r c h f o r t h e

    E n g l i s h s t r i n g t h a t m a x i m i z e s t h e i r p r o d u c t . W e c a l l t h e s e t h e l a n g u a g e m o d e l l i n g p r o b l e m , t h e

    t r a n s l a t i o n m o d e l l i n g p r o b l e m , a n d t h e s e a r c h p r o b l e m .

    T h e l a n g u a g e m o d e l l i n g p r o b l e m f o r m a c h i n e t r a n s l a t i o n i s e s s e n t i a l l y t h e s a m e a s t h a t f o r

    s p e e c h r e c o g n i t i o n a n d h a s b e e n d e a l t w i t h e l s e w h e r e i n t h a t c o n t e x t ( s e e , f o r e x a m p l e , t h e

    r e c e n t p a p e r b y M a l t e s e a n d M a n c i n i 7 4 ] a n d r e f e r e n c e s t h e r e i n ) . W e h o p e t o d e a l w i t h t h e

    s e a r c h p r o b l e m i n a l a t e r p a p e r . I n t h i s p a p e r , w e f o c u s o n t h e t r a n s l a t i o n m o d e l l i n g p r o b l e m .

    B e f o r e w e t u r n t o t h i s p r o b l e m , h o w e v e r , w e s h o u l d a d d r e s s a n i s s u e t h a t m a y b e a c o n c e r n t o

    s o m e r e a d e r s : W h y d o w e e s t i m a t e P r ( e ) a n d P r ( f e ) r a t h e r t h a n e s t i m a t e P r ( e f ) d i r e c t l y W e

    a r e r e a l l y i n t e r e s t e d i n t h i s l a t t e r p r o b a b i l i t y . W o u l d n ' t w e r e d u c e o u r p r o b l e m s f r o m t h r e e t o

    t w o b y t h i s d i r e c t a p p r o a c h I f w e c a n e s t i m a t e P r ( f e ) a d e q u a t e l y , w h y c a n ' t w e j u s t t u r n t h e

    w h o l e p r o c e s s a r o u n d t o e s t i m a t e P r ( e f )

    T o u n d e r s t a n d t h i s , i m a g i n e t h a t w e d i v i d e F r e n c h a n d E n g l i s h s t r i n g s i n t o t h o s e t h a t a r e

    w e l l - f o r m e d a n d t h o s e t h a t a r e i l l - f o r m e d . T h i s i s n o t a p r e c i s e n o t i o n . W e h a v e i n m i n d t h a t

  • 8/8/2019 The Mathematics of Statistical Machine Translation

    4/47

    s t r i n g s l i k e I l v a a l a b i b l i o t h e q u e , o r I l i v e i n a h o u s e , o r e v e n C o l o r l e s s g r e e n i d e a s s l e e p

    f u r i o u s l y a r e w e l l - f o r m e d , b u t t h a t s t r i n g s l i k e a l a v a I l b i b l i o t h e q u e o r a I i n l i v e h o u s e a r e

    n o t . W h e n w e t r a n s l a t e a F r e n c h s t r i n g i n t o E n g l i s h , w e c a n t h i n k o f o u r s e l v e s a s s p r i n g i n g

    f r o m a w e l l - f o r m e d F r e n c h s t r i n g i n t o t h e s e a o f w e l l - f o r m e d E n g l i s h s t r i n g s w i t h t h e h o p e o f

    l a n d i n g o n a g o o d o n e . I t i s i m p o r t a n t , t h e r e f o r e , t h a t o u r m o d e l f o r P r ( e f ) c o n c e n t r a t e i t s

    p r o b a b i l i t y a s m u c h a s p o s s i b l e o n w e l l - f o r m e d E n g l i s h s t r i n g s . B u t i t i s n o t i m p o r t a n t t h a t o u r

    m o d e l f o r P r ( f e ) c o n c e n t r a t e i t s p r o b a b i l i t y o n w e l l - f o r m e d F r e n c h s t r i n g s . I f w e w e r e t o r e d u c e

    t h e p r o b a b i l i t y o f a l l w e l l - f o r m e d F r e n c h s t r i n g s b y t h e s a m e f a c t o r , s p r e a d i n g t h e p r o b a b i l i t y

    t h u s l i b e r a t e d o v e r i l l - f o r m e d F r e n c h s t r i n g s , t h e r e w o u l d b e n o e e c t o n o u r t r a n s l a t i o n s : t h e

    a r g u m e n t t h a t m a x i m i z e s s o m e f u n c t i o n f ( x ) a l s o m a x i m i z e s c f ( x ) f o r a n y p o s i t i v e c o n s t a n t

    c . A s w e s h a l l s e e b e l o w , o u r t r a n s l a t i o n m o d e l s a r e p r o d i g a l , s p r a y i n g p r o b a b i l i t y a l l o v e r t h e

    p l a c e , m o s t o f i t o n i l l - f o r m e d F r e n c h s t r i n g s . I n f a c t , a s w e d i s c u s s i n S e c t i o n 1 . 4 . 5 , t w o o f o u r

    m o d e l s w a s t e m u c h o f t h e i r p r o b a b i l i t y o n t h i n g s t h a t a r e n o t s t r i n g s a t a l l , h a v i n g , f o r e x a m p l e ,

    s e v e r a l d i e r e n t s e c o n d w o r d s b u t n o r s t w o r d . I f w e w e r e t o t u r n o n e o f t h e s e m o d e l s a r o u n d

    t o m o d e l P r ( e f ) d i r e c t l y , t h e r e s u l t w o u l d b e a m o d e l w i t h s o l i t t l e p r o b a b i l i t y c o n c e n t r a t e d o n

    w e l l - f o r m e d E n g l i s h s t r i n g s a s t o c o n f o u n d a n y s c h e m e t o d i s c o v e r o n e .

    T h e t w o f a c t o r s i n E q u a t i o n ( 1 . 2 ) c o o p e r a t e . T h e t r a n s l a t i o n m o d e l p r o b a b i l i t y i s l a r g e f o r

    E n g l i s h s t r i n g s , w h e t h e r w e l l - o r i l l - f o r m e d , t h a t h a v e t h e n e c e s s a r y w o r d s i n t h e m i n r o u g h l y

    t h e r i g h t p l a c e s t o e x p l a i n t h e F r e n c h . T h e l a n g u a g e m o d e l p r o b a b i l i t y i s l a r g e f o r w e l l - f o r m e d

    E n g l i s h s t r i n g s r e g a r d l e s s o f t h e i r c o n n e c t i o n t o t h e F r e n c h . T o g e t h e r , t h e y p r o d u c e a l a r g e

    p r o b a b i l i t y f o r w e l l - f o r m e d E n g l i s h s t r i n g s t h a t a c c o u n t w e l l f o r t h e F r e n c h . W e c a n n o t a c h i e v e

    t h i s s i m p l y b y r e v e r s i n g o u r t r a n s l a t i o n m o d e l s .

    1 . 3 A l i g n m e n t s

    W e s a y t h a t a p a i r o f s t r i n g s t h a t a r e t r a n s l a t i o n s o f o n e a n o t h e r f o r m s a t r a n s l a t i o n , a n d w e

    s h o w t h i s b y e n c l o s i n g t h e s t r i n g s i n p a r e n t h e s e s a n d s e p a r a t i n g t h e m b y a v e r t i c a l b a r . T h u s ,

    w e w r i t e t h e t r a n s l a t i o n ( Q u ' a u r i o n s - n o u s p u f a i r e ? W h a t c o u l d w e h a v e d o n e ? ) t o s h o w t h a t

    W h a t c o u l d w e h a v e d o n e ? i s a t r a n s l a t i o n o f Q u ' a u r i o n s - n o u s p u f a i r e ? W h e n t h e s t r i n g s e n d

    i n s e n t e n c e s , w e u s u a l l y o m i t t h e n a l s t o p u n l e s s i t i s a q u e s t i o n m a r k o r a n e x c l a m a t i o n p o i n t .

    B r o w n e t a l . 2 7 ] i n t r o d u c e t h e i d e a o f a n a l i g n m e n t b e t w e e n a p a i r o f s t r i n g s a s a n o b -

    j e c t i n d i c a t i n g f o r e a c h w o r d i n t h e F r e n c h s t r i n g t h a t w o r d i n t h e E n g l i s h s t r i n g f r o m w h i c h

    i t a r o s e . A l i g n m e n t s a r e s h o w n g r a p h i c a l l y , a s i n F i g u r e 1 . 1 , b y w r i t i n g t h e E n g l i s h s t r i n g

    a b o v e t h e F r e n c h s t r i n g a n d d r a w i n g l i n e s , w h i c h w e c a l l c o n n e c t i o n s , f r o m s o m e o f t h e E n g l i s h

    w o r d s t o s o m e o f t h e F r e n c h w o r d s . T h e a l i g n m e n t i n F i g u r e 1 . 1 h a s s e v e n c o n n e c t i o n s , ( t h e ,

    L e ) , ( p r o g r a m , p r o g r a m m e ) , a n d s o o n . F o l l o w i n g t h e n o t a t i o n o f B r o w n e t a l . , w e w r i t e t h i s

    a l i g n m e n t a s ( L e p r o g r a m m e a e t e m i s e n a p p l i c a t i o n A n d t h e ( 1 ) p r o g r a m ( 2 ) h a s ( 3 ) b e e n ( 4 )

    i m p l e m e n t e d ( 5 , 6 , 7 ) ) . T h e l i s t o f n u m b e r s f o l l o w i n g a n E n g l i s h w o r d s h o w s t h e p o s i t i o n s i n t h e

    F r e n c h s t r i n g o f t h e w o r d s t o w h i c h i t i s c o n n e c t e d . B e c a u s e A n d i s n o t c o n n e c t e d t o a n y F r e n c h

    w o r d s h e r e , t h e r e i s n o l i s t o f n u m b e r s a f t e r i t . W e c o n s i d e r e v e r y a l i g n m e n t t o b e c o r r e c t w i t h

    s o m e p r o b a b i l i t y , a n d s o w e n d ( L e p r o g r a m m e a e t e m i s e n a p p l i c a t i o n A n d ( 1 , 2 , 3 , 4 , 5 , 6 , 7 )

    t h e p r o g r a m h a s b e e n i m p l e m e n t e d ) p e r f e c t l y a c c e p t a b l e . O f c o u r s e , w e e x p e c t i t t o b e m u c h

    l e s s p r o b a b l e t h a n t h e a l i g n m e n t s h o w n i n F i g u r e 1 . 1 .

    I n F i g u r e 1 . 1 e a c h F r e n c h w o r d i s c o n n e c t e d t o e x a c t l y o n e E n g l i s h w o r d , b u t m o r e g e n e r a l

    a l i g n m e n t s a r e p o s s i b l e a n d m a y b e a p p r o p r i a t e f o r s o m e t r a n s l a t i o n s . F o r e x a m p l e , w e m a y

    h a v e a F r e n c h w o r d c o n n e c t e d t o s e v e r a l E n g l i s h w o r d s a s i n F i g u r e 1 . 2 , w h i c h w e w r i t e a s ( L e

    r e s t e a p p a r t e n a i t a u x a u t o c h t o n e s T h e ( 1 ) b a l a n c e ( 2 ) w a s ( 3 ) t h e ( 3 ) t e r r i t o r y ( 3 ) o f ( 4 ) t h e ( 4 )

    a b o r i g i n a l ( 5 ) p e o p l e ( 5 ) ) . M o r e g e n e r a l l y s t i l l , w e m a y h a v e s e v e r a l F r e n c h w o r d s c o n n e c t e d t o

    s e v e r a l E n g l i s h w o r d s a s i n F i g u r e 1 . 3 , w h i c h w e w r i t e a s ( L e s p a u v r e s s o n t d e m u n i s T h e ( 1 )

  • 8/8/2019 The Mathematics of Statistical Machine Translation

    5/47

    A n d

    1

    t h e

    2

    p r o g r a m

    3

    h a s

    4

    b e e n

    5

    i m p l e m e n t e d

    6

    L e

    1

    p r o g r a m m e

    2

    a

    3

    e t e

    4

    m i s

    5

    e n

    6

    a p p l i c a t i o n

    7

    X

    X

    X

    X

    X

    X

    ,

    ,

    ,

    ,

    ,

    ?

    ?

    ,

    ,

    ,

    ?

    ?

    ,

    ,

    ,

    ?

    ?

    ?

    ?

    ,

    ,

    F i g u r e 1 . 1 : A n a l i g n m e n t w i t h i n d e p e n d e n t E n g l i s h w o r d s .

    T h e

    1

    b a l a n c e

    2

    w a s

    3

    t h e

    4

    t e r r i t o r y

    5

    o f

    6

    t h e

    7

    a b o r i g i n a l

    8

    p e o p l e

    9

    L e

    1

    r e s t e

    2

    a p p a r t e n a i t

    3

    a u x

    4

    a u t o c h t o n e s

    5

    c

    c

    c

    #

    #

    #

    a

    a

    a

    !

    !

    !

    a

    a

    a

    !

    !

    !

    F i g u r e 1 . 2 : A n a l i g n m e n t w i t h i n d e p e n d e n t F r e n c h w o r d s .

    T h e

    1

    p o o r

    2

    d o n ' t

    3

    h a v e

    4

    a n y

    5

    m o n e y

    6

    L e s

    1

    p a u v r e s

    2

    s o n t

    3

    d e m u n i s

    4

    b

    b

    b

    "

    "

    H

    H

    H

    ?

    ?

    %

    %

    %

    %

    F i g u r e 1 . 3 : A g e n e r a l a l i g n m e n t .

    p o o r ( 2 ) d o n ' t ( 3 , 4 ) h a v e ( 3 , 4 ) a n y ( 3 , 4 ) m o n e y ( 3 , 4 ) ) . H e r e , t h e f o u r E n g l i s h w o r d s d o n ' t h a v e a n y

    m o n e y w o r k t o g e t h e r t o g e n e r a t e t h e t w o F r e n c h w o r d s s o n t d e m u n i s .

    I n a g u r a t i v e s e n s e , a n E n g l i s h p a s s a g e i s a w e b o f c o n c e p t s w o v e n t o g e t h e r a c c o r d i n g t o

    t h e r u l e s o f E n g l i s h g r a m m a r . W h e n w e l o o k a t a p a s s a g e , w e c a n n o t s e e t h e c o n c e p t s d i r e c t l y

  • 8/8/2019 The Mathematics of Statistical Machine Translation

    6/47

    b u t o n l y t h e w o r d s t h a t t h e y l e a v e b e h i n d . T o s h o w t h a t t h e s e w o r d s a r e r e l a t e d t o a c o n c e p t

    b u t a r e n o t q u i t e t h e w h o l e s t o r y , w e s a y t h a t t h e y f o r m a c e p t . S o m e o f t h e w o r d s i n a p a s s a g e

    m a y p a r t i c i p a t e i n m o r e t h a n o n e c e p t , w h i l e o t h e r s m a y p a r t i c i p a t e i n n o n e , s e r v i n g o n l y a s

    a s o r t o f s y n t a c t i c g l u e t o b i n d t h e w h o l e t o g e t h e r . W h e n a p a s s a g e i s t r a n s l a t e d i n t o F r e n c h ,

    e a c h o f i t s c e p t s c o n t r i b u t e s s o m e F r e n c h w o r d s t o t h e t r a n s l a t i o n . W e f o r m a l i z e t h i s u s e o f t h e

    t e r m c e p t a n d r e l a t e i t t o t h e i d e a o f a n a l i g n m e n t a s f o l l o w s .

    W e c a l l t h e s e t o f E n g l i s h w o r d s c o n n e c t e d t o a F r e n c h w o r d i n a p a r t i c u l a r a l i g n m e n t t h e

    c e p t t h a t g e n e r a t e s t h e F r e n c h w o r d . T h u s , a n a l i g n m e n t r e s o l v e s a n E n g l i s h s t r i n g i n t o a s e t

    o f p o s s i b l y o v e r l a p p i n g c e p t s t h a t w e c a l l t h e c e p t u a l s c h e m e o f t h e E n g l i s h s t r i n g w i t h r e s p e c t

    t o t h e a l i g n m e n t . T h e a l i g n m e n t i n F i g u r e 1 . 3 c o n t a i n s t h e t h r e e c e p t s T h e , p o o r , a n d d o n ' t

    h a v e a n y m o n e y . W h e n o n e o r m o r e o f t h e F r e n c h w o r d s i s c o n n e c t e d t o n o E n g l i s h w o r d s ,

    w e s a y t h a t t h e c e p t u a l s c h e m e i n c l u d e s t h e e m p t y c e p t a n d t h a t e a c h o f t h e s e w o r d s h a s b e e n

    g e n e r a t e d b y t h i s e m p t y c e p t .

    F o r m a l l y , a c e p t i s a s u b s e t o f t h e p o s i t i o n s i n t h e E n g l i s h s t r i n g t o g e t h e r w i t h t h e w o r d s

    o c c u p y i n g t h o s e p o s i t i o n s . W h e n w e w r i t e t h e w o r d s t h a t m a k e u p a c e p t , w e s o m e t i m e s a x a

    s u b s c r i p t t o e a c h o n e s h o w i n g i t s p o s i t i o n . T h e a l i g n m e n t i n F i g u r e 1 . 2 i n c l u d e s t h e c e p t s t h e

    4

    a n d o f

    6

    t h e

    7

    , b u t n o t t h e c e p t s o f

    6

    t h e

    4

    o r t h e

    7

    I n ( J ' a p p l a u d i s a l a d e c i s i o n I ( 1 ) a p p l a u d ( 2 )

    t h e ( 4 ) d e c i s i o n ( 5 ) ) , a i s g e n e r a t e d b y t h e e m p t y c e p t . A l t h o u g h t h e e m p t y c e p t h a s n o p o s i t i o n ,

    w e p l a c e i t b y c o n v e n t i o n i n p o s i t i o n z e r o , a n d w r i t e i t a s e

    0

    . T h u s , w e m a y a l s o w r i t e t h e

    p r e v i o u s a l i g n m e n t a s ( J ' a p p l a u d i s a l a d e c i s i o n e

    0

    ( 3 ) I ( 1 ) a p p l a u d ( 2 ) t h e ( 4 ) d e c i s i o n ( 5 ) )

    W e d e n o t e t h e s e t o f a l i g n m e n t s o f ( f e ) b y

    A

    ( e ; f ) . I f e h a s l e n g t h l a n d f h a s l e n g t h m ,

    t h e r e a r e l m d i e r e n t c o n n e c t i o n s t h a t c a n b e d r a w n b e t w e e n t h e m b e c a u s e e a c h o f t h e m F r e n c h

    w o r d s c a n b e c o n n e c t e d t o a n y o f t h e l E n g l i s h w o r d s . S i n c e a n a l i g n m e n t i s d e t e r m i n e d b y t h e

    c o n n e c t i o n s t h a t i t c o n t a i n s , a n d s i n c e a s u b s e t o f t h e p o s s i b l e c o n n e c t i o n s c a n b e c h o s e n i n 2

    l m

    w a y s , t h e r e a r e 2

    l m

    a l i g n m e n t s i n

    A

    ( e ; f )

    1 . 4 T r a n s l a t i o n M o d e l s

    I n t h i s S e c t i o n , w e d e v e l o p a s e r i e s o f v e t r a n s l a t i o n m o d e l s t o g e t h e r w i t h t h e a l g o r i t h m s

    n e c e s s a r y t o e s t i m a t e t h e i r p a r a m e t e r s . E a c h m o d e l g i v e s a p r e s c r i p t i o n f o r c o m p u t i n g t h e

    c o n d i t i o n a l p r o b a b i l i t y P r ( f e ) , w h i c h w e c a l l t h e l i k e l i h o o d o f t h e t r a n s l a t i o n ( f ; e ) . T h i s

    l i k e l i h o o d i s a f u n c t i o n o f a l a r g e n u m b e r o f f r e e p a r a m e t e r s t h a t w e m u s t e s t i m a t e i n a p r o c e s s

    t h a t w e c a l l t r a i n i n g . T h e l i k e l i h o o d o f a s e t o f t r a n s l a t i o n s i s t h e p r o d u c t o f t h e l i k e l i h o o d s

    o f i t s m e m b e r s . I n b r o a d o u t l i n e , o u r p l a n i s t o g u e s s v a l u e s f o r t h e s e p a r a m e t e r s a n d t h e n t o

    a p p l y t h e E M a l g o r i t h m 1 5 , 4 6 ] i t e r a t i v e l y s o a s t o a p p r o a c h a l o c a l m a x i m u m o f t h e l i k e l i h o o d

    o f a p a r t i c u l a r s e t o f t r a n s l a t i o n s t h a t w e c a l l t h e t r a i n i n g d a t a . W h e n t h e l i k e l i h o o d o f t h e

    t r a i n i n g d a t a h a s m o r e t h a n o n e l o c a l m a x i m u m , t h e o n e t h a t w e a p p r o a c h w i l l d e p e n d o n o u r

    i n i t i a l g u e s s .

    I n M o d e l s 1 a n d 2 , w e r s t c h o o s e a l e n g t h f o r t h e F r e n c h s t r i n g , a s s u m i n g a l l r e a s o n a b l e

    l e n g t h s t o b e e q u a l l y l i k e l y . T h e n , f o r e a c h p o s i t i o n i n t h e F r e n c h s t r i n g , w e d e c i d e h o w t o

    c o n n e c t i t t o t h e E n g l i s h s t r i n g a n d w h a t F r e n c h w o r d t o p l a c e t h e r e . I n M o d e l 1 w e a s s u m e

    a l l c o n n e c t i o n s f o r e a c h F r e n c h p o s i t i o n t o b e e q u a l l y l i k e l y . T h e r e f o r e , t h e o r d e r o f t h e w o r d s

    i n e a n d f d o e s n o t a e c t P r ( f e ) . I n M o d e l 2 w e m a k e t h e m o r e r e a l i s t i c a s s u m p t i o n t h a t t h e

    p r o b a b i l i t y o f a c o n n e c t i o n d e p e n d s i n t h e p o s i t i o n s w h i c h i t c o n n e c t s a n d o n t h e l e n g t h s o f t h e

    t w o s t r i n g s . T h e r e f o r e , f o r M o d e l 2 , P r ( f e ) d o e s d e p e n d o n t h e o r d e r o f t h e w o r d s i n e a n d f

    A l t h o u g h i t i s p o s s i b l e t o o b t a i n i n t e r e s t i n g c o r r e l a t i o n s b e t w e e n s o m e p a i r s o f f r e q u e n t w o r d s

    i n t h e t w o l a n g u a g e s u s i n g M o d e l s 1 a n d 2 , a s w e w i l l s e e l a t e r ( i n F i g u r e 1 . 5 ) , t h e s e m o d e l s

    o f t e n l e a d t o u n s a t i s f a c t o r y w o r d - b y - w o r d a l i g n m e n t s o f c o m p l e t e t r a n s l a t i o n s .

    I n M o d e l s 3 , 4 , a n d 5 , w e d e v e l o p t h e F r e n c h s t r i n g b y c h o o s i n g f o r e a c h w o r d i n t h e E n g l i s h

  • 8/8/2019 The Mathematics of Statistical Machine Translation

    7/47

    s t r i n g , r s t t h e n u m b e r o f w o r d s i n t h e F r e n c h s t r i n g t h a t w i l l b e c o n n e c t e d t o i t , t h e n t h e

    i d e n t i t y o f t h e s e F r e n c h w o r d s , a n d n a l l y t h e a c t u a l p o s i t i o n s i n t h e F r e n c h s t r i n g t h a t t h e s e

    w o r d s w i l l o c c u p y . I t i s t h i s l a s t s t e p t h a t d e t e r m i n e s t h e c o n n e c t i o n s b e t w e e n t h e E n g l i s h s t r i n g

    a n d t h e F r e n c h s t r i n g a n d i t i s h e r e t h a t t h e s e t h r e e m o d e l s d i e r . I n M o d e l 3 , a s i n M o d e l 2 ,

    t h e p r o b a b i l i t y o f a c o n n e c t i o n d e p e n d s o n t h e p o s i t i o n s t h a t i t c o n n e c t s a n d o n t h e l e n g t h s o f

    t h e E n g l i s h a n d F r e n c h s t r i n g s . I n M o d e l 4 t h e p r o b a b i l i t y o f a c o n n e c t i o n d e p e n d s i n a d d i t i o n

    o n t h e i d e n t i t i e s o f t h e F r e n c h a n d E n g l i s h w o r d s c o n n e c t e d a n d o n t h e p o s i t i o n s o f a n y o t h e r

    F r e n c h w o r d s t h a t a r e c o n n e c t e d t o t h e s a m e E n g l i s h w o r d . M o d e l s 3 a n d 4 a r e d e c i e n t , a

    t e c h n i c a l c o n c e p t d e n e d a n d d i s c u s s e d i n S e c t i o n 1 . 4 . 5 . B r i e y , t h i s m e a n s t h a t t h e y w a s t e

    s o m e o f t h e i r p r o b a b i l i t y o n o b j e c t s t h a t a r e n o t F r e n c h s t r i n g s a t a l l . M o d e l 5 i s v e r y m u c h

    l i k e M o d e l 4 , e x c e p t t h a t i s n o t d e c i e n t .

    M o d e l s 1 t h r o u g h 4 s e r v e a s s t e p p i n g s t o n e s t o t h e t r a i n i n g o f M o d e l 5 . M o d e l s 1 a n d 2

    h a v e a n e s p e c i a l l y s i m p l e m a t h e m a t i c a l f o r m s o t h a t i t e r a t i o n s o f t h e E M a l g o r i t h m c a n b e

    c o m p u t e d e x a c t l y . T h a t i s , w e c a n e x p l i c i t l y p e r f o r m s u m s o v e r a l l p o s s i b l e a l i g n m e n t s f o r t h e s e

    t w o m o d e l s . I n a d d i t i o n , M o d e l 1 h a s a u n i q u e l o c a l m a x i m u m s o t h a t p a r a m e t e r s d e r i v e d f o r i t

    i n a s e r i e s o f E M i t e r a t i o n s d o n o t d e p e n d o n t h e s t a r t i n g p o i n t f o r t h e i t e r a t i o n s . A s e x p l a i n e d

    b e l o w , w e u s e M o d e l 1 t o p r o v i d e i n i t i a l e s t i m a t e s f o r t h e p a r a m e t e r s o f M o d e l 2 . I n M o d e l 2

    a n d s u b s e q u e n t m o d e l s , t h e l i k e l i h o o d f u n c t i o n d o e s n o t h a v e a u n i q u e l o c a l m a x i m u m , b u t b y

    i n i t i a l i z i n g e a c h m o d e l f r o m t h e p a r a m e t e r s o f t h e m o d e l b e f o r e i t , w e a r r i v e a t e s t i m a t e s o f t h e

    p a r a m e t e r s o f t h e n a l m o d e l t h a t d o n o t d e p e n d o n o u r i n i t i a l e s t i m a t e s o f t h e p a r a m e t e r s f o r

    M o d e l 1 .

    I n M o d e l s 3 a n d 4 , w e m u s t b e c o n t e n t w i t h a p p r o x i m a t e E M i t e r a t i o n s b e c a u s e i t i s n o t

    f e a s i b l e t o c a r r y o u t s u m s o v e r a l l p o s s i b l e a l i g n m e n t s f o r t h e s e m o d e l s . B u t , w h i l e a p p r o a c h i n g

    m o r e c l o s e l y t h e c o m p l e x i t y o f M o d e l 5 , t h e y r e t a i n e n o u g h s i m p l i c i t y t o a l l o w a n e c i e n t

    i n v e s t i g a t i o n o f t h e n e i g h b o r h o o d o f p r o b a b l e a l i g n m e n t s a n d t h e r e f o r e a l l o w u s t o i n c l u d e w h a t

    w e h o p e a r e a l l o f t h e i m p o r t a n t a l i g n m e n t s i n e a c h E M i t e r a t i o n .

    I n t h e r e m a i n d e r o f t h i s S e c t i o n , w e g i v e a n i n f o r m a l b u t r e a s o n a b l y p r e c i s e d e s c r i p t i o n

    o f e a c h o f t h e v e m o d e l s a n d a n i n t u i t i v e a c c o u n t o f t h e E M a l g o r i t h m a s a p p l i e d t o t h e m .

    W e a s s u m e t h e r e a d e r t o b e c o m f o r t a b l e w i t h L a g r a n g e m u l t i p l i e r s , p a r t i a l d i e r e n t i a t i o n , a n d

    c o n s t r a i n e d o p t i m i z a t i o n a s t h e y a r e p r e s e n t e d i n a t y p i c a l c o l l e g e c a l c u l u s t e x t , a n d t o h a v e a

    n o d d i n g a c q u a i n t a n c e w i t h r a n d o m v a r i a b l e s . O n h i s r s t t i m e t h r o u g h , t h e r e a d e r m a y w i s h

    t o j u m p f r o m h e r e d i r e c t l y t o S e c t i o n 1 . 5 , r e t u r n i n g t o t h i s S e c t i o n w h e n a n d i f h e s h o u l d d e s i r e

    t o u n d e r s t a n d m o r e d e e p l y h o w t h e r e s u l t s r e p o r t e d l a t e r a r e a c h i e v e d .

    T h e b a s i c m a t h e m a t i c a l o b j e c t s w i t h w h i c h w e d e a l h e r e a r e t h e j o i n t p r o b a b i l i t y d i s t r i b u t i o n

    P r ( F = f ; A = a ; E = e ) o f t h e r a n d o m v a r i a b l e ( F ; A ; E ) , w h e r e F i s a r a n d o m F r e n c h

    s t r i n g , E i s a r a n d o m E n g l i s h s t r i n g , a n d A i s a r a n d o m a l i g n m e n t b e t w e e n t h e m ; a n d v a r i o u s

    m a r g i n a l a n d c o n d i t i o n a l p r o b a b i l i t y d i s t r i b u t i o n s t h a t c a n b e c o n s t r u c t e d f r o m i t , e s p e c i a l l y t h e

    d i s t r i b u t i o n P r ( F = f E = e ) . W e g e n e r a l l y f o l l o w t h e c o m m o n c o n v e n t i o n o f u s i n g u p p e r c a s e

    l e t t e r s t o d e n o t e r a n d o m v a r i a b l e s a n d t h e c o r r e s p o n d i n g l o w e r c a s e l e t t e r s t o d e n o t e s p e c i c

    v a l u e s t h a t t h e r a n d o m v a r i a b l e s m a y t a k e . W e h a v e a l r e a d y u s e d l a n d m t o r e p r e s e n t t h e

    l e n g t h s o f t h e s t r i n g s e a n d f , a n d s o w e u s e L a n d M t o d e n o t e t h e c o r r e s p o n d i n g r a n d o m

    v a r i a b l e s . W h e n t h e r e i s n o p o s s i b i l i t y f o r c o n f u s i o n , o r , m o r e p r o p e r l y , w h e n t h e p r o b a b i l i t y o f

    c o n f u s i o n i s n o t t h e r e b y m a t e r i a l l y i n c r e a s e d , w e w r i t e P r ( f ; a ; e ) f o r P r ( F = f ; A = a ; E = e ) ,

    a n d u s e s i m i l a r s h o r t h a n d s t h r o u g h o u t .

    W e c a n w r i t e t h e l i k e l i h o o d o f ( f e ) i n t e r m s o f t h e c o n d i t i o n a l p r o b a b i l i t y P r ( f ; a e ) a s

    P r ( f e ) =

    X

    a

    P r ( f ; a e ) ( 1 . 3 )

    T h e s u m h e r e , l i k e a l l s u b s e q u e n t s u m s o v e r a , i s o v e r t h e e l e m e n t s o f

    A

    ( e ; f ) . W e r e s t r i c t

    o u r s e l v e s i n t h i s S e c t i o n t o a l i g n m e n t s l i k e t h e o n e s h o w n i n F i g u r e 1 . 1 w h e r e e a c h F r e n c h w o r d

  • 8/8/2019 The Mathematics of Statistical Machine Translation

    8/47

    h a s e x a c t l y o n e c o n n e c t i o n . I n t h i s k i n d o f a l i g n m e n t , e a c h c e p t i s e i t h e r a s i n g l e E n g l i s h w o r d o r

    i t i s e m p t y . T h e r e f o r e , w e c a n a s s i g n c e p t s t o p o s i t i o n s i n t h e E n g l i s h s t r i n g , r e s e r v i n g p o s i t i o n

    z e r o f o r t h e e m p t y c e p t . I f t h e E n g l i s h s t r i n g , e = e

    l

    1

    e

    1

    e

    2

    e

    l

    , h a s l w o r d s , a n d t h e F r e n c h

    s t r i n g , f = f

    m

    1

    f

    1

    f

    2

    f

    m

    , h a s m w o r d s , t h e n t h e a l i g n m e n t , a , c a n b e r e p r e s e n t e d b y a s e r i e s ,

    a

    m

    1

    a

    1

    a

    2

    : : : a

    m

    , o f m v a l u e s , e a c h b e t w e e n 0 a n d l s u c h t h a t i f t h e w o r d i n p o s i t i o n j o f t h e

    F r e n c h s t r i n g i s c o n n e c t e d t o t h e w o r d i n p o s i t i o n i o f t h e E n g l i s h s t r i n g , t h e n a

    j

    = i , a n d i f i t

    i s n o t c o n n e c t e d t o a n y E n g l i s h w o r d , t h e n a

    j

    = 0

    W i t h o u t l o s s o f g e n e r a l i t y , w e c a n w r i t e

    P r ( f ; a e ) = P r ( m e )

    m

    Y

    j = 1

    P r ( a

    j

    a

    j 1

    1

    ; f

    j 1

    1

    ; m ; e ) P r ( f

    j

    a

    j

    1

    ; f

    j 1

    1

    ; m ; e ) ( 1 . 4 )

    T h i s i s o n l y o n e o f m a n y w a y s i n w h i c h P r ( f ; a e ) c a n b e w r i t t e n a s t h e p r o d u c t o f a s e r i e s o f

    c o n d i t i o n a l p r o b a b i l i t i e s . I t i s i m p o r t a n t t o r e a l i z e t h a t E q u a t i o n ( 1 . 4 ) i s n o t a n a p p r o x i m a t i o n .

    R e g a r d l e s s o f t h e f o r m o f P r ( f ; a e ) , i t c a n a l w a y s b e a n a l y z e d i n t o a p r o d u c t o f t e r m s i n t h i s w a y .

    W e a r e s i m p l y a s s e r t i n g i n t h i s e q u a t i o n t h a t w h e n w e g e n e r a t e a F r e n c h s t r i n g t o g e t h e r w i t h

    a n a l i g n m e n t f r o m a n E n g l i s h s t r i n g , w e c a n r s t c h o o s e t h e l e n g t h o f t h e F r e n c h s t r i n g g i v e n

    o u r k n o w l e d g e o f t h e E n g l i s h s t r i n g . T h e n w e c a n c h o o s e w h e r e t o c o n n e c t t h e r s t p o s i t i o n i n

    t h e F r e n c h s t r i n g g i v e n o u r k n o w l e d g e o f t h e E n g l i s h s t r i n g a n d t h e l e n g t h o f t h e F r e n c h s t r i n g .

    T h e n w e c a n c h o o s e t h e i d e n t i t y o f t h e r s t w o r d i n t h e F r e n c h s t r i n g g i v e n o u r k n o w l e d g e o f t h e

    E n g l i s h s t r i n g , t h e l e n g t h o f t h e F r e n c h s t r i n g , a n d t h e p o s i t i o n i n t h e E n g l i s h s t r i n g t o w h i c h

    t h e r s t p o s i t i o n i n t h e F r e n c h s t r i n g i s c o n n e c t e d , a n d s o o n . A s w e s t e p t h r o u g h t h e F r e n c h

    s t r i n g , a t e a c h p o i n t w e m a k e o u r n e x t c h o i c e g i v e n o u r c o m p l e t e k n o w l e d g e o f t h e E n g l i s h s t r i n g

    a n d o f a l l o u r p r e v i o u s c h o i c e s a s t o t h e d e t a i l s o f t h e F r e n c h s t r i n g a n d i t s a l i g n m e n t .

    1 . 4 . 1 M o d e l 1

    T h e c o n d i t i o n a l p r o b a b i l i t i e s o n t h e r i g h t - h a n d s i d e o f E q u a t i o n ( 1 . 4 ) c a n n o t a l l b e t a k e n a s

    i n d e p e n d e n t p a r a m e t e r s b e c a u s e t h e r e a r e t o o m a n y o f t h e m . I n M o d e l 1 , w e a s s u m e t h a t

    P r ( m e ) i s i n d e p e n d e n t o f e a n d m ; t h a t P r ( a

    j

    a

    j 1

    1

    ; f

    j 1

    1

    ; m ; e ) , d e p e n d s o n l y o n l , t h e l e n g t h

    o f t h e E n g l i s h s t r i n g , a n d t h e r e f o r e m u s t b e ( l + 1 )

    1

    ; a n d t h a t P r ( f

    j

    a

    j

    1

    ; f

    j 1

    1

    ; m ; e ) d e p e n d s

    o n l y o n f

    j

    a n d e

    a

    j

    . T h e p a r a m e t e r s , t h e n , a r e P r ( m e ) , a n d t ( f

    j

    e

    a

    j

    ) P r ( f

    j

    a

    j

    1

    ; f

    j 1

    1

    ; m ; e ) ,

    w h i c h w e c a l l t h e t r a n s l a t i o n p r o b a b i l i t y o f f

    j

    g i v e n e

    a

    j

    . W e t h i n k o f a s s o m e s m a l l , x e d

    n u m b e r . T h e d i s t r i b u t i o n o f M , t h e l e n g t h o f t h e F r e n c h s t r i n g , i s u n n o r m a l i z e d b u t t h i s i s a

    m i n o r t e c h n i c a l i s s u e o f n o s i g n i c a n c e t o o u r c o m p u t a t i o n s . I f w e w i s h , w e c a n t h i n k o f M a s

    h a v i n g s o m e n i t e r a n g e . A s l o n g a s t h i s r a n g e e n c o m p a s s e s e v e r y t h i n g t h a t a c t u a l l y o c c u r s i n

    t r a i n i n g d a t a , n o p r o b l e m s a r i s e .

    W e t u r n n o w t o t h e p r o b l e m o f e s t i m a t i n g t h e t r a n s l a t i o n p r o b a b i l i t i e s f o r M o d e l 1 . T h e

    j o i n t l i k e l i h o o d o f a F r e n c h s t r i n g a n d a n a l i g n m e n t g i v e n a n d E n g l i s h s t r i n g i s

    P r ( f ; a e ) =

    ( l + 1 )

    m

    m

    Y

    j = 1

    t ( f

    j

    e

    a

    j

    ) ( 1 . 5 )

    T h e a l i g n m e n t i s d e t e r m i n e d b y s p e c i f y i n g t h e v a l u e s o f a

    j

    f o r j f r o m 1 t o m , e a c h o f w h i c h c a n

    t a k e a n y v a l u e f r o m 0 t o l . T h e r e f o r e ,

    P r ( f e ) =

    ( l + 1 )

    m

    l

    X

    a

    1

    = 0

    l

    X

    a

    m

    = 0

    m

    Y

    j = 1

    t ( f

    j

    e

    a

    j

    ) ( 1 . 6 )

    W e w i s h t o a d j u s t t h e t r a n s l a t i o n p r o b a b i l i t i e s s o a s t o m a x i m i z e P r ( f e ) s u b j e c t t o t h e

    c o n s t r a i n t s t h a t f o r e a c h e ,

    X

    f

    t ( f e ) = 1 ( 1 . 7 )

  • 8/8/2019 The Mathematics of Statistical Machine Translation

    9/47

    F o l l o w i n g s t a n d a r d p r a c t i c e f o r c o n s t r a i n e d m a x i m i z a t i o n , w e i n t r o d u c e L a g r a n g e m u l t i p l i e r s ,

    e

    , a n d s e e k a n u n c o n s t r a i n e d e x t r e m u m o f t h e a u x i l i a r y f u n c t i o n

    h ( t ; )

    ( l + 1 )

    m

    l

    X

    a

    1

    = 0

    l

    X

    a

    m

    = 0

    m

    Y

    j = 1

    t ( f

    j

    e

    a

    j

    ) ?

    X

    e

    e

    (

    f

    t ( f e ) ? 1 ) ( 1 . 8 )

    A n e x t r e m u m o c c u r s w h e n a l l o f t h e p a r t i a l d e r i v a t i v e s o f h w i t h r e s p e c t t o t h e c o m p o n e n t s o f

    t a n d a r e z e r o . T h a t t h e p a r t i a l d e r i v a t i v e s w i t h r e s p e c t t o t h e c o m p o n e n t s o f b e z e r o i s

    s i m p l y a r e s t a t e m e n t o f t h e c o n s t r a i n t s o n t h e t r a n s l a t i o n p r o b a b i l i t i e s . T h e p a r t i a l d e r i v a t i v e

    o f h w i t h r e s p e c t t o t ( f e ) i s

    @ h

    @ t ( f e )

    =

    ( l + 1 )

    m

    l

    X

    a

    1

    = 0

    l

    X

    a

    m

    = 0

    m

    X

    j = 1

    ( f ; f

    j

    ) ( e ; e

    a

    j

    ) t ( f e )

    1

    m

    Y

    k = 1

    t ( f

    k

    e

    a

    k

    ) ?

    e

    ; ( 1 . 9 )

    w h e r e i s t h e K r o n e c k e r d e l t a f u n c t i o n , e q u a l t o o n e w h e n b o t h o f i t s a r g u m e n t s a r e t h e s a m e

    a n d e q u a l t o z e r o o t h e r w i s e . T h i s p a r t i a l d e r i v a t i v e w i l l b e z e r o p r o v i d e d t h a t

    t ( f e ) =

    1

    e

    ( l + 1 )

    m

    l

    X

    a

    1

    = 0

    l

    X

    a

    m

    = 0

    m

    X

    j = 1

    ( f ; f

    j

    ) ( e ; e

    a

    j

    )

    m

    Y

    k = 1

    t ( f

    k

    e

    a

    k

    ) ( 1 . 1 0 )

    S u p e r c i a l l y E q u a t i o n ( 1 . 1 0 ) l o o k s l i k e a s o l u t i o n t o t h e e x t r e m u m p r o b l e m , b u t i t i s n o t

    b e c a u s e t h e t r a n s l a t i o n p r o b a b i l i t i e s a p p e a r o n b o t h s i d e s o f t h e e q u a l s i g n . N o n e t h e l e s s , i t

    s u g g e s t s a n i t e r a t i v e p r o c e d u r e f o r n d i n g a s o l u t i o n : g i v e n a n i n i t i a l g u e s s f o r t h e t r a n s l a t i o n

    p r o b a b i l i t i e s , w e c a n e v a l u a t e t h e r i g h t - h a n d s i d e o f E q u a t i o n ( 1 . 1 0 ) a n d u s e t h e r e s u l t a s a n e w

    e s t i m a t e f o r t ( f e ) . ( H e r e a n d e l s e w h e r e , t h e L a g r a n g e m u l t i p l i e r s s i m p l y s e r v e a s a r e m i n d e r

    t h a t w e n e e d t o n o r m a l i z e t h e t r a n s l a t i o n p r o b a b i l i t i e s s o t h a t t h e y s a t i s f y E q u a t i o n ( 1 . 7 ) . ) T h i s

    p r o c e s s , w h e n a p p l i e d r e p e a t e d l y , i s c a l l e d t h e E M a l g o r i t h m . T h a t i t c o n v e r g e s t o a s t a t i o n a r y

    p o i n t o f h i n s i t u a t i o n s l i k e t h i s , a s d e m o n s t r a t e d i n A p p e n d i x B , w a s r s t s h o w n b y B a u m 1 5 ]

    a n d l a t e r b y o t h e r s 4 6 ] .

    W i t h t h e a i d o f E q u a t i o n ( 1 . 5 ) , w e c a n r e e x p r e s s E q u a t i o n ( 1 . 1 0 ) a s

    t ( f e ) =

    1

    e

    X

    a

    P r ( f ; a e )

    m

    X

    j = 1

    ( f ; f

    j

    ) ( e ; e

    a

    j

    )

    | { z }

    n u m b e r o f t i m e s e c o n n e c t s t o f n a

    ( 1 . 1 1 )

    W e c a l l t h e e x p e c t e d n u m b e r o f t i m e s t h a t e c o n n e c t s t o f i n t h e t r a n s l a t i o n ( f e ) t h e c o u n t o f

    f g i v e n e f o r ( f e ) a n d d e n o t e i t b y c ( f e ; f ; e ) . B y d e n i t i o n ,

    c ( f e ; f ; e ) =

    X

    a

    P r ( a e ; f )

    m

    X

    j = 1

    ( f ; f

    j

    ) ( e ; e

    a

    j

    ) ; ( 1 . 1 2 )

    w h e r e P r ( a e ; f ) = P r ( f ; a e ) = P r ( f e ) . I f w e r e p l a c e

    e

    b y

    e

    P r ( f e ) , t h e n E q u a t i o n ( 1 . 1 1 ) c a n

    b e w r i t t e n v e r y c o m p a c t l y a s

    t ( f e ) =

    1

    e

    c ( f e ; f ; e ) ( 1 . 1 3 )

    I n p r a c t i c e , o u r t r a i n i n g d a t a c o n s i s t s o f a s e t o f t r a n s l a t i o n s , ( f

    ( 1 )

    e

    ( 1 )

    ) , ( f

    ( 2 )

    e

    ( 2 )

    ) , , ( f

    ( S )

    e

    ( S )

    ) ,

    s o t h i s e q u a t i o n b e c o m e s

    t ( f e ) =

    1

    e

    S

    X

    s = 1

    c ( f e ; f

    ( s )

    ; e

    ( s )

    ) ( 1 . 1 4 )

    H e r e ,

    e

    s e r v e s o n l y a s a r e m i n d e r t h a t t h e t r a n s l a t i o n p r o b a b i l i t i e s m u s t b e n o r m a l i z e d .

  • 8/8/2019 The Mathematics of Statistical Machine Translation

    10/47

    U s u a l l y , i t i s n o t f e a s i b l e t o e v a l u a t e t h e e x p e c t a t i o n i n E q u a t i o n ( 1 . 1 2 ) e x a c t l y . E v e n w h e n

    w e e x c l u d e m u l t i - w o r d c e p t s , t h e r e a r e s t i l l ( l + 1 )

    m

    a l i g n m e n t s p o s s i b l e f o r ( f e ) . M o d e l 1 ,

    h o w e v e r , i s s p e c i a l b e c a u s e b y r e c a s t i n g E q u a t i o n ( 1 . 6 ) , w e a r r i v e a t a n e x p r e s s i o n t h a t c a n b e

    e v a l u a t e d e c i e n t l y . T h e r i g h t - h a n d s i d e o f E q u a t i o n ( 1 . 6 ) i s a s u m o f t e r m s e a c h o f w h i c h i s a

    m o n o m i a l i n t h e t r a n s l a t i o n p r o b a b i l i t i e s . E a c h m o n o m i a l c o n t a i n s m t r a n s l a t i o n p r o b a b i l i t i e s ,

    o n e f o r e a c h o f t h e w o r d s i n f . D i e r e n t m o n o m i a l s c o r r e s p o n d t o d i e r e n t w a y s o f c o n n e c t i n g

    w o r d s i n f t o c e p t s i n e w i t h e v e r y w a y a p p e a r i n g e x a c t l y o n c e . B y d i r e c t e v a l u a t i o n , w e s e e

    t h a t

    l

    X

    a

    1

    = 0

    l

    X

    a

    m

    = 0

    m

    Y

    j = 1

    t ( f

    j

    e

    a

    j

    ) =

    m

    Y

    j = 1

    l

    X

    i = 0

    t ( f

    j

    e

    i

    ) ( 1 . 1 5 )

    A n e x a m p l e m a y h e l p t o c l a r i f y t h i s . S u p p o s e t h a t m = 3 a n d l = 1 , a n d t h a t w e w r i t e t

    j i

    a s

    a s h o r t h a n d f o r t ( f

    j

    e

    i

    ) . T h e n t h e l e f t - h a n d s i d e o f E q u a t i o n ( 1 . 1 5 ) i s t

    1 0

    t

    2 0

    t

    3 0

    + t

    1 0

    t

    2 0

    0 t

    3 1

    +

    + t

    1 1

    t

    2 1

    t

    3 0

    + t

    1 1

    t

    2 1

    t

    3 1

    , a n d t h e l e f t - h a n d s i d e i s ( t

    1 0

    + t

    1 1

    ) ( t

    2 0

    + t

    2 1

    ) ( t

    3 0

    + t

    3 1

    ) . I t i s r o u t i n e t o

    v e r i f y t h a t t h e s e a r e t h e s a m e . T h e r e f o r e , w e c a n i n t e r c h a n g e t h e s u m s i n E q u a t i o n ( 1 . 6 ) w i t h

    t h e p r o d u c t t o o b t a i n

    P r ( f e ) =

    ( l + 1 )

    m

    m

    Y

    j = 1

    l

    X

    i = 0

    t ( f

    j

    e

    i

    ) ( 1 . 1 6 )

    I f w e u s e t h i s e x p r e s s i o n i n p l a c e o f E q u a t i o n ( 1 . 6 ) w h e n w e w r i t e t h e a u x i l i a r y f u n c t i o n i n

    E q u a t i o n ( 1 . 8 ) , w e n d t h a t

    c ( f e ; f ; e ) =

    t ( f e )

    t ( f e

    0

    ) + + t ( f e

    l

    )

    m

    X

    j = 1

    ( f ; f

    j

    )

    | { z }

    c o u n t o f f n f

    c o u n t o f e n e

    z } | {

    l

    X

    i = 0

    ( e ; e

    i

    ) ( 1 . 1 7 )

    T h u s , t h e n u m b e r o f o p e r a t i o n s n e c e s s a r y t o c a l c u l a t e a c o u n t i s p r o p o r t i o n a l t o l + m r a t h e r

    t h a n t o ( l + 1 )

    m

    a s E q u a t i o n ( 1 . 1 2 ) m i g h t s u g g e s t .

    T h e d e t a i l s o f o u r i n i t i a l g u e s s e s f o r t ( f e ) a r e u n i m p o r t a n t b e c a u s e P r ( f e ) h a s a u n i q u e

    l o c a l m a x i m u m f o r M o d e l 1 , a s i s s h o w n i n A p p e n d i x B . W e c h o o s e a l l o f t h e t ( f e ) t o b e e q u a l ,

    b u t a n y o t h e r c h o i c e t h a t a v o i d s z e r o s w o u l d l e a d t o t h e s a m e n a l s o l u t i o n .

    1 . 4 . 2 M o d e l 2

    I n M o d e l 1 , w e t a k e n o c o g n i z a n c e o f w h e r e w o r d s a p p e a r i n e i t h e r s t r i n g . T h e r s t w o r d i n t h e

    F r e n c h s t r i n g i s j u s t a s l i k e l y t o b e c o n n e c t e d t o a w o r d a t t h e e n d o f t h e E n g l i s h s t r i n g a s t o

    o n e a t t h e b e g i n n i n g . I n M o d e l 2 w e m a k e t h e s a m e a s s u m p t i o n s a s i n M o d e l 1 e x c e p t t h a t w e

    a s s u m e t h a t P r ( a

    j

    a

    j 1

    1

    ; f

    j 1

    1

    ; m ; e ) d e p e n d s o n j , a

    j

    , a n d m , a s w e l l a s o n l . W e i n t r o d u c e a s e t

    o f a l i g n m e n t p r o b a b i l i t i e s ,

    a ( a

    j

    j ; m ; l ) P r ( a

    j

    a

    j 1

    1

    ; f

    j 1

    1

    ; m ; l ) ; ( 1 . 1 8 )

    w h i c h s a t i s f y t h e c o n s t r a i n t s

    l

    X

    i = 0

    a ( i j ; m ; l ) = 1 ( 1 . 1 9 )

    f o r e a c h t r i p l e j m l . I n p l a c e o f E q u a t i o n ( 1 . 6 ) , w e h a v e

    P r ( f e ) =

    l

    X

    a

    1

    = 0

    l

    X

    a

    m

    = 0

    m

    Y

    j = 1

    t ( f

    j

    e

    a

    j

    ) a ( a

    j

    j ; m ; l ) ( 1 . 2 0 )

  • 8/8/2019 The Mathematics of Statistical Machine Translation

    11/47

    T h e r e f o r e , w e s e e k a n u n c o n s t r a i n e d e x t r e m u m o f t h e a u x i l i a r y f u n c t i o n

    h ( t ; a ; ; )

    l

    X

    a

    1

    = 0

    l

    X

    a

    m

    = 0

    m

    Y

    j = 1

    t ( f

    j

    e

    a

    j

    ) a ( a

    j

    j ; m ; l )

    ?

    X

    e

    e

    (

    f

    t ( f e ) ? 1 ) ?

    X

    j

    j m l

    (

    i

    a ( i j ; m ; l ) ? 1 ) ( 1 . 2 1 )

    T h e r e a d e r w i l l e a s i l y v e r i f y t h a t E q u a t i o n s ( 1 . 1 1 ) , ( 1 . 1 3 ) , a n d ( 1 . 1 4 ) c a r r y o v e r f r o m M o d e l 1

    t o M o d e l 2 u n c h a n g e d . W e n e e d a n e w c o u n t , c ( i j ; m ; l ; f ; e ) , t h e e x p e c t e d n u m b e r o f t i m e s

    t h a t t h e w o r d i n p o s i t i o n j o f f i s c o n n e c t e d t o t h e w o r d i n p o s i t i o n i o f e . C l e a r l y ,

    c ( i j ; m ; l ; f ; e ) =

    X

    a

    P r ( a e ; f ) ( i ; a

    j

    ) ( 1 . 2 2 )

    I n a n a l o g y w i t h E q u a t i o n s ( 1 . 1 3 ) a n d ( 1 . 1 4 ) , w e h a v e , f o r a s i n g l e t r a n s l a t i o n ,

    a ( i j ; m ; l ) =

    1

    j m l

    c ( i j ; m ; l ; f ; e ) ; ( 1 . 2 3 )

    a n d , f o r a s e t o f t r a n s l a t i o n s ,

    a ( i j ; m ; l ) =

    1

    j m l

    S

    X

    s = 1

    c ( i j ; m ; l ; f

    ( s )

    ; e

    ( s )

    ) ( 1 . 2 4 )

    N o t i c e t h a t i f f

    ( s )

    d o e s n o t h a v e l e n g t h m o r i f e

    ( s )

    d o e s n o t h a v e l e n g t h l , t h e n t h e c o r r e s p o n d i n g

    c o u n t i s z e r o . A s w i t h t h e ' s i n e a r l i e r e q u a t i o n s , t h e ' s h e r e s e r v e s i m p l y t o r e m i n d u s t h a t

    t h e a l i g n m e n t p r o b a b i l i t i e s m u s t b e n o r m a l i z e d .

    M o d e l 2 s h a r e s w i t h M o d e l 1 t h e i m p o r t a n t p r o p e r t y t h a t t h e s u m s i n E q u a t i o n s ( 1 . 1 2 ) a n d

    ( 1 . 2 2 ) c a n b e o b t a i n e d e c i e n t l y . W e c a n r e w r i t e E q u a t i o n ( 1 . 2 0 ) a s

    P r ( f e ) =

    m

    Y

    j = 1

    l

    X

    i = 0

    t ( f

    j

    e

    i

    ) a ( i j ; m ; l ) ( 1 . 2 5 )

    U s i n g t h i s f o r m f o r P r ( f e ) , w e n d t h a t

    c ( f e ; f ; e ) =

    m

    X

    j = 1

    l

    X

    i = 0

    t ( f e ) a ( i j ; m ; l ) ( f ; f

    j

    ) ( e ; e

    i

    )

    t ( f e

    0

    ) a ( 0 j ; m ; l ) + + t ( f e

    l

    ) a ( l j ; m ; l )

    ; ( 1 . 2 6 )

    a n d

    c ( i j ; m ; l ; f ; e ) =

    t ( f

    j

    e

    i

    ) a ( i j ; m ; l )

    t ( f

    j

    e

    0

    ) a ( 0 j ; m ; l ) + + t ( f

    j

    e

    l

    ) a ( l j ; m ; l )

    ( 1 . 2 7 )

    E q u a t i o n ( 1 . 2 6 ) h a s a d o u b l e s u m r a t h e r t h a n t h e p r o d u c t o f t w o s i n g l e s u m s , a s i n E q u a t i o n

    ( 1 . 1 7 ) , b e c a u s e i n E q u a t i o n ( 1 . 2 6 ) i a n d j a r e t i e d t o g e t h e r t h r o u g h t h e a l i g n m e n t p r o b a b i l i t i e s .

    M o d e l 1 i s t h e s p e c i a l c a s e o f M o d e l 2 i n w h i c h a ( i j ; m ; l ) i s h e l d x e d a t ( l + 1 )

    1

    . T h e r e f o r e ,

    a n y s e t o f p a r a m e t e r s f o r M o d e l 1 c a n b e r e i n t e r p r e t e d a s a s e t o f p a r a m e t e r s f o r M o d e l 2 .

    T a k i n g a s o u r i n i t i a l e s t i m a t e s o f t h e p a r a m e t e r s f o r M o d e l 2 t h e p a r a m e t e r v a l u e s t h a t r e s u l t

    f r o m t r a i n i n g M o d e l 1 i s e q u i v a l e n t t o c o m p u t i n g t h e p r o b a b i l i t i e s o f a l l a l i g n m e n t s a s i f w e w e r e

    d e a l i n g w i t h M o d e l 1 , b u t t h e n c o l l e c t i n g t h e c o u n t s a s i f w e w e r e d e a l i n g w i t h M o d e l 2 . T h e

    i d e a o f c o m p u t i n g t h e p r o b a b i l i t i e s o f t h e a l i g n m e n t s u s i n g o n e m o d e l , b u t c o l l e c t i n g t h e c o u n t s

    i n a w a y a p p r o p r i a t e t o a s e c o n d m o d e l i s v e r y g e n e r a l a n d c a n a l w a y s b e u s e d t o t r a n s f e r a s e t

    o f p a r a m e t e r s f r o m o n e m o d e l t o a n o t h e r .

  • 8/8/2019 The Mathematics of Statistical Machine Translation

    12/47

    1 . 4 . 3 I n t e r m o d e l i n t e r l u d e

    W e c r e a t e d M o d e l s 1 a n d 2 b y m a k i n g v a r i o u s a s s u m p t i o n s t o t h e c o n d i t i o n a l p r o b a b i l i t i e s t h a t

    a p p e a r i n E q u a t i o n ( 1 . 4 ) . A s w e h a v e m e n t i o n e d , E q u a t i o n ( 1 . 4 ) i s a n e x a c t s t a t e m e n t , b u t i t

    i s o n l y o n e o f m a n y w a y s i n w h i c h t h e j o i n t l i k e l i h o o d o f f a n d a c a n b e w r i t t e n a s a p r o d u c t

    o f c o n d i t i o n a l p r o b a b i l i t i e s . E a c h s u c h p r o d u c t c o r r e s p o n d s i n a n a t u r a l w a y t o a g e n e r a t i v e

    p r o c e s s f o r d e v e l o p i n g f a n d a f r o m e . I n t h e p r o c e s s c o r r e s p o n d i n g t o E q u a t i o n ( 1 . 4 ) , w e r s t

    c h o o s e a l e n g t h f o r f . N e x t , w e d e c i d e w h i c h p o s i t i o n i n e i s c o n n e c t e d t o f

    1

    a n d w h a t t h e

    i d e n t i t y o f f

    1

    i s . T h e n , w e d e c i d e w h i c h p o s i t i o n i n e i s c o n n e c t e d t o f

    2

    , a n d s o o n . F o r M o d e l s 3 ,

    4 , a n d 5 , w e w r i t e t h e j o i n t l i k e l i h o o d a s a p r o d u c t o f c o n d i t i o n a l p r o b a b i l i t i e s i n a d i e r e n t w a y .

    C a s u a l i n s p e c t i o n o f s o m e t r a n s l a t i o n s q u i c k l y e s t a b l i s h e s t h a t t h e i s u s u a l l y t r a n s l a t e d i n t o a

    s i n g l e w o r d ( l e , l a , o r l ' ) , b u t i s s o m e t i m e s o m i t t e d ; o r t h a t o n l y i s o f t e n t r a n s l a t e d i n t o o n e w o r d

    ( f o r e x a m p l e , s e u l e m e n t ) , b u t s o m e t i m e s i n t o t w o ( f o r e x a m p l e , n e q u e ) , a n d s o m e t i m e s i n t o

    n o n e . T h e n u m b e r o f F r e n c h w o r d s t o w h i c h e i s c o n n e c t e d i n a r a n d o m l y s e l e c t e d a l i g n m e n t i s a

    r a n d o m v a r i a b l e ,

    e

    , t h a t w e c a l l t h e f e r t i l i t y o f e . E a c h c h o i c e o f t h e p a r a m e t e r s i n M o d e l 1 o r

    M o d e l 2 d e t e r m i n e s a d i s t r i b u t i o n , P r (

    e

    = ) , f o r t h i s r a n d o m v a r i a b l e . B u t t h e r e l a t i o n s h i p i s

    r e m o t e : j u s t w h a t c h a n g e w i l l b e w r o u g h t i n t h e d i s t r i b u t i o n o f

    t h e

    i f , s a y , w e a d j u s t a ( 1 2 ; 8 ; 9 )

    i s n o t i m m e d i a t e l y c l e a r . I n M o d e l s 3 , 4 , a n d 5 , w e p a r a m e t e r i z e f e r t i l i t i e s d i r e c t l y .

    A s a p r o l e g o m e n o n t o a d e t a i l e d d i s c u s s i o n o f M o d e l s 3 , 4 , a n d 5 , w e d e s c r i b e t h e g e n e r a t i v e

    p r o c e s s u p o n w h i c h t h e y a r e b a s e d . G i v e n a n E n g l i s h s t r i n g , e , w e r s t d e c i d e t h e f e r t i l i t y o f

    e a c h w o r d a n d a l i s t o f F r e n c h w o r d s t o c o n n e c t t o i t . W e c a l l t h i s l i s t , w h i c h m a y b e e m p t y , a

    t a b l e t . T h e c o l l e c t i o n o f t a b l e t s i s a r a n d o m v a r i a b l e , T , t h a t w e c a l l t h e t a b l e a u o f e ; t h e t a b l e t

    f o r t h e i

    t h

    E n g l i s h w o r d i s a r a n d o m v a r i a b l e , T

    i

    ; a n d t h e k

    t h

    F r e n c h w o r d i n t h e i

    t h

    t a b l e t i s

    a r a n d o m v a r i a b l e , T

    i k

    . A f t e r c h o o s i n g t h e t a b l e a u , w e p e r m u t e i t s w o r d s t o p r o d u c e f . T h i s

    p e r m u t a t i o n i s a r a n d o m v a r i a b l e , . T h e p o s i t i o n i n f o f t h e k

    t h

    w o r d i n t h e i

    t h

    t a b l e t i s y e t

    a n o t h e r a r a n d o m v a r i a b l e ,

    i k

    T h e j o i n t l i k e l i h o o d f o r a t a b l e a u , , a n d a p e r m u t a t i o n , , i s

    P r ( ; e ) =

    l

    Y

    i = 1

    P r (

    i

    i 1

    1

    ; e ) P r (

    0

    l

    1

    ; e )

    l

    Y

    i = 0

    i

    Y

    k = 1

    P r (

    i k

    k 1

    i 1

    ;

    i 1

    0

    ;

    l

    0

    ; e )

    l

    Y

    i = 1

    i

    Y

    k = 1

    P r (

    i k

    k 1

    i 1

    ;

    i 1

    1

    ;

    l

    0

    ;

    l

    0

    ; e )

    0

    Y

    k = 1

    P r (

    0 k

    k 1

    0 1

    ;

    l

    1

    ;

    l

    0

    ;

    l

    0

    ; e ) ( 1 . 2 8 )

    I n t h i s e q u a t i o n ,

    k 1

    i 1

    r e p r e s e n t s t h e s e r i e s o f v a l u e s

    i 1

    ; : : : ;

    i k 1

    ;

    k 1

    i 1

    r e p r e s e n t s t h e s e r i e s o f

    v a l u e s

    i 1

    ; : : : ;

    i k 1

    ; a n d

    i

    i s a s h o r t h a n d f o r

    e

    i

    K n o w i n g a n d d e t e r m i n e s a F r e n c h s t r i n g a n d a n a l i g n m e n t , b u t i n g e n e r a l s e v e r a l d i e r e n t

    p a i r s ; m a y l e a d t o t h e s a m e p a i r f ; a . W e d e n o t e t h e s e t o f s u c h p a i r s b y h f ; a i . C l e a r l y , t h e n

    P r ( f ; a e ) =

    X

    ( ) 2 h f a

    P r ( ; e ) ( 1 . 2 9 )

    T h e n u m b e r o f e l e m e n t s i n h f ; a i i s

    l

    Y

    i = 0

    i

    ! b e c a u s e f o r e a c h

    i

    t h e r e a r e

    i

    ! a r r a n g e m e n t s t h a t

    l e a d t o t h e p a i r f ; a . F i g u r e 1 . 4 s h o w s t h e t w o t a b l e a u x f o r ( b o n m a r c h e c h e a p ( 1 , 2 ) ) .

  • 8/8/2019 The Mathematics of Statistical Machine Translation

    13/47

    c h e a p

    b o n m a r c h e

    b o n m a r c h e

    e

    1

    f

    1

    f

    2

    !

    !

    !

    !

    a

    a

    a

    a

    c h e a p

    m a r c h e b o n

    m a r c h e b o n

    e

    1

    f

    2

    f

    1

    !

    !

    !

    !

    a

    a

    a

    a

    a

    a

    a

    a

    H

    H

    H

    H

    !

    !

    !

    !

    F i g u r e 1 . 4 : T w o t a b l e a u x f o r o n e a l i g n m e n t .

    E x c e p t f o r d e g e n e r a t e c a s e s , t h e r e i s o n e a l i g n m e n t i n

    A

    ( e ; f ) f o r w h i c h P r ( a e ; f ) i s g r e a t e s t .

    W e c a l l t h i s t h e V i t e r b i a l i g n m e n t f o r ( f e ) a n d d e n o t e i t b y V ( f e ) . W e k n o w o f n o p r a c t i c a l

    a l g o r i t h m f o r n d i n g V ( f e ) f o r a g e n e r a l m o d e l . I n d e e d , i f s o m e o n e w e r e t o c l a i m t h a t h e

    h a d f o u n d V ( f e ) , w e k n o w o f n o p r a c t i c a l a l g o r i t h m f o r d e m o n s t r a t i n g t h a t h e i s c o r r e c t .

    B u t f o r M o d e l 2 ( a n d , t h u s , a l s o f o r M o d e l 1 ) , n d i n g V ( f e ) i s s t r a i g h t f o r w a r d . F o r e a c h j ,

    w e s i m p l y c h o o s e a

    j

    s o a s t o m a k e t h e p r o d u c t t ( f

    j

    e

    a

    j

    ) a ( a

    j

    j ; m ; l ) a s l a r g e a s p o s s i b l e . T h e

    V i t e r b i a l i g n m e n t d e p e n d s o n t h e m o d e l w i t h r e s p e c t t o w h i c h i t i s c o m p u t e d . W h e n w e n e e d

    t o d i s t i n g u i s h b e t w e e n t h e V i t e r b i a l i g n m e n t s f o r d i e r e n t m o d e l s , w e w r i t e V ( f e ; 1 ) , V ( f e ; 2 ) ,

    a n d s o o n .

    W e d e n o t e b y

    A

    i j

    ( e ; f ) t h e s e t o f a l i g n m e n t s f o r w h i c h a

    j

    = i . W e s a y t h a t i j i s p e g g e d

    i n t h e s e a l i g n m e n t s . B y t h e p e g g e d V i t e r b i a l i g n m e n t f o r i j , w h i c h w e w r i t e V

    i j

    ( f e ) , w e m e a n

    t h a t e l e m e n t o f

    A

    i j

    ( e ; f ) f o r w h i c h P r ( a e ; f ) i s g r e a t e s t . O b v i o u s l y , w e c a n n d V

    i j

    ( f e ; 1 )

    a n d V

    i j

    ( f e ; 2 ) q u i c k l y w i t h a s t r a i g h t f o r w a r d m o d i c a t i o n o f t h e a l g o r i t h m d e s c r i b e d a b o v e

    f o r n d i n g V ( f e ; 1 ) a n d V ( f e ; 2 )

    1 . 4 . 4 M o d e l 3

    M o d e l 3 i s b a s e d o n E q u a t i o n ( 1 . 2 8 ) . E a r l i e r , w e w e r e u n a b l e t o t r e a t e a c h o f t h e c o n d i t i o n a l

    p r o b a b i l i t i e s o n t h e r i g h t - h a n d s i d e o f E q u a t i o n ( 1 . 4 ) a s a s e p a r a t e p a r a m e t e r . W i t h E q u a -

    t i o n ( 1 . 2 8 ) w e a r e n o b e t t e r o a n d m u s t a g a i n m a k e a s s u m p t i o n s t o r e d u c e t h e n u m b e r o f

    i n d e p e n d e n t p a r a m e t e r s . T h e r e a r e m a n y d i e r e n t s e t s o f a s s u m p t i o n s t h a t w e m i g h t m a k e ,

    e a c h l e a d i n g t o a d i e r e n t m o d e l f o r t h e t r a n s l a t i o n p r o c e s s . I n M o d e l 3 , w e a s s u m e t h a t , f o r i

    b e t w e e n 1 a n d l , P r (

    i

    i 1

    1

    ; e ) d e p e n d s o n l y o n

    i

    a n d e

    i

    ; t h a t , f o r a l l i , P r (

    i k

    k 1

    i 1

    ;

    i 1

    0

    ;

    l

    0

    ; e )

    d e p e n d s o n l y o n

    i k

    a n d e

    i

    ; a n d t h a t , f o r i b e t w e e n 1 a n d l , P r (

    i k

    k 1

    i 1

    ;

    i 1

    1

    ;

    l

    0

    ;

    l

    0

    ; e ) d e p e n d s

    o n l y o n

    i k

    , i , m , a n d l . T h e p a r a m e t e r s o f M o d e l 3 a r e t h u s a s e t o f f e r t i l i t y p r o b a b i l i t i e s ,

    n ( e

    i

    ) P r (

    i 1

    1

    ; e ) ; a s e t o f t r a n s l a t i o n p r o b a b i l i t i e s , t ( f e

    i

    ) P r ( T

    i k

    = f

    k 1

    i 1

    ;

    i 1

    0

    ;

    l

    0

    ; e ) ;

    a n d a s e t o f d i s t o r t i o n p r o b a b i l i t i e s , d ( j i ; m ; l ) P r (

    i k

    = j

    k 1

    i 1

    ;

    i 1

    1

    ;

    l

    0

    ;

    l

    0

    ; e )

    W e t r e a t t h e d i s t o r t i o n a n d f e r t i l i t y p r o b a b i l i t i e s f o r e

    0

    d i e r e n t l y . T h e e m p t y c e p t c o n v e n -

    t i o n a l l y o c c u p i e s p o s i t i o n 0 , b u t a c t u a l l y h a s n o p o s i t i o n . I t s p u r p o s e i s t o a c c o u n t f o r t h o s e

    w o r d s i n t h e F r e n c h s t r i n g t h a t c a n n o t r e a d i l y b e a c c o u n t e d f o r b y o t h e r c e p t s i n t h e E n g l i s h

    s t r i n g . B e c a u s e w e e x p e c t t h e s e w o r d s t o b e s p r e a d u n i f o r m l y t h r o u g h o u t t h e F r e n c h s t r i n g ,

    a n d b e c a u s e t h e y a r e p l a c e d o n l y a f t e r a l l o f t h e o t h e r w o r d s i n t h e s t r i n g h a v e b e e n p l a c e d , w e

    a s s u m e t h a t P r (

    0 k + 1

    = j

    k

    0 1

    ;

    l

    1

    ;

    l

    0

    ;

    l

    0

    ; e ) e q u a l s 0 u n l e s s p o s i t i o n j i s v a c a n t i n w h i c h c a s e i t

    e q u a l s (

    0

    ? k )

    1

    . T h e r e f o r e , t h e c o n t r i b u t i o n o f t h e d i s t o r t i o n p r o b a b i l i t i e s f o r a l l o f t h e w o r d s

    i n

    0

    i s 1 =

    0

    !

    W e e x p e c t

    0

    t o d e p e n d o n t h e l e n g t h o f t h e F r e n c h s t r i n g b e c a u s e l o n g e r s t r i n g s s h o u l d

  • 8/8/2019 The Mathematics of Statistical Machine Translation

    14/47

    h a v e m o r e e x t r a n e o u s w o r d s . T h e r e f o r e , w e a s s u m e t h a t

    P r (

    0

    l

    1

    ; e ) =

    1

    + +

    l

    0

    !

    p

    1

    + +

    0

    0

    p

    0

    1

    ( 1 . 3 0 )

    f o r s o m e p a i r o f a u x i l i a r y p a r a m e t e r s p

    0

    a n d p

    1

    . T h e e x p r e s s i o n o n t h e l e f t - h a n d s i d e o f t h i s

    e q u a t i o n d e p e n d s o n

    l

    1

    o n l y t h r o u g h t h e s u m

    1

    + +

    l

    a n d d e n e s a p r o b a b i l i t y d i s t r i b u t i o n

    o v e r

    0

    w h e n e v e r p

    0

    a n d p

    1

    a r e n o n n e g a t i v e a n d s u m t o 1 . W e c a n i n t e r p r e t P r (

    0

    l

    1

    ; e ) a s

    f o l l o w s . W e i m a g i n e t h a t e a c h o f t h e w o r d s f r o m

    l

    1

    r e q u i r e s a n e x t r a n e o u s w o r d w i t h p r o b a b i l i t y

    p

    1

    a n d t h a t t h i s e x t r a n e o u s w o r d m u s t b e c o n n e c t e d t o t h e e m p t y c e p t . T h e p r o b a b i l i t y t h a t

    e x a c t l y

    0

    o f t h e w o r d s f r o m

    l

    1

    w i l l r e q u i r e a n e x t r a n e o u s w o r d i s j u s t t h e e x p r e s s i o n g i v e n i n

    E q u a t i o n ( 1 . 3 0 ) .

    A s w i t h M o d e l s 1 a n d 2 , a n a l i g n m e n t o f ( f e ) i s d e t e r m i n e d b y s p e c i f y i n g a

    j

    f o r e a c h p o s i t i o n

    i n t h e F r e n c h s t r i n g . T h e f e r t i l i t i e s ,

    0

    t h r o u g h

    l

    , a r e f u n c t i o n s o f t h e a

    j

    ' s :

    i

    i s e q u a l t o t h e

    n u m b e r o f j ' s f o r w h i c h a

    j

    e q u a l s i . T h e r e f o r e ,

    P r ( f e ) =

    l

    X

    a

    1

    = 0

    l

    X

    a

    m

    = 0

    P r ( f ; a e )

    =

    l

    X

    a

    1

    = 0

    l

    X

    a

    m

    = 0

    m ?

    0

    0

    !

    p

    m 2

    0

    0

    p

    0

    1

    l

    Y

    i = 1

    i

    ! n (

    i

    e

    i

    )

    m

    Y

    j = 1

    t ( f

    j

    e

    a

    j

    ) d ( j a

    j

    ; m ; l ) ( 1 . 3 1 )

    w i t h

    P

    f

    t ( f e ) = 1 ,

    P

    j

    d ( j i ; m ; l ) = 1 ,

    P

    n ( e ) = 1 , a n d p

    0

    + p

    1

    = 1 . T h e a s s u m p t i o n s t h a t w e

    m a k e f o r M o d e l 3 a r e s u c h t h a t e a c h o f t h e p a i r s ( ; ) i n h f ; a i m a k e s a n i d e n t i c a l c o n t r i b u t i o n

    t o t h e s u m i n E q u a t i o n ( 1 . 2 9 ) . T h e f a c t o r i a l s i n E q u a t i o n ( 1 . 3 1 ) c o m e f r o m c a r r y i n g o u t t h i s

    s u m e x p l i c i t l y . T h e r e i s n o f a c t o r i a l f o r t h e e m p t y c e p t b e c a u s e i t i s e x a c t l y c a n c e l l e d b y t h e

    c o n t r i b u t i o n f r o m t h e d i s t o r t i o n p r o b a b i l i t i e s .

    B y n o w , t h e r e a d e r w i l l b e a b l e t o p r o v i d e h i s o w n a u x i l i a r y f u n c t i o n f o r s e e k i n g a c o n s t r a i n e d

    m i n i m u m o f t h e l i k e l i h o o d o f a t r a n s l a t i o n w i t h M o d e l 3 , b u t f o r c o m p l e t e n e s s a n d t o e s t a b l i s h

    n o t a t i o n , w e w r i t e

    h ( t ; d ; n ; p ; ; ; ; ) = P r ( f e ) ?

    X

    e

    e

    (

    f

    t ( f e ) ? 1 ) ?

    X

    i

    i m l

    (

    j

    d ( j i ; m ; l ) ? 1 )

    ?

    X

    e

    e

    (

    n ( e ) ? 1 ) ? ( p

    0

    + p

    1

    ? 1 ) ( 1 . 3 2 )

    F o l l o w i n g t h e t r a i l b l a z e d w i t h M o d e l s 1 a n d 2 , w e d e n e t h e c o u n t s

    c ( f e ; f ; e ) =

    X

    a

    P r ( a e ; f )

    m

    X

    j = 1

    ( f ; f

    j

    ) ( e ; e

    a

    j

    ) ; ( 1 . 3 3 )

    c ( j i ; m ; l ; f ; e ) =

    X

    a

    P r ( a e ; f ) ( i ; a

    j

    ) ; ( 1 . 3 4 )

    c ( e ; f ; e ) =

    X

    a

    P r ( a e ; f )

    l

    X

    i = 1

    ( ;

    i

    ) ( e ; e

    i

    ) ; ( 1 . 3 5 )

    c ( 0 ; f ; e ) =

    X

    a

    P r ( a e ; f ) ( m ? 2

    0

    )

  • 8/8/2019 The Mathematics of Statistical Machine Translation

    15/47

    a n d

    c ( 1 ; f ; e ) =

    X

    a

    P r ( a e ; f )

    0

    ( 1 . 3 7 )

    T h e c o u n t s i n t h e s e l a s t t w o e q u a t i o n s c o r r e s p o n d t o t h e p a r a m e t e r s p

    0

    a n d p

    1

    t h a t d e t e r m i n e

    t h e f e r t i l i t y o f t h e e m p t y c e p t i n t h e E n g l i s h s t r i n g . T h e r e e s t i m a t i o n f o r m u l a e f o r M o d e l 3 a r e

    t ( f e ) =

    1

    e

    S

    X

    s = 1

    c ( f e ; f

    ( s )

    ; e

    ( s )

    ) ; ( 1 . 3 8 )

    d ( j i ; m ; l ) =

    1

    i m l

    S

    X

    s = 1

    c ( j i ; m ; l ; f

    ( s )

    ; e

    ( s )

    ) ; ( 1 . 3 9 )

    n ( e ) =

    1

    e

    S

    X

    s = 1

    c ( e ; f

    ( s )

    ; e

    ( s )

    ) ; ( 1 . 4 0 )

    a n d

    p

    k

    =

    1

    S

    X

    s = 1

    c ( k ; f

    ( s )

    ; e

    ( s )

    ) ( 1 . 4 1 )

    E q u a t i o n s ( 1 . 3 3 ) a n d ( 1 . 3 8 ) a r e i d e n t i c a l t o E q u a t i o n s ( 1 . 1 2 ) a n d ( 1 . 1 4 ) a n d a r e r e p e a t e d h e r e

    o n l y f o r c o n v e n i e n c e . E q u a t i o n s ( 1 . 3 4 ) a n d ( 1 . 3 9 ) a r e s i m i l a r t o E q u a t i o n s ( 1 . 2 2 ) a n d ( 1 . 2 4 ) ,

    b u t a ( i j ; m ; l ) d i e r s f r o m d ( j i ; m ; l ) i n t h a t t h e f o r m e r s u m s t o u n i t y o v e r a l l i f o r x e d j

    w h i l e t h e l a t t e r s u m s t o u n i t y o v e r a l l j f o r x e d i . E q u a t i o n s ( 1 . 3 5 ) , ( 1 . 3 6 ) , ( 1 . 3 7 ) , ( 1 . 4 0 ) , a n d

    ( 1 . 4 1 ) , f o r t h e f e r t i l i t y p a r a m e t e r s , a r e n e w .

    T h e t r i c k t h a t a l l o w s u s t o e v a l u a t e t h e r i g h t - h a n d s i d e s o f E q u a t i o n s ( 1 . 1 2 ) a n d ( 1 . 2 2 )

    e c i e n t l y f o r M o d e l 2 d o e s n o t w o r k f o r M o d e l 3 . B e c a u s e o f t h e f e r t i l i t y p a r a m e t e r s , w e c a n n o t

    e x c h a n g e t h e s u m s o v e r a

    1

    t h r o u g h a

    m

    w i t h t h e p r o d u c t o v e r j i n E q u a t i o n ( 1 . 3 1 ) a s w e w e r e a b l e

    t o f o r E q u a t i o n s ( 1 . 6 ) a n d ( 1 . 2 0 ) . W e a r e n o t , h o w e v e r , e n t i r e l y b e r e f t o f h o p e . T h e a l i g n m e n t

    i s a u s e f u l d e v i c e p r e c i s e l y b e c a u s e s o m e a l i g n m e n t s a r e m u c h m o r e p r o b a b l e t h a n o t h e r s . O u r

    s t r a t e g y i s t o c a r r y o u t t h e s u m s i n E q u a t i o n s ( 1 . 3 1 ) a n d ( 1 . 3 3 ) t h r o u g h ( 1 . 3 7 ) o n l y o v e r s o m e

    o f t h e m o r e p r o b a b l e a l i g n m e n t s , i g n o r i n g t h e v a s t s e a o f m u c h l e s s p r o b a b l e o n e s . S p e c i c a l l y ,

    w e b e g i n w i t h t h e m o s t p r o b a b l e a l i g n m e n t t h a t w e c a n n d a n d t h e n i n c l u d e a l l a l i g n m e n t s

    t h a t c a n b e o b t a i n e d f r o m i t b y s m a l l c h a n g e s .

    T o d e n e u n a m b i g u o u s l y t h e s u b s e t , S , o f t h e e l e m e n t s o f

    A

    ( f e ) o v e r w h i c h w e e v a l u a t e t h e

    s u m s , w e n e e d y e t m o r e t e r m i n o l o g y . W e s a y t h a t t w o a l i g n m e n t s , a a n d a , d i e r b y a m o v e i f

    t h e r e i s e x a c t l y o n e v a l u e o f j f o r w h i c h a

    j

    6= a

    j

    . W e s a y t h a t t h e y d i e r b y a s w a p i f a

    j

    = a

    j

    e x c e p t a t t w o v a l u e s , j

    1

    a n d j

    2

    , f o r w h i c h a

    j

    1

    = a

    j

    2

    a n d a

    j

    2

    = a

    j

    1

    . W e s a y t h a t t w o a l i g n m e n t s

    a r e n e i g h b o r s i f t h e y a r e i d e n t i c a l o r d i e r b y a m o v e o r b y a s w a p . W e d e n o t e t h e s e t o f a l l

    n e i g h b o r s o f a b y N ( a )

    L e t b ( a ) b e t h a t n e i g h b o r o f a f o r w h i c h t h e l i k e l i h o o d P r ( b ( a ) f ; e ) i s g r e a t e s t . S u p p o s e t h a t

    i j i s p e g g e d f o r a . A m o n g t h e n e i g h b o r s o f a f o r w h i c h i j i s a l s o p e g g e d , l e t b

    i j

    ( a ) b e t h a t

    f o r w h i c h t h e l i k e l i h o o d i s g r e a t e s t . T h e s e q u e n c e o f a l i g n m e n t s a , b ( a ) , b

    2

    ( a ) b ( b ( a ) ) , ,

    c o n v e r g e s i n a n i t e n u m b e r o f s t e p s t o a n a l i g n m e n t t h a t w e w r i t e a s b

    1

    ( a ) . S i m i l a r l y , i f i j i s

    p e g g e d f o r a , t h e s e q u e n c e o f a l i g n m e n t s a , b

    i j

    ( a ) , b

    2

    i j

    ( a ) , , c o n v e r g e s i n a n i t e n u m b e r o f

    s t e p s t o a n a l i g n m e n t t h a t w e w r i t e a s b

    1

    i j

    ( a ) . T h e s i m p l e f o r m o f t h e d i s t o r t i o n p r o b a b i l i t i e s

    i n M o d e l 3 m a k e s i t e a s y t o n d b ( a ) a n d b

    i j

    ( a ) . I f a i s a n e i g h b o r o f a o b t a i n e d f r o m i t b y

    t h e m o v e o f j f r o m i t o i , a n d i f n e i t h e r i n o r i i s 0 , t h e n

    P r ( a e ; f ) = P r ( a e ; f )

    (

    i

    + 1 )

    i

    n (

    i

    + 1 e

    i

    )

    n (

    i

    e

    i

    )

    n (

    i

    ? 1 e

    i

    )

    n (

    i

    e

    i

    )

    t ( f

    j

    e

    i

    )

    t ( f

    j

    e

    i

    )

    d ( j i ; m ; l )

    d ( j i ; m ; l )

    ( 1 . 4 2 )

  • 8/8/2019 The Mathematics of Statistical Machine Translation

    16/47

    N o t i c e t h a t

    i

    i s t h e f e r t i l i t y o f t h e w o r d i n p o s i t i o n i f o r a l i g n m e n t a . T h e f e r t i l i t y o f t h i s

    w o r d i n a l i g n m e n t a i s

    i

    + 1 . S i m i l a r e q u a t i o n s c a n b e e a s i l y d e r i v e d w h e n e i t h e r i o r i i s

    z e r o , o r w h e n a a n d a d i e r b y a s w a p . W e l e a v e t h e d e t a i l s t o t h e r e a d e r .

    W i t h t h e s e p r e l i m i n a r i e s , w e d e n e S b y

    S = N ( b

    1

    ( V ( f e ; 2 ) ) )

    i j

    N ( b

    1

    i j

    ( V

    i j

    ( f e ; 2 ) ) ) ( 1 . 4 3 )

    I n t h i s e q u a t i o n , w e u s e b

    1

    ( V ( f e ; 2 ) ) a n d b

    1

    i j

    ( V

    i j

    ( f e ; 2 ) ) a s h a n d y a p p r o x i m a t i o n s t o V ( f e ; 3 )

    a n d V

    i j

    ( f e ; 3 ) n e i t h e r o f w h i c h w e a r e a b l e t o c o m p u t e e c i e n t l y .

    I n o n e i t e r a t i o n o f t h e E M a l g o r i t h m f o r M o d e l 3 , w e c o m p u t e t h e c o u n t s i n E q u a t i o n s ( 1 . 3 3 )

    t h r o u g h ( 1 . 3 7 ) , s u m m i n g o n l y o v e r e l e m e n t s o f S , a n d t h e n u s e t h e s e c o u n t s i n E q u a t i o n s ( 1 . 3 8 )

    t h r o u g h ( 1 . 4 1 ) t o o b t a i n a n e w s e t o f p a r a m e t e r s . I f t h e e r r o r m a d e b y i n c l u d i n g o n l y s o m e o f

    t h e e l e m e n t s o f

    A

    ( e ; f ) i s n o t t o o g r e a t , t h i s i t e r a t i o n w i l l l e a d t o v a l u e s o f t h e p a r a m e t e r s f o r

    w h i c h t h e l i k e l i h o o d o f t h e t r a i n i n g d a t a i s a t l e a s t a s l a r g e a s f o r t h e r s t s e t o f p a r a m e t e r s .

    W e m a k e n o i n i t i a l g u e s s o f t h e p a r a m e t e r s f o r M o d e l 3 , b u t i n s t e a d a d a p t t h e p a r a m e t e r s

    f r o m t h e n a l i t e r a t i o n o f t h e E M a l g o r i t h m f o r M o d e l 2 . T h a t i s , w e c o m p u t e t h e c o u n t s

    i n E q u a t i o n s ( 1 . 3 3 ) t h r o u g h ( 1 . 3 7 ) u s i n g M o d e l 2 t o e v a l u a t e P r ( a e ; f ) . T h e s i m p l e f o r m o f

    M o d e l 2 a g a i n m a k e s e x a c t c a l c u l a t i o n f e a s i b l e . W e c a n r e a d i l y a d a p t E q u a t i o n s ( 1 . 2 6 ) a n d

    ( 1 . 2 7 ) t o c o m p u t e c o u n t s f o r t h e t r a n s l a t i o n a n d d i s t o r t i o n p r