A Syntax-Driven Bracketing Model for Phrase-Based Translation Deyi Xiong ACL 2009 Speaker: slacker
Dec 30, 2015
A Syntax-Driven Bracketing Model for Phrase-Based TranslationDeyi Xiong
ACL 2009
Speaker: slacker
研究动机 解决方法 实验 总结
研究动机 解决方法 实验 总结
研究动机
短语模型存在的问题:1. 没有充分地利用句法信息2. 没有充分到考虑到翻译过程中存在短语黏合
的现象
利用句法信息 1. 硬限制:只允许完全符合句法树的翻译和调 序,降低了翻译性能。 Koehn et.al 20032. 软限制:对不符合句法树的翻译和调序进行计
数惩罚。在一定程度上提高翻译性能。 Chiang 2005 Marton and Resnik 2008 Cherry 2008
短语黏合性 Fox 2002
Cherry 2008
如果源短语在翻译后仍然保持连续,那么该源短语是可括号化的( bracketable ),否则称之为不可括号化的( unbracketable )。
例子
中国 的 经济 和 教育
economy and education in China
例子
中国 的 经济 和 教育
economy and education in China
在翻译过程中,翻译可括号化的短语比翻译不可括号化的短语将更为合理。
例子 中国 的 经济 和 教育
economy in China and education
研究动机 解决方法 实验 总结
解决方法
句法驱动括号模型( syntax-driven bracketing , SDB )。
1. 从训练语料库中自动学习模型,能够融入了更多的句法信息
2. 在给定的上下文句法信息中,能够更好地衡量短语是否具有黏合性。
包括 Unary SDB + Binary SDB
UnSDB :预测独立短语是否可括号化 BiSDB : 预测相邻短语是否可括号化
采用最大墒的对 SDB 建模,融入丰富的句法特征
实例抽取① 从对齐语料库中抽取二元括号实例
取定源端相邻的两个短语,如果它们在目标端也相邻,或者中间词对空,那么这就是二元可括号化实例,反之就是不可括号化实例。
② 从二元括号实例中得到一元括号实例
模型具体特征1. 规则特征( Rule Features )2. 路径特征( Path Features )3. 组块边界匹配特征( Constituent Boundary
Matching Features )
IP
NP
NN
VP
ADVP
AD
VP
VV AS
NP
NN NN
警方 已经 封锁 了 爆炸 现场
S1 S2
S
IP
NP
NN
VP
ADVP
AD
VP
VV AS
NP
NN NN
警方 已经 封锁 了 爆炸 现场
S1 S2
S
IP
NP
NN
VP
ADVP
AD
VP
VV AS
NP
NN NN
警方 已经 封锁 了 爆炸 现场
S1 S2
S
ADVP-M
VP-I
VP-RC
研究动机 解决方法 实验 总结
实验
设置1. 解码器: Bruin ( BTG ) + XP+
UniSDB / BiSDB
1. 语料: FBIS ( 24w-15250 )2. 对齐: grow-diag-final
3. 语言模型: giga xinhua 4 元4. 评价指标:大小写敏感 bleu-4
结果
研究动机 解决方法 实验 总结
总结
SDB 模型简单而且有效 简单就是美!
SDB 可以适用于其它模型,例如,层次短语模型
Thank you !