引入基于主题复述知识的统计机器翻译模型被引量：1

Improved statistical machine translation model with topic-based paraphrase

下载PDF

导出

摘要针对传统的基于双语平行语料的复述获取方法在复述获取和应用的过程中忽视文档上下文的缺点,引入基于主题模型的上下文信息来改善复述获取—主要致力于如何计算上下文无关的复述生成概率和上下文相关的复述生成概率.研究如何将上述2种概率融入统计机器翻译建模,以提高翻译系统的性能.多个测试集上的实验结果证明了该方法的有效性. Abstract. To deal with the defect of the conventional parallel corpus based paraphrase extraction method which neglects document-level context, the paraphrase extraction and its application in statistical machine translation were improved by introducing the context based on topic model. The problem that how to better learn two kinds of paraphrase probabilities, topic-insensitive and topic-sensitive ones, was mainly analyzed. Both of the two probabilities can be incorporated into the modeling of statistical machine translation by using different methods. The experimental results on various test sets demonstrated the effectiveness of the approach.

作者苏劲松董槐林陈毅东史晓东吴清强

机构地区厦门大学软件学院厦门大学智能学科系

出处《浙江大学学报（工学版）》 EI CAS CSCD 北大核心 2014年第10期1843-1849,共7页 Journal of Zhejiang University：Engineering Science

基金国家"十二五"科技支撑计划资助项目(2012BAH14F03) 国家自然科学基金资助项目(61005052 61303082) 高等学校博士学科点专项科研基金资助项目(2012012120046) 福建省自然科学基金资助项目(2011J01360) 厦门市科技计划资助项目(3502Z20103001) 深圳市高性能数据挖掘重点实验室资助项目(CXB201005250021A)

关键词统计机器翻译复述主题模型 statistical machine translation paraphrase topic model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献28

1KOEHN P, OCH F J, MARCU D. Statistical phrase- based translation[C]// Proceedings of HLT-NAACL. Edmonton, Canada: ACL, 2003: 48- 54.
2CHIANG D. Hierarchical phrase-based translation [J]. Computational Linguistics, 2007, 33(2): 201-288.
3GALLEY M, GRAEHL J, KNIGHT K, et al. Sealable inference and training of context-rich syntactic transla- tion models [C] // Proceedings of ACL. Sydney: ACL, 2006:961 - 968.
4LIU Yang, LIU Qun, LIN Shou-xun. 2006. Tree-to- string alignment template for statistical machine transla- tion [C] // Proceedings of ACL. Sydney: ACL, 2006: 609 - 616.
5WU De-kai. Stochastic inversion transduction grammars and bilingual parsing of parallel corpora[J]. Computa- tional Linguistics, 1997, 23(3): 377- 404.
6XIONG De-yi, LIU Qun, LIN Shou-xun. Maximum entro- py based on phrase reordering model for statistical machine translation [-C] // Proceedings of ACL. Sydney: ACL, 2006:521 - 528.
7刘群,王海峰,王惠临,等.机器翻译技术的进展与展望[EB/OL].2011-12-04.http:∥nlp.1et.ac.cn/li-uqun/index_zh.htm.
8MITAMURA T, NYBERG E. Automatic rewriting for controlled language translation [C]//Proceedings of NL- PRS. Tokyo: ACL, 2001: 1 - 12.
9YAMAMOTO K. Machine translation by interaction be- tween paraphraser and transfer[C]//Proeeedings of COLING. Taipei: ACM, 2002: 1107-1113.
10ZHANG Y J, YAMAMOTO K. Paraphrasing of Chinese utterances [C] // Proceedings of COLING. Taipei : ACM, 2002: 1163- 1169.

二级参考文献1

1刘挺,李维刚,张宇,李生.复述技术研究综述[J].中文信息学报,2006,20(4):25-32. 被引量：13

共引文献13

1马天欢.语用视角下复述句生成方式的类型考察[J].中文信息学报,2021,35(10):32-38.
2段利国,陈俊杰.限定语义距离的关键词同义扩展及精简[J].计算机工程与应用,2011,47(23):13-16. 被引量：2
3胡金铭,史晓东,苏劲松,陈毅东.引入复述技术的统计机器翻译研究综述[J].智能系统学报,2013,8(3):199-207. 被引量：6
4苏晨,张玉洁,郭振,徐金安.使用源语言复述知识改善统计机器翻译性能[J].北京大学学报（自然科学版）,2015,51(2):342-348. 被引量：4
5翁贞,李茂西,王明文.利用Markov网络抽取复述增强机器译文自动评价方法[J].中文信息学报,2015,29(5):136-142. 被引量：1
6张俊驰,胡婕,刘梦赤.基于复述的中文自然语言接口[J].计算机应用,2016,36(5):1290-1295. 被引量：1
7张丽林,李茂西,肖文艳,万剑怡,王明文.机器翻译自动评价中领域知识复述抽取研究[J].北京大学学报（自然科学版）,2017,53(2):230-238. 被引量：8
8刘明童,张玉洁,徐金安,陈钰枫.开放域上基于深度语义计算的复述模板获取方法[J].中文信息学报,2018,32(2):94-101. 被引量：4
9柔特,才让加,孙茂松.基于语序变换的藏文复述句生成方法[J].计算机工程,2018,44(4):231-235. 被引量：2
10刘明童,张玉洁,徐金安,陈钰枫.基于句法结构的神经网络复述识别模型[J].北京大学学报（自然科学版）,2020,56(1):45-52. 被引量：3

同被引文献15

1刘洋,刘群,林守勋.机器翻译评测中的模糊匹配[J].中文信息学报,2005,19(3):45-53. 被引量：8
2徐琳,赵铁军.国家自然科学基金在自然语言处理领域近年来资助的已结题项目综述[J].软件学报,2005,16(10):1853-1858. 被引量：7
3刘群.机器翻译研究新进展[J].当代语言学,2009,11(2):147-158. 被引量：42
4李茂西,宗成庆.机器翻译系统融合技术综述[J].中文信息学报,2010,24(4):74-84. 被引量：16
5刘群.基于句法的统计机器翻译模型与方法[J].中文信息学报,2011,25(6):63-71. 被引量：16
6洪宇,康杨杨,姚建民,朱巧明,周国栋.一种新型最优检索结果的发现与论证[J].计算机学报,2013,36(3):643-653. 被引量：2
7张家俊,翟飞飞,宗成庆.A Substitution-Translation-Restoration Framework for Handling Unknown Words in Statistical Machine Translation[J].Journal of Computer Science & Technology,2013,28(5):907-918. 被引量：2
8王超超,熊德意,张民.基于双语合成语义的翻译相似度模型[J].北京大学学报（自然科学版）,2015,51(2):335-341. 被引量：3
9李业刚,黄河燕,史树敏,冯冲,苏超.多策略机器翻译研究综述[J].中文信息学报,2015,29(2):1-9. 被引量：21
10李鹏,刘洋,孙茂松.层次短语翻译的神经网络调序模型[J].清华大学学报（自然科学版）,2014,54(12):1529-1533. 被引量：2

引证文献1

1刘伍颖,张兴.基于自然句法标记的日汉机器翻译架构[J].山西大学学报（自然科学版）,2018,41(1):61-69. 被引量：1

二级引证文献1

1陈敏.基于句法的神经机器英语翻译研究[J].电子设计工程,2021,29(10):24-27. 被引量：3

1赵世奇,刘挺,李生.复述技术研究[J].软件学报,2009,20(8):2124-2137. 被引量：14
2潘准洋,刘彩霞,刘树新.基于蚁群算法的Diameter协议测试消息生成方法[J].小型微型计算机系统,2015,36(5):981-985.
3张霄军,陈小荷.双语平行语料的预处理[J].外语教育,2007(1):145-149. 被引量：1
4李维刚,刘挺,李生.基于双语语料库的短语复述实例获取研究[J].中文信息学报,2007,21(5):112-117. 被引量：5
5熊能,曾凡平,邓超强,武飞,董齐兴.变概率的随机测试[J].小型微型计算机系统,2014,35(2):319-323.
6曹杰,吕雅娟,苏劲松,刘群.利用上下文信息的统计机器翻译领域自适应[J].中文信息学报,2010,24(6):50-56. 被引量：4
7郭红建.基于语义计算的聚类算法[J].电脑知识与技术,2014,0(11):7432-7433.
8刘汇丹,诺明花,马龙龙,吴健,贺也平.Web藏文文本资源挖掘与利用研究[J].中文信息学报,2015,29(1):170-177. 被引量：6
9宋晓宇,刘云鹏,王永会.一种基于PBIL算法的快速图像匹配方法[J].计算机应用,2005,25(7):1651-1653. 被引量：1
10李领治,郑洪源,丁秋林.一种基于改进蚁群算法的选播路由算法[J].电子与信息学报,2007,29(2):340-344. 被引量：17

浙江大学学报（工学版）

2014年第10期

浏览历史

内容加载中请稍等...

引入基于主题复述知识的统计机器翻译模型被引量：1

参考文献28

二级参考文献1

共引文献13

同被引文献15

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

引入基于主题复述知识的统计机器翻译模型 被引量：1

参考文献28

二级参考文献1

共引文献13

同被引文献15

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

引入基于主题复述知识的统计机器翻译模型被引量：1