基于神经网络特征的句子级别译文质量估计被引量：14

Sentence-Level Machine Translation Quality Estimation Based on Neural Network Features

下载PDF

导出

摘要机器翻译质量估计是自然语言处理中的一个重要任务,与传统的机器翻译自动评价方法不同,译文质量估计方法评估机器译文的质量不使用人工参考译文.针对目前句子级别机器译文质量估计特征提取严重依赖语言学分析导致泛化能力不足,并且制约着后续支持向量回归算法的性能,提出了利用深度学习中上下文单词预测模型和矩阵分解模型提取句子向量特征,并将其与递归神经网络语言模型特征相结合来提高译文质量自动估计与人工评价的相关性.在WMT15和WMT16译文质量估计子任务数据集上的实验结果表明:利用上下文单词预测模型提取句子向量特征的方法性能统计一致地优于传统的QuEst方法和连续空间语言模型句子向量特征提取方法,这揭示了提出的特征提取方法不仅不需要语言学分析,而且显著地提高了译文质量估计的效果. Machine translation quality estimation is an important task in natural language processing.Unlike the traditional automatic evaluation of machine translation,the quality estimation evaluates the quality of machine translation without human reference.Nowadays,the feature extraction approaches of sentence-level quality estimation depend heavily on linguistic analysis,which leads to the lack of generalization ability and restricts the system performance of the subsequent support vector regression algorithm.In order to solve this problem,we extract sentence embedding features using context-based word prediction model and matrix decomposition model in deep learning,and enrich the features with recurrent neural network language model feature to further improve the correlation between the automatic quality estimation approach and human judgments.The experimental results on the datasets of WMT＇15 and WMT＇16 machine translation quality estimation subtasks show that the system performance of extracting the sentence embedding features by the context-based word prediction model is better than the traditional QuEst method and the approach that extracts sentence embedding features by the continuous space language model,which reveals that the proposed feature extraction approach can significantly improve the system performance of machine translation quality estimation without linguistic analysis.

作者陈志明李茂西王明文

机构地区江西师范大学计算机信息工程学院

出处《计算机研究与发展》 EI CSCD 北大核心 2017年第8期1804-1812,共9页 Journal of Computer Research and Development

基金国家自然科学基金项目(61462044 61662031 61462045)~~

关键词机器翻译质量估计句子级别词向量递归神经网络语言模型支持向量回归 machine translation quality estimation sentence-level word embedding recurrent neural network language model support vector regression

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1尹宝生,苗雪雷,季铎,蔡东风,张桂平.大规模无参考译文质量自动评测技术的研究[J].沈阳航空航天大学学报,2012,29(1):70-74. 被引量：3
2刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):247-261. 被引量：259

二级参考文献90

1Kishore Papieni,SalimRoukos,Todd Ward,et al.BLUE:a Method for Automatic Evaluation of MachineTranslation[A].ACL 2002[C]:Philadelphia,2002:232-240.
2Coughlin,Deborah.Correlating automated and humanassessments of machine translation quality[A].Pro-ceedings of MT SummitIX[C].New Orleans,2003.
3Yu Shi-Wen.Automatic evaluation of output qualityfor machine translation systems[J].Machine Transla-tion,1993(8):117-126.
4Michael Gamon,Anthony Aue,Martine Smets.Sen-tence-level MT evaluation w ithout reference transla-tions:beyond language modeling[A].Proceedings ofEAMT 2005[C].Budapest,2005.
5Callison-Burch,Chris and Raymond S.FLOURNOY.Aprogram for automatically selecting the best outputfrom multiple machine translation engines[A].Pro-ceedings of MT Summit VIII[C].Santiago de Com-postela,2001:63-66.
6Andreas Stolcke.Srilm-an extensible language model-ing toolkit[A].Speech Technology and Research Lab-oratorySRI International[C].Menlo Park,2002.
7Liu Yang,Sun Jiasong,Wang Zuoying.Comparison ofseveral smoothing methods in statistical languagemodel[A].International Symposium on Chinese SpokenLanguage Processing ISCSLP 2000[C].Beijing,2000.
8宁伟,苗雪雷,胡永华,等.基于SVM的无参考译文的译文质量评测[A].第四届全国机器翻译研讨会[C].北京,2008.
9Miller G A. WordNet: A lexical database for English [J]. Communications of the ACM, 1995, 38(11): 39-41.
10Bollacker K, Evans C, Paritosh P, et al. Freebase: A collaboratively created graph database for structuring human knowledge [C] //Proe of KDD. New York: ACM, 2008: 1247-1250.

共引文献260

1余传明,李浩男,王曼怡,黄婷婷,安璐.基于深度学习的知识表示研究:网络视角[J].数据分析与知识发现,2020,4(1):63-75.
2张骁雄,杨琴琴,何浩然,丁鲲.面向俄乌冲突的时序知识图谱推理系统设计与实现[J].网络安全与数据治理,2023,42(S01):157-162.
3赵晓函,周子力,李天宇,陈丹华,王凯莉.一种基于IC参数的知识图谱嵌入方法[J].中文信息学报,2021,35(10):48-55.
4詹威威,程序,蔡惠民,刘汪洋,王彬,余正涛.基于综合影响力模型的改进EvolveKG方法及应用研究[J].计算机应用研究,2020,37(S01):159-162.
5阿布都克力木·阿布力孜,张雨宁,阿力木江·亚森,郭文强,哈里旦木·阿布都克里木.预训练语言模型的扩展模型研究综述[J].计算机科学,2022,49(S02):43-54. 被引量：10
6郝卫,魏赟.基于知识图谱表示学习的推荐算法优化[J].智能计算机与应用,2020,10(4):22-26. 被引量：3
7甘惟,吴志强,王元楷,徐浩文,严娟,何珍,赵紫辰.AIGC辅助城市设计的理论模型建构[J].城市规划学刊,2023(2):12-18. 被引量：13
8许升健.年薪制的困惑[J].金山企业管理,2000(1):40-41.
9王春凯,冯键.跨界数据融合在保险行业中的应用[J].保险理论与实践,2019,0(3):38-50.
10徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606. 被引量：499

同被引文献59

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：53
2刘群.基于句法的统计机器翻译模型与方法[J].中文信息学报,2011,25(6):63-71. 被引量：16
3尹宝生,苗雪雷,季铎,蔡东风,张桂平.大规模无参考译文质量自动评测技术的研究[J].沈阳航空航天大学学报,2012,29(1):70-74. 被引量：3
4阮翀,施文娴,李岩昊,翁伊嘉,胡俊峰.基于多译文的中文转述语料库建设及转述评价方案[J].中文信息学报,2018,32(12):67-75. 被引量：4
5王冰,郭东强.基于BP神经网络的企业内部知识转移绩效综合评价研究[J].情报科学,2016,34(1):141-145. 被引量：9
6孔海龙.基于语料库的翻译质量评价——评《政府文件汉英翻译搭配冲突的调查研究》[J].中国科技翻译,2016,29(1):36-39. 被引量：1
7王海军.英语写作AES系统评分效度的实证研究[J].浙江工业大学学报（社会科学版）,2016,15(1):89-93. 被引量：3
8李侠.英汉机器翻译中的英语动词汉译研究[J].电子设计工程,2016,24(13):13-15. 被引量：5
9李岗岗,赵婷婷.纺织科技英语强化训练的词汇分类方法[J].西安工程大学学报,2016,30(4):440-445. 被引量：1
10李茂西,徐凡,王明文.机器译文自动评价中基于IHMM的近义词匹配方法研究[J].中文信息学报,2016,30(4):117-123. 被引量：2

引证文献14

1谭亦鸣,王明文,李茂西.基于翻译质量估计的神经网络译文自动后编辑[J].北京大学学报（自然科学版）,2018,54(2):255-261. 被引量：2
2郭蕾.基于自然语言处理的英语翻译计算机智能评分系统设计[J].现代电子技术,2019,42(4):158-160. 被引量：15
3翟煜锦,李培芸,项青宇,李茂西,裘白莲,钟茂生,王明文.基于QE的机器翻译重排序方法研究[J].江西师范大学学报（自然科学版）,2020,44(1):46-50. 被引量：7
4李培芸,翟煜锦,项青宇,李茂西,裘白莲,罗文兵,王明文.基于子词的句子级别神经机器翻译的译文质量估计方法[J].厦门大学学报（自然科学版）,2020,59(2):159-166. 被引量：13
5叶娜,王远远,蔡东风.多特征融合的句子级译文质量估计方法[J].厦门大学学报（自然科学版）,2020,59(2):167-174. 被引量：4
6李培芸,李茂西,裘白莲,王明文.融合BERT语境词向量的译文质量估计方法研究[J].中文信息学报,2020,34(3):56-63. 被引量：6
7李晓峰,李东,王妍玮.面向医疗系统的多样性数据深层神经网络推荐算法[J].沈阳大学学报（自然科学版）,2020,32(3):233-239. 被引量：1
8胡仁青.基于深度学习算法的机器自动翻译质量评估模型[J].电子设计工程,2021,29(21):33-37. 被引量：8
9罗兰,何贤敏,李茂西.句子级别机器译文质量估计研究综述[J].情报工程,2022,8(2):34-50. 被引量：1
10邹翔,朱俊国,高盛祥,余正涛,杨福岸.融入语言差异化特征的汉越神经机器翻译译文质量估计[J].小型微型计算机系统,2022,43(7):1413-1418. 被引量：2

二级引证文献61

1刘媛,李茂西,项青宇,李易函.基于多元信息融合的神经机器译文自动评价方法[J].中文信息学报,2023,37(3):89-100. 被引量：1
2周生丹.从翻译质量分析两类翻译软件的特点[J].汉字文化,2022(3):171-172.
3米婧.特征提取算法下的英汉翻译系统研究[J].单片机与嵌入式系统应用,2020,20(3):54-56. 被引量：5
4党莎莎,龚小涛.基于改进GLR算法的智能识别英语翻译模型设计[J].计算机测量与控制,2020,28(4):161-164. 被引量：8
5田力.基于汉英短语翻译组合机器自动翻译系统设计与测试研究[J].微型电脑应用,2020,36(5):43-46. 被引量：10
6王建,方舟.文本量化特征与汉译英机评分数的关系研究[J].外文研究,2020,8(1):79-85.
7张晓娟.基于N-Gram共现统计思想的高校大学生英语翻译自动评分系统设计[J].自动化技术与应用,2020,39(8):139-142. 被引量：2
8梁珊.基于英语语义分析的智能算法研究[J].微型电脑应用,2020,36(10):110-112. 被引量：2
9高恂.机器翻译的语言学价值与发展困境[J].山西能源学院学报,2020,33(6):80-82.
10安尚勇,陈佳琪.语言服务行业翻译质量保障技术探究[J].邢台学院学报,2021,36(1):141-145. 被引量：2

1宋亮亮,张涛,梁斌,杨君.基于星敏感器的卫星姿态确定方法研究[J].系统仿真学报,2010,22(A01):1-6. 被引量：6
2张青,颜学峰.融合概率分布和单调性的支持向量回归算法[J].控制理论与应用,2017,34(5):671-676. 被引量：1
3孟宪强,南新元,曾庆凯.生物氧化预处理过程中不确定性数据处理[J].计算机工程与设计,2017,38(7):1977-1981.
4李长生,吴辰文,梁靖涵,王伟.信息熵特征加权核函数的SVM数据分类方法[J].小型微型计算机系统,2017,38(7):1528-1532. 被引量：9
5谭智勇,袁家政,刘宏哲,李青.基于深度卷积神经网络的人群密度估计方法[J].计算机应用与软件,2017,34(7):130-136. 被引量：9
6杜浩维,王玉波,徐永立,王雷鸣,徐雪洁.基于嵌入式PLC运动控制系统的设计[J].信息技术与信息化,2017,0(7):37-40.
7李越,刘乃安.无线Mesh网络部署几何连通覆盖问题求解方法[J].计算机科学,2017,44(6):75-79. 被引量：2
8唐斯琪,潘志松.基于流形学习的网络数据流异常检测[J].济南大学学报（自然科学版）,2017,31(2):118-128. 被引量：3
9李卓.动车组故障检测机器人系统的设计与实现[J].铁路计算机应用,2017,26(7):24-26. 被引量：9

计算机研究与发展

2017年第8期

浏览历史

内容加载中请稍等...

基于神经网络特征的句子级别译文质量估计被引量：14

参考文献2

二级参考文献90

共引文献260

同被引文献59

引证文献14

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

基于神经网络特征的句子级别译文质量估计 被引量：14

参考文献2

二级参考文献90

共引文献260

同被引文献59

引证文献14

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

基于神经网络特征的句子级别译文质量估计被引量：14