基于序列到序列模型的无监督文本简化方法被引量：1

Unsupervised text simplification with sequence-to-sequence model

下载PDF

导出

摘要训练基于序列到序列(seq2seq)的文本简化模型需要大规模平行语料库,但是规模较大且标注质量较好的语料却难以获得。为此,提出一种无监督文本简化方法,使模型的学习仅需要无标注的复杂句和简单句语料。首先,利用去噪自编码器(denoising autoencoder)分别从简单句语料和复杂句语料中学习,获取简单句的自编码器和复杂句的自编码器;然后,组合两个自编码器形成初始的文本简化模型和文本复杂化模型;最后,利用回译策略(back-translation)将无监督文本简化问题转换为监督问题,不断迭代优化文本简化模型。通过在标准数据集上的实验验证,该方法在通用指标BLEU和SARI上均优于现有无监督模型,同时在词汇级别和句法级别均有简化效果。 Training text simplification model based on seq2seq requires large-scale parallel corpora.However,current task lacks large-scale and well-labeled parallel corpora.To address the above issues,this paper proposed an unsupervised text simplification algorithm that made the learning of the model only need simple and complex sentence datasets without labels.First,the method used denoising autoencoder to learn from simple sentence corpus and complex sentence corpus,respectively,to obtain a simple sentence autoencoder and a complex sentence autoencoder.Then,it combined the two autoencoders to form an initial text simplification model and a text complication model.Finally,it used back-translation to convert the unsupervised text simplification problem into a supervised problem,and iteratively optimized the text simplification model.Experiments on the standard dataset show that the method is superior to the existing unsupervised model on the general indicators BLEU and SARI,and the model has simplified effects at both the lexical and syntactic level.

作者李天宇李云钱镇宇 Li Tianyu;Li Yun;Qian Zhenyu(School of Information Engineering,Yangzhou University,Yangzhou Jiangsu 225137,China)

机构地区扬州大学信息工程学院

出处《计算机应用研究》 CSCD 北大核心 2021年第1期93-96,100,共5页 Application Research of Computers

基金国家自然科学基金资助项目(61703362) 江苏省研究生科研与实践创新计划项目(SJCX19_0888)。

关键词文本简化无监督序列到序列模型去噪自编码器 text simplification unsupervised sequence-to-sequence(seq2seq)model denoising autoencoder

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1刘洋.神经机器翻译前沿进展[J].计算机研究与发展,2017,54(6):1144-1149. 被引量：102
2周健,田萱,崔晓晖.基于改进Sequence-to-Sequence模型的文本摘要生成方法[J].计算机工程与应用,2019,55(1):128-134. 被引量：13

二级参考文献4

1韩艳,林煜熙,姚建民.基于统计信息的未登录词的扩展识别方法[J].中文信息学报,2009,23(3):24-30. 被引量：15
2胡侠,林晔,王灿,林立.自动文本摘要技术综述[J].情报杂志,2010,29(8):144-147. 被引量：23
3饶高琦,于东,荀恩东.基于自然标注信息和隐含主题模型的无监督文本特征抽取[J].中文信息学报,2015,29(6):141-149. 被引量：4
4王振超,孙锐,姬东鸿.基于事件指导的多文档生成式摘要方法[J].计算机应用研究,2017,34(2):343-346. 被引量：6

共引文献112

1赵莹莹.机器翻译与人工翻译特点对比与关系分析[J].作家天地,2020(13):30-31.
2王醒.译军突起:人工翻译能否经受住机器翻译的考验?[J].现代英语,2021(10):72-74. 被引量：1
3贾承勋,赖华,余正涛,文永华,于志强.基于短语替换的汉越伪平行句对生成[J].中文信息学报,2021,35(8):47-55. 被引量：2
4朱婕.汉韩机器翻译错误分析[J].大众标准化,2021(2):134-136.
5夏玲,李宜蔓,李弘武.人工智能背景下科技论文摘要的机器翻译与译后编辑[J].编辑学报,2022,34(4):396-401. 被引量：8
6王家义,李德凤,李丽青.大数据背景下的互联网翻译——开源理念与模式创新[J].中国翻译,2018,39(2):78-82. 被引量：12
7张双祥.机器翻译应用现状与问题——以特朗普就职演讲的百度译文为例[J].大学英语教学与研究,2018,57(1):35-41. 被引量：1
8范冠艳.机器翻译在档案学科的应用研究——以ITrust北美团队最新学术成果为例[J].档案学研究,2018(3):114-120. 被引量：4
9胡富茂,张克亮.面向机器翻译的双语语块对应研究[J].外语电化教学,2018(3):83-87. 被引量：3
10李梦洁,董峦.基于PyTorch的机器翻译算法的实现[J].计算机技术与发展,2018,28(10):160-163. 被引量：13

同被引文献9

1冯志伟.基于语料库的机器翻译系统[J].术语标准化与信息技术,2010(1):28-35. 被引量：31
2刘颖,姜巍.基于翻译规则的统计机器翻译[J].计算机科学,2013,40(2):214-217. 被引量：4
3任敬辉.国内基于语料库的翻译研究综述(2007-2013)[J].长春师范大学学报,2015,34(6):181-185. 被引量：7
4杨宪泽.汉英混合式机器翻译难点研究[J].西南民族大学学报（自然科学版）,2016,42(3):303-306. 被引量：3
5汪云,周大军.基于语料库的机器翻译的现状与展望[J].大学英语教学与研究,2017,56(5):45-50. 被引量：6
6李亚超,熊德意,张民.神经机器翻译综述[J].计算机学报,2018,41(12):2734-2755. 被引量：99
7刘洋.神经机器翻译前沿进展[J].计算机研究与发展,2017,54(6):1144-1149. 被引量：102
8周健,田萱,崔晓晖.基于改进Sequence-to-Sequence模型的文本摘要生成方法[J].计算机工程与应用,2019,55(1):128-134. 被引量：13
9薛擎天,李军辉,贡正仙.多语言的无监督神经机器翻译[J].厦门大学学报（自然科学版）,2020,59(2):192-197. 被引量：7

引证文献1

1陈银娣,王秀珍.利用人工智能技术提升机器翻译质量的方法应用[J].中华医学图书情报杂志,2022,31(7):64-71. 被引量：1

二级引证文献1

1沈雪,潘正芹.机器翻译对英语长难句的处理效果探究[J].现代英语,2023(17):114-118.

1邓俊锋,朱聪慧,赵铁军.基于Back-translation的语法错误纠正[J].智能计算机与应用,2020,10(6):187-190. 被引量：1
2张刘敏,张赟,李培峰.基于单句表示的篇章事件可信度识别方法[J].中文信息学报,2020,34(10):69-75. 被引量：1
3尹政军,罗曼.着力做到五个“起” 让政治监督具体化常态化[J].党风,2020(12):29-30.
4张静.输配电改革对供电企业财务管理的影响研究[J].大众商务,2020(12):0220-0220.
5徐建勇.国有企业强化政治监督的实践与思考[J].管理学家,2020(21):15-17.
6赵芮,于晓艳,荣宪伟.基于双重注意力特征增强网络的语义分割方法[J].计算机科学与应用,2020,10(11):1944-1951.
7王芹.《习近平谈治国理政》(第二卷)高频动词英译研究——以“坚持”为例[J].商丘职业技术学院学报,2020,19(6):35-39. 被引量：2
8毛琳,巩欣飞,杨大伟,张汝波.空时社交关系池化行人轨迹预测模型[J].计算机辅助设计与图形学学报,2020,32(12):1918-1925. 被引量：4
9张宝华,朱思雨,吕晓琪,谷宇,王月明,刘新,任彦,李建军,张明.软多标签和深度特征融合的无监督行人重识别[J].光电工程,2020,47(12):13-22. 被引量：6
10陈杰,朱力.基于深度学习的电力工程现场动作识别研究[J].信息技术,2020,44(12):53-58.

计算机应用研究

2021年第1期

浏览历史

内容加载中请稍等...

基于序列到序列模型的无监督文本简化方法被引量：1

参考文献2

二级参考文献4

共引文献112

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于序列到序列模型的无监督文本简化方法 被引量：1

参考文献2

二级参考文献4

共引文献112

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于序列到序列模型的无监督文本简化方法被引量：1