基于改进Sequence-to-Sequence模型的文本摘要生成方法被引量：13

Generation Method of Text Summarization Based on Advanced Sequence-to-Sequence Model

下载PDF

导出

摘要基于循环神经网络和注意力机制的Sequence-to-Sequence模型神经网络方法在信息抽取和自动摘要生成方面发挥了重要作用。然而,该方法不能充分利用文本的语言特征信息,且生成结果中存在未登录词问题,从而影响文本摘要的准确性和可读性。为此,利用文本语言特征改善输入的特性,同时引入拷贝机制缓解摘要生成过程未登录词问题。在此基础上,提出基于Sequence-to-Sequence模型的新方法 Copy-Generator模型,以提升文本摘要生成效果。采用中文摘要数据集LCSTS为数据源进行实验,结果表明所提方法能够有效地提高生成摘要的准确率,可应用于自动文本摘要提取任务。 The neural network method based on Sequence-to-Sequence model with Recurrent Neural Networks(RNN)and attention mechanism plays an important role in information extraction and automatic summary generation. However, this method cannot take full advantage of the linguistic features of text, and has the problem of out-of-vocabulary in the generated summarization, which influences the accuracy and readability of text summarization. To address the above problems,using text linguistics features to improve the input features, and introducing copy mechanism to alleviate the out-of-vocabulary problem in the process of summarization generation, this paper proposes a new method named Copy-Generator model based on Sequence-to-Sequence model to promote the generated summarization result. Taking the Chinese summarization dataset LCSTS as data source, the experimental results show that the proposed method can improve the accuracy of generated summarization, and can be applied to large-scale automatic text summarization task.

作者周健田萱崔晓晖 ZHOU Jian;TIAN Xuan;CUI Xiaohui(School of Information Science and Technology,Beijing Forestry University,Beijing 100083,China)

机构地区北京林业大学信息学院

出处《计算机工程与应用》 CSCD 北大核心 2019年第1期128-134,共7页 Computer Engineering and Applications

基金中央高校基本科研业务费专项基金(No.TD2014-02) 中央高校基本科研业务费专项资金(No.BLX2014-27)

关键词文本摘要 Sequence-to-Sequence模型语言特征拷贝机制 Copy-Generator模型 text summarization Sequence-to-Sequence model linguistic feature copy mechanism Copy-Generator model

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1胡侠,林晔,王灿,林立.自动文本摘要技术综述[J].情报杂志,2010,29(8):144-147. 被引量：24
2王振超,孙锐,姬东鸿.基于事件指导的多文档生成式摘要方法[J].计算机应用研究,2017,34(2):343-346. 被引量：6
3饶高琦,于东,荀恩东.基于自然标注信息和隐含主题模型的无监督文本特征抽取[J].中文信息学报,2015,29(6):141-149. 被引量：4
4韩艳,林煜熙,姚建民.基于统计信息的未登录词的扩展识别方法[J].中文信息学报,2009,23(3):24-30. 被引量：15

二级参考文献64

1孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
2贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
3刘德荣 ,王永成 ,刘传汉 .基于主题概念的多文档自动摘要研究[J].情报学报,2005,24(1):69-74. 被引量：7
4秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
5耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
6陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：22
7刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
8王立希,王建东,汪静.基于数据挖掘的新词发现[J].计算机应用研究,2006,23(12):195-197. 被引量：8
9赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：23
10马慧芳,祁云平,杨小东.一种基于文本关系图的多文档自动摘要技术[J].情报杂志,2007,26(3):67-69. 被引量：7

共引文献44

1韩鹏宇,高盛祥,余正涛,黄于欣,郭军军.基于案件要素指导的涉案舆情新闻文本摘要方法[J].中文信息学报,2020,34(5):56-63. 被引量：8
2吴悦,燕鹏举,翟鲁峰.基于二元背景模型的新词发现[J].清华大学学报（自然科学版）,2011,51(9):1317-1320. 被引量：10
3张瑞霞,杨国增,吴慧欣.基于《知网》的汉语未登录词语义相似度计算[J].中文信息学报,2012,26(1):16-21. 被引量：8
4段宇锋,鞠菲.基于N-Gram的专业领域中文新词识别研究[J].现代图书情报技术,2012(2):41-47. 被引量：10
5胡朝明.基于分词技术提升虚拟参考咨询系统智能服务[J].图书情报工作,2012,56(9):110-113. 被引量：5
6周蕾,朱巧明.词结合型未登录词识别方法研究[J].常熟理工学院学报,2012,26(4):110-114.
7孙海霞,李军莲,吴英杰,吴夙慧.基于混合策略的中文生物医学领域未登录词识别研究[J].现代图书情报技术,2013(1):15-21. 被引量：2
8钟将,耿升华,董高峰.一种新词检测方法研究[J].数字通信,2013,40(2):1-5. 被引量：6
9曾哲军.基于连续LexRank的多文本自动摘要优化算法研究[J].计算机应用与软件,2013,30(10):209-212. 被引量：4
10罗毅辉,熊曙初.一种集成框架下的分布式多文档自动摘要方法[J].情报杂志,2013,32(11):133-136. 被引量：3

同被引文献103

1马亮,何婷婷,李芳,陈劲光,邵伟.以关键词抽取为核心的文摘句选择策略[J].中文信息学报,2008,22(6):50-54. 被引量：8
2杜娟,姜丽丽,陈红丽.不均衡数据集文本分类中少数类样本生成方法研究[J].计算机应用研究,2009,26(10):3731-3734. 被引量：5
3冯志伟.基于语料库的机器翻译系统[J].术语标准化与信息技术,2010(1):28-35. 被引量：32
4刘颖,姜巍.基于翻译规则的统计机器翻译[J].计算机科学,2013,40(2):214-217. 被引量：4
5吴建鑫,周志华,沈学华,陈兆乾.一种选择性神经网络集成构造方法[J].计算机研究与发展,2000,37(9):1039-1044. 被引量：27
6王连喜.微博短文本预处理及学习研究综述[J].图书情报工作,2013,57(11):125-131. 被引量：36
7李婷婷,姬东鸿.基于SVM和CRF多特征组合的微博情感分析[J].计算机应用研究,2015,32(4):978-981. 被引量：83
8任敬辉.国内基于语料库的翻译研究综述(2007-2013)[J].长春师范大学学报,2015,34(6):181-185. 被引量：7
9李峰,黄金柱,李舟军,杨伟铭.使用关键词扩展的新闻文本自动摘要方法[J].计算机科学与探索,2016,10(3):372-380. 被引量：14
10杨宪泽.汉英混合式机器翻译难点研究[J].西南民族大学学报（自然科学版）,2016,42(3):303-306. 被引量：3

引证文献13

1石磊,阮选敏,魏瑞斌,成颖.基于序列到序列模型的生成式文本摘要研究综述[J].情报学报,2019,38(10):1102-1116. 被引量：12
2齐玉东,丁海强,赵锦超,孙明玮.基于biRNN的海军军械不均衡文本数据集处理方法[J].计算机与现代化,2019,0(12):21-26. 被引量：3
3李天宇,李云,钱镇宇.基于序列到序列模型的无监督文本简化方法[J].计算机应用研究,2021,38(1):93-96. 被引量：1
4杜朋,卢益清,韩长风.基于Transformer模型的商品评论情感分析[J].中文信息学报,2021,35(2):125-132. 被引量：8
5邹蕾,崔斌,樊超,孙豫峰.基于双向编码文本摘要-长短期记忆-注意力的检察建议文本自动生成模型[J].科学技术与工程,2021,21(25):10780-10788. 被引量：9
6王倩影,邓亚男.基于深度模型的商品描述文案生成[J].信息技术与信息化,2021(11):28-31.
7杨涛,黄良,吴建蓉,申彧,李冶.基于长短期记忆网络的电网数据自动摘要研究[J].电子测量技术,2021,44(19):122-127. 被引量：1
8葛斌,何春辉,黄宏斌.融合关键信息的PGN文本主题句生成方法[J].计算机工程与设计,2022,43(6):1601-1608.
9刘晓明,张兆晗,杨晨阳,张宇辰,沈超,周亚东,管晓宏.在线社交网络文本内容对抗技术[J].计算机学报,2022,45(8):1571-1597. 被引量：6
10胡吉明,郑翔.基于主题聚类的新媒体政务互动内容摘要生成研究[J].数据分析与知识发现,2022,6(6):95-104. 被引量：3

二级引证文献45

1朱威,马小明,张纲,周忠志,薛原,邓艾东.基于GraphSage和自注意力机制的滚动轴承半监督故障诊断方法[J].信息化研究,2023,49(4):48-54.
2李永泽.基于论证模型的科学论文论证结构探究[J].图书馆学研究,2020(5):87-93.
3张哲铭,任淑霞,郭凯杰.结合主题感知与通信代理的文本摘要模型[J].西安电子科技大学学报,2020,47(3):97-104. 被引量：2
4谭金源,刁宇峰,祁瑞华,林鸿飞.基于BERT-PGN模型的中文新闻文本自动摘要生成[J].计算机应用,2021,41(1):127-132. 被引量：12
5邹蕾,崔斌,樊超,孙豫峰.基于双向编码文本摘要-长短期记忆-注意力的检察建议文本自动生成模型[J].科学技术与工程,2021,21(25):10780-10788. 被引量：9
6韩广,卜桐,王明明,郑海青,孙晓云,金龙.基于双通道双向长短时记忆网络的铁路行车事故文本分类[J].铁道学报,2021,43(9):71-79. 被引量：5
7王倩影,邓亚男.基于深度模型的商品描述文案生成[J].信息技术与信息化,2021(11):28-31.
8王明乾,邓鹏,倪林.基于Attention-CNN的武器装备语料分类方法[J].舰船电子工程,2022,42(2):102-106.
9廖清阳,王军,胡凯强,宋尧,宗志亚,范俊秋.基于深度并行CNN-BiLSTM的能源互联网电负荷和热负荷联合预测模型[J].中国测试,2022,48(4):146-153. 被引量：10
10杨雪晴.基于语音识别的英语翻译器设计[J].自动化与仪器仪表,2022(8):221-225. 被引量：4

1苏放,王晓宇,张治.基于注意力机制的评论摘要生成[J].北京邮电大学学报,2018,41(3):7-13. 被引量：9
2许浩亮,李雁群,何云琪,钱龙华.中文嵌套命名实体关系抽取研究[J].北京大学学报（自然科学版）,2019,55(1):8-14. 被引量：8
3赵天时.基于有色Petri网的测试案例生成方法及其在CTCS-3车地通信中的应用[J].北京交通大学学报,2018,42(6):97-103. 被引量：4
4Dan Zhang,Qiang Zheng,Xiao-Guang Wang.Probing Nonclassicality of Two-Mode SU (2) Generator Based on Quantum Fisher Information[J].Communications in Theoretical Physics,2018,69(11):552-558.
5严伟,杨朔.BP和SAE深度神经网络方法的织物缺陷检测研究[J].智能物联技术,2018,1(3):25-31. 被引量：1
6曾水平,王嘉利.基于随机森林与神经网络的铝电解分子比预测[J].轻金属,2018(12):21-25. 被引量：3
7章立亮,杨烈君,毛雁明.一种多重随机迭代的分形图像生成方法[J].宁德师范学院学报（自然科学版）,2018,30(4):369-376.
8李枫林,柯佳.实体语义关系分类及应用研究[J].现代情报,2019,39(2):47-56.
9刘健康,高文志,张攀,宋启新.基于改进段角加速度和神经网络的柴油机失火诊断研究[J].内燃机工程,2019,40(1):79-85. 被引量：9
10林伟强,郭晓敏,周宗梁,吴锴.基于检验数据的药品质量风险预警模型研究[J].软件,2018,39(12):127-130. 被引量：7

计算机工程与应用

2019年第1期

浏览历史

内容加载中请稍等...

基于改进Sequence-to-Sequence模型的文本摘要生成方法被引量：13

参考文献4

二级参考文献64

共引文献44

同被引文献103

引证文献13

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

基于改进Sequence-to-Sequence模型的文本摘要生成方法 被引量：13

参考文献4

二级参考文献64

共引文献44

同被引文献103

引证文献13

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

基于改进Sequence-to-Sequence模型的文本摘要生成方法被引量：13