基于深度学习的生成式文本摘要技术综述被引量：14

Survey on Abstractive Text Summarization Technologies Based on Deep Learning

下载PDF

导出

摘要在互联网数据急剧扩张和深度学习技术高速发展的背景下,自动文本摘要任务作为自然语言处理领域的主要研究方向之一,其相关技术及应用被广泛研究。基于摘要任务深化研究需求,以研究过程中存在的关键问题为导向,介绍现有基于深度学习的生成式文本摘要模型,简述定义及来源、数据预处理及基本框架、常用数据集及评价标准等,指出发展优势和关键问题,并针对关键问题阐述对应的可行性解决方案。对比常用的深度预训练模型和创新方法融合模型,分析各模型的创新性和局限性,提出对部分局限性问题的解决思路。进一步地,对该技术领域的未来发展方向进行展望总结。 Boosted by the rapid expansion of Internet data and the development of deep learning technologies,automatic text summarization is now one of the main research directions in the field of natural language processing.Its related technologies and applications have been widely studied.To assist further studies required by summarization tasks,and to help solve the key problems in the earlier studies,this paper introduces the existing abstractive text summarization models based on deep learning by briefly describing their definition and source,data preprocessing and basic framework,common data sets,and evaluation standards.Additionally,the paper gives the development advantages and key problems of the models,and elaborates on the corresponding feasible solutions.Then the paper compares the commonly used deep pre-trained models and innovative methods,analyzes the innovations and limits of each model,and gives corresponding solutions.Finally,the paper discusses the future development directions in this field.

作者朱永清赵鹏赵菲菲慕晓冬白坤尤轩昂 ZHU Yongqing;ZHAO Peng;ZHAO Feifei;MU Xiaodong;BAI Kun;YOU Xuanang(College of Operational Support,Rocket Force University of Engineering,Xi’an 710025,China;Army Academy of Border and Coastal Defence,Xi’an 710025,China)

机构地区火箭军工程大学作战保障学院陆军边海防学院

出处《计算机工程》 CAS CSCD 北大核心 2021年第11期11-21,28,共12页 Computer Engineering

基金国家部委基金。

关键词深度学习生成式文本摘要未登录词生成重复长程依赖评价标准 deep learning abstractive text summarization Out of Vocabulary(OOV) generative repetition long-term dependence evaluation criteria

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1刘家益,邹益民.近70年文本自动摘要研究综述[J].情报科学,2017,35(7):154-161. 被引量：17
2胡侠,林晔,王灿,林立.自动文本摘要技术综述[J].情报杂志,2010,29(8):144-147. 被引量：23

二级参考文献37

1刘德荣 ,王永成 ,刘传汉 .基于主题概念的多文档自动摘要研究[J].情报学报,2005,24(1):69-74. 被引量：7
2耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
3马慧芳,祁云平,杨小东.一种基于文本关系图的多文档自动摘要技术[J].情报杂志,2007,26(3):67-69. 被引量：7
4Kupiec J,Pedersen J,Chen F.A Trainable Document Summarizer[C].ACM SIGIR.New York,USA,1995.
5Conroy J M,O'leary D P.Text Summarization Via Hidden Markov Models[C].ACM SIGIR,New Orleans,Louisiana,USA,2001.
6Luhn H P.The Automatic Creation of Literature Abstracts[J].IBM Journal of Research Development,1958,2(2):159.
7Text Summarization[EB/OL].http://www.summarization.com/sigirtutorial2001.ppt.
8Baxendale P.Machine-made Index for Technical Literature-an Experiment[J].IBM Journal of Research Development,1958,2(4):354.
9Edmundson,H P.New Methods in Automatic Extracting[J].Journal of the ACM,1969,16(2):264.
10C Aone M E.Okurowaki,J Gorlinsky,and B.Larsen.A Trainable Summarizer With Knowledge Acquired from Robust NLP Techniques//I.Mani and M.Maybury(eds.).Advances in Automated Text Summarization.adl:MIT Press,1999:71.

共引文献38

1胡朝明.基于分词技术提升虚拟参考咨询系统智能服务[J].图书情报工作,2012,56(9):110-113. 被引量：5
2曾哲军.基于连续LexRank的多文本自动摘要优化算法研究[J].计算机应用与软件,2013,30(10):209-212. 被引量：4
3罗毅辉,熊曙初.一种集成框架下的分布式多文档自动摘要方法[J].情报杂志,2013,32(11):133-136. 被引量：3
4王善平,张静波,朱水林,刘丹,曹宇.蒙太古语义学在文献信息组织和检索中应用的探讨[J].华东师范大学学报（自然科学版）,2014(3):144-151.
5刘静,肖璐.基于依存句法分析的多主题文本摘要研究[J].情报杂志,2014,33(6):167-171. 被引量：3
6王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7
7杨竣辉,刘宗田,刘炜,苏小英.基于文本事件网络自动摘要的抽取方法[J].计算机科学,2015,42(3):210-213. 被引量：4
8陈杨,周枫,周兰江,严馨.融合多特征的越南语新闻文本词汇链构建方法[J].计算机工程与设计,2017,38(6):1536-1540.
9刘海燕,张钰.基于LexRank的中文单文档摘要方法[J].兵器装备工程学报,2017,38(6):85-89. 被引量：5
10王玮,欧阳纯萍,阳小华,罗凌云,刘志明.融合句子情感和主题相似性的中文新闻文本情感摘要[J].计算机应用研究,2017,34(12):3543-3546. 被引量：4

同被引文献73

1史荟,王铁鑫.结合深度学习和图排序算法的抽取式文摘方法[J].Transactions of Nanjing University of Aeronautics and Astronautics,2022,39(S01):158-165. 被引量：1
2万小丽,朱雪忠.专利价值的评估指标体系及模糊综合评价[J].科研管理,2008,29(2):185-191. 被引量：210
3温丽敏.基于审美特征的书法评价模型构造与实现[J].计算机工程与设计,2008,29(7):1865-1868. 被引量：4
4祁亨年,陈丰农,庄立,陈频.一种无大小约束的汉字书写结构评测方法[J].郑州大学学报（理学版）,2008,40(3):59-62. 被引量：3
5刘挺,吴岩,王开铸.自动文摘综述[J].情报科学,1998,16(1):63-69. 被引量：10
6俞凯,吴江琴,庄越挺.基于骨架相似性的书法字检索[J].计算机辅助设计与图形学学报,2009,21(6):746-751. 被引量：11
7曹忠升,苏哲文,王元珍,熊鹏.基于模糊区域检测的手写汉字笔画提取方法[J].中国图象图形学报,2009,14(11):2341-2348. 被引量：7
8王耀,戴永.规定格式文字书写练习质量普适评价[J].计算机工程与应用,2010,46(29):69-72. 被引量：8
9王红玲,周国栋,朱巧明.面向冗余度控制的中文多文档自动文摘[J].中文信息学报,2012,26(2):92-96. 被引量：6
10樊亮,戴永,覃冰梅.触摸屏手写汉字笔画的笔力模糊评价[J].中文信息学报,2013,27(2):91-97. 被引量：7

引证文献14

1阮宁宁,王宏生.基于指针网络的抽象式文本摘要方法研究[J].长江信息通信,2021,34(10):50-52. 被引量：1
2肖雪,李成城.手写汉字评价方法研究进展[J].计算机工程与应用,2022,58(2):27-42. 被引量：4
3张紫芸,王文发,马乐荣,丁苍峰.文本摘要模型的研究进展[J].计算机与现代化,2022(6):56-66. 被引量：1
4张乐,杜一凡,吕学强,董志安.STNLTP:一种基于集成策略的中文专利摘要生成模型[J].数据分析与知识发现,2022,6(7):107-117. 被引量：1
5李子譞,顾晓娟.浅谈基于语义的图像生成技术在影视气氛图生成中的应用[J].现代电影技术,2022(9):19-25. 被引量：3
6刘金硕,刘宁.面向招标文件的半结构化文本自动生成[J].计算机工程,2023,49(3):67-72.
7李健智,王红玲,王中卿.基于场景与对话结构的摘要生成研究[J].计算机工程,2023,49(4):303-311.
8金独亮,范永胜,张琪.文本摘要评测方法的语义损失度[J].计算机与现代化,2023(3):84-89.
9全安坤,李红莲.面向长文本的抽取式摘要生成方法[J].电脑知识与技术,2023,19(20):8-12.
10施国良,周抒,王云峰,施春江,刘亮.基于改进多头注意力机制的专利文本摘要生成研究[J].数据分析与知识发现,2023,7(6):61-72.

二级引证文献11

1郑方舟.基于复制和覆盖率机制的生成式文本摘要方法研究[J].长江信息通信,2022,35(2):154-156.
2耿苏敏,郑凯东.基于深度学习的汉字识别[J].信息技术与信息化,2022(10):208-211.
3金独亮,范永胜,张琪.文本摘要评测方法的语义损失度[J].计算机与现代化,2023(3):84-89.
4李泽瑶,李成城.基于结构知识的手写体汉字部件提取算法[J].计算机工程与设计,2023,44(5):1479-1486.
5王楠,曾曼玲.一种改进的TextRank多文档文摘自动抽取模型[J].软件导刊,2023,22(5):1-6.
6陈泓汉,王涛,熊显航.二阶段手写汉字骨架提取优化[J].计算机技术与发展,2023,33(7):41-46.
7龚思颖,黎小林.元宇宙场域下AIGC赋能广告的原理与实现路径[J].现代广告,2023(14):12-18. 被引量：1
8姜尚松,桑瑞娟.语义文本图像生成技术在家具设计中的应用[J].家具,2023,44(4):36-41.
9王敏,马万,祝闯,史善飞,舒江波,卢帅成.基于神经网络的纸笔手写规范汉字量化评价研究[J].华中师范大学学报（自然科学版）,2023,57(6):813-820.
10袁丽敏.基于激光视觉融合的多帧影视图像视觉传达设计研究[J].激光杂志,2023,44(12):81-85.

1胡新棒,于溆乔,李邵梅,张建朋.基于知识增强的中文命名实体识别[J].计算机工程,2021,47(11):84-92. 被引量：11
2王璞,蔡平,张小文,许伟,张观广,姚日晖,宁洪龙,郑华.环境友好型InP量子点的合成及其发光性能的研究进展[J].液晶与显示,2021,36(10):1341-1351.
3冯巧云.新型城镇化与公共服务的供给效率研究--基于网络信息化视角[J].市场周刊,2021,34(10):184-187. 被引量：1
4刘伟.彩色多普勒超声在胃肠道肿瘤诊断的意义研究[J].影像研究与医学应用,2021,5(19):80-81.
5高丽蓉,张建忠.核磁共振技术在孔隙结构表征与流体识别方面的应用[J].云南化工,2021,48(6):12-13.
6蔺晓燕,杨泽,李萍,杨永辉,李同录.地层划分对黄土高边坡稳定性分析的影响研究[J].岩土工程学报,2021,43(S01):76-80. 被引量：11
7郑祚福,赵心雨,林海涛.蚕茧品质控制工序研究进展[J].轻工科技,2021(11):87-88. 被引量：1
8刘超然.非标材料编码在材料管理中的使用问题分析及应对[J].石油化工设计,2021,38(4):30-34.

计算机工程

2021年第11期

浏览历史

内容加载中请稍等...

基于深度学习的生成式文本摘要技术综述被引量：14

参考文献2

二级参考文献37

共引文献38

同被引文献73

引证文献14

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于深度学习的生成式文本摘要技术综述 被引量：14

参考文献2

二级参考文献37

共引文献38

同被引文献73

引证文献14

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于深度学习的生成式文本摘要技术综述被引量：14