自动文本摘要研究综述被引量：44

Survey on Automatic Text Summarization

下载PDF

导出

摘要近年来,互联网技术的蓬勃发展极大地便利了人类的日常生活,不可避免的是互联网中的信息呈井喷式爆发,如何从中快速有效地获取所需信息显得极为重要.自动文本摘要技术的出现可以有效缓解该问题,其作为自然语言处理和人工智能领域的重要研究内容之一,利用计算机自动地从长文本或文本集合中提炼出一段能准确反映源文中心内容的简洁连贯的短文.探讨自动文本摘要任务的内涵,回顾和分析了自动文本摘要技术的发展,针对目前主要的2种摘要产生形式(抽取式和生成式)的具体工作进行了详细介绍,包括特征评分、分类算法、线性规划、次模函数、图排序、序列标注、启发式算法、深度学习等算法.并对自动文本摘要常用的数据集以及评价指标进行了分析,最后对其面临的挑战和未来的研究趋势、应用等进行了预测. In recent years,the rapid development of Internet technology has greatly facilitated the daily life of human,and it is inevitable that massive information erupts in a blowout.How to quickly and effectively obtain the required information on the Internet is an urgent problem.The automatic text summarization technology can effectively alleviate this problem.As one of the most important fields in natural language processing and artificial intelligence,it can automatically produce a concise and coherent summary from a long text or text set through computer,in which the summary should accurately reflect the central themes of source text.In this paper,we expound the connotation of automatic summarization,review the development of automatic text summarization technique and introduce two main techniques in detail:extractive and abstractive summarization,including feature scoring,classification method,linear programming,submodular function,graph ranking,sequence labeling,heuristic algorithm,deep learning,etc.We also analyze the datasets and evaluation metrics that are commonly used in automatic summarization.Finally,the challenges ahead and the future trends of research and application have been predicted.

作者李金鹏张闯陈小军胡玥廖鹏程 Li Jinpeng;Zhang Chuang;Chen Xiaojun;Hu Yue;Liao Pengcheng(Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100093;School of Cyber Security,University of Chinese Academy of Sciences,Beijing 100040)

机构地区中国科学院信息工程研究所中国科学院大学网络空间安全学院

出处《计算机研究与发展》 EI CSCD 北大核心 2021年第1期1-21,共21页 Journal of Computer Research and Development

基金国家自然科学基金项目(61602474)。

关键词自动文本摘要抽取式方法生成式方法深度学习 ROUGE指标 automatic text summarization extractive abstractive deep learning ROUGE metric

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1秦兵,刘挺,陈尚林,李生.多文档文摘中句子优化选择方法研究[J].计算机研究与发展,2006,43(6):1129-1134. 被引量：13
2王俊丽,魏绍臣,管敏.基于图排序算法的自动文摘研究综述[J].计算机科学,2015,42(12):1-7. 被引量：11
3曹洋,成颖,裴雷.基于机器学习的自动文摘研究综述[J].图书情报工作,2014,58(18):122-130. 被引量：16

二级参考文献131

1秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报,2004,30(6):905-910. 被引量：10
2R. Radev, Hongyan Jing, Malgorzata Budzikowska, Centroid-based summarization of multiple documents: Sentence extraction,utility-based evaluation, and user studies. ANLP/NAACL Workshop on Summarization, Seattle, WA, 2000
3J, G, Carbonell, J. Goldstein. The use of MMR, diversity-based reranking for reordering documents and producing summaries.ACM-SIGIR'98, Melbourne, Australia, 1998
4Dragomir R. Radev, Kathleen R. McKeovwn. Generating natural languages summaries from multiple on-line sources. Computational Linguistics, 1998, 24(3) : 21-29
5Paseale Fung, Grace Ngai. Combining optimal clustering and hidden Markov model for extractive summarization. ACL 2003 Workshop on Multilingual Summarization and Question Answering, Sapporo, Japan, 2003
6Naomi Daniel, Dragomir Radev, Timothy Allison. Sub-event based multi-document summarization, HLT NAACL Workshop on Text Summarization, Edmonton, Alberta. Canada, 2003
7Luhn H P. The automatic creation of literature abstracts[J]. IBM Journal of Research and Development, 1958, 2(2): 159-165.
8Mani I, Maybury M T. Advances in automatic text summarization[M]. Cambridge: MIT Press, 1999.
9Mani I, Bloedorn E. Machine learning of generic and user-focused summarization[C]//Proceedings of the Fifteenth National Conference on Artificial Intelligence.Reston VA:AAAI Press, 1998: 821-826.
10Mitchell T M. Machine learning[M]. Burr Ridge: McGraw Hill, 1997:45.

共引文献37

1周进华,刘贵全.基于衰减词共现图的多文档摘要研究[J].小型微型计算机系统,2009,30(1):173-177. 被引量：4
2贺瑞芳,秦兵,刘挺,潘越群,李生.基于宏微观重要性判别模型的时序多文档文摘[J].计算机研究与发展,2009,46(7):1184-1191. 被引量：4
3刘德喜,吴世汉,万常选.XML文本自动文摘研究综述[J].计算机应用研究,2009,26(11):4014-4018.
4周进华,刘贵全,陈恩红.基于概念共现图的多文档自动摘要研究[J].中国科学技术大学学报,2009,39(11):1218-1223. 被引量：1
5宋宣辰,刘贵全.基于主题概念抽取的多文档文摘方法[J].计算机工程,2010,36(4):190-192. 被引量：5
6叶娜,蔡东风.一种面向查询的多文档摘要方法[J].中文信息学报,2010,24(6):69-74. 被引量：1
7徐晓丹.基于子主题和用户查询的多文档摘要系统[J].计算机系统应用,2011,20(3):112-115. 被引量：5
8王萌,李春贵,徐超,何婷婷.主题与子事件发现的多文档自动文摘[J].计算机工程与应用,2011,47(18):130-134. 被引量：1
9徐晓丹.基于半监督学习的中文多文档子主题划分[J].浙江师范大学学报（自然科学版）,2011,34(3):302-305. 被引量：1
10叶静,贺明科,谭文堂,吴昊,李芳芳.一种基于电阻网络的文本摘要方法[J].中国电子商情（通信市场）,2012(2):103-108.

同被引文献236

1周亚建,陆晓红.人工智能时代的中小学智能教育[J].中国教育学刊,2023(S01):6-8. 被引量：3
2邓珍荣,汤园钰,杨睿,张永林.基于关键词与指针生成网络的摘要生成算法[J].计算机系统应用,2022,31(11):246-253. 被引量：2
3褚晓敏,奚雪峰,蒋峰,徐昇,朱巧明,周国栋.宏观篇章结构表示体系和语料建设[J].软件学报,2020,31(2):321-343. 被引量：5
4蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(2):302-320. 被引量：53
5谭红叶,李宣影,刘蓓.基于外部知识和层级篇章表示的阅读理解方法[J].中文信息学报,2020(4):85-91. 被引量：6
6黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：19
7杨东华.新闻标题的作用及制作[J].济南大学学报（社会科学版）,2001,11(3):59-60. 被引量：2
8张利彪,周春光,马铭,刘小华.基于粒子群算法求解多目标优化问题[J].计算机研究与发展,2004,41(7):1286-1291. 被引量：219
9车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：115
10赵万磊,王永吉,张学杰,李娟.一种优化初始中心点的K平均文本聚类算法[J].计算机应用,2005,25(9):2037-2040. 被引量：6

引证文献44

1史荟,王铁鑫.结合深度学习和图排序算法的抽取式文摘方法[J].Transactions of Nanjing University of Aeronautics and Astronautics,2022,39(S01):158-165. 被引量：1
2郑海斌,陈晋音,章燕,张旭鸿,葛春鹏,刘哲,欧阳亦可,纪守领.面向自然语言处理的对抗攻防与鲁棒性分析综述[J].计算机研究与发展,2021,58(8):1727-1750. 被引量：8
3王晴.基于统计的多文本网站文本内容抽取算法[J].安徽电子信息职业技术学院学报,2021,20(4):6-12. 被引量：2
4李伯涵,李红莲.一种融合关键词的生成式摘要方法[J].计算机应用研究,2021,38(11):3289-3292.
5徐宸涵,顾宇浩,张志昊,褚晓敏,蒋峰.基于流程控制的汉语篇章结构语料协同标注系统[J].计算机与数字工程,2021,49(12):2519-2525. 被引量：1
6陈共驰,荣欢,马廷淮.面向连贯性强化的无真值依赖文本摘要模型[J].计算机科学与探索,2022,16(3):621-636.
7邹傲,郝文宁,靳大尉,陈刚.基于语句融合和自监督训练的文本摘要生成模型[J].模式识别与人工智能,2022,35(5):401-411. 被引量：2
8张紫芸,王文发,马乐荣,丁苍峰.文本摘要模型的研究进展[J].计算机与现代化,2022(6):56-66. 被引量：1
9谷莹,李贺,祝琳琳.融合主题聚类和语义图模型的产品评论自动摘要方法研究[J].图书情报工作,2022,66(13):118-126. 被引量：3
10胡吉明,郑翔.基于主题聚类的新媒体政务互动内容摘要生成研究[J].数据分析与知识发现,2022,6(6):95-104. 被引量：3

二级引证文献37

1金志刚,周峻毅,何晓勇.面向自然语言处理领域的对抗攻击研究与展望[J].信息安全研究,2022,8(3):202-211. 被引量：5
2冯俊辉,刘晨,郭浩然.基于模板和规则的声明式代码生成[J].数字技术与应用,2022,40(2):151-154.
3熊曙初,刘阳,胡文灿.基于Lambda架构的智慧社保数据融合模式研究[J].电脑知识与技术,2022,18(31):1-3. 被引量：1
4王春东,孙嘉琪,杨文军.基于矫正理解的中文文本对抗样本生成方法[J].计算机工程,2023,49(2):37-45.
5钟镇,刘志文,雷兵.技术分享型微信文章的公众号转载特征分析--以“Python”为例[J].图书情报工作,2023,67(4):114-123. 被引量：1
6王浩,唐桥虹,唐娜,郝烨,李澍,孟祥峰,李佳戈.基于神经网络的心电分类算法抗扰性影响分析[J].中国医疗设备,2023,38(3):61-65. 被引量：3
7金独亮,范永胜,张琪.文本摘要评测方法的语义损失度[J].计算机与现代化,2023(3):84-89.
8胡汗林,邓三鸿.知识图谱在青铜器数字馆藏建设中的应用[J].数字图书馆论坛,2023,19(4):1-8. 被引量：5
9杨政,马延周.基于计算技术的语音语料库标注方法研究[J].软件,2023,44(3):167-169.
10刘颖,杨鹏飞,张立军,吴志林,冯元.前馈神经网络和循环神经网络的鲁棒性验证综述[J].软件学报,2023,34(7):3134-3166. 被引量：2

1孙兵.关于次模函数优化及其应用的综述[J].电子测试,2020,31(21):36-39.
2罗芳,汪竞航,何道森,蒲秋梅.融合主题特征的文本自动摘要方法研究[J].计算机应用研究,2021,38(1):129-133. 被引量：4
3谭金源,刁宇峰,祁瑞华,林鸿飞.基于BERT-PGN模型的中文新闻文本自动摘要生成[J].计算机应用,2021,41(1):127-132. 被引量：12
4魏媛媛,倪建成,高峰,吴俊清.结合主题信息聚类编码的文本摘要模型[J].计算机技术与发展,2021,31(1):30-34. 被引量：2

计算机研究与发展

2021年第1期

浏览历史

内容加载中请稍等...

自动文本摘要研究综述被引量：44

参考文献3

二级参考文献131

共引文献37

同被引文献236

引证文献44

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

自动文本摘要研究综述 被引量：44

参考文献3

二级参考文献131

共引文献37

同被引文献236

引证文献44

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

自动文本摘要研究综述被引量：44