TP-AS:一种面向长文本的两阶段自动摘要方法被引量：12

TP-AS:A Two-phase Approach to Long Text Automatic Summarization

下载PDF

导出

摘要随着互联网上信息的爆炸式增长,如何有效提高知识获取效率变得尤为重要。文本自动摘要技术通过对信息的压缩和精炼,为知识的快速获取提供了很好的辅助手段。现有的文本自动摘要方法在处理长文本的过程中,存在准确率低的问题,无法达到令用户满意的性能效果。为此,该文提出一种新的两阶段的长文本自动摘要方法TP-AS,首先利用基于图模型的混合文本相似度计算方法进行关键句抽取,然后结合指针机制和注意力机制构建一种基于循环神经网络的编码器—解码器模型进行摘要生成。通过基于真实大规模金融领域长文本数据上的实验,验证了TP-AS方法的有效性,其自动摘要的准确性在ROUGE-1的指标下分别达到了36.6%(词)和33.9%(字符),明显优于现有其他方法。 With the explosive growth of information on the Internet,it becomes more important to improve the effi- ciency of knowledge acquisition. Automatic text summarization techniques provide a good means for fast knowledge acquisition by compressing and refining information. Existing automatic text summarization methods,when dealing with long text,exhibit poor accuracy,and fail to meet users＇ need for performance. In this paper,we propose a two- phase automatic summarization method for long text, namely,TP-AS. Firstly,it employs a hybrid semantic similarity computation method based on a graph model to extract key sentences. Then,it constructs a recurrent neural network encoder-decoder model with attention and pointer mechanisms to generate summaries. Through experiments on real large-scale long-text corpora in financial area, the effectiveness of TP-AS is verified, and its accuracy for automatic summarization notably outperforms other existing methods.

作者王帅赵翔李博葛斌汤大权 WANG Shuai;ZHAO Xiang;LI Bo;GE Bin;TANG Daquan(Science and Technology on Information System Engineering Laboratory,National University of Defense Technology,Changsha,Hunan 410073,China;Collaborative Innovation Center of Geospatial Technology,Wuhan,Hubei 430079,China)

机构地区国防科学技术大学信息系统工程重点实验室地球空间信息技术协同创新中心

出处《中文信息学报》 CSCD 北大核心 2018年第6期71-79,共9页 Journal of Chinese Information Processing

基金国家自然科学基金(61402494 61402498 71690233) 湖南省自然科学基金(2015JJ4009)

关键词自动文本摘要自然语言处理抽取和生成循环神经网络 automatic text summarization natural language processing extraction and abstraction RNN

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1任昭春,马军,陈竹敏.基于动态主题建模的Web论坛文档摘要[J].计算机研究与发展,2012,49(11):2359-2367. 被引量：8
2孙春葵,李蕾,杨晓兰,钟义信.基于知识的文本摘要系统研究与实现[J].计算机研究与发展,2000,37(7):874-881. 被引量：19
3姚建民,周明,赵铁军,李生.基于句子相似度的机器翻译评价方法及其有效性分析[J].计算机研究与发展,2004,41(7):1258-1265. 被引量：17

二级参考文献31

1莫燕,王永成.中文文献摘要的自动编制[J].现代图书情报技术,1993(3):10-12. 被引量：15
2C Brew,H S Thompson.Automatic evaluation of computer generated text:A progress report on the TextEval project.Human Language Technology Workshop,Arpa,Isto,1994
3Shiwen Yu.Automatic evaluation of quality for machine translation systems.Machine Translation,1993,8(1/2):117～126
4A Guessoum,R Zantout.Semi-automatic evaluation of the grammatical coverage of machine translation systems.MT Summit Conf,Santiago de Compostela,2001
5Sungryong Koh,Jinee Maeng,et al.A test suite for evaluation of English-to-Korean machine translation systems.MT Summit Conf,Santiago de Compostela,2001
6Shoichi Yokoyama,Hideki Kashioka,et al.An automatic evaluation method for machine translation using two-way MT.MT Summit Conf,Santiago de Compostela,2001
7Keiji Yasuda,Fumiaki Sugaya,et al.An automatic evaluation method of translation quality using translation answer candidates queried from a parallel corpus.MT Summit Conf,Santiago de Compostela,2001
8Yasuhiro Akiba,Kenji Imamura,Eiichiro Sumita.Using multiple edit distances to automatically rank machine translation output.MT Summit Conf,Santiago de Compostela,2001
9Jianmin Yao,Ming Zhou,et al.An automatic evaluation method for localization oriented lexicalised EBMT system.The 19th Int'l Conf on Computational Linguistics (COLING-2002),Taipei,2002
10V I Levenshtein.Binary codes capable of correcting deletions,insertions and reversals.Doklady Akademii Nauk SSSR,1965,163(4):845～848

共引文献41

1胡俊华,杨波,李金屏.自然语言理解研究略述[J].济南大学学报（社会科学版）,2001,11(5):58-62. 被引量：8
2谭浩,贾自艳,史忠植.新闻专题的高效组织和生成新方法[J].科技导报,2004,22(7):48-51.
3王萌,何婷婷,张伟.基于概念向量空间模型的中文自动文摘系统[J].计算机工程与应用,2005,41(1):107-110. 被引量：5
4王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
5耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
6徐晓丹.中文网页自动摘要系统的研究[J].计算机与现代化,2006(9):120-122. 被引量：2
7陈珂,殷凡.中文自动摘要综述[J].福建电脑,2007,23(2):34-35.
8韩阳.论网络信息资源在英语教学中的实际运用[J].科技信息,2006(11X):112-112. 被引量：1
9蔡建山,迟呈英,战学刚,王丫.基于滑动窗口的动态摘要算法[J].计算机工程,2007,33(6):213-215. 被引量：4
10刘其云.Web信息抽取中XML在Agent技术中的应用[J].黑龙江科技信息,2007(11S):86-86.

同被引文献117

1黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：21
2姚建民,周明,赵铁军,李生.基于句子相似度的机器翻译评价方法及其有效性分析[J].计算机研究与发展,2004,41(7):1258-1265. 被引量：17
3陈燕敏,王晓龙,刘远超,楼喜中.一种基于文章主题和内容的自动摘要方法[J].计算机工程与应用,2004,40(33):11-14. 被引量：12
4莫燕,王永成.中文文献摘要的自动编制[J].现代图书情报技术,1993(3):10-12. 被引量：15
5王永成.自动编制文献摘要及知识的自动提取[J].现代图书情报技术,1993(3):13-13. 被引量：1
6黄水清,李志燕,梁刚.面向计算机类文献的自动摘要系统的研究与实现[J].图书与情报,2006(3):93-97. 被引量：1
7官礼和.Internet网络新闻文本自动摘要的研究[J].计算机工程与设计,2007,28(14):3518-3520. 被引量：9
8徐永东,徐志明,王晓龙.基于信息融合的多文档自动文摘技术[J].计算机学报,2007,30(11):2048-2054. 被引量：27
9万小丽,朱雪忠.专利价值的评估指标体系及模糊综合评价[J].科研管理,2008,29(2):185-191. 被引量：224
10王永成,许慧敏.OA中文文献自动摘要系统[J].情报学报,1997,16(2):128-132. 被引量：26

引证文献12

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2周荣锋,秦惠基.浅谈我国医学文献资源布局[J].医学情报工作,2000,21(2):27-28.
3赵京胜,宋梦雪,高祥.自然语言处理发展及应用综述[J].信息技术与信息化,2019(7):142-145. 被引量：80
4石磊,阮选敏,魏瑞斌,成颖.基于序列到序列模型的生成式文本摘要研究综述[J].情报学报,2019,38(10):1102-1116. 被引量：14
5肖元君,吴国文.基于Gensim的摘要自动生成算法研究与实现[J].计算机应用与软件,2019,36(12):131-136. 被引量：15
6陶兴,张向先,郭顺利,张莉曼.学术问答社区用户生成内容的W2V-MMR自动摘要方法研究[J].数据分析与知识发现,2020,4(4):109-118. 被引量：8
7韩虎,孙天岳,赵启涛.引入自编码机制对抗网络的文本生成模型[J].计算机工程与科学,2020,42(9):1704-1710. 被引量：2
8高阳,闫仁武,袁双双.基于M-C-G神经网络的多文档自动摘要方法[J].软件导刊,2020,19(10):39-45. 被引量：1
9刘佳芮.基于迁移学习的小规模医学领域文本摘要生成模型[J].现代计算机,2021,27(3):17-21. 被引量：1
10邹蕾,崔斌,樊超,孙豫峰.基于双向编码文本摘要-长短期记忆-注意力的检察建议文本自动生成模型[J].科学技术与工程,2021,21(25):10780-10788. 被引量：9

二级引证文献132

1丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：5
2梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
3朱威,马小明,张纲,周忠志,薛原,邓艾东.基于GraphSage和自注意力机制的滚动轴承半监督故障诊断方法[J].信息化研究,2023,49(4):48-54.
4苏晓红.建立统一的国债回购市场[J].金融理论与实践,2000(3):18-19.
5任莹.基于预训练BERT模型的客服工单自动分类研究[J].云南电力技术,2020,48(1):2-7. 被引量：3
6李宇,刘波.文档检索中文本片段化机制的研究[J].计算机科学与探索,2020,14(4):578-589. 被引量：4
7李永泽.基于论证模型的科学论文论证结构探究[J].图书馆学研究,2020(5):87-93.
8郑锡聪,凌毓涛,李夏雨,万浪.基于文本匹配的电商对话系统设计[J].洛阳理工学院学报（自然科学版）,2020,30(1):77-81. 被引量：1
9张哲铭,任淑霞,郭凯杰.结合主题感知与通信代理的文本摘要模型[J].西安电子科技大学学报,2020,47(3):97-104. 被引量：2
10谢易宏.运用NLP算法和BP神经网络系统分析商品评论数据[J].无线互联科技,2020,17(12):119-120.

1读者·作者·编者[J].中国医学影像学杂志,2018,26(3):179-179.
2谢鸣元.基于文本类别的文本自动摘要模型[J].电脑知识与技术,2018,14(1):206-208. 被引量：2
3应文豪,李素建,穗志方.一种话题敏感的抽取式多文档摘要方法[J].中文信息学报,2017,31(6):155-161. 被引量：4
4张江龙,黄祥林.基于多模态字典学习的微视频场所类别识别[J].中国传媒大学学报（自然科学版）,2017,24(4):34-39.
5速录笔T100[J].中国经济信息,2017,0(22):17-17.
6李莉.循环经济视角的酒店低碳化建设路径[J].农家科技（理论版）,2018(4):57-58.
7刘文,马慧芳,脱婷,陈海波.融合共现距离和区分度的短文本相似度计算方法[J].计算机工程与科学,2018,40(7):1281-1286. 被引量：9
8张俊芳.我国建设电子图书馆的思考[J].中国中医药信息杂志,1996,3(12):44-44. 被引量：1
9明拓思宇,陈鸿昶.文本摘要研究进展与趋势[J].网络与信息安全学报,2018,4(6):1-10. 被引量：9
10张巍,李雯,陈丹,李增杰.基于隐含狄利克雷分布的多语种文本的自动检测研究[J].中国海洋大学学报（自然科学版）,2017,47(12):130-136.

中文信息学报

2018年第6期

浏览历史

内容加载中请稍等...

TP-AS:一种面向长文本的两阶段自动摘要方法被引量：12

参考文献3

二级参考文献31

共引文献41

同被引文献117

引证文献12

二级引证文献132

相关作者

相关机构

相关主题

浏览历史

TP-AS:一种面向长文本的两阶段自动摘要方法 被引量：12

参考文献3

二级参考文献31

共引文献41

同被引文献117

引证文献12

二级引证文献132

相关作者

相关机构

相关主题

浏览历史

TP-AS:一种面向长文本的两阶段自动摘要方法被引量：12