基于词句协同排序的单文档自动摘要算法被引量：8

Single document automatic summarization algorithm based on word-sentence co-ranking

下载PDF

导出

摘要对于节录式自动摘要需要从文档中提取一定数量的重要句子,以生成涵盖原文主旨的短文的问题,提出一种基于词句协同排序的单文档自动摘要算法,将词句关系融入以图排序为基础的句子权重计算过程中。首先给出了算法中词句协同计算的框架;然后转化为简洁的矩阵表示形式,并从理论上证明了收敛性;最后进一步通过去冗余方法提高自动摘要的质量。真实数据集上的实验表明,基于词句协同排序的自动摘要算法较经典的TextRank算法在Rouge指标上提升13%~30%,能够有效提高摘要的生成质量。 Focusing on the issue that extractive summarization needs to automatically produce a short summary of a document by concatenating several sentences taken exactly from the original material. A single document automatic summarization algorithm based on word-sentence co-ranking was proposed, named WSRank for short, which integrated the word-sentence relationship into the graph-based sentences ranking model. The framework of co-ranking in WSRank was given, and then was converted to a quite concise form in the view of matrix operations, and its convergence was theoretically proved. Moreover, a redundancy elimination technique was presented as a supplement to WSRank, so that the quality of automatic summarization could be further enhanced. The experimental results on real datasets show that WSRank improves the performance of summarization by 13% to 30% in multiple Rouge metrics, which demonstrates the effectiveness of the proposed method.

作者张璐曹杰蒲朝仪伍之昂

机构地区南京财经大学江苏省电子商务重点实验室

出处《计算机应用》 CSCD 北大核心 2017年第7期2100-2105,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(71571093 71372188) 国家电子商务信息处理国际联合研究中心项目(2013B01035) 江苏省高校自然科学基金资助项目(15KJB520012) 南京财经大学校预研究资助项目(YYJ201415)~~

关键词自动摘要节录式摘要单文档图排序词句协同 automatic summarization extractive summary single document graph-based ranking word-sentence collaboration

分类号 TP399 [自动化与计算机技术—计算机应用技术] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报,2004,30(6):905-910. 被引量：10
2刘美玲,郑德权,赵铁军,于洋.动态多文档文摘模型[J].软件学报,2012,23(2):289-298. 被引量：9

二级参考文献16

1http://projects.ldc.upenn.edu/ace/intro.html.
2Mani I. Automatic Summarization. John Benjarnins Publishing Company, 2001.
3Zhang S, Zhao TJ, Yu H, Zhao H. The research on the influence of the types of document sets on multi-document summarization. Journal of Computational Information Systems, 2007,3(3):1201-1206.
4Dang HT, Owczarzak K. Overview of the TAC 2008 Update Summarization Task. In: Proc. of the Text Analysis Conf. 2008.
5Allan J, Jin H, Rajman M, Wayne C, Gildea D, Lavrenko V, Hoberman R, Caputo D. Topic-Based novelty detection. Technical Report, ws99, Baltimore: Center for Language and Speech Processing, Johns Hopkins University, 1999.
6Allan J, Papka R, Lavrenko V. On-Line new event detection and tracking. In: Proc. of the 21st Annual Int'l ACM SIGIR Conf. on Research and Development in Information Retrieval. Melbourne, 1998.37-45. [doi: 10.1145/290941.290954].
7Mani I. Recent developments in temporal information extraction. In: Nicolov N, Mitkov R, eds. Proc. of the RANLP. 2004.
8Makkonen J. Investigations on event evolution in TDT. In: Proc. of the Student Workshop of Human Language Technology Conf. of the North American Chapter of the Association for Computational Linguistics. Edmonton, 2003. 43-48. Idol: 10.3115/1073416. 1073424].
9Mani I, Wilson G. Robust temporal processing of news. In: Proc. of the 38th Annual Meeting on Association for Computational Linguistics. Hong Kong, 2000. 69-76. [doi: 10.3115/1075218:1075228].
10Lin CY, Hovy E. Automatic evaluation of summaries using N-gram cooccurrence statistics. In: Proc. of the 2003 Conf. of the North American Chapter of the Association for Computational Linguistics on Human Language Technology (NAACL 2003). Morristown: Association for Computational Linguistics, 2003.71-78. [doi: 10.3115/1073445.1073465].

共引文献16

1卢志茂,刘挺,李生.基于无指导机器学习的全文词义自动标注方法[J].自动化学报,2006,32(2):228-236. 被引量：2
2李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1
3林鸿飞,卢冶,王剑峰,宋锐.基于概念扩充和综合评价的文本综述[J].郑州大学学报（理学版）,2007,39(2):104-109. 被引量：2
4化柏林.基于篇章内容分析的文本信息处理系统差异性探析[J].情报杂志,2008,27(9):29-32. 被引量：3
5俞辉.基于LSA和pLSA的多文档自动文摘[J].计算机工程与科学,2009,31(9):108-111. 被引量：6
6杨潇,马军,杨同峰,杜言琦,邵海敏.主题模型LDA的多文档自动文摘[J].智能系统学报,2010,5(2):169-176. 被引量：23
7刘金岭,倪晓红,王新功.手机短信文本信息流的自动文摘生成[J].现代图书情报技术,2013(2):43-49. 被引量：4
8路璐,李涓子,侯磊,张蓝姗.面向话题的新闻综述报告自动生成研究[J].北京大学学报（自然科学版）,2014,50(1):194-200. 被引量：2
9刘晓燕,黄宇,尤红建.基于仿射传播算法的多文档摘要方法[J].国外电子测量技术,2014,33(8):29-33. 被引量：3
10于洋,范文义,刘美玲,王慧强.相似度质心多层过滤策略的动态文摘方法[J].哈尔滨工程大学学报,2014,35(10):1236-1241.

同被引文献72

1黄迎春,王港.基于BM25-IWF特征提取的改进Simhash算法[J].移动信息,2021(5):7-10. 被引量：1
2苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：26
3王恺,王庆人.中英文混合文章识别问题[J].软件学报,2005,16(5):786-798. 被引量：18
4耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
5索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
6徐永东,徐志明,王晓龙.基于信息融合的多文档自动文摘技术[J].计算机学报,2007,30(11):2048-2054. 被引量：27
7徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65
8叶星火,胡珀,张小鹏.基于特征信息提取的中文自动文摘方法[J].计算机应用与软件,2008,25(5):31-32. 被引量：3
9蒋效宇,樊孝忠,陈康.用于多文档文摘句排序的改进MO算法[J].华南理工大学学报（自然科学版）,2008,36(9):43-47. 被引量：2
10徐超,王萌,何婷婷,张勇.基于局部主题关键句抽取的自动文摘方法[J].计算机工程,2008,34(22):49-51. 被引量：5

引证文献8

1王志宏,过弋.基于词句重要性的中文专利关键词自动抽取研究[J].情报理论与实践,2018,41(9):123-129. 被引量：5
2李娜娜,刘培玉,刘文锋,刘伟童.基于TextRank的自动摘要优化算法[J].计算机应用研究,2019,36(4):1045-1050. 被引量：17
3吴佳伟,曹斌,范菁,黄骅.一种结合Bigram语义扩充的事件摘要方法[J].小型微型计算机系统,2019,40(7):1380-1385. 被引量：4
4杨正祥,刘杰,袁克柔,周建设.作文段落句间逻辑合理性等级评测[J].计算机应用与软件,2019,36(9):175-180. 被引量：2
5向姝璇,李睿.专利技术功效特征自动抽取方法探索——以6G领域为例[J].中国发明与专利,2021,18(4):3-9. 被引量：3
6余传明,郭亚静,朱星宇,安璐.基于最大边界相关度的抽取式文本摘要模型研究[J].情报科学,2021,39(2):34-43. 被引量：8
7李静,胡潜.多语言UGC环境下MOOC课程笔记自动生成[J].情报理论与实践,2021,44(11):173-179. 被引量：1
8袁琳,孙巍,马晓敏,李周晶,项芮.图模型框架下的报道性新闻自动摘要方法研究[J].图书情报工作,2024,68(17):122-135.

二级引证文献39

1吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
2山火.数字用户线技术发展的辩证[J].电子产品世界,2000,7(4):8-8.
3王凯祥,任明.基于查询的新闻多文档自动摘要技术研究[J].中文信息学报,2019,33(4):93-100. 被引量：6
4齐翌辰,王森淼,赵亚慧.基于深度学习的中文抽取式摘要方法应用[J].科教导刊,2019,0(14):69-70. 被引量：1
5肖元君,吴国文.基于Gensim的摘要自动生成算法研究与实现[J].计算机应用与软件,2019,36(12):131-136. 被引量：15
6丁建立,李洋,王家亮.基于双编码器的短文本自动摘要方法[J].计算机应用,2019,39(12):3476-3481. 被引量：4
7孙涛.基于LSTM的时政新闻摘要提取研究[J].信息技术与信息化,2020(1):206-208.
8Shengli Zhou,Xin Wang,Zerui Yang.Monitoring and Early Warning of New Cyber-Telecom Crime Platform Based on BERT Migration Learning[J].China Communications,2020,17(3):140-148. 被引量：6
9叶世兵,赖培源,李奎.基于云承载的技术转移转化系统设计及平台研发[J].电子技术与软件工程,2020(12):186-188. 被引量：1
10夏立新,陈健瑶,余华娟.基于事理图谱的多维特征网络舆情事件可视化摘要生成研究[J].情报理论与实践,2020,43(10):157-164. 被引量：28

1李舒嫒,杨静,顾君忠.基于网站层次结构和主题模型LDA的网站自动摘要[J].计算机工程,2017,34(4):207-211. 被引量：1
2郑友生.基于SAM方法的针对路径表达式中“//”操作符计算的有效解决方案[J].贵阳学院学报（自然科学版）,2017,12(2):10-12.
3陈晨,吴崇友,江涛.基于逆向工程的水稻精准模型构建及试验验证[J].农机化研究,2017,39(10):46-52. 被引量：6
4张松,张琳,王汝传.基于用户限制聚类的协同过滤推荐算法[J].南京邮电大学学报（自然科学版）,2017,37(3):93-99. 被引量：4
5李满荣,赵宏安,董文静,耿国华,周明全.基于优先权过滤的自动摘要抽取算法[J].西北大学学报（自然科学版）,2017,47(3):349-354. 被引量：1
6刘崇军,赵航.风螺旋线精确算法在程序转弯模板中的应用[J].航空计算技术,2017,47(3):62-65. 被引量：2
7王东荣.十二年教育政策推动下的特色课程设计与实践模式[J].教育视界,2017(9):76-79. 被引量：1
8傅宁.多媒体技术在小学语文教学中的应用[J].开心（素质教育）,2017,0(5):47-47.
9朱娟,张晓东,马海涛.阀门数字化样机系统的研究[J].化学工程与装备,2017(6):19-21.

计算机应用

2017年第7期

浏览历史

内容加载中请稍等...

基于词句协同排序的单文档自动摘要算法被引量：8

参考文献2

二级参考文献16

共引文献16

同被引文献72

引证文献8

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

基于词句协同排序的单文档自动摘要算法 被引量：8

参考文献2

二级参考文献16

共引文献16

同被引文献72

引证文献8

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

基于词句协同排序的单文档自动摘要算法被引量：8