基于关键词抽取的自动文摘算法被引量：11

Automatic Summarization Algorithm Based on Keyword Extraction

下载PDF

导出

摘要针对生成文摘内容不完整的问题,利用相邻词的共现频率进行未登录词识别,提出一种通过词汇链的构建进行中文关键词抽取和文摘生成的算法,并给出一种采用《知网》为知识库构建词汇链的方法。通过计算词义相似度构建词汇链,结合词汇所在词汇链的强度、信息熵和出现位置等属性,进行关键词抽取和句子重要度计算。实验结果表明,与已有算法相比,该算法能够提高生成摘要的召回率和准确率。 In order to over the shorlcoming of the incomprehensive of summarization, a new lexical chain-based keywords extraction and automatic summarization algorithm from Chinese texts based on the unknown worst recognition using co-occurrence of neighbor words is proposed, and an algorithm for constructing lexical chain based on Hownet knowledge database is given in the method, lexical chain is constructed by calculating the semantic similarity between terms, keywords are extracted and the importance of each sentence is calculated according to the intensity of lexical chain, the entropy of terms and position. Experimental results show that the summarization generated by the improved algorithm gets better performance than other methods both in recall and precision.

作者蒋效宇

机构地区北京服装学院商学院

出处《计算机工程》 CAS CSCD 2012年第3期183-186,共4页 Computer Engineering

基金北京市优秀人才培养资助专项科研基金资助项目(2009D005001000005)

关键词自动文摘向量空间模型关键词抽取词汇链未登录词识别 automatic summarization vector space model keyword extraction lexical chain unknown word recognition

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1傅间莲,陈群秀.基于规则和统计的中文自动文摘系统[J].中文信息学报,2006,20(5):10-16. 被引量：21
2郭玉箐,万敏,罗振声.面向非受限领域的综合式自动中文文摘方法[J].清华大学学报（自然科学版）,2002,42(1):139-142. 被引量：10
3Goldstein J, Kantrowitz M, Mittal V O, et al. Summaring Text Documents: Sentence Selection and Evaluation Metrics[C] //Proc. of Research and Development in Information Retrieval Conference. Berkeley, USA: ACM Press, 1999: 121-128.
4张虹.基于自动文本分类的关键词抽取算法[J].计算机工程,2009,35(12):145-147. 被引量：18
5王灿辉,张敏,马少平,黄宇.基于相邻词的中文关键词自动抽取[J].广西师范大学学报（自然科学版）,2007,25(2):161-164. 被引量：10
6Morris J, Hirst G. Lexical Cohesion Computed by Thesaural Relations as an Indicator of the Structure of Text[J]. Computational Linguistics, 1991, 17(1): 21-48.
7尤文建,李绍滋,李堂秋.基于词汇链的文本过滤模型[J].计算机应用研究,2003,20(9):32-35. 被引量：9
8王继成,武港山,周源远,张福炎.一种篇章结构指导的中文Web文档自动摘要方法[J].计算机研究与发展,2003,40(3):398-405. 被引量：43

二级参考文献35

1陈群秀.一个在线义类词库:词网 WordNet[J].语言文字应用,1998(2):95-101. 被引量：31
2刘挺,吴岩,王开铸.基于信息抽取和文本生成的自动文摘系统设计[J].情报学报,1997,16(S1):31-36. 被引量：13
3李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
4王晔,黄上腾.Apriori and N-gram Based Chinese Text Feature Extraction Method[J].Journal of Shanghai Jiaotong university(Science),2004,9(4):11-14. 被引量：4
5傅间莲,陈群秀.基于连续段落相似度的主题划分算法[J].计算机应用,2005,25(9):2022-2024. 被引量：10
6傅间莲,陈群秀.自动文摘系统中的主题划分问题研究[J].中文信息学报,2005,19(6):28-35. 被引量：13
7王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
8鲁明羽.Bayes文本分类器的改进方法研究[J].计算机工程,2006,32(17):63-65. 被引量：11
9Azcarraga A P. Evaluating Keyword Selection Methods for WEBSOM Text Archives[J]. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(3): 266-268.
10Hulth A. Improved Automatic Keyword Extraction Given More Linguistic Knowledge[C]//Proc. of EMNLP'03. Sapporo, Japan: [s. n.], 2003.

共引文献102

1高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
2金旭,杨炳儒,菅志刚.自动文摘方法分析[J].计算机应用研究,2004,21(9):5-6. 被引量：8
3胡珀,何婷婷,姬东鸿.基于主题区域发现的中文自动文摘研究[J].计算机科学,2005,32(1):177-181. 被引量：5
4周晓松 ,但军波 ,孙树楠 .基于域对象的文本过滤模型[J].海军航空工程学院学报,2005,20(6):627-629.
5刘颖.知识本体与信息过滤[J].情报理论与实践,2006,29(1):105-108. 被引量：2
6陈志敏,沈洁,林颖,周峰.基于主题划分的网页自动摘要[J].计算机应用,2006,26(3):641-644. 被引量：8
7赵晶,林鸿飞,卢冶.可视化文本分类树浏览机制[J].小型微型计算机系统,2006,27(3):524-528. 被引量：1
8张云涛,龚玲,王永成.基于综合方法的文本主题句的自动抽取[J].上海交通大学学报,2006,40(5):771-774. 被引量：16
9付克志,林鸿飞.基于N-Level VSM在Web信息检索中的研究[J].计算机工程与应用,2006,42(19):158-160. 被引量：3
10梁循,陈华.在中文学术论文集eBook中生成作者单位索引的方法[J].电脑开发与应用,2006,19(8):55-57.

同被引文献112

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
2刘相滨,邹北骥,王胜春.一种新的完全欧氏距离变换算法[J].计算机工程与应用,2005,41(13):44-45. 被引量：13
3赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
4郭庆琳,樊孝忠,柳长安.基于文本聚类的自动文摘系统的研究与实现[J].计算机工程,2006,32(4):30-32. 被引量：8
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：383
6傅间莲,陈群秀.基于规则和统计的中文自动文摘系统[J].中文信息学报,2006,20(5):10-16. 被引量：21
7索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
8黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
9刘群李素建.基于《知网》的词汇语义相似度的计算.中文计算语言学,2002,17(2):59-76.
10苗守谦,卫志华.中文文本信息处理的原理与应用[M].北京:清华大学出版社,2007:109-150.

引证文献11

1刘兴林.词汇知识获取及语义计算平台的构建[J].计算机与现代化,2013(3):85-88.
2刘端阳,王良芳.基于语义词典和词汇链的关键词提取算法[J].浙江工业大学学报,2013,41(5):545-551. 被引量：14
3任莉莉,方元康.基于词汇链与互信息的关键词抽取研究[J].池州学院学报,2013,27(6):48-50. 被引量：1
4杨竣辉,刘宗田,刘炜,苏小英.基于文本事件网络自动摘要的抽取方法[J].计算机科学,2015,42(3):210-213. 被引量：4
5孙佩佩,廖涛,刘宗田.基于事件要素的自动文摘抽取[J].计算机与数字工程,2015,43(10):1829-1833. 被引量：2
6卢玲,杨武,曹琼.基于多重映射的自动短文摘方法[J].计算机应用,2016,36(2):432-436.
7刘一波.基于多重映射的自动中文短文摘提取方法[J].电子技术与软件工程,2016(20):177-178.
8孙晓腾,李学明.基于论文关键词和篇章结构的自动文摘抽取方法[J].现代计算机,2018,24(9):8-12.
9张祯,樊兴悦,郭禹田,吴国华.基于Topic Signature的动态文摘更新方法[J].计算机工程,2018,44(6):169-175. 被引量：2
10江璐璐,胡珀,贝超.基于子主题增强的演化式多文档摘要生成[J].计算机工程,2018,44(7):172-176. 被引量：1

二级引证文献23

1陈金梁,李青.基于本体的领域文档主题抽取方法研究[J].电脑开发与应用,2014,27(9):44-47.
2李伊潇,李宏伟,沈立炜,赵文耘.基于启发式规则的自动化本体扩充[J].计算机科学,2016,43(3):213-219. 被引量：1
3孟利民,赵维,应颂翔.评分预测问题中个性化推荐模型的研究[J].浙江工业大学学报,2016,44(2):119-123. 被引量：5
4张元鸣,陈苗,陆佳炜,徐俊,肖刚.非结构化表格文档数据抽取与组织模型研究[J].浙江工业大学学报,2016,44(5):487-494. 被引量：12
5尹倩.基于语境信息的中文分词交叉歧义处理方法[J].重庆工商大学学报（自然科学版）,2016,33(5):20-24. 被引量：3
6毕强,刘健,鲍玉来.基于语义相似度的文本聚类研究[J].现代图书情报技术,2016(12):9-16. 被引量：8
7黄洪,陈德锐.基于语义依存的汉语句子相似度改进算法[J].浙江工业大学学报,2017,45(1):6-9. 被引量：11
8王万良,潘蒙.基于多特征的视频关联文本关键词提取方法[J].浙江工业大学学报,2017,45(1):14-18. 被引量：5
9刘志,林振涛,鄢致雯,陈波.基于属性偏好自学习的推荐方法[J].浙江工业大学学报,2018,46(2):161-167. 被引量：4
10张瑞芳,郭克华.面向个性化站点的用户检索意图建模方法[J].计算机工程与应用,2018,54(6):37-43. 被引量：1

1董小国,甘立国.基于句子重要度的特征项权重计算方法[J].计算机与数字工程,2006,34(8):35-37. 被引量：2
2孙春葵,钟义信.关于自然语言处理中的文摘生成及其相关技术[J].计算机科学,1999,26(10):16-19. 被引量：2
3龙珑,邓伟.绿色网络智能文摘算法研究[J].计算机应用,2012,32(7):2030-2032. 被引量：1
4谢浩,孙伟.基于段落-句子互增强的自动文摘算法[J].计算机科学,2013,40(11A):246-250. 被引量：3
5陈志敏,沈洁,林颖,周峰.基于主题划分的网页自动摘要[J].计算机应用,2006,26(3):641-644. 被引量：8
6叶星火,胡珀,张小鹏.基于特征信息提取的中文自动文摘方法[J].计算机应用与软件,2008,25(5):31-32. 被引量：3
7蒋效宇,樊孝忠,陈康.基于用户查询的中文自动文摘研究[J].计算机工程与应用,2008,44(5):48-50. 被引量：3
8邓箴,包宏.基于词汇链的多文档自动文摘研究[J].计算机与应用化学,2012,29(11):1384-1386.
9杨颖,戴彬.基于多特征的中文关键词抽取方法[J].计算机应用与软件,2014,31(11):109-112. 被引量：6
10韩兴邦,毛峡.一种改进的词义相似度算法[J].中国科技论文,2016,11(2):202-207. 被引量：1

计算机工程

2012年第3期

浏览历史

内容加载中请稍等...

基于关键词抽取的自动文摘算法被引量：11

参考文献8

二级参考文献35

共引文献102

同被引文献112

引证文献11

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于关键词抽取的自动文摘算法 被引量：11

参考文献8

二级参考文献35

共引文献102

同被引文献112

引证文献11

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于关键词抽取的自动文摘算法被引量：11