一种面向自动文本摘要特征评价的新方法

A New Feature Evaluation Method for Automatic Text Summarization

下载PDF

导出

摘要自动文本的特征评价方法的研究一直未受到研究者们的重视。以往只是简单地将面向文本集的TF.IDF特征评价方法应用于针对单文本的自动文摘领域,该方法无法排除低频词噪音的影响,特征评价存在明显误差,致使不能准确计算文本特征。文章引入信息熵,提出了针对单文本的特征评价方法TF.IDF.H。实验表明,新的特征评价方法能够准确获得文章主题特征,更好地改善文摘质量。 Most researchers have not paid enough attention to the study of feature extraction in automatic text summarization.Before,the TF.IDF method is directly applied for text summarization,which isn't able to dispose of the noise impact of low-frequency word and results in obvious errors.In this paper,information entropy is introduced for feature evaluation and a new method(TF.IDF.H)is proposed to evaluate the features for single-document summarization.Experiments results indicate that the approaches proposed are able to evaluate exactly relevant features and lead to summarization quality improvements.

作者王大亮孙建涛陆玉昌夏克俭

机构地区清华大学国家智能技术与系统实验室

出处《计算机工程与应用》 CSCD 北大核心 2004年第33期176-178,183,共4页 Computer Engineering and Applications

基金国家自然科学基金重大项目(编号:79990584) 国家973基础研究规划项目(编号:G1998030414)资助

关键词自动文摘文本挖掘特征评价信息熵 automatic text summarization,text mining,feature evaluation,information entropy

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1H P EDMUNDSON.Problems in Automatic Abstracting[J].Communications of the ACM, 1964 ;4:259～263
2G K Zipf. Human Behavior and the Principle of Least Effort[M].Addison Wesley Publishing,Massachusetts, 1949
3鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
4游荣彦,邓志才,李传宏.向量空间模型中特征词的区分度的定量研究[J].中文信息学报,2002,16(3):15-19. 被引量：5
5陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
6江苏财经信息网.外资保险公司摆出竞争架势.http://accountant.iscj.com/jscj/finance/data/20010226190555.php ,2001

二级参考文献6

1Yang Yiming，ProceedingsoftheSeventeenthInternationalACMSIGIRConferenceonResearchandDevelopme，1994年，12页
2战学刚,林鸿飞,姚天顺.中文文献的层次分类方法[J].中文信息学报,1999,13(6):20-25. 被引量：22
3鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
4周水庚,关佶红,俞红奇,胡运发.基于Ngram信息的中文文档分类研究[J].中文信息学报,2001,15(1):34-39. 被引量：23
5李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78
6金凌,吴文虎,郑方,吴根清.距离加权统计语言模型及其应用[J].中文信息学报,2001,15(6):47-52. 被引量：8

共引文献240

1周延泉,张传福,张瑞华,李蕾,何华灿.移动个性化信息服务中的用户兴趣模型[J].北京邮电大学学报,2006,29(z2):144-147. 被引量：1
2陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
3赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
4徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
5姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1
6李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
7施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
8李国臣,段建勇.基于语法语义信息量化模型的语素字再分类[J].计算机工程,2004,30(11):37-39.
9张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9
10鲁明羽,张红,付克明,陆玉昌.Web ME——一个大型网络挖掘环境系统[J].哈尔滨工业大学学报,2004,36(9):1164-1167. 被引量：1

1江开忠,李子成,顾君忠.自动文本摘要方法[J].计算机工程,2008,34(1):221-223. 被引量：13
2徐涛.基于自动文本摘要的中文移动简讯系统[J].现代计算机,2015,21(20):3-5.
3胡琪,邹细勇.基于MapReduce的多文档自动文摘的设计与实现[J].计算机工程与应用,2011,47(35):67-70.
4胡侠,林晔,王灿,林立.自动文本摘要技术综述[J].情报杂志,2010,29(8):144-147. 被引量：24
5徐涛.校园中文讯息自动摘要系统[J].现代计算机（中旬刊）,2015(11):36-38.
6刘江鸣,徐金安,张玉洁.基于隐主题马尔科夫模型的多特征自动文摘[J].北京大学学报（自然科学版）,2014,50(1):187-193. 被引量：4
7刘茵,李弼程,郭映月.一种基于聚类算法的主旨句提取方法[J].情报学报,2008,27(1):49-55. 被引量：1
8大家说:开源、人工智能及创新[J].办公自动化,2016,0(18):20-23. 被引量：1
9任纪生,张弛,王作英.一种基于词序信息的自动文摘方法[J].计算机工程与设计,2007,28(1):178-181. 被引量：3
10郭庆琳,吴克河,吴慧芳,李存斌.基于文本聚类的多文档自动文摘研究[J].计算机研究与发展,2007,44(z2):140-144. 被引量：5

计算机工程与应用

2004年第33期

浏览历史

内容加载中请稍等...

一种面向自动文本摘要特征评价的新方法

参考文献6

二级参考文献6

共引文献240

相关作者

相关机构

相关主题

浏览历史