基于信息熵理论的特征权重算法研究被引量：22

Research on term weighting algorithm based on information entropy theory

下载PDF

导出

摘要文本表示是使用分类算法处理文本时必不可少的环节,文本表示方法的选择对最终的分类精度起着至关重要的作用。针对经典的特征权重计算方法TFIDF(Term Frequency and Inverted Document Frequency)中存在的不足,提出了一种基于信息熵理论的特征权重算法ETFIDF(Entropy based TFIDF)。ETFIDF不仅考虑特征项在文档中出现的频率及该特征项在训练集中的集中度,而且还考虑该特征项在各个类别中的分散度。实验结果表明,采用ETFIDF计算特征权重可以有效地提高文本分类性能,对ETFIDF与特征选择的关系进行了较详细的理论分析和实验研究。实验结果表明,在文本表示阶段考虑特征与类别的关系可以更为准确地表示文本;如果综合考虑精度与效率两个方面因素,ETFIDF算法与特征选择算法一起采用能够得到更好的分类效果。 Text representation is an important process to perform text categorization, and the method of text representation plays an important role in the final classification accuracy. This paper proposes a new term weighting algorithm ETFIDF（Entropy based TFIDF） based on information entropy theory to overcome the limitations of the traditional term weighting algorithm TFIDF （Term Frequency and Inverted Document Frequency）. ETFIDF not only considers the number of times a term occurs in a document and the number of documents in training set in which a term occurs, but also takes into account the distribution of documents in the training set in which the term occurs. Experimental results show that ETFIDF outperforms TFIDF in text categorization. Furthermore, detailed theoretical analysis and experimental study on the relationship between ETFIDF and feature selection have been done in this paper. Experimental results show that, it can represent the text more accurately if we take into account the distribution of documents in the training set in which the term occurs in the text representation stage. Moreover, it can achieve higher performance for the combination of ETFIDF and feature selection algorithm if we consider both the accuracy and efficiency.

作者郭红钰

机构地区华北计算技术研究所

出处《计算机工程与应用》 CSCD 2013年第10期140-146,共7页 Computer Engineering and Applications

关键词信息熵特征权重特征选择文本分类 information entropy term weighting feature selection text categorization

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献21

1Debole F, Sebastiani F.Supervised term weighting for auto- mated text categorization[C]//Proceedings of the 18th ACM Symposium on Applied Computing.New York: ACM Press, 2003:784-788.
2Zobel J, Moffat A.Exploring the similarity space[J].ACM SIGIR Forum, 1998,32(1 ) : 18-34.
3Salton G, Wong A, Yang C S.A vector space model for auto- matic indexing[J].Communications of the ACM, 1975,18 ( 11 ) : 613-620.
4Souey P,Mineau G W.Beyond TFIDF weighting for text eat- egorization in the vector space mdoe[C]//Interuational Joint Conference on Artifical Intelligence, Edinburgh, Scotland, UK, 2005: 1130-1135.
5Zhang Y, Gong L, Wang Y.An improved TFIDF approach for text classification[J].Journal of Zhejiang University Science, 2005,6A( 1 ) :49-55.
6张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
7景丽萍,黄厚宽,石洪波.用于文本挖掘的特征选择方法TFIDF及其改进[J].广西师范大学学报（自然科学版）,2003,21(A01):142-145. 被引量：23
8van Rijsbergen C J.Information retrieval[M].London: Butter- worths Scientific Publication, 1979.
9Porter M F.An Algorithm for Suffix Stripping[J].Program, 1980,14(3) : 130-137.
10Hull D A.Improving text retrieval for the routing problem using latent semantic indexing[C]//Croft W B,van Rijsber- gen C J.Proceedings of SIGIR-94, 17th ACM International Conference on Research and Development in Information Retrieval.Heidelberg:Springer Verlag, 1994.

二级参考文献9

1梁久祯,兰东俊.基于先验知识的网页特征压缩与线性分类器设计[C].第十二届全国神经计算学术大会讨论文集.北京:人民邮电出版社,2002:494-501.
2Rudolph G.Convergence Properties of Canonical Genetic Algorithms[J].IEEE Trans.on Neural Networks,1994,5(1):96-101.
3Yiming Y.An Evaluation of Statistic Approaches to Text Categorization[J].Information Retrieval,1999,1(1/2):69-90.
4Salton G,Wong A,Yang C.A Vector Space Model for Automatic Indexing[J].Communications of ACM,1975,18(11):613-620.
5Mnic D,Grobelnik M.Feature Selection for Unbalanced Class Distribution and Naive Bayees[C].Proceedings of the 6^th International Conference on Machine Learning.Blrf:Morgan Kaufmann,1999:258-267.
6Rocchio J.Relevance Feedback in Information Retrieval[C].Proc.of SMART Retrieval System:Experiments in Automatic Doc.,NJ,USA:Prentice-hall,1971:313-323.
7邹涛,王继成,朱华宇,金翔宇,张福炎.WWW上的信息挖掘技术及实现[J].计算机研究与发展,1999,36(8):1019-1024. 被引量：120
8范焱,郑诚,王清毅,蔡庆生,刘洁.用Naive Bayes方法协调分类Web网页[J].软件学报,2001,12(9):1386-1392. 被引量：53
9刘斌,黄铁军,程军,高文.一种新的基于统计的自动文本分类方法[J].中文信息学报,2002,16(6):18-24. 被引量：48

共引文献139

1田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
2李秀茹,王晓,李朋朋,李绪红,罗安.Word2vec和支持向量机的POI自动分类方法[J].测绘科学,2022,47(6):195-203. 被引量：5
3程显毅,于冬梅.基于BDIAgent的Web搜索引擎的研究[J].江苏大学学报（自然科学版）,2004,25(6):545-548. 被引量：5
4谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
5许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
6刘华.汉语信息处理中短语优势的理据及实验证明[J].语言文字应用,2007(4):129-135. 被引量：3
7王美方,刘培玉,朱振方.基于TFIDF的特征选择方法[J].计算机工程与设计,2007,28(23):5795-5796. 被引量：23
8熊忠阳,黎刚,陈小莉,陈伟.文本分类中词语权重计算方法的改进与应用[J].计算机工程与应用,2008,44(5):187-189. 被引量：28
9林永民,吕震宇,赵爽,朱卫东.文本特征加权方法TF·IDF的分析与改进[J].计算机工程与设计,2008,29(11):2923-2925. 被引量：10
10吕震宇,林永民,赵爽,陈景年,朱卫东.基于类信息的文本特征选择与加权算法研究[J].计算机工程与应用,2008,44(20):145-147. 被引量：8

同被引文献184

1李霞,蒋盛益,郭艾侠.基于聚类和信息熵的特征选择算法[J].郑州大学学报（理学版）,2009,41(1):77-80. 被引量：4
2ZHANG Guo1,2,LI Yang1 & LI ZhiJiang3 1 State Key Laboratory of Information Engineering in Surveying,Mapping and Remote Sensing,Wuhan University,Wuhan 430079,China,2 Satellite of Surveying and Mapping Application center,State Bureau of Surveying and Mapping,Beijing 100830,China,3 School of Printing and Packaging,Wuhan University,Wuhan 430079,China.A new approach toward object-based change detection[J].Science China(Technological Sciences),2010,53(S1):105-110. 被引量：11
3徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
4程小金,马善钧,黄沛天.关于变加速动力学运动的一些基本概念[J].江西师范大学学报（自然科学版）,2005,29(3):255-259. 被引量：3
5孟昭曜.加加速度的力学计算和物理意义[J].四川师范大学学报（自然科学版）,2005,28(6):741-743. 被引量：11
6张宇镭,党琰,贺平安.利用Pearson相关系数定量分析生物亲缘关系[J].计算机工程与应用,2005,41(33):79-82. 被引量：102
7刘建,郑双忠,邓云峰,李安贵,宋存义.基于G1法的应急能力评估指标权重的确定[J].中国安全科学学报,2006,16(1):30-33. 被引量：87
8王家耀,钱海忠.制图综合知识及其应用[J].武汉大学学报（信息科学版）,2006,31(5):382-386. 被引量：45
9郭波涛,李辉智,王文昌,易东.酵母基因调控网络的微分方程模型研究[J].中国卫生统计,2006,23(2):129-133. 被引量：3
10余绍蓉,尹益辉,徐兵,张德美.基于信息熵理论的随机—模糊可靠性分析方法探讨[J].机械强度,2006,28(5):695-698. 被引量：15

引证文献22

1唐晓波,向坤.基于LDA模型和微博热度的热点挖掘[J].图书情报工作,2014,58(5):58-63. 被引量：65
2孟会芳,彭怡.基于熵的星座聚类理论在我国航空市场结构分析中的应用[J].武汉理工大学学报（交通科学与工程版）,2015,39(1):185-188.
3全卫澎,李卫华,李小春.多特征自适应融合的高分辨率遥感影像变化检测[J].电光与控制,2015,22(3):45-49. 被引量：5
4郑慧,李冰,陈冬林,刘平峰.基于位置簇的移动生活服务个性化推荐技术[J].计算机应用,2015,35(4):1148-1153. 被引量：5
5刘峰,李煜,吕学强,李卓.查询主题分类方法研究[J].现代图书情报技术,2015(4):10-17. 被引量：4
6刘红威,王飞.基于熵权-可拓模型的通风系统安全性评价[J].矿业安全与环保,2015,42(3):54-57. 被引量：3
7王振宇,牛国庆.煤矿通风系统经济合理性评价指标权值的确定及应用[J].山东煤炭科技,2016,34(4):70-72.
8李辉,石钊,易军凯.基于信息熵的二次聚类推荐算法[J].计算机工程,2016,42(5):213-217. 被引量：3
9陈科文,张祖平,龙军.文本分类中基于熵的词权重计算方法研究[J].计算机科学与探索,2016,10(9):1299-1309. 被引量：11
10薛安荣,毛文渊,王孟頔,陈泉浈.基于贝叶斯方法和变化表的恐怖行为预测算法[J].计算机科学,2016,43(12):130-134. 被引量：8

二级引证文献223

1李沿江,赵红霞,苏玲霞.新冠肺炎疫情期间微博话题“中医新冠肺炎”的关注热点分析——基于LDA模型的微博主题挖掘[J].亚太传统医药,2020,16(11):15-17. 被引量：3
2许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
3赵越,刘子平,朱琳.社交媒体中的西安城市形象——基于跨平台数据的研究[J].新闻知识,2023(1):30-42.
4吴晓春,洪晨,张岳.高校实验仪器与设备管理问答系统[J].中国科技论文在线精品论文,2023(2):179-185.
5侯宇豪,杨维芳,马文骏,王卓,余懿韬,闫香蓉,闫浩文.一种利用VSM检索微地图的方法[J].测绘科学,2023,48(12):225-233.
6何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
7马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.
8菡冰.Windows95/NT环境下MFC多线程编程技术Step By Step[J].电脑编程技巧与维护,2000(5):40-48.
9佘广夫,曾涛,唐咏雪.工艺质量在线统计分析软件的设计与开发[J].四川冶金,2000,22(2):60-62.
10李贺,祝琳琳,闫敏,刘金承,洪闯.开放式创新社区用户信息有用性识别研究[J].数据分析与知识发现,2018,2(12):12-22. 被引量：8

1朱颢东,周姝,钟勇.结合ODF和辨识集的特征选择[J].重庆邮电大学学报（自然科学版）,2010,22(1):94-98. 被引量：1
2黄丽萍,余翀翀.基于分集群的欠采样数据分类方法[J].科技信息,2012(7):201-201.
3毛顿.计算机病毒分析与对策[J].现代通信技术,1997(4):66-71.
4刘建国,黄厚宽.使用分类和聚类提高搜索引擎的可用性[J].铁路计算机应用,2006,15(3):44-46. 被引量：1
5崔炳俭,陈德生,董卫红,黄跃青,王全周,潘新民.UPS应急电源在气象部门的使用及维护[J].气象与环境科学,2009,32(4):84-87. 被引量：5
6杨洁,季铎,蔡东风,林晓庆,白宇.基于联合权重的多文档关键词抽取技术[J].中文信息学报,2008,22(6):75-79. 被引量：16
7路金泉,徐开勇,戴乐育.基于文本过滤的贝叶斯分类算法的改进[J].计算机与现代化,2016(9):100-103. 被引量：3
8刘志明,刘鲁.基于机器学习的中文微博情感分类实证研究[J].计算机工程与应用,2012,48(1):1-4. 被引量：124
9刘露,彭涛,左万利,戴耀康.一种基于聚类的PU主动文本分类方法[J].软件学报,2013,24(11):2571-2583. 被引量：24
10黄庆炬,吴珊.基于相对支持度的关联规则和序列模式分析[J].软件导刊,2007,6(7):3-4.

计算机工程与应用

2013年第10期

浏览历史

内容加载中请稍等...

基于信息熵理论的特征权重算法研究被引量：22

参考文献21

二级参考文献9

共引文献139

同被引文献184

引证文献22

二级引证文献223

相关作者

相关机构

相关主题

浏览历史

基于信息熵理论的特征权重算法研究 被引量：22

参考文献21

二级参考文献9

共引文献139

同被引文献184

引证文献22

二级引证文献223

相关作者

相关机构

相关主题

浏览历史

基于信息熵理论的特征权重算法研究被引量：22