文本分类中特征选择的约束研究被引量：26

A Study on Constraints for Feature Selection in Text Categorization

下载PDF

导出

摘要特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法,为此提出了一种定性地评估特征选择函数性能的方法,并且定义了一组与分类信息相关的基本的约束条件.分析和实验表明,IG完全满足该约束条件,DF不能完全满足,MI和该约束相冲突,即一个特征选择算法的性能在实验中的表现与它是否满足这些约束条件是紧密相关的. Text categorization （TC） is the process of grouping texts into one or more predefined categories based on their content. Due to the increased availability of documents in digital form and the rapid growth of online information, TC has become a key technique for handling and organizing text data. One of the most important issues in TC is feature selection （FS）. Many FS methods have been put forward and widely used in the TC field, such as information gain （IG）, document frequency thresholding （DF） and mutual information. Empirical studies show that some of these （e.g. IG, DF） produce better categorization performance than others （e.g. MI） . A basic research question is why these FS methods cause different performance. Many existing works seek to answer this question based on empirical studies. In this paper, a theoretical performance evaluation function for FS methods is put forward in text categorization, Some basic desirable constraints that any reasonable FS function should satisfy are defind and then these constraints on some popular FS methods are checked, including IG, DF and MI. It is found that IG satisfies these constraints, and that there are strong statistical correlations between DF and the constraints, whilst MI does not satisfy the constraints. Experimental results on Reuters 21578 and OHSUMED corpora show that the empirical performance of a feature selection method is tightly related to how well it satisfies these constraints.

作者徐燕李锦涛王斌孙春明张森

机构地区中国科学院计算技术研究所

出处《计算机研究与发展》 EI CSCD 北大核心 2008年第4期596-602,共7页 Journal of Computer Research and Development

基金国家自然科学基金项目(60473002,60603094) 北京自然科学基金项目(4051004)

关键词特征选择文本分类信息检索信息增益互信息 feature selection text categorization information retrieval information gain mutual information

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
2Y Yang, J O Pedersen. A comparative study on leature selection in text categorization [C]. In: D H Fisher, ed. Proc of the 14th Int'l Conf on Machine Franicisco: Morgan Kaufmann, Learning ( ICML-97 ) . San 1997. 412-420
3单松巍,冯是聪,李晓明.几种典型特征选取方法在中文网页分类上的效果比较[J].计算机工程与应用,2003,39(22):146-148. 被引量：76
4Ying Liu. A comparative study on feature selection methods for drug discovery [J]. Chemical Information Computer Science, 2004, 44:1823-1828
5Stewart M Yang, Xiao-Bin Wu, Zhi-Hong Deng, et al. Modification of feature selection methods using relative term frequency [C]. ICMLC-2002, Beijing, 2002
6J R Quinlan. Induction of decision trees [J]. Machine Learning, 1986, 1(1): 81-106
7Fabrizio Sebastiani. Machine learning in automated text categorization [ J ]. ACM Computing Surveys, 2002, 34 ( 1 ) : 1 -47
8Kenneth Ward Church, Patrick Hanks. Word norms, mutual information and lexicography [C] Annual Meeting on Association for Computational (ACL 27), Vancouver, Canada, 1989 association The 27th
9S R S Varadhan. Probability Theory [M]. New York: New York University Publisher, 2000
10Andrew Moore. Statistical Data Mining Tutorials [OL]. http: //www. autonlab. org/tutorials/, 2006-06-16

二级参考文献30

1李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
2冯是聪单松巍张志刚等.一个中文网页数据集及其分类体系[A]..海峡两岸技术交流会[C].南京,2002-10.121-129.
3Yiming Yang,Jan O Pedersen.A comparative Study on Feature Selection in Text Categorization[C].In :Proceedings of the Fourteenth International Conference on Machine Leaming(ICML'97), 1997.
4Yiming Yang,Xin Liu.A re-examination of text categorization methods[C].In:Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval SIGIR'99,1999:42---49.
5Yiming Yang.A study on thresholding strategies for text categorization[C].In:Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR'01),2001.
6T M Cover,P E Hart.Nearest neighbor pattern classification[J].IEEE Trans on Information Theory,1967,IT-13(1):21-27
7Y Yang.An evaluation of statistical approaches to text categorization[J].Information Retrieval,1999,1(1/2):67 -88
8Y Yang,X Lin.A re-examination of text categorization methods[C].The 22nd Annual Int'l ACM SIGIR Conf on Research and Development in the Information Retrieval,Berkeley,California,USA,1999
9B Masand,G Lino,D Waltz.Classifying news stories using memory based reasoning[C].The 15th Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval,Copenhagen,Denmark,1992
10D D Lewis.Naive (Bayes) at forty:The independence assumption in information retrieval[C].The 10th European Conf on Machine Learning,Heidelberg,Germany,1998

共引文献110

1张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
2高博,朱东华,韩士雄.一种智能化的信息采集系统的研究与实现[J].兵工学报,2009,30(S1):130-134. 被引量：3
3陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
4任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
5江祥奎,原思聪.中文网页分类中的网页特征提取方法[J].电脑开发与应用,2005,18(10):27-28. 被引量：1
6马光志,张生庭.基于关联规则的Web文档分类[J].计算机工程与设计,2005,26(9):2515-2518. 被引量：8
7薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报,2005,19(4):59-63. 被引量：63
8付雪峰,刘邱云,王明文.基于互信息的粗糙集信息检索模型[J].山东大学学报（理学版）,2006,41(3):17-19. 被引量：2
9谭金波,黄峰,杨晓江,李艺.一种改进的互信息特征选择算法[J].情报学报,2006,25(6):651-656. 被引量：7
10陈振洲,邹丽珊.基于改进SVM的特征选择[J].邵阳学院学报（自然科学版）,2007,4(1):58-63.

同被引文献260

1赵卫东,盛昭瀚.基于快速模拟退火的案例检索模型研究[J].管理工程学报,2001,15(1):77-79. 被引量：4
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
4徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
5任家东,孙亚非,郭盛.基于约束的交互式频繁模式挖掘算法[J].计算机研究与发展,2007,44(z3):257-262. 被引量：1
6张茂元,卢正鼎.基于特征选取及模糊学习的网页分类方法研究[J].小型微型计算机系统,2004,25(7):1397-1400. 被引量：4
7于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
8李德毅,刘常昱.论正态云模型的普适性[J].中国工程科学,2004,6(8):28-34. 被引量：895
9李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
10李德毅,刘常昱,杜鹢,韩旭.不确定性人工智能[J].软件学报,2004,15(11):1583-1594. 被引量：401

引证文献26

1徐沛娟,李雄飞,惠玥,张桂林.中文文本分类相关算法的研究与实现[J].吉林大学学报（理学版）,2009,47(4):790-794. 被引量：13
2谢文彪,樊绍胜,樊晓平.一种可最优化计算特征规模的互信息特征提取[J].控制与决策,2009,24(12):1810-1815. 被引量：3
3谢文彪,樊绍胜,费洪晓,樊晓平.基于互信息梯度优化计算的信息判别特征提取[J].电子与信息学报,2009,31(12):2975-2979. 被引量：8
4刘铭,王晓龙,刘远超.基于词汇链的关键短语抽取方法的研究[J].计算机学报,2010,33(7):1246-1255. 被引量：14
5妥晓娜,吴承勇.基于逻辑斯蒂方程的垃圾邮件过滤特征方法的研究[J].内蒙古大学学报（自然科学版）,2010,41(4):450-455.
6赵延平,谢丽聪.面向电信领域的文本分类研究[J].计算机与现代化,2011(2):49-52.
7郭宁,孙晓妍,林和,牟华.基于属性序约简的恶意代码检测[J].计算机应用,2011,31(4):1006-1009. 被引量：4
8代劲,何中市,胡峰.基于云模型的文本特征自动提取算法[J].中南大学学报（自然科学版）,2011,42(3):714-720. 被引量：4
9陈丹雯,张俊,韩兵,吴玲达.基于改进词袋模型的相似关键帧匹配方法[J].计算机工程与设计,2011,32(8):2752-2755. 被引量：4
10熊忠阳,付玲玲,张玉芳.文本分类中基于概念映射的二次特征降维方法[J].计算机工程与应用,2012,48(1):166-169. 被引量：1

二级引证文献186

1李文宽,刘培玉,朱振方,刘文锋.基于卷积神经网络和贝叶斯分类器的句子分类模型[J].计算机应用研究,2020,37(2):333-336. 被引量：11
2李巍,孙涛,陈建孝,罗梓恒,李雄飞.基于加权余弦相似度的XML文档聚类研究[J].吉林大学学报（信息科学版）,2010,28(1):68-76. 被引量：10
3李会,王立峰.Web网页文本特征选择方法研究[J].计算机工程与设计,2010,31(16):3724-3727. 被引量：4
4徐洪章,牛小梅,廖海斌.一种互信息梯度不变的非线性特征提取方法[J].计算机应用研究,2010,27(12):4495-4497.
5李鑫,王璐,林金花,韩冬,谷德山.4种计算自然常数e的方法及精度比较[J].东北师大学报（自然科学版）,2010,42(4):57-61. 被引量：4
6吴湜,李成海.基于模式识别的地空导弹武器系统组网研究[J].飞航导弹,2011(4):34-36.
7丁军平,蔡皖东.面向元信息分类的支持向量机改进技术[J].西安交通大学学报,2011,45(8):37-42. 被引量：1
8林岳松,陈琳,郭宝峰.基于数据驱动的信息融合及其在车辆声辨识中的应用[J].电子与信息学报,2011,33(9):2158-2163. 被引量：8
9宋培彦,杨代庆.基于语义网络的中文词汇链构造方法[J].图书情报工作,2011,55(22):26-29. 被引量：6
10徐洪章,郝宁波,廖海斌.融合互信息与线性变换的非线性特征提取[J].计算机工程与应用,2011,47(36):222-225.

1梁霄,孟相如,陈铎龙,庄绪春.基于支持向量数据描述的网络可生存性综合评估[J].计算机应用研究,2013,30(3):853-855. 被引量：2
2吴喆,曾接贤,高琪琪.显著图和多特征结合的遥感图像飞机目标识别[J].中国图象图形学报,2017,22(4):532-541. 被引量：13
3刘帅,杨英杰,刘武越.一种面向聚类的加权特征选择算法[J].计算机应用研究,2015,32(12):3596-3599. 被引量：1
4魏道培.质量评估特征如何依赖测试协议[J].中国纤检,2009(8):59-61.
5邓杰,钱雪忠,钱恒,吴秦.基于特征选择的统计最优样本大小算法[J].计算机应用研究,2014,31(12):3535-3538. 被引量：3
6李秋洁,茅耀斌,王执铨.基于多配置特征包的目标检测[J].模式识别与人工智能,2011,24(6):869-874. 被引量：1
7耿耀君,张军英,袁细国.一种基于稀疏表示系数的特征相关性测度[J].模式识别与人工智能,2013,26(1):106-113. 被引量：1
8焦庆争,蔚承建.高效的信任机制线性文本分类方法[J].计算机工程与设计,2010,31(10):2367-2371.
9郭琴琴,李淑琴,包华.亚马逊棋机器博弈系统中评估函数的研究[J].计算机工程与应用,2012,48(34):50-54. 被引量：13
10马德青.本科教学工作审核评估特征的探讨[J].北京教育（高教）,2014(2):50-50. 被引量：4

计算机研究与发展

2008年第4期

浏览历史

内容加载中请稍等...

文本分类中特征选择的约束研究被引量：26

参考文献14

二级参考文献30

共引文献110

同被引文献260

引证文献26

二级引证文献186

相关作者

相关机构

相关主题

浏览历史

文本分类中特征选择的约束研究 被引量：26

参考文献14

二级参考文献30

共引文献110

同被引文献260

引证文献26

二级引证文献186

相关作者

相关机构

相关主题

浏览历史

文本分类中特征选择的约束研究被引量：26