期刊文献+

多因素影响的特征选择方法 被引量:3

A Feature Selection Based on Consideration of Multiple Factors
原文传递
导出
摘要 在特征选择过程中,通过特征选择评估函数得到的词的权值大小决定该词是否作为特征词,然而词的权值受多种因素影响,主要因素有词的重要性、特征性和代表性。从以上几个因素出发,构建新的特征选择函数TW,通过对词的卡方分布CHI、信息增益IG和新的特征选择函数TW做对比实验,验证TW能够提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值;将TW作为新的特征选择算法,通过在中文分类语料库中分别采用KNN、类中心和支持向量机(SVM)三种分类方法进行实际分类实验,并与其他特征选择算法进行比较,验证该特征选择算法的有效性。 In the process of feature selection, term's weight determines whether the term can be a feature. But the weight is affected by many factors, the main factors are term's importance, characteristics and representative. With the consideration of those factors, a new function TW ( Term Weight) based on the importance of the feature and the ability of category distinguishing, is brought to be an improved method to select features. After that, experiments on the comparison between term's CHI, IG and TW validate that TW can increase the weight of special features in a class and can decrease the weight of unimportant features. Finally, the validity of the new algorithm in feature selection is proved by the classifi- cation experiments on Chinese classification corpus by three classifiers.
出处 《现代图书情报技术》 CSSCI 北大核心 2013年第5期34-39,共6页 New Technology of Library and Information Service
基金 国家高技术研究发展计划(863计划)资助项目"农产品全供应链多源信息感知技术与产品开发"(项目编号:2012AA101701)的研究成果之一
关键词 文本分类 特征选择 类别区分 TF-IDF Text categorization Feature selection Class discrimination TF-IDF
  • 相关文献

参考文献8

二级参考文献68

共引文献371

同被引文献30

  • 1王峻.一种基于属性相关性度量的朴素贝叶斯分类模型[J].安庆师范学院学报(自然科学版),2007,13(2):14-16. 被引量:5
  • 2王静帆.基于文本相似度的二阶段招聘信息检索[D].北京:清华大学,2007.
  • 3Duan Y X, Lei H. The Formal Definitions of Semantic Web Serv- ices and Satisfiability [ J ]. International Journal of Advancements in Computing Technology, 2012,4 ( 23 ) : 327 - 335.
  • 4Lee M C. A Novel Sentence Similarity Measure for Semantic - based Expert Systems [ J ]. Expert Systems with Applications, 2011, 38(5) :6392 -6399.
  • 5刘兵.Web数据挖掘[M].北京:清华大学出版社,201l:113-119.
  • 6唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量:134
  • 7Yang Y, Pedersen J O. A comparative study on feature selection in text categorization[J]. In: Fisher D H, (eds.). Proceedings of the 14th International Conference on Machine Learning ( ICML ' 97) , Nashville, US: Morgan Kaufmann Publishers, San Fran- cisco, US, 1997:412 -420.
  • 8Joachims T. Text categorization with support vector machines: learning with many relevant Features [ C ]. In Proceedings of the 10th European Conference on Machine Learning, Chemnitz, DE, 1998 : 137 - 142 .
  • 9徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量:83
  • 10沈志斌,白清源.文本分类中特征权重算法的改进[J].南京师范大学学报(工程技术版),2008,8(4):95-98. 被引量:14

引证文献3

二级引证文献7

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部