期刊文献+

不均衡数据集上文本分类的特征选择研究 被引量:20

A Study of Feature Selection for Text Categorization on Imbalanced Data
下载PDF
导出
摘要 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进.
出处 《计算机研究与发展》 EI CSCD 北大核心 2007年第z2期58-62,共5页 Journal of Computer Research and Development
基金 国家自然科学基金项目(60473002,60603094) 北京市自然科学基金项目(4051004)
  • 相关文献

参考文献13

  • 1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量:378
  • 2[2]Y Yang,JO Pedersen.A comparative study on feature selection in text categorization.In:Proc of the 14th Int'lConf on Machine Learning (ICML-97).San Francisco:Morgan Kaufmann Publishers,1997.412-420
  • 3[3]NV Chawla,N Japkowicz,A Kotcz.Editorial:Special issue on learning from imbalanced data sets.SIGKDD Explorations Newsletters,2004,6(1):1-6
  • 4[4]D Mladenic,M Grobelnk.Feature selection for unbalanced class distribution and naive bayes.In:Proc of the 16th Int'lConf on Machine Learning (ICML'99).San Francisco:Morgan Kaufmann Publishers,1999.258-267
  • 5陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量:126
  • 6[6]Bong,Chih How,K Narayanan.An empirical study of feature selection for text categorization based on term weightage.IEEE/WIC/ACM Int'lConf on Web Intelligence(WI'04),Beijing,2004
  • 7[7]Shoushan Li,Chengqing Zong.A new approach to feature selection for text categorization.IEEE Int'lConf on Natural Language Processing and Knowledge Engineering (NLP-KE),Wuhan,2005
  • 8[8]Castillo MDd,Serrano JI.A multistrategy approach for digital text categorization from imbalanced documents.SIGKDD Explorations Newsletter,2004,6(1):70-79
  • 9[9]Z Zheng,X Wu,R Srihari.Feature selection for text categorization on imbalanced data.SIGKDD Explorations,2004,6(1):80-89
  • 10[10]G Forman.An extensive empirical study of feature selection metrics for text classification.Journal of Machine Learning Research,2003,3(1):1289-1305

二级参考文献4

共引文献496

同被引文献191

引证文献20

二级引证文献182

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部