期刊文献+

基于改进的类别分布特征选择方法

A Feature Selection Method Based on Improved Category Distribution
下载PDF
导出
摘要 随着网络上非平衡数据的大量涌现,使得对非平衡数据分类的研究成为一个新的研究热点.根据特征在类别中的分布特点,提出了基于类间、类内分布的方法.该方法不但充分考虑了稀有类别信息对特征选择的影响,使得构造的类别分布函数能够相当好地反映稀有特征的信息,而且能够选出对非平衡数据分类贡献大的特征.实验结果表明:此方法的MacroF1和MicroF1皆优于基于类别分布的特性选择(Category Distribution-Based Feature Selection,CDFS)和类别信息的方法. With the unbalanced data set emerging in large numbers on the internet,the research on the unbalanced data classification becomes a new hotspot.According to the feature's distribution characteristics in the classification,a new feature selection method based on inter-class and between-classes distributions was proposed.The proposed method not only takes full account of the rare category of information's impact on the feature selection,making the constructed distribution function well reflect the characteristics of rare information,but also selects the features of significant contribution for unbalanced data classification.The experimental results show that both MacroF1 and MicroF1 of the proposed method have advantages over Category DistributionBased Feature Selection(CDFS) method and the class information method.
出处 《中北大学学报(自然科学版)》 CAS 北大核心 2011年第2期139-142,共4页 Journal of North University of China(Natural Science Edition)
基金 国家自然科学基金资助项目(60875040 60970014) 教育部高等学校博士点基金资助项目(200801080006) 山西省自然科学基金资助项目(2010011021-1 2007011042) 太原市科技局明星专项基金资助项目(09121001)
关键词 非平衡数据集 特征选择 文本分类 类别分布 机器学习 unbalanced data set feature selection text classification category distribution machine learning
  • 相关文献

参考文献7

二级参考文献50

共引文献109

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部