-
题名一种基于最大边缘相关的特征选择方法
被引量:9
- 1
-
-
作者
刘赫
张相洪
刘大有
李燕军
尹立军
-
机构
吉林大学计算机科学与技术学院
中国人民解放军总后勤部军需装备研究所
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2012年第2期354-360,共7页
-
基金
国家自然科学基金项目(60873149
60973088)
+3 种基金
中央高校吉林大学基本科研业务费专项资金基金项目(200903192
200903181
200903189
93K-17-2009-Z06)
-
文摘
文本分类的特点是高维的特征空间和高度的特征冗余.针对这两个特点,采用χ2统计量处理高维的特征空间,利用信息新颖度的思想处理高度的特征冗余,根据最大边缘相关的定义,将二者有机结合,提出一种基于最大边缘相关的特征选择方法.该方法可以在特征选择过程中减少大量的冗余特征.最后,在Reuters-21578Top10和OHSCAL两个文本数据集上进行实验.实验结果表明,基于最大边缘相关的特征选择方法比χ2统计量和信息增益两种特征选择方法更高效,并且能够提高nave Bayes,Rocchio和kNN 3种不同分类器的性能.
-
关键词
文本分类
特征选择
最大边缘相关
CHI
信息新颖度
-
Keywords
novelty text categorization
feature selection
maximal marginal relevance
CHI
information
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP18
[自动化与计算机技术—控制理论与控制工程]
-