-
题名统计模式识别中的维数削减与低损降维
被引量:44
- 1
-
-
作者
宋枫溪
高秀梅
刘树海
杨静宇
-
机构
哈尔滨工业大学深圳研究生院
淮阴师范学院计算机系
炮兵学院二系
南京理工大学计算机系
-
出处
《计算机学报》
EI
CSCD
北大核心
2005年第11期1915-1922,共8页
-
文摘
较为全面地回顾了统计模式识别中常用的一些特征选择、特征提取等主流特征降维方法,介绍了它们各自的特点及其适用范围,在此基础上,提出了一种新的基于最优分类器———贝叶斯分类器的可用于自动文本分类及其它大样本模式分类的特征选择方法———低损降维.在标准数据集Reuters-21578上进行的仿真实验结果表明,与互信息、χ2统计量以及文档频率这三种主流文本特征选择方法相比,低损降维的降维效果与互信息、χ2统计量相当,而优于文档频率.
-
关键词
维数削减
特征选择
特征抽取
低损降维
文本分类
-
Keywords
dimensionality reduction
feature selection
feature extraction
low loss dimensionality reduction
text categorization
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名自动文本分类特征选择方法研究
被引量:45
- 2
-
-
作者
张海龙
王莲芝
-
机构
中国农业大学信息与电气工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2006年第20期3840-3841,共2页
-
文摘
文本分类是指根据文本的内容将大量的文本归到一个或多个类别的过程,文本表示技术是文本分类的核心技术之一,而特征选择又是文本表示技术的关键技术之一,对分类效果至关重要。文本特征选择是最大程度地识别和去除冗余信息,提高训练数据集质量的过程。对文本分类的特征选择方法,包括信息增益、互信息、2统计量、文档频率、低损降维和频率差法等做了详细介绍、分析、比较研究。
-
关键词
文本分类
特征选择
信息增益
互信息
X^2统计量法
文档频率
低损降维
频率差
-
Keywords
text categorization
feature selection
information gain
mutual information
X^2 statistics
document frequency
low loss dimensionality reduction
relative frequency difference
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-