-
题名一种改进的KNN文本分类算法
被引量:25
- 1
-
-
作者
樊存佳
汪友生
边航
-
机构
北京工业大学电子信息与控制工程学院
-
出处
《国外电子测量技术》
2015年第12期39-43,共5页
-
文摘
当今大数据时代,文本数据占相当大的比重,作为有效管理和组织文本数据的方法,分类逐渐成为关注的热点。KNN是一种经典的分类算法,针对其分类速度和分类精度无法同时兼顾的不足,采用改进的K-Medoids聚类算法裁剪对KNN分类贡献小的训练样本,从而减少KNN相似度的计算量,并定义代表度函数有差别地处理测试文本的K个最近邻文本,以提高KNN的分类精度。实验结果表明,改进后的方法在分类速度上和分类精度上均有明显地提高。
-
关键词
文本分类
KNN
裁剪训练样本
代表度函数
-
Keywords
text classification
KNN
cut the training samples
the representativeness function
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种改进的CHI文本特征选择方法
被引量:5
- 2
-
-
作者
樊存佳
汪友生
王雨婷
-
机构
北京工业大学电子信息与控制工程学院
-
出处
《计算机与现代化》
2016年第11期7-11,63,共6页
-
文摘
特征选择是文本分类过程中非常重要的环节。CHI统计是一种经典的特征选择方法,针对CHI统计方法存在的不足,一方面,为了兼顾特征项的文档频和词频,本文在CHI中引入词频因子和类间方差;另一方面,为了排除在指定类中很少出现但在其他类中普遍存在的特征项,降低人为选取比例因子带来的误差,本文在CHI中引入自适应比例因子。实验结果表明,与CHI统计方法相比,改进后的CHI特征选择方法提高了非平衡语料集上的分类准确度。
-
关键词
CHI统计
词频因子
类间方差
自适应比例因子
-
Keywords
CHI statistics
word frequency factor
variance among classes
adaptive sealing factor
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-