一种基于粗糙集的改进KNN文本分类算法被引量：3

An Improved KNN Text Categorization Algorithm Based on Rough Set

下载PDF

导出

摘要 K最近邻算法(KNN)被认为是向量空间模型下最好的分类算法之一。在准确率和召回率方面比较出众,但随着样本数量的增加其相似度计算开销很大。提出一种改进算法RS-KNN,主要是利用粗糙集的相关理论,计算训练样本集中各样本子类的上近似空间和下近似空间,根据待分类文本出现在不同的近似空间。以缩减与待分类样本计算相似度的训练样本个数。实验表明此算法能够有效地降低分类计算开销。 KNN algorithm is efficient text categorization algorithm in recall and precision, but the computation- al overhead of text similarity is higher when the number of texts is larger. Aiming at the problem of the KNN, an improved algorithm named RS-KNN based on rough set theory is proposed. According to the upper approximation space and lower approximation space of sample subsets, the algorithm can classify the part of texts driectly. Results of the experiment indicate the RS-KNN reduce computational overhead of text classification.

作者苟和平景永霞冯百明李勇

机构地区琼台师范高等专科学校信息技术系西北师范大学数学与信息科学学院

出处《科学技术与工程》北大核心 2012年第20期4926-4929,共4页 Science Technology and Engineering

基金教育部科学技术研究重点项目(208148) 琼台师范高等专科学校项目(qtkz201006)资助

关键词 K最近邻文本分类粗糙集近似空间 KNN text classification rough set approximation space

分类号 TP391.75 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1卜凡军,钱雪忠.基于向量投影的KNN文本分类算法[J].计算机工程与设计,2009,30(21):4939-4941. 被引量：10
2Sumsung. $3C2440A 32 - BIT RISC MICROPROCESSOR USERS MANUAL[ EB/OL] [201 -06 - 1 ]. http: www. datasheetsite, com/ dat asheet/s3c2410x.
3刘海峰,张学仁,姚泽清,刘守生.基于类别选择的改进KNN文本分类[J].计算机科学,2009,36(11):213-216. 被引量：9
4Piro P, Anthoine S, Debreuve E, et al. Sparse multiscale patches (SMP) for image categorization, http ://hal. archives - ouvertes, fr/ docs/00/38/27/71/PDF/MMM09_piro, pdf. 2011 - 07 - 3.
5王洪彬,刘晓洁.基于KNN的不良文本过滤方法[J].计算机工程,2009,35(24):69-71. 被引量：7
6潘丽芳,杨炳儒.基于簇的K最近邻(KNN)分类算法研究[J].计算机工程与设计,2009,30(18):4260-4262. 被引量：27
7Zhang H, Berg A C, Maire M. Discriminative nearest neighbor clas- sification for visual category recognition. In: CVPR 06, IEEE com- puter society, Los Alamitos, CA, 2006:2126-2136.

二级参考文献28

1李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
2王秀娟,郭军,郑康锋.文本分类中一种新的特征选择方法[J].计算机应用,2005,25(3):661-663. 被引量：15
3李青,焦李成,周伟达.基于向量投影的支撑向量预选取[J].计算机学报,2005,28(2):145-152. 被引量：37
4李强,李建华.基于向量空间模型的过滤不良文本方法[J].计算机工程,2006,32(10):4-5. 被引量：14
5杨丽华,戴齐,郭艳军.KNN文本分类算法研究[J].微计算机信息,2006,22(07X):269-270. 被引量：24
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：383
7王煜,王正欧,白石.用于文本分类的改进KNN算法[J].中文信息学报,2007,21(3):76-82. 被引量：15
8印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13
9卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
10刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14

共引文献47

1东野升鹍,朱大明,姚杰,付志涛,杜思雨.基于多回波Jaccard系数的近地点滤波算法[J].中国水运（下半月）,2023(2):22-24.
2刘锋,白凡.一种改进的K近邻算法在网页分类中的应用[J].电子技术（上海）,2010(7):30-31. 被引量：1
3王春艳,程霜梅,杨鑫.基于聚簇样本约减的K-近邻神经网络分类器[J].情报科学,2010,28(10):1547-1549.
4王一夫,许鹏,杨小林,韩宇.数据挖掘中两种简单分类算法的比较[J].长沙通信职业技术学院学报,2010,9(4):22-25. 被引量：2
5王辉,张成锁,卓呈祥.一种改进的相对熵特征选择方法[J].计算机工程,2011,37(10):167-169. 被引量：1
6周靖,刘晋胜.特征联合熵的一种改进K近邻分类算法[J].计算机应用,2011,31(7):1785-1788. 被引量：8
7张倩,丁友东,蓝建梁,涂意.基于ASM和K近邻算法的人脸脸型分类[J].计算机工程,2011,37(11):212-214. 被引量：6
8周靖,刘晋胜.基于特征熵相关度差异的KNN算法[J].计算机工程,2011,37(17):146-148. 被引量：5
9周牒岚,陈琳,向华.数据挖掘算法研究[J].现代电子技术,2011,34(20):75-78. 被引量：8
10张健飞,陈黎飞,郭躬德,李南.多代表点的子空间分类算法[J].计算机科学与探索,2011,5(11):1037-1047. 被引量：6

同被引文献34

1梁吉业,李超伟,魏巍.基于Rough Sets的特征选择研究进展[J].山西大学学报（自然科学版）,2012,35(2):211-218. 被引量：2
2李订芳,李贵斌,章文.基于U/{a}划分的最小约简构造[J].武汉大学学报（理学版）,2005,51(3):269-272. 被引量：7
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：383
4倪茂树,时达明,林鸿飞.基于粗糙集属性约简的文本分类[J].郑州大学学报（理学版）,2007,39(2):100-103. 被引量：7
5张保富.基于粗糙集的中文文本分类算法研究及应用[J].江苏大学.2010,12(5):34-37.
6SCIENCE S. Challenges and opportunities[ J ]. Science, 2011, 331 (6018) : 692 - 693.
7MITRA S, PABITRA, PAL S K. Data mining in soft computing framework: a survey[ J]. IEEE Transactions on Neural Networks, 2002, 13 (1) : 3 -14.
8孙宇,刘憬,张宇,等.基于分词和倒排索引的短文本检索技术的研究与实现[C].黑龙江省计算机学会学术交流年会.哈尔滨:2007.
9MARON M. Automatic indexing : an experimental inquiry [ J ]. Journal of the Association for Computing Machinery, 1961, 8 ( 3 ) : 404 - 417.
10张著英,黄玉龙,王翰虎.一个高效的KNN分类算法[J].计算机科学,2008,35(3):170-172. 被引量：55

引证文献3

1陈沛,毛安定.基于粗糙集的中文文本分类算法与应用[J].中国新通信,2013,15(23):73-73.
2朱敏玲.属性序下的粗糙集与KNN相结合的英文文本分类研究[J].黑龙江大学自然科学学报,2015,32(3):404-408. 被引量：1
3潘峰,苏浩辀,段艳,闵云霄.多核CPU环境下的并行KNN算法设计[J].计算机时代,2023(7):34-37.

二级引证文献1

1朱敏玲,吴海艋,石磊.粗糙集规则匹配算法及其在文本分类中的应用[J].计算机系统应用,2018,27(4):131-137. 被引量：1

1邱宁佳,郭畅,杨华民,王鹏,温暖.基于MapReduce编程模型的改进KNN分类算法研究[J].长春理工大学学报（自然科学版）,2017,40(1):110-114. 被引量：3
2杜琳娜,闫光辉,杨霞霞,刘利松.一种改进的KNN中文文本分类算法[J].软件导刊,2010,9(2):51-53. 被引量：2
3刘海峰,姚泽清,刘守生,苏展.基于聚类降维的改进KNN文本分类[J].微计算机信息,2010,26(3):18-20. 被引量：2
4路永和,何新宇.基于维度索引表的改进KNN分类算法[J].情报理论与实践,2014,37(5):102-106. 被引量：3
5曾泳泓,成礼智.论加强“科学计算”训练的重要性[J].高等教育研究（长沙）,1997,5(1):54-56.
6阴爱英.决策树ID3算法的一种改进[J].电子世界,2014(22):433-434. 被引量：1
7古丽娜孜,孙铁利,胡西旦,伊力亚尔,库瓦特拜克.一种基于改进KNN的哈萨克语文本分类[J].东北师大学报（自然科学版）,2014,46(2):63-68. 被引量：4
8刘海峰,陈琦,刘守生,苏展.一种基于数据偏斜的改进KNN文本分类[J].微电子学与计算机,2010,27(3):51-53. 被引量：3
9孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36
10范恒亮,成卫青.一种基于关联分析的KNN文本分类方法[J].计算机技术与发展,2014,24(6):71-74. 被引量：4

科学技术与工程

2012年第20期

浏览历史

内容加载中请稍等...

一种基于粗糙集的改进KNN文本分类算法被引量：3

参考文献7

二级参考文献28

共引文献47

同被引文献34

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于粗糙集的改进KNN文本分类算法 被引量：3

参考文献7

二级参考文献28

共引文献47

同被引文献34

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于粗糙集的改进KNN文本分类算法被引量：3