一种基于KNN的文本分类算法被引量：1

An Algorithm for Text Classification Based on KNN

下载PDF

导出

摘要 KNN（K—Nearest Neighbor）是向量空间模型中最好的文本分类算法之一。但是，当样本集较大以及文本向量维数较多时，KNN算法分类的效率和准确率就会大大降低。该文提出了一种提高KNN分类效率的改进算法，并且改进了相似度的计算方法，能更准确的判断维数高且样本集大的文本向量。算法在训练过程中计算出各类文本在向量空间中的分布范围，在分类过程中，根据待分类文本向量在样本空间中的分布位置，缩小其K最近邻搜索范围。实验证实改进的算法可以在保持KNN分类性能基本不变的情况下，显著提高分类效率。 KNN （K-Nearest Neighbor） is one of the best text classification algorithms by Vector Support Model. However, its efficiency and accuracy rate are very low for text classification task with high dimension and huge samples. In this paper, a new algorithm is intro- duced to improve the efficiency rate. For high precision, we also have a new way to compute the similarity of two texts. The distribution of training samples of each class is computed in the training process. According to the position of the documents in the sample space, this al- gorithm can reduce the searching range of their K nearest neighbors in the classing process. The results of experiments show that this algo- rithm can save largely the classification time and has almost the same classification performance as that of the traditional KNN classification algorithm.

作者余悦蒙黄小斌 YU Yue-meng, HUANG Xiao-bin （School of Information Science and Engineering, Xiamen University, Xiamen 361005, China）

机构地区厦门大学信息科学与技术学院

出处《电脑知识与技术》 2012年第3期1564-1566,共3页 Computer Knowledge and Technology

关键词文本分类 K-最近邻算法 text classification KNN algorithm

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1刘慧,杨宏光.应用于中文文本分类的改进KNN算法[J].今日科苑,2010(8):54-55. 被引量：2
2孙荣宗.一种快速KNN文本分类算法[J].电脑知识与技术,2010,6(1):174-175. 被引量：5

二级参考文献10

1王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
2Yang Y.Expert network:Effective and efficient learning from human decisions in text categorizations in text categorization and retrieval[C]//The 17th International ACM SIGIR Conference on Research and development in Information Retrieval,1994:13-22.
3Aha D W,Kibler D,Albert M K.Instance-based learning algorithms[J].Machine Learning,1991(6):37-66.
4Aha D W.Lazy learning[M].Dordrecht:Kluwer Academic,1997.
5Hjahason G R,Hanan S.Index-driven similarity search in metric spaces[J].ACM Trans.on Database Systems,2003,28(4):517-580.
6Hinneburg A,Aggarwal C C,Keim D A.What is the nearest neighbor in high dimensional spaces[C]//The 26th International Conference on Very Large Data Bases,Cairo,Egypt,2000:506-515.
7Weber R,Schek H,Blott S.A quantitative analysis and performance study for similarity-search methods in high-dimensional spaces[C]//The 24th International Conference on Very Large Data Bases,Morgan Kaufman,1998:494-205.
8于一.K-近邻法的文本分类算法分析与改进[J].火力与指挥控制,2008,33(4):143-145. 被引量：5
9庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
10杨建良,王永成.基于KNN与自动检索的迭代近邻法在自动分类中的应用[J].情报学报,2004,23(2):137-141. 被引量：18

共引文献5

1刘辉,应培培.一种改进的KNN文本分类算法[J].信息安全与技术,2011,2(7):25-27. 被引量：2
2杨杰,陈俊周.一种基于单张图像的烟雾检测算法[J].西南科技大学学报,2011,26(3):59-62. 被引量：2
3苏丹,周明全,王学松,任玉芝.一种基于最少出现文档频的文本特征提取方法[J].计算机工程与应用,2012,48(10):164-166. 被引量：6
4胡元,石冰.基于区域划分的kNN文本快速分类算法研究[J].计算机科学,2012,39(10):182-186. 被引量：23
5张晶,梁燕,魏文俊.基于改进K-means算法的公共自行车站点区域划分[J].信息通信,2017,30(4):42-44. 被引量：2

同被引文献10

1刘星毅,农国才.几种不同缺失值填充方法的比较[J].南宁师范高等专科学校学报,2007,24(3):148-150. 被引量：8
2Little R,Rubin D.Statistical analysis with missing data[ M].2nd ed.New York:John Wiley and Sons,2002.
3Huang C C,Lee H M.A grey-based nearest neighbor approach for miss-ing attribute value prediction [ J ].Applied Intelligence,2004,20(3):239-252.
4Lakshminarayan K,Harp S A,Samad T.Imputation of missing data in industrial databases [ J ].Applied Intelligence,1999,11(3):259-275.
5Han J,Kamber M.Data mining concepts and techniques [ M ].2nd ed.San Francisco:Morgan Katffmann Publishers,2006.
6刘星毅,曾春华,江南雨,陈振华,韦小玲.缺失数据的处理和挑战[J].钦州学院学报,2008,23(6):25-29. 被引量：4
7苏毅娟.基于灰色关联分析的缺失值重复填补方法[J].计算机工程与应用,2009,45(15):169-172. 被引量：3
8刘星毅.基于马氏距离和灰色分析的缺失值填充算法[J].计算机应用,2009,29(9):2502-2504. 被引量：6
9刘星毅,檀大耀,曾春华,韦小铃.基于马氏距离的缺失数据填充算法[J].微计算机信息,2010,26(9):225-226. 被引量：6
10翟光群,王永生.聚类分析与模糊评判结合的入侵检测算法[J].计算机工程与应用,2012,48(21):99-102. 被引量：3

引证文献1

1张赤,丰洪才,金凯,杨婷.基于聚类分析的缺失数据最近邻填补算法[J].计算机应用与软件,2014,31(5):282-284. 被引量：13

二级引证文献13

1梁鲜,曲福恒,杨勇,才华.基于加权处罚的K-均值优化算法[J].长春理工大学学报（自然科学版）,2015,38(4):132-137. 被引量：2
2谷欣超,梁鲜,曲福恒,才华,杨勇.基于处罚的K-均值优化算法[J].长春理工大学学报（自然科学版）,2015,38(6):103-107. 被引量：1
3刘明伟,张晓滨,杨东山.改进RGM的用户情景状态序列信息预测方法[J].西安工程大学学报,2016,30(3):359-363. 被引量：3
4王妍,王凤桐,王俊陆,宋宝燕,石展.基于泛化中心聚类的不完备数据集填补方法[J].小型微型计算机系统,2017,38(9):2017-2021. 被引量：11
5杨杰,杨虎,王鲁滨,金鑫,郭华,于亮亮.高维相关性缺失数据的分块填补算法研究[J].计算机科学与探索,2017,11(10):1557-1569. 被引量：6
6赵霞,张勇,尹宝才,刘浩,张可.基于改进k~*-means算法的不完整公交到站时间填充[J].北京工业大学学报,2018,44(1):135-143. 被引量：3
7孙玉东,王欢.缺失数据情形下期望收益率和波动率估计的潜变量MCMC抽样方法[J].湖北民族学院学报（自然科学版）,2019,37(3):277-281.
8解小东,陈治华.基于kNN-DBSCAN的缺失数据填补优化算法[J].工业控制计算机,2020,33(4):58-60. 被引量：4
9袁瑶瑶,康雁,李浩,牛瑞丞,梁文韬,李晋源.基于ST-DCGAN的时序交通流量数据补全[J].计算机工程与应用,2020,56(15):140-146. 被引量：7
10陈娟,王献雨,罗玲玲,崔晶晶.缺失值填补效果:机器学习与统计学习的比较[J].统计与决策,2020(17):28-32. 被引量：18

1孙荣宗.一种快速KNN文本分类算法[J].电脑知识与技术,2010,6(1):174-175. 被引量：5
2王一蕾,林世平.Web文本挖掘三种技术的比较[J].福建电脑,2003,19(12):20-21. 被引量：3
3马宁,常骥.基于BP神经网络的手写数字识别研究[J].哈尔滨师范大学自然科学学报,2009,25(4):89-91. 被引量：9
4张枝令.结构化数据及非结构化数据的分类方法[J].宁德师专学报（自然科学版）,2007,19(4):417-420. 被引量：14
5刘应东,牛惠民.基于k-最近邻图的小样本KNN分类算法[J].计算机工程,2011,37(9):198-200. 被引量：27
6刘华元,袁琴琴,王保保.并行数据挖掘算法综述[J].电子科技,2006,19(1):65-68. 被引量：15
7王斌,赵智超,邵华清.文本分类算法研究[J].计算机光盘软件与应用,2011(12):117-117.
8李国志,王洪春,李世全.一种基于分类的关联规则Apriori算法[J].江南大学学报（自然科学版）,2009,8(5):535-538. 被引量：3
9潘峰,丁云飞,汪为农.两种基于统计的入侵检测技术[J].上海交通大学学报,2004,38(z1):204-207. 被引量：1
10冀胜利,李波.基于SVM的中文文本分类算法[J].重庆工学院学报（自然科学版）,2008,22(7):84-87. 被引量：5

电脑知识与技术

2012年第3期

浏览历史

内容加载中请稍等...

一种基于KNN的文本分类算法被引量：1

参考文献2

二级参考文献10

共引文献5

同被引文献10

引证文献1

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种基于KNN的文本分类算法 被引量：1

参考文献2

二级参考文献10

共引文献5

同被引文献10

引证文献1

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种基于KNN的文本分类算法被引量：1