基于簇的K最近邻(KNN)分类算法研究被引量：27

Study on KNN arithmetic based on cluster

下载PDF

导出

摘要传统K最近邻(KNN)分类算法为了找出待分类文本的k个邻居,需要与样本空间中的每个样本向量作比较,当训练样本较多时,导致相似度计算次数过多,分类速度下降。为此,改进了传统KNN算法,将训练文本中相似度大的文本合并,称为一簇,并计算簇的中心向量。待分类文本先与每一簇的中心向量计算相似度,当相似度达到某个阈值时,再与簇中的每个文本计算相似度,在一定程度上减少了相似度计算次数,降低了算法的时间复杂度。根据同一特征出现在文本中的位置不同应具有不同的权重改进了传统的TF-IDF计算公式。 Traditional KNN arithmetic compares with every sample vector in sample space in order to find k neighbors of classification of the sample. This causes computing times too much and system performance degrades. So, the traditional KNN arithmetic, dusters training document with highly overlapping word is improved, central vector of cluster is gained. In the text classifcation process, first comparability is compared with central vector of each cluster, then comparability is compared with each document in cluster when comparability with central vector reach threshold. Computing times are reduced at a certain extent. At the same time, improve the IF-IDF formula so as to term＇ s position in the text is different, it should have difference weigh.

作者潘丽芳杨炳儒

机构地区北京科技大学信息工程学院

出处《计算机工程与设计》 CSCD 北大核心 2009年第18期4260-4262,共3页 Computer Engineering and Design

基金国家自然科学基金项目(60675030/F030502)

关键词 KNN算法相似度计算次数簇中心向量 TF_IDF算法 KNN comparability computing times cluster central vector TF-IDF

分类号 TP311.12 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1台德艺,谢飞,胡学钢.文本分类技术研究[J].合肥学院学报（自然科学版）,2007,17(3):61-64. 被引量：6
2卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
3刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
4Kristof Coussenment, Dirk Van den Poel. Inproving customer complaint management by automatic email classification using linguistic style features as predictors[EB/OL].http://www. elsevier.com/locate/dss,2007.
5林永民,朱卫东.模糊kNN在文本分类中的应用研究[J].计算机应用与软件,2008,25(9):185-187. 被引量：4
6黄旭,朱艳琴,罗喜召.实时文本分类系统的研究与实现[J].计算机工程,2008,34(18):87-88. 被引量：5
7秦玉平,艾青,王秀坤,李祥纳,刘卫江.基于支持向量机的兼类文本分类算法研究[J].计算机工程与设计,2008,29(2):408-410. 被引量：8

二级参考文献60

1罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型[J].清华大学学报（自然科学版）,2005,45(S1):1853-1856. 被引量：4
2许建华,张学工,李衍达.支持向量机的新发展[J].控制与决策,2004,19(5):481-484. 被引量：132
3孙晋文,肖建国.基于SVM的中文文本分类反馈学习技术的研究[J].控制与决策,2004,19(8):927-930. 被引量：16
4周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
5卢新国,林亚平,陈治平.一种改进的互信息特征选取预处理算法[J].湖南大学学报（自然科学版）,2005,32(1):104-107. 被引量：12
6王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
7王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
8代六玲,黄河燕,陈肇雄.一种文本分类的在线SVM学习算法[J].中文信息学报,2005,19(5):11-15. 被引量：13
9郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
10王晔,黄上腾.基于支持向量机的文本兼类标注[J].计算机工程与应用,2006,42(2):182-185. 被引量：10

共引文献61

1李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
2丁志刚,王小捷.一种基于类别意图的信息检索模型[J].郑州大学学报（理学版）,2009,41(1):59-63.
3李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
4常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
5陆宏菊,刘培玉,崔嘉.结合模糊聚类的遗传算法在网络信息过滤中的应用[J].计算机应用,2008,28(3):703-705. 被引量：1
6刘华.面向对外汉语教学的话题聚类研究[J].外语研究,2008,25(5):55-60. 被引量：5
7赵俊杰,胡学钢.基于文本分类的文档相似度计算[J].微型电脑应用,2008,24(12):46-47. 被引量：6
8方辉.支持向量机多分类算法的研究[J].福建电脑,2009,25(4):84-84. 被引量：1
9方辉,艾青.支持向量机训练及分类算法研究[J].大庆师范学院学报,2009,29(3):85-88. 被引量：3
10倪洁琼,吴耿锋,郑宇.基于关系权重的文本表示法[J].计算机应用与软件,2009,26(5):68-69.

同被引文献364

1李锋刚,倪志伟,杨善林,黄玲.案例推理中属性约简及其性能评价[J].清华大学学报（自然科学版）,2006,46(z1):1025-1029. 被引量：12
2钟延辉,傅彦,陈安龙,关娜.基于抽样的垃圾短信过滤方法[J].计算机应用研究,2009,26(3):933-935. 被引量：15
3单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
4曹健,陈红倩,毛典辉,李海生,蔡强.基于局部特征的图像目标识别问题综述[J].中南大学学报（自然科学版）,2013,44(S2):258-262. 被引量：14
5李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
6张愚,王建国.再论“空间句法”[J].建筑师,2004(3):33-44. 被引量：331
7姚美村,张燕玲,袁月梅,艾路,乔延江.中药药性量化方法对补虚药功效归类预测的研究[J].北京中医药大学学报,2004,27(4):7-9. 被引量：13
8鞠平,戴琦,黄永皓,付红军,何南强.我国电力负荷建模工作的若干建议[J].电力系统自动化,2004,28(16):8-12. 被引量：35
9邓爱林,左子叶,朱扬勇.基于项目聚类的协同过滤推荐算法[J].小型微型计算机系统,2004,25(9):1665-1670. 被引量：147
10王飞,孙莹.配电网故障定位的改进矩阵算法[J].电力系统自动化,2003,27(24):45-46. 被引量：89

引证文献27

1东野升鹍,朱大明,姚杰,付志涛,杜思雨.基于多回波Jaccard系数的近地点滤波算法[J].中国水运（下半月）,2023(2):22-24. 被引量：1
2刘锋,白凡.一种改进的K近邻算法在网页分类中的应用[J].电子技术（上海）,2010(7):30-31. 被引量：1
3王春艳,程霜梅,杨鑫.基于聚簇样本约减的K-近邻神经网络分类器[J].情报科学,2010,28(10):1547-1549.
4王一夫,许鹏,杨小林,韩宇.数据挖掘中两种简单分类算法的比较[J].长沙通信职业技术学院学报,2010,9(4):22-25. 被引量：2
5周牒岚,陈琳,向华.数据挖掘算法研究[J].现代电子技术,2011,34(20):75-78. 被引量：8
6刘忠,刘洋,建晓.基于KD-Tree的KNN文本分类算法[J].网络安全技术与应用,2012(5):38-40. 被引量：3
7苟和平,景永霞,冯百明,李勇.一种基于粗糙集的改进KNN文本分类算法[J].科学技术与工程,2012,20(20):4926-4929. 被引量：3
8陈刚,刘秉权,吴岩.改进的决策模型在手机垃圾短信过滤中的应用[J].计算机工程与设计,2012,33(12):4701-4706. 被引量：1
9苟和平,景永霞,冯百明,李勇.基于DBSCAN聚类的改进KNN文本分类算法[J].科学技术与工程,2013,21(1):219-222. 被引量：5
10王睿.基于MapReduce的并行KNN分类算法研究[J].计算机与数字工程,2013,41(11):1738-1740. 被引量：3

二级引证文献172

1王申,麻超,吴家敬,冯凯军.地铁工程智能用电及能耗控制综合评价体系研究[J].中国水运（下半月）,2023,23(11):40-42.
2周云红,黄飞,王玉莹.物联塑壳断路器的拓扑识别模块设计[J].电器与能效管理技术,2022(12):38-45. 被引量：4
3屈宜丽,蓝才会,任志国.CPU/GPU异构并行系统研究综述[J].自动化与仪器仪表,2016(4):25-26. 被引量：6
4陈志辉,吴敏敏.元音识别的几种分类模型的比较与分析[J].莆田学院学报,2012,19(5):62-65.
5许燕.数据挖掘技术在信息安全证据处理中的应用[J].物联网技术,2013,3(2):46-48.
6王珏.基于关联规则的医生诊疗数据挖掘系统的实现[J].现代电子技术,2013,36(19):124-126. 被引量：3
7李瑞华,康亚明,张永恒,刘峰.基于数据挖掘的煤矿安全监测方法研究[J].电子设计工程,2013,21(19):13-15. 被引量：2
8何一辉,向俊.引入宽度优先扩展概念的多样性数据分类过程[J].科技通报,2013,29(10):168-170.
9陈沛,毛安定.基于粗糙集的中文文本分类算法与应用[J].中国新通信,2013,15(23):73-73.
10赵建飞,段新文,安守春.关键词提取技术在撒拉族文献数据库的应用[J].现代电子技术,2013,36(24):5-7.

1黄元元.改进型TF-IDF算法在客户关系管理系统中的应用[J].湖北第二师范学院学报,2014,31(8):38-40.
2用连字符“&”来合并文本[J].中国会计电算化,2003(6):59-59.
3李小军,韩元盛.VFP在Windows2000 Server用户管理中的应用[J].焦作工学院学报,2004,23(1):64-68.
4李媛媛,马永强.基于潜在语义索引的特征选择与权重改进若干关键问题的研究与实现[J].现代图书情报技术,2007(10):80-84. 被引量：1
5王栋,邱竟峰.基于角点权重改进的Itti算法研究[J].现代工业经济和信息化,2016,6(16):76-77.
6范时平,罗丹,刘艳林.基于跳距与改进粒子群算法的DV-Hop定位算法[J].传感技术学报,2016,29(9):1410-1415. 被引量：27
7王勇.三步合并TXT文档[J].电脑爱好者（普及版）,2007,0(11):24-24.
8谢守志,张磊.基于Fisher权重改进的OB场景分类方法[J].应用科技,2014,41(2):21-24.
9贺拴运.批量选文件不必小题大做[J].电脑爱好者,2012(7):24-24.
10韩如冰,叶得学.基于VSM的权重改进文档相似度算法研究[J].软件,2012,33(10):103-105. 被引量：9

计算机工程与设计

2009年第18期

浏览历史

内容加载中请稍等...

基于簇的K最近邻(KNN)分类算法研究被引量：27

参考文献7

二级参考文献60

共引文献61

同被引文献364

引证文献27

二级引证文献172

相关作者

相关机构

相关主题

浏览历史

基于簇的K最近邻(KNN)分类算法研究 被引量：27

参考文献7

二级参考文献60

共引文献61

同被引文献364

引证文献27

二级引证文献172

相关作者

相关机构

相关主题

浏览历史

基于簇的K最近邻(KNN)分类算法研究被引量：27