基于分块后重叠K-means聚类的KNN分类算法被引量：1

下载PDF

导出

摘要因为KNN最近邻算法的复杂度至少为线性,所以KNN算法在大数据环境下的计算量,以及所需要的硬件开销都面临挑战。提出一种新的KNN算法即在KNN分类前引入分块和聚类算法。具体描述为:对样本先随机进行分块,再在块上聚类,形成数目比较多的簇,但如果簇的数目过多虽然能提升计算速度,但是在分类时会影响分类的精确度,所以在很多簇的基础上再进行聚类,这样不仅速度大大提高,精确度也能提高,从而达到分类精确度的提高。最后在测试过程中找出与待测样本距离最短的块作为新的训练样本作为进行分类算法。 This paper proposes an improved KNN algorithm that use clustering algorithm in each random divided block before classification.More specifically,it first randomly divides the samples into several blocks and then cluster on each block to produce a large number of clusters.To increase computation speed,uses cluster algorithm to accomplish secondary cluster on the initial results of clustering.In this way,this paper improves the speed and accuracy of traditional KNN algorithm.

作者秦亚辉何利力

机构地区浙江理工大学信息学院

出处《工业控制计算机》 2017年第2期103-104,共2页 Industrial Control Computer

关键词 KNN最邻近算法数据分块重叠聚类 KNN,k-NearestNeighbor,data block,overlapping clustering

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1王千,王成,冯振元,叶金凤.K-means聚类算法研究综述[J].电子设计工程,2012,20(7):21-24. 被引量：297
2吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：161
3徐鹏,林森.基于C4.5决策树的流量分类方法[J].软件学报,2009,20(10):2692-2704. 被引量：169
4闭小梅,闭瑞华.KNN算法综述[J].科技创新导报,2009,6(14):31-31. 被引量：36
5何峰,林亚丽.改进的KNN文本分类算法综述[J].福建电脑,2005,21(1):4-5. 被引量：1
6苏毅娟,邓振云,程德波,宗鸣.大数据下的快速KNN分类算法[J].计算机应用研究,2016,33(4):1003-1006. 被引量：29

二级参考文献117

1王汉芝,刘振全.一种新的确定K-均值算法初始聚类中心的方法[J].天津科技大学学报,2005,20(4):76-79. 被引量：9
2李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
3张文君,顾行发,陈良富,余涛,许华.基于均值-标准差的K均值初始聚类中心选取算法[J].遥感学报,2006,10(5):715-721. 被引量：57
4蒋盛益,李庆华.一种增强的k-means聚类算法[J].计算机工程与科学,2006,28(11):56-59. 被引量：15
5张逸清,刘文才.聚类数的确定[J].计算机与数字工程,2007,35(2):42-44. 被引量：7
6牛琨,张舒博,陈俊亮.融合网格密度的聚类中心初始化方案[J].北京邮电大学学报,2007,30(2):6-10. 被引量：15
7Moore AW, Zuev D. Internet traffic classification using Bayesian analysis techniques. In: Proc. of the 2005 ACM SIGMETRICS Int'l Conf. on Measurement and Modeling of Computer Systems, Banff, 2005. 50-60. http://www.cl.cam.ac.uk/-awm22 /publications/moore2005internet.pdf.
8Madhukar A, Williamson C. A longitudinal study of P2P traffic classification. In: Proc. of the 14th IEEE Int'l Syrup. on Modeling, Analysis, and Simulation. Monterey, 2006. http://ieeexplore.ieee.org/xpl/ffeeabs_all.jsp?arnumber=1698549.
9Moore AW, Papagiannaki K. Toward the accurate identification of network applications. In: Dovrolis C, ed. Proc. of the PAM 2005. LNCS 3431, Heidelberg: Springer-Verlag, 2005.41-54.
10Karagiannis T, Papagiannaki K, Faloutsos M. BLINC: Multilevel traffic classification in the dark. In: Proc. of the ACM SIGCOMM. Philadelphia, 2005. 229-240. http://conferences.sigcomm.org/sigcomm/2005/paper-KarPap.pdf.

共引文献667

1马燕,余海军,钟发生,刘丰林.基于残差编解码网络的CT图像金属伪影校正[J].仪器仪表学报,2020,41(8):160-169. 被引量：14
2谢皓,孙小东,何海熙.基于K-means聚类的高炉操作炉型研究[J].冶金自动化,2023,47(S01):88-91.
3高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
4邓建国,张素兰,张继福,荀亚玲,刘爱琴.监督学习中的损失函数及应用研究[J].大数据,2020,6(1):60-80. 被引量：31
5赵源,王越,胡华.基于POI-K-means地铁车站聚类方法研究[J].智能计算机与应用,2022,12(5):114-118. 被引量：3
6代志康,吴秋新,程希明.一种基于ResNet的网络流量识别方法[J].北京信息科技大学学报（自然科学版）,2020,35(1):82-88. 被引量：5
7Kui Luo,Wenhui Shi,Weisheng Wang.Extreme scenario extraction of a grid with large scale wind power integration by combined entropy-weighted clustering method[J].Global Energy Interconnection,2020,3(2):140-148. 被引量：7
8陈陆颖,丛蓉,杨洁,于华.高速网络环境下的P2P流媒体业务分析和识别方法(英文)[J].China Communications,2011,8(5):70-78. 被引量：1
9左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
10赵树鹏,陈贞翔,彭立志.基于流中前5个包的在线流量分类特征[J].济南大学学报（自然科学版）,2012,26(2):156-160. 被引量：3

同被引文献13

1关兴来,谢晓竹.基于光流的运动目标检测跟踪快速算法[J].微计算机信息,2012,28(10):421-423. 被引量：1
2袁国武,陈志强,龚健,徐丹,廖仁健,何俊远.一种结合光流法与三帧差分法的运动目标检测算法[J].小型微型计算机系统,2013,34(3):668-671. 被引量：81
3许进文.数据挖掘中聚类分析算法及应用研究[J].计算机光盘软件与应用,2013,16(6):176-177. 被引量：4
4陈添丁,胡鉴,吴涤.稀疏光流快速计算的动态目标检测与跟踪[J].中国图象图形学报,2013,18(12):1593-1600. 被引量：16
5张静.数据挖掘中聚类分析综述[J].价值工程,2014,33(15):226-227. 被引量：12
6张利平,赵俊梅.基于光流的运动车辆检测和跟踪技术的研究[J].车辆与动力技术,2014(2):61-64. 被引量：3
7朱俊杰,李胜,侯保林,王轶卿.基于金字塔LK算法的运动目标的检测[J].工业控制计算机,2015,28(9):13-15. 被引量：4
8张忠义.基于改进LK光流的目标跟踪算法研究[J].信息技术,2015,39(10):127-130. 被引量：5
9孙永辉.聚类分析在学生成绩分析中的应用[J].中国管理信息化,2016,19(6):229-230. 被引量：4
10郝慧琴,王耀力.基于帧间差分和金字塔光流法的运动目标检测[J].电视技术,2016,40(7):134-138. 被引量：11

引证文献1

1鲁春,杨会成,杨文斌,朱文博.结合光流法与最近邻算法的运动目标检测[J].四川理工学院学报（自然科学版）,2017,30(5):63-68. 被引量：2

二级引证文献2

1宋怀波,吴頔华,阴旭强,姜波,何东健.基于Lucas-Kanade稀疏光流算法的奶牛呼吸行为检测[J].农业工程学报,2019,35(17):215-224. 被引量：12
2赵红卫.基于双三帧差分的运动显著前景区域目标提取[J].计算机仿真,2021,38(7):433-436. 被引量：2

1王增民,王开珏.基于熵权的K最临近算法改进[J].计算机工程与应用,2009,45(30):129-131. 被引量：18
2刘卓.K-最邻近算法在文本自动分类中的应用[J].苏州市职业大学学报,2010,21(2):58-60.
3贾立双,李静.基于一种改进算法的单车场多车型车辆调度研究[J].中国制造业信息化（学术版）,2008,37(10):8-11. 被引量：6
4蒲兴成,孙凯.一种改进的自适应蚁群算法及其应用研究[J].重庆邮电大学学报（自然科学版）,2011,23(3):331-335. 被引量：6
5黄莉,李湘东.两种相似度计算方法对KNN分类效果的影响研究[J].情报杂志,2012,31(7):177-181. 被引量：5
6赵媛.改进的生成树算法求解旅行商问题[J].兰州大学学报（自然科学版）,2008,44(S1):164-165. 被引量：1
7徐晟逸,苏平,邓晖飞.分步求解切割路径的优化算法研究[J].机电工程技术,2014,43(9):81-84. 被引量：2
8杨晨晖,余传健.基于主成分分析和线性鉴别分析融合的阿尔茨海默病分类算法[J].厦门大学学报（自然科学版）,2017,56(2):226-230. 被引量：3
9王超学,潘正茂,马春森,董丽丽,张涛.改进型加权KNN算法的不平衡数据集分类[J].计算机工程,2012,38(20):160-163. 被引量：25
10牟凤云,罗丹,官冬杰,吴晓春.面向对象的土地覆盖信息提取方法研究及应用[J].重庆交通大学学报（自然科学版）,2014,33(6):104-108. 被引量：9

工业控制计算机

2017年第2期

浏览历史

内容加载中请稍等...

基于分块后重叠K-means聚类的KNN分类算法被引量：1

参考文献6

二级参考文献117

共引文献667

同被引文献13

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于分块后重叠K-means聚类的KNN分类算法 被引量：1

参考文献6

二级参考文献117

共引文献667

同被引文献13

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于分块后重叠K-means聚类的KNN分类算法被引量：1