大数据下的快速KNN分类算法被引量：29

Fast KNN classification algorithm under big data

下载PDF

导出

摘要针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新性地在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度地减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,该算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。 Aiming at the problems of the K-nearest neighbor algorithm,testing complex is linear at least,and lead to the accuracy is low when the samples are large. This paper proposed a fast KNN classification algorithm faster than the traditional KNN did. The proposed algorithm innovatively introduced the training process during the KNN method,i. e.,the algorithm blocked the big data by linear complexity clustering. Then,the algorithm selected the nearest cluster as new training samples and established a classification model. This process reduced the KNN algorithm testing overhead,which made the proposed algorithm could be applied to big data. Experiments result shows that the accuracy of the proposed KNN classification is similarity than the traditional KNN,but the classification speed has been significantly improved.

作者苏毅娟邓振云程德波宗鸣

机构地区广西师范学院计算机与信息工程学院广西师范大学广西多源信息挖掘与安全重点实验室和广西区域多源信息集成与智能处理协同创新中心

出处《计算机应用研究》 CSCD 北大核心 2016年第4期1003-1006,1023,共5页 Application Research of Computers

基金国家自然科学基金资助项目(61450001 61263035 61573270) 国家"863"计划资助项目(2012AA011005) 国家"973"计划资助项目(2013CB329404) 广西自然科学基金资助项目(2012GXNSFGA060004 2014jj AA70175 2015GXNSFAA139306 2015GXNSFCB13901) 广西八桂创新团队广西百人计划和广西高校科学技术研究重点项目(2013ZD04)

关键词 K最近邻测试复杂度大数据分块聚类中心 K-nearest neighbor（KNN） testing complex big data block cluster centers

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献24

1Zhang Shichao. KNN-CF approach:incorporating certainty factor to KNN classification[J] . IEEE Intelligent Informatics Bulletin, 2010, 11(1):24-33.
2Zhang Shichao, Zhang Chengqi, Yan Xiaowei. Post-mining:maintenance of association rules by weighting[J] . Information Systems, 2003, 28(7):691-707.
3李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：98
4张孝飞,黄河燕.一种采用聚类技术改进的KNN文本分类方法[J].模式识别与人工智能,2009,22(6):936-940. 被引量：32
5李杨,曾海泉,刘庆华,胡运发.基于kNN的快速WEB文档分类[J].小型微型计算机系统,2004,25(4):725-729. 被引量：13
6Zhu Xiaofeng, Huang Zi, Yang Yang, et al. Self-taught dimensionality reduction on the high-dimensional small-sized data[J] . Pattern Reco-gnition, 2013, 46(1):215-229.
7Zhu Xiaofeng, Huang Zi, Cui Jiangtao, et al. Video-to-shot tag propa-gation by graph sparse group Lasso[J] . IEEE Trans on Multimedia, 2013, 15(3):633-646.
8Zhu Xiaofeng, Huang Zi, Cheng Hong, et al. Sparse hashing for fast multimedia search[J] . ACM Trans on Information Systems, 2013, 31(2):9.
9Zhu Xiaofeng, Huang Zi, Shen Hengtao, et al. Dimensionality reduction by mixed kernel canonical correlation analysis[J] . Pattern Recognition, 2012, 45(8):3003-3016.
10Zhu Xiaofeng, Zhang Shichao, Jin Zhi, et al. Missing value estimation for mixed-attribute data sets[J] . IEEE Trans on Knowledge Data Engineering, 2011, 23(1):110-121.

二级参考文献38

1王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
2Lewis D D. Naive Bayes at Forty: The Independence Assumption in Information Retrieval // Proc of the lOth European Conference on Machine Learning. Chemnitz, Germany, 1998 : 4 - 15.
3Cohen W W, Singer Y. Context-Sensitive Learning Methods for Text Categorization// Proc of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Zurich, Switzerland, 1996 : 307 - 315.
4Joaehims T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features//Proc of the 10th European Conference on Machine Learning. Chemnitz, Germany, 1998: 137 - 142.
5Nigam K, Lafferty J, McCallum A. Using Maximum Entropy for Text Classification//Proc of the Workshop on Machine Learning for Information Filtering. Stockholm, Sweden, 1999 : 61 - 67.
6Yang Yiming, Liu Xin. A Re-Examination of Text Categorization Methods// Proc of the 22nd Annual International ACM SIGIR Conference on Research and Development in the Information Retrieval. Berkeley, USA, 1999:42-49.
7Sebastiani F. Machine Learning in Automated Text Categorization. ACM Computing Surveys, 2002, 34 ( 1 ) :1- 47.
8Hull D A. Improving Text Retrieval for the Routing Problem Using Latent Semantic Indexing// Proc of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Dublin, Ireland, 1994 : 282 - 289.
9Joachims T. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization//Proc of the 14th International Conference on Machine Learning. Nashville, USA, 1997: 143-151.
10Galavotti L, Sebastiani F, Simi M. Experiments on the Use of Feature Selection and Negative Evidence in Automated Text Categorization//Proc of the 4th European Conference on Research and Advanced Technology for Digital Libraries. Lisbon, Portugal, 2000 : 59 - 68.

共引文献124

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：11
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
4华北,曹先彬.基于代表样本动态生成的中文网页分类[J].计算机应用,2006,26(10):2502-2504. 被引量：2
5李订芳,胡文超,何炎祥.基于共享最近邻聚类和模糊集理论的分类器[J].控制与决策,2006,21(10):1103-1108. 被引量：5
6王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
7屈军,林旭.文本分类中特征提取方法的比较与分析[J].现代计算机,2007,13(4):10-13. 被引量：8
8印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13
9华北,曹先彬.基于代表样本动态生成的快速文本分类[J].计算机仿真,2007,24(6):322-325.
10王修君,沈鸿.一种基于增量学习型矢量量化的有效文本分类算法[J].计算机学报,2007,30(8):1277-1285. 被引量：14

同被引文献204

1刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
2陈曦,李翔晨,李炜,楼宗元.基于信息熵的谣言信息度量方法[J].华中科技大学学报（自然科学版）,2013,41(S1):413-417. 被引量：5
3何峰,林亚丽.改进的KNN文本分类算法综述[J].福建电脑,2005,21(1):4-5. 被引量：1
4朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：325
5陈志锋,潘健伟,储晓刚,唐英章.塑料食品包装材料中有毒有害化学残留物及分析方法[J].食品与机械,2006,22(2):3-7. 被引量：88
6王会珍,朱靖波,季铎,叶娜,张斌.基于反馈学习自适应的中文话题追踪[J].中文信息学报,2006,20(3):92-98. 被引量：17
7蔡志岳,吴世农.基于公司治理的信息披露舞弊预警研究[J].管理科学,2006,19(4):79-90. 被引量：32
8洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
9MARLAND, ALEX. Public opinion monitoring by provincial gov- ernments: the prevalence of open line radio in newfoundland and labradorFJ. Canadian Journal of Communication,2013(2) ..384.
10XIAN-YIL, CHENG, LING-LING, et al. The framework of net- work public opinion monitoring and analyzing system based on se- mantic content identification[J]. Journal of Convergence Informa- tion Technology, 2010,5 (10) : 48-55.

引证文献29

1赵浚淇.基于自动分类的网络舆情监测方法研究[J].软件导刊,2016,15(3):133-135. 被引量：3
2苏佩娟,刘赪.基于K-近邻法的不等样分类[J].绵阳师范学院学报,2016,35(11):13-16. 被引量：2
3万中钰.大数据样本分析中的快速KNN算法[J].信息系统工程,2017,30(1):153-153. 被引量：1
4秦亚辉,何利力.基于分块后重叠K-means聚类的KNN分类算法[J].工业控制计算机,2017,30(2):103-104. 被引量：1
5赵彤,刘斌,李涛.基于非均衡局部敏感哈希的并行文本分类研究[J].微电子学与计算机,2017,34(12):67-73.
6谌志华.基于大数据的网络舆情分析系统[J].现代电子技术,2017,40(24):15-17. 被引量：8
7吴章华,曹志敏,贾贞.基于实时态势的作战仿真推演技术研究[J].指挥控制与仿真,2018,40(1):93-97. 被引量：9
8王金环,李艳,腾明辉.基于大数据的地铁信息服务需求快速分类研究[J].电脑编程技巧与维护,2018(3):75-76. 被引量：2
9卢光跃,王航龙,李创创,赵宇翔,李四维.基于改进的K近邻和支持向量机客户流失预测[J].西安邮电大学学报,2018,23(2):1-6. 被引量：7
10蒋华,韩飞,王鑫,王慧娇.基于MapReduce改进K-NN的大数据分类算法研究[J].微电子学与计算机,2018,35(10):36-40. 被引量：8

二级引证文献147

1陈涛,吴贞如.上市公司财务报表舞弊识别模型的比较研究[J].中国审计评论,2022(2):132-148.
2徐静,李俊林,唐少清.上市公司财务异常与舞弊疑点检测研究[J].中国软科学,2021(S01):421-428. 被引量：7
3廖国庆,吴文海,曾鑫鹏.YOLOv4与ORB深度融合的绝缘子识别定位研究[J].电子测量与仪器学报,2022,36(2):131-138. 被引量：5
4段仲渊,罗钧韶,李强.基于浮动车的高速公路行程时间短时预测方法研究[J].交通与运输,2022,38(S01):108-111.
5於贤德.中国古代生态文化的思想源流[J].嘉兴高等专科学校学报,2000,13(1):9-14. 被引量：3
6韦锦.廓坊日记[J].岁月,2000(7):34-36.
7鲁春,杨会成,杨文斌,朱文博.结合光流法与最近邻算法的运动目标检测[J].四川理工学院学报（自然科学版）,2017,30(5):63-68. 被引量：2
8仲会娟.基于颜色特征和SVM的自然图像分类标注算法[J].绵阳师范学院学报,2018,37(5):12-16. 被引量：2
9陈覃霞,刘盾,梁德翠.粗糙集理论和信息熵的AHP改进方法[J].计算机科学与探索,2018,12(3):484-493. 被引量：14
10陈辉,关凯胜,李嘉兴.基于对象数量的宽度加权聚类kNN算法[J].计算机工程与应用,2018,54(19):1-9. 被引量：1

1姚实颖,肖沙里,谭霞,唐跃林.软件测试自动化中建立可维护脚本的技术[J].计算机工程,2003,29(11):79-81. 被引量：26
2韩振斌,苗克坚.一种分布式软件自动化测试工具的设计与实现[J].科学技术与工程,2007,7(8):1774-1777. 被引量：4
3秦亚辉,何利力.基于分块后重叠K-means聚类的KNN分类算法[J].工业控制计算机,2017,30(2):103-104. 被引量：1
4杜军威.一种测试用例与测试代码分离的单元测试框架[J].青岛科技大学学报（自然科学版）,2008,29(3):257-260. 被引量：1
5职为梅,郭华平,张婷,范明.一种新的面向非平衡分类问题的特征变换方法[J].小型微型计算机系统,2015,36(5):1037-1041. 被引量：1
6林滨.K-Means聚类的多种距离计算方法的文本实验比较[J].福建工程学院学报,2016,14(1):80-85. 被引量：6
7朱小骏,高建华.一种面向对象程序系统的有效测试方法[J].计算机工程与设计,2004,25(7):1107-1110. 被引量：2
8构件可测试性挑战[J].软件世界,2005(8):50-51.
9祝加雄.基于GUI的自动化测试技术的研究[J].民营科技,2009(5):39-39.
10李小将,樊天晴,胡正国.Client/Server系统的测试策略[J].计算机工程,2002,28(8):38-39. 被引量：3

计算机应用研究

2016年第4期

浏览历史

内容加载中请稍等...

大数据下的快速KNN分类算法被引量：29

参考文献24

二级参考文献38

共引文献124

同被引文献204

引证文献29

二级引证文献147

相关作者

相关机构

相关主题

浏览历史

大数据下的快速KNN分类算法 被引量：29

参考文献24

二级参考文献38

共引文献124

同被引文献204

引证文献29

二级引证文献147

相关作者

相关机构

相关主题

浏览历史

大数据下的快速KNN分类算法被引量：29