KNN分类算法的MapReduce并行化实现被引量：21

Parallel Implementing KNN Classification Algorithm Using MapReduce Programming Mode

下载PDF

导出

摘要为了提高k-nearest neighbor algorithm(KNN)算法处理大数据集的能力,本文利用Map Reduce并行编程模型,同时结合KNN算法自身的特点,给出了KNN算法在Hadoop平台下的并行化实现。通过设计Map、Combine和Reduce 3个函数,实现了KNN算法的并行化。Map函数完成每个测试样本与训练样本之间的相似度计算,Combine函数作为一个本地的Reduce操作,用以减少中间计算量及通信开销,Reduce函数则根据上述函数得到的中间结果计算出k近邻并作出分类判断。实验结果表明:较之以往的单机版方法,在Hadoop集群上实现的并行化KNN算法具有较好的加速比和良好的扩展性。 In order to improve the ability of KNN algorithm to process massive data, a new technique based on Hadoop platform is used. Considering the characteristics of the KNN algorithm itself, the par allelism of KNN based on the MapReduce programming model is implemented. Three functions are de signed for the implementation of the parallelism, named Map, Combine and Reduce. The Similarity be tween each test instances and the training dataset are evaluated by Map function. For reducing the com putational complexity and saving network bandwidth, the Combine function is used as a local Reduce op eration. Reduce function is used to get the KNN classification based on the intermediate results. The ex periment on the Hadoop platform shows the method has excellent linear speedup with an increasing number of computer nodes and good scalability.

作者闫永刚马廷淮王建

机构地区南京信息工程大学计算机与软件学院南京信息工程大学江苏省网络监控中心南京大学电子科学与工程学院

出处《南京航空航天大学学报》 EI CAS CSCD 北大核心 2013年第4期550-555,共6页 Journal of Nanjing University of Aeronautics & Astronautics

基金国家自然科学基金(61173143)资助项目江苏省自然科学基金(BK2010380)资助项目中国博士后科学基金(2012M511303)资助项目江苏省高校优势学科建设工程资助项目

关键词 KNN分类并行计算 MAPREDUCE模型 HADOOP KNN classification parallel computing MapReduce programming model Hadoop

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009,29(9):2562-2567. 被引量：929
2李玲娟,张敏.云计算环境下关联规则挖掘算法的研究[J].计算机技术与发展,2011,21(2):43-46. 被引量：48
3王宗跃,马洪超,徐宏根,张建伟,彭检贵.多核CPU的海量点云并行kNN算法[J].测绘科学技术学报,2010,27(1):46-49. 被引量：10
4陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348. 被引量：1309
5王鹏,孟丹,詹剑锋,涂碧波.数据密集型计算编程模型研究进展[J].计算机研究与发展,2010,47(11):1993-2002. 被引量：39

二级参考文献111

1吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：225
2刘华元,袁琴琴,王保保.并行数据挖掘算法综述[J].电子科技,2006,19(1):65-68. 被引量：15
3蒋晶珏,张祖勋,明英.复杂城市环境的机载Lidar点云滤波[J].武汉大学学报（信息科学版）,2007,32(5):402-405. 被引量：38
4Sims K. IBM introduces ready-to-use cloud computing collaboration services get clients started with cloud computing. 2007. http://www-03.ibm.com/press/us/en/pressrelease/22613.wss
5Boss G, Malladi P, Quan D, Legregni L, Hall H. Cloud computing. IBM White Paper, 2007. http://download.boulder.ibm.com/ ibmdl/pub/software/dw/wes/hipods/Cloud_computing_wp_final_8Oct.pdf
6Zhang YX, Zhou YZ. 4VP+: A novel meta OS approach for streaming programs in ubiquitous computing. In: Proc. of IEEE the 21st Int'l Conf. on Advanced Information Networking and Applications (AINA 2007). Los Alamitos: IEEE Computer Society, 2007. 394-403.
7Zhang YX, Zhou YZ. Transparent Computing: A new paradigm for pervasive computing. In: Ma JH, Jin H, Yang LT, Tsai JJP, eds. Proc. of the 3rd Int'l Conf. on Ubiquitous Intelligence and Computing (UIC 2006). Berlin, Heidelberg: Springer-Verlag, 2006. 1-11.
8Barroso LA, Dean J, Holzle U. Web search for a planet: The Google cluster architecture. IEEE Micro, 2003,23(2):22-28.
9Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine. Computer Networks, 1998,30(1-7): 107-117.
10Ghemawat S, Gobioff H, Leung ST. The Google file system. In: Proc. of the 19th ACM Symp. on Operating Systems Principles. New York: ACM Press, 2003.29-43.

共引文献2165

1查伟,孙燕琼,郑继平.基于云测试架构的FIVP解决方案[J].铁路技术创新,2021(S01):82-86.
2林少伟.人工智能法律主体资格实现路径:以商事主体为视角[J].中国政法大学学报,2021(3):165-177. 被引量：4
3胡祖林,肇杰.云计算下的网盘安全[J].计算机产品与流通,2020,0(1):164-164.
4张盛,任伟,王玉,黄金明,陈旭彤.基于Web的重力异常正演建模工具[J].地质论评,2023,69(S01):595-597.
5赵文韬.基于5G技术的黑龙江云计算产业发展[J].电子技术（上海）,2020,49(9):186-187.
6宋东翔,马伽洛伦,王怡然,袁铭举.基于云原生和区块链的高校智能人事系统的研究[J].新一代信息技术,2022,5(6):67-70.
7Longfei He,Mei Xue,Bin Gu.Internet-of-things enabled supply chain planning and coordination with big data services:Certain theoretic implications[J].Journal of Management Science and Engineering,2020,5(1):1-22. 被引量：4
8王娟,沈小平,叶萌.云计算在医疗卫生职业教育信息化发展中的应用探索[J].微型电脑应用,2011(3):42-44. 被引量：5
9吴劲松,陈孚.云计算发展及应用研究[J].广西通信技术,2011(2):9-13. 被引量：5
10王晓光.一种云计算作业管理代理系统[J].有线电视技术,2012,19(6):75-78.

同被引文献180

1杨铭,陈建峰.基于CUDA的海量点云数据kNN查询算法[J].测绘通报,2012(S1):394-398. 被引量：3
2郭朝鹏,王智,韩峰,张一川,宋杰.HaoLap:基于Hadoop的海量数据OLAP系统[J].计算机研究与发展,2013,50(S1):378-383. 被引量：5
3王卫平,郭长旺.基于文本挖掘的企业竞争情报系统[J].现代情报,2004,24(9):188-189. 被引量：7
4吴强.采用粗糙集中可辨识矩阵方法的概念格属性约简[J].计算机工程,2004,30(20):141-142. 被引量：6
5张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：96
6宋驰,刘国华.流数据技术及其应用现状[J].燕山大学学报,2005,29(2):128-131. 被引量：4
7唐谦,张大方.入侵检测中模式匹配算法的性能分析[J].计算机工程与应用,2005,41(17):136-138. 被引量：22
8周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
9张瑞敏,徐红罡.旅游交通研究述评[J].桂林旅游高等专科学校学报,2005,16(6):41-44. 被引量：11
10Vapnik V N.The nature of statistical learning theory,1995.

引证文献21

1黄黎,顾筠.基于Hadoop平台的并行化数据分类算法研究[J].制造业自动化,2014,36(14):5-9. 被引量：4
2王勇,许钟涛,王瑛.大数据环境下竞争情报系统的研究与实现[J].广东工业大学学报,2014,31(3):27-31. 被引量：9
3涂敬伟,皮建勇.基于MapReduce和分布式缓存的KNN分类算法研究[J].微型机与应用,2015,34(2):18-21. 被引量：2
4张明敏,张功萱,周秀敏.对数似然相似度算法的MapReduce并行化实现[J].计算机工程与设计,2015,36(5):1233-1238. 被引量：3
5闫威,马宗民.基于多谓词选择的海量XML数据并行查询方法[J].小型微型计算机系统,2015,36(7):1415-1420. 被引量：3
6江立伟,袁红林,严燕,包志华.一种低信噪比下的高精度射频指纹变换方法[J].数据采集与处理,2015,30(5):1036-1042. 被引量：3
7王江涛,陈锻生,温新竹.基于Hadoop平台的KNN分类器的优化和实现[J].太原理工大学学报,2016,47(4):513-517. 被引量：2
8孟繁疆,姬祥,袁琦,刘东,侯哲鹏.农产品价格主题搜索引擎的研究与实现[J].东北农业大学学报,2016,47(9):64-71. 被引量：6
9邱宁佳,郭畅,杨华民,王鹏,温暖.基于MapReduce编程模型的改进KNN分类算法研究[J].长春理工大学学报（自然科学版）,2017,40(1):110-114. 被引量：3
10李慧彦.一种并行化的分类算法研究[J].智能计算机与应用,2017,7(3):127-129. 被引量：4

二级引证文献114

1李川,伍依凡,杨帅.不平衡分布的数据驱动故障诊断的研究进展[J].仪器仪表学报,2023,44(8):181-197.
2李浩光.大数据网络分布式独立内存分配算法研究[J].科技通报,2021,37(4):37-41.
3谢国民,王嘉良.基于混合采样与IHBA-SVM的变压器故障辨识方法[J].电子测量与仪器学报,2022,36(12):77-85. 被引量：3
4王玉.Spark大数据处理平台的构建及应用[J].大众标准化,2019,0(18):28-29. 被引量：2
5杨洋,陈立军,张莹.我国竞争情报系统模型构建研究综述[J].情报科学,2016,34(6):98-102. 被引量：5
6李玮,何富乐,骆嘉伟,殷樱.支撑教学资源的推荐算法原型系统设计[J].中国教育信息化,2016,22(5):33-37. 被引量：1
7顾成喜,顾才东,龚伟.传感网络中入侵数据查询方法改进研究仿真[J].计算机仿真,2017,34(2):314-317.
8张烨.基于样本关联度权重的增量支持向量机算法[J].电子科技,2017,30(3):41-44. 被引量：5
9梁春华.大数据环境情报研究平台发展现状与思考[J].情报理论与实践,2017,40(6):63-66. 被引量：23
10高学伟,付忠广,孙力,张刚.基于Hadoop分布式支持向量机球磨机大数据建模[J].河北大学学报（自然科学版）,2017,37(3):309-315. 被引量：9

1王志丹.基于云计算的属性重要度约简算法研究[J].洛阳师范学院学报,2014,33(8):64-66.
2钱进,苗夺谦,张泽华,张志飞.MapReduce框架下并行知识约简算法模型研究[J].计算机科学与探索,2013,7(1):35-45. 被引量：17
3何佩佩,谢颖华.云环境下K-means算法的并行化[J].微型机与应用,2015,34(24):25-27. 被引量：1
4周国军,梁燕红,唐微.AprioriTid算法的MapReduce并行化实现[J].微型机与应用,2015,34(24):22-24.
5王志丹.云环境下基于二进制编码的Apriori改进算法[J].中原工学院学报,2014,25(6):69-71.
6王睿.基于MapReduce的并行KNN分类算法研究[J].计算机与数字工程,2013,41(11):1738-1740. 被引量：3
7王建伟,石纯一,王联华.获取空间上专家线性分类判断规则算法的优化方法[J].计算机学报,1998,21(S1):112-115.
8张建勋,纪纲,曾庆森.粗糙集-神经网络计算机网络故障诊断方法研究[J].现代机械,2005(3):48-50. 被引量：1
9李梦涵,熊淑华,熊文,魏育才,李杨.多尺度级联行人检测算法的研究与实现[J].计算机技术与发展,2014,24(8):10-13. 被引量：3
10马军,李春燕.BSD中IPv6实现方式与传输性能的分析[J].计算机与现代化,2006(9):50-53.

南京航空航天大学学报

2013年第4期

浏览历史

内容加载中请稍等...

KNN分类算法的MapReduce并行化实现被引量：21

参考文献5

二级参考文献111

共引文献2165

同被引文献180

引证文献21

二级引证文献114

相关作者

相关机构

相关主题

浏览历史

KNN分类算法的MapReduce并行化实现 被引量：21

参考文献5

二级参考文献111

共引文献2165

同被引文献180

引证文献21

二级引证文献114

相关作者

相关机构

相关主题

浏览历史

KNN分类算法的MapReduce并行化实现被引量：21