基于k-d树分区的聚类算法并行加速策略被引量：3

Parallel acceleration strategy of clustering algorithm based on k-d tree partition

下载PDF

导出

摘要针对传统K-Means算法存在准确率低、聚类速度慢的问题,从K-Means算法优化和Flink框架并行层面对K-Means算法优化。为避免算法陷入局部最优解,采用质心间最大距离原则选出k个质心;为提高大数据量下的K-Means聚类速度,提出用k-d树算法划分数据集实现操作算子并行化,设置多个TaskManager数目和CPU核数加速F-KMeans算法的执行。实验结果表明,较K-Means算法,F-KMeans算法的准确率提高了约3.6%;F-KMeans算法在DataSource耗时降低了45.45%,在其余阶段耗时平均降低了约28.57%。 In view of the low accuracy and clustering speed of traditional K-Means algorithm,K-Means algorithm was optimized from the perspectives of optimization of K-Means algorithm and the parallel level of Flink framework.To avoid the algorithm falling into the local optimal solution,K centroids were selected based on the principle of maximum distance between centroids.To improve the speed of K-Means clustering in large amount of data,k-d tree algorithm was proposed to divide data sets to realize the parallel operation of operators,and the number of task managers and CPU cores were set to accelerate the implementation of F-Kmeans algorithm.Compared with K-Means algorithm,the accuracy of F-Kmeans algorithm is improved by about3.6%,the time consumption of F-Kmeans algorithm in datasource is reduced by 45.45%,and the time consumption in other stages is reduced by about 28.57%.

作者汪丽娟钱育蓉侯海耀张晗赵京霞赵燚 WANG Li-juan;QIAN Yu-rong;HOU Hai-yao;ZHANG Han;ZHAO Jing-xia;ZHAO Yi(Software College,Xinjiang University,Urumqi 830008,China;College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China)

机构地区新疆大学软件学院新疆大学信息科学与工程学院

出处《计算机工程与设计》北大核心 2019年第12期3437-3442,共6页 Computer Engineering and Design

基金国家自然科学基金项目(61562086、61462079) 新疆“万人计划”后备基金项目(wr2015bj01) 新疆维吾尔自治区高校科研基金项目(XJEDU2017002)

关键词数据分区加速策略性能优化并行化流式计算 data partitioning acceleration strategy performance optimization parallelization stream computing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1李帅,吴斌,杜修明,陈玉峰.基于Spark的BIRCH算法并行化的设计与实现[J].计算机工程与科学,2017,39(1):35-41. 被引量：10
2洪月华.基于MPI蜂群K均值聚类算法并行化计算[J].计算机工程与设计,2017,38(12):3339-3343. 被引量：5
3季一木,张永潘,郎贤波,张殿超,王汝传.面向流数据的决策树分类算法并行化[J].计算机研究与发展,2017,54(9):1945-1957. 被引量：16
4贾瑞玉,管玉勇,李亚龙.基于MapReduce模型的并行遗传k-means聚类算法[J].计算机工程与设计,2014,35(2):657-660. 被引量：22
5周志阳,冯百明,杨朋霖,温向慧.基于Storm的流数据KNN分类算法的研究与实现[J].计算机工程与应用,2017,53(19):71-75. 被引量：7

二级参考文献31

1杨铭,陈建峰.基于CUDA的海量点云数据kNN查询算法[J].测绘通报,2012(S1):394-398. 被引量：3
2洪月华.一种具有学习能力的人工蜂群优化算法[J].微电子学与计算机,2015,32(6):154-158. 被引量：2
3陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
4宋驰,刘国华.流数据技术及其应用现状[J].燕山大学学报,2005,29(2):128-131. 被引量：4
5陆林花,王波.一种改进的遗传聚类算法[J].计算机工程与应用,2007,43(21):170-172. 被引量：26
6朱映辉,江玉珍.BIRCH聚类算法优化及并行化研究[J].计算机工程与设计,2007,28(18):4345-4346. 被引量：8
7王涛,李舟军,颜跃进,陈火旺.数据流挖掘分类技术综述[J].计算机研究与发展,2007,44(11):1809-1815. 被引量：40
8赵玖玲;卫海鹏.基于MPI的并行遗传算法的设计与实现[J]计算机科学,2006(09):186-189.
9Verma A,Llora X,Goldberg D E. Scaling genetic algorithms using mapreduce[A].2009.
10Jin C,Vecchiola C,Buyya R. Mrpga:An extension of mapreduce for parallelizing genetic algorithms[A].2008.214-221.

共引文献55

1李浩光.大数据网络分布式独立内存分配算法研究[J].科技通报,2021,37(4):37-41.
2张明光.如何开展县(市,区)"三讲"教育巡视组工作[J].理论学习（浙江）,2000(3):28-29.
3张广蓉,陈庆奎,章刚,赵海燕,高丽萍,霍欢.基于MapReduce的并行化模糊划分算法[J].计算机应用,2014,34(11):3073-3077.
4单留举,王晓东,马英运.基于大数据的用户学习偏好建模及应用[J].计算机应用与软件,2016,33(1):77-80. 被引量：8
5李兰英,董义明,孔银,周秋丽.改进K-means算法的MapReduce并行化研究[J].哈尔滨理工大学学报,2016,21(1):31-35. 被引量：7
6孙玉强,李媛媛,陆勇.基于MapReduce的K-means聚类算法的优化[J].计算机测量与控制,2016,24(7):272-275. 被引量：5
7卞云超,司秀丽.基于MapReduce的新聚类算法在农业领域的应用——以柑橘红蜘蛛图像目标识别为例[J].中国农机化学报,2016,37(9):166-171. 被引量：6
8文静,曹妍,牟向伟.双重遗传算法在文本聚类中的应用[J].计算机工程与设计,2016,37(9):2435-2439.
9高见文,薛行贵,罗杰,姜源,吴启武.基于迭代式MapReducede的海量数据并行聚类算法研究[J].中国科技论文,2016,11(14):1626-1631. 被引量：6
10郭晨晨,朱红康.基于Hadoop MapReduce和粗粒度并行遗传算法的大数据聚类方法改进[J].黑龙江大学工程学报,2016,7(3):87-91. 被引量：3

同被引文献30

1肖辉,薛亚丽,刘培,李政.基于运行数据的火电机组最佳[火用]效率分析[J].中国电机工程学报,2019,39(S01):164-170. 被引量：6
2赵云,顾健,张笑笑.一种改进聚类算法在入侵检测中的应用[J].信息安全与技术,2012,3(12):15-19. 被引量：1
3孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862. 被引量：311
4许裕栗,张静,李柠,甘中学.基于数据挖掘的锅炉在线运行状态监测[J].热能动力工程,2019,34(2):82-87. 被引量：16
5李建强,汪安明,潘文凯,陈星旭,赵凯.燃煤电站锅炉低NO_x燃烧运行参数优化[J].动力工程学报,2016,36(5):337-342. 被引量：14
6张尚志,谭鹏,何彪,张成,方庆艳,陈刚.基于滑动判别算法的低NO_x燃烧优化分析[J].热力发电,2016,45(5):33-40. 被引量：9
7郑伟,刘达.基于全工况数据挖掘的多目标燃烧优化[J].热力发电,2017,46(6):69-74. 被引量：8
8李琪,张欣,张平康,张航.基于密度峰值优化的Canopy-Kmeans并行算法[J].通信技术,2018,51(2):312-317. 被引量：7
9张立亭,黄晓浪,鹿琳琳,陈竹安,徐志宽.基于灰度差分与模板的Harris角点检测快速算法[J].仪器仪表学报,2018,39(2):218-224. 被引量：38
10袁伟.一种多视角自适应的模板匹配目标检测方法[J].电讯技术,2018,58(6):682-689. 被引量：9

引证文献3

1赵宝水,黄海龙,田昊.基于机器视觉的小目标复制图像篡改检测方法[J].计算机仿真,2021,38(8):227-230. 被引量：5
2姜晓艳,张伟,王佳慧,马利民.基于流处理改进的SK-means策略[J].北京信息科技大学学报（自然科学版）,2021,36(5):51-56. 被引量：1
3孙宇航,田亮.基于KPCA-Kmeans++数据挖掘的二次风燃烧优化[J].华北电力大学学报（自然科学版）,2023,50(5):78-86. 被引量：1

二级引证文献7

1吴琼,李永飞,李铭洋.异常数据实时检测方法研究综述[J].现代计算机,2022,28(16):9-15. 被引量：4
2刘梦瑶.基于改进MobileNet轻量级网络的人脸遮蔽检测[J].信息技术与信息化,2022(12):23-26.
3万雁悦,李志伟.基于分块Otsu法的车窗开关缺陷阈值分割方法[J].仪表技术,2023(2):41-46. 被引量：1
4田秀霞,刘正,刘秋旭,李浩然.一种改进Faster R-CNN的图像篡改检测模型[J].计算机工程与科学,2023,45(6):1030-1039. 被引量：1
5刘梦瑶,李海涛,王靖亚.融合压缩与激励模块的残差网络图像遮蔽识别[J].计算机仿真,2023,40(7):210-214.
6刘锋,夏铁牛,李亚卫.双闭环PID应用下投篮机器人路径跟踪控制研究[J].机械设计与制造,2024(1):374-378.
7高海宾.一种融合乌鸦搜索算法的K-means聚类算法[J].新乡学院学报,2024,41(3):19-25.

1冯一洲,何文才.流式计算在金融业的应用探讨[J].金融科技时代,2019,27(11):27-31.
2林涛,赵璨.最近邻优化的k-means聚类算法[J].计算机科学,2019,46(S11):216-219. 被引量：28
3陈来.基于微博热点发现的改进SSDKmeans算法[J].电子技术与软件工程,2019,0(22):130-131.
4刘桓龙,冯磊,李志伟.基于静液压传动的蓄电池轨道车电液混合加速策略[J].液压与气动,2019,43(12):85-94. 被引量：1
5陈兴志,乐文涛,王代文,黄飞翔,刘乃瑶.基于PSO-KMeans算法的MATLAB(GUI)图像分割系统平台开发应用[J].国外测井技术,2019,40(6):42-46.
6郭盛辉.基于Spark的空间大数据实时查询分析关键技术研究[J].IT经理世界,2019,0(1):57-59.
7胡程,叶枫.一种高效的Flink与MongoDB连接中间件的研究与实现[J].计算机工程与应用,2019,55(23):64-69. 被引量：4
8许苗苗,于炯,蒲勇霖,李树,张江.Storm平台非关键路径电压调控节能策略[J].东北师大学报（自然科学版）,2019,51(4):57-64. 被引量：1
9姜泽华,王怡博,徐刚,杨习贝,王平心.面向多尺度的属性约简加速器[J].计算机科学,2019,46(12):250-256. 被引量：6
10阮伦,程玖兵.VTI介质弹性体波模式解耦高效算法[J].石油地球物理勘探,2019,54(5):1014-1023.

计算机工程与设计

2019年第12期

浏览历史

内容加载中请稍等...

基于k-d树分区的聚类算法并行加速策略被引量：3

参考文献5

二级参考文献31

共引文献55

同被引文献30

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于k-d树分区的聚类算法并行加速策略 被引量：3

参考文献5

二级参考文献31

共引文献55

同被引文献30

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于k-d树分区的聚类算法并行加速策略被引量：3