基于Spark的聚类算法优化与实现被引量：1

Optimization and implementation of clustering algorithm based on Spark

下载PDF

导出

摘要在数据挖掘中,针对聚类过程中数据存在的稀疏性问题,如果仍用传统的欧氏距离作为聚类指标,聚类的质量和效率将会受到一定的影响。受到信息论中KL散度的启发,文中提出一种基于Spark开源数据框架下利用KL散度的相似性度量方法,对目前使用的聚类算法进行优化。首先,通过预聚类,对数据的整体分布进行分析;然后,借助KL散度作为聚类的距离指标,充分利用数据集中元素提供的信息来度量不同数据集的相互关系,指导数据的聚类,在一定程度上改善了数据分布稀疏性的问题。整个过程基于Spark分布式数据处理框架,充分利用集群的能力对数据进行处理,提升数据处理的准确度和算法的时间效率;同时利用KL散度作为数据聚类距离指标,以充分考虑数据内部蕴藏的信息,使得聚类的质量得到了提升。最后通过一个实验来验证所提算法的有效性。 In the data mining,if the traditional Euclidean distance is still used as the clustering index to deal with the data sparseness in the clustering process,the clustering quality and efficiency would be affected to a certain extent. On the basis of the inspiration of KL divergence in information theory,a similarity measure method using KL divergence and based on Spark open source data framework is proposed to optimize the clustering algorithm used at present. The entire distribution of data is analyzed by pre-clustering. By taking the KL divergence as the distance index of clustering,the information provided by elements in data sets is fully utilized to measure the mutual relationship of different data sets and guide the data′s clustering,by which the sparseness of data distribution is improved to a certain extent. The whole process is based on Spark distributed data processing framework,by which the data is processed by making full use of the cluster ability to improve the accuracy of data processing and the time efficiency of the algorithm. KL divergence is used as the distance index of data clustering,so that the information hided in the data is fully considered,which may make the clustering quality improved. An experiment was carried out to verify the effectiveness of the proposed algorithm.

作者赵玉明舒红平魏培阳刘魁 ZHAO Yuming;SHU Hongping;WEI Peiyang;LIU Kui(College of Software Engineering,Chengdu University of Information Technology,Chengdu 610225,China;Key Laboratory of Software Automatic Generation and Intelligent Information Service,Chengdu University of Information Technology,Chengdu 610225,China)

机构地区成都信息工程大学软件工程学院成都信息工程大学软件自动生成与智能信息服务重点实验室

出处《现代电子技术》北大核心 2020年第8期52-55,59,共5页 Modern Electronics Technique

基金四川省科技厅科技支撑项目(18ZDYF3256) 四川省教育厅科研资助项目(18ZB0126)。

关键词聚类算法优化 SPARK 数据分布分析数据聚类聚类分析数据处理 clustering algorithm optimization Spark data distribution analysis data clustering clustering analysis data processing

分类号 TN911-34 [电子电信—通信与信息系统] TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1张文,姜祎盼,张思光,崔杨波,杜宇航.基于经验分布和KL散度的协同过滤推荐质量评价研究[J].计算机应用研究,2019,36(9):2625-2630. 被引量：6
2许明杰,蔚承建,沈航.基于Spark的并行K-means算法研究[J].微电子学与计算机,2018,35(5):95-99. 被引量：13
3李斌,王劲松,黄玮.一种大数据环境下的新聚类算法[J].计算机科学,2015,42(12):247-250. 被引量：24
4王永,邓江洲.基于KL散度的用户相似性协同过滤算法[J].北京邮电大学学报,2017,40(2):110-114. 被引量：13
5王卫卫,李小平,冯象初,王斯琪.稀疏子空间聚类综述[J].自动化学报,2015,41(8):1373-1384. 被引量：79
6陈黎飞,姜青山,王声瑞.基于层次划分的最佳聚类数确定方法[J].软件学报,2008,19(1):62-72. 被引量：82
7何玉林,黄哲学.大规模数据集聚类算法的研究进展[J].深圳大学学报（理工版）,2019,36(1):4-17. 被引量：9
8伍恒,李文杰,蒋旻.引入信息熵的CURE聚类算法[J].计算机应用研究,2017,34(8):2303-2305. 被引量：14
9徐健锐,詹永照.基于Spark的改进K-means快速聚类算法[J].江苏大学学报（自然科学版）,2018,39(3):316-323. 被引量：16
10杨杰,燕雪峰,张德平.考虑KL散度的多源软件缺陷预测方法[J].小型微型计算机系统,2017,38(11):2494-2498. 被引量：4

二级参考文献191

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2黄永平,邹力鹍.数据仓库中基于密度的批量增量聚类算法[J].计算机工程与应用,2004,40(29):206-208. 被引量：9
3洪志令 ,姜青山 ,董槐林 ,Wang Sheng-Rui .模糊聚类中判别聚类有效性的新指标[J].计算机科学,2004,31(10):121-125. 被引量：15
4诸克军,苏顺华,黎金玲.模糊C-均值中的最优聚类与最佳聚类数[J].系统工程理论与实践,2005,25(3):52-61. 被引量：69
5刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
6高小梅,冯云,冯兴杰.增量式K-Medoids聚类算法[J].计算机工程,2005,31(B07):181-183. 被引量：9
7徐新华,谢永红.增量聚类综述及增量DBSCAN聚类算法研究[J].华北航天工业学院学报,2006,16(2):15-17. 被引量：5
8王洪春,彭宏.基于模糊C-均值的增量式聚类算法[J].微电子学与计算机,2007,24(6):156-157. 被引量：22
9沈洁,赵雷,杨季文,李榕.一种基于划分的层次聚类算法[J].计算机工程与应用,2007,43(31):175-177. 被引量：13
10胡彩平,秦小麟.一种改进的基于密度的抽样聚类算法[J].中国图象图形学报,2007,12(11):2031-2036. 被引量：4

共引文献268

1刘英林,陈玉柱,丁文静,程红云.钢卷表面缺陷分布特征发现方法研究[J].冶金自动化,2020,44(1):27-31. 被引量：2
2袁小翠,刘宝玲,马永力.基于空间邻域连通区域标记法的点云离群点检测[J].计算机应用研究,2020,37(S02):380-382. 被引量：6
3王鸿玺,李飞,林志文,罗义钊,梁海涛,胡建新.基于IK-means的用电行为研究[J].国外电子测量技术,2020,39(1):54-58. 被引量：5
4何孝金,傅彦,陈安龙.基于相对距离的密度聚类算法[J].计算机应用研究,2009,26(4):1335-1337. 被引量：3
5黄志华,温步瀛,王国乾.可间断运行的K-means聚类算法[J].计算机应用研究,2009,26(6):2053-2055. 被引量：3
6向剑平,唐常杰,郑皎凌,胡剑.ASCA:一种快速自适应聚类算法[J].微计算机信息,2009,25(18):280-282.
7姚玉钦,李金广.一种基于网格的层次聚类算法[J].河南师范大学学报（自然科学版）,2009,37(4):42-44. 被引量：1
8赵兴旺,梁吉业,曹付元.符号数据最佳聚类个数的确定方法[J].广西师范大学学报（自然科学版）,2009,27(3):130-133.
9徐冬,符谋松,付海艳.聚类算法在学生综合评价中的应用[J].现代计算机,2009,15(10):17-19. 被引量：3
10周洪娟,刘帅,金铭,乔晓林.基于DOA参数的雷达信号预分选[J].系统工程与电子技术,2009,31(11):2575-2577. 被引量：2

同被引文献17

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2孔颖.基于数据挖掘的分类算法在潜在客户识别中的应用[J].计算机时代,2008(9):31-32. 被引量：3
3赵卫中,马慧芳,傅燕翔,史忠植.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].计算机科学,2011,38(10):166-168. 被引量：83
4胡俊,胡贤德,程家兴.基于Spark的大数据混合计算模型[J].计算机系统应用,2015,24(4):214-218. 被引量：56
5贾金伟,吴旭鹏,李启本,戴人杰.基于并行计算的大数据挖掘在电网中的应用[J].电力与能源,2017,38(6):724-729. 被引量：3
6陈宁,孙晓阳,龚德鹏.基于商业智能的铁路货运客户精准识别方案[J].综合运输,2018,40(7):103-109. 被引量：2
7荀挺,雷胜华,丁晓辰,孙可万,黄凯,杨骥,胡文斌.区域综合能源系统的多目标最优潮流算法研究[J].智慧电力,2019,47(9):19-28. 被引量：25
8陶婧.基于Spark的分布式大数据并行化聚类方法研究[J].湖北第二师范学院学报,2019,36(8):49-53. 被引量：4
9傅世权.大数据时代下数据挖掘技术在电力企业中的应用探讨[J].信息记录材料,2019,20(11):128-129. 被引量：6
10余胜辉,李玲娟.基于Spark的层次聚类算法的并行化研究[J].计算机技术与发展,2020,30(6):19-22. 被引量：6

引证文献1

1沈子垚,袁晓玲.基于并行化K-means的综合能源服务客户识别[J].电力工程技术,2021,40(2):107-113. 被引量：6

二级引证文献6

1白雨佳,李靖,高升.基于最优K均值聚类算法的负荷大数据任务均衡调度研究[J].电力电容器与无功补偿,2022,43(6):85-91. 被引量：5
2方志,余粟.基于IGA-Optuna-LightGBM的民航潜在旅客预测[J].国外电子测量技术,2022,41(10):142-147. 被引量：5
3王永真,潘崇超,韩恺,杨旭东,李娜,戴璟,李嘉宇,朱晨光.“双碳”目标下中国综合能源服务的态势辨析与理论架构[J].全球能源互联网,2023,6(4):379-389. 被引量：4
4田守强,郑伟.贵州省综合能源服务发展模式及实施路径探究[J].能源与节能,2023(7):9-11.
5黄文华,臧浩,冯景瑜,韩刚.一种基于多授权中心协同的数据保护方案[J].西安邮电大学学报,2023,28(5):67-74.
6董冰冰,李秉华,高常胜.油纸绝缘缺陷局放UHF抗干扰定位及优化布置方法[J].电力工程技术,2024,43(1):181-191.

1杨将,邓永祁,邓国知.基于RMI分布式的LMD系统性能优化与实现[J].铁路通信信号工程技术,2020,17(3):25-31. 被引量：4
2王国光,羊海锋,刘谦.基于“互联网+”技术的门诊流程优化与实现[J].中国数字医学,2020,0(1):104-105. 被引量：26
3张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
4王晓群,张宇轩.复杂工程的设计优化与实现——访大兴机场航站区总建筑师王晓群[J].建筑实践,2019,2(10):40-47.
5丁敬安,张欣海,胡博,周国民.基于集成学习的不完备数据补全算法研究[J].中国电子科学研究院学报,2020,15(1):78-83. 被引量：5
6张妮妮,孙胜娟,张永健.未确知聚类在专利质量评价中的应用[J].现代电子技术,2020,43(8):143-146. 被引量：6
7颜华,张力男.声学CT温度场重建系统的收发器位置优化与实现[J].仪表技术与传感器,2020(2):87-91. 被引量：2
8郑帅,吕芳.模糊K-means算法在临床路径决策中的应用[J].辽宁师专学报（自然科学版）,2019,21(3):81-88. 被引量：3
9康耀龙,张景安,冯丽露.基于约束满足的大数据聚类中心调度算法仿真[J].计算机仿真,2020,37(3):385-388. 被引量：9
10杨梦琦,吴波,宋咏梅.低龄高血压病患者中医证型分布规律及主要先天运气因素探究[J].山东中医杂志,2020,39(5):457-460. 被引量：3

现代电子技术

2020年第8期

浏览历史

内容加载中请稍等...

基于Spark的聚类算法优化与实现被引量：1

参考文献12

二级参考文献191

共引文献268

同被引文献17

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Spark的聚类算法优化与实现 被引量：1

参考文献12

二级参考文献191

共引文献268

同被引文献17

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Spark的聚类算法优化与实现被引量：1