基于MapReduce的模糊K-means算法并行化研究被引量：1

Research on Parallelization of Fuzzy K-means Algorithm Based on MapReduce

下载PDF

导出

摘要模糊K-means算法是一种能够定量地确定事物亲属关系的软聚类算法,由于该算法在大规模数据的分析和处理中存在的不足,因此提出一种基于MapReduce模型的并行化实现。首先在Map函数的输出传递给其他节点的Reduce函数之前,改进Combine函数设计,增加本地中间结果处理,减少通信开销,以提高MapReduce任务计算速度。然后在Hadoop分布式计算平台上对多组规模不同的数据集进行测试。实验表明,基于MapReduce的并行模糊K-means算法适合大规模数据的分析和处理,而且执行速度提高了约1.9倍,聚类效果更为显著。 The fuzzy K-means algorithm is a kind of important soft clustering algorithm which can quantitatively determine the relation of different objects.In view of the shortcomings of fuzzy K-means algorithm in large-scale data processing,therefore,this paper puts forward parallel implementation based on MapReduce programming model.First,in order to improve the computing speed of the MapReduce task,it can improve the design of the Combine function,add the local intermediate result processing and reduce the communication overhead before the output of the Map function is passed to the Reduce function of other nodes.Then,several sets of data sets with different sizes are tested on the Hadoop distributed computing platform.The experiments show that the parallel fuzzy K-means algorithm based on MapReduce is suitable for the analysis and processing of large-scale data,and the execution speed is increased by about 1.9 times,and the clustering effect is more remarkable.

作者杨延庆袁华兵 YANG Yanqing;YUAN Huabing(Division of Information Technology,Xi'an Medical University,Xi'an 710021)

机构地区西安医学院信息技术处

出处《计算机与数字工程》 2020年第7期1564-1567,1765,共5页 Computer & Digital Engineering

基金陕西省青年科学基金项目(编号:71701160) 西安医学院教学改革研究项目(编号:2018JG-07)资助。

关键词模糊K-means MAPREDUCE模型 Combine函数 HADOOP平台 fuzzy K-means Mapreduce model Combine function Hadoop platform

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献11

1虞倩倩,戴月明,李晶晶.基于MapReduce的ACO-K-means并行聚类算法[J].计算机工程与应用,2013,49(16):117-120. 被引量：13
2夏邢,薛涛,李婷.基于Spark的模糊C均值算法改进[J].西安工程大学学报,2019,33(1):100-105. 被引量：5
3卢胜宇,王静宇,张晓琳,高俊峰.基于Hadoop平台的K-means聚类算法优化研究[J].内蒙古科技大学学报,2016,35(3):264-268. 被引量：6
4张承畅,张华誉,罗建昌,何丰.基于云计算和改进K-means算法的海量用电数据分析方法[J].计算机应用,2018,38(1):159-164. 被引量：29
5孙兵率.一种基于MapReduce的频繁项集挖掘算法[J].软件导刊,2015,14(4):75-77. 被引量：1
6张雪萍,龚康莉,赵广才.基于MapReduce的K-Medoids并行算法[J].计算机应用,2013,33(4):1023-1025. 被引量：33
7刘宝龙,苏金.双MapReduce改进的Canopy-Kmeans算法[J].西安工业大学学报,2016,36(9):730-737. 被引量：6
8郭卫霞,薛涛,李婷.基于Hadoop的Canopy-K-means并行算法的学生成绩与毕业流向关系分析[J].西安工程大学学报,2018,32(6):705-712. 被引量：11
9左进,陈泽茂.基于改进K均值聚类的异常检测算法[J].计算机科学,2016,43(8):258-261. 被引量：51
10鲁伟明,杜晨阳,魏宝刚,沈春辉,叶振超.基于MapReduce的分布式近邻传播聚类算法[J].计算机研究与发展,2012,49(8):1762-1772. 被引量：53

二级参考文献95

1周丽娟,王慧,王文伯,张宁.面向海量数据的并行KMeans算法[J].华中科技大学学报（自然科学版）,2012,40(S1):150-152. 被引量：32
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
4刘星,毕奇龙,郑付刚.基于蚁群K均值聚类算法的边坡稳定性分析[J].水电能源科学,2010,28(8):108-109. 被引量：5
5倪巍伟,陆介平,孙志挥.基于向量内积不等式的分布式k均值聚类算法[J].计算机研究与发展,2005,42(9):1493-1497. 被引量：15
6刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
7WILKINSONB ALLENM 陆鑫达汤勇平增志勇译.并行程序设计[M].北京:机械工业出版社,2002..
8HANJ,KAMBERM.数据挖掘:概念与技术[M].范明,盂小峰,译.2版.北京:机械工业出版社,2007.
9ZHANG X, DENG G, LIU Y. Spatial obstructed distance based on the combination of ant colony optimization and particle swarm optimi- zation[ C]/! Proceedings of 2009 4th IEEE Conference on Industrial Electronics and Applications. Piscataway, NJ: IEEE Press, 2009: 106 -111.
10刘鹏.云计算[M1.2版.北京:电子工业出版社,2011.

共引文献255

1吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：3
2林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
3李飞谷,张玉香,朱峰波,温良涛.提高地方煤质数据库应用价值的途径[J].中国科技纵横,2018,0(17):167-168. 被引量：1
4原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
5陈文强,林琛,陈珂,陈锦秀,邹权.基于GraphLab的分布式近邻传播聚类算法[J].山东大学学报（工学版）,2013,43(5):13-18.
6赵辉,杨树强,陈志坤,尹洪,金松昌.基于MapReduce模型的范围查询分析优化技术研究[J].计算机研究与发展,2014,51(3):606-617. 被引量：14
7李静滨,杨柳,陈宁江.基于MapReduce的改进K-Medoids并行算法[J].广西大学学报（自然科学版）,2014,39(2):341-345. 被引量：5
8顾荣,严金双,杨晓亮,袁春风,黄宜华.Hadoop MapReduce短作业执行性能优化[J].计算机研究与发展,2014,51(6):1270-1280. 被引量：28
9袁再龙.基于改进图划分的异构并行计算模型设计[J].计算机测量与控制,2014,22(6):1941-1943. 被引量：1
10王卫锋,田亮.基于改进量子粒子群的分布式并行计算框架设计[J].计算机测量与控制,2014,22(6):1960-1962. 被引量：1

同被引文献7

1郑帅,吕芳.模糊K-means算法在临床路径决策中的应用[J].辽宁师专学报（自然科学版）,2019,21(3):81-88. 被引量：3
2殷志明,刘书杰,谭扬,李永华.基于机器学习的深水钻井大数据处理方法研究[J].海洋工程装备与技术,2019,6(S01):446-453. 被引量：8
3彭龙,化振谦,党三磊,赵炳辉,张永旺.面向泛在物联网的电力营销大数据处理方法[J].电气工程学报,2020,15(1):95-102. 被引量：11
4翟俊海,田石,张素芳,王谟瀚,宋丹丹.基于MapReduce和Spark的大数据模糊K-means算法比较[J].河北大学学报（自然科学版）,2020,40(4):433-440. 被引量：3
5郑欣玲.泛在物联网在电力营销大数据处理方法[J].集成电路应用,2020,37(10):184-185. 被引量：8
6孙利宏.基于Hadoop的智能电网时序大数据处理方法[J].计算机仿真,2020,37(12):67-71. 被引量：4
7万晓燕.基于聚类划分的大数据处理方法研究[J].智库时代,2019,0(39):280-280. 被引量：4

引证文献1

1王天皓.基于改进模糊K-means算法的大数据处理方法[J].电子技术与软件工程,2021(22):187-189. 被引量：1

二级引证文献1

1张麦玲.基于文本过滤技术的网络数据安全过滤方法[J].信息与电脑,2022,34(9):199-201. 被引量：1

1王勇,黄秋彬,刘永,许茂增.基于客户重要度的混合时间窗车辆路径问题研究[J].公路交通科技,2019,36(11):151-158. 被引量：5
2吴雨晨,刘萍萍,徐江涛.改进的大数据检索自适应性切换搜索算法[J].西安工业大学学报,2019,39(6):688-695. 被引量：2
3翟俊海,田石,张素芳,王谟瀚,宋丹丹.基于MapReduce和Spark的大数据模糊K-means算法比较[J].河北大学学报（自然科学版）,2020,40(4):433-440. 被引量：3
4段中兴,毕瀚元,张作伟.基于D-S证据理论的不完整数据混合分类算法[J].信息与控制,2020,49(4):455-463. 被引量：14
5王增平,胡加伟,王彤,时伯年.大容量直流换相失败后功率恢复速率对送端系统暂态稳定的影响分析[J].电网技术,2020,44(5):1815-1824. 被引量：17
6梁元.分布式JS解析在Web信息采集系统中的应用[J].电子技术与软件工程,2020(10):163-164.
7范培军,王志坚,仲涛.TRAIL对骨肉瘤细胞U-2OS凋亡与增殖的影响[J].实用癌症杂志,2020,35(9):1404-1407.
8王占国,程杰,何闯.汽车噪声国标与欧标法规差异分析[J].汽车实用技术,2020(18):233-235.

计算机与数字工程

2020年第7期

浏览历史

内容加载中请稍等...

基于MapReduce的模糊K-means算法并行化研究被引量：1

参考文献11

二级参考文献95

共引文献255

同被引文献7

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的模糊K-means算法并行化研究 被引量：1

参考文献11

二级参考文献95

共引文献255

同被引文献7

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的模糊K-means算法并行化研究被引量：1