MapReduce模型下的模糊C均值算法研究被引量：10

Research on Fuzzy C-means Algorithm on MapReduce Model

下载PDF

导出

摘要针对模糊C均值算法需要不断迭代来计算样本数据的隶属度值以及聚类中心的特点,利用MapReduce模型解决海量数据下的模糊C均值问题,进而提出高效的模糊C均值算法。在Map阶段和Reduce阶段分别完成隶属度和聚类中心的计算,每次迭代都需要启动一次完整的MapReduce执行过程。通过多次迭代计算出隶属度值以及聚类中心,并更新聚类中心文件,供下一轮作业使用,重复执行这一过程直至得到最终聚类结果。实验结果表明,该算法能够有效减少MapReduce计算过程中的迭代次数,从而提高整体执行效率。 Fuzzy C-means（ FCM） algorithm requires constant iteration to calculate the characteristics of the membership value of the sample data and cluster center,using MapReduce model to solve the FCM under massive data. Map stage calculates membership degree, and Reduce stage completes computing cluster center. Each iteration needs to start a MapReduce implementation process. Through multiple iterations,it calculates the value of membership and cluster center, and updates cluster center file for the use of next round job. Repeat this process until get the final clustering results. Experimental results show that the algorithm can effectively reduce the number of iterations during the calculation and improve the overall efficiency of the implementation.

作者王永贵李鸿绪宋晓

机构地区辽宁工程技术大学软件学院

出处《计算机工程》 CAS CSCD 2014年第10期47-51,共5页 Computer Engineering

基金国家自然科学基金资助项目(60903082) 辽宁省教育厅基金资助项目(L2012113)

关键词模糊C均值算法 MAPREDUCE模型海量数据高效迭代 Fuzzy C-means（ FCM） algorithm MapReduce model mass data high efficiency iteration

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1虞倩倩,戴月明.基于MapReduce的并行模糊C均值算法[J].计算机工程与应用,2013,49(14):133-137. 被引量：12
2胡磊,牛秦洲,陈艳.模糊C均值与支持向量机相结合的增强聚类算法[J].计算机应用,2013,33(4):991-993. 被引量：8
3Highland F,Stephenson J.Fitting the Problem to the Paradigm:Algorithm Characteristics Required for Effective Use of MapReduce[J].Procedia Computer Science,2012,12:212-217.
4Polo J,Carrera D.Performance-driven Task Coscheduling for MapReduce Environments[C] //Proc.of IEEE Network Operations and Management Symposium.[S.l.] :IEEE Press,2010:373-380.
5Marozzo F,Talia D,Trunfio P.P2P-MapReduce:Parallel Data Processing in Dynamic Cloud Environments[J].Journal of Computer and System Sciences,2011,78(5):1382-1402.
6李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：185
7林彬,李姗姗,廖湘科,孟令丙,刘晓东,黄訸.Seadown:一种异构MapReduce集群中面向SLA的能耗管理方法[J].计算机学报,2013,36(5):977-987. 被引量：12
8赵彦荣,王伟平,孟丹,张书彬,李均.基于Hadoop的高效连接查询处理算法CHMJ[J].软件学报,2012,23(8):2032-2041. 被引量：35
9Shafer J,Rixner S,Cox A L.The Hadoop Distributed Filesystem:Balancing Portability and Performance[C] //Proc.of 2010 IEEE International Symposium on Performance Analysis of Systems&Software.Washington D.C.,USA:IEEE Computer Society,2010:122-133.
10廖彬,于炯,张陶,杨兴耀.基于分布式文件系统HDFS的节能算法[J].计算机学报,2013,36(5):1047-1064. 被引量：58

二级参考文献178

1杨德刚.基于模糊C均值聚类的网络入侵检测算法[J].计算机科学,2005,32(1):86-87. 被引量：26
2李昆仑,黄厚宽,田盛丰,刘振鹏,刘志强.模糊多类支持向量机及其在入侵检测中的应用[J].计算机学报,2005,28(2):274-280. 被引量：49
3蒋晓悦,赵荣椿,江泽涛.基于FCM的无监督纹理分割[J].计算机研究与发展,2005,42(5):862-867. 被引量：7
4牛强,王志晓,陈岱,夏士雄.基于支持向量机的Web文本分类方法[J].微电子学与计算机,2006,23(9):102-104. 被引量：19
5陈增照,杨扬,何秀玲,喻莹,董才林.基于核聚类的SVM多类分类方法[J].计算机应用,2007,27(1):47-49. 被引量：11
6刘丽珍,贺海军,陆玉昌,宋瀚涛.支持向量机在网页信息分类中的应用研究[J].小型微型计算机系统,2007,28(2):337-340. 被引量：7
7宁焕生,张瑜,刘芳丽,刘文明,渠慎丰.中国物联网信息服务系统研究[J].电子学报,2006,34(B12):2514-2517. 被引量：151
8J C Bezdek. Pattern Recognition with Fuzzy Objective Function Algorithms [ M].New York:Plenum Press, 1981.
9J C Bezdek, J Keller, R Krisnapuram, N R Pal. Fuzzy Models and Algorithms for Pattern Recognition and Image Processing [ M]. Kluwer Academic, 1999.
10R Krishnapuram, J Keller. A possibilistic approach to clustering [J].IEEE Trans Fuzzy Systems, 1993,1 ( 2 ) : 98 - 110.

共引文献436

1李川,陶波.多任务并行处理框架下的雷达信息处理设计[J].中国电子科学研究院学报,2023,18(5):438-443.
2桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
3高永清,陈志红,黄鹤玲,倪钊滨,李霆.基于FCM的无监督最优模糊聚类算法[J].信息技术,2009,33(7):69-71. 被引量：2
4余乐安,汪寿阳.基于核主元分析的带可变惩罚因子最小二乘模糊支持向量机模型及其在信用分类中的应用[J].系统科学与数学,2009,29(10):1311-1326. 被引量：11
5单建魁,赵雪峰.基于模拟退火支持向量机的入侵检测系统[J].计算机工程与设计,2009,30(21):4851-4854. 被引量：7
6魏小涛.基于集对分析的半监督ISODATA聚类[J].计算机工程与应用,2009,45(36):99-100.
7王雷,侯瀚雨.基于质心Voronoi图的网络异常检测算法[J].计算机应用,2010,30(1):178-180. 被引量：1
8魏小涛,黄厚宽,田盛丰.基于半监督聚类的网络入侵检测算法[J].铁道学报,2010,32(1):49-53. 被引量：2
9吕泽华,金海,袁平鹏,邹德清.基于Gauss分布函数的区间值数据的模糊聚类算法[J].电子学报,2010,38(2):295-300. 被引量：11
10黄荣顺,吴宏刚,李在铭.采用动态分割与自适应滤波的弱小目标检测[J].计算机仿真,2010,27(2):239-241. 被引量：1

同被引文献70

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2杨新宇,曾明,王军,吴航.一种基于模糊逻辑的被动测量自适应抽样算法[J].计算机工程,2004,30(9):21-22. 被引量：2
3罗会兰,孔繁胜,李一啸.聚类集成中的差异性度量研究[J].计算机学报,2007,30(8):1315-1324. 被引量：36
4李英海,周建中,杨俊杰,刘力.一种基于阈值选择策略的改进混合蛙跳算法[J].计算机工程与应用,2007,43(35):19-21. 被引量：79
5孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1061
6Hall L O.Clustering with a genetically optimized approach[J].IEEE Trans on Evolutionary Computation,1993,3(2):103-112.
7Mashhadi KA.Various strategies for partitioning of memeplexes in shuffled frog leaping algorithm[C]//Proceedings of the 14th Int CSI Computer Conf.New York:IEEE Press,2009:576-581.
8Eusuff M M.Optimization of water distribution network design using the shuffled frog leaping algorithm[J].Water Resour Plan Manage,2003,129(3):210-225.
9Ngazimbi M.Data clustering using Map Reduce[D].Idaho:Boise State University,2009.
10Tom W.Hadoop权威指南[M].2版.周敏奇,王晓玲,译.北京:清华出版社,2011:167-186.

引证文献10

1苟杰,马自堂.基于MapReduce的并行SFLA-FCM聚类算法[J].计算机工程与应用,2016,52(1):66-70. 被引量：6
2王桂兰,周国亮,萨初日拉,朱永利.Spark环境下的并行模糊C均值聚类算法[J].计算机应用,2016,36(2):342-347. 被引量：11
3林海霞.基于模糊C均值聚类的嵌入式数据库并行推荐算法[J].软件导刊,2016,15(5):50-52. 被引量：1
4王建伟,陈桂芬.基于Hadoop平台的模糊C均值算法的应用[J].中国农机化学报,2016,37(6):200-204. 被引量：1
5马自堂,苟杰.基于MapReduce的FCM聚类集成算法[J].计算机应用研究,2016,33(12):3554-3558. 被引量：5
6林晓佳.海量网页模式下的特定数据快速挖掘模型的改进[J].宁德师范学院学报（自然科学版）,2016,28(4):384-389.
7冀晓岩,李玉龙.Hadoop环境下基于改进聚类的个性化推荐算法[J].兰州交通大学学报,2017,36(1):70-76. 被引量：1
8徐利谋,李长云,满君丰.层级递归式模糊逻辑系统的建模[J].重庆科技学院学报（自然科学版）,2017,19(3):83-88.
9朱付保,谢利杰,汤萌萌,朱颢东.基于模糊C-Means的改进型KNN分类算法[J].华中师范大学学报（自然科学版）,2017,51(6):754-759. 被引量：12
10欧立奇,何媛,李云飞,赵郁园,刘瀚.海量数据分类中的模糊区域判定算法研究[J].山东农业大学学报（自然科学版）,2018,49(2):335-338.

二级引证文献37

1樊凌,龚伟.无线网络MOOCs大数据聚类方法优化研究[J].计算机仿真,2016,33(7):435-439. 被引量：10
2王东强,王晓霞.云存储中大数据优化粒子群聚类算法[J].电子设计工程,2017,25(2):26-30. 被引量：13
3翟光明,李国和,吴卫江,洪云峰,周晓明,汪静.基于Spark的人工蜂群改进算法[J].计算机应用,2017,37(7):1906-1910. 被引量：4
4郝静鹏.云平台下实验室数据库资源负载优化控制仿真[J].计算机仿真,2017,34(7):391-394. 被引量：8
5陈小玉,李晓静,马海英.一种面向大数据的快速自动聚类算法[J].计算机应用研究,2017,34(9):2651-2654. 被引量：8
6彭祥文,高曙,初秀民,何阳,陆丛.基于Spark的船舶航行轨迹聚类方法[J].中国航海,2017,40(3):49-53. 被引量：15
7周宏宇,薛友,刘祚宇,沈洁,俞敏,文福拴.特高压变电站设备运维检修费用影响因素度量与分析[J].电力建设,2018,39(1):19-29. 被引量：8
8戴璞微,潘斌,王玉铭,朱峰.一种基于层次分析法的改进KNN算法[J].辽宁石油化工大学学报,2018,38(4):87-92. 被引量：6
9李冲.基于用户的协同过滤推荐算法MapReduce并行化实现[J].软件导刊,2018,17(10):76-80. 被引量：3
10贾如春.基于海量数据集中式数字图形仿真视景系统的研究与应用[J].激光杂志,2018,39(11):195-199. 被引量：1

1李红,吴粉侠.基于模糊C均值的图像分割[J].网络安全技术与应用,2014(8):126-126.
2高劲松,张俊丽.基于粒子群的模糊C均值文本聚类算法研究[J].图书情报工作,2010,54(6):57-60. 被引量：2
3刘卉媚,张桂枝.谈宏与宏病毒[J].职大学报,2005(2):58-58.
4刘畅.ActiveX控件在Authorware中的应用[J].黑龙江科技信息,2008(3):59-59. 被引量：1
5黄敏明,林柏钢.基于遗传算法的模糊聚类入侵检测研究[J].通信学报,2009,30(S2):140-145. 被引量：5
6吴成茂,何晶,王辉.隐马尔科夫模糊C均值聚类分割算法改进[J].西安邮电大学学报,2017,22(1):44-49.
7刘蕊洁,张金波,刘锐.模糊c均值聚类算法[J].重庆工学院学报（自然科学版）,2008,22(2):139-141. 被引量：36
8王鑫.基于Hadoop平台的MapReduce的技术研究[J].信息通信,2015,28(6):5-6. 被引量：1
9闫仁武,商好值.一种基于遗传算法的模糊C均值算法[J].科学技术与工程,2010,10(28):7037-7039. 被引量：3
10潘庆丰,陈水利,陈国龙.基于核函数的模糊C均值聚类算法[J].集美大学学报（自然科学版）,2006,11(4):369-374. 被引量：5

计算机工程

2014年第10期

浏览历史

内容加载中请稍等...

MapReduce模型下的模糊C均值算法研究被引量：10

参考文献16

二级参考文献178

共引文献436

同被引文献70

引证文献10

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

MapReduce模型下的模糊C均值算法研究 被引量：10

参考文献16

二级参考文献178

共引文献436

同被引文献70

引证文献10

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

MapReduce模型下的模糊C均值算法研究被引量：10