基于Spark的模糊C均值算法改进被引量：5

Improvement of FCM algorithm based on Spark

下载PDF

导出

摘要模糊C均值(FCM,fuzzzy C-Means)算法是一种在大数据分析领域广泛使用的聚类算法,由于FCM的聚类结果和聚类速度很大程度上取决于初始聚类中心,因此给出一种Canopy-FCMBM改进算法。首先运用Canopy算法生成聚类中心和聚类数量,并以此结果作为FCM算法的初始聚类中心,从而解决确定聚类数目困难和随机初始聚类中心容易产生局部最优解等问题。针对数据存在多维度且分布不均匀的问题,将FCM算法目标函数距离度量方式由欧几里德距离替换为马哈拉诺比斯距离。最后通过Spark编程模型实现Canopy-FCMBM算法的并行化处理,提高算法执行效率。结果表明,相比较传统的FCM算法,基于Spark的Canopy-FCMBM算法聚类准确率提升12.7%,聚类速度提升1.35倍,聚类效果更优。 Fuzzy C-Means (FCM) algorithm is a clustering algorithm widely used in the field of big data analysis.Since the clustering results and speed of FCM depend largely on the initial clustering center,an improved Canopy-FCMBM algorithm is proposed in this paper. Firstly,the Canopy algorithm is used to generate the cluster center and the number of clusters,and the result is used as the initial clustering center of the FCM algorithm,so as to solve the problem that it is difficult to determine the number of clusters,and that randomly determining the initial clustering center leads to the local optimal solution. In view of the multi-dimensional and uneven distribution of data, the distance measurement method of FCM is replaced by the Mahalanobis distance. Finally, the parallelization processing on Spark programming model is realized to improve the algorithm execution efficiency. Compared with the traditional FCM algorithm,the experimental results show that the clustering accuracy of the improved algorithm increases by 12.7%,the clustering speed increases by 1.35 times,and thus the clustering effect is better than before.

作者夏邢薛涛李婷 XIA Xing;XUE Tao;LI Ting(School of Computer Science,Xi′an Polytechnic University,Xi′an 710048,China)

机构地区西安工程大学计算机科学学院

出处《西安工程大学学报》 CAS 2019年第1期100-105,共6页 Journal of Xi’an Polytechnic University

基金陕西省自然科学基础研究计划一般项目(2018JQ6103)

关键词模糊C均值 Canopy算法马哈拉诺比斯距离 SPARK 并行化 fuzzy C-Means Canopy algorithm Mahalanobis distance Spark parallelization

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献14

1范明,田铮,赵伟.FCM型聚类算法的统一框架及其核推广[J].电子设计工程,2013,21(4):134-136. 被引量：4
2张姣,王晓东,薛红.基于花粉算法的K均值聚类算法[J].纺织高校基础科学学报,2016,29(4). 被引量：4
3王桂兰,周国亮,萨初日拉,朱永利.Spark环境下的并行模糊C均值聚类算法[J].计算机应用,2016,36(2):342-347. 被引量：11
4冯青平,李星毅.基于MapReduce和聚类算法的交通状态识别[J].信息技术,2017,41(5):1-6. 被引量：1
5李琪,张欣,张平康,张航.基于密度峰值优化的Canopy-Kmeans并行算法[J].通信技术,2018,51(2):312-317. 被引量：7
6盛莉,邹开其,邓冠男.基于网格和密度的模糊C均值聚类初始化方法[J].计算机应用与软件,2008,25(3):22-23. 被引量：9
7祖志文,李秦.基于马氏距离的模糊聚类优化算法——KM-FCM[J].河北科技大学学报,2018,39(2):159-165. 被引量：6
8熊拥军,刘卫国,欧鹏杰.模糊C-均值聚类算法的优化[J].计算机工程与应用,2015,51(11):124-128. 被引量：16
9高新波,裴继红,谢维信.模糊c-均值聚类算法中加权指数m的研究[J].电子学报,2000,28(4):80-83. 被引量：157
10祖志文,李秦.关于马氏距离模糊聚类的有效性指标研究[J].陕西理工大学学报（自然科学版）,2018,34(2):33-38. 被引量：6

二级参考文献105

1余丹.关于查全率和查准率的新认识[J].西南民族大学学报（人文社会科学版）,2009,30(2):283-285. 被引量：15
2赵小强,李雄伟.基于改进马氏距离的模糊C聚类研究[J].中南大学学报（自然科学版）,2013,44(S2):195-198. 被引量：5
3张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
4汪西莉,焦李成.一种基于马氏距离的支持向量快速提取算法[J].西安电子科技大学学报,2004,31(4):639-643. 被引量：21
5刘笛,朱学峰,苏彩红.一种新型的模糊C均值聚类初始化方法[J].计算机仿真,2004,21(11):148-151. 被引量：19
6张新波.两阶段模糊C-均值聚类算法[J].电路与系统学报,2005,10(2):117-120. 被引量：21
7诸克军,苏顺华,黎金玲.模糊C-均值中的最优聚类与最佳聚类数[J].系统工程理论与实践,2005,25(3):52-61. 被引量：69
8岳士弘,王正友.二分网格聚类方法及有效性[J].计算机研究与发展,2005,42(9):1505-1510. 被引量：15
9陈卓,孟庆春,魏振钢,任丽婕,窦金凤.一种基于网格和密度凝聚点的快速聚类算法[J].哈尔滨工业大学学报,2005,37(12):1654-1657. 被引量：14
10刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23

共引文献242

1肖微炜,钱瑜,赵胜豪,王亚伟.基于模糊聚类的生态功能区若干指标定量划分的研究[J].四川环境,2008,27(3):57-60. 被引量：1
2张元武,王丽珍,孔云.一种基于几何中心的模糊c均值聚类方法[J].云南大学学报（自然科学版）,2009,31(S1):189-193.
3吴成茂,范九伦.一种新的数据分类效果评价方法[J].计算机工程与应用,2004,40(25):171-172.
4汪加才,朱艺华.模糊K-Prototypes算法中的加权指数研究[J].计算机应用,2005,25(2):348-351. 被引量：4
5罗明,杨绍全.一种多进制频移键控信号的调制分类及解调方法[J].西安电子科技大学学报,2005,32(1):52-55. 被引量：10
6宫改云,高新波,伍忠东.FCM聚类算法中模糊加权指数m的优选方法[J].模糊系统与数学,2005,19(1):143-148. 被引量：81
7姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：68
8罗明,杨绍全.基于动态聚类的MPSK信号调制分类[J].电路与系统学报,2005,10(2):83-86. 被引量：2
9唐宁玉.瑞典商业银行的教堂塔原则[J].人才资源开发,2005(5):61-61.
10白瑞祥,李若岩,宋辉.模糊C-均值聚类分析系统设计与实现[J].天津科技大学学报,2005,20(4):52-55. 被引量：4

同被引文献52

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
2官云兰,程效军,施贵刚.一种稳健的点云数据平面拟合方法[J].同济大学学报（自然科学版）,2008,36(7):981-984. 被引量：117
3徐进军,余明辉,郑炎兵.地面三维激光扫描仪应用综述[J].工程勘察,2008,36(12):31-34. 被引量：76
4苏晓蓓,郝刚.地面三维激光扫描标靶中心识别算法研究[J].城市勘测,2010(3):68-70. 被引量：20
5田立亭,史双龙,贾卓.电动汽车充电功率需求的统计学建模方法[J].电网技术,2010,34(11):126-130. 被引量：501
6张萍,王剑钢.结合空间信息的FCM聚类噪声图像分割方法[J].计算机与现代化,2012(3):52-54. 被引量：3
7鲁伟明,杜晨阳,魏宝刚,沈春辉,叶振超.基于MapReduce的分布式近邻传播聚类算法[J].计算机研究与发展,2012,49(8):1762-1772. 被引量：53
8张雪萍,龚康莉,赵广才.基于MapReduce的K-Medoids并行算法[J].计算机应用,2013,33(4):1023-1025. 被引量：33
9虞倩倩,戴月明,李晶晶.基于MapReduce的ACO-K-means并行聚类算法[J].计算机工程与应用,2013,49(16):117-120. 被引量：13
10孙兵率.一种基于MapReduce的频繁项集挖掘算法[J].软件导刊,2015,14(4):75-77. 被引量：1

引证文献5

1王烽.FCM聚类算法对平面标靶中心提取精度的探究[J].测绘通报,2019(S1):122-125.
2陈怡君,曹逻炜,杜玉倩.基于自步数据重构正则化的模糊C均值聚类算法改进[J].计算机与现代化,2020,0(6):120-126. 被引量：5
3杨延庆,袁华兵.基于MapReduce的模糊K-means算法并行化研究[J].计算机与数字工程,2020,48(7):1564-1567. 被引量：1
4胡建华,尹慧琳.基于余弦相似性的自适应权重的改进FCM算法[J].智能计算机与应用,2021,11(7):73-79.
5李振坤,钱晋,宋治儒.考虑电动汽车停泊概率的配电网接纳电动汽车能力评估方法[J].智慧电力,2021,49(11):31-37. 被引量：8

二级引证文献14

1聂静,常涛,刘维,吕小红,王晨,杨知方.基于聚类分析的个性化异构数据发布[J].科学技术与工程,2021,21(14):5813-5821. 被引量：3
2王天皓.基于改进模糊K-means算法的大数据处理方法[J].电子技术与软件工程,2021(22):187-189. 被引量：1
3朱峥瑜,宋燕.一种基于多重信息的不完全数据的模糊C均值聚类算法[J].小型微型计算机系统,2021,42(12):2545-2552. 被引量：6
4邓申玮,韦钢,朱兰,曾梦隆,袁洪涛.基于区间理论含充换储一体站的主动配电网供电能力评估[J].智慧电力,2022,50(4):59-65. 被引量：8
5林楷东,杨景旭,张勇军,姚蓝霓,李其霖,唐渊.双电源供电充电站的需求响应优化模型[J].电力系统保护与控制,2022,50(17):68-75. 被引量：5
6董晓红,冯芷蔚,张家安,刘宁.含非线性残差的新能源汽车规模预测方法[J].电力工程技术,2022,41(5):76-84. 被引量：5
7麻恒远,马恒瑞.考虑新能源消纳的网-站-车协同优化调度[J].电网与清洁能源,2023,39(3):103-108. 被引量：6
8李豪,赵悦,公茂果,武越,刘洁怡.一种自适应混合权重的自步学习方法[J].软件学报,2023,34(5):2337-2349.
9薛露宇,宋燕.一种具有缺失数据的无监督ReliefF特征选择算法[J].小型微型计算机系统,2023,44(7):1441-1448. 被引量：3
10高海燕,高晋阳,郑志华.基于聚类结构编码的差分隐私异构数据发布[J].计算机应用与软件,2023,40(7):18-25. 被引量：1

1杨辉,赵雪松,孙彦飞,王铁栋,宗军君,庆丰.利用近场多波长激光雷达对生物气溶胶的偏振测量[J].大气与环境光学学报,2018,13(1):52-58.
2张洋洋,荆晓远,吴飞.基于迁移学习的跨项目软件缺陷预测[J].计算机技术与发展,2018,28(12):83-85.
3陈婷婷,邱锐鸿,李政威,夏海霞(指导).校园打包平台建设实践——以南国商学院为例[J].商场现代化,2019(2):15-16.
4王斐.基础概念知识对数学解题能力速度提升探讨[J].科技资讯,2018,16(13):137-138.
5文曲江中誉荆楚百年树人唱大风——湖北省江陵中学推进课程改革掠影[J].新智慧,2018(18):2-2.
6袁红超,许平,王萍.基于机器视觉的阴极铜表面质量检测系统研究[J].矿冶,2018,27(6):70-74.
7张晋逢,孙忠林.基于核函数动态分配聚类中心的DGK-Kmeans算法[J].软件导刊,2019,18(2):42-44. 被引量：3
8王帅,赵建平,王志远,谢广.基于云计算平台实现电网短期负荷预测算法的研究[J].四川电力技术,2019,42(1):29-32. 被引量：3
9文曲江中誉荆楚百年树人唱大风——湖北省江陵中学推进课程改革掠影[J].新智慧,2018(17):2-2.
10蔡鲲鹏,李澄非,田果.基于Flink平台的K-Means算法[J].信息技术,2019,43(3):75-78. 被引量：1

西安工程大学学报

2019年第1期

浏览历史

内容加载中请稍等...

基于Spark的模糊C均值算法改进被引量：5

参考文献14

二级参考文献105

共引文献242

同被引文献52

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于Spark的模糊C均值算法改进 被引量：5

参考文献14

二级参考文献105

共引文献242

同被引文献52

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于Spark的模糊C均值算法改进被引量：5