多源信息数据的并行优化抽样聚类K-means算法被引量：10

11-Means Algorithm for Parallel Optimal Sampling Clustering of Multi-source Information Data

下载PDF

导出

摘要为了解决K-means算法在面对多源信息数据时,无法对数据集合准确聚类,且处理效率较低等问题,以多源信息数据的特点和传统算法为依据,研究得到一种多源信息数据的并行优化抽样聚类K-means算法。算法利用特征函数和模糊分类中理想的划分函数,对多源信息数据合理化预处理,同时基于Map Reduce模型和Canopy算法定义,获得相同数据并分类到相同子集内,然后采用BK-means算法对Canopy子集达成聚类分析,通过抽样策略令数据空间形成同宽的窗格,根据其范围内点数与最小点数的比较及间距值的确定,对数据点实施去除,通过最大最小距离方法对新的聚类中心和模式进行选择,最后令并行优化抽样聚类K-means算法得到有效的实现。经过仿真,上述算法不仅并行性较好,聚类精准度较高,并且具备极佳的鲁棒性和收敛性,处理时长有明显的缩短。 At present,K-means algorithm cannot cluster the data set accurately in processing multi-source information data,and the processing efficiency is low.Therefore,this article puts forward a K-means algorithm for parallel optimized sampling and clustering of data multi-source information based on the characteristics of multi-source information data and traditional algorithms.This algorithm used the feature function and the ideal partition function in fuzzy classification to rationalize the multi-source information data.Based on Map Reduce model and Canopy algorithm definition,the same data were obtained and divided into the same subset.After that,BK-means algorithm was adopted for cluster analysis of Canopy subset.According to the sampling strategy,the data space was formed into a pane with the same width.Furthermore,the data points were removed based on the comparison between the number of points within its range and the minimum number of points and the determination of distance value.In addition,new clustering center and mode were selected by the method of maximum-minimum distance.Finally,the parallel optimization sampling clustering K-means algorithm was effectively implemented.Simulation results verify that the proposed algorithm not only has good parallelism and high clustering accuracy,but also has excellent robustness and convergence,so that the processing time is significantly shortened.

作者杨晓梅 YANG Xiao-mei(College of Information Management,Xinjiang University of Finance and Economics,Urumqi Xinjiang 830012,China)

机构地区新疆财经大学信息管理学院

出处《计算机仿真》北大核心 2020年第7期305-308,332,共5页 Computer Simulation

基金 2017年度教育部人文社会科学研究规划基金项目(17XJJAZH001)。

关键词多源信息数据收敛性聚类中心欧几里得度量 Multi-source information data Convergence Cluster center Euclidean metric

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1王立国,赵亮,石瑶.基于最大最小距离的高光谱遥感图像波段选择[J].智能系统学报,2018,13(1):131-137. 被引量：6
2吴克文.直流电压信号采集微系统设计[J].电镀与精饰,2019,41(9):39-42. 被引量：5
3万静,张超,何云斌,李松.可变网格优化的K-means聚类方法[J].小型微型计算机系统,2018,39(1):95-99. 被引量：10
4曹政才,林诚然,黄冉.带等待时间约束并行机调度问题的Copula分布估计算法[J].电子学报,2017,45(12):2949-2956. 被引量：3
5王明威,万幼川,高贤君,叶志伟.纹理影像特征选择及K-means聚类优化方法[J].国防科技大学学报,2017,39(6):152-159. 被引量：5
6瞿萌,蒋曼如.关于特征函数的Hilbert变换的一个注记（英文）[J].数学杂志,2018,38(1):1-7. 被引量：1
7许晓飞,陈亮.应用整数小波变换的LZ77电力数据压缩算法[J].西安工程大学学报,2018,32(3):337-342. 被引量：14
8杨明极,马池,王娅,张竹.一种改进K-means聚类的FCMM算法[J].计算机应用研究,2019,36(7):2007-2010. 被引量：10
9荣智海,齐波,张鹏,李成榕,杨祎.基于油中溶解气体Canopy高维模型的变压器异常状态快速识别方法[J].中国电机工程学报,2018,38(13):3987-3996. 被引量：19
10李明,王盛,孙更新,宾晟.基于稀疏光流和密度聚类的运动目标检测算法[J].计算机仿真,2019,36(5):395-398. 被引量：6

二级参考文献99

1陈俊超,张俊豪,刘诗佳,陆小锋.基于背景建模与帧间差分的目标检测改进算法[J].计算机工程,2011,37(S1):171-173. 被引量：23
2陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
3单梁,强浩,李军,王执铨.基于Tent映射的混沌优化算法[J].控制与决策,2005,20(2):179-182. 被引量：192
4刘健庄,栗文青.灰度图象的二维Otsu自动阈值分割法[J].自动化学报,1993,19(1):101-105. 被引量：355
5乐全明,郁惟镛,柏传军,费铭薇,杜俊红.基于提升算法的电力系统故障录波数据压缩新方案[J].电力系统自动化,2005,29(5):74-78. 被引量：26
6刘春红,赵春晖,张凌雁.一种新的高光谱遥感图像降维方法[J].中国图象图形学报（A辑）,2005,10(2):218-222. 被引量：81
7闫常友,杨奇逊,刘万顺.基于提升格式的实时数据压缩和重构算法[J].中国电机工程学报,2005,25(9):6-10. 被引量：54
8闫成新,桑农,张天序,曾坤.基于局部复杂度的图像过渡区提取与分割[J].红外与毫米波学报,2005,24(4):312-316. 被引量：25
9熊浩,孙才新,廖瑞金,李剑,杜林.基于核可能性聚类算法和油中溶解气体分析的电力变压器故障诊断研究[J].中国电机工程学报,2005,25(20):162-166. 被引量：57
10陶文兵,金海.一种新的基于图谱理论的图像阈值分割方法[J].计算机学报,2007,30(1):110-119. 被引量：56

共引文献81

1齐波,王一鸣,张鹏,温钊,李成榕,王红斌.基于自决策主动纠偏的电力变压器油色谱诊断模型[J].高电压技术,2020,46(1):23-32. 被引量：14
2廖瑞金,王有元,刘航,刘宏波,马志鹏.输变电设备状态评估方法的研究现状[J].高电压技术,2018,44(11):3454-3464. 被引量：80
3满玉岩,董艳唯,祁麟,张弛.基于LSSVM的电力变压器异常状态实时评价研究[J].电气应用,2018,37(22):28-32. 被引量：2
4荣智海,齐波,李成榕,朱双静,陈玉峰,辜超.面向变压器油中溶解气体分析的组合DBN诊断方法[J].电网技术,2019,43(10):3800-3808. 被引量：25
5李帅,张梦华,郭力娜.不同监督分类器对土地利用分类精度的影响[J].华北理工大学学报（自然科学版）,2018,40(2):42-48. 被引量：13
6曾新,杨健,张鑫,陶安玲.基于K-means算法的优秀班集体评选方法[J].大理大学学报,2018,3(12):24-29. 被引量：1
7王玙.基于聚类算法的企业管理系统的设计[J].电子设计工程,2019,27(4):47-51. 被引量：3
8马嘉秀,徐玮浓,何复兴,邵诗韵,赵家乐,李宁.基于WT和SVM的电能质量分类识别方法[J].智慧电力,2019,47(3):16-22. 被引量：17
9程玉胜,钱坤,王一宾,赵大卫.融合萤火虫方法的多标签懒惰学习算法[J].计算机应用,2019,39(5):1305-1311. 被引量：4
10齐波,王一鸣,张鹏,李成榕,王红斌.面向变压器油色谱趋势预测的深度递归信念网络[J].电网技术,2019,43(6):1892-1899. 被引量：23

同被引文献151

1史振华.基于改进的鲸鱼算法在云计算任务调度中的研究[J].科技通报,2021(2):67-71. 被引量：1
2王勇亮,王挺,姚辰.基于Kent映射和自适应权重的灰狼优化算法[J].计算机应用研究,2020,37(S02):37-40. 被引量：9
3毛莉君.利用类圆映射优化PCA算法的高维多目标可视化方法研究[J].电子测量技术,2020(10):69-73. 被引量：1
4孙毅,李泽坤,黄绍模,霍沫霖,李彬,马永红.基于分布式需求侧资源备调池的低频减载优化策略研究[J].电网技术,2020,44(3):1016-1026. 被引量：18
5宋军英,崔益伟,李欣然,钟伟,邹鑫,李培强.基于欧氏动态时间弯曲距离与熵权法的负荷曲线聚类方法[J].电力系统自动化,2020(15):87-98. 被引量：31
6郭黎,李翔,张政,雷昊臻.基于混合式的地理空间数据库课程教学模式探索[J].测绘通报,2022(S01):94-98. 被引量：5
7陆婷婷,李潇,张尧,阎岩,杨卫东.基于三维点云模型的空间目标光学图像生成技术[J].北京航空航天大学学报,2020,46(2):274-286. 被引量：11
8李如琦,杨立成,莫仕勋,苏媛媛,唐卓贞.基于气象累积和ACA-GRNN的短期电力负荷预测[J].继电器,2008,36(4):58-62. 被引量：7
9范荻,李绍山,李海涛,王卫.台区用户识别仪关键技术应用研究[J].华北电力技术,2010(7):27-30. 被引量：24
10卢二坡,张焕明.基于稳健主成分回归的统计数据可靠性评估方法[J].统计研究,2011,28(8):21-27. 被引量：10

引证文献10

1程江洲,何艳,鲍刚,潘飞.基于CK-means算法的用户用电负荷聚类分析[J].计算机仿真,2021,38(7):63-67. 被引量：3
2张志丹,张帝,黄纯,邓威,唐海国,朱吉然.基于筛选电压数据的配电低压用户相别辨识方法[J].供用电,2022,39(1):58-64. 被引量：2
3金维刚,李锋,周良松.基于密度峰值聚类的超短期工业负荷预测[J].计算机仿真,2023,40(2):84-88. 被引量：2
4刘明伟,康旖,杨晓雪.企业级电网数字化平台协同业务可视化共享方法[J].电气自动化,2023,45(4):23-25.
5梁科.基于不确定场定义模糊贡献度的多源测绘信息数据挖掘研究[J].现代电子技术,2023,46(18):71-76.
6何煊强,崔文涛.基于灰狼算法的室内三维空间图像分割方法研究[J].遵义师范学院学报,2023,25(5):81-85.
7郝精一.基于IBA-LSSVM强迫选择模型的民用飞机着陆滑行仪表灯常亮故障关联检测[J].计算机测量与控制,2023,31(11):46-52.
8刘琰,刘文龙,许磊,刘君宇.基于云计算的多源综合信息大容量快速存储算法[J].计算技术与自动化,2024,43(1):95-99.
9王红林,李忠伟.大数据场景下用户评论聚类文本挖掘算法[J].计算机仿真,2024,41(3):352-358.
10黄静,饶尧,刘政.电网需求侧资源动态分布式k-means聚类算法[J].大连交通大学学报,2024,45(2):109-114.

二级引证文献7

1白东壮,田世明,邹毅豪,周颖,徐玉婷,韩凝晖,李永军.基于FDA的居民用户空调用电行为分类分析方法[J].智慧电力,2022,50(3):44-49. 被引量：8
2王亚京,包鹏赞,陈金香,王海涛,程向群.基于FPGA的旋转变压器信号解码设计[J].电子设计工程,2022,30(24):75-78. 被引量：1
3杨邓,杨俊杰.基于MDS-WFCM的日负荷曲线聚类方法[J].计算机仿真,2023,40(4):103-107.
4王彦军.考虑综合能源系统中多元负荷特性的预测方法[J].电器工业,2023(5):17-22. 被引量：2
5刘喜生.基于进化神经网络的短期电网负荷预测算法[J].电力大数据,2023,26(4):11-18.
6王晓玲,朱开渲,余红玲,蔡志坚,王成.考虑时空相关性的大坝渗压组合深度学习预测模型[J].水力发电学报,2023,42(11):78-91.
7刘朝蓬,王海云,王维庆,武家辉,朱庆.基于多运行场景与富氧燃烧捕集技术的低碳能源系统容量优化配置[J].电力系统保护与控制,2023,51(23):115-129.

1顾智慧,舒倩宜,邱添,田芳琼,杨诗晗,吴辉.护士心理资本在职业紧张与职业认同中的中介作用[J].中国卫生统计,2020,37(3):345-348. 被引量：29
2刘科江.直入抽拉两用包袋设计[J].北京皮革（中外皮革信息版）（中）,2020,0(3):78-79.
3周钢,郭福亮.最大化最小margin的抽样多样性集成学习方法研究[J].计算机应用与软件,2020,37(8):300-306. 被引量：2
4余天阳.基于XGBoost的固态白酒发酵产量预测[J].计算机与数字工程,2020,48(5):1233-1237. 被引量：3
5吕芳.实正态过程之均方积分过程的正态性[J].洛阳师范学院学报,2020,39(8):1-4. 被引量：2
6董楠楠,单晓欢,牟有静.基于Hadoop和MapReduce的大数据处理系统设计与实现[J].信息通信,2020(6):29-31. 被引量：7
7建波.灵活定制资源管理器导航窗格[J].电脑爱好者,2020(13):29-29.
8许秋实,陈文静,杨光,李雪莹,房艳春.鼻中隔偏曲患者双侧下鼻甲的影像学和病理分析[J].健康大视野,2020(6):101-101.
9陈四平,谭判,石文睿,赵红燕.涪陵页岩气优质储层测井综合评价方法[J].石油钻探技术,2020,48(4):131-138. 被引量：4
10李玉普.中世纪彩绘玻璃艺匠的技与道西奥菲勒斯《诸种艺术》的一种解读[J].新美术,2020,41(4):48-52.

计算机仿真

2020年第7期

浏览历史

内容加载中请稍等...

多源信息数据的并行优化抽样聚类K-means算法被引量：10

参考文献12

二级参考文献99

共引文献81

同被引文献151

引证文献10

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

多源信息数据的并行优化抽样聚类K-means算法 被引量：10

参考文献12

二级参考文献99

共引文献81

同被引文献151

引证文献10

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

多源信息数据的并行优化抽样聚类K-means算法被引量：10