局部迭代的快速K-means聚类算法被引量：9

Partial Iterative Fast K-means Clustering Algorithm

下载PDF

导出

摘要为了解决K-means算法在聚类数量增多的情况下,因选择了不合适的中心初值而影响到聚类效果这一问题,提出了一种局部迭代的快速K-means聚类算法(PIFKM+−)。该算法在K-means聚类的基础上,不断寻找能够被分割的聚类簇和能够被删除的聚类簇,并对受影响的局部数据进行重新聚类处理,降低了整个聚类更新的时间复杂度,提高了聚类的效果。PIFKM+−算法在面对聚类数量众多的情况下,具有能够快速更新聚类、对聚类中心初值不敏感、能够提高聚类精确度等优势。通过与K-means和K-means++两种算法的比较,在仿真数据集和真实数据集的综合实验下,验证了该算法的精确性、高效率性和可扩展性,同时实验结果的统计分析表明该算法在提高了聚类精确度的同时并没有损失太多的时间效率。 The K-means algorithm is one of the most popular and widely spread clustering methods.But it is not always possibly to find the appropriate initial value of the cluster centers,especially when the number of clusters is increased.If it can’t find suitable initial values,that will affect the clustering effect.This paper proposes an iterative approach to improve the quality of the clustering.This method called Partial Iterative Fast K-means plus-minus(PIFKM+−).Based on the K-means clustering,the algorithm divides a cluster and removes another one,then re-clusters the affected data,in each iteration.The algorithm reduces the time complexity and improves the effect of clustering.The proposed method has the advantages of being able to update clusters quickly,is insensitive to initial values of cluster centers,and can improve clustering accuracy in the face of a large number of clusters.By comparing with the K-means and K-means++,experimental results vividly demonstrate that the algorithm has better clustering effect,higher operating efficiency and scalability on the simulation data sets and the real data sets.Through the statistical analysis of the final experimental results,it is shown that the PIFKM+−algorithm does not lose too much time efficiency while improving clustering accuracy.

作者李峰李明祥张宇敬 LI Feng;LI Mingxiang;ZHANG Yujing(Information Management and Engineering Department,Hebei Finance University,Baoding,Hebei 071051,China;Applied Technology Research and Development CenterWisdom Finance in Hebei University,Baoding,Hebei 071051,China)

机构地区河北金融学院信息管理与工程系河北省高校智慧金融应用技术研发中心

出处《计算机工程与应用》 CSCD 北大核心 2020年第13期63-71,共9页 Computer Engineering and Applications

基金河北省教育厅青年基金(No.QN2019186) 河北省教育厅重点项目(No.ZD2019136) 河北省高校智慧金融研发中心项目(No.XGJ2018001)。

关键词 K-MEANS算法聚类分割聚类删除局部迭代聚类聚类邻居 K-means algorithm cluster segmentation cluster removing partial iterative clustering cluster neighbor

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1于彦伟,王沁,邝俊,何杰.一种基于密度的空间数据流在线聚类算法[J].自动化学报,2012,38(6):1051-1059. 被引量：28
2洪敏,贾彩燕,王晓阳.K-means型多视图聚类中的初始化问题研究[J].计算机科学与探索,2019,13(4):574-585. 被引量：10
3史倩玉,梁吉业,赵兴旺.一种不完备混合数据集成聚类算法[J].计算机研究与发展,2016,53(9):1979-1989. 被引量：19
4周本金,陶以政,纪斌,谢永辉.最小化误差平方和k-means初始聚类中心优化方法[J].计算机工程与应用,2018,54(15):48-52. 被引量：33
5王建仁,马鑫,段刚龙.改进的K-means聚类k值选择算法[J].计算机工程与应用,2019,55(8):27-33. 被引量：97

二级参考文献73

1乔珠峰,田凤占,黄厚宽,陈景年.缺失数据处理方法的比较研究[J].计算机研究与发展,2006,43(z1):171-175. 被引量：13
2王惠文.变量多重相关性对主成分分析的危害[J].北京航空航天大学学报,1996,22(1):65-70. 被引量：17
3陈卓,孟庆春,魏振钢,任丽婕,窦金凤.一种基于网格和密度凝聚点的快速聚类算法[J].哈尔滨工业大学学报,2005,37(12):1654-1657. 被引量：14
4朱蔚恒,印鉴,谢益煌.基于数据流的任意形状聚类算法[J].软件学报,2006,17(3):379-387. 被引量：50
5陆锋段滢滢袁文.LBS的数据处理技术[J].中国计算机学会通讯,2010,.
6Guha S, Meyerson A, Mishra N, Motwani R, O'Callaghan L. Clustering data streams: theory and practice. IEEE Trans-actions on Knowledge and Data Engineering, 2003, 15(3): 515-528.
7Han J W, Kamber M. Data Mining Concepts and Tech- niques. Beijing: China Machine Press, 2006. 196-211.
8Ester M, Kriegel H P, Sander J, Xu X W. A density-based algorithm for discovering clusters in large spatial databases with noise. In: Proceedings of the 2nd International Confer- ence on Knowledge Discovery and Data Mining. Portland, USA: AAAI Press, 1996. 226-231.
9Sander J, Ester M, Kriegel H P, Xu X W. Density-based clustering in spatial databases: the algorithm GDBSCAN and its applications. Data Mining and Knowledge Discov- ery, 1998, 2(2): 169-194.
10Hinneburg A, Keim D A. An efficient approach to clustering in large multimedia databases with noise. In: Proceedings of the 4th International Conference on Knowledge Discov- ery and Data Mining. New York, USA: AAAI Press, 1998. 58-65.

共引文献175

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：7
2黄鹤,李潇磊,王珺,王会峰,茹锋.基于随机跳跃蝠鲼算法优化的电影信息数据聚类[J].南京大学学报（自然科学版）,2022,58(5):856-867.
3于彦伟,王沁,王小东,王欢,何杰.面向实时查询处理的轨迹流挖掘框架[J].仪器仪表学报,2012,33(12):2803-2811. 被引量：1
4于翔,印桂生,许宪东,王建伟.一种基于区域划分的数据流子空间聚类方法[J].计算机研究与发展,2014,51(1):88-95. 被引量：15
5张亚昕.基于移动对象轨迹段分割的聚类算法研究[J].计算机与数字工程,2014,42(1):69-72. 被引量：1
6张建朋,陈福才,李邵梅,刘力雄.基于密度与近邻传播的数据流聚类算法[J].自动化学报,2014,40(2):277-288. 被引量：27
7冉娟,任琼.关于大数据存储过程中缺失信息检测仿真[J].计算机仿真,2018,35(12):451-455. 被引量：3
8吴振涛,闵俊.关于移动网络数据流断点区优化检测仿真研究[J].计算机仿真,2019,36(1):470-474. 被引量：3
9何杰,徐诚,刘飞,吕默威,王沁.一种多区域多目标TOA实时定位系统信道分配协议[J].计算机科学,2014,41(7):167-170. 被引量：1
10于彦伟,王欢,王沁,赵金东.面向海量数据流的基于密度的簇结构挖掘算法[J].软件学报,2015,26(5):1113-1128. 被引量：3

同被引文献121

1孙毅,李泽坤,黄绍模,霍沫霖,李彬,马永红.基于分布式需求侧资源备调池的低频减载优化策略研究[J].电网技术,2020,44(3):1016-1026. 被引量：17
2双锴,李怡雯,吕志恒,韩静,刘建伟.基于归一化特征判别的日志模板挖掘算法[J].北京邮电大学学报,2020,43(1):68-73. 被引量：4
3卢鋆,吴忠望,王宇,卢昱.基于kNN算法的异常行为检测方法研究[J].计算机工程,2007,33(7):133-134. 被引量：11
4王航,郭静波,王赞基.基于聚类的软扩频信号盲解扩方法[J].电子与信息学报,2009,31(2):422-425. 被引量：13
5纪松波,高和亮,侯婷.旋转编码器在线速度检测控制中的应用[J].现代电子技术,2010,33(15):144-145. 被引量：4
6张花国,魏平.同步多用户长码直扩信号的盲解扩[J].电子与信息学报,2011,33(7):1748-1751. 被引量：7
7苏晓珂,王秉政.基于聚类融合的异常检测算法[J].郑州轻工业学院学报（自然科学版）,2011,26(3):8-11. 被引量：1
8叶园伟,郑勇,王金丽,邓怡国,王刚,张劲.旋转编码器和PLC高速计数器在冲击试验机数据测量中的设计应用[J].制造业自动化,2012,34(9):44-46. 被引量：2
9翟东海,鱼江,高飞,于磊,丁锋.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715. 被引量：107
10唐胡鑫,钱旭.基于信息熵的电子商务用户行为分析聚类算法[J].计算机仿真,2014,31(4):422-425. 被引量：3

引证文献9

1白杨柳,张天骐,冯嘉欣,张晓艳.改进K-means算法对AltBOC信号组合码序列的盲估计[J].信号处理,2020,36(5):695-702. 被引量：1
2王鑫,张涛,金映谷.异常检测算法综述[J].现代计算机,2020,26(30):21-26. 被引量：8
3顾海艳,郑淇文.日志模板提取的FT-Tree改进算法研究[J].南京师大学报（自然科学版）,2021,44(2):121-126.
4程江洲,何艳,鲍刚,潘飞.基于CK-means算法的用户用电负荷聚类分析[J].计算机仿真,2021,38(7):63-67. 被引量：3
5林家兴,吕东澔.基于区域生长与K-means聚类结合的肝脏肿瘤分割[J].电脑知识与技术,2021,17(26):134-137.
6方旺盛,赵如华,朱东林,王冲.基于K-means聚类的麻雀搜索算法研究[J].计算机仿真,2022,39(9):403-409. 被引量：1
7曾飞,胡文祥,高彦鑫,宋杰杰.基于激光扫描的输送带横向跑偏检测系统[J].制造业自动化,2023,45(5):21-24.
8杨传杰,殷洁,汪雁,武文亚.突发公共安全事件监控视频异常行为监测仿真[J].计算机仿真,2024,41(1):243-246.
9黄静,饶尧,刘政.电网需求侧资源动态分布式k-means聚类算法[J].大连交通大学学报,2024,45(2):109-114.

二级引证文献13

1周宇偲,单志勇,潘峰.基于LSTM-VAE的电梯异常检测[J].自动化与仪器仪表,2022(4):6-10. 被引量：5
2郭海玉,刘小汇,鲁祖坤,刘哲,庄钊文.脉冲和窄带混合干扰对卫星导航终端抗干扰的影响分析[J].信号处理,2022,38(6):1284-1292. 被引量：1
3陈朔,陈小龙,张婷,王艳龙,张照,王双.面向能源大数据中心的数据质量检测技术研究[J].微型电脑应用,2022,38(9):63-65.
4白帆,张慧,李鹏斐,曹昭睿.异常性检测算法在引信干扰信号识别中的应用[J].装备环境工程,2022,19(11):41-47.
5丁鹏霖.基于k近邻隔离森林的异常检测[J].计算机系统应用,2023,32(2):199-206.
6陈施吉,李家启,王远谋,李科,孙恩虹.基于机器学习的长江重庆航道雾情特征提取[J].热带气象学报,2022,38(6):845-853. 被引量：1
7道发发,丁敏,袁粲璨,陈晓军,黎小平,赵嵩.车载智能语音助手综合评估模型建立及应用[J].汽车文摘,2023(4):12-17.
8杨邓,杨俊杰.基于MDS-WFCM的日负荷曲线聚类方法[J].计算机仿真,2023,40(4):103-107.
9王彦军.考虑综合能源系统中多元负荷特性的预测方法[J].电器工业,2023(5):17-22. 被引量：2
10周茂袁,伍小双.基于深度学习的异常检测模型综述[J].中国民航大学学报,2023,41(4):1-7. 被引量：1

1郭玉栋,左金平,王溢琴.K-Means聚类算法在线上学习效果测评中的应用[J].晋中学院学报,2020,37(3):63-67. 被引量：6
2徐晓敏,谷晓燕.全生命周期客户价值数据分析挖掘方法[J].北京信息科技大学学报（自然科学版）,2020,35(2):6-9. 被引量：2
3张海龙.“互联网+”小学信息技术课程教学模式探析[J].课程教育研究,2019,0(49):230-231. 被引量：2
4王晓,宋燕.基于图像分割算法的超高速碎片云的分析研究[J].智能计算机与应用,2020,10(3):51-57.
5王立.浅谈影像技术在舞台艺术中的应用[J].艺术大观,2019,0(25):0224-0224.
6凌寒羽,王培元,彭彬彬.基于增量式SFM的特定目标加速定位方法[J].计算机仿真,2020,37(3):243-248.
7杨扬,谭诗萍,张一帆.边境陆路口岸空间可达性演化机理实证研究--以云南省为例[J].重庆理工大学学报（社会科学）,2020,34(3):88-96.
8卢尧伟,冯伟.浅谈机电特种设备的安装、检测与维护[J].装备维修技术,2020(2):283-283.
9江佳希,谢颖华.安全态势感知系统中K-Means算法的并行化研究[J].信息技术与网络安全,2020,39(7):36-40. 被引量：2
10李丹.结构加权相关自适应子空间聚类[J].计算机工程与应用,2020,56(13):137-142. 被引量：1

计算机工程与应用

2020年第13期

浏览历史

内容加载中请稍等...

局部迭代的快速K-means聚类算法被引量：9

参考文献5

二级参考文献73

共引文献175

同被引文献121

引证文献9

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

局部迭代的快速K-means聚类算法 被引量：9

参考文献5

二级参考文献73

共引文献175

同被引文献121

引证文献9

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

局部迭代的快速K-means聚类算法被引量：9