一种改进的K-means动态聚类算法被引量：14

An Improved K-means Dynamic Clustering Algorithm

导出

摘要传统的K-means算法通过不断的重复计算来完成聚类,聚类中心点的不断变化产生的一些动态变化信息将对聚类产生一定的干扰,且当数据量过大时,算法的时间开销和系统的I/O开销将大大增加,这严重影响了算法的性能。为此,论文提出一种改进的K-means动态聚类算法,该算法充分考虑了K-means聚类过程中信息的动态变化,通过为算法的终止条件设定标准值,来减少算法迭代次数,减少学习时间;通过删除由信息动态变化而产生的冗余信息,来减少动态聚类过程中的干扰,使算法达到更准确更高效的聚类效果。实验结果表明,当数据量较大时,相比于传统的K-means算法,改进后的K-means算法在准确率和执行效率上都有较大的提升。 The traditional K-means algorithm clusters by repetitive computing, the changing cluster centers bring some of the dynamic change information, It will produce interference for clustering. And the large amounts of data will increase the algorithm＇s time overhead and system I/O overhead, even affect the performance of the algorithm,So,this paper proposed an improved K-means dynamical clustering algorithm. The proposed algorithm takes into account the dynamic information of K-means clustering process and reduces algorithm iterations and learning time by setting the standard value for termination condition of the algorithm, and reduces interference of dynamic clustering by removing redundant information from the changing information to make the algorithm to achieve more accurate and efficient clustering effect. Experimental results show, when the amount of data is large, the improved K- means algorithm is better than the traditional algorithms in accuracy and efficiency.

作者张阳何丽朱颢东

机构地区郑州轻工业学院数学与信息科学学院重庆师范大学计算机与信息科学学院郑州轻工业学院计算机与通信工程学院

出处《重庆师范大学学报（自然科学版）》 CAS CSCD 北大核心 2016年第1期97-101,共5页 Journal of Chongqing Normal University:Natural Science

基金河南省科技攻关项目(No.122102210024 No.102102210544) 国家自然科学基金(No.61201447)

关键词 K-MEANS 聚类分析数据挖掘动态聚类 K-means cluster analysis data mining dynamic clustering

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1袁利永,王基一.一种改进的半监督K-Means聚类算法[J].计算机工程与科学,2011,33(6):138-143. 被引量：13
2傅德胜,周辰.基于密度的改进K均值算法及实现[J].计算机应用,2011,31(2):432-434. 被引量：76
3张文明,吴江,袁小蛟.基于密度和最近邻的K-means文本聚类算法[J].计算机应用,2010,30(7):1933-1935. 被引量：29
4刘海峰,刘守生,张学仁.聚类模式下一种优化的K-means文本特征选择[J].计算机科学,2011,38(1):195-197. 被引量：12
5原福永,张晓彩,罗思标.基于信息熵的精确属性赋权K-means聚类算法[J].计算机应用,2011,31(6):1675-1677. 被引量：37
6谢娟英,高红超.基于统计相关性与K-means的区分基因子集选择算法[J].软件学报,2014,25(9):2050-2075. 被引量：56
7LEE S S,Lin J C. An accelerated K-means clustering algo- rithm selction and erasure rules[J]. Zhejiang University- SCIENCE C Computers Electronics, 2012,13 (10) 761-768.
8Muge Elif Orakoglu,Cevdet Emin Ekinci.Optimization of constitutive parameters of foundation soils k-means clustering analysis[J].Research in Cold and Arid Regions,2013,5(5):626-636. 被引量：7

二级参考文献95

1陈雷,王延章.熵权法对融合网络服务质量效率保障研究[J].计算机工程与应用,2005,41(23):1-3. 被引量：3
2赵万磊,王永吉,张学杰,李娟.一种优化初始中心点的K平均文本聚类算法[J].计算机应用,2005,25(9):2037-2040. 被引量：6
3李颖新,李建更,阮晓钢.肿瘤基因表达谱分类特征基因选取问题及分析方法研究[J].计算机学报,2006,29(2):324-330. 被引量：45
4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
5陆林花,王波.一种改进的遗传聚类算法[J].计算机工程与应用,2007,43(21):170-172. 被引量：26
6范明,孟小峰.数据挖掘:概念与应用[M].北京:机械工业出版社,2004.
7DUDA R O,HART P E.Pattern classification and scene analysis[M].New York:John Wiley and Sons,1973.
8FABER V.Clustering and the continuous K-means algorithm[EB/OL].[2009-10-03].http://library.lanl.gov/cgi-bin/ getfilefi00412967.pdf.
9STEINBACH M,KARYPIS G,KUMAR V.A comparison of document clustering techniques[EB/OL].[2009-10-03].http://cs.fit.edu/～pkc/classes/ml-internet/papers/steinbach00tr.pdf.
10SALTON G,WONG A,YANG C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(5):613-620.

共引文献205

1宋军英,崔益伟,李欣然,钟伟,邹鑫,李培强.基于欧氏动态时间弯曲距离与熵权法的负荷曲线聚类方法[J].电力系统自动化,2020(15):87-98. 被引量：32
2Kui Luo,Wenhui Shi,Weisheng Wang.Extreme scenario extraction of a grid with large scale wind power integration by combined entropy-weighted clustering method[J].Global Energy Interconnection,2020,3(2):140-148. 被引量：7
3王秀芳,王岩.优化K均值随机初始中点的改进算法[J].化工自动化及仪表,2012,39(10):1302-1304. 被引量：4
4陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
5吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：166
6熊忠阳,陈若田,张玉芳.一种有效的K-means聚类中心初始化方法[J].计算机应用研究,2011,28(11):4188-4190. 被引量：86
7苏志刚,韩佩佩,吴仁彪.基于数据挖掘的快速记录存储器数据处理技术[J].信息与电子工程,2012,10(1):118-123. 被引量：2
8李翠霞,史苇杭,李占波.一种基于密度的加权模糊均值聚类算法[J].计算机科学,2012,39(5):180-182. 被引量：8
9陈红英,王涛,毛革非.复杂系统多因素估计函数分析及其应用[J].微电子学与计算机,2012,29(6):68-70.
10唐波.改进的K-means聚类算法及应用[J].软件,2012,33(3):100-104. 被引量：10

同被引文献122

1董旭,魏振军.一种加权欧氏距离聚类方法[J].信息工程大学学报,2005,6(1):23-25. 被引量：32
2张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
3杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
4王玉国,周来水,安鲁陵.一种基于曲线拟合与采样的点云数据压缩方法[J].机械科学与技术,2006,25(8):989-992. 被引量：7
5袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
6王建平,徐其林,张茂林.基于EPA标准的ZigBee网络构建方法的研究[J].计算机测量与控制,2008,16(1):121-123. 被引量：12
7赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：75
8耿筱媛,张燕平,闫屹.改进的K-means算法在电信客户细分中的应用[J].计算机技术与发展,2008,18(5):163-167. 被引量：6
9赵贵喜,骆鲁秦,陈彬.基于蚁群算法的K-Means聚类雷达信号分选算法[J].雷达科学与技术,2009,7(2):142-146. 被引量：16
10张建民.一种改进的K-means聚类算法[J].微计算机信息,2010,26(9):233-234. 被引量：17

引证文献14

1杨惠烽,张琦,徐莉.改进的K-Means和Grabcut相结合的壁画分割方法[J].忻州师范学院学报,2023,39(5):26-33.
2常彤.K-means算法及其改进研究现状[J].通讯世界,2017,23(19):289-290. 被引量：5
3郭韧,黄淑蓉,程小刚.基于动态聚类的跨境电子商务物流信息匹配研究[J].图书馆学研究,2018(1):89-94. 被引量：5
4杨扬,许厚泽,常军.一种基于属性值变化程度定权的聚类算法[J].测绘科学,2018,43(5):1-4. 被引量：2
5连乐,付杰.无线监测系统的数据处理方法研究[J].计算机科学,2018,45(B06):580-582. 被引量：2
6肖枝洪,于浩,王一超.基于动态离差平方和准则的无监督机器学习[J].重庆理工大学学报（自然科学）,2018,32(11):134-139. 被引量：10
7白勇.基于电力用户负荷特性曲线的聚类分析模型设计[J].重庆理工大学学报（自然科学）,2018,32(12):181-185. 被引量：6
8郜丽鹏,纪风有.基于联合概率关联的雷达信号分选方法[J].应用科技,2019,46(1):69-75. 被引量：4
9常俊飞,任思红,姚涛.基于边界保留的点云精简算法研究[J].测绘与空间地理信息,2019,42(4):136-140. 被引量：2
10陈皓,冀敏杰,郭紫园,夏雨.一种时间序列数据的动态密度聚类算法[J].控制理论与应用,2019,36(8):1304-1314. 被引量：7

二级引证文献45

1梁栋,蒲洁,李岩峰.一种保留特征点的大数据量点云分类精简算法[J].测绘科学,2022,47(5):99-106. 被引量：7
2陈惠雄.新世纪的中国西部大开发战略[J].世界经济与政治,2000(5):13-18. 被引量：4
3吕正萍,纪汉霖.数种基于SPSS统计工具的聚类算法效率对比[J].软件导刊,2018,17(11):81-85. 被引量：8
4邓红星,赵志恒,王玮琦.基于公交IC卡和GPS数据的公交OD量推算研究[J].重庆理工大学学报（自然科学）,2019,33(6):220-226. 被引量：8
5杨红,李丹宁,王雅洁.基于离群点检测(LOF)的K-means算法[J].通信技术,2019,52(8):1884-1888. 被引量：7
6徐常凯,周家萱,杜加刚.基于增强学习的航材二级库存优化配置研究[J].兵器装备工程学报,2019,40(8):106-110. 被引量：4
7吴昊,柳征,郑超凡.基于序贯多目标匹配滤波器的雷达信号分选方法[J].航天电子对抗,2019,35(4):43-47. 被引量：2
8李维,王洪林,南峰涛,柴焰明,李杰,杨燕.云南省两地区典型用户负荷特性及用电特点分析[J].云南电力技术,2019,47(4):39-43. 被引量：3
9任恒妮.大数据K-means聚类算法的研究与应用[J].信息技术,2019,43(11):20-23. 被引量：11
10王志睿.基于动态聚类的数字图书馆信息服务模式的构建要素及策略[J].中国中医药图书情报杂志,2019,43(6):30-33.

1代桂平,王勇,侯亚荣.基于遗传算法的TSP问题求解算法及其系统[J].微计算机信息,2010,26(4):15-16. 被引量：14
2鲍志良,耿俊,潘厚成.土地利用动态监测与多源遥感数据处理[J].江苏测绘,2002,25(4):27-29. 被引量：5
3贾凌,都金康,赵萍,张友水.基于TM的海南省土地利用/覆盖动态变化的遥感监测和分析[J].遥感信息,2003,25(1):22-25. 被引量：48
4杨玉梅.基于信息熵改进的K-means动态聚类算法[J].重庆邮电大学学报（自然科学版）,2016,28(2):254-259. 被引量：20
5张红,王晓明,过秀成,曹洁,朱昶胜,郭义戎.出租车GPS轨迹大数据在智能交通中的应用[J].兰州理工大学学报,2016,42(1):109-114. 被引量：16
6唐立力.基于信息熵与动态聚类的文本特征选择方法[J].计算机工程与应用,2015,51(19):152-157. 被引量：3
7钱慎一,朱艳玲,朱颢东.基于多层挖掘策略的特征选择及在科技文献分类中的应用[J].兰州理工大学学报,2015,41(6):109-113. 被引量：1
8温传伟.做一个邮件自动分检机[J].计算机与网络,2002,28(16):33-33.
9杨国荣,杨海成.基于面向对象技术的制造单元可视化模型研究[J].机械科学与技术,2003,22(S2):229-231.
10查成东,王长松,崔巍.背景差方法在复杂场景条件下的应用[J].计算机工程与设计,2008,29(4):894-895. 被引量：4

重庆师范大学学报（自然科学版）

2016年第1期

浏览历史

内容加载中请稍等...

一种改进的K-means动态聚类算法被引量：14

参考文献8

二级参考文献95

共引文献205

同被引文献122

引证文献14

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

一种改进的K-means动态聚类算法 被引量：14

参考文献8

二级参考文献95

共引文献205

同被引文献122

引证文献14

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

一种改进的K-means动态聚类算法被引量：14