关于优化K-medoids聚类算法搜索策略研究被引量：4

Research about Optimizing Search Strategy of K-Medoids Clustering Algorithm

下载PDF

导出

摘要由于传统K-medoids聚类算法对初始中心点敏感,计算迭代次数较高,存在聚类准确率不够高等缺点。为了解决中心点敏感问题,首先利用密度思想为数据集中每个对象建立一个ε0-领域,利用最大最小距离法遴选出K个密度大且距离较远的ε0-领域,把对应的ε0-领域的核心对象作为聚类算法的K个初始中心点;然后,为了解决传统K-medoids聚类算法的迭代次数较高、全局搜索的盲目性,在获取有效初始中心点的前提下,提出了以初始中心点为核心进行ε0-领域搜索更新策略,用来减少聚类算法的中心点更新迭代次数;同时,为了解决传统K-medoids聚类算法聚类准确率较低等缺点,提出了赋予簇内距离和簇间距离不同权重的准则函数,增强聚类算法的评价标准。改进后的算法在Iris和Wine数据集上进行测试,实验结果表明,初始中心点分别位于不同的簇中,降低了算法的迭代次数,提高了聚类准确率。 This paper established a ε0- area block for each object of database and selected K ε0- areas in which their densities are larger and the distances are far away from each selected ε0- areas blocks. Taking the core objects of the corresponding ε0- areas blocks as the K initial centers; we updated K centers by using ε0- area block search strategy to reduce the number of iterations. What＇s more,this paper presented a weighted criterion function based on between- clusters distance and within- clusters distance to improve clustering accuracy. The results of experiments show that this improved algorithm tested with standard data set Iris and Wine of UCI,can obtain ideal initial centers located in difference clusters,which finds a optimal solution in less iteration and improves the accuracy of clustering algorithm greatly.

作者朱纯吴建华潘毅

机构地区长沙理工大学计算机与通信工程学院

出处《计算机仿真》 CSCD 北大核心 2016年第10期244-248,277,共6页 Computer Simulation

基金湖南省研究生科研创新项目(CX2014B386)

关键词聚类算法局部密度区域初始中心点领域搜索策略加权准则函数 Clustering algorithm Local density region Initial center Domain search strategy Weighted criterion function

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献13

1J W Han,M Kamber,J Pei.数据挖掘:概念与技术[M].北京:机械工业出版社,2012.
2谢娟英,王艳娥.最小方差优化初始聚类中心的K-means算法[J].计算机工程,2014,40(8):205-211. 被引量：87
3谢娟英,高瑞.Num-近邻方差优化的K-medoids聚类算法[J].计算机应用研究,2015,32(1):30-34. 被引量：11
4B Pardeshi. D Toshniwal. Improved K- medoids Clustering based on cluster validity index and object density[ C]. Proceedings of the 2'~d IEEE International Advance Computing Conference,2010:379 - 384.
5钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
6马箐,谢娟英.基于粒计算的K-medoids聚类算法[J].计算机应用,2012,32(7):1973-1977. 被引量：39
7汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：140
8A P Adriano, A N Mario, T J Caetano. Using Pivots to Speed - Up K- Medoids Clustering[ J ]. Journal of Information and Data Man- agement,2011,2 ( 2 ) :221 - 236.
9路浩,倪世宏,查翔,张鹏.基于递减概率初始点选择K中心点进化算法[J].计算机仿真,2014,31(9):314-318. 被引量：3
10潘楚,罗可.基于改进粒计算的K-medoids聚类算法[J].计算机应用,2014,34(7):1997-2000. 被引量：11

二级参考文献122

1张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：61
2王伦文.聚类的粒度分析[J].计算机工程与应用,2006,42(5):29-31. 被引量：19
3李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
4钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
5袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：154
6Han J, Kamber M. Data Mining Concepts and Techniques. Orlando, USA: Morgan Kaufmann Publishers, 2001
7Huang J Z, Ng M K, Rang Hongqiang, et al. Automated Variable Weighting in K-means Type Clustering. IEEE Trans on Pattern Analysis and Machine Intelligence, 2005, 27 (5) : 657 - 668
8Dhillon I S, Guan Yuqiang, Kogan J. Refining Clusters in High Dimensional Text Data//Proc of the 2nd SIAM Workshop on Clustering High Dimensional Data. Arlington, USA, 2002 : 59 - 66
9Zhang B. Generalized K-Harmonic Means: Dynamic Weighting of Data in Unsupervised Learning//Proc of the 1 st SIAM International Conference on Data Mining. Chicago, USA, 2001 : 1 - 13
10Sarafis I, Zalzala A M S, Trinder P W. A Genetic Rule-Based Data Clustering Toolkit//Proc of the Congress on Evolutionary Computation. Honolulu, USA, 2002 : 1238 - 1243

共引文献298

1王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
2陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
3汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：140
4巩敦卫,蒋余庆,张勇,周勇.基于微粒群优化聚类数目的K-均值算法[J].控制理论与应用,2009,26(10):1175-1179. 被引量：19
5吴景岚.一种基于GRASP的文档聚类算法[J].闽江学院学报,2009,30(5):62-65.
6孙可,刘杰,王学颖.K均值聚类算法初始质心选择的改进[J].沈阳师范大学学报（自然科学版）,2009,27(4):448-450. 被引量：15
7田生文,王伊蕾,李阿丽.一种应用复杂网络特征的K-means初始化方法[J].计算机工程与应用,2010,46(6):127-129. 被引量：2
8刘金岭.基于语义的中文文本聚类最佳簇数研究[J].计算机工程与设计,2010,31(9):2034-2036.
9杨瑞龙,朱庆生,谢洪涛.快速混合Web文档聚类[J].计算机工程与应用,2010,46(22):12-15. 被引量：3
10钟燕飞,张良培.遥感影像K均值聚类中的初始化方法[J].系统工程与电子技术,2010,32(9):2009-2014. 被引量：5

同被引文献41

1李延兴,张静华,何建坤,李金岭,李智,郭良迁,张中伏,杜雪松.由空间大地测量得到的太平洋板块现今构造运动与板内形变应变场[J].地球物理学报,2007,50(2):437-447. 被引量：54
2温扬茂,许才军.联合GPS与重力资料反演分析川滇地区现今地壳形变[J].武汉大学学报（信息科学版）,2009,34(5):568-572. 被引量：13
3郭东美,许厚泽.基于统计检验法研究Amurian板块相对独立性[J].地球物理学报,2013,56(4):1246-1252. 被引量：2
4丁开华,许才军,邹蓉,胡友健.利用GPS分析川滇地区活动地块运动与应变模型[J].武汉大学学报（信息科学版）,2013,38(7):822-827. 被引量：20
5栗磊,周云霞,张国强.一种基于可变滑动窗口的数据流分段聚类算法[J].科学技术与工程,2014,22(9):211-214. 被引量：4
6金双根,朱文耀.太平洋板块运动和形变及其边缘现今相对运动[J].大地测量与地球动力学,2002,22(2):57-60. 被引量：14
7王宁,李杰.大数据环境下用于实体解析的两层相关性聚类方法[J].计算机研究与发展,2014,51(9):2108-2116. 被引量：7
8唐东明.基于Hadoop的仿射传播大数据聚类分析方法[J].计算机工程与应用,2015,51(4):29-34. 被引量：8
9王先文,陈锋,程智,杜耀华,暴洪涛,吴太虎.基于偏斜t混合模型的流式数据自动聚类方法研究[J].电子学报,2014,42(12):2527-2535. 被引量：6
10高献卫,师智斌.基于Hadoop二阶段并行模糊c-Means数据聚类算法[J].计算机测量与控制,2015,23(3):842-846. 被引量：2

引证文献4

1李鹏飞,刘春宇,海军.云计算环境下关联性大数据实时流式可控聚类算法[J].科学技术与工程,2018,18(7):185-190. 被引量：13
2张小青,许才军,王帅.基于聚类分析的川滇地区块体划分与应变研究[J].南京信息工程大学学报（自然科学版）,2019,11(2):208-215.
3叶福兰.基于离群点检测的不确定数据流聚类算法研究[J].中国电子科学研究院学报,2019,14(10):1094-1099. 被引量：13
4王小花,熊见亮,张鹏.多维缩放舰船运行数据聚类算法设计[J].舰船科学技术,2019,41(10):40-42.

二级引证文献26

1李默雷.运输车辆违规行为融合型识别技术方法研究[J].中国交通信息化,2024(S01):595-601.
2刘凯,于龙.云计算环境下关联性大数据实时流式可控聚类算法的优势分析[J].通讯世界,2018,25(7):21-22. 被引量：1
3杜红军,李巍,张文杰,于海.基于云计算技术的电力大数据分布式检索系统[J].电网与清洁能源,2018,34(9):19-24. 被引量：23
4孙茜,江胜月.流式大数据实时处理技术、平台及应用[J].中国集体经济,2019(32):156-157. 被引量：1
5丁锦华.基于云计算平台的复杂网络被动数据快速关联算法[J].电脑知识与技术,2019,15(10X):265-266.
6李明照.云计算环境下结合大数据的物联网信息化建设[J].信息通信,2020(4):52-53. 被引量：3
7魏伟,唐登平,陈昊,李帆,李野,谭煌.基于径向基神经网络的低压台区运行状态综合评价方法[J].科学技术与工程,2020,20(22):9043-9048. 被引量：2
8龙虎,张小梅.基于大数据的多媒体弱关联数据智能压缩方法研究[J].现代电子技术,2020,43(19):102-105. 被引量：6
9罗晓媛,赵丽艳,刘君,邹栋.神经网络技术下多尺度时序数据离群点挖掘[J].计算机仿真,2021,38(1):231-235. 被引量：2
10周志洪,马进,夏正敏,陈秀真.基于局部离群点检测的高频数据共现聚类算法[J].计算机仿真,2021,38(3):482-486. 被引量：7

1李莲,罗可,周博翔.一种改进人工蜂群的K-medoids聚类算法[J].计算机工程与应用,2013,49(16):146-150. 被引量：9
2张倩,李明,王雪松.基于密度分布的半监督回归算法研究[J].工矿自动化,2012,38(3):29-30.
3牟颖,全太锋,.K-means算法的初始点优化研究[J].电脑知识与技术,2008,0(11Z):1176-1177. 被引量：1
4霍亮,杨柳,周志勇.一种降低噪音数据对k-means聚类结果影响的改进算法[J].科技通报,2013,29(9):123-125.
5陈媛,杨栋.基于信息熵的属性约简算法及应用[J].重庆理工大学学报（自然科学）,2013,27(1):42-46. 被引量：22
6程国,刘亚亚,赵鹏军.基于混沌自适应引力搜索的模糊C均值聚类算法[J].河南科学,2014,32(12):2448-2453.
7陈瑛,黄灿辉.基于改进粒子群算法的K均值聚类算法的研究[J].内蒙古师范大学学报（自然科学汉文版）,2014,43(4):478-482. 被引量：1
8谢娟英,鲁肖肖,屈亚楠,高红超.粒计算优化初始聚类中心的K-medoids聚类算法[J].计算机科学与探索,2015,9(5):611-620. 被引量：13
9许捷,闫淑娟,黄明,梁旭.车间作业调度中基于领域搜索的混合遗传算法[J].大连铁道学院学报,2004,25(2):34-36. 被引量：1
10王春风,唐拥政.结合近邻和密度思想的K-均值算法的研究[J].计算机工程与应用,2011,47(19):147-149. 被引量：4

计算机仿真

2016年第10期

浏览历史

内容加载中请稍等...

关于优化K-medoids聚类算法搜索策略研究被引量：4

参考文献13

二级参考文献122

共引文献298

同被引文献41

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

关于优化K-medoids聚类算法搜索策略研究 被引量：4

参考文献13

二级参考文献122

共引文献298

同被引文献41

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

关于优化K-medoids聚类算法搜索策略研究被引量：4