基于内聚度和耦合度的二分K均值方法被引量：4

Bisecting K-means Clustering Method Based on Cohesion and Coupling

下载PDF

导出

摘要聚类分析是数据挖掘中最重要的技术之一,它在社会经济的各个领域都具有重要作用,并被广泛应用。K均值算法是最经典、应用最广泛的聚类方法之一,但其缺点是过度依赖初始条件和聚类数目难以确定,这制约了其应用范围。引入簇的内聚度和耦合度的定义与度量方法,基于"高内聚低耦合"的原理,在二分K均值聚类过程中对得到的簇进行不断的分裂和合并,并判断聚类结果是否满足要求以确定聚类的次数和簇的个数,从而实现对二分K均值聚类过程的改进。在Iris数据集上的实验测试与分析表明该算法不仅更加稳定,而且其聚类结果的正确率也较高。 Clustering analysis is one of the most important techniques in data mining.It has important role and wide application in every field of social economy.K-means is one kind of the simple and widely used clustering methods,but its disadvantage is that it depends on the initial conditions and the number of clusters is difficult to determine.This paper introduced the cohesion and coupling of cluster,and presented the measurement of cohesion and coupling.Based on the principle of＂high cohesion and low coupling＂,the clusters are constantly divided and merged in the process of bisecting K-Means clustering algorithm.By judging whether the clustering results meet the requirements,it can determine the number of clusters,thus improving the bisecting K-Means clustering algorithm.The experimental results on Iris data show that the algorithm is not only more stable,but also has higher clustering accuracy.

作者郁湧康庆怡陈长赓阚世林骆永军 YU Yong1,2 ,KANG Qing -yi1, CHEN Chang -geng1,KAN Shi- lin1, LUO Yong- jun(2School of Software, Yunnan University ,Kunming G50504 ,China;2Key Laboratory for Software Engineering of Yunnan Province,Kunming 650504,Chin)

机构地区云南大学软件学院云南省软件工程重点实验室

出处《计算机科学》 CSCD 北大核心 2018年第B06期460-464,共5页 Computer Science

基金国家自然科学基金项目(61462091) 云南大学数据驱动的软件工程省科技创新团队项目(2017HC012)资助

关键词聚类二分k均值内聚度耦合度 Clustering Bisecting K -means Cohesion Coupling

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1刘广聪,黄婷婷,陈海南.改进的二分K均值聚类算法[J].计算机应用与软件,2015,32(2):261-263. 被引量：25
2张军伟,王念滨,黄少滨,蔄世明.二分K均值聚类算法优化及并行化研究[J].计算机工程,2011,37(17):23-25. 被引量：23
3裘国永,张娇.基于二分K-均值的SVM决策树自适应分类方法[J].计算机应用研究,2012,29(10):3685-3687. 被引量：8
4戴东波,汤春蕾,熊赟.基于整体和局部相似性的序列聚类算法[J].软件学报,2010,21(4):702-717. 被引量：18

二级参考文献26

1Savaresi S M, Boley D. On the Performance of Bisecting K-Means and PDDP[C]//Proc. of the 1st SIAM International Conference on Data Mining. Chicago, USA: [s. n.], 2001: 1-14.
2Steinbach M, Karypis G, Kumar V. A Comparison of Document Clustering Techniques[C]//Proc. of the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Boston, USA: [s. n.], 2000: 525-526.
3Liu Xiaozhang, Feng Guocan. Kernel Bisecting K-Means Clustering for SVM Training Sample Reduction[C]//Proc. of the 19th International Conference on Pattern Recognition. Tampa, USA: [s. n.], 2008: 1-4.
4Han Jiawei,Kamber M.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2006
5LI Tao, MA Sheng, OGIHARA M. Document clustering via adaptive subspace iteration[ C 1//Proc of the 27th Annum International ACM SIGIR Conference on Research and Development in Information Re-trieval. New York: ACM Press,2004:218-225.
6WATANABLE K,AKAHO S, OMACHI S, et al. Simultaneous clustering and dimensionality reduction using variational Bayesian mixture model [C]//Proe of the llth IFCS Biennial Conferenee and the 33rd Annual Conference of the Gesellsehaft Par Klassifikafian e. V. 2010:81-89.
7NIU Yan-min, WANG Xu-chu. Improving SVM via local geometric structure for high dimensional data classification [ C ] YTProc of Interna- tional Conference on Computer Science for Environmental Engineering and Ecoinformatics. [S. 1. ] : Springer,2011:299-304.
8DUDA R O, HART P E, STORK D G. Pattern classificatio[ M] .2nd ed. New York : John Wiley,2000:35- 37.
9YE Jie-ping, TAO Xiang. Null space versus orthogonal lihear discri- minant analysis [ C ]//Proc of the 23rd International Conference on Machine Learning. New York: ACM Press,2006:80-82.
10FUNG G, MANGASARIAN O L. Proximal support vector machine classifiers[ C ]//Proc of the th ACM SIGKDD International Confer- ence on Knowledge Discovery and Data Mining. New York: ACM Press,2001:77-85.

共引文献64

1叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
2张倩,朱虹,郑丽敏,王奇文.几种相似性测度在小鼠序列图片中的应用对比[J].计算机应用,2011,31(A01):60-63. 被引量：3
3张军伟,王念滨,黄少滨,蔄世明.二分K均值聚类算法优化及并行化研究[J].计算机工程,2011,37(17):23-25. 被引量：23
4张娇,裘国永,张奇.基于二分K均值的SVM决策树的高维数据分类方法[J].赤峰学院学报（自然科学版）,2012,28(7):13-15. 被引量：1
5王怡,郭躬德.Signal-LMS:一种局部序列匹配相似度预测信号肽的方法[J].生物物理学报,2012,28(6):499-508.
6穆建晔,田碧洁.影响经济发展的文化因素及其扬弃[J].学术交流,2000(3):36-38.
7韩忠明,陈妮,乐嘉锦,段大高,孙践知.面向热点话题时间序列的有效聚类算法研究[J].计算机学报,2012,35(11):2337-2347. 被引量：31
8于世英,袁雪梅,卢海涛,任家东,李硕.基于序列聚类的相似代码检测算法[J].智能系统学报,2013,8(1):52-57. 被引量：5
9张宇,刘坡,杨敏华,龚建华,黄明详.基于GPU的二部图联合聚类并行算法研究[J].地理与地理信息科学,2013,29(4):99-103. 被引量：4
10张海涛,李志华,孙雅,张华伟.新的时间序列相似性度量方法[J].计算机工程与设计,2014,35(4):1279-1284. 被引量：8

同被引文献31

1李道国,苗夺谦,张东星,张红云.粒度计算研究综述[J].计算机科学,2005,32(9):1-12. 被引量：54
2苗夺谦,陈玉明,王睿智,张红云.图表示下的知识约简[J].电子学报,2010,38(8):1952-1957. 被引量：12
3刘焕春,于建新,王文静,许振,胡莹莹.基于层次灰色理论的高校校园安全评价[J].安全与环境工程,2010,17(6):43-46. 被引量：17
4潘国强.基于Fuzzy-AHP的物流企业经营风险评价模型及实证研究[J].浙江工业大学学报,2013,41(3):327-331. 被引量：4
5付沙,肖叶枝,廖明华.基于模糊集与熵权理论的校园信息系统安全风险评估研究[J].情报科学,2013,31(9):117-121. 被引量：3
6冯中朝,李强.科研项目评估中专家权重确定的方法与模型[J].科技管理研究,2000,20(4):47-50. 被引量：12
7王云晓,张学诚,孙海龙.计算机软件版权保护方法研究[J].信息安全与技术,2016,7(4):9-11. 被引量：2
8李德仁.展望大数据时代的地球空间信息学[J].测绘学报,2016,45(4):379-384. 被引量：183
9何碧容,蔡倩.基于Web墨卡托投影的导航电子地图设计[J].计算机测量与控制,2017,25(1):119-122. 被引量：9
10黄晓丽,刘耀龙,段锦,张华明.基于灰色关联及模糊综合评价法的道路交通安全风险评价[J].数学的实践与认识,2017,47(7):208-215. 被引量：21

引证文献4

1应申,王子豪,杜志强,丁火平,李翔翔.数据粒度均衡的二维矢量瓦片构建方法[J].地理信息世界,2020,27(4):66-74. 被引量：2
2李澎林,鲍挺,李伟.校园安防综合评价模型的研究与应用[J].浙江工业大学学报,2021,49(4):368-373. 被引量：4
3陈杰,冯秀芳,陈永乐.基于耦合度和PDG混合特征的源代码作者归属预测[J].计算机工程与科学,2021,43(7):1324-1330. 被引量：2
4郭智超,徐君明,刘爱东.基于嵌入式平台与优化YOLOv3的航拍目标检测方法[J].兵工自动化,2022,41(3):10-15. 被引量：3

二级引证文献11

1苏文嘉.浅议校园安防系统建设方案[J].课堂内外（高中教研）,2021(12):144-145.
2朵天林.运用信息熵的方法进行课程评估数据分析的探索[J].电脑知识与技术,2022,18(17):122-123. 被引量：1
3郭杰凯,刘冰,杨翠媛,邓振民,马丽娜,安效国.基于UNIAPP的安卓离线矢量瓦片应用技术研究[J].地理空间信息,2022,20(12):97-99. 被引量：1
4王延,周凯,沈守枫.基于熵权法的教务大数据的挖掘和聚类分析[J].浙江工业大学学报,2023,51(1):84-87. 被引量：6
5郭乃信.数字时代校园安防装备技术应用研究[J].造纸装备及材料,2022,51(10):109-111.
6蒲家鹏,王雪梅,高宏伟.基于改进YOLOv4的航拍图像目标检测方法研究[J].沈阳理工大学学报,2023,42(3):46-53. 被引量：6
7孙浩哲,张言利,陈红昌,张喜伟.基于车载视频分析的疲劳驾驶行为检测算法的设计与实现[J].现代信息科技,2023,7(16):89-93.
8张言利.基于YOLOv5的人脸检测及关键点定位的研究和实现[J].现代信息科技,2023,7(23):69-72. 被引量：1
9陈立家,曹原莱,汪洋,黄立文,许毅.基于要素稠度的电子海图矢量瓦片组合构建方法[J].重庆交通大学学报（自然科学版）,2024,43(8):34-42.
10王前莉,李颖.嵌入式处理器自定义指令迭代识别方法仿真[J].计算机仿真,2024,41(8):276-280.

1吴清寿,刘耿耿,郭文忠.基于部分实例重判的二分K-means算法[J].福州大学学报（自然科学版）,2018,46(3):317-323. 被引量：1
2孙启航,杨鹤标.基于编辑距离的序列聚类算法的优化[J].计算机技术与发展,2018,28(3):109-113. 被引量：1
3王富强,苏义坤.基于ISM的工业化建筑标准体系模块构建[J].山西建筑,2018,44(11):35-37. 被引量：4
4慕彩红,吴生财,刘逸,彭鹏,刘若辰.SAR图像NSCT域显著图去噪变化检测[J].西安电子科技大学学报,2018,45(2):19-25. 被引量：1
5关翠玲.数据挖掘技术在高校思想政治教育中的运用[J].微型电脑应用,2018,34(6):50-52. 被引量：2
6杜林,朱海林.基于粗粒度程序切片的软件度量[J].武汉理工大学学报（信息与管理工程版）,2011,33(6):936-939. 被引量：1
7渠慎明,王青博,刘珊,张东生.基于二分K均值聚类和最近特征线的视频超分辨率重建方法[J].河南大学学报（自然科学版）,2018,48(3):292-298. 被引量：2
8符锌砂,梁中岚,郑伟,王晓飞,朱洪磊.二分K-FCM结合算法在交通运行状态判别中的应用[J].公路工程,2018,43(2):118-123. 被引量：7
9卢鹏丽,才彦姣.一种自动确定特征向量与类别数目的谱聚类算法[J].兰州理工大学学报,2018,44(2):90-94. 被引量：3
10李顺勇,钱宇华,张晓琴,牛建永.基于变量选择和聚类分析的两阶段异方差模型估计[J].应用概率统计,2018,34(2):191-200. 被引量：4

计算机科学

2018年第B06期

浏览历史

内容加载中请稍等...

基于内聚度和耦合度的二分K均值方法被引量：4

参考文献4

二级参考文献26

共引文献64

同被引文献31

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于内聚度和耦合度的二分K均值方法 被引量：4

参考文献4

二级参考文献26

共引文献64

同被引文献31

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于内聚度和耦合度的二分K均值方法被引量：4