基于边界剥离思想的全局中心聚类算法

Border-peeling Inspired Globally Central Clustering Algorithm

下载PDF

导出

摘要全局中心聚类算法如k-means、谱聚类在类簇分布出现重叠粘连现象时往往容易陷入局部最优且参数难以设定,极大地限制了全局中心聚类算法在实际应用中的效果。为解决此问题,提出了一种基于边界剥离思想的全局中心聚类算法。首先,设计了一步边界剥离法,根据样本点间的反向k近邻关系定义了一种局部距离加权密度,并利用密度经验分布函数一阶差分最大处的密度值作为阈值将数据集分为边界集与核心集。其次,嵌入传统的全局中心聚类算法对核心集进行聚类,得益于核心集的簇间重叠问题已明显改善,嵌入算法将更容易收敛到真实的簇中心。最后,提出一种边界吸引算法,从已被归类的核心集样本点出发,借助已有的反向k近邻关系迭代融合边界集中的样本点以完成对整个数据集的聚类。相较于目前以迭代方式进行的边界剥离算法,所提算法在计算效率上具有明显优势,不需要额外设定复杂的终止条件而直接通过阈值进行边界划分,并且全局性方法在数据局部密度存在差异的情形下具备更强的鲁棒性。在实验阶段,采用3个合成数据集以及6个真实数据集从算法性能、参数敏感性、时间消耗多个方面进行评估,实验结果进一步验证了此算法的有效性与实用性。 The globally central clustering algorithms,such as k-means and spectral clustering,often suffer from the problem of local optima and difficulty in parameter setting with overlapping and adhesive clusters in the data distribution,which might greatly limits the effectiveness of globally central clustering algorithms in practical applications.To address this issue,a border-peeling inspired globally central clustering algorithm was proposed.Firstly,a one-step border peeling method was designed,which defines a locally distance-weighted density according to the reverse k-nearest neighbor relationships between sample points.The density value at the maximal point of the first-order difference of the density empirical distribution function was utilized as the threshold to divide the dataset into boundary and core sets.Then,the traditional globally central clustering algorithms were embedded to cluster the core set.Benefiting from the significant improvement in the overlapping of the core set,the embedding algorithms could converge to the true cluster centers easily.Finally,a boundary attraction algorithm was proposed,which could progressively amalgamate sample points from the boundary set,utilizing existing reverse k-nearest neighbor relationships,and commencing from the already categorized core set sample points.Compared with the currently iterative border peeling algorithms,the proposed algorithm had significant advantages in computational efficiency.There was no additional complex termination conditions but only direct performs boundary partitioning using a threshold.Furthermore,the global approach also exhibited stronger robustness local data densities were different.In the experimental phase,three synthetic datasets and six real-world datasets were used to evaluate the algorithm′s performance,parameter sensitivity,and time consumption,further validating the efficacy and practicality of this algorithm.

作者程明畅敖兰刘浏 CHENG Mingchang;AO Lan;LIU Liu(V.C.&V.R.Key Lab of Sichuan Provence,Sichuan Normal University,Chengdu 610066,China;School of Mathematical Sci-ences,Sichuan Normal University,Chengdu 610066,China;Geomathematics Key Laboratory of Sichuan Province,Chengdu Uni-versity of Technology,Chengdu 610059,China;College of Mathematics and Physics,Chengdu University of Technology,Chengdu 610059,China)

机构地区四川师范大学可视化计算与虚拟现实四川省重点实验室四川师范大学数学科学学院成都理工大学数学地质四川省重点实验室成都理工大学数理学院

出处《郑州大学学报（工学版）》 CAS 北大核心 2024年第5期86-94,共9页 Journal of Zhengzhou University（Engineering Science）

基金国家自然科学基金资助项目(12075162) 数学地质四川省重点实验室开放基金资助(scsxdz2023-4) 四川师范大学学科建设专项(XKZX2021-04)。

关键词全局中心聚类算法边界剥离簇重叠反向k近邻经验分布 globally central clustering algorithm border peeling overlapping reverse k-nearest neighbors empirical distribution

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1邓秀勤,郑丽苹,张逸群,刘冬冬.基于新的距离度量的异构属性数据子空间聚类[J].郑州大学学报（工学版）,2023,44(2):53-60. 被引量：1
2周成龙,陈玉明,朱益冬.粒K均值聚类算法[J].计算机工程与应用,2023,59(13):317-324. 被引量：5

二级参考文献10

1刘清,黄兆华.G-逻辑及其归结推理[J].计算机学报,2004,27(7):865-873. 被引量：28
2苗夺谦,范世栋.知识的粒度计算及其应用[J].系统工程理论与实践,2002,22(1):48-56. 被引量：173
3徐计,王国胤,于洪.基于粒计算的大数据处理[J].计算机学报,2015,38(8):1497-1517. 被引量：117
4梁吉业,冯晨娇,宋鹏.大数据相关分析综述[J].计算机学报,2016,39(1):1-18. 被引量：238
5姜鸣,赵红宇,刘学良.一种基于聚类分析的自适应步态检测方法[J].郑州大学学报（工学版）,2017,38(3):63-67. 被引量：1
6张皓,吴建鑫.基于深度特征的无监督图像检索研究综述[J].计算机研究与发展,2018,55(9):1829-1842. 被引量：18
7常思源,白晓征,刘君.一种基于聚类分析的二维激波模式识别算法[J].航空学报,2020,41(8):156-169. 被引量：7
8朱凡,王印琪.基于k-means与神经网络机器学习算法的用户信息聚类及预测研究[J].情报科学,2021,39(7):83-90. 被引量：14
9王海龙,柳林,林民,裴冬梅.基于信息检索及k均值聚类的音乐个性化推荐算法[J].吉林大学学报（工学版）,2021,51(5):1845-1850. 被引量：8
10王军芬,刘培跃,董建彬,朱占龙.用于分割无损检测图像的快速模糊C均值算法[J].郑州大学学报（工学版）,2022,43(6):42-48. 被引量：2

共引文献4

1蒋召平,李越,刘明凯,甄东芳,侯新旭,王通.基于I-WNN的高温潜油电机温度拟合与预测[J].电气传动,2023,53(12):68-73.
2罗晓军.基于聚类算法的学生学籍数据分析[J].湖南邮电职业技术学院学报,2023,22(4):52-56.
3林翔,徐睿麟.基于FCM和BiLSTM的电动汽车充电负荷预测[J].农村电气化,2024(5):1-5. 被引量：1
4杨雪薇,江凌云,李研.基于NSGA-Ⅱ的自适应权值物联网服务组合方法[J].智能计算机与应用,2024,14(6):1-10.

1王巧丽,张俊霞,陈锡文,李阳.基于BP神经网络的PHEV油耗与排放研究[J].时代汽车,2024(16):28-30.
2刘洋,宋庭新,谈太阳.小样本下基于GM-SVR方法的航空保障特种装置可靠性评估[J].机床与液压,2024,52(9):201-208.
3雷雅婧.基于神经元统计建模分析的模型不确定性度量[J].计算机系统应用,2024,33(7):14-25.
4范会生,孙保库,张习汝,张海春,矢尾家昌.基于苝衍生物的高浓度石墨烯水分散液制备[J].广州化工,2024,52(14):27-30.
5唐贤伦,丁河长,唐瑜泽,谢涛,罗洪平.基于异构图和语义融合的实体关系抽取[J].实验技术与管理,2024,41(8):22-29.
6张昭,王彬滨,任大鑫,李健宇.基于分区表征的异质金属搅拌摩擦焊接残余变形数值模拟[J].塑性工程学报,2024,31(8):231-239.
7栾中,李平,张雪,邵赛,李国华,李瑞.面向智能高铁2.0的数据资产管理成熟度评估模型研究及应用[J].中国铁路,2024(7):207-214.
8李永超,沈振中,疏永康,熊汉野.本构模型对面板堆石坝动力特性影响及敏感性分析[J].水电能源科学,2024,42(8):137-141.
9王灏翔,陈俊熙,卫振林,张佳鑫.一种基于相对熵与邻居影响聚类的复杂网络关键节点识别新算法[J].北京交通大学学报,2024,48(2):154-164.
10李丰润,吴兴文,赵明花,池茂儒,张平,李牧皛.铁道车辆轴箱振动非高斯特征与分布研究[J].噪声与振动控制,2024,44(4):218-223.

郑州大学学报（工学版）

2024年第5期

浏览历史

内容加载中请稍等...

基于边界剥离思想的全局中心聚类算法

参考文献2

二级参考文献10

共引文献4

相关作者

相关机构

相关主题

浏览历史