面向高维的共享近邻聚类内部指标被引量：1

Shared nearest-neighbor-based clustering internal index for high-dimensional datasets

下载PDF

导出

摘要针对因使用基于距离的相似性度量,传统聚类内部指标随着数据维数的增加而性能下降的问题,提出了一种基于共享近邻相似度的聚类内部指标。首先,利用共享近邻相似度和k最近邻(kNN)方法,估计数据点的密度,构建融合密度的共享近邻相似度图。然后,根据融合密度的共享近邻相似度图,利用最大流算法,计算出类内相似度和类间分离度,并结合两者计算出聚类内部指标。通过对人工数据集和真实数据集的测试表明,与9个基于距离的传统聚类内部指标相比,该指标能更准确评估数据集的最佳划分和预测数据集的最佳类数。因此,该指标处理复杂类结构和高维数据的能力优于所对比的其他聚类内部指标。 In the use of distance-based similarity measures,the performance of traditional clustering internal indicators decreases with the increase of data dimensionality.To address this problem,a clustering internal index based on Shared Nearest-Neighbor similarity(SNN)was proposed.Firstly,the shared nearest neighbor similarity and k-Nearest Neighbor(kNN)method were used to estimate the density of the data points and construct a density-involved shared nearest neighbor similarity graph.Then,according to this similarity graph,intra-cluster compactness and inter-cluster separation were defined by a maximum flow algorithm and the clustering internal index was calculated.Compared with nine traditional clustering internal indexes,the experimental results on artificial datasets and real datasets show that this index can recognize the optimal partition of datasets more effectively and predict the optimal class number more accurately.Therefore,when dealing with high dimensional datasets and those with complex cluster structures,the proposed index has better performance than the other internal validity indexes.

作者张龙义钟才明 ZHANG Longyi;ZHONG Caiming(College of Information Science and Engineering,Ningbo University,Ningbo Zhejiang 315210,China;College of Science and Technology,Ningbo University,Ningbo Zhejiang 315210,China)

机构地区宁波大学信息科学与工程学院宁波大学科学技术学院

出处《计算机应用》 CSCD 北大核心 2021年第S01期93-100,共8页 journal of Computer Applications

基金国家自然科学基金面上项目(61976134)。

关键词聚类内部指标聚类共享近邻相似度高维诅咒有效性指标 clustering internal index clustering Shared Nearest-Neighbor similarity(SNN) curse of dimensionality validity index

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1耿技,印鉴.改进的共享型最近邻居聚类算法[J].电子科技大学学报,2006,35(1):70-72. 被引量：5
2张涛,葛洪伟.基于密度系数和共享近邻的谱聚类[J].小型微型计算机系统,2017,38(8):1829-1833. 被引量：3

二级参考文献6

1Guha S,Rastogi R,Shim K.Cure:An efficient clustering algorithm for large databases[C]//1998 ACM-SIGMOD Int.Conf.Management of Data (SIGMOD'98),seattle WA.USA:1998:73-84.
2Ertoz L,Michael,S,Vipin Kumar.A new shared nearest neighbor clustering algorithm and its applications[C]//Workshop on Clustering High Dimensional Data and its Applications,Second SIAM International Conference on Data Mining,Arlington,VA,USA:2002.
3Ertoz L,Michael S,Vipin Kumar.Finding Clusters of Different Sizes,Shapes,and Densities in Noisy,High Dimensional Data[C].//Proceedings of Third SIAM International Conference on Data Mining,San Francisco,CA,USA:2003.
4Stephen D B,Mark S.Mining Distance-Based Outliers in Near Linear Time with Randomization and a Simple Pruning Rule[C]//Conference on Knowledge Discovery in Data archive Proceedings of the ninth ACM SIGKDD International Conference (KDD),29-38,Washington,USA:2003:29-38.
5刘馨月,李静伟,于红,尤全增,林鸿飞.基于共享近邻的自适应谱聚类[J].小型微型计算机系统,2011,32(9):1876-1880. 被引量：15
6吴健,崔志明,时玉杰,盛胜利,龚声蓉.基于局部密度构造相似矩阵的谱聚类算法[J].通信学报,2013,34(3):14-22. 被引量：14

共引文献6

1王金龙,徐从富,徐娇芬,骆国靖.利用销售数据的商品影响关系挖掘研究[J].电子科技大学学报,2007,36(6):1282-1285. 被引量：2
2李霞,蒋盛益.改进的共享最近邻聚类算法[J].计算机工程与应用,2011,47(8):138-142. 被引量：3
3王洪炜,王勇,覃玮,刘放,左梅,向毕坤,邸慧慧,任晓红,庄涛,黄煜皓.湖北清江源烤烟质量评价[J].安徽农业科学,2018,46(26):159-164. 被引量：5
4黄强,叶青,聂斌,李欢.离群点识别方法研究[J].软件导刊,2019,18(6):35-41. 被引量：2
5张要,马盈仓,杨小飞,朱恒东,杨婷.基于L_(2,1)-范数距离的约束相似矩阵的聚类算法[J].计算机工程与设计,2021,42(3):726-733. 被引量：2
6张喜梅,解滨,米据生,徐童童,张祎玲.结合共享近邻和流形距离的自适应谱聚类算法[J].计算机科学,2023,50(10):59-70.

同被引文献18

1张艺镨,艾小猛,方家琨,仉梦林,姚伟,文劲宇.基于广义凸包不确定集合的数据驱动鲁棒机组组合[J].中国电机工程学报,2020,40(2):477-487. 被引量：24
2李兆伟,方勇杰,李威,刘福锁,徐广,王彩霞.电化学储能应用于电网频率安全防御三道防线的探讨[J].电力系统自动化,2020,44(8):1-7. 被引量：38
3徐浩,李华强.火电机组灵活性改造规划及运行综合随机优化模型[J].电网技术,2020,44(12):4626-4635. 被引量：41
4林恒先,侯凯元,陈磊,夏德明,闵勇,秦爽,张博闻.高比例风电电力系统考虑频率安全约束的机组组合[J].电网技术,2021,45(1):1-9. 被引量：38
5朱晓荣,鹿国微,谢婉莹.考虑源网荷灵活性资源的配电网储能鲁棒规划[J].电力自动化设备,2021,41(8):8-16. 被引量：49
6张程铭,柳璐,程浩忠,陆建忠,张建平,励刚.考虑频率安全的电力系统规划与运行优化研究综述与展望[J].电网技术,2022,46(1):250-264. 被引量：49
7江婷,王旭,蒋传文,龚开,白冰青.数据驱动下风电-抽蓄联合参与日前-实时市场随机鲁棒竞价策略[J].电网技术,2022,46(2):481-491. 被引量：9
8许梦瑶,艾小猛,方家琨,乐零陵,王钦,文劲宇.考虑用户积极性的电动汽车与机组联合调频的两阶段随机优化调度模型[J].电网技术,2022,46(6):2033-2041. 被引量：20
9宋晓芳,周海强,薛峰,高超,赵春祝,颜云松.计及源荷不确定性及频率安全的电力系统区间优化调度方法[J].电力自动化设备,2022,42(7):212-220. 被引量：13
10李学斌,赵号.基于维纳随机过程的风电场储能配置方法[J].电网技术,2022,46(9):3437-3446. 被引量：13

引证文献1

1付文龙,卓庆澳,吴月超,方念,张海荣,陈曦.多能互补提供频率支撑的储能容量分布鲁棒规划方法[J].电网技术,2024,48(1):282-290. 被引量：1

二级引证文献1

1陆秋瑜,胡骞文,杨银国,谢平平,刘洋,李更丰.共建共享模式下兼顾多场景需求的储能规划及成本分摊[J].高电压技术,2024,50(10):4680-4690.

1张思远,苏彦莽.基于生成对抗网络的人脸图像修复方法研究[J].价值工程,2021,40(14):208-210.
2严英华.地表覆盖分类数据的模糊综合评价[J].测绘与空间地理信息,2021,44(S01):16-19.
3徐国栋,刘军,张卫国,张宇飞,庞新亚.腹腔镜手术对浆膜受侵胃癌患者的疗效及微转移的影响[J].湖南师范大学学报（医学版）,2021,18(3):120-123. 被引量：1
4孟欠欠,沈龙凤,李梦雯,李晓.结合子空间Laplacian正则项的迁移联合匹配方法[J].新余学院学报,2021,26(3):12-18.
5周钢,郭福亮.基于特征选择的高维数据集成学习方法研究[J].计算机科学,2021,48(S01):250-254. 被引量：6
6李举,马慧芳,李青青,宿云.融合结构-属性交互二部图随机游走的社区搜索方法[J].计算机工程与科学,2021,43(6):1067-1075. 被引量：1
7吴辰文,马宁,蒋雨璠.基于Jeffrey散度相似性度量的加权FCM聚类算法[J].激光与光电子学进展,2021,58(8):96-105. 被引量：3
8谢雨,蒋瑜,龙超奇.基于随机子空间的扩展隔离林算法[J].计算机应用,2021,41(6):1679-1685. 被引量：3
9张旭,姜苏英,杨汨,王威,何睿斯,侯俊,刘鑫一.两种隧道场景下车对车无线信道衰落特性的测量与分析[J].电波科学学报,2021,36(3):443-452. 被引量：6
10胡艳梅,杨波,多滨.基于网络结构的正则化逻辑回归[J].计算机科学,2021,48(7):281-291. 被引量：4

计算机应用

2021年第S01期

浏览历史

内容加载中请稍等...

面向高维的共享近邻聚类内部指标被引量：1

参考文献2

二级参考文献6

共引文献6

同被引文献18

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向高维的共享近邻聚类内部指标 被引量：1

参考文献2

二级参考文献6

共引文献6

同被引文献18

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向高维的共享近邻聚类内部指标被引量：1