基于K近邻链式相似性度量的聚类算法被引量：1

Chained Similarity Measurement Based on K Neighbors

下载PDF

导出

摘要聚类算法是一种重要的数据挖掘方法,其目标是按照某种准则把一个数据集分割成不同的类或簇,使得同一类对象的相似度尽可能地大,不同类对象之间的相似度尽可能地小。所以,相似性度量是聚类分析的重要环节。为进一步改善传统聚类算法中,采用欧式距离进行相似性度量时,不能很好地反应非凸数据集的全局一致性的问题,在欧式距离基础上,提出一种基于密度和近邻通过构建近邻链的方式计算流形上两点间距离的度量方法,针对具有非凸结构的数据集,可以很好反应其局部和全局一致性。为验证方法的有效性,基于K-medoids和Affinity Propagat-ion聚类算法,在二维和三维数据集上对比采用不同距离度量时的聚类结果并取得了较好的实验效果。 The clustering algorithm is an important data mining method,and its goal is to divide a data set into different classes or clusters according to a certain criterion,so that the similarity between objects in the same class is as large as possible and the similarity between objects in different classes is as small as possible.Therefore,similarity measurement is an important part of cluster analysis.In order to further improve the problem that Euclidean distance is used for similarity measurement in traditional clustering algorithms does not reflect well the global consistency of non-convex data sets,this paper proposes a method to calculate the distance between two points on a manifold based on density and nearest neighbor by constructing a chain of nearest neighbors based on Euclidean distance,which can well reflect the global consistency of data set with manifold structure.The method can reflect the local and global consistency of the data set with non-convex structure.To verify the effectiveness of the method,the clustering results are compared on two-dimensional and three-dimensional data sets with different distance measures based on K-medoids and Affinity Propagation clustering algorithms,and good experimental results are achieved.Finally,some problems of the method and the follow-up research plan are summarized.

作者刘佳伟唐锦萍 LIU Jia-wei;TANG Jin-ping(School of Data Science and Technology,Heilongjiang University,Harbin Heilongjiang 150080,China)

机构地区黑龙江大学数据科学与技术学院

出处《计算机仿真》北大核心 2023年第8期382-388,420,共8页 Computer Simulation

基金国家自然科学基金(11701159)。

关键词聚类距离密度流形非凸数据集近邻 Clustering Distance Density Manifold Non-convex dataset Neighbors

分类号 TP301.6 [自动化与计算机技术—计算机系统结构] TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1马文萍,黄媛媛,李豪,李晓婷,焦李成.基于粗糙集与差分免疫模糊聚类算法的图像分割[J].软件学报,2014,25(11):2675-2689. 被引量：33
2文俊浩,孙光辉,李顺.基于用户聚类和移动上下文的矩阵分解推荐算法研究[J].计算机科学,2018,45(4):215-219. 被引量：10
3李杨,郝志峰,温雯,谢光强.差分隐私保护k-means聚类方法研究[J].计算机科学,2013,40(3):287-290. 被引量：48
4夏春梦,倪志伟,倪丽萍,张霖.基于密度调整和流形距离的近邻传播算法[J].计算机科学,2017,44(10):187-192. 被引量：4
5古凌岚,彭利民.基于相对密度和流形上k近邻的聚类算法[J].计算机科学,2016,43(12):213-217. 被引量：2
6温爱红,徐草草.基于改进相似性度量的邻近传播聚类算法[J].微型电脑应用,2020,36(9):173-176. 被引量：3

二级参考文献52

1冯征.一种基于粗糙集的K-Means聚类算法[J].计算机工程与应用,2006,42(20):141-142. 被引量：16
2宋晓峰,亢金龙,王宏.进化算法的发展与应用[J].现代电子技术,2006,29(20):66-68. 被引量：4
3Blum A,Dwork C,McSherry F,et al.Practical Privacy:The SuLQ Framework[C] //24th ACM SIGMOD International Conference on Management of Data / Principles of Database Systems,Baltimore (PODS 2005).Baltimore,Maryland,USA,June 2005.
4Dwork C.Differential Privacy[C] //33rd International Colloquium on Automata,Languages and Programming,part Ⅱ (ICALP 2006).Venice,Italy,Springer Verlag,July 2006.
5Dwork C.Differential Privacy:A Survey of Results[C] //Theory and Applications of Models of Computation(TAMC2008).Xi'an,China,Springer Verlag,April 2008.
6Dwork C.The Differential Privacy Frontier[C] //6th Theory of Cryptography Conference (TCC 2009).San Francisco,CA,Springer Verlag,March 2009.
7Dwork C.Differential Privacy in New Settings[C] //Symposium on Discrete Algorithms (SODA),Society for Industrial and Applied Mathematics.Austin,TX,January 2010.
8Dwork C.A Firm Foundation for Private Data Analysis[J].Communications of the ACM,2011,54 (1):86-95.
9Dwork C.The Promise of Differential Privacy.A Tutorial on Algorithmic Techniques[C] // 52nd Annual IEEE Symposium on Foundations of Computer Science.Palm Springs,CA,October 2011.
10Agrawal R,Strikant R.Privacy-preserving data mining[C] //Proceedings of the 2000 ACM SIGMOD International Conference on Managementof Data.Dallas,Texas,May 2000:439-450.

共引文献94

1张怿恺,彭勇,孔万增,文益民.图正则化的模糊局部坐标编码概念分解模型[J].中国科学技术大学学报,2020,50(7):993-1002.
2刘丹青,高瑜,吴振强.基于距离贡献率的隐私保护框架下k-medoids算法研究[J].青海师范大学学报（自然科学版）,2022,38(1):4-13.
3程林,丰江帆.多维敏感属性流数据发布的隐私保护方法[J].中国科技论文在线精品论文,2021(2):212-219.
4卢宇.混合聚类新算法及其在故障诊断中的应用[J].区域治理,2018,0(29):180-180.
5李杨,郝志峰,肖燕珊,袁淦钊,谢光强.差分隐私DPE k-means数据聚合下的多维数据可视化[J].小型微型计算机系统,2013,34(7):1637-1640. 被引量：3
6丁丽萍,卢国庆.面向频繁模式挖掘的差分隐私保护研究综述[J].通信学报,2014,35(10):200-209. 被引量：19
7吴伟民,黄焕坤.基于差分隐私保护的DP-DBScan聚类算法研究[J].计算机工程与科学,2015,37(4):830-834. 被引量：26
8郑树梅,续欣莹,谢珺,闫高伟.基于可变容差关系的变精度粗糙集模型[J].计算机应用,2015,35(8):2360-2365. 被引量：5
9李洪成,吴晓平,陈燕.MapReduce框架下支持差分隐私保护的k-means聚类方法[J].通信学报,2016,37(2):124-130. 被引量：24
10张玲,余攀,刘艺.具强噪声鲁棒性的聚类图像分割算法[J].西南师范大学学报（自然科学版）,2016,41(2):99-106. 被引量：7

同被引文献177

1赵国强,王留洋,刘雨竹,卢万杰,王志中.瓦斯突出等级预测模型[J].辽宁工程技术大学学报（自然科学版）,2023(1):32-39. 被引量：1
2邵良杉,詹小凡.煤与瓦斯突出missForest-EGWO-SVM预测模型[J].辽宁工程技术大学学报（自然科学版）,2020,39(3):214-218. 被引量：12
3苏筱丽.基于主成分降维的SVM回归模型在煤与瓦斯突出预测中的应用[J].工业计量,2020,0(1):74-77. 被引量：5
4由伟,刘亚秀,李永,刘朝辉,周建波.用人工神经网络预测煤与瓦斯突出[J].煤炭学报,2007,32(3):285-287. 被引量：37
5柳晓莉,张志业.煤与瓦斯突出危险性的灰色综合评价[J].辽宁工程技术大学学报（自然科学版）,2012,31(5):609-612. 被引量：8
6梁盛开,曹琼,罗杨阳.煤矿瓦斯突出的神经网络预测[J].固体力学学报,2010,31(S1):180-183. 被引量：11
7周爱桃,王凯,杜锋,韦彩平.基于支持向量分类机的煤与瓦斯突出危险性预测[J].煤炭技术,2015,34(4):145-147. 被引量：4
8匡芳君,张思扬,徐蔚鸿.改进混沌粒子群的动态模糊神经网络参数优化及应用[J].微电子学与计算机,2015,32(1):48-53. 被引量：6
9张春,题正义,周云鹏.神经网络计算方法在煤与瓦斯突出预测中的应用[J].煤炭工程,2004,36(7):49-52. 被引量：6
10聂韧,赵旭生.掘进工作面瓦斯涌出动态指标预测突出危险性的探讨[J].矿业安全与环保,2004,31(4):36-38. 被引量：23

引证文献1

1薛生,郑晓亮,袁亮,来文豪,张玉婷.基于机器学习的煤与瓦斯突出预测研究进展及展望[J].煤炭学报,2024,49(2):664-694. 被引量：1

二级引证文献1

1刘战豫,张宇飞.基于SBG_XGBoost的煤矿安全应急物资储备中心选址研究[J].煤炭学报,2024,49(8):3535-3545.

1李瑞平,朱俊杰.基于改进Borderline-Smote-GBDT的冠心病预测[J].中国医学物理学杂志,2023,40(10):1278-1284.
2张中文,许晴晴,王玖,韩春蕾,孙红卫.基于Bernstein多项式的半变系数组合诊断方法研究[J].中国卫生统计,2023,40(3):377-381.
3黄扬明,郭鑫宇,唐果,熊艳梅,闵顺耕.牛奶中掺入尿素的近红外光谱法定量分析研究[J].光谱学与光谱分析,2023,43(S01):65-66. 被引量：2
4于静,金秀章,刘岳.基于结构改进RBF神经网络的NO_(x)预测模型比较[J].控制工程,2023,30(9):1616-1623.
5左心悦,郝子娴,杨有.多尺度语义学习的人脸图像修复[J].南京信息工程大学学报（自然科学版）,2023,15(5):534-540.
6钱琼,鲁进,李如雪.基于离散小波变换和最大熵模糊聚类的频谱感知技术[J].计算机科学与应用,2023,13(8):1527-1537.
7高翔,贺静,陆嘉铭,张一彦,朱洪志,李丹戎.基于密度聚类的电力设备位置信息分析方法研究[J].电力大数据,2023,26(7):60-67. 被引量：2
8李方硕,刘丽娜,程志炯,申杰,周一飞,熊思宇.基于改进谱聚类算法的低压户变关系识别[J].中国测试,2023,49(10):128-134. 被引量：1
9张喜梅,解滨,米据生,徐童童,张祎玲.结合共享近邻和流形距离的自适应谱聚类算法[J].计算机科学,2023,50(10):59-70.
10梁家新,刘善琪,李永兵.CO_(2)在高岭石(001)晶面吸附的第一性原理计算[J].中国科学院大学学报（中英文）,2023,40(6):751-760.

计算机仿真

2023年第8期

浏览历史

内容加载中请稍等...

基于K近邻链式相似性度量的聚类算法被引量：1

参考文献6

二级参考文献52

共引文献94

同被引文献177

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于K近邻链式相似性度量的聚类算法 被引量：1

参考文献6

二级参考文献52

共引文献94

同被引文献177

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于K近邻链式相似性度量的聚类算法被引量：1