基于随机游走模型和KL-divergence的聚类算法被引量：6

Clustering Algorithm Based on Random Walk Model and KL-divergence

下载PDF

导出

摘要聚类分析在数据挖掘领域有着广泛的应用,该文提出一个聚类新思路,它不需要任何参数的假设,只基于数据两两之间的相似性。该方法假设数据点之间存在随机游走关系,根据数据相似性构造随机游走过程的转移矩阵,当随机游走过程进入收敛期后,t阶转移矩阵揭示了数据点的分布。用迭代方法寻找最小的KL-divergence来对这些分布聚类。该方法具有严谨的概率理论基础,避免了传统算法需要参数假设、限于局部最优等不足。实验表明,该算法具有较优的聚类效果。 Clustering analysis is broadly applied in data mining. This paper presents a new idea in clustering based on pair-wise similarities, and assumes no parametric statistical model. Similarities are transformed to a Markov random walk probability matrix. It is assumed the dataset is under a Markov random walk process. When the process is going into convergence, the t-step transform matrix indicates the distribution of the dataset. It uses iterative algorithm to cluster these data with the goal of decreasing KL-divergence. This method has a solid foundation of probability theory, which can avoid some insufficiency of the traditional algorithms. The experiment shows the algorithm can achieve better results than K-means and mixture models.

作者何会民

机构地区邯郸学院计算机系

出处《计算机工程》 CAS CSCD 北大核心 2008年第16期224-226,共3页 Computer Engineering

关键词聚类随机游走 KL散度 clustering random walk KL-divergence

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1Jain A K, Murty M N, Flynn P J. Data Clustering: A Review[J]. ACM Computing Surveys, 1999, 31(3): 264-323.
2MacQueen J B. Some Methods for Classification and Analysis of Multivariate Observations[C]//Proc. of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley, USA: [s. n.], 1967: 281-297.
3Vlassis N, Likas A. A Greedy EM Algorithm for Gaussian Mixture Learning[J]. Neural Processing Letters, 2002, 15(1): 77-87
4Norris J R. Markov Chains[M]. Cambridge, UK: Cambridge University Press, 1997: 40-46.
5Kullback S, Leibler R A. On Information and Sufficiency[J]. Annals of Mathematical Statistics, 1951, 22(1): 79-86.
6Tishby N, Slonim N. Data Clustering by Markovian Relaxation and the Information Bottleneck Method[C]//Proc. of the Advances in Neural Information Processing Systems. Denver, CO, USA: [s. n.], 2000: 640-646.
7Asuncion A. UCI Machine Learning Repository[EB/OL]. (2007- 05-11). http://www.ics.uci.edu/$\sim$mlearn/MLRepository.html.

同被引文献67

1朱瑜馨,张锦宗,朱瑜莉.马尔可夫模型的教学效果演变研究[J].山东理工大学学报（自然科学版）,2004,18(5):78-80. 被引量：9
2周志锋,蔡萍,许嘉,陈日兴.基于经验模态分解的汽车动态称重数据处理[J].中国机械工程,2005,16(20):1813-1816. 被引量：15
3晁宇晴.利用频率(频数)直方图分析零件关键尺寸质量特性[J].机械工业标准化与质量,2006(3):17-19. 被引量：1
4张家凡,黄之初.基于K-L散度的机械或传感器故障判别方法[J].机械强度,2006,28(5):670-673. 被引量：3
5CHONG C C, LAURENSON D I, MCLAUGHLIN S. The implementation and evaluation of a novel wideband dynamic directional indoor channel model based on a markov process [ C ]//Personal, Indoor and Mobile Radio Communications, 2003. PIMRC 2003. 14th IEEE Proceedings on. IEEE, 2003, 1 : 670 -674.
6李建东,盛敏.通信网络基础[M].2版.北京:高等教育出版社,2004:24-25.
7孟冲,王光哲,樊正复.二维推广有限马尔可夫链m步转移概率的矩阵算法[J].西安理工大学学报,1997,13(1):58-63. 被引量：3
8向玲,朱永利,唐贵基.HHT方法在转子振动故障诊断中的应用[J].中国电机工程学报,2007,27(35):84-89. 被引量：28
9Huang N E,Shen Z. The empirical mode decomposition and the hilbert spectrum for non-linear and non-stationary time series analysis[A].London,1998.
10Huang N E. Anew view of non-linear waves- the hilbert spectrum[J].Annual Review of Fluid Mechanics,1999,(05):417-457.

引证文献6

1韩中合,朱霄珣,李文华.基于K-L散度的EMD虚假分量识别方法研究[J].中国电机工程学报,2012,32(11):112-117. 被引量：32
2赵丽芬,高飞,郭淼,项敏敏.游走过程的Markov链的Matlab仿真与分析[J].云南民族大学学报（自然科学版）,2013,22(S01):26-30.
3何定桥,王鹏军,杨军.深度神经网络在EMD虚假分量识别中的应用[J].工程力学,2021,38(S01):195-201. 被引量：8
4刘爱琴,贾一帆.基于拉普拉斯机制的随机游走知识发现系统的优化研究[J].新世纪图书馆,2021(12):38-43. 被引量：1
5何定桥,杨军.基于HHT的结构模态参数自动化识别方法和试验验证[J].工程力学,2022,39(11):109-122. 被引量：6
6鲁惠文,方兴华,宋明顺,邓钰佳,黄佳.基于相对熵的质量异常模式识别研究[J].中国管理科学,2024,32(3):299-312.

二级引证文献47

1丁常富,蔡志成.EMD中有效IMF选取方法的研究[J].热力发电,2014,43(1):36-40. 被引量：13
2康守强,王玉静,姜义成,杨广学,宋立新,V.I.MIKULOVICH.基于超球球心间距多类支持向量机的滚动轴承故障分类[J].中国电机工程学报,2014,34(14):2319-2325. 被引量：19
3郝永梅,覃妮,邢志祥,陆贵荣.基于VMD分量相对熵分析的压力管道泄漏定位[J].中国安全科学学报,2018,28(10):124-130. 被引量：12
4王惠中,张岳.基于改进希尔伯特黄变换的电机故障特征提取方法研究[J].自动化与仪器仪表,2014(7):42-48. 被引量：6
5李怀俊.齿轮系统的能量信号监测与故障诊断系统研究[J].实验技术与管理,2015,32(6):90-93. 被引量：1
6蒋婷,滕召胜,顾红艳,林海军.基于EMD与分批估计的动态称量快速融合方法[J].仪器仪表学报,2015,36(6):1406-1414. 被引量：8
7宋娜,石玉,周克印.遗传算法在EMD虚假分量识别中的应用[J].计量学报,2015,36(4):413-417. 被引量：7
8孙洁娣,肖启阳,温江涛,王飞.改进LMD及高阶模糊度函数的管道泄漏定位[J].仪器仪表学报,2015,36(10):2215-2223. 被引量：15
9程锐,姜润翔,龚沈光.基于EMD和4阶累积量的船舶轴频电场线谱提取[J].舰船科学技术,2016,38(1):94-98. 被引量：12
10向玲,鄢小安.基于集成固有时间尺度分解和谱峭度的滚动轴承故障检测[J].中南大学学报（自然科学版）,2016,47(7):2273-2280. 被引量：5

1靳华中,周祺,陈菲,王岌.基于谱聚类的图像分割特性分析[J].中国集体经济,2011,0(4S):198-199.
2赵文清,杨璐,李刚.基于KL-散度的智能电网用户特征提取方法[J].计算机测量与控制,2016,24(8):200-202. 被引量：1
3熊赟,朱扬勇.特异群组挖掘:框架与应用[J].大数据,2015,1(2):66-77. 被引量：5
4杨平,王丹,赵文兵.微博网站中面向主题的权威信息搜索技术研究[J].计算机科学与探索,2013,7(12):1135-1145. 被引量：2
5王力敏,金敏.球边界偏移判别结合空间分布聚类的故障诊断[J].电子测量与仪器学报,2012,26(10):877-882. 被引量：3
6孙喜来,王欣,葛昂,郑家民,邓宏斌.面向相似度的多维异构数据比对模型研究[J].信息安全与技术,2011,2(9):71-76.
7曹永成,王强,刘兴鹏.基于密度聚类的工业数据去噪声预处理研究[J].佳木斯大学学报（自然科学版）,2011,29(3):417-418.
8陈雅兰,胡小华,涂新辉,何婷婷.基于位置语言模型的中文信息检索系统的研究[J].计算机科学,2015,42(7):265-269. 被引量：3
9仲柔在,熊磊,刘畅.基于相对距离分布聚类的人脸特征点定位算法[J].空军工程大学学报（自然科学版）,2016,17(1):77-82. 被引量：2
10刘文杰,伍之昂,曹杰,潘金贵.基于成对约束Info-Kmeans聚类的图像索引方法[J].通信学报,2013,34(7):159-166. 被引量：7

计算机工程

2008年第16期

浏览历史

内容加载中请稍等...

基于随机游走模型和KL-divergence的聚类算法被引量：6

参考文献7

同被引文献67

引证文献6

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于随机游走模型和KL-divergence的聚类算法 被引量：6

参考文献7

同被引文献67

引证文献6

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于随机游走模型和KL-divergence的聚类算法被引量：6