基于隐含变量的聚类集成模型被引量：14

A Latent Variable Model for Cluster Ensemble

下载PDF

导出

摘要聚类集成能成为机器学习活跃的研究热点,是因为聚类集成能够保护私有信息、分布式处理数据和对知识进行重用,此外,噪声和孤立点对结果的影响较小.主要工作包括:第一,分析了把每一个基聚类器看成是原数据的一个属性这种处理方式的优越性,发现按此方法建立起来的聚类集成算法就具有良好的扩展性和灵活性;第二,在此基础之上,建立了latent variable cluster ensemble(LVCE)概率模型进行聚类集成,并且给出了LVCE模型的Markov chain Monte Carlo(MCMC)算法.实验结果表明,LVCE模型的MCMC算法能够进行聚类集成并且达到良好的效果,同时可以体现数据聚类的紧密程度. Cluster ensemble becomes a research focus due to its success in privacy protection, distributing computing and reusing knowledge. Furthermore, the noise and isolation have little effect on the final result. There are two contributions in this paper. First, by regarding every base clustering as one attribute of the original data, it has found that the algorithm based on that is more extendable and flexible. Second, it designs a latent variable cluster ensemble （LVCE） model in this way and infers the algorithm of the model with Markov chain Monte Carlo （MCMC） approximation. At the end of the paper, the experimental results show that the MCMC algorithm of LVCE has a better result and can show the compactedness of data points clustering.

作者王红军李志蜀成飏周鹏周维

机构地区四川大学计算机学院

出处《软件学报》 EI CSCD 北大核心 2009年第4期825-833,共9页 Journal of Software

基金国家留学基金委员会资助项目No.2007U24068~~

关键词聚类集成隐含变量聚类集成模型 MCMC(Markov CHAIN MONTE Carlo) cluster ensemble latent variable LVCE （latent variable cluster ensemble） MCMC （Markov chain Monte Carlo）

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95

二级参考文献14

1Estivill-Castro V. Why so many clustering algorithms-A position paper. SIGKDD Explorations, 2002,4(1):65-75.
2Dietterich TG. Machine learning research: Four current directions. AI Magazine, 1997,18(4):97-136.
3Breiman L. Bagging predicators. Machine Learning, 1996,24(2):123-140.
4Zhou ZH, Wu J, Tang W. Ensembling neural networks: Many could be better than all. Artificial Intelligence, 2002,137(1-2):239-263.
5Strehl A, Ghosh J. Cluster ensembles-A knowledge reuse framework for combining partitionings. In: Dechter R, Kearns M,Sutton R, eds. Proc. of the 18th National Conf. on Artificial Intelligence. Menlo Park: AAAI Press, 2002. 93-98.
6MacQueen JB. Some methods for classification and analysis of multivariate observations. In: LeCam LM, Neyman J, eds. Proc. of the 5th Berkeley Symp. on Mathematical Statistics and Probability. Berkeley: University of California Press, 1967,1:281-297.
7Blake C, Keogh E, Merz CJ. UCI Repository of machine learning databases. Irvine: Department of Information and Computer Science, University of California, 1998. http://www.ics.uci.edu/～mlearn/MLRepository.html
8Modha DS, Spangler WS. Feature weighting in k-means clustering. Machine Learning, 2003,52(3):217-237.
9Zhou ZH, Tang W. Clusterer ensemble. Technical Report, Nanjing: AI Lab., Department of Computer Science & Technology,Nanjing University, 2002.
10Fern XZ, Brodley CE. Random projection for high dimensional data clustering: A cluster ensemble approach. In: Fawcett T, Mishra N, eds. Proc. of the 20th Int'l Conf. on Machine Learning. Menlo Park: AAAI Press, 2003. 186-193.

共引文献94

1高琰,谷士文,唐琎,蔡自兴.一种基于互信息的模糊聚类集成算法[J].小型微型计算机系统,2007,28(6):1068-1071. 被引量：2
2李士进,朱跃龙,刘净.一种基于k-prototype的多层次聚类改进算法[J].河海大学学报（自然科学版）,2007,35(3):342-347. 被引量：1
3张莉,陈恭和.一种适合大规模数据集的特征选择方法[J].计算机工程,2007,33(4):184-186. 被引量：1
4罗会兰,孔繁胜,李一啸.聚类集成中的差异性度量研究[J].计算机学报,2007,30(8):1315-1324. 被引量：36
5张妤,王文剑,康向平.一种回归SVM选择性集成方法[J].计算机科学,2008,35(4):178-180. 被引量：7
6刘明,袁保宗,苗振江,唐晓芳,李昆仑.从局部分类精度到分类置信度的变换[J].计算机研究与发展,2008,45(9):1612-1619. 被引量：6
7罗会兰,孔繁胜,李一啸.基于添加人工数据的高差异性聚类集体生成方法[J].模式识别与人工智能,2008,21(5):682-688.
8郭红玲,程显毅.多分类器选择集成方法[J].计算机工程与应用,2009,45(13):186-187. 被引量：7
9孟凡荣,郝晓昀,周勇.基于文化算法的选择性神经网络集成方法[J].小型微型计算机系统,2009,30(5):933-936. 被引量：2
10罗会兰,危辉.一致性函数研究[J].计算机工程与应用,2009,45(17):1-4. 被引量：1

同被引文献210

1杨晶东,洪炳熔,朴松昊.基于模糊行为融合的移动机器人避障算法[J].华中科技大学学报（自然科学版）,2008,36(S1):310-313. 被引量：50
2高春城.我国农业发展的资源环境问题与展望[J].当代生态农业,2013,22(Z2):151-153. 被引量：52
3伍忠东,高新波,谢维信.基于核方法的模糊聚类算法[J].西安电子科技大学学报,2004,31(4):533-537. 被引量：75
4WANGShun-jiu,YANGZhi-feng,DINGJing.Projection pursuit cluster model and its application in water quality assessment[J].Journal of Environmental Sciences,2004,16(6):994-995. 被引量：20
5周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
6唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
7商琳,王金根,姚望舒,陈世福.一种基于多进化神经网络的分类方法[J].软件学报,2005,16(9):1577-1583. 被引量：13
8洪飞,吴志美.基于小波的Hurst指数自适应估计方法[J].软件学报,2005,16(9):1685-1689. 被引量：16
9阳琳贇,王文渊.聚类融合方法综述[J].计算机应用研究,2005,22(12):8-10. 被引量：28
10周殊,潘炜,罗斌,张伟利,丁莹.一种基于粒子群优化方法的改进量子遗传算法及应用[J].电子学报,2006,34(5):897-901. 被引量：33

引证文献14

1杨草原,刘大有,杨博,池淑珍,金弟.聚类集成方法研究[J].计算机科学,2011,38(2):166-170. 被引量：15
2王羡慧,覃征,张选平,高洪江.采用仿射传播的聚类集成算法[J].西安交通大学学报,2011,45(8):1-6. 被引量：10
3刘丽敏,樊晓平,廖志芳.选择性聚类融合研究进展[J].计算机工程与应用,2012,48(10):1-5. 被引量：3
4周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用,2012,48(12):100-111. 被引量：145
5蒋勇,谭怀亮,王祖析,张朝霞.基于量子遗传算法的XML聚类集成[J].计算机应用研究,2012,29(6):2200-2204.
6樊晓平,盛荣芬,廖志芳,刘丽敏.一种选择性加权聚类融合算法[J].计算机工程与应用,2012,48(22):195-200. 被引量：3
7徐森,周天,李先锋,曹瑞.结合K均值与Laplacian的聚类集成算法[J].计算机应用与软件,2012,29(10):69-70. 被引量：1
8刘丽敏,樊晓平,廖志芳.选择性聚类融合新方法研究[J].计算机应用研究,2012,29(11):4031-4034. 被引量：4
9王丙景,高茂庭.一种基于遗传算法的聚类集成方法[J].计算机工程与应用,2013,49(8):164-168. 被引量：8
10冀素琴,石洪波.基于MapReduce的K-means聚类集成[J].计算机工程,2013,39(9):84-87. 被引量：8

二级引证文献211

1唐燕雯.基于聚类算法的农用无人机远程监控系统研究[J].农机化研究,2020,42(9):222-227. 被引量：1
2白琳.基于免疫优势克隆网络聚类的入侵检测[J].计算机科学,2012,39(7):82-86. 被引量：3
3杨清宇,孙凤伟,张曌,张迪,庄健.利用测地线距离的改进谱聚类算法[J].西安交通大学学报,2012,46(8):1-7. 被引量：5
4苏亚然,牛习现.基于近邻传播的快速搜索聚类算法研究[J].华北电力大学学报（自然科学版）,2012,39(5):93-96. 被引量：2
5刘丽敏,樊晓平,廖志芳.选择性聚类融合新方法研究[J].计算机应用研究,2012,29(11):4031-4034. 被引量：4
6丁维龙,韩燕波,王菁,赵卓峰.时间滑动窗口上数据流极值聚集的空间优化[J].西安交通大学学报,2012,46(11):106-111. 被引量：1
7张震,梁永全,张行林.动态复杂网络社区挖掘—选择性聚类融合算法[J].计算机与数字工程,2013,41(3):388-390. 被引量：2
8冀素琴,石洪波.基于MapReduce的K-means聚类集成[J].计算机工程,2013,39(9):84-87. 被引量：8
9刘永立.一种利用多主体领域系统进行数据聚类的新方法[J].电子器件,2014,37(1):150-153. 被引量：1
10严红,黄颖.面向服务的数据集成技术研究[J].舰船电子工程,2014,34(4):125-128.

1陈云风,王红军,杨燕.基于聚类集成的高铁故障诊断分析[J].计算机科学,2015,42(6):233-238. 被引量：6
2马海峰,刘宇熹.基于相关随机子空间的分类数据聚类集成[J].计算机应用研究,2013,30(4):1082-1084. 被引量：2
3褚睿鸿,王红军,杨燕,李天瑞.基于密度峰值的聚类集成[J].自动化学报,2016,42(9):1401-1412. 被引量：15
4刘宏波,李玉,林文杰,赵泉华.并行MCMC算法的SAR影像分割[J].信号处理,2016,32(8):998-1006. 被引量：1
5胡斐,罗立民,刘佳,左欣.基于时空兴趣点和主题模型的动作识别[J].东南大学学报（自然科学版）,2011,41(5):962-966. 被引量：3
6卢俊杰,邢永康.基于隐含变量信度网模型的脱机签名鉴别方法[J].计算机科学,2006,33(B12):249-251.
7王源,陈亚军.基于高斯混合模型的EM学习算法[J].山西师范大学学报（自然科学版）,2005,19(1):46-49. 被引量：18
8王玉,李玉,赵泉华.利用RJMCMC算法的可变类SAR图像分割[J].信号处理,2014,30(10):1193-1203. 被引量：9
9梁培生,周玉芳,翟永翠.LVC时间管理的实时性研究[J].指挥控制与仿真,2010,32(6):60-64. 被引量：6
10段琪,蔡皖东,田广利.全源NT技术的接入网链路丢包率推断[J].哈尔滨工程大学学报,2011,32(4):451-457. 被引量：1

软件学报

2009年第4期

浏览历史

内容加载中请稍等...

基于隐含变量的聚类集成模型被引量：14

参考文献1

二级参考文献14

共引文献94

同被引文献210

引证文献14

二级引证文献211

相关作者

相关机构

相关主题

浏览历史

基于隐含变量的聚类集成模型 被引量：14

参考文献1

二级参考文献14

共引文献94

同被引文献210

引证文献14

二级引证文献211

相关作者

相关机构

相关主题

浏览历史

基于隐含变量的聚类集成模型被引量：14