二元数据子空间聚类算法的初始化研究被引量：2

Research of initialization of subspace clustering algorithm in binary data

下载PDF

导出

摘要针对二元数据空间高维稀疏性的特点而提出的有限混合伯努利模型,能够快速寻找映射簇的模型框架;EM算法是数学模型进行参数迭代的重要方法,其算法的优劣很大程度上取决于其初始参数。对于运用EM算法来实现有限混合伯努利模型聚类算法已有许多研究,EM算法中参数的选取直接影响聚类算法的性能。引入Binning法和改变数据之间相似度测量方式、中心点的选取方式来进行初始化,从而大大减少聚类结果对初始参数的依赖,实验证明该算法是高效的、正确的。 Aiming at the characteristic of high-dimensionality and sparseness in binary data set, proposes the finite mixtures of Bernoulli distributions model for finding projected clusters fast. EM algorithm is the important method of iterative parameters, and the degree of good or bad with EM algorithm lies on initial parameters. As far as the finite mixtures of Bernoulli distributions model, there have been lots of researches about it. However, in EM algorithm, the initial parameters affect the clustering performance directly. Therefore, this paper introduced Binning method and computed parameters through changing the comparability measurement between dates and selection style about core-point,in order to reduce the dependence of the clustering for initial parameters. Experiment demonstrates the algorithm is efficient and accurate.

作者夏英鲁宁丰江帆

机构地区重庆邮电大学中韩合作空间信息系统研究所

出处《计算机应用研究》 CSCD 北大核心 2009年第1期47-49,共3页 Application Research of Computers

基金国家"863"计划资助项目(2007AA12Z238)

关键词子空间聚类二元数据有限混合伯努利模型 EM算法 subspace clustering binary data the finite mixtures of Bernoulli distributions model EM algorithm

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1CHENG C, FU A W, ZHANG Yi. Entropy-based subspace clustering for mining numerical data[ C]//Proc of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM Press, 1999:84-93.
2AGRAWAL R, GEHRKE J, GUNOPULOS D,et al. Automatic subspace clustering of high dimensional data for data mining applications [J]. ACM SIGMOD Record, 1998,27(2):94-105.
3AGGARWAL C C, WOLF J L, YLIP S, et al. Fast algorithms for projected clustering[ J]. ACM SIGMOD. 1999,28 (2) :61-72.
4AGGARWAL C C, YU P S. Finding generalized projected clusters in high dimensional space[J]. ACM SIGMOD. 2000,29(2) :70-81.
5FRALEY C. Algorithms for model-based Gaussian hierarchical clustering[J]. SIAM Journal on Scientific Computing, 1999,20( 1): 270- 281.
6PATRIKAINEN A. Projected clustering of high-dimensional binary data[ D ]. Helsinki: Helsinki University of Technology, 2002.
7岳佳,王士同.高斯混合模型聚类中EM算法及初始化的研究[J].微计算机信息,2006,22(11X):244-246. 被引量：51
8BIERNACKI C. Initializing EM using the properties of its trajectories in Gaussian mixtures [ J ]. Statistics and Computing, 2004, 14 (3) :267-279.
9SCOTT D W. On optimal and data-based histograms[ J]. Biometrika, 1979,66(3 ) :605-610.

二级参考文献10

1Dempster, A. P, Laird, N. M, Rubin, D. B. Maximum likelihood for incomplete data via the EM algorithm.[J] .J.R. Stat. Soc,1977,B, 39:1-38.
2Liu C, Sun D X. Acceleration of EM Algorithm for Mixtures Models using ECME[J]. ASA Proceedings of the Stat. Comp. Session, 1997, 109-114.
3Christophe Biemacki.Initializing EM Using the Properties of its Trajectories in Gaussian Mixtures [J]. Statistics and Computing,2004, 14, 3:267-279.
4Patricia McKenzie, Michael Alder. Initializing the EM Algorithm for use in Gaussian Mixture Modelling [J]. Amsterdam Esevier Science BV, 1994:91-105.
5Biernacki C, Celeux G, Govaert G. Choosing Starting Values for the EM Algorithm for Getting the Highest Likelihood in Multivariate Gaussian Mixture Models[J]. Computational Statistics and Data analysis, 2002.
6Banfield J. D, Raftery A. E. Model-based Gaussian and non-Gaussian clustering [J]. Biometrics, 1993, 49:803-821.
7Fraley C, A.E. Raftery.How many clusters? Which clustering method? -Answers via model-based cluster analysis [J]. The Computer Journal, 1998, 41:578-588.
8D.W.Scott. On optimal and data-based histograms [J]. Biometrika, 1979, 66:605-610.
9Fraley C.Algorithms for model-based Gaussian hierarchical clustering [J].SIAM J.Sci.Computer, 1999, 20:270-281.
10汤效琴,戴汝源.数据挖掘中聚类分析的技术方法[J].微计算机信息,2003,19(1):3-4. 被引量：87

共引文献50

1朱启家,张伟,陈春燕.高斯混合密度降解模型在数据流聚类中的应用[J].江南大学学报（自然科学版）,2007,6(6):891-894. 被引量：1
2徐冰,李景文.基于独立混合模型的EM算法参数初始化实现方法[J].信号处理,2010,26(12):1877-1882. 被引量：2
3施海滨,周勇.混合聚类彩色图像分割方法研究[J].计算机工程与应用,2011,47(9):181-184. 被引量：8
4肖维.基于高斯混合模型的图像检索算法研究[J].软件导刊,2011,10(4):48-50. 被引量：1
5肖维.用于高斯混合模型参数估计的EM算法及其初始化研究[J].电子测试,2011,22(6):26-30. 被引量：4
6刘力雄,郭云飞,康晶,马宏.分布式数据流聚类算法[J].计算机工程与设计,2011,32(8):2708-2711. 被引量：2
7王鑫.基于高斯混合模型的k均值初始化EM算法的研究[J].商丘师范学院学报,2012,28(12):11-14. 被引量：4
8宋磊,郑宝忠,张莹,闫丽,卫宏,刘建鹏,李涛,杨恒.一种基于高斯混合模型的改进EM算法研究[J].应用光学,2013,34(6):985-989. 被引量：11
9李燕,王博.基于压缩感知的数据压缩与检测[J].计算机技术与发展,2014,24(3):198-201.
10陈宇,黄仲洋,江露,钟秋波.基于高斯混合模型的类人机器人果实辨识研究[J].安徽农业科学,2014,42(15):4889-4891. 被引量：1

同被引文献10

1王丽,赵媛媛,赵耀.一种抗剪切的鲁棒数字水印[J].数据采集与处理,2006,21(3):330-333. 被引量：10
2王维彬,刘洪霞.一种面向GIS空间数据的聚类方法[J].计算机仿真,2007,24(4):66-68. 被引量：3
3张雪萍,王家耀.带障碍约束的遗传K中心空间聚类分析[J].计算机工程,2007,33(4):168-170. 被引量：5
4COX I J, KILIAN J, LEIGHTON T, et al. Secure spread spectrum watermarking for images, audio and video [ C ]//Proc of IEEE Inter- national Conference on Image Processing. [ S. L ] :IEEE Press, 1996: 243-246.
5张九华,李敏,何光普,张建平.基于扩频编码的图像数字水印算法[J].计算机工程,2009,35(21):167-168. 被引量：4
6罗斌,顾伟,吕皖丽,宫炎焱.基于主分量分析的矢量量化数字水印算法[J].计算机工程,2010,36(2):167-169. 被引量：12
7荣星,高承实,戴青,张涛.一种基于复合混沌序列的扩频水印算法[J].计算机应用研究,2010,27(2):704-706. 被引量：2
8胡青.一种基于小波系数边信息的鲁棒水印算法[J].计算机应用研究,2010,27(10):3866-3868. 被引量：1
9赵学峰.基于面包师变换的数字图像置乱[J].西北师范大学学报（自然科学版）,2003,39(2):26-29. 被引量：29
10王立新,韩亚洪.涉及障碍物的聚类方法研究[J].计算机应用,2003,23(12):73-75. 被引量：5

引证文献2

1曲建华,刘希玉.改进的空间蚂蚁聚类算法[J].山东师范大学学报（自然科学版）,2010,25(3):14-16.
2张鑫,徐光宪,付晓.基于面包师变换的抗剪切扩频水印算法研究[J].计算机应用研究,2012,29(6):2246-2248. 被引量：4

二级引证文献4

1徐光宪,郭晓娟.基于混沌系统的DNA图像加密算法[J].计算机应用,2014,34(11):3177-3179. 被引量：7
2何冰.抗强剪切攻击的四元数彩色图像零水印算法[J].图学学报,2015,36(6):909-919. 被引量：2
3郭婷婷,娄岩,刘佳,王艳华.基于Rossler变换的图像置乱算法[J].辽宁师范大学学报（自然科学版）,2017,40(1):41-46. 被引量：5
4何冰,端木直.一种基于DCT的数字水印算法[J].计算机与数字工程,2019,47(9):2286-2289. 被引量：3

1张飞,刘珂.基于二元数据的WSNs多目标容错定位算法[J].测控技术,2016,35(5):87-91.
2周文婷,马凤伟,孔庆.基于DES算法的文件加密系统的设计与实现[J].计算机安全,2012(7):13-16. 被引量：2
3李昊,张辉,郭晓莲,胡广书.Image Restoration After Pixel Binning in Image Sensors[J].Tsinghua Science and Technology,2009,14(4):541-545. 被引量：1
4张凤翔.基于Pro/E的曲柄模型可行性与最优化分析[J].机械设计与制造,2006(6):68-69. 被引量：3
5岳佳,王士同.高斯混合模型聚类中EM算法及初始化的研究[J].微计算机信息,2006,22(11X):244-246. 被引量：51
6罗方燕,罗杰红,熊建斌.旋转和平移双推测的ICP配准加速算法[J].安徽电子信息职业技术学院学报,2016,15(5):6-11.
7张志珂,蒋泽军,蔡小斌,彭成章.相似索引:适用于重复数据删除的二级索引[J].计算机应用研究,2013,30(12):3614-3617. 被引量：1
8解凯.图像复原中的多参数估计分析[J].北京印刷学院学报,2008,16(4):47-48.
9Fuli Zhang,Huayong Jiang,Weidong Xu,Yadi Wang,Qingzhi Liu,Na Lu,Diandian Chen,Bo Yao.两种四维CT重建算法对肺癌放疗靶区勾画影响的体模研究(英文)[J].The Chinese-German Journal of Clinical Oncology,2014,13(12):563-566.
10任光,戴亚平.机器鱼群体推进速度一致性研究[J].北京理工大学学报,2015,35(10):1038-1043.

计算机应用研究

2009年第1期

浏览历史

内容加载中请稍等...

二元数据子空间聚类算法的初始化研究被引量：2

参考文献9

二级参考文献10

共引文献50

同被引文献10

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

二元数据子空间聚类算法的初始化研究 被引量：2

参考文献9

二级参考文献10

共引文献50

同被引文献10

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

二元数据子空间聚类算法的初始化研究被引量：2