面向大规模数据的分层近邻传播聚类算法被引量：14

Hierarchical Affinity Propagation Clustering for Large-scale Data Set

下载PDF

导出

摘要近邻传播(Affinity Propagation,AP)聚类具有不需要设定聚类个数、快速准确的优点,但无法适应于大规模数据的应用需求。针对此问题,提出了分层近邻传播聚类算法。首先,将待聚类数据集划分为若干适合AP算法高效执行的子集,分别推举出各个子集的聚类中心;然后对所有子集聚类中心再次执行AP聚类,推举出整个数据集的全局聚类中心;最后根据与这些全局聚类中心的相似度对聚类样本进行划分,从而实现对大规模数据的高效聚类。在真实和模拟数据集上的实验结果均表明,与AP聚类和自适应AP聚类相比,该方法在保证较好聚类效果的同时,极大地降低了聚类的时间消耗。 Affinity Propagation （AP） has advantages on efficiency and accuracy,and has no need to set the number of clusters,but is not suitable for large-scale data clustering.Hierarchical Affinity Propagation （HAP） was proposed to overcome this problem.Firstly,the data set was divided into several subsets that can be effectively clustered by AP to select the exemplars of each subset.Then,AP clustering was implemented again on all the subset exemplars to select exemplars of the whole data set.Finally,all the data points were clustered according to similarities with the exemplars,and realizing efficient clustering of large-scale data set.The experimental results on real and simulated data sets show that,compared with traditional AP and adaptive AP,HAP reduces the time consumption greatly and achieves a good clustering result in the meanwhile.

作者刘晓楠尹美娟李明涛姚东陈武平

机构地区解放军信息工程大学数学工程与先进计算国家重点实验室信息保障技术重点实验室

出处《计算机科学》 CSCD 北大核心 2014年第3期185-188,192,共5页 Computer Science

基金信息保障技术重点实验室开放基金(KJ-12-04)资助

关键词数据聚类近邻传播分层推举聚类中心 Data clustering Affinity propagation Hierarchical selecting Clustering center

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献16

1Frey B J,Dueck D.Clustering by Passing Messages Between Data Points[J].Science,2007,315 (5814):972-976.
2王开军,张军英,李丹,张新娜,郭涛.自适应仿射传播聚类[J].自动化学报,2007,33(12):1242-1246. 被引量：145
3Wang C,Lai J,Suen C,et al.Multi-Exemplar Affinity Propagation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35 (9):2223-2237.
4Sakellariou A,Sanoudou D,Spyrou G.Combining multiple hypothesis testing and affinity propagation clustering leads to accurate,robust and sample size independent classification on gene expression data[J].BMC bioinformatics,2012,13(1):270.
5Wang L,Zhang L.Color Image Segmentation Algorithm Based on Affinity Propagation Clustering[J].Foundations of Intelligent Systems.Springer Berlin Heidelberg,2012,122:731-739.
6王开军,李健,张军英,涂重阳.半监督的仿射传播聚类[J].计算机工程,2007,33(23):197-198. 被引量：29
7He Yan-cheng,Chen Qing-cai,Xiao-long,et al.An Adaptive Affinity Propagation Document Clustering[C] //Proceedings of the 7th International Conference on Informatics and Systems.Shenzhen,China,2010:1-7.
8Zhong Y,Zheng M,Wu J,et al.Search the Optimal Preference of Affinity Propagation Algorithm[C] //2012 Fifth International Conference on Intelligent Computation Technology and Automation (ICICTA).IEEE,2012:304-307.
9Shang F,Jiao L C,Shi J,et al.Fast affinity propagation clustering:A multilevel approach[J].Pattern recognition,2012,45(1):474-486.
10张震,汪斌强,伊鹏,兰巨龙.一种分层组合的半监督近邻传播聚类算法[J].电子与信息学报,2013,35(3):645-651. 被引量：15

二级参考文献28

1Frey B J, Dueck D. Clustering by passing messages between data points. Science, 2007, 315(5814): 972-976
2Kelly K. Affinity program slashes computing times [Online], available: http://www.news.utoronto.ca/bin6/070215-2952. asp. October 25, 2007
3Dudoit S, Fridlyand J. A prediction-based resampling method for estimating the number of clusters in a dataset. Genome Biology, 2002, 3(7): 1-21
4Wang K J. Supplement of adaptive affinity propagation clustering [Online], available: http://www.mathworks. com/matlabcentral/fileexchange/loadAut hor .do?object Type =author&objectId=1095267, October 25, 2007
5Velamuru P K, Renaut R A, Guo H B, Chen K W. Robust clustering of positron emission tomography data. In: Joint Interface CSNA. USA: 2005
6Dembele D, Kastner P. Fuzzy C-means method for clustering microarray data. Bioinformatics, 2003, 19(8): 973-980
7Strehl A. Relationship-based Clustering and Cluster Ensembles for High-dimensional Data Mining [Ph. D. dissertation], The University of Texas at Austin, 2002
8Blake C L, Merz C J. UCI repository of machine learning databases (University of California) [Online], available:http://mlearn.ics.uci.edu/MLRepository.html, September 27, 2007
9Ben H A, Guyon I, Elisseeff A. A stability based method for discovering structure in clustered data. In: Proceedings of the 7th Pacific Symposium on Biocomputing. Hawaii, USA: 2002. 6-17
10Ross D T, Scherf U, Eisen M B, Perou C M, Rees C, Spellman P. Systematic variation in gene expression patterns in human cancer cell lines. Nature Genetics, 2000, 24(3): 227-235

共引文献166

1常瑞花.基于密集度量元的近邻传播聚类算法[J].微电子学与计算机,2015,32(5):1-5. 被引量：1
2张仁彦,赵洪亮,卢晓,曹茂永.基于相似性传播聚类的灰度图像分割[J].海军工程大学学报,2009,21(3):33-37. 被引量：4
3代松,李伟生.基于亲和传递聚类的多类物体识别方法[J].计算机工程,2009,35(14):206-208. 被引量：2
4茅赵阳.图像的聚类和可视化方法研究[J].现代计算机,2009,15(7):71-73. 被引量：1
5许文竹,徐立鸿.基于仿射传播聚类的自适应关键帧提取[J].计算机科学,2010,37(1):268-270. 被引量：11
6李雅芹,杨慧中.基于仿射传播聚类和高斯过程的多模型建模方法[J].计算机与应用化学,2010,27(1):51-54. 被引量：15
7董俊,王锁萍,熊范纶.可变相似性度量的近邻传播聚类[J].电子与信息学报,2010,32(3):509-514. 被引量：49
8王开军,李健.聚类结果可视化的线珠模式[J].计算机系统应用,2010,19(5):167-170. 被引量：1
9许文竹,徐立鸿.基于聚类的镜头边界检测算法[J].计算机工程,2010,36(9):230-231. 被引量：2
10KHALID Shehzad,NAFTEL Andrew.基于轨迹系数特征空间表示法的含有异常情况的自动运动学习(英文)[J].自动化学报,2010,36(5):655-666.

同被引文献122

1张亚迪,李俊山,胡双演.类模糊C均值聚类的关键帧提取算法[J].微电子学与计算机,2009,26(2):89-92. 被引量：6
2吴泓辰,王新军,成勇,彭朝晖.基于协同过滤与划分聚类的改进推荐算法[J].计算机研究与发展,2011,48(S3):205-212. 被引量：20
3张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
4沈洁,赵雷,杨季文,李榕.一种基于划分的层次聚类算法[J].计算机工程与应用,2007,43(31):175-177. 被引量：13
5王开军,张军英,李丹,张新娜,郭涛.自适应仿射传播聚类[J].自动化学报,2007,33(12):1242-1246. 被引量：145
6王开军,李健,张军英,涂重阳.半监督的仿射传播聚类[J].计算机工程,2007,33(23):197-198. 被引量：29
7Bucak S S,Jin R,Jain A K.Multi-label learning with incomplete class assignments[C]∥Proceedings of the IEEE Computer Socie-ty Conference on Computer Vision and Pattern Recognition.Colorado Springs,CO,2011:2801-2808.
8张敏灵,周志华.多标签学习[M].北京:清华大学出版社,2011.
9Sanden C,Zhang J Z.Enhancing multi-label music genre classification through ensemble techniques[C]∥Proceedings of the 34th international ACM SIGIR conference on Research and Development in Information Retrieval.Beijing,China,2011:705-714.
10Li Guo-zheng,You Ming-yu,Ge Le,et al.Feature selection forsemi-supervised multi-label learning with application to gene function analysis[C]∥Proceedings of the First ACM International Conference on Bioinformatics and Computational Biology.Niagara Falls,New York,2010:354-357.

引证文献14

1潘春燕,张仁崇,杨忠保.密度偏差抽样在近邻传播聚类中的应用[J].商丘师范学院学报,2022,38(12):4-8.
2张素智,杨芮,陈小妮,李鹏辉.基于类内和类间距离的粗粒度并行AP聚类算法[J].华中师范大学学报（自然科学版）,2018,52(6):781-787. 被引量：1
3李书玲,刘蓉,刘红.改进型RBF神经网络的多标签算法研究[J].计算机科学,2015,42(4):316-320. 被引量：8
4唐敏.多尺度变换近邻传播算法[J].长春工业大学学报,2015,36(2):198-201.
5黄德才,钱潮恺.基于维度属性距离的混合属性近邻传播聚类算法[J].计算机科学,2015,42(B11):55-57. 被引量：1
6党宏社,白梅.一种基于分层AP的视频关键帧提取方法研究[J].陕西科技大学学报（自然科学版）,2016,34(1):159-163.
7吴娱,钟诚,尹梦晓.基因表达数据的分层近邻传播聚类算法[J].计算机工程与设计,2016,37(11):2961-2966. 被引量：5
8王媛媛,李翔.基于人口统计学的改进聚类模型协同过滤算法[J].计算机科学,2017,44(3):63-69. 被引量：8
9赵淑娟,王江晴,孙阳光.基于改进仿射传播聚类的图像分割算法研究[J].软件导刊,2017,16(3):18-21.
10孙劲光,赵欣.一种改进近邻传播聚类的图像分割算法[J].计算机工程与应用,2017,53(6):178-182. 被引量：18

二级引证文献261

1潘春燕,张仁崇,杨忠保.密度偏差抽样在近邻传播聚类中的应用[J].商丘师范学院学报,2022,38(12):4-8.
2冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：14
3许文坚,高维新,程耀坤.基于钻石模型的广东省生猪产业竞争力评价分析[J].现代畜牧兽医,2022(12):56-62. 被引量：3
4刘振宇,丁宇祺.自然环境中被遮挡果实的识别方法研究[J].计算机应用研究,2020,37(S02):333-335. 被引量：8
5张仲宸,周浩,林波荣,李嘉麒,田昕,吴佳欣,陈帅元,黄莉.基于数据挖掘的办公建筑运行阶段碳排放分析[J].建筑节能,2020,48(11):1-6. 被引量：11
6薛丁文,李建中.基于KD树的k-means聚类算法优化[J].智能计算机与应用,2021,11(11):194-197. 被引量：6
7郭毅,黄磊.基于LPA和Tri-Training的半监督文本倾向性分类[J].北京交通大学学报,2015,39(6):114-121. 被引量：1
8王英博,柴佳佳.AS-FOA优化GRNN网络的财务预警研究[J].计算机科学,2016,43(7):275-280. 被引量：1
9徐聪,黄文准,黄世奇.基于自组织映射的遗传聚类算法[J].计算机与现代化,2017(4):38-43. 被引量：2
10姚登举,詹晓娟,张晓晶.一种加权K-均值基因聚类算法[J].哈尔滨理工大学学报,2017,22(2):112-116. 被引量：12

1张老师的教学“小秘书”——文通鉴应用手记[J].计算机与网络,2005,31(14):24-24.
2文通鉴——教师教学的“好帮手”[J].信息技术教育,2005(12):100-101.
3马龙.当我谈虚拟化时,我谈些什么?[J].软件和集成电路,2016(5):88-88.
4刘振鹏,吕宁,张国旭,张雅静,王培.基于DHT和VSM的Web服务推举策略[J].广西师范大学学报（自然科学版）,2007,25(2):65-68. 被引量：1
5你点我配我为A狂[J].计算机应用文摘,2007(10S):37-37.
6史瑀.会给病毒起名字吗(下) 通用病毒定义以及命名规范[J].电脑爱好者,2007(10):53-53.
7浪潮数据中心安全方案获业内普遍认可[J].科技浪潮,2013,0(2):2-3.
8张大鹏,闻佳,刘曦.一种基于模型共享的半监督多标签图像学习法[J].系统仿真学报,2012,24(9):1826-1830. 被引量：1
9汪军,王传玉.模糊聚类算法在痕迹图像分割中的应用[J].南通大学学报（自然科学版）,2010,9(1):19-23. 被引量：1
10盛莉,邹开其,邓冠男.基于网格和密度的模糊C均值聚类初始化方法[J].计算机应用与软件,2008,25(3):22-23. 被引量：9

计算机科学

2014年第3期

浏览历史

内容加载中请稍等...

面向大规模数据的分层近邻传播聚类算法被引量：14

参考文献16

二级参考文献28

共引文献166

同被引文献122

引证文献14

二级引证文献261

相关作者

相关机构

相关主题

浏览历史

面向大规模数据的分层近邻传播聚类算法 被引量：14

参考文献16

二级参考文献28

共引文献166

同被引文献122

引证文献14

二级引证文献261

相关作者

相关机构

相关主题

浏览历史

面向大规模数据的分层近邻传播聚类算法被引量：14