基于最大平均熵率的大数据关联聚类算法被引量：2

Maximum average entropy-rate based correlation clustering for big data

导出

摘要聚类是数据挖掘和机器学习中的基本任务之一.传统聚类方法由于其设计中对簇结构假设的限制,导致算法在不符合其假设的数据集上,尤其是大型高维数据集上的聚类效果较差.本文引入了最大平均熵率的概念,设计了一种基于图的关联聚类算法.该算法将关联聚类问题分解为多个独立的单类优化问题,并利用邻域消除了关联聚类对大数据的限制.算法实现通过启发式邻域搜索和类生成简化了对最优邻域和关联聚类的求解过程,并且设计了适应分布式计算平台的图迭代方法.与其他聚类算法相比,该算法在提高计算效率的同时,对簇结构假设相对灵活,可适用于多种分布数据.在聚类实验中,算法的f1-measure和purity指数均好于其他6种聚类算法,而且对于高维大数据集,算法的运行时间远远低于其他聚类算法. Clustering is one of fundamental tasks of data mining and machine learning. Due to the limitation of cluster assumption, lots of clustering algorithms perform poorly on some datasets against their assumptions,especially high-dimensional big data. This paper presents a maximum average entropy-rate based correlation clustering algorithm which is a kind of a graph-based correlation clustering. The objective function of original correlation clustering is decomposed into several single cluster optimizations and the limitation of big data in correlation clustering is removed by the neighboring connected graph. In algorithm implementation, the optimization of proper neighbor searching and correlation clustering are performed by heuristic neighbor searching and cluster generating respectively, and there is also an efficient graph-iterated implementation on distributed computation platform. Compared with other clustering algorithms, the proposed clustering algorithm is moreflexible in cluster assumption, when accelerating the clustering process. In an experimental study we demonstrate the performance of the proposed algorithms on several datasets. The proposed clustering algorithm performed better than the other six clustering algorithms on the highest f1-measure and purity values, while its running time on high-dimensional big data is much lower than other clustering algorithms.

作者张俪文王涛罗坚杨树森徐宗本 Liwen ZHANG;Tao WANG;Jian LUO;Shusen YANG;Zongben XU(Faculty of Electronic and Information Engineering,Xi'an Jiaotong Universityy XVan 710049,China;School of Mathematics and Statistics,Xi'an Jiaotong University,XVan 710049,China)

机构地区西安交通大学电子与信息学部西安交通大学数学与统计学院

出处《中国科学：信息科学》 CSCD 北大核心 2019年第12期1572-1585,共14页 Scientia Sinica(Informationis)

基金国家自然科学基金(批准号:61772410,61802298,11690011,U1811461) 国家重点研发计划(批准号:2017YFB1010004)资助项目

关键词聚类相关聚类熵率图聚类大数据 clustering correlation clustering entropy-rate graph-based clustering big data

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

同被引文献18

1王新,刘永山,朱代春,刘新,张小潮.三维点云配准算法的研究[J].燕山大学学报,2016,40(6):524-531. 被引量：4
2陈法法,杨晶晶,肖文荣,程珩,张发军.Adaboost_SVM集成模型的滚动轴承早期故障诊断[J].机械科学与技术,2018,37(2):237-243. 被引量：13
3周伟,谭振江,朱冰.基于差分进化算法的大数据智能搜索引擎研究[J].情报科学,2018,36(5):85-89. 被引量：14
4张祥合.分布式文献数据库需求信息自适应检索仿真[J].计算机仿真,2018,35(9):409-412. 被引量：2
5黄华,彭蓉,冯在文.基于数据集分割的云工作流模型库并行检索方法[J].软件学报,2018,29(11):3241-3259. 被引量：3
6王祥宇,马建峰,苗银宾.高效隐私保护的多用户图像外包检索方案[J].通信学报,2019,40(2):31-39. 被引量：5
7杨丽丽,张大卫,罗君,王振鹏,吴才聪.基于SVM和AdaBoost的棉叶螨危害等级识别[J].农业机械学报,2019,50(2):14-20. 被引量：17
8冯耀功,蔡国永.融合多层语义的跨模态检索[J].计算机科学,2019,46(3):227-233. 被引量：5
9陈子军,张静,刘文远,刘永山.基于位置的可拼接轨迹对搜索[J].北京理工大学学报,2019,39(3):262-268. 被引量：2
10崔鹏宇.多维特征融合与Adaboost-SVM的车辆识别算法[J].控制工程,2019,26(3):608-612. 被引量：14

引证文献2

1王菲,王球,任佳依,刘晓波,刘浩,栗志元.三维激光云扫描技术在变电站电气设备识别中的应用[J].佳木斯大学学报（自然科学版）,2020,38(4):124-128. 被引量：5
2李盼盼,赵浩,林慧恩.基于相似树查询的隐私大数据定向检索算法[J].计算机仿真,2021,38(11):429-432. 被引量：2

二级引证文献7

1刘平,张旭志,许邦鑫.变电站激光扫描点云数据与三维设计模型融合应用研究[J].低碳世界,2020,10(12):57-58. 被引量：2
2李科.基于PSO-KNN的变电站设备三维点云识别方法研究[J].电力系统保护与控制,2021,49(18):182-187. 被引量：11
3王丹,王玫.一种适用于内部信息统筹与服务对像信息快速检索仿真设计[J].粘接,2022,49(11):169-173. 被引量：1
4高伟,何搏洋,张婷,郭美青,刘军,王慧民,张兴忠.基于注意力机制的变电站作业场景三维目标检测[J].激光与光电子学进展,2022,59(22):157-165. 被引量：2
5罗勇,苌静,袁千金,王亚菲.一种快速变电站设备三维点云识别方法[J].郑州大学学报（工学版）,2023,44(3):62-68. 被引量：3
6王俊宇,邢国栋,李海涛,付革民.结合离线计算与迁移学习的机务大数据闭环整合算法[J].微型电脑应用,2023,39(12):101-104.
7王庭松,惠小东,曾乔迪,许杨俊,陈煜敏.基于改进ICP算法的变电站设备三维识别方法研究[J].电测与仪表,2024,61(5):65-70.

1郭建华,肖功为.我国东部省份民营经济产业结构演进程度与效率测度——基于动态TOPSIS方法的面板数据分析[J].邵阳学院学报（自然科学版）,2019,16(6):99-106. 被引量：2
2孙华利,赵明,段荣华,王国平,赵川.面向实时高频交易的分布式计算平台实现方法[J].电子设计工程,2019,27(21):23-26.
3杨进一,徐伟铭,王成军,翁谦.基于超像元词包特征和主动学习的高分遥感影像变化检测[J].地球信息科学学报,2019,21(10):1594-1607. 被引量：2
4张亲娟,彭锦绣,沈文霞,何毅,廉永红.基于云计算平台的中医慢病管理系统的设计[J].计算机科学与应用,2020,10(1):136-140. 被引量：5
5Chathurani Moragaspitiya,Jay Rajapakse,Graeme J.Millar.Effect of Ca:Mg ratio and high ammoniacal nitrogen on characteristics of struvite precipitated from waste activated sludge digester effluent[J].Journal of Environmental Sciences,2019,31(12):65-77. 被引量：4
6刘建华,于强,YANG Di,岳德鹏,张启斌,武英达.磴口县地下水空间异质性分析及其对景观格局变化的响应[J].农业机械学报,2019,50(12):205-212. 被引量：4
7王涛,赵东晓.Python与GIS集成分析技术在保障性安居工程审计中的应用[J].中国审计,2019,0(22):46-47.
8宿伟健,赵婧.产业结构高级化与合理化：银行竞争的“力量”[J].财经科学,2019,0(11):25-38. 被引量：8
9彭荣.锥b-度量空间中广义Boyd-Wong压缩映射的不动点[J].西南民族大学学报（自然科学版）,2019,45(6):619-624.
10闻丞.一叶知秋,鸟瞰中国[J].人与生物圈,2019,0(6):78-80.

中国科学：信息科学

2019年第12期

浏览历史

内容加载中请稍等...

基于最大平均熵率的大数据关联聚类算法被引量：2

同被引文献18

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于最大平均熵率的大数据关联聚类算法 被引量：2

同被引文献18

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于最大平均熵率的大数据关联聚类算法被引量：2