基于聚类质量的两阶段集成算法被引量：1

Two Stage Ensemble Algorithm Based on Clustering Quality

下载PDF

导出

摘要针对现有的集成聚类算法通常默认使用K-means算法作为基聚类生成器,虽能确保聚类成员的多样性,却忽视了差的基聚类可能会对最终聚类结果造成极大干扰的问题,提出一种基于聚类质量的两阶段集成算法.鉴于K-means算法运行高效但聚类质量较粗糙,提出首先在生成阶段采用K-means算法生成基聚类成员,然后通过群体一致性度量筛选出兼具高质量和强多样性的聚类成员,形成候选集成;其次,进一步在集成阶段应用信息熵知识构建基聚类加权的共协矩阵;最后应用一致函数得到最终聚类结果.采用3个指标在10个真实数据集上进行对比实验,实验结果表明,该算法在有效提升聚类结果准确度的同时,能保持较好的鲁棒性. Aiming at the problem that existing ensemble clustering algorithms usually used K-means algorithm as the base clustering generator,although it could ensure the diversity of clustering membe rs,it ignored that poor base clusterings might cause terrible disturbance to the final clustering result,we proposed a two stage ensemble algorithm b ased on clustering quality.Considering that K-means algorithm ran efficiently,but the clustering quality was relatively rough,firstly,we proposed to use K-means algorithm to g enerate base clustering members in the generation stage,and then selected clustering members with both high quality and strong diversity through group aggrement measure to form candidate ensemble.Secondly,the information entropy knowledge was futher applied to construct the weighted-clustering co-association matrix in the ensemble stage.Finall y,the final clustering result was obtained by using consensus function.Three indexes were used for comparative experiments on ten real datasets,and the experimantal results show that the algo rithm can effectively improve the accuracy of clustering results while maintaining good robustness.

作者闫晨杨有龙刘原园 YAN Chen;YANG Youlong;LIU Yuanyuan(School of Mathematics and Statistics,Xidian University,Xi’an 710126,China)

机构地区西安电子科技大学数学与统计学院

出处《吉林大学学报（理学版）》 CAS 北大核心 2023年第4期899-908,共10页 Journal of Jilin University:Science Edition

基金陕西省自然科学基础研究计划项目(批准号:2021JM-133).

关键词集成聚类聚类质量群体一致性信息熵一致函数 ensemble clustering clustering quality group aggrement information entropy consensus function

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1白璐,赵鑫,孔钰婷,张正航,邵金鑫,钱育蓉.谱聚类算法研究综述[J].计算机工程与应用,2021,57(14):15-26. 被引量：28
2尤坊州,白亮.关键节点选择的快速图聚类算法[J].计算机科学与探索,2021,15(10):1930-1937. 被引量：3
3薛红艳,钱雪忠,周世兵.超簇加权的集成聚类算法[J].计算机科学与探索,2021,15(12):2362-2373. 被引量：4
4周志华,陈世福.神经网络集成[J].计算机学报,2002,25(1):1-8. 被引量：247

二级参考文献41

1王玲,薄列峰,焦李成.密度敏感的半监督谱聚类[J].软件学报,2007,18(10):2412-2422. 被引量：95
2雷小锋,谢昆青,林帆,夏征义.一种基于K-Means局部最优性的高效聚类算法[J].软件学报,2008,19(7):1683-1692. 被引量：114
3蔡晓妍,戴冠中,杨黎斌.谱聚类算法综述[J].计算机科学,2008,35(7):14-18. 被引量：189
4肖宇,于剑.基于近邻传播算法的半监督聚类[J].软件学报,2008,19(11):2803-2813. 被引量：165
5王娜,李霞.基于监督信息特性的主动半监督谱聚类算法[J].电子学报,2010,38(1):172-176. 被引量：34
6孔万增,孙志海,杨灿,戴国骏,孙昌思核.基于本征间隙与正交特征向量的自动谱聚类[J].电子学报,2010,38(8):1880-1885. 被引量：37
7赵凤,焦李成,刘汉强,公茂果.半监督谱聚类特征向量选择算法[J].模式识别与人工智能,2011,24(1):48-56. 被引量：29
8崔伟东,周志华,李星.神经网络VC维计算研究[J].计算机科学,2000,27(7):59-62. 被引量：3
9王兴良,王立宏,李海军.谱聚类中特征向量的Bagging选取方法[J].山东大学学报（工学版）,2013,43(2):35-41. 被引量：2
10王森洪,戴青云,曹江中,朱婧.基于均值的谱聚类特征向量选择算法[J].计算机与现代化,2013(5):7-9. 被引量：4

共引文献278

1刘露,吴珏,杨雷,杨福军.基于谱聚类的Web多级缓存替换策略[J].计算机系统应用,2022,31(11):380-386. 被引量：1
2杜扬帆,伍孝飞,乔百友.基于XGBoost-PredRNN++的海表面温度预测[J].计算机系统应用,2022,31(10):236-244. 被引量：1
3张逸飞,游江.自动控制系统网络集成技术研究[J].新一代信息技术,2022,5(3):64-67.
4刘俊.Photoshop在印制电路制造中的应用[J].印制电路信息,2002(11):26-27.
5李朝奎,王利东,李吟,周新邵.土壤重金属污染评价方法研究进展[J].矿产与地质,2011,25(2):172-176. 被引量：43
6王飞,周鹏程,王雷,徐本连.一种面向新型入侵的获取和分类方法[J].计算机科学,2012,39(S3):45-50.
7安金霞,朱纪洪,袁夏明.基于神经网络知识库的多神经网络集成方法[J].中南大学学报（自然科学版）,2009,40(S1):1-9. 被引量：1
8陈万忠,孙保峰,高韧杰,雷俊.基于NNE技术的手臂运动模式识别算法研究[J].吉林大学学报（工学版）,2013,43(S1):69-73. 被引量：1
9闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10. 被引量：57
10施彦,黄聪明,侯朝桢.基于改进的PSO算法的神经网络集成[J].复旦学报（自然科学版）,2004,43(5):692-695. 被引量：8

同被引文献7

1李东宁,王振兴.基于抽样的IPv6高效地址扫描[J].计算机工程,2007,33(15):121-123. 被引量：4
2李晓明,吕锰.以太网数据帧的最小长度分析[J].齐齐哈尔大学学报（自然科学版）,2008,24(2):66-68. 被引量：1
3张凯,钱焕延.复杂网络环境中蠕虫的传播策略研究[J].南京理工大学学报,2010,34(6):744-748. 被引量：3
4秦丰林,仇一泓,赵科军,葛连升.基于流数据的IPv6地址测量研究[J].通信学报,2018,39(A01):9-12. 被引量：1
5李果,何林,宋光磊,王之梁,杨家海,李子木.基于种子地址的IPv6地址探测技术综述[J].电信科学,2019,35(12):24-37. 被引量：3
6史光庭,阮文波.网络空间测绘技术的应用研究[J].保密科学技术,2021(3):20-28. 被引量：5
7陈繁.IPv6地址生成技术及其与网络安全的探讨[J].网络安全技术与应用,2023(7):4-6. 被引量：1

引证文献1

1郝艳,陈晨,王锐,胡光俊.基于多聚类算法模型的IPv6地址探测技术研究[J].网络安全技术与应用,2024(8):37-39.

1冯旭洋,朴雪涛.教育学中国话语体系中的概念及其建构[J].教育研究与实验,2023(2):16-24. 被引量：5
2张锐,王家远,邱兆阳,李东祎.基于SOR理论的干预策略对办公建筑员工节能行为的作用机理研究[J].工程管理学报,2023,37(1):47-52. 被引量：1
3劳景欢,黄栋,王昌栋,赖剑煌.基于视图互信息加权的多视图集成聚类算法[J].计算机应用,2023,43(6):1713-1718. 被引量：1
4何贝,赵丰明,何红光,陈建明,张程栋.改进隐马尔科夫模型下低压台区线损率合理范围检测[J].电力设备管理,2023(12):129-132.
5白洁,杨怿.基于最大距离和最大密度的聚类算法改进[J].电脑知识与技术,2023,19(15):24-26.
6穆春宇,汤青萍,张蕊,卜柱,常玲玲,付胜勇,沈欣悦,刘佳佳.不同饲养模式对塔里木乳鸽生长性能的影响[J].畜牧与兽医,2023,55(5):37-41. 被引量：2
7郭恩强,符锌砂.基于特征相似性学习的抛洒物检测方法[J].华南理工大学学报（自然科学版）,2023,51(6):30-41. 被引量：1
8孙文亚,何元林,陈秋臻,李晶.小鼠原始卵泡形成过程中可变剪切的动态变化[J].南京医科大学学报（自然科学版）,2023,43(7):893-899.
9李小勇,闫迷军,侯峰,郑斌,孙振超.UIC网关初运行研究和实现[J].铁道机车车辆,2023,43(3):73-78.
10陈涵,张仰森,何梓源,祁浩家,黄改娟.基于大数据平台的网络日志机器行为分析[J].计算机工程与设计,2023,44(7):2232-2241. 被引量：5

吉林大学学报（理学版）

2023年第4期

浏览历史

内容加载中请稍等...

基于聚类质量的两阶段集成算法被引量：1

参考文献4

二级参考文献41

共引文献278

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于聚类质量的两阶段集成算法 被引量：1

参考文献4

二级参考文献41

共引文献278

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于聚类质量的两阶段集成算法被引量：1