基于改进Canopy-K-means算法的并行化研究被引量：10

Research on Parallelization Based on Improved Canopy-K-means Algorithm

下载PDF

导出

摘要随着互联网数据的快速增长,原始的K-means算法已经不足以应对大规模数据的聚类需求;为此,提出一种改进的Canopy-K-means聚类算法;首先面对Canopy算法中心点随机选取的不足,引入“最大最小原则”优化Canopy中心点的选取;接着借助三角不等式定理对K-means算法进行优化,减少冗余的距离计算,加快算法的收敛速度;最后结合MapReduce框架并行化实现改进的Canopy-K-means算法;基于构建的微博数据集,对优化后的Canopy-K-means算法进行测试;试验结果表明:对不同数据规模的微博数据集,优化后算法的准确率较K-means算法提高了约15%,较原始的Canopy-K-means算法提高了约7%,算法的执行效率和扩展性也有较大提升。 With the rapid growth of Internet data,the original K-means algorithm is no longer sufficient to meet the clustering needs of large-scale data.To this end,an improved Canopy-K-means clustering algorithm is proposed.Faced with the shortcomings of the random selection of the center point of the Canopy algorithm,the“maximum and minimum principle”was introduced to optimize the selection of the Canopy center point;then the K-means algorithm was optimized with the help of the triangle inequality theorem to reduce redundant distance calculations and accelerate the convergence rate of the algorithm;finally combined with MapReduce framework parallelization to achieve improved Canopy-K-means algorithm.Based on the constructed Weibo dataset,the optimized Canopy-K-means algorithm is tested.The test results show that the accuracy of the optimized algorithm is about 15%higher than that of the K-means algorithm and about 7%higher than that of the original Canopy-K-means algorithm.The execution efficiency and scalability of the algorithm are also improved.Greatly improved.

作者王林贾钧琛 Wang Lin;Jia Junchen(School of Automation and Information Engineering,Xi'an University of Technology,Xi'an 710048,China)

机构地区西安理工大学自动化与信息工程学院

出处《计算机测量与控制》 2021年第2期176-179,186,共5页 Computer Measurement &Control

基金陕西省科技计划重点项目(2017ZDCXL-GY-05-03)。

关键词 Canopy-K-means算法文本聚类最大最小原则三角不等式 MAPREDUCE Canopy-K-means algorithm text clustering maximum and minimum principle triangle inequality MapReduce

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1孙玉强,李媛媛,陆勇.基于MapReduce的K-means聚类算法的优化[J].计算机测量与控制,2016,24(7):272-275. 被引量：5
2吴德超,刘晓红,曲志坚.基于Hadoop的分布式聚类算法研究[J].山东理工大学学报（自然科学版）,2018,32(4):25-29. 被引量：3
3邓海,覃华,孙欣.一种优化初始中心的K-means聚类算法[J].计算机技术与发展,2013,23(11):42-45. 被引量：22
4赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].电子科技,2014,27(2):29-31. 被引量：39
5刘纪伟,赵杨,李绍晖.一种基于改进K-means算法的网络流量分类方法[J].电子技术应用,2017,43(11):86-89. 被引量：12
6杨俊闯,赵超.K-Means聚类算法研究综述[J].计算机工程与应用,2019,55(23):7-14. 被引量：269
7张选平,祝兴昌,马琮.一种基于边界识别的聚类算法[J].西安交通大学学报,2007,41(12):1387-1390. 被引量：5
8李淋淋,倪建成,曹博,于苹苹,姚彬修.基于Spark框架的并行聚类算法[J].计算机技术与发展,2017,27(5):97-101. 被引量：6
9李晓瑜,俞丽颖,雷航,唐雪飞.一种K-means改进算法的并行化实现与应用[J].电子科技大学学报,2017,46(1):61-68. 被引量：49

二级参考文献69

1张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
2刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
3袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
4王玲,薄列峰,焦李成.密度敏感的谱聚类[J].电子学报,2007,35(8):1577-1581. 被引量：61
5Fayyad M, Piatetsky-Shapiro G, Smyth P. From data mining to knowledge discovery., an overview[C]//Advances in Knowledge Discovery and Data Mining. Menlo Park, USA:AAAI Press, 1996:1-34.
6Ester M, Kriegel H P, Sander J, et al. A density based algorithm for discovering clusters in large spatial databases with noise [C]//Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining. Oregon Portland: AAAI Press, 1996: 226- 231.
7Guha S, Rastogi R, Shim K. CURE: an efficient clustering algorithm for large databases[C]//Proceedings of ACM SIGMOD International Conference on Management of Data. New York: ACM Press, 1998: 73- 84.
8Ankerst M, Breunig M, Kriegel H P, et al. OPTICS: ordering points to identify the clustering structure [C]//Proceedings of ACM SIGMOD International Conference on Management of Data. New York: ACM Press, 1999:49-60.
9Ayad H, Kamel M. Topic discovery from text using aggregation of different clustering methods[C]//Proceedings of the 15th Conference of the Canadian Society for Computational Studies of Intelligence on Advances in Artificial Intelligence.Heidelberg, Germany: Springer-Verlag, 2002:161-175.
10Han Jiawei, Kamber M. Data mining concepts and techniques [ M]. 2nd ed. Beijing:China Machine Press,2006.

共引文献395

1王炳琪,聂潇乾,严鹏,吴彬彬,高承帅.多站点低空防御系统关键技术研究[J].制导与引信,2019,0(4):17-22.
2杜康,周恒为,丁明明,叶峰,石彤非.聚类分析橡胶炭黑填充量与Yeoh模型参数的关联[J].应用化学,2021,38(6):675-684. 被引量：3
3许毅超.基于人工智能算法的河道智能监控预警系统研究及应用[J].水利科技,2023(4):29-31. 被引量：1
4王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
5胡小鹏,赵永杰,黄可心,项彦澍,梁冬泰,冯永飞,梁丹.基于深度学习与超像素的乒乓球运动轨迹检测[J].机械制造,2022,60(8):81-86. 被引量：3
6张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
7相银堂,郭乔进,温馨,吴其华.加密流量分类识别研究综述[J].信息化研究,2023,49(3):1-12.
8骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
9韩雪,王彤,薛文静.基于流通数据的纸质馆藏资源优化与读者服务研究[J].甘肃科技,2023,39(2):64-70.
10杨清宇,孙凤伟,张曌,张迪,庄健.利用测地线距离的改进谱聚类算法[J].西安交通大学学报,2012,46(8):1-7. 被引量：5

同被引文献97

1李乡儒,吴福朝,胡占义.均值漂移算法的收敛性[J].软件学报,2005,16(3):365-374. 被引量：88
2王晓黎,王文杰.基于向量空间模型的文本检索系统[J].微电子学与计算机,2006,23(6):188-190. 被引量：18
3李瑞奇,苗明三.药性温的现代研究及相互关系[J].中医学报,2012,27(11):1456-1459. 被引量：66
4谌志群,徐宁,王荣波.基于主题演化图的网络论坛热点跟踪[J].情报科学,2013,31(3):147-150. 被引量：22
5涂金龙,涂风华.一种综合标签和时间因素的个性化推荐方法[J].计算机应用研究,2013,30(4):1044-1047. 被引量：8
6陈强璋.一种高效的二叉查找树——红黑树[J].华东师范大学学报（自然科学版）,2000(3):39-42. 被引量：6
7肖开,苗明三.药性寒的特点及现代研究[J].中医学报,2013,28(7):1006-1008. 被引量：18
8梁非,展俊平,李立,郑光,吕爱平,姜淼,喻长远.基于文本挖掘方法探索寒性热性中药的病证方药相应规律[J].中国实验方剂学杂志,2013,19(15):333-337. 被引量：6
9党怀义.云技术在飞行试验数据处理中的应用[J].测控技术,2014,33(3):49-52. 被引量：6
10马路,雷燕.老年多器官功能不全研究现状及中医对肺启动机制的认识[J].中国中西医结合杂志,2001,21(10):787-790. 被引量：6

引证文献10

1麻天,余本国,张静,宋文爱,景昱.基于混合聚类与融合用户兴趣的协同过滤推荐算法[J].电子技术应用,2022,48(4):29-33. 被引量：9
2王林,陈青超.基于Hadoop的灰狼优化K-means算法在主题发现的研究[J].微电子学与计算机,2022,39(4):24-32. 被引量：2
3殷亚婷,高青,郑丽娟,李国正,王明强,张磊.运用可视化技术挖掘探讨国医大师张磊治疗月经病的用药规律[J].世界科学技术-中医药现代化,2021,23(12):4543-4550. 被引量：2
4颜世东,杨望灿.面向异构融合的飞行试验异常数据预测技术研究[J].舰船电子工程,2022,42(5):91-95. 被引量：1
5张京坤,王怡怡.Spark框架下均值漂移算法对舆情聚类的分析[J].软件导刊,2022,21(6):141-146. 被引量：1
6陈红.基于改进K-means的电能表时钟异常状态智能检测方法[J].信息与电脑,2023,35(2):67-69. 被引量：1
7谢虹铭,朱参世,朱军,侯礼灏.多聚类混合的加权协同过滤算法研究[J].电脑编程技巧与维护,2023(7):26-28.
8胡晶.基于融合NCG法的协同过滤系统的实现[J].佳木斯大学学报（自然科学版）,2024,42(3):138-140.
9王红林,李忠伟.大数据场景下用户评论聚类文本挖掘算法[J].计算机仿真,2024,41(3):352-358.
10翁姣,王彩霞.基于数据挖掘方法探讨脾胃名家李德新教授临床诊疗虚劳疾病规律[J].辽宁中医药大学学报,2024,26(6):47-51.

二级引证文献16

1黄筱君,虞丽娟,王嘉庆,夏俊,赵军民,王杰.高中生体育素养提升智能指导系统开发与实验研究[J].上海体育学院学报,2022,46(6):61-71. 被引量：1
2徐丹,何艺娟,李怡萱,徐菊,陆兵.中医药科研选题现状探讨——以某三级中医医院为例[J].中医药管理杂志,2022,30(15):201-203.
3黄保乐,李鹏,邢政,高波,赵竟.价值链重构下的发电企业综合能源服务平台建设路径研究[J].综合智慧能源,2022,44(12):75-80. 被引量：1
4赵健.基于hadoop的舰船通信网络数据并行处理方法[J].舰船科学技术,2023,45(7):158-161.
5胡栋鹏.基于Spark的协同过滤并行推荐算法设计[J].信息记录材料,2023,24(6):212-214.
6李湘媛,丁飞,任素菊,张登银,康忆宁.智能网联交通混合标签感知的推荐预测模型[J].重庆邮电大学学报（自然科学版）,2023,35(4):688-695. 被引量：1
7林芷航.融合云技术与关联分析算法的旅游服务推荐模型研究[J].吉林化工学院学报,2023,40(3):56-61.
8朱鑫,金友振,夏小云.融合情境信息的非支配排序多目标进化推荐算法[J].嘉兴学院学报,2023,35(6):79-85.
9雷斯媛,春柳,冯贞贞,郭宇豪,赵贵香,李建生.基于关联规则结合隐结构模型挖掘脓毒症的基础证候分布特征[J].中国中西医结合急救杂志,2023,30(5):529-535.
10李非凡,代志华,张照征.提高专变采集终端一次采集成功率的方法[J].自动化应用,2023,64(24):104-106.

1丁青锋,吴泽祥,刘梦霞,奚韬.非理想CSI下全双工双向中继网络安全性能研究[J].计算机工程与应用,2020,56(19):99-104. 被引量：5
2胡晓敏,王明丰,张首荣,李敏.用于文本聚类的新型差分进化粒子群算法[J].计算机工程与应用,2021,57(4):61-67. 被引量：8
3单丽燕.含绝对值不等式定理的证明方法及应用[J].年轻人,2019,0(9):143-143.
4李文明.名题考题皆有根解题研题终究本——关于一组著名不等式的探究与思考[J].中学教研（数学版）,2020(11):47-48.
5孙冬璞,曲丽.时间序列特征表示与相似性度量研究综述[J].计算机科学与探索,2021,15(2):195-205. 被引量：14
6沈黄金,朱大洲,王辉,刘蕾.基于Spark的农产品智能推荐系统研究[J].电子技术与软件工程,2020(21):65-68.
7姚海东.巧破评价瓶颈提升课程质量——构建小学晨间活动评价体系的探索与实践[J].基础教育参考,2021,12(1):32-35.
8邵芬娟,侯真威.数据挖掘在服装领域的应用分析[J].纺织科技进展,2021(2):1-5. 被引量：4
9张雪妍,贺锋.基于累积前景理论的组合出行交通分配模型[J].郑州大学学报（工学版）,2020,41(3):91-96. 被引量：6
10李飞,卢湖川,薄纯娟.基于上下文多字典学习的高光谱波段选择[J].大连理工大学学报,2021,61(1):104-110.

计算机测量与控制

2021年第2期

浏览历史

内容加载中请稍等...

基于改进Canopy-K-means算法的并行化研究被引量：10

参考文献9

二级参考文献69

共引文献395

同被引文献97

引证文献10

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于改进Canopy-K-means算法的并行化研究 被引量：10

参考文献9

二级参考文献69

共引文献395

同被引文献97

引证文献10

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于改进Canopy-K-means算法的并行化研究被引量：10