基于Canopy的K-means多核算法被引量：5

Canopy for K-Means on Multi-core

下载PDF

导出

摘要基于Map-reduce,提出了面向多核处理器应用于大规模集群的并行编程方法,应用该方法运行数据挖掘算法Canopy和K-means。针对K-means算法对初始聚类中心敏感,提出了基于Canopy的K-means优化算法。基于实际数据集的实验结果表明,多核Canopy-K-means聚类算法的准确度和执行效率随着核数的增多呈线性增长。 In this paper,we develop a applicable parallel programming method which based on Map-reduce,one that is easily applied to machine learn algorithms Canopy and K-means on multi-core and large cluster.A improved K-means algorithm based on Canopy is presented according to it ＇s sensitiveity to the initial centers.Our experimental results show basically linear speedup with an increasing number of processors.

作者邱荣太

机构地区浙江传媒学院

出处《微计算机信息》 2012年第9期486-487,233,共3页 Control & Automation

关键词 K-MEANS MAP-REDUCE 多核 CANOPY K-means Map-reduce Multi-core Canopy

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1Jeffrey Dean, Sanjay Ghemanwat, MapReduce: Simplified Data Processing on Large Clusters.
2张建民.一种改进的K-means聚类算法[J].微计算机信息,2010,26(9):233-234. 被引量：17
3Kenneth Heafield Hadoop Design and K-Means Clustering Google Inc January 15 2008.
4Bradley, Fayyad, Refining Initial Points for K-Means Cluster- ing 1998.5.
5Dummler, Rauber, Runger, Mapping Algorithms for Muhipro- cessor Tasks on Multi-core Clusters.
6丁光华,周继鹏,周敏.基于MapReduce的并行贝叶斯分类算法的设计与实现[J].微计算机信息,2010,26(9):190-191. 被引量：5

二级参考文献10

1张冬慧,孙波,徐照财,程显毅.文本自动分类关键技术研究[J].微计算机信息,2008,24(6):197-199. 被引量：12
2高继森,赵杰,张忠辅,张晶.增强型K-means聚类算法在入侵检测中的应用[J].微计算机信息,2008,24(9):72-73. 被引量：5
3蒋盛益,李庆华.一种增强的k-means聚类算法[J].计算机工程与科学,2006,28(11):56-59. 被引量：15
4Dean J, Ghemawat S.MapReduce: Simplifed Data Processing on Large Clusters[C]//Proc. of the 6th Symposium on Operating System Design and hnplementation, San Francisco. 2004.
5Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze. Introduction to Information Retrieval. Cambridge University Press. 2008.
6Cutting D. Scalable Computing with MapReduce [C]//Proc. of O'Reilly Open Source Convention, Poland. 2005.
7Tom M.Mitchell.曾华军,张银奎等译.机器学习[M].北京:机械工业出版社.2003.
8Cheng-Tao Chu, Sang Kyun Kim, Yi-An Lin. Map-Reduce for Machine Learning on Multicore. [C]//Proceedings of Neural Information Processing Systems Conference (NIPS). Vancouver, Canada. 2006.
9David Lewis. Na i ve(bayes) at forty:The independence assumption in information retrieval. [C]//In ECML98: Tenth European Conference On Machine Learning. Chemitz, Germany. 1998.
10张维明.数据仓库原理与应用[M].北京:电子工业出版社,2001:20-120.

共引文献20

1张红荣,张峰.传统的K-means聚类算法的研究与改进[J].咸阳师范学院学报,2010,25(4):59-62. 被引量：4
2卫俊霞,相里斌,高晓惠,段晓峰.基于K-均值聚类与夹角余弦法的多光谱分类算法[J].光谱学与光谱分析,2011,31(5):1357-1360. 被引量：14
3刘奇亮,欧阳高飞,谢宏威,邝泳聪,张宪民.一种快速的自动光学检测路径规划算法[J].微计算机信息,2011,27(4):232-234. 被引量：2
4周锐,胡学钢.基于聚类的决策树连续属性离散化改进算法[J].微计算机信息,2011,27(6):183-184. 被引量：1
5李寒,唐兴兴.基于参数优化的Hadoop云计算平台[J].计算机系统应用,2013,22(3):21-24. 被引量：2
6李伟伟,张涛,林为民,邓松,时坚,汪晨.基于文本内容的敏感数据识别方法研究与实现[J].计算机工程与设计,2013,34(4):1202-1206. 被引量：18
7顾瑞春,王静宇.一种基于MapReduce的并行聚类模型[J].计算机与现代化,2014(1):90-92. 被引量：1
8亢丽芸,王效岳,白如江.MapReduce原理及其在自然语言处理中的应用研究[J].情报科学,2014,32(5):120-126. 被引量：2
9周娟.基于DKC值的K-means改进聚类算法的研究[J].企业技术开发,2015,34(1):24-26.
10姜祖新,赵小军,王复元,盛强,谢鹏,徐擎宇.基于Bag of Features模型的害虫图像分类技术研究[J].粮食储藏,2015,44(4):28-32. 被引量：1

同被引文献28

1马云龙,张千里,王继龙.基于IPFIX的网络流量日志系统[J].通信学报,2013,34(S2):5-8. 被引量：5
2杨嵘,张国清,韦卫,李仰耀.基于NetFlow流量分析的网络攻击行为发现[J].计算机工程,2005,31(13):137-139. 被引量：27
3刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
4Qnittek, Requirements for IP Flow Information Export (IP-FIX)[J ]. Swinburne University, 2004,10 (10) : 52-53.
5Andrew Moore, Denis Zuev, Michael Crogan. D for use in flow-based classification[J]. Computer Communications, 2005,8(8) :1 470-5 559.
6孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1079
7雷小锋,谢昆青,林帆,夏征义.一种基于K-Means局部最优性的高效聚类算法[J].软件学报,2008,19(7):1683-1692. 被引量：114
8伍星,何中市,黄永文.产品评论挖掘研究综述[J].计算机工程与应用,2008,44(36):37-41. 被引量：29
9岑咏华,王晓蓉,吉雍慧.一种基于改进K-means的文档聚类算法的实现研究[J].现代图书情报技术,2008(12):73-79. 被引量：8
10张健沛,杨悦,杨静,张泽宝.基于最优划分的K-Means初始聚类中心选取算法[J].系统仿真学报,2009,21(9):2586-2590. 被引量：62

引证文献5

1李天枫,王劲松,王立学.基于IPFIX的大规模网络异常流量检测机制研究[J].天津理工大学学报,2015,31(3):1-5. 被引量：4
2李晓瑜,俞丽颖,雷航,唐雪飞.一种K-means改进算法的并行化实现与应用[J].电子科技大学学报,2017,46(1):61-68. 被引量：50
3李琪,张欣,张平康,张航.基于密度峰值优化的Canopy-Kmeans并行算法[J].通信技术,2018,51(2):312-317. 被引量：7
4彭玉青,王纬华,刘璇,赵晓松,魏铭.基于深度学习与Dense SIFT融合的人脸表情识别[J].中国科学技术大学学报,2019,49(2):105-111. 被引量：6
5苏浩,刘其成,牟春晓.基于MapReduce的商品评论热点发现算法研究[J].中国科学技术大学学报,2019,49(2):112-118. 被引量：1

二级引证文献67

1张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：21
2骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
3何婕,赖敏.云计算平台中分布式Hadoop数据挖掘关键技术研究（英文）[J].机床与液压,2018,46(24):144-149. 被引量：10
4张晓艳.基于机器学习的网络异常流量检测方法[J].现代电子技术,2015,38(23):76-79. 被引量：8
5李金涛,艾萍,岳兆新,马梦梦,边世哲.基于K-means聚类算法的改进[J].国外电子测量技术,2017,36(6):9-13. 被引量：21
6孙振.基于机器学习的网络流量特征选择[J].电子测量技术,2017,40(7):131-136. 被引量：11
7张晶,梁燕,魏文俊.基于改进K-means算法的公共自行车站点区域划分[J].信息通信,2017,30(4):42-44. 被引量：2
8马洋春,王兴芬.基于Spark的K-means聚类的并行实现与优化[J].福建电脑,2017,33(11):1-4. 被引量：1
9张天骐,杨强,宋玉龙,熊梅.一种K-means改进算法的软扩频信号伪码序列盲估计[J].电子与信息学报,2018,40(1):226-234. 被引量：17
10濮君强.基于聚类分析技术的新能源汽车数据挖掘分析[J].自动化与仪器仪表,2018,0(3):173-176. 被引量：3

1吕涛涛,邓正宏.基于Shared Memory的多核算法处理系统及实现[J].现代电子技术,2013,36(6):10-14.
2崔莉霞.基于Hadoop的并行聚类算法的研究[J].计算机光盘软件与应用,2014,17(23):141-142. 被引量：1
3孙文辉,刘平,曹东启.并行编程技术探讨[J].计算机科学,1997,24(2):74-77.
4黄玉龙,邹循进,刘奎,苏本跃.GPU加速的分段Top-k查询算法[J].计算机应用,2014,34(11):3112-3116. 被引量：1
5许德政,赵林,黄刘生,俞国扬.一个串行Fortran程序在曙光1000并行机上的并行实现[J].计算机工程,2001,27(7):46-47. 被引量：1
6李仁兵,李艾华,白向峰,蔡艳平,王德生.支持向量机的进化多核设计[J].控制理论与应用,2011,28(6):793-798. 被引量：4
7张营飞,谢淼,张珩,杨秋松.以状态子集为中心的并行模型检测算法[J].计算机系统应用,2016,25(10):129-136.
8杨际祥,谭国真,王荣生.多核软件的几个关键问题及其研究进展[J].电子学报,2010,38(9):2140-2146. 被引量：17
9王丽一,郑岩,李岱峰,王俊.众核阵列非满配时的并行编程方法[J].计算机应用与软件,2012,29(10):123-127.
10李晓英,万剑怡,何首武.基于模式的CPPVM并行编程方法[J].计算机工程,2008,34(3):116-118. 被引量：2

微计算机信息

2012年第9期

浏览历史

内容加载中请稍等...

基于Canopy的K-means多核算法被引量：5

参考文献6

二级参考文献10

共引文献20

同被引文献28

引证文献5

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

基于Canopy的K-means多核算法 被引量：5

参考文献6

二级参考文献10

共引文献20

同被引文献28

引证文献5

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

基于Canopy的K-means多核算法被引量：5