基于Hadoop平台上面向电影数据集Kmeans算法的改进被引量：2

The Improvement of Kmeans Algorithm Facing the Movie Dataset Based on Hadoop Platform

下载PDF

导出

摘要针对聚类算法并行化的需求,该文对基于Hadoop平台Kmeans算法进行了改进,选用Canopy算法对数据进行预处理,并在具有一定数据结构的电影数据集上进行了单机对比实验,集群加速比实验和集群扩展率实验,分别体现改进后算法实现的高效性、良好的加速比和可扩展性,从而可以有效地运用在实际海量数据挖掘中. According to parallelism demand of the clustering algorithm, This paper improved the implemention of the kmeans algorithm based on the Hadoop platform. We do the preprocess on the dataset using the canopy algorithm, and conduct the single contrast experiment, cluster speed up experiment and cluster expansion rate experiment, showing the high effiency, better speed up and scalability, thus the implemention can be used in the pratical mass data mining effectively.

作者朱蔷蔷张桂芸刘文龙

机构地区天津师范大学

出处《哈尔滨师范大学自然科学学报》 CAS 2012年第1期32-36,共5页 Natural Science Journal of Harbin Normal University

基金国家自然科学基金项目(60970060) 天津市教委资助项目(20071328) 天津市科技支撑计划重点项目(09ZCKFGX00500) 天津师大博士基金项目资助(52LX17)

关键词 HADOOP MAP REDUCE Kmeans Hadoop Map Reduce Kmeans

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Amol Ghoting, Prabhanjan Kambadur, Edwin Pednault, and Ramakrishnan Kannan,et al. NIBLE:A TOOLkit for the Implementation of Paralle Data Mining and Machine Learning Algorithm on MapReduce [ C ] KDD2011, August 21 - 24, 2011, San Diego, California, USA. 334-342.
2Likewin Thomas, B. Annappa, Application of Parallel K -Means Clustering Algorithm for Prediction of Optimal Path in Self Aware Mobile Ad - Hoc Networks with Link Stability[J] Communications in Computer and Information Science, 2011, Volume 193, Part 4,396 -405.
3李成华,张新访,金海,向文.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33(3):129-135. 被引量：111
4Parallel K- Means Clustering Based on MapReduce [ J ] Lecture Notes in Computer Science, 2009, Volume 5931/2009, 674 - 679.
5Wikipedia, k - means clustering [ EB/OL ]. http ://en. wikipedia. org/wiki/k - means_clustering.
6Hadoop技术论坛[EB/OL].http://www, bbs. hadoopor.com.
7Apache. Welcome to Apache Hadoop [ EB/OL]. 2011. http ://hadoop. apache, org.
8[美]怀特.Hadoop权威指南[M].周傲英,曾大聃,译.北京:清华大学出版社,2010.

二级参考文献8

1周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛（下半月）,2009(2):65-66. 被引量：14
2吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J].现代图书情报技术,2007(8):52-55. 被引量：9
3孙广中,肖锋,熊曦.MapReduce模型的调度及容错机制研究[J].微电子学与计算机,2007,24(9):178-180. 被引量：26
4郑启龙,王昊,吴晓伟,房明.HPMR：多核集群上的高性能计算支撑平台[J].微电子学与计算机,2008,25(9):21-23. 被引量：11
5陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348. 被引量：1312
6杨代庆,张智雄.基于Hadoop的海量共现矩阵生成方法[J].现代图书情报技术,2009(4):23-26. 被引量：13
7郑启龙,房明,汪胜,王向前,吴晓伟,王昊.基于MapReduce模型的并行科学计算[J].微电子学与计算机,2009,26(8):13-17. 被引量：39
8陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009,29(9):2562-2567. 被引量：932

共引文献111

1孙骎童.关于集群虚拟机资源调度专利申请分析[J].军民两用技术与产品,2018,0(16):198-198.
2李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
3江小平,李成华,向文,张新访.云计算环境下朴素贝叶斯文本分类算法的实现[J].计算机应用,2011,31(9):2551-2554. 被引量：21
4李绍松,尹栋,慕德俊,戴冠中.基于FPGA可扩展的Mapreduce架构设计与实现[J].计算机技术与发展,2012,22(2):103-106. 被引量：1
5吴琪.基于云计算的Apriori挖掘算法[J].计算机测量与控制,2012,20(6):1653-1655. 被引量：6
6高飞,张琦,李泽强.基于云计算技术的影视节目版权交易云平台的构建[J].广播与电视技术,2012,39(7):35-38. 被引量：3
7贺瑶,王文庆,薛飞.基于云计算的海量数据挖掘研究[J].计算机技术与发展,2013,23(2):69-72. 被引量：97
8赵曦.一种基于云计算架构的业务流程优化研究[J].微电子学与计算机,2013,30(3):160-164.
9张岩,郭松,赵国海.基于Hadoop的云计算试验平台搭建研究[J].沈阳师范大学学报（自然科学版）,2013,31(1):85-89. 被引量：14
10赵青松,陈林,孙波,朱艳,姜海燕.基于Hadoop的云环境下作物生长模型算法的实现与测试[J].农业工程学报,2013,29(8):179-186. 被引量：11

同被引文献28

1张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
2Dean J, Ghemawat S. MapReduce: Simplified Data Pro- cessing on Large Clusters [ J ] . Communications of the Acm, 2008, 51(1) :107-113.
3Hartigan J A, Wong M A. A K-means clustering algo- rithm. [ J]. Applied Statistics, 2013, 28 ( 1 ) : 100-108.
4戴文华,焦翠珍,何婷婷.基于并行遗传算法的K-means聚类研究[J].计算机科学,2008,35(6):171-174. 被引量：17
5李红梅.遗传算法概述[J].软件导刊,2009,8(1):67-68. 被引量：8
6谢桂兰,罗省贤.基于Hadoop MapReduce模型的应用研究[J].微型机与应用,2010,29(8):4-7. 被引量：69
7周爱武,于亚飞.K-Means聚类算法的研究[J].计算机技术与发展,2011,21(2):62-65. 被引量：134
8吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：166
9王宏宇.Hadoop平台在云计算中的应用[J].软件,2011,32(4):36-38. 被引量：41
10向小军,高阳,商琳,杨育彬.基于Hadoop平台的海量文本分类的并行化[J].计算机科学,2011,38(10):184-188. 被引量：35

引证文献2

1卢胜宇,王静宇,张晓琳,高俊峰.基于Hadoop平台的K-means聚类算法优化研究[J].内蒙古科技大学学报,2016,35(3):264-268. 被引量：6
2孟佳伟,孙红.基于Hadoop平台的K-means算法优化综述[J].软件导刊,2017,16(6):208-211. 被引量：8

二级引证文献14

1孟佳伟,孙红.基于Hadoop平台的K-means算法优化综述[J].软件导刊,2017,16(6):208-211. 被引量：8
2唐燕,刘仁权,王苹.基于Hadoop的高校大数据平台的设计与实现[J].信息技术,2017,41(12):105-109. 被引量：30
3刘势,屈静,蔡政英.基于Hadoop云平台的模糊聚类算法研究[J].信息通信,2018,31(2):84-86. 被引量：2
4汪一百.基于Hadoop云计算平台的聚类K-means算法的研究与实现[J].信息与电脑,2017,29(11):92-94. 被引量：2
5郭卫霞,薛涛,李婷.基于Hadoop的Canopy-K-means并行算法的学生成绩与毕业流向关系分析[J].西安工程大学学报,2018,32(6):705-712. 被引量：11
6谷玉荣,黄耀雄,高艳,郭静.基于K-Means聚类算法的空中态势威胁挖掘[J].火力与指挥控制,2019,44(4):92-96. 被引量：2
7李文航,余恒奇.基于Hadoop平台的数据分析和应用[J].微型电脑应用,2019,35(11):134-136. 被引量：1
8谷恪忱.基于ThinkPHP框架的工控品采购平台设计与实现[J].软件工程,2020,23(3):53-59. 被引量：7
9邓滨玥.K均值优化算法综述[J].软件,2020,41(2):188-192. 被引量：12
10王海燕,崔文超,许佩迪,李闯.Canopy在划分聚类算法中对K选取的优化[J].吉林大学学报（理学版）,2020,58(3):634-638. 被引量：12

1华晶,胡继光,刘迎九,张瑞兰.修改直方图的一种新方法[J].计算机科学,2012,39(S3):398-399.
2高榕,李晶,肖雅夫,祝孙静,彭卫平.基于云环境K-means聚类的并行算法[J].武汉大学学报（理学版）,2015,61(4):368-374. 被引量：10
3朱为盛,王鹏.基于Hadoop云计算平台的大规模图像检索方案[J].计算机应用,2014,34(3):695-699. 被引量：27
4刘向东,刘奎,胡飞翔,王翠荣.基于MapReduce的并行聚类算法设计与实现[J].计算机应用与软件,2014,31(11):251-256. 被引量：10
5武霞,董增寿,孟晓燕.基于大数据平台hadoop的聚类算法K值优化研究[J].太原科技大学学报,2015,36(2):92-96. 被引量：11
6王志刚,陈名辉,赵振凯.一种YARN和Spark框架的网格聚类方法[J].现代计算机（中旬刊）,2016(12):33-37.
7张祥火,杨晓元,王绪安.一种基于格的认证加密方案[J].计算机应用研究,2013,30(9):2788-2790.
8颜一鸣,郭鑫.一种基于Hadoop的动态树增量更新方法[J].计算机工程,2014,40(3):67-70. 被引量：1
9周潭平,杨晓元,吴立强.一种改进的格上CCA安全的密码方案[J].小型微型计算机系统,2014,35(7):1505-1508.
10赵卫中,马慧芳,傅燕翔,史忠植.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].计算机科学,2011,38(10):166-168. 被引量：84

哈尔滨师范大学自然科学学报

2012年第1期

浏览历史

内容加载中请稍等...

基于Hadoop平台上面向电影数据集Kmeans算法的改进被引量：2

参考文献8

二级参考文献8

共引文献111

同被引文献28

引证文献2

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台上面向电影数据集Kmeans算法的改进 被引量：2

参考文献8

二级参考文献8

共引文献111

同被引文献28

引证文献2

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台上面向电影数据集Kmeans算法的改进被引量：2