基于Hadoop平台的聚类K-means算法的研究

Research on Clustering K-means Algorithm Based on Hadoop Platform

下载PDF

导出

摘要针对当前数据规模不断增大,单机的数据挖掘运行效率低下的问题,本文采用Hadoop平台对聚类K-means算法进行研究以解决此类问题。首先对Hadoop平台的架构和搭建进行了详细描述;其次详细分析了K-means算法;最后给出了算法实现,并对算法进行了实验分析。 In view of the increasing scale of data and the inefficient operation of data mining in single machine, this paper uses Hadoop platform to cluster K-means algorithm to solve such problems. Firstly, the architecture and construction of the Hadoop platform are described in detail; secondly, the K-means algorithm is analyzed; finally, the algorithm implementation is given, and the algorithm is experimentally analyzed.

作者汪一百 WANG Yi-bai(Changsha Medical University,Changsha 410219,Hunan)

机构地区长沙医学院

出处《电脑与电信》 2018年第4期18-20,共3页 Computer & Telecommunication

基金湖南省教育厅科研项目项目编号:16C0184

关键词 HADOOP K-MEANS 数据挖掘 Hadoop K-means data mining

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1方新丽.浅议数据挖掘技术在计算机审计中的应用[J].电脑知识与技术,2013,9(5X):3445-3446. 被引量：4
2陈慧萍,林莉莉,王建东,苗新蕊.WEKA数据挖掘平台及其二次开发[J].计算机工程与应用,2008,44(19):76-79. 被引量：35
3周兵,沈钧毅,彭勤科.集群环境下的并行聚类算法的通信策略[J].计算机工程,2004,30(7):20-21. 被引量：2
4郝水侠,许金超.云计算中相似驱动的并行任务划分方法[J].计算机科学与探索,2012,6(8):752-759. 被引量：3

二级参考文献28

1姚再勇,郑启龙,许胤龙,姚震,张红涛,胡晨光.基于Eclipse的并行开发环境EMPI[J].计算机应用与软件,2005,22(10):5-7. 被引量：3
2牛丽敏.Apriori算法分析与改进综述[J].桂林电子科技大学学报,2007,27(1):27-30. 被引量：23
3林金晓,陈伟男,周学功,彭澄廉,吴荣泉.基于Eclipse平台的边界扫描测试软件的开发[J].计算机工程,2007,33(12):280-282. 被引量：5
4Data mining tools you used in 2005 [EB/OL]. [2007].http ://www. kdnugget s.com/polls/2005/data_mining_tools.htm.
5Witten I H,Frank E.Data mining practical machine learning tools and techniques[M].2nd ed.北京:机械工业出版社,2005.
6Kirkby R,Frank E.WEKA explorer user guide for version 3-4-3 [EB/OL].[2007].http://www.es.waikato.ae.nz/ml/WEKA/2004.
7UCI machine learning repository[EB/OL].[2007].http://mlearn.ics.uci. edu/MLRepository.html.
8[1]Warschko T M, Blum J M, Tichy W F. ParaStation: Efficient Parallel Computing by Clustering Workstations: Design and Evaluation. Journal of Systems Architecture, 1998, (44): 241-260
9[2]Tian Zhang, Ramakrishnan R, Livny M. BIRCH: An Efficient Data Clustering Method for Very Large Databases. ACM 0-89791 -794-4/96/0006, 1996
10[3]Atiquzzaman M, Srimani P K. Parallel Computing on Clusters of Workstations. Guest Editorial, Parallel Computing, 2000, (26): 175-177

共引文献39

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2胡小梅,胡贵华,朱文华,俞涛.GaInP薄膜KMC生长并行计算模拟与可视化研究[J].太阳能学报,2010,31(3):306-311. 被引量：2
3李晋,顾宏斌,潘湑.C4.5算法在民航CBT中的应用[J].科技信息,2010(28):270-271.
4梁竹,谢长勇,罗刚,严中.基于WEKA的高校学生综合测评数据挖掘[J].电脑知识与技术,2011,7(6):3763-3765. 被引量：2
5江小平,李成华,向文,张新访.云计算环境下朴素贝叶斯文本分类算法的实现[J].计算机应用,2011,31(9):2551-2554. 被引量：21
6郑世明,苗壮,宋自林,高志年.WEKA环境下基于模糊理论的聚类算法[J].解放军理工大学学报（自然科学版）,2012,13(1):22-26. 被引量：15
7余佳,李益华.一种基于数据挖掘的车型自动分类方法的研究[J].现代电子技术,2012,35(9):119-121. 被引量：3
8张荣霞.基于型谱数据库的卫星产品配置技术研究[J].机械科学与技术,2012,31(9):1429-1433. 被引量：3
9王朝辉,黎鑫.基于WEKA的序列最小化算法的改进研究[J].工业控制计算机,2012,25(8):81-82.
10张新有,李新洁.拓扑相似性垃圾邮件行为识别技术研究[J].计算机应用研究,2012,29(10):3805-3808.

1戴炼.从物理学习的认知过程看物理实验分析[J].科技风,2018(3):22-22.
2孙凯.大数据背景下机器学习在数据挖掘中的应用浅析[J].科学技术创新,2018(18):82-83. 被引量：14

电脑与电信

2018年第4期

浏览历史

内容加载中请稍等...

基于Hadoop平台的聚类K-means算法的研究

参考文献4

二级参考文献28

共引文献39

相关作者

相关机构

相关主题

浏览历史