基于MapReduce和并行遗传算法的大数据聚类问题研究

Big Data Clustering Problem Based on MapReduce and Parallel Genetic Algorithm

下载PDF

导出

摘要聚类是将不同对象的集合分割为由相似对象组成的多个不同类的过程,是最重要的数据挖掘技术之一.然而,对于大数据聚类却是一个复杂的问题.由于大数据体量庞大,聚类算法时间消耗巨大.并行是解决算力不足的一个非常好的方法.据此,本文采用了Hadoop平台上的MapReduce来实现大规模数据集的并行运算,将大数据聚类问题的时间复杂度限制到一个可以接受的范围内.最后本文从时间消耗和聚类精确度方面对该方法的性能收益进行了评估,在保证较高精确度的同时大大提高了运算速度. Clustering is one of the most important techniques in data mining, which is based on the many different processes that are composed of similar objects. However, for big data clustering is a complex problem. Because of the huge amount of data,the clustering algorithm is time-consuming. Parallel is a very good method to solve the problem of insufficient force. Based on this, Hadoop MapReduce is used to achieve the parallel operation of big data sets. The time complexity of big data clustering problem is limited to an acceptable range. At last, the performance gains of the method are evaluated from the time consumption and clustering accuracy, which can greatly improve the running speed.

作者郭晨晨朱红康 GUO Chenchen ZHU Hongkang(School of Mathematics and Computer Science, Shanxi Normal University, Linfen 041000, China)

机构地区山西师范大学数学与计算机科学学院

出处《鲁东大学学报（自然科学版）》 2017年第1期31-35,共5页 Journal of Ludong University:Natural Science Edition

基金山西省自然科学基金(2015011040)

关键词大数据 MAPREDUCE 数据挖掘并行遗传算法聚类 big data MapReduce data mining parallel genetic algorithm clustering

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献11

1徐丽,丁世飞.粒度聚类算法研究[J].计算机科学,2011,38(8):25-28. 被引量：11
2周涛,张艳宁,袁和金,陆惠玲,邓方安.粗糙核k-means聚类算法[J].系统仿真学报,2008,20(4):921-925. 被引量：15
3熊文,晋耀红.使用蚁群优化和凝聚层次的混合聚类[J].北京邮电大学学报,2013,36(3):60-63. 被引量：5
4翟鹏,李登道.基于高斯隶属度的包容性指标模糊聚类算法[J].山东大学学报（理学版）,2016,51(5):102-105. 被引量：3
5朱林,雷景生,毕忠勤,杨杰.一种基于数据流的软子空间聚类算法[J].软件学报,2013,24(11):2610-2627. 被引量：31
6马永杰,云文霞.遗传算法研究进展[J].计算机应用研究,2012,29(4):1201-1206. 被引量：441
7李东,潘志松.一种适用于大规模变量的并行遗传算法研究[J].计算机科学,2012,39(7):182-184. 被引量：13
8刘晓平,安竹林,郑利平.基于MPI的主从式并行遗传算法框架[J].系统仿真学报,2004,16(9):1938-1940. 被引量：26
9李志坚,吴晓军,任哲坡,欧小波.基于分布式粗粒度并行计算的遗传规划算法研究[J].计算机应用研究,2015,32(1):48-50. 被引量：7
10岳嵚,冯珊.粗粒度并行遗传算法的计算性能分析[J].武汉理工大学学报,2008,30(7):107-110. 被引量：13

二级参考文献172

1刘岩,岳应娟,李言俊,张科.基于粗糙集的图像聚类分割方法研究[J].红外与激光工程,2004,33(3):300-302. 被引量：10
2孔锐,张国宣,施泽生,郭立.基于核的K-均值聚类[J].计算机工程,2004,30(11):12-13. 被引量：46
3张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
4李道国,苗夺谦,张红云.粒度计算的理论、模型与方法[J].复旦学报（自然科学版）,2004,43(5):837-841. 被引量：41
5钟茂生.WEB页面的模糊聚类[J].华东交通大学学报,2004,21(5):59-62. 被引量：2
6徐峰,张铃.基于商空间的非均匀粒度聚类分析[J].计算机工程,2005,31(3):26-28. 被引量：14
7周勇,巩敦卫,郝国生,郭一楠,孙晓燕.交互式遗传算法基于NN的个体适应度分阶段估计[J].控制与决策,2005,20(2):234-236. 被引量：22
8徐峰,张铃,王伦文.基于商空间理论的模糊粒度计算方法[J].模式识别与人工智能,2004,17(4):424-429. 被引量：11
9郝国生,巩敦卫,史有群,王莉.基于满意域和禁忌域的交互式遗传算法[J].中国矿业大学学报,2005,34(2):204-208. 被引量：14
10刘淳安,王宇平.基于新模型的多目标遗传算法[J].西安电子科技大学学报,2005,32(2):260-263. 被引量：14

共引文献552

1于洋,何明,刘博,陈长征.基于GA-IDBN的滚动轴承故障声发射信号识别[J].无损检测,2020,0(1):31-36. 被引量：3
2李兴春,樊新龙,张小军,周虹,官春林,顾乃庭.基于遗传算法的变形反射镜快速设计[J].激光与光电子学进展,2023,60(1):348-355. 被引量：1
3郑凯翔,王湛,殷涂龙.基于刚度和抗弯承载力需求的梁柱外伸端板连接优化设计[J].建筑结构,2021,51(S01):384-389. 被引量：2
4Zeyang ZHOU,Jun HUANG.An optimization model of parameter matching for aircraft catapult launch[J].Chinese Journal of Aeronautics,2020,33(1):191-204. 被引量：4
5陈至豪,王立德,王冲,申萍,李召召.基于组合余弦优化窗四谱线插值FFT的电力谐波分析方法[J].电网技术,2020,44(3):1105-1113. 被引量：35
6李文华,张方实,任亚飞,张君彦,林珊颖,葛杨元.基于模糊决策的锚泊定位系统张力分配优化[J].船舶工程,2021,43(2):103-109.
7祁司亮,徐强,陈求稳.基于遗传算法的二次供水水箱调控优化[J].给水排水,2013,39(S1):520-525. 被引量：4
8李松斌.基于MPICH平台的多种群并行遗传算法[J].厦门大学学报（自然科学版）,2006,45(5):646-651. 被引量：3
9张海龙,许进.主从式并行GA的TSP问题求解[J].计算机与数字工程,2006,34(11):1-4.
10殷新春,仇亮.基于主从式并行遗传算法的S盒优化算法[J].计算机工程与应用,2008,44(24):112-114. 被引量：1

1湛燕,杨芳,王熙照.基于遗传算法学习聚类算法的中心个数[J].计算机工程与应用,2003,39(16):86-87. 被引量：4
2胡颖,庄雷.基于集合分割的虚拟路由器转发表查找的实现[J].电信科学,2014,30(10):103-109.
3刘芬,杨济安.基于小波变换的遥感图像无损压缩算法研究[J].通信技术,2007,40(7):6-8. 被引量：2
4包祎,王涛,裘国永.应用直线集合分割的软件缺陷预测模型[J].计算机工程与应用,2013,49(14):34-38. 被引量：1
5湛燕,陈昊.使用粒子群优化算法学习聚类算法的参数[J].大众科技,2010,12(6):63-64.
6吴非,毛宇光.一种基于k维树的模糊C均值聚类算法[J].计算机与现代化,2015(11):1-5. 被引量：2
7邓火英.使用优化实用工具来优化SQL Server性能[J].网管员世界,2003(9):43-45.
8王秀和.利用K均值算法改进后的蚁群优化算法对高光谱图像聚类研究[J].科技通报,2015,31(3):202-206. 被引量：5
9王庆,季振洲,朱素霞.高性能嵌入式计算几个关键问题及其研究进展[J].智能计算机与应用,2013,3(4):71-75. 被引量：1
10唐波.改进的K-means聚类算法及应用[J].软件,2012,33(3):100-104. 被引量：10

鲁东大学学报（自然科学版）

2017年第1期

浏览历史

内容加载中请稍等...

基于MapReduce和并行遗传算法的大数据聚类问题研究

参考文献11

二级参考文献172

共引文献552

相关作者

相关机构

相关主题

浏览历史