基于云计算的数据挖掘系统设计被引量：28

Design of Data Mining System Based on Cloud Computing

下载PDF

导出

摘要为了高效、快速地解决呈指数增长的数据处理问题,提高数据储存、运算能力,文中提出了基于云计算的数据挖掘系统的设计。该系统首先分析了主流云计算平台Spark的组件构成和运行机制,深入研究其计算架构的编程原理。同时利用Spark进行了C4.5算法和K-medoids聚类算法的并行化设计,有效提高算法的运行速度、收敛速度和结果的稳定性。测试表明,在进行海量数据的分析处理时,文中提出的云计算平台在分类误差内,可有效提高整体系统的运算速度,分类效率也大幅提高。 In order to solve exponentially increasing data processing problems and improve data storage and computing power efficiently and quickly, this paper proposed a cloud computing-based data mining system design. The system first analyzed the component composition and operation mechanism of the mainstream cloud computing platform Spark, and deeply studied the programming principle of its computing architecture. At the same time, Spark was used to parallelize the C4.5 algorithm and K-medoids clustering algorithm, which effectively improved the running speed, convergence speed and stability of the algorithm. The test showed that in the analysis and processing of massive data, the cloud computing platform proposed in this paper could effectively improve the computing speed of the whole system and improve the classification efficiency.

作者蓝机满 LAN Jiman(Huizhou Engineering Vocational College,Huizhou 516001,China)

机构地区惠州工程职业学院

出处《电子科技》 2019年第8期70-74,共5页 Electronic Science and Technology

关键词云计算数据挖掘 SPARK C4.5算法 K-medoids聚类算法 cloud computing data mining Spark C4.5 algorithm K-medoids clustering algorithm

分类号 TN99 [电子电信—信号与信息处理] TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1于连城,张译,张广德,徐欣杰,吴彬.基于canopy-k-means算法的电网数据挖掘算法的研究[J].国外电子测量技术,2018,37(7):35-39. 被引量：11
2胡莹石,陈家晨,徐菱.云计算下数据挖掘平台架构及技术探究[J].无线互联科技,2018,15(12):60-61. 被引量：7
3毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
4张雪萍,龚康莉,赵广才.基于MapReduce的K-Medoids并行算法[J].计算机应用,2013,33(4):1023-1025. 被引量：33
5王诏远,王宏杰,邢焕来,李天瑞.基于Spark的蚁群优化算法[J].计算机应用,2015,35(10):2777-2780. 被引量：23
6牛海玲,鲁慧民,刘振杰.基于Spark的Apriori算法的改进[J].东北师大学报（自然科学版）,2016,48(1):84-89. 被引量：23
7陈光平,王文鹏,黄俊.一种改进初始聚类中心选择的K-means算法[J].小型微型计算机系统,2012,33(6):1320-1323. 被引量：39
8赖向阳,宫秀军,韩来明.一种MapReduce架构下基于遗传算法的K-Medoids聚类[J].计算机科学,2017,44(3):23-26. 被引量：17
9许晓燕.基于云计算的数据挖掘云服务模式研究[J].电脑知识与技术,2018,14(7):16-17. 被引量：6
10张菁.云计算技术下海量数据挖掘的实现机制[J].安徽水利水电职业技术学院学报,2018,18(1):62-64. 被引量：7

二级参考文献129

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
3袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
4李洋.K-means聚类算法在入侵检测中的应用[J].计算机工程,2007,33(14):154-156. 被引量：23
5王小良,李强.并行遗传算法研究及其应用[J].微计算机信息,2007,23(03X):205-206. 被引量：5
6WILKINSONB ALLENM 陆鑫达汤勇平增志勇译.并行程序设计[M].北京:机械工业出版社,2002..
7Han Jiawei,Kamber M.Data mining:concepts and tech- niques[M].San Francisco:Morgan Kaufmann Publishers, 2000.
8Januzaj E, Kriegel H P, Pfeifle M.DBDC : Density-Based Distributed Clustering[C]//Proceedings of 9th International Conference on Extending Database Technology(EDBT). Oakland: IEEE Computer Press, 2004 : 88-105.
9Samatova N F, Ostrouchov G.RACHET : an efficient cov- er-based merging of clustering hierarchies from distribut- ed datasets[J].Distributed and Parallel Databases,2002, 11 (2) : 157-180.
10Johoson E, KarguPta H.Collective, hierarchical clustering from distributed, heterogeneous data[C]//Lecture Notes in Computer Science.Berlin: Springer, 2000 : 221-244.

共引文献253

1王越,赵静,杜冠瑶,万巍,龙春.网络空间安全日志关联分析的大数据应用[J].网络新媒体技术,2020(3):1-7. 被引量：2
2李宗辰.基于Hadoop平台的聚类算法研究[J].花炮科技与市场,2020(3):10-11. 被引量：1
3景冰.大数据挖掘与云服务模式的构建[J].江西电力职业技术学院学报,2020,0(1):19-20. 被引量：1
4李慧.基于智能刷卡机的饭堂数据挖掘系统[J].办公自动化,2020,0(2):23-25.
5胡聪,徐敏,洪德华,刘翠玲,薛晓茹,王海鑫.基于改进K-medoids聚类和SVM的异常用电模式在线检测方法[J].国外电子测量技术,2022,41(2):53-59. 被引量：7
6孙定华,许宪中.论材料特性与变压器的抗短路能力——写在新世纪到来之际[J].变压器,2000,37(2):15-20. 被引量：3
7徐晓旻,肖仰华.KBAC:一种基于K-means的自适应聚类[J].小型微型计算机系统,2012,33(10):2268-2272. 被引量：6
8张靖,段富.优化初始聚类中心的改进k-means算法[J].计算机工程与设计,2013,34(5):1691-1694. 被引量：56
9海沫,张书云,马燕林.分布式环境中聚类问题算法研究综述[J].计算机应用研究,2013,30(9):2561-2564. 被引量：12
10杨劲锋,刘涛,陈启冠,阙华坤,肖勇.基于海量计量数据的电力客户在线分群研究[J].华东电力,2013,41(8):1581-1585. 被引量：4

同被引文献318

1卓琳,赵厚宇,詹思延.异常检测方法及其应用综述[J].计算机应用研究,2020,37(S01):9-15. 被引量：23
2赵文军.云计算技术在计算机网络安全存储中的应用分析[J].电子世界,2020,0(5):161-162. 被引量：18
3宋宝杰.普通高校体育教师教学质量评价体系的研究[J].电子科技,2010,23(12):107-109. 被引量：6
4冯朴.一种电力监控与数据采集系统设计[J].电子科技,2011,24(8):44-45. 被引量：5
5李吉彪,岑俊杰.基于网络协作教学模式及其效果研究[J].电子科技,2013,26(1):150-153. 被引量：2
6鞠万群,韩秋实.基于神经网络与规则库的故障诊断专家系统[J].北京机械工业学院学报,2001,16(1):6-10. 被引量：8
7张晓婷,李茵,唐晶磊.基于优化聚类算法的大数据分流系统设计仿真[J].计算机仿真,2018,35(12):204-207. 被引量：6
8刘芳,吴广潮.一种基于压缩矩阵的改进Apriori算法[J].山东大学学报（工学版）,2018,48(6):82-88. 被引量：9
9安莹,付博晶.基于聚类分析的急诊住院老年患者护理需求特点及对策探讨[J].中国实用护理杂志,2019,35(3):219-224. 被引量：15
10陈燿圣,杨苹,曾智基,彭嘉俊.考虑微电网运行域的配电网分布式能源规划[J].电力系统自动化,2019,43(3):83-91. 被引量：12

引证文献28

1樊鹏.云计算背景下大数据挖掘平台的构建策略[J].中国新通信,2020,0(2):46-46. 被引量：1
2<<药品非临床研究质量管理规范>>(试行)[J].中国医药情报,2000,6(1):21-27.
3张炜,贾伟,刘路登,高岭,杨子.基于决策树算法的电网调度频繁数据挖掘系统设计[J].电子设计工程,2020,28(19):189-193. 被引量：8
4连杰,高珺,毕志琴.适用于煤矿井下EM-MWD的小信号检测技术[J].电子设计工程,2020,28(23):80-83. 被引量：2
5谈笑.基于模糊聚类的区域健康数据评价分析模型研究[J].电子设计工程,2021,29(3):13-17. 被引量：4
6于晓翠,陈亮,林泽源.基于人工智能的大数据信息快速抽取算法研究[J].电子设计工程,2021,29(5):149-153. 被引量：5
7俞阳,顾晶晶.基于云计算的电力服务大数据共享系统设计[J].电子设计工程,2021,29(7):81-85. 被引量：1
8侯凤梅.高职院校智慧课程系统构建[J].信息技术与信息化,2021(4):207-208. 被引量：3
9李永刚.基于云计算的数据信息加密安全存储仿真研究[J].电子设计工程,2021,29(11):132-135. 被引量：10
10王刚.基于数据挖掘技术的网络入侵检测系统[J].电子设计工程,2021,29(13):15-19. 被引量：4

二级引证文献77

1蒋浩英,钱进,王滔滔,洪承鑫,余鹰.基于三支决策的新型分类匿名模型[J].南京大学学报（自然科学版）,2023,59(6):970-980.
2杜华明,张明昌,刘爽,张瑜嘉.基于数据融合与挖掘的城市综合管廊运维管理探索[J].建筑电气,2022,41(11):64-70. 被引量：1
3张成龙,韩伟森,李宏源.“互联网+教育”新模式的机遇与挑战——以高等教育为例[J].电脑知识与技术,2020,16(20):169-170.
4唐光艳.基于大数据与人工智能的大数据获取方法研究[J].电子技术与软件工程,2021(11):191-192. 被引量：1
5潘小龙,牛增良.智慧检测中汽车检测多源异构数据解析研究[J].科学与信息化,2021(19):94-95.
6时培胜,李强,林春,王成全.基于链式描述符的网络数据库容灾备份方法[J].信息与电脑,2021,33(14):167-169.
7刘小兵,杨杰,扈乐华,胡丽霞,谭道军.基于云计算的小区安防系统[J].今日自动化,2021(8):187-189.
8董玥萌,杜谦,张文嘉,刘国华.基于Matlab的暗场图像处理算法研究[J].微电子学与计算机,2021,38(10):35-41.
9冯凯亮,陈勋,张德栋,王红伟.铁路行业关键信息基础设施数据安全防护平台研究[J].铁路计算机应用,2021,30(11):73-76. 被引量：3
10叶智慧,宁禹强,张敏,李晓蓉.基于机器学习分类算法的地层水合物识别方法研究[J].海洋技术学报,2021,40(5):51-61. 被引量：2

1陈阳.基于Hadoop平台的FCM算法并行化设计[J].自动化与信息工程,2019,40(1):39-43. 被引量：1
2英特尔中国.智慧城市的物联网战略[J].中国公共安全,2019,0(4):58-59.
3陈晓旭,钱慧,李方舒.梯度方向直方图的嵌入式GPU并行加速计算[J].有线电视技术,2019,26(5):95-99.
4施羽暇.人工智能芯片技术体系研究综述[J].电信科学,2019,35(4):114-119. 被引量：21
5毛海宇,舒继武.基于3D忆阻器阵列的神经网络内存计算架构[J].计算机研究与发展,2019,56(6):1149-1160. 被引量：5
6张越,单连飞,余建明,李如意,杜鹏锐.基于D5000的预想故障集自适应超实时预测系统分析[J].东北电力技术,2019,40(5):52-55. 被引量：1
7唐扶光,刘娅,钟何平.基于GPU的线频调变标算法并行实现[J].舰船电子工程,2019,39(5):84-87.
8魏敏,王彬,何香,孙俊,姜小成,肖洒,张莉,徐金秀.BCCAGCM模式在神威·太湖之光系统的优化[J].应用气象学报,2019,30(4):502-512. 被引量：4
9梅鲁海.城市地下综合管廊统一管理业务集成平台的设计[J].温州职业技术学院学报,2019,19(2):54-57. 被引量：1

电子科技

2019年第8期

浏览历史

内容加载中请稍等...

基于云计算的数据挖掘系统设计被引量：28

参考文献13

二级参考文献129

共引文献253

同被引文献318

引证文献28

二级引证文献77

相关作者

相关机构

相关主题

浏览历史

基于云计算的数据挖掘系统设计 被引量：28

参考文献13

二级参考文献129

共引文献253

同被引文献318

引证文献28

二级引证文献77

相关作者

相关机构

相关主题

浏览历史

基于云计算的数据挖掘系统设计被引量：28