基于Docker搭建Spark大数据集群数据挖掘平台被引量：3

下载PDF

导出

摘要搭建大数据集群采用虚拟机部署的传统方法存在效率低、搭建步骤繁琐、时间成本高等问题,无法满足应用需求。随着虚拟化技术的发展,Docker技术由于具有占用资源小、启动速度快、部署快捷等优势,Docker技术能有效解决传统方法存在的问题,使得应用场景非常丰富。为此,提出基于Docker技术搭建Spark大数据集群实现数据挖掘平台。首先,介绍Docker技术的特点,通过与虚拟机技术对比阐述Docker技术的优势,并且介绍Spark集群架构和Kubernetes技术;然后,详细分析数据挖掘平台的搭建步骤,测试Docker技术和虚拟机技术的程序运行速度,测试表明Docker技术具有较短的运行时间,效率更高。为了Spark集群数据挖掘平台在节点扩展和管理更加灵活,提出基于Kubernetes技术改进原来集群,使得新增节点和管理集群更加高效。

作者蔡全福 CAI Quanfu

机构地区厦门城市职业学院

出处《信息技术与信息化》 2022年第9期70-73,共4页 Information Technology and Informatization

基金 2020年福建省中青年教师教育科研项目(JAT201344)。

关键词虚拟化技术 DOCKER Spark大数据集群数据挖掘 Kubernetes

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1赵乐乐,黄刚,马越.基于Docker的Hadoop平台架构研究[J].计算机技术与发展,2016,26(9):99-103. 被引量：22
2刘思尧,李强,李斌.基于Docker技术的容器隔离性研究[J].软件,2015,36(4):110-113. 被引量：77
3武志学.云计算虚拟化技术的发展与趋势[J].计算机应用,2017,37(4):915-923. 被引量：142
4胡必波,彭平,李散散.Hadoop MapReduce与Spark 的Shuffle过程原理[J].信息技术与信息化,2021(5):63-66. 被引量：6
5夏靖波,韦泽鲲,付凯,陈珍.云计算中Hadoop技术研究与应用综述[J].计算机科学,2016,43(11):6-11. 被引量：74

二级参考文献29

1董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70
2Dua,Bangalore,Raja.Virtualization vs Containerization to Support Paa S. . 2014
3杨保华,戴王剑,曹亚仑.Docker技术入门与实战[M].北京:机械工业出版社,2014.
4肖德时.深入浅出 Docker[EB/OL]. [2015-01-05]. ht- tp ://www. infoq, com/cn/articles/docker-core-technology- preview? utm_source = infoq&utm_medium = related_content_ link&utm campaign = relatedContent_articles_clk.
5Compton D. Why Docker and CoreOS' split was predictable [ EB/OL ]. [ 2015 - 01 - 05 ]. http://danielcompton, net/ 2014/12/02/modular-integrated-docker-coreos.
6Lowy G. Application performance management enables De- vOps ROI[ EB/OL]. [2015-01-05 ]. http://www, apmdi- gest. com/application - performance - mangent - apm - devops - rol.
7Garber L. News briefs[ J]. IEEE Security and Privacy ,2011,9 (6) :9-11.
8Swan C. Docker: present and future [ EB/OL]. [ 2015 -01 - 05 ]. http ://www. infoq, com articles/docker-future.
9Kavis M. Blurring the line between PaaS and laaS[ EB/OL]. [2015-01-05 ]. http://www, forbes, com/sites/mikekavis/ 2014/06/02/blurring-the -line - between-paas-and-iaas/.
10Shalom N. Do I need OpenStack if I use Docker[ EB/OL]. [ 2015-01-05 ]. http ://pensource. com/business/14/11/do- i-need-openstack-if-i-use-docker.

共引文献312

1马武彬,吴亚辉,王普周.共用云计算支撑下的在线教育特征分析[J].科教导刊,2022(21):72-74.
2李泰增,程歆玥,李爱迪,魏柏安.基于分布式架构的多源交通大数据可视化系统设计与实现[J].城市建设理论研究（电子版）,2023(10):119-121. 被引量：3
3刘惠,张雨山.外伤性膈疝的临床观察及护理[J].泸州医学院学报,2000,23(1):85-85.
4凌召.气功真义说[J].中国气功,2000(3):24-26.
5顾东晓,李童童,梁昌勇,徐健.基于云计算的管理信息系统迁移模式与策略研究[J].情报科学,2018,36(12):71-76. 被引量：20
6丁恰,昌力,涂孟夫.电力现货市场技术支持系统关键技术探讨[J].电力系统自动化,2018,42(23):1-8. 被引量：38
7刘菊君,姜磊,彭雄,周倩,杨先圣.大数据下的销售异常发现与定位模型研究[J].小型微型计算机系统,2019,40(1):64-68. 被引量：2
8赫楠,姬光,吴倩,胡宁.X光图片智能识别云平台的关键技术研究[J].中国传媒大学学报（自然科学版）,2019,26(3):71-74.
9刘国乐,余彦峰.浅析Docker容器技术[J].保密科学技术,2017,0(10):26-30. 被引量：5
10刘熙,胡志勇.基于Docker容器的Web集群设计与实现[J].电子设计工程,2016,24(8):117-119. 被引量：34

同被引文献19

1王丽,王晓凯.一种非线性改变惯性权重的粒子群算法[J].计算机工程与应用,2007,43(4):47-48. 被引量：60
2刘建华,樊晓平,瞿志华.一种惯性权重动态调整的新型粒子群算法[J].计算机工程与应用,2007,43(7):68-70. 被引量：49
3胡建秀,曾建潮.微粒群算法中惯性权重的调整策略[J].计算机工程,2007,33(11):193-195. 被引量：62
4李会荣,高岳林,李济民.一种非线性递减惯性权重策略的粒子群优化算法[J].商洛学院学报,2007,21(4):16-20. 被引量：24
5申德荣,于戈,王习特,聂铁铮,寇月.支持大数据管理的NoSQL系统研究综述[J].软件学报,2013,24(8):1786-1803. 被引量：194
6刘先正,温家良,潘艳,吴鹏飞,李金元.采用改进粒子群算法的直流电网最优潮流控制[J].电网技术,2017,41(3):715-720. 被引量：38
7李慧春.基于Docker的HTTP服务器在实验室的应用[J].实验室研究与探索,2019,38(5):125-128. 被引量：5
8邓志诚,孙辉,赵嘉,王晖.基于聚集度自适应反向学习粒子群算法在水库优化调度中的应用[J].水利水电技术,2020,51(4):166-174. 被引量：6
9刘昊,宋敬峰,陈超.基于进化粒子群算法的联合火力打击任务规划方法[J].舰船电子工程,2020,40(4):21-26. 被引量：9
10陆武生,韦于倩,李敏盛.基于Docker Swarm的台站分布式系统设计的技术可行性分析[J].视听,2020(7):250-251. 被引量：2

引证文献3

1崔同科,陈启安,高岩.基于Spark的粒子群算法技术扩展设计与实现[J].指挥信息系统与技术,2023,14(1):62-69. 被引量：2
2张荻,孙蓉.计算机软件开发中Docker技术应用分析[J].产业创新研究,2023(12):145-147. 被引量：4
3杨宏志,吕冠儒.雷达QPE技术在湖南多源融合实况分析系统中的应用研究[J].电脑知识与技术,2023,19(23):126-128.

二级引证文献6

1张兵,王晓琨.机场跑道打击预案评估方法研究[J].信息化研究,2023,49(3):25-30.
2肖明魁.一种结合PSO优化调参的SVM数据分类和预测研究[J].电脑知识与技术,2023,19(26):32-35.
3张玉冰.计算机软件开发中Docker技术应用探讨[J].电脑编程技巧与维护,2023(12):16-18. 被引量：5
4尹杰.计算机应用软件自动化开发技术分析[J].信息记录材料,2024,25(3):165-167.
5韩莉,李雪岗.计算机软件开发中Docker 技术的运用探究[J].软件,2024,45(4):74-76.
6冯福敏,唐运,李嘉韩,杨媛媛,陈曦.沉浸式、剧情化、可编程网络安全三维仿真平台[J].现代信息科技,2024,8(18):99-102.

1蔡春花,黄思远,高继梅.基于Hadoop的学习行为数据云存储平台的设计与实现[J].软件工程,2022,25(10):50-53. 被引量：6
2韦俊宇,王宇英.基于Docker的Online Judge容器设计与实现[J].大众科技,2022,24(9):14-17.
3防止老年人“丢失”日常用品的蓝牙追踪器设计[J].工业设计,2022(9):22-22.
4张舸,姚淮芳.基于网络药理学和分子对接探究桃红四物汤治疗心绞痛的作用机制[J].中医临床研究,2022,14(23):1-7. 被引量：1
5龚莉焰,李双阳,杨思进,白雪.蛭龙活血通瘀胶囊治疗动脉粥样硬化的作用机制[J].承德医学院学报,2022,39(5):371-375. 被引量：2
6孙凡雅,张会永,邵天赐,郭星池,范琳琳,杨关林.结合《温病条辨》探究叶天士在《临证指南医案》湿病篇的组方及用药规律[J].辽宁中医药大学学报,2022,24(9):146-150.
7陈玉龙,秦巧红,侯颖,张寒,贾敏.基于分子对接技术探讨二苯乙烯苷通过SIRT1-TP途径舒张血管的机制研究[J].中国医院药学杂志,2022,42(17):1771-1775.
8Aijinxiu Ma,Fuqi Wang,Xu Zhao.Galangin probably ameliorates hyperuricemia by inhibiting urate acid transport 1 (URAT1): Homology modeling and mechanism exploration[J].Journal of Polyphenols,2022,4(1):55-63.

信息技术与信息化

2022年第9期

浏览历史

内容加载中请稍等...

基于Docker搭建Spark大数据集群数据挖掘平台被引量：3

参考文献5

二级参考文献29

共引文献312

同被引文献19

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Docker搭建Spark大数据集群数据挖掘平台 被引量：3

参考文献5

二级参考文献29

共引文献312

同被引文献19

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Docker搭建Spark大数据集群数据挖掘平台被引量：3