基于Spark的大数据计算模型被引量：5

The Spark-based Large Data Computing Model

下载PDF

导出

摘要作为第三代机器学习工具,spark被视为替换Hadoop的下一代数据处理解决方案.包括了迭代计算、批处理计算、内存计算、流式计算、数据查询分析计算及图计算,提供了强大的内存计算引擎.Spark有望成为下一代大数据热门框架.研究分析了Spark组件生态圈和Lambda架构.最后介绍了Spark应用于机器学习领域. As the third generation of machine learning tools, spark is considered as the next generation of data processing solution to replace Hadoop, including the iterative calculation, batch calculation, memory computing, flow calculation, data query analysis and graph calculation. It provides a powerful memory computing engine.Spark, which is the next generation of big data popular framework.

作者王磊时亚文

机构地区陕西广播电视大学计算机与信息管理教学部西安西港花园学校

出处《电脑知识与技术（过刊）》 2016年第7X期7-8,共2页 Computer Knowledge and Technology

基金陕西广播电视大学2015年度科研课题<信息技术与云计算技术研究>项目编号:15D-08-B08 陕西工商职业学院2015年度教革课题<大数据下的计算机类课程资源建设实践研究>项目编号:GJ1529

关键词机器学习 SPARK HADOOP Machine learning spark Hadoop

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1http://baike.baidu.com/link?url=Nj Ue Voy Ti UBYeb THNOyw39VNZ1Yn9OMPz-SMujvalpe DTbcwu YNOQS5x RQttjvt Xa3m OO5Qd AI3Ho_H4dgsg8tyw Kzd Dg_w3ZURoi HOCYK7 .
2胡俊,胡贤德,程家兴.基于Spark的大数据混合计算模型[J].计算机系统应用,2015,24(4):214-218. 被引量：56
3Nathan Marz,James Warren.Big Data:Principles and BestPractices of Scalable Realtime Data Systems. . 2015

二级参考文献10

1夏俊鸾,邵赛赛.Spark Streaming: 大规模流式数据处理的新贵. http://www.csdn.net/article/2014-01-28/2818282-Spark -Streaming-big-data. 2014.
2Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters. Communications of the ACM, 2008, 3(51-1): 107-113.
3耿益锋,陈冠诚.Impala:新一代开源大数据分析引擎. http://www.csdn.net/article/2013-12-04/2817707-ImpalaBig- Data-Engine. 2013.12.
4Strom. http://storm.incubator.apache.org/. 2014.
5Zaharia M, Chowdhury M, Das T, et al. Resilient distributed datasets: A fault-tolerant abstration for in-memory cluster computing. Proc. of the 9th USENIX Conference on NetWorked System Design and Implementation. 2012. 2-16.
6Gonzalez J, Low Y, Gu H. PowerGraph: Distributed garph-p arallel computation on natural graphs. Proc. of the 10th USENIX Symposium on Operating Systems Design and Implementatin. 2012. 17-30.
7Zaharia M, Chowdhury M, Franklin MJ, Shenker S, Stoica I. Spark: Cluster Computing with Working Sets. Technical Report No. UCB/ EECS- 2010-53May 7, 2010.
8Xin R, Rosen J, et al. Shark: SQL and Rich Analytics at Scale. Technical Report UCB/EECS. 2012.11.
9Engle C, Lupher A, et al. Shark: Fast Data Analysis Using Coarse-grained Distributed Memory. SIGMOD 2012. May 2012.
10Zaharia M, Das T, Li HY, Shenker S, Stoica I. Discretized streams: An efficient and fault-tolerant model for stream. Proc. on Large Clusters. HotCloud 2012. June 2012.

共引文献55

1韩亚兰,韩学明,白玲.用电子冷热针灸仪治疗糖尿病50例疗效观察[J].针灸临床杂志,2000,16(2):33-34. 被引量：1
2叶小榕,邵晴.基于Spark的大规模社交网络社区发现原型系统[J].科技导报,2018,36(23):93-101. 被引量：8
3陆韦,朱捷飞,崔德义,孟飞.基于“互联网+”的电网用电监察平台设计[J].自动化与仪器仪表,2019(1):103-105. 被引量：2
4汤伟,杨铖.智能检索技术在电网调度本体知识库中的应用[J].自动化与仪器仪表,2019(1):178-180. 被引量：2
5汤伟,杨铖.智能检索技术在电网调度本体知识库中的应用[J].自动化与仪器仪表,2019(2):193-196. 被引量：1
6张雄,陆路,石宣化.分布式数据处理系统内存对象管理问题分析[J].中兴通讯技术,2016,22(2):19-22. 被引量：2
7陈羽中,郭松荣,陈宏,李婉华,郭昆,黄启成.基于并行分类算法的电力客户欠费预警[J].计算机应用,2016,36(6):1757-1761. 被引量：11
8林穗,赵菲.基于Spark的线性模型在广告投放系统中的应用研究[J].广东工业大学学报,2016,33(5):28-33. 被引量：4
9张琦,张春平,杨志,刘铭.基于OPC框架的高效计算服务应用[J].计算机系统应用,2016,25(9):92-97.
10李玮.Apache Spark技术研究与应用前景分析[J].电信技术,2016(9):67-68. 被引量：3

同被引文献42

1何艳频,孙爱峰.Spearman等级相关系数计算公式及其相互关系的探讨[J].中国现代药物应用,2007,1(7):72-73. 被引量：16
2陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：340
3李秀央,陈坤,赵克勤.用基于联系数的主因子分析预测法预测流行性乙型脑炎[J].中华流行病学杂志,2005,26(3):218-220. 被引量：3
4徐兵河,张绪超.石蜡包埋组织的基因表达谱分析预测局部晚期乳腺癌的化疗反应[J].循证医学,2007,7(3):138-140. 被引量：1
5张爱霞,朱明,赵亮.用回归分析预测法预测伤亡事故[J].河北理工大学学报(自然科学版),2007,29(4):11-13. 被引量：3
6刘星毅.一种新的决策树分裂属性选择方法[J].计算机技术与发展,2008,18(5):70-72. 被引量：6
7唐李洋,倪志伟,李应.基于Cassandra的可扩展分布式反向索引的构建[J].计算机科学,2011,38(6):187-190. 被引量：10
8王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752. 被引量：615
9郝树魁.Hadoop HDFS和MapReduce架构浅析[J].邮电设计技术,2012(7):37-42. 被引量：73
10李凤云,黄迎春,冯永新.基于WebService的SOA实现技术研究[J].科技视界,2012(23):17-19. 被引量：25

引证文献5

1孙明.基于大数据技术的精准扶贫管理系统建设研究[J].电脑知识与技术,2020,0(4):298-300.
2杨頲,韩路,许勤,孙元浩.大型商业银行基于Hadoop分布式数据仓库建设初探[J].计算机应用与软件,2017,34(8):72-75. 被引量：2
3权赵恒,李嘉迪.从Hadoop到Spark技术的革新[J].电脑知识与技术,2019,15(3Z):265-268. 被引量：3
4苗立志,刁继尧,娄冲,崔进东.基于Spark和随机森林的乳腺癌风险预测分析[J].计算机技术与发展,2019,29(8):142-146. 被引量：12
5杨永毅,赵芳,朱君.基于Cassandra与Spark的降水量统计算法的设计与实现[J].信息技术,2020,44(7):54-57. 被引量：4

二级引证文献21

1孙明.基于大数据技术的精准扶贫管理系统建设研究[J].电脑知识与技术,2020,0(4):298-300.
2刘浩,曾兴兴,鲁艳柳.生物医学数据分析方法与应用[J].遵义医科大学学报,2019,42(5):607-612. 被引量：1
3王玉.大数据时代Hadoop和Spark技术研究[J].品牌研究,2020,0(4):88-90. 被引量：4
4鲍烈,王曼韬,刘江川,彭珍,彭帅波.基于SSD目标检测框架的乌龟常见病症识别方法[J].沈阳农业大学学报,2020,51(2):238-244. 被引量：1
5吴磊,欧阳赫明.基于Spark的分布式健康大数据分析系统设计与实现[J].软件导刊,2020,19(7):99-102. 被引量：1
6李进,何冉.深度森林在乳腺癌检测中的应用[J].新一代信息技术,2020,3(10):8-13.
7张艺琼,王海青,王锁柱,高琳琦.基于Hadoop的车位空闲模式挖掘方法[J].天津师范大学学报（自然科学版）,2021,41(1):69-74.
8顾建峰.重庆智慧气象探索与实践[J].气象科技进展,2021,11(2):32-38. 被引量：7
9李进,何冉.一种深度森林算法的乳腺癌检测方法研究[J].新一代信息技术,2021,4(8):11-16.
10毛钤镶,承垠林,赖聪,汤壮,许可慰,周毅.基于机器学习的经皮肾镜碎石取石术结石残留研究[J].生物医学工程研究,2021,40(2):114-120. 被引量：4

1苏树鹏.基于Lambda架构的移动互联大数据平台架构的设计与应用[J].企业科技与发展,2016(6):66-68. 被引量：7
2刘子英,唐宏建,肖嘉耀,张骞.基于流式计算的Web实时故障诊断分析与设计[J].华东交通大学学报,2014,31(1):119-123. 被引量：8
3占超群（离哲）.大数据[J].程序员,2012(1):32-33.
4杨栋.一脉相承的高可用技术从分布式系统到流式计算[J].程序员,2011(11):102-105.
5许承启,何利文,王延松,呼学理,牛小兵.基于流式计算的DDoS实时检测方法[J].计算机应用研究,2017,34(3):892-896. 被引量：1
6梁毅,侯颖,陈诚,金翊.面向大数据流式计算的任务管理技术综述[J].计算机工程与科学,2017,39(2):215-226. 被引量：10
7祝锡永,庞培培.大数据流式计算系统综述[J].成组技术与生产现代化,2016,33(4):49-54. 被引量：3
8丁莹.流式计算盘活大数据[J].信息方略,2012(9):57-60.
9高扬.MLPACK:一种可扩展的机器学习工具包[J].经营管理者,2015(31):445-446.
10张华,王东辉,吴烜.流式计算的分布式框架的应用[J].信息与电脑（理论版）,2014,0(10):142-143. 被引量：3

电脑知识与技术（过刊）

2016年第7X期

浏览历史

内容加载中请稍等...

基于Spark的大数据计算模型被引量：5

参考文献3

二级参考文献10

共引文献55

同被引文献42

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于Spark的大数据计算模型 被引量：5

参考文献3

二级参考文献10

共引文献55

同被引文献42

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于Spark的大数据计算模型被引量：5