一种基于Spark大数据处理平台的查询方法被引量：4

Query method based on Spark big data processing platform

下载PDF

导出

摘要 Spark SQL在获取Spark核心的计算结果后,需要进行一些格式转化和数据拷贝才能正式输出,将造成内存中相同或近似相同的数据有多个拷贝,浪费了内存资源,也降低了性能,直接影响了用户响应和结果存储容量,并且这种影响会随着输出结果的增大而增大。为此,文中提出了基于Spark大数据处理平台的创新查询方法,以实现查询首结果立即输出,极大缩短客户响应时间。 After Spark SQL obtains the core calculation results of the Spark,it is necessary to perform some format conversion and data copy before the official output.It will cause multiple copies of the same or nearly the same data in the memory.It is a waste of memory resources,reducing the performance,and directly affecting the response capacity and the stored results.And this influence will increase with the increase of the output result.An innovative query method based on the Spark big data processing platform is proposed.The method is used to achieve immediate output of the first result of the query,thus greatly reducing customer response time.

作者张海峰魏可欣 ZHANG Haifeng;WEI Kexin(China Information Consulting&Designing Institute Co.Ltd.,Nanjing 210019,China;School of Business,Nanjing University,Nanjing 210093,China;School of Politics and Public Administration,Soochow University,Suzhou 215123,China)

机构地区中通服咨询设计研究院有限公司南京大学商学院苏州大学政治与公共管理学院

出处《南京邮电大学学报（自然科学版）》北大核心 2021年第4期82-90,共9页 Journal of Nanjing University of Posts and Telecommunications：Natural Science Edition

关键词 Spark SQL 大数据查询首结果首结果立即返回 Spark SQL big data query first result return the first result immediately

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献20

1卜尧,吴斌,陈玉峰,白德盟.BDAP——一个基于Spark的数据挖掘工具平台[J].中国科学技术大学学报,2017,47(4):358-368. 被引量：9
2吴信东,嵇圣硙.MapReduce与Spark用于大数据分析之比较[J].软件学报,2018,29(6):1770-1791. 被引量：74
3王玉.Spark大数据处理平台的构建及应用[J].大众标准化,2019,0(18):28-29. 被引量：2
4黄震,钱育蓉,范迎迎,杜娇.Spark下遥感大数据特征提取的加速策略[J].计算机工程与设计,2017,38(12):3279-3283. 被引量：7
5吴磊,欧阳赫明.基于Spark的分布式健康大数据分析系统设计与实现[J].软件导刊,2020,19(7):99-102. 被引量：1
6范炜玮,王虹,吴飞.基于Spark的医疗服务大数据统计平台的应用[J].中国医疗设备,2017,32(11):136-139. 被引量：7
7于建涛,刘圣东,赖灵伟,吕同轩,王嘉浩,高小雨,惠毅翔,侯君瑶,殷童,郭茂祖.基于Spark的转录组大数据并行处理方法[J].计算机应用研究,2020,37(S02):176-180. 被引量：2
8曹猛.基于Spark核心架构的大数据平台技术研究与实践[J].中国战略新兴产业,2018(7X):130-130. 被引量：3
9江永渡,程德生,赵志武,王梨,江峰.基于Spark框架的大数据计算平台[J].网络安全技术与应用,2020,0(3):65-66. 被引量：3
10田璐,齐林海,李青,王红,田世明,卜凡鹏.基于Spark Streaming的电力流式大数据分析架构及应用[J].电力信息与通信技术,2019,17(2):23-29. 被引量：13

二级参考文献111

1刘惠英,杨辽,张思玉.MODIS数据及其在森林防火中的应用[J].世界林业研究,2006,19(4):18-21. 被引量：2
2刘星毅.一种新的决策树分裂属性选择方法[J].计算机技术与发展,2008,18(5):70-72. 被引量：6
3郭默宁,陈樾鹏,刘婉如,琚文胜.北京市卫生统计信息平台建设设想[J].中国数字医学,2008,3(9):54-56. 被引量：14
4唐中实,王海葳,赵红蕊,葛峤,王彦佐.基于MODIS的重庆森林火灾监测与应用[J].国土资源遥感,2008,20(3):52-55. 被引量：5
5张翔,王士同.一种基于马氏距离的可能性聚类方法[J].数据采集与处理,2011,26(1):101-105. 被引量：14
6张军伟,王念滨,黄少滨,蔄世明.二分K均值聚类算法优化及并行化研究[J].计算机工程,2011,37(17):23-25. 被引量：23
7王娟.一种基于遗传算法的K-means聚类算法[J].微型机与应用,2011,30(20):71-73. 被引量：9
8郑建智,段占祺,应桂英.数据仓库和OLAP技术在卫生统计决策支持系统中的应用[J].中国卫生信息管理杂志,2012,9(3):47-51. 被引量：12
9李东,潘志松.一种适用于大规模变量的并行遗传算法研究[J].计算机科学,2012,39(7):182-184. 被引量：13
10张耀光.卫生统计工作的思考和展望[J].中国卫生信息管理杂志,2012,9(4):18-20. 被引量：3

共引文献191

1周晓,马圣杰.基于集成学习的转子部件脱落故障诊断方法[J].数字制造科学,2022(1):16-22.
2王瑞玺,尚东方,鲍可馨.基于大数据的海港船舶疫情风险防控平台设计与实现[J].中国水运（下半月）,2022,22(8):42-44. 被引量：1
3孙如飞,张焱,陈瑞祥,孙飞飞,陈龙赞.流处理技术在水利物联网领域的应用[J].人民黄河,2021,43(S02):264-267. 被引量：1
4危前进,魏继鹏,古天龙,常亮,文益民.粗糙集多目标并行属性约简算法[J].软件学报,2022,33(7):2599-2617. 被引量：2
5邱莉萍,鞠海军,龚晓敏,邓拓,刘林玉.分布式计算框架的大数据机器学习探析[J].计算机产品与流通,2020(10):179-179.
6徐霞军,秦绪涛,杨强,朱云飞.大数据技术在核电设备缺陷分析中的初步应用[J].核动力工程,2020,41(S01):68-72. 被引量：5
7王茂忠.信息网络安全事件监测与响应平台的设计[J].电子技术（上海）,2020(11):116-117. 被引量：4
8胡常礼,邵剑飞.基于分布式计算框架的机器学习系统分析[J].电视技术,2021,45(11):115-118. 被引量：1
9陈红兵.一种单元分布式变电站综合自动化系统设计方案[J].工程设计与研究（长沙）,2000(1):14-17.
10艾力亚力.艾力,郭敏,孙立,李波霖,温浩.基于云计算的网络平台在医疗信息化中的应用研究[J].中国研究型医院,2018,5(6):42-47. 被引量：3

同被引文献33

1杨飞,朱志祥,梁小江.基于Ceph对象存储集群的高可用设计与实现[J].微电子学与计算机,2016,33(1):60-64. 被引量：15
2李钦,朱延超,刘轶,钱德沛.基于YARN集群的计算加速部件扩展支持[J].计算机研究与发展,2016,53(6):1263-1270. 被引量：6
3居发礼,付祥钊.医院门诊公共空间人流量特性及新风量需求[J].建筑科学,2017,33(12):110-116. 被引量：4
4本刊记者.以人为本推进整合式医疗服务的发展——“整合式医疗服务高峰论坛”综述[J].卫生经济研究,2018,35(8):70-71. 被引量：2
5石龙,赵盘珍.全民健康覆盖视角下“互联网+医疗健康”的机遇和挑战[J].医学与社会,2018,31(10):8-10. 被引量：28
6陆俊尧,李玲娟.基于Spark的协同过滤算法并行化研究[J].计算机技术与发展,2019,29(1):85-89. 被引量：12
7黄强文,曾丹.基于Spring Cloud和Docker的分布式微服务架构设计[J].微型电脑应用,2019,35(6):98-101. 被引量：31
8吴南中,夏海鹰,黄治虎.基于大数据的智慧教室驾驶舱的设计与实践——以重庆广播电视大学为例[J].现代教育技术,2020,30(3):101-107. 被引量：15
9刘昕林,邓巍,黄萍,刘睿臻.基于Hadoop和Spark的可扩展性大数据分析系统设计[J].自动化与仪器仪表,2020,0(3):132-136. 被引量：9
10张学文,王赈霄,盛基尧,刘水,杨永生.5G技术在外科领域中的应用[J].中华消化外科杂志,2020,19(5):482-485. 被引量：10

引证文献4

1涂志炜.基于“互联网+”时代背景下智慧医院管理智能化、信息化建设与实践[J].通讯世界,2022,29(7):128-130.
2朱毓.基于Hadoop与Spark的大数据处理平台的构建研[J].互联网周刊,2023(7):87-89. 被引量：3
3张凤,卢居辉,朱海勇,吴文.一种Spark轻量级客户端实现方法研究[J].河南科技,2023,42(15):19-24.
4林峰.基于Docker容器与Spark技术的分布式判题系统[J].龙岩学院学报,2023,41(5):21-26.

二级引证文献3

1吴兴,丁亚军.新时代背景下医院信息管理中互联互通的应用策略[J].中国卫生产业,2023,20(19):158-161.
2魏凌华,徐成振.Spark综合实验平台的使用和实验教学实践[J].科技风,2024(6):64-66.
3殷俊,李仁旺.基于大数据技术的传动轴磨削加工过程中碳足迹的核算[J].建模与仿真,2023,12(6):5924-5935.

1郝彦婷.基于AnyLogic的M食品日化仓出入库作业仿真与优化[J].物流技术与应用,2020,25(6):142-145. 被引量：2
2王满,朱清海.城市排水管网健康检测关键技术及其应用[J].城市勘测,2021(4):158-162. 被引量：7
3闽人.别“捣乱” 管好Windows 10中神秘的“个人服务”[J].电脑爱好者,2021(17):28-29.
4贺毅,梁旭俊,张鹏飞.基于液相色谱-串联质谱的单细胞蛋白质组学方法推动肿瘤诊断研究[J].中华检验医学杂志,2021,44(8):755-763. 被引量：3
5张丽敏.基于大数据技术的虚拟现实场景展示系统设计[J].太原学院学报（自然科学版）,2021,39(3):60-65. 被引量：1
6刘丽军,罗宁,吴桐,郑文迪.基于混合整数二阶锥规划的考虑需求侧响应虚拟电厂优化调度[J].太阳能学报,2021,42(8):96-104. 被引量：15
7黄鑫,吴跃前,王德明.一种高效的嵌入式系统固件局部更新方法[J].华南师范大学学报（自然科学版）,2021,53(4):100-106.

南京邮电大学学报（自然科学版）

2021年第4期

浏览历史

内容加载中请稍等...

一种基于Spark大数据处理平台的查询方法被引量：4

参考文献20

二级参考文献111

共引文献191

同被引文献33

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种基于Spark大数据处理平台的查询方法 被引量：4

参考文献20

二级参考文献111

共引文献191

同被引文献33

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种基于Spark大数据处理平台的查询方法被引量：4