Hadoop环境下基于SparkSQL海量自动站数据查询统计初探被引量：12

Query and Statistical Analysis of Mass Automatic Station Data Based on SparkSQL in Hadoop Environment

下载PDF

导出

摘要在Hadoop分布式计算和存储架构下,自定义ETL数据清洗规则将海量自动站小时单站文件按所属年和站号合并为大文件流转存储至HDFS中,并运用SparkSQL并行计算框架进行统计处理生成常用气象要素日统计值。结果表明,数据处理和获取时效较关系型数据库方式有显著提升。采用SparkSQL并行计算框架对多气象要素多站点和长时间序列进行数据统计处理查询均能达到秒级别响应,并随着统计站点数的不断增加和时间跨度的延长其优势更为明显,能更高效地支撑此类气象数据服务,为海量气象数据处理从关系型数据库到大数据分布式架构的转换处理提供了新思路。 Under the distributed computing and storage framework of Hadoop,according to the customed ETL data cleaning rules,based on its year in which it belongs and station number,the hourly singlestation files of mass automatic station data are merged into large files and transferred to the distributed storage HDFS,using the Spark SQL parallel computation framework to deal with and produce the daily statistical values of common meteorological elements,which greatly improves data processing and acquisition efficiency compared with the relational database.The experimental results show that the data processing and querying of multiple meteorological elements,multi-site data and long-time series can reach the second level response by using the SparkSQL parallel computing framework,and its advantages are more obvious with the increasing number of statistical sites and the extension of time span.It can support this kind of meteorological data service more efficiently and provide new ideas for the transformation of large-scale meteorological data processing from relational database to large data distributed framework.

作者黄志詹利群任晓炜李涛 Huang Zhi;Zhan Liqun;Ren Xiaowei;Li Tao(Guangxi Meteorological Information Center,Nanning 530022)

机构地区广西区气象信息中心

出处《气象科技》 2019年第5期768-772,871,共6页 Meteorological Science and Technology

基金国家档案局项目（2016-X-06）“基于Hadoop大数据处理的广西气象数字档案馆建设”资助

关键词 HADOOP HDFS SparkSQL ETL Hadoop HDFS SparkSQL ETL

分类号 P409 [天文地球—大气科学及气象学]

引文网络
相关文献

参考文献9

1李亚丽,妙娟利,贺音.日平均计算方法对气温统计值的影响[J].气象科技,2013,41(1):88-92. 被引量：13
2丁祥武,解书亮,李继云.基于Spark的并行ETL[J].计算机工程与设计,2017,38(9):2580-2585. 被引量：7
3王军,刘文化,于伟东.一种基于Hadoop的纺织海量生产数据存储设计[J].微型电脑应用,2013(6):53-54. 被引量：7
4冯兴杰,王文超.Hadoop与Spark应用场景研究[J].计算机应用研究,2018,35(9):2561-2566. 被引量：33
5赵文芳,刘旭林.Spark Streaming框架下的气象自动站数据实时处理系统[J].计算机应用,2018,38(1):38-43. 被引量：16
6李莉,王小刚.基于Spark的并行K-means气象数据挖掘研究[J].信息技术,2017,41(9):26-30. 被引量：7
7肖卫青,杨润芝,胡开喜,林润生,刘立明,谷军霞.Hadoop在气象数据密集型处理领域中的应用[J].气象科技,2015,43(5):823-828. 被引量：22
8詹利群,霍庆,张志强,刘一鸣,冯明农.地面气象资料一体化统计加工系统设计与实现[J].气象科技,2018,46(3):503-508. 被引量：11
9崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141

二级参考文献51

1王素萍,宋连春,韩永翔.高寒区潜在蒸散量的计算方法探讨[J].干旱区研究,2009,26(1):126-129. 被引量：13
2李亚丽,妙娟利,贺音.日平均计算方法对气温统计值的影响[J].气象科技,2013,41(1):88-92. 被引量：13
3孙化南.不同时间分辨率对气象要素月平均值统计的影响[J].应用气象学报,2004,15(B12):134-141. 被引量：15
4刘小宁,任芝花.地面气象资料质量控制方法研究概述[J].气象科技,2005,33(3):199-203. 被引量：151
5于伟东,杨建国.纺织工业中的虚拟加工技术与模式[J].纺织导报,2005(7):10-10. 被引量：7
6杨淑群,芮景析,冯汉中.支持向量机(SVM)方法在降水分类预测中的应用[J].西南农业大学学报（自然科学版）,2006,28(2):252-257. 被引量：20
7焦飞,黄天文,何华庆.数据挖掘技术在气温长期变化趋势预测中的应用[J].广东气象,2006,28(2):33-35. 被引量：7
8吴利红,康丽莉,陈海燕,马仙妹.地面气象站环境变化对气温序列均一性影响[J].气象科技,2007,35(1):152-156. 被引量：62
9纺织工业“十二五”发展规划2012年1月.
10曾大聃,周傲英译.Hadoop权威指南(中文版).清华大学出版社,2010.5.

共引文献242

1陈宁,陈孝文,冯世杰,吕志鹏,陈习,张娜,王岩.基于Hadoop的电力客户用电地址存储与结构化管理系统设计[J].微型电脑应用,2020,36(2):97-101. 被引量：4
2李威耀,范国梅,马俊才.基于微生物分类的信息推荐模型[J].计算机应用研究,2020,37(S01):211-212.
3左学刚,邹滨,胡晨霞,李沈鑫,贺晨骋.自然资源大数据助力的城市可持续发展评估[J].测绘科学,2023,48(1):189-200. 被引量：4
4常青,严小文,陶晓峰,付峰.基于大数据技术的智能电表运行状态分析系统研究[J].自动化与仪器仪表,2015(12):4-6. 被引量：20
5郭秋英,陈启辉,崔健.GIS在高校校园规划与管理中的应用[J].测绘通报,2000(4):40-41. 被引量：35
6董贺,徐凌宇.基于云平台的软件服务流体系结构[J].上海大学学报（自然科学版）,2013,19(1):14-20. 被引量：7
7张岩,郭松,赵国海.基于Hadoop的云计算试验平台搭建研究[J].沈阳师范大学学报（自然科学版）,2013,31(1):85-89. 被引量：14
8李亮.全台网环境下的云视频素材转码系统的设计[J].电视技术,2013,37(10):67-69. 被引量：2
9刘军霞,王磊,周喜.面向海量数据的电子政务云平台研究[J].计算机与现代化,2013(7):164-168. 被引量：7
10朱晓丽,赵志刚.一种基于HBase的海量图片存储技术[J].信息系统工程,2013,26(8):22-24. 被引量：14

同被引文献116

1蒋春平,黄煜骁,周晓君.基于Kudu的实时业务应用场景解决方案[J].电信科学,2020,36(S01):268-275. 被引量：3
2沈文海.从云计算看气象部门未来的信息化趋势[J].气象科技进展,2012,2(2):49-56. 被引量：31
3郎洪亮.全国气象宽带网络系统体系结构研究[J].气象科技,2006,34(B09):1-4. 被引量：16
4周海光.新一代多普勒天气雷达三维数字化拼图系统研究[J].计算机应用研究,2007,24(12):226-227. 被引量：11
5王红艳,刘黎平,肖艳娇,庄薇,王改利.新一代天气雷达三维数字组网软件系统设计与实现[J].气象,2009,35(6):13-18. 被引量：23
6李莉,廖剑伟,欧灵.云计算初探[J].计算机应用研究,2010,27(12):4419-4422. 被引量：55
7李荣国,王见.MySQL数据库在自动测试系统中的应用[J].计算机应用,2011,31(A02):169-171. 被引量：77
8张靖,雷航,唐雪飞,孟帅朋.ETL应用优化设计与实现研究[J].微电子学与计算机,2012,29(4):134-137. 被引量：9
9杨润芝,马强,李德泉,郑波.内存转发模型在CIMISS数据收发系统中的应用[J].应用气象学报,2012,23(3):377-384. 被引量：22
10长孙妮妮,张毅坤,华灯鑫,邹子夏,陈浩.一种基于B+树的混合索引结构[J].计算机工程,2012,38(14):35-37. 被引量：11

引证文献12

1夏正龙,姚蓉,朱亮,钟艳雯.基于Spark的探空逆温识别算法实现[J].湖北农业科学,2021,60(S01):335-339. 被引量：1
2史媛.基于文本信息的SparkSQL处理研究[J].电子技术与软件工程,2020(15):213-214. 被引量：2
3张玉洁,涂爱琴,边智,高林.气象雷达组网产品生成业务系统的设计与实现[J].气象水文海洋仪器,2021,38(4):87-91. 被引量：1
4王甫棣,王帅,赵希鹏.基于ElasticSearch的异构数据迁移方法[J].气象科技,2022,50(1):45-50. 被引量：8
5黄志,苏传程,苏晓红.大数据环境下Spark性能优化分析研究与应用[J].气象科技,2022,50(1):51-58. 被引量：9
6黄志,黄珩,梁维亮,梁苑苑.基于“天擎”DPL的业务融入设计与应用初探[J].气象研究与应用,2022,43(1):73-77. 被引量：12
7张玉洁,邵楠,高林,李恒昶,黄磊,苑文华.基于多源数据融合的综合气象观测产品系统设计与应用[J].气象与环境科学,2022,45(3):96-104. 被引量：6
8陆鑫林,姚惠民,胡婉蕾,李健,王小刚.疫情信息查询及趋势预测系统的设计与实现[J].中国宽带,2022,18(9):68-70.
9陈冲,张锋,朱潜,王伟,李俊徽.基于云平台的气象数据共享系统设计[J].电脑知识与技术,2023,19(1):67-70. 被引量：2
10刘洋,黄志,徐娟,卢伟萍.并行算法在气象数据处理中的研究与应用[J].电子设计工程,2023,31(11):152-156. 被引量：1

二级引证文献40

1黄涛,高丽婷.基于Spark的实时数据采集与处理[J].河北建筑工程学院学报,2022,40(4):176-179. 被引量：5
2戚云枫,曾小团,梁苑苑,白龙.广西网格预报系统融入“天擎”的实践与思考[J].气象研究与应用,2022,43(2):111-116. 被引量：6
3白铁男,唐维尧,谭海波,金石声,白滔,汤宁.贵州天气雷达集约监控系统的研究与实现[J].中低纬山地气象,2022,46(3):126-128. 被引量：4
4曹海平.依托于Spark平台的大数据挖掘技术分析[J].软件,2022,43(7):84-86. 被引量：3
5曹晓钟,夏元彩,罗皓文,刘立辉,刘银锋,刘振宇,李欣,郭然,郭启云.气象探空观测的技术发展与未来展望[J].气象科技进展,2022,12(5):27-36. 被引量：2
6王源,陈智勇.基于Spark+Flask的大数据可视化系统设计与实现[J].科学与信息化,2022(22):73-76.
7管丽丽,曹钰,胡龙平,陈文源.长三角环境气象案例库及检索系统融入“天擎”设计与实现[J].数字技术与应用,2022,40(12):169-173.
8余永城,王笑,魏夏潞.福建气象综合业务平台融入“天擎”技术方案设计及实现[J].气象科技,2022,50(5):653-659. 被引量：14
9李仁港,李志豪,王凯,吴春红,蒋小菲.全栈式智慧教育系统设计与实现[J].软件导刊,2023,22(1):52-60. 被引量：1
10闫平.综合气象观测运行监控业务系统应用实践解析[J].农业灾害研究,2023,13(1):130-132. 被引量：3

1张晓燕,张梅凤.我国玉米田农药登记情况分析[J].山东农药信息,2019,0(4):34-35.
2王燕霞.依法治统,营造良好的统计环境[J].法治与社会,2019,0(2):28-29.
3牛家山.唠唠俺们街道的“赵前孙李”[J].中国统计,2018,33(4):44-45.
4高永伟.莱州:“四德”力量助小康--从600元的“奇妙旅行”说起[J].中国扶贫,2019,0(14):60-62.
5周容.基于多站点的光伏信息化管理系统研究与实现[J].价值工程,2019,38(30):195-196. 被引量：1
6童乐安.文件排排队揪出空间侵吞者[J].电脑爱好者,2019,0(21):30-31.
7孙明明.人民银行分布式架构应用研究[J].金融科技时代,2019,27(11):32-37. 被引量：2
8杨兴娣.镇级经济统计工作分析[J].时代金融,2018(12):244-244.
9周洁,李杰,杨永丰,左艳荣.超声影像系统的设计方法与应用[J].医学信息（医学与计算机应用）,2014,0(10):5-6. 被引量：1
10王程龙.“三资”管理有三难[J].农村经营管理,2018(3):34-34.

气象科技

2019年第5期

浏览历史

内容加载中请稍等...

Hadoop环境下基于SparkSQL海量自动站数据查询统计初探被引量：12

参考文献9

二级参考文献51

共引文献242

同被引文献116

引证文献12

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

Hadoop环境下基于SparkSQL海量自动站数据查询统计初探 被引量：12

参考文献9

二级参考文献51

共引文献242

同被引文献116

引证文献12

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

Hadoop环境下基于SparkSQL海量自动站数据查询统计初探被引量：12