基于Hive的水利普查数据仓库被引量：9

Water Census Data Warehouse Based on Hive

下载PDF

导出

摘要针对水利普查数据海量、多维的特点,研究近年来在"大数据"概念下发展迅速的Hadoop与Hive,结合传统数据仓库在多维数据分析方面的成熟技术,提出基于Hive的水利普查数据仓库的构建方法,描述数据仓库系统的架构,并根据Hive的设计特点,通过分桶、消减维度表和冗余事实表的方法来改进传统的多维分析模型,最后搭建集群系统对水利普查数据集进行查询与分析测试。测试结果表明该数据仓库可以满足海量多维水利普查数据的存储与查询要求。 For the characters that water census data is of large volumes and high dimension, studying Hadoop and Hive which have a quick development recently in the ＂big data＂ concept and combining mature technology in multidimensional data analysis using traditional data warehouse, this article proposes a construction method of water census data warehouse based on Hive. This paper describes the architecture of data warehouse system, improves multidimensional model by dimension table reduction, fact table redundancy and Hive＇ s bucket method, then carries on queries and analysis to water census data set on Hadoop cluster system. Experimental results show that the data warehouse meets the f storage and query requirements of massive multidimensional water census data.

作者陈龙万定生顾昕辰

机构地区河海大学计算机与信息学院

出处《计算机与现代化》 2014年第5期127-130,共4页 Computer and Modernization

基金国家自然科学基金资助项目(51079040) 水利部948项目(201016)

关键词数据仓库水利普查模型优化大规模数据处理 Hive data warehouse water census model optimization large data processing

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1肖飞,齐立磊.大数据处理技术与探索[J].计算机与现代化,2013(9):75-77. 被引量：16
2王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752. 被引量：615
3刘军霞,王磊,周喜.面向海量数据的电子政务云平台研究[J].计算机与现代化,2013(7):164-168. 被引量：7
4薛胜军,刘寅.基于Hadoop的气象信息数据仓库建立与测试[J].计算机测量与控制,2012,20(4):926-928. 被引量：17
5[美]InmonWH.数据仓库(第4版)[M].王志海译,北京:机械工业出版社,2006.
6The Apache Software Foundation. Apache HiveTM [ EB/ OL]. http://hive, apache, org, 2014-02-10.
7The Apache Software Foundation. Welcome to ApacheTM Hadoop [ EB/OL ]. http://hadoop, apache. Org, 2014-02-10.
8Thusoo A, Sarma J S, Jain N, et al. Hive-A petabyte scale data warehouse using Hadoop [ C ]// IEEE 26th Interna- tional Conference on Data Engineering. 2010:996-1005.
9聂瑞,卢建军,卫晨.基于Hadoop平台的OLAP煤炭销售数据分析系统[J].工矿自动化,2012,38(11):77-80. 被引量：2
10ChuckLam.Hadoop实战[M].北京:人民邮电出版社,2011:17-50.

二级参考文献79

1崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
2姚燕,李湘.基于Web的国外实时气象资料服务系统[J].计算机应用与软件,2007,24(2):86-87. 被引量：3
3[OL].<http://hadoop.apache.org.>.
4WinterCorp: 2005 TopTen Program Summary. http:// www. wintercorp, com/WhitePapers/WC TopTenWP. pdf.
5TDWI Checklist Report: Big Data Analytics. http://tdwi. org/research/2010/08/Big-Data-Analytics, aspx.
6Chaudhuri S, Dayal U. An overview of data warehousing and OLAP technology. SIGMOD Rec, 1997,26(1): 65-74.
7Madden S, DeWitt D J, Stonebraker M. Database parallelism choices greatly impact scalability. DatabaseColumn Blog. http://www, databasecolumn, com/2007/10/database-parallelism-choices, html.
8Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters//Proceedings of the 6th Symposium on Operating System Design and Implementation (OSDI ' 04). San Francisco, California, USA, 2004: 137-150.
9DeWitt D J, Gerber R H, Graefe G, Heytens M L, Kumar K B, Muralikrishna M. GAMMA--A high performance dataflow database machine//Proceedings of the 12th International Conference on Very Large Data Bases (VLDB' 86). Kyoto, Japan, 1986:228-237.
10Fushimi S, Kitsuregawa M, Tanaka H. An overview of the system software of a parallel relational database machine// Proceedings of the 12th International Conference on Very Large DataBases(VLDB'86). Kyoto, Japan, 1986:209-219.

共引文献658

1张刘玲.会展行业发展现状及未来发展趋势[J].质量与市场,2023(12):31-33. 被引量：2
2李明建.试论大数据技术的图书馆特色馆藏文化建设[J].作家天地,2020(21):189-190.
3陈然.大数据时代下企业精准营销发展难题及破解[J].中国经贸导刊,2019,0(5Z):95-96. 被引量：4
4梅傲.数据治理的逻辑基础和实现路径[J].经济法论丛,2023(2):309-325. 被引量：1
5张方敏,刘芳.大数据视野下湖南花鼓戏影像的网络传播创新[J].传播力研究,2020,4(5):184-185. 被引量：3
6张文华.大数据对体育教育的冲击[J].贵阳学院学报（自然科学版）,2014,9(2):47-51. 被引量：19
7李满意.大数据安全[J].保密科学技术,2012(9):71-72. 被引量：19
8陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：340
9陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18
10王习特,申德荣,聂铁铮,寇月,于戈.共享的MapReduce环境下批量作业的调度算法研究[J].计算机研究与发展,2013,50(S1):332-341. 被引量：2

同被引文献79

1周丽娟,王慧,王文伯,张宁.面向海量数据的并行KMeans算法[J].华中科技大学学报（自然科学版）,2012,40(S1):150-152. 被引量：32
2龚立群,高琳.RDF查询语言的比较研究[J].计算机时代,2007(3):6-8. 被引量：2
3Lam C.Hadoop实战[M].北京:人民邮电出版社,2011.
4曹妍.本体理论在城市智能交通系统语义集成中的应用研究[D].大连:大连海事大学,2010.
5Dean J, Ghemawat S. MapReduce: Simplified data pro- cessing on large clusters [ J ]. Communications of the ACM, 2008,51(1) :107-113.
6Borthakur D. The Hadoop Distributed File System: Archi- tecture and Design [ DB/OL]. http://web, mit. edu/ mriap/hadoop/hadoop-O. 13. 1/docs/hdfs_ design, pdf, 2007-11-21.
7Dean ], Ghemawat S. MapReduce: Simplified data pro- cessing on large clusters[ C ]//Proceedings of the 6th Sym- posium on Operating Systems Design and Implementation. 2004 : 137-149.
8Google.谷歌文件系统(GFS)[DB/OL].http://researeh.googlecom/arehive/gfs.html.
9Google.MapReduce[DB/OL].http://research.google.com/archive/mapre - duce.html.
10GarryTurkington,张治起.Hadoop基础教程[M].北京:人民邮电出版社,2014.

引证文献9

1丁伟,万定生,樊龙.并行数据挖掘方法在水利普查成果分析中的应用[J].计算机与现代化,2015(10):107-111.
2任春华,廖雪花,唐思娩,严余松,孙尉筌.基于Hive和Impala的物流运力供应链数据仓库研究[J].物流技术,2016,35(1):124-126. 被引量：3
3李维乾,解建仓,李建勋,李莉.突发水污染事件中遥感瓦片大数据存储系统[J].计算机系统应用,2016,25(2):31-37. 被引量：4
4余超,王坚,凌卫青.基于Hadoop的海量交通数据混合存储查询系统设计与实现[J].信息技术与信息化,2016(1):82-86. 被引量：2
5张锐.基于Hive数据仓库的物流大数据平台的研究与设计[J].电子设计工程,2017,25(9):31-35. 被引量：9
6屈志坚,陈鼎龙,巩奇.配电网监测大数据的Impala快速查询技术[J].电力科学与技术学报,2018,33(2):148-156. 被引量：9
7何璇,马佳琳.基于Hadoop的Web日志分析系统的设计[J].软件工程,2019,22(2):11-12. 被引量：3
8秦东旭,徐瑾,吕明,张捷.基于Hadoop的用户行为数据分析系统的设计[J].工业控制计算机,2019,32(10):137-138. 被引量：6
9屈志坚,范明明,赵亮,朱丹,孙旭兵,王子潇.基于倒排索引的铁道供电集群监控H-CRQ技术[J].铁道学报,2020,42(11):75-83.

二级引证文献35

1蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：81
2金玉玕,尚庆华,曹长群.二叠纪地层研究述评[J].地层学杂志,2000,24(2):99-108. 被引量：58
3杨华玲,王力锋.物流仓储多层级供应链均衡控制仿真[J].计算机仿真,2017,34(12):225-227. 被引量：2
4何文博,赵常青.带轴套转子的动力学稳定性研究[J].计算机仿真,2017,34(12):321-325.
5门娟,崔静.滨海新区突发水污染事故应急处置平台建设初探[J].天津科技,2018,45(1):99-102. 被引量：4
6曹梦鸽,高心丹,程逸群.基于HBase的森林防火遥感瓦片大数据存储[J].东北林业大学学报,2018,46(2):35-39. 被引量：4
7眭冠男.多维分析技术在大数据环境下的发展[J].电脑知识与技术,2018,14(2):4-5. 被引量：3
8左宪禹,熊明豪,黄祥志,臧文乾,商东东.面向遥感瓦片数据的一次全覆盖检索模式和方法[J].河南大学学报（自然科学版）,2018,48(3):299-308. 被引量：1
9姜吉宁,王儒敬,魏圆圆,李伟,贾秀芳.基于大数据的新型种质资源数据仓库的设计[J].仪表技术,2018(10):6-8. 被引量：5
10杨冬菊,徐晨阳.大数据环境下基于元模型控制的数据质量保障技术研究[J].计算机工程与科学,2019,41(2):197-206. 被引量：10

1伍行素,熊艰.OLAP在连锁超市中的应用研究[J].信息技术,2011,35(3):76-79.
2胡永泉,李建,梁美红,荣磊.OLAP在固井复杂情况分析中的应用[J].信息技术,2010(1):118-120.
3潘东静,任传成,刘建军.基于数据仓库的学生选课分析[J].教育信息化,2005(11S):36-37.
4潘东静.基于OLAP的多维分析模型设计及应用[J].德州学院学报,2004,20(6):55-58. 被引量：6
5桑国珍,陈永锋.基于矿业的数据仓库多维分析模型设计[J].矿业工程,2005,3(2):59-60. 被引量：2
6李林花,钱越英.数据仓库多维分析模型的设计[J].计算机工程与应用,2004,40(11):185-187. 被引量：18
7万隆,贾绍斌,李振叶.医学影像信息系统多维分析模型的构建与研究[J].中国数字医学,2015,10(5):47-49. 被引量：1
8吴亮.OLAP建模新概念——UDM[J].Windows IT Pro Magazine（国际中文版）,2006(7):71-76.
9章兴旺.基于多维分析模型的项目管控支撑系统构建研究[J].计算机光盘软件与应用,2013,16(10):45-46.
10傅川,陈云.高校科研信息多维展示平台的设计与实现[J].中国教育信息化（高教职教）,2010(4):43-45. 被引量：1

计算机与现代化

2014年第5期

浏览历史

内容加载中请稍等...

基于Hive的水利普查数据仓库被引量：9

参考文献10

二级参考文献79

共引文献658

同被引文献79

引证文献9

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于Hive的水利普查数据仓库 被引量：9

参考文献10

二级参考文献79

共引文献658

同被引文献79

引证文献9

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于Hive的水利普查数据仓库被引量：9