基于Hadoop平台的事实并行处理算法被引量：5

Parallel Processing Algorithms for Facts Based on Hadoop Platform

下载PDF

导出

摘要针对传统的抽取、转换和加载工具在面临数据仓库中海量事实数据时效率较低的问题,从事实表查找代理键和多粒度事实预聚合2个角度出发,提出在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法。第1种算法综合考虑了渐变维度和大维度的情况,运用分布式缓存方法将小维度表复制到各个数据节点的内存中,同时对事实数据和大维度数据采用相同的分区函数进行分区,从而解决内存不足的问题,在Map阶段实现多路查找代理键,避免由于数据传输产生的网络延迟。第2种算法在Reduce阶段之后增加Merge阶段,可有效解决事实数据按照不同粒度进行聚合的问题。实验结果表明,与Hive数据仓库相比,2种算法在并行处理数据仓库的事实数据的问题上具有更高的处理效率。 In view of that traditional Extract, Transform, Load（ETL） tools face the efficient problem of the massive fact data in data warehouse, two algorithms about parallel processing facts are designed and implemented based on Hadoop platform. From the two perspectives of surrogate key lookup of fact table and aggregation for fact data on the different granularity, a multi-way parallel lookup algorithm on slowly changing dimensions and an algorithm of aggregation for fact data on the different granularity are presented. The first algorithm considers slowly changing dimensions and big dimensions synthetically. In order to solve the problem of out of memory, the algorithm adopts an approach to the distributed cache to copy small dimensions to every date nodes＇ memory. And implementing multi-way lookup of dimension keys in the stage of map is to avoid network delay result from data transmission. The second algorithm adds merge stage after reducing stage, so it is beneficial to solve the aggregation problem of the fact data according to different granularity effectively. Experimental results show that the two algorithms have better efficient than Hive data warehouse with respect to the problem of parallel processing facts data in data warehouse.

作者孙莉何刚李继云

机构地区东华大学计算机科学与技术学院

出处《计算机工程》 CAS CSCD 2014年第3期59-62,81,共5页 Computer Engineering

关键词 MAPREDUCE模型维度事实代理键并行查找聚合 MapReduce model dimension fact surrogate key parallel lookup aggregation

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1徐艳华,郭朝珍.基于MAS的分布式ETL模型[J].郑州大学学报（理学版）,2007,39(4):118-121. 被引量：6

二级参考文献3

1石柯,徐胜超,唐晓辉,江锋,章勤.一种分布式环境下的新型高性能计算平台[J].小型微型计算机系统,2006,27(9):1782-1787. 被引量：5
2陈伟江,郭朝珍.分布式ETL中协同机制的研究与设计[J].通信学报,2006,27(11):177-182. 被引量：10
3韩泉叶,张锋.一种基于多Agent的分布式计算模型研究[J].兰州铁道学院学报,2003,22(1):98-100. 被引量：2

共引文献5

1周剑岚,裴金勇.一种多Agent平台保障机制的研究[J].广西师范大学学报（自然科学版）,2008,26(2):118-121.
2高小飞,冯杰.一种决策树算法在数据仓库ETL中的应用与研究[J].计算机与现代化,2009(4):65-67. 被引量：2
3宋杰,郝文宁,陈刚,靳大尉,赵水宁.基于MapReduce的分布式ETL体系结构研究[J].计算机科学,2013,40(6):152-154. 被引量：9
4李晨翔,何刚,孙莉.基于Hadoop平台的分布式ETL系统设计与实现[J].福建电脑,2013,29(11):111-114. 被引量：2
5杨杉,苏飞,程新洲,袁明强,董润莎.面向运营商大数据的分布式ETL研究与设计[J].邮电设计技术,2016(8):47-52. 被引量：9

同被引文献42

1Wikipedia. Bigdata [ EB/OL]. http ://en. wikipedia, org/wiki/Big_data, 2014 - 09 - 10.
2The Apache Software Foundation. Apache HadoopEEB/ OL2. https://hadoop, apache, org,2014-09 11.
3Orcal.企业大数据[EB/OI.].http:/www.oracle.com/us/try/dw-big-data-enterprise-2030630-zhs.pdf,2014-09-11.
4李庆阳,彭宏.面向数据质量的ETL框架的设计与实现[J].计算机工程与设计,2010,31(9):2057-2060. 被引量：20
5谢婷婷,李伟华.专用ETL模式设计与实现[J].计算机工程与应用,2010,46(35):133-135. 被引量：3
6徐俊刚,裴莹.数据ETL研究综述[J].计算机科学,2011,38(4):15-20. 被引量：106
7赵俊,夏小玲.公共数据中心的ETL系统设计与实现[J].计算机应用与软件,2011,28(10):167-169. 被引量：10
8吴文忠,易平.MapReduce在分布式搜索引擎中的应用[J].计算机系统应用,2012,21(2):249-251. 被引量：6
9种绍龙,张好贤.一种通用的地质数据管理解决方案[J].矿山测量,2012,40(3):5-7. 被引量：1
10宋杰,郝文宁,陈刚,靳大尉,赵水宁.基于MapReduce的分布式ETL体系结构研究[J].计算机科学,2013,40(6):152-154. 被引量：9

引证文献5

1缪谨励,尚武,魏友华,高志新,许哲.基于混合架构的地学大数据数据管理平台构建与实践[J].国土资源科技管理,2015,32(2):114-119. 被引量：7
2郑瑛.分布式并行编程模型MapReduce及其应用研究[J].西南民族大学学报（自然科学版）,2017,43(2):161-166. 被引量：2
3丁祥武,解书亮,李继云.基于Spark的并行ETL[J].计算机工程与设计,2017,38(9):2580-2585. 被引量：7
4梁奎奎.一种基于Storm平台的ETL方案实现[J].计算机科学,2019,46(S11):208-211. 被引量：2
5卜意磊,庞文迪,陈汝鹏,陈妙苗.市场监管大数据归集系统建设研究[J].电子技术与软件工程,2021(4):178-180. 被引量：1

二级引证文献19

1王照付,何淼,祝怀杰,桑广世.面向管道全生命周期的EPC项目管理平台架构[J].石油工程建设,2018,44(B09):137-141. 被引量：3
2周小希,邓凡,万林,杨君.铀矿大数据综合管理信息平台设计与实现[J].煤田地质与勘探,2019,47(1):6-14. 被引量：15
3杨冬菊,徐晨阳.大数据环境下基于元模型控制的数据质量保障技术研究[J].计算机工程与科学,2019,41(2):197-206. 被引量：10
4赵辉,王振夺.云计算环境中MapReduce并行计算优化探究[J].福建电脑,2019,35(5):53-54.
5Shi-hong Zhang,Ke-yan Xiao,Jian-ping Chen,Jie Xiang,Ning Cui,Xiao-nan Wang.Development and future prospects of quantitative mineral assessment in China[J].China Geology,2019,2(2):198-210. 被引量：1
6杨丹,张晶,赵骥,王刚.“分布式计算与开发模式”综合设计性实验案例[J].实验技术与管理,2019,36(10):197-200. 被引量：5
7黄志,詹利群,任晓炜,李涛.Hadoop环境下基于SparkSQL海量自动站数据查询统计初探[J].气象科技,2019,47(5):768-772. 被引量：12
8梁奎奎.一种基于Storm平台的ETL方案实现[J].计算机科学,2019,46(S11):208-211. 被引量：2
9余战秋,文晶晶.基于Hadoop云计算的在线考试题库管理系统设计与研发[J].鄂州大学学报,2019,26(6):98-100. 被引量：8
10张野,姚文明.基于Spark分布式ETL在海量后勤数据的应用[J].信息技术,2019,43(12):165-168. 被引量：3

1冯著明,姚功元.多点并行查找和排序算法及实现[J].计算机研究与发展,1990,27(6):43-49.
2寇丽华,李石.代理键技术在信息数据集成中的应用[J].黑龙江科技信息,2009(13):39-39.
3陆昌辉,刘青宝,邓苏,张维明.维度汇总性问题及其对策[J].国防科技大学学报,2006,28(4):83-87. 被引量：4
4刘奕.关系数据库设计中主键的定义分析[J].辽宁高职学报,2014,16(6):92-93. 被引量：2
5徐姝,罗军.代理键技术及其在软件复用中的应用[J].微电子学与计算机,2007,24(8):136-138. 被引量：1
6毛泽华,张锦雄,黄纪武,李松涛.并行查找算法的MPI实现[J].广西大学学报（自然科学版）,2005,30(S2):90-91.
7马思硕,汪明,陈连栋,耿海洋.基于GPU的彩虹表弱口令旁路检查工具[J].电气应用,2015,0(S2):591-593. 被引量：1
8张宇,张延松,陈红,王珊.面向MIC协处理器的OLAP外键连接算法[J].软件学报,2017,28(3):490-501. 被引量：2
9李晓东.渐变维度Type2进化三部曲[J].Windows IT Pro Magazine（国际中文版）,2008(11):84-84.
10李晨翔,何刚,孙莉.基于Hadoop平台的分布式ETL系统设计与实现[J].福建电脑,2013,29(11):111-114. 被引量：2

计算机工程

2014年第3期

浏览历史

内容加载中请稍等...

基于Hadoop平台的事实并行处理算法被引量：5

参考文献1

二级参考文献3

共引文献5

同被引文献42

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台的事实并行处理算法 被引量：5

参考文献1

二级参考文献3

共引文献5

同被引文献42

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台的事实并行处理算法被引量：5