Spark环境下并行立方体计算方法被引量：5

Parallel cube computing in Spark

下载PDF

导出

摘要针对传统联机分析处理(OLAP)处理大数据时实时响应能力差的问题,研究基于分布式内存计算框架Spark加速的数据立方体计算方法,设计基于Spark内存集群的自底向上构造(BUC)算法——BUCPark,来提高BUC的并行度和大数据适应能力。在此基础上,为避免内存中迭代的立方体单元膨胀,基于内存重复利用和共享的思想设计改进的BUCPark算法——LBUCPark。实验结果表明:LBUCPark算法性能优于BUC算法和BUCPark算法,能够胜任大数据背景下的快速数据立方体计算任务。 In view of the poor real-time response capability of traditional On Line Analytical Processing（ OLAP） when processing big data, how to accelerate computation of data cubes based on Spark was investigated, and a memory-based distributed computing framework was put forward. To improve parallelism degree and performance of Bottom-Up Construction（ BUC）, a novel algorithm for computation of data cubes was designed based on Spark and BUC, referred to as BUCPark（ BUC on Spark）. Moreover, to avoid the expansion of iterative data cube in memory, BUCPark was fruther improved to LBUCPark（ Layered BUC on Spark） which could take full advantage of reused and shared memory mechanism. The experimental results show that LBUCpark outperforms BUC and BUCPark algorithms in terms of computing performace, and it is capable of computing data cube efficiently in big data era.

作者萨初日拉周国亮时磊王刘旺石鑫朱永利

机构地区华北电力大学控制与计算机工程学院

出处《计算机应用》 CSCD 北大核心 2016年第2期348-352,共5页 journal of Computer Applications

基金河北省自然科学基金资助项目(F2014502069)~~

关键词 SPARK 联机分析处理数据立方体自底向上构造 Spark On Line Analytical Processing（OLAP） data cube Bottom-Up Construction（BUC）

分类号 TP393.027 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1GRAY J, LIU D T, NIETO-SANTISTEBAN M, et al. Scientific data management in the coming decade[J]. ACM SIGMOD Record, 2005, 34(4): 34-41.
2崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
3贺瑶,王文庆,薛飞.基于云计算的海量数据挖掘研究[J].计算机技术与发展,2013,23(2):69-72. 被引量：97
4余永红,向晓军,高阳,商琳,杨育彬.面向服务的云数据挖掘引擎的研究[J].计算机科学与探索,2012,6(1):46-57. 被引量：21
5HAN J, KAMBER M, PEI J. Data mining: concepts and techniques[M]. 3rd edition. San Francisco, CA: Morgan Kaufmann, 2011: 89-98.
6陆戌辰,王梅,乐嘉锦.列存储中的OLAP多查询优化方法[J].计算机科学与探索,2012,6(9):852-864. 被引量：2
7周国亮,王桂兰,朱永利.多核处理器上的并行联机分析处理算法研究[J].计算机科学与探索,2013,7(2):180-190. 被引量：1
8奚建清,游进国,汤德佑,肖伟吉.基于MapReduce的封闭立方体并行计算方法[J].华南理工大学学报（自然科学版）,2009,37(1):91-95. 被引量：8
9宋杰,郭朝鹏,王智,张一川,于戈,Jean-Marc PIERSON.大数据分析的分布式MOLAP技术[J].软件学报,2014,25(4):731-752. 被引量：34
10李成华,张新访,金海,向文.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33(3):129-135. 被引量：111

二级参考文献83

1周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛（下半月）,2009(2):65-66. 被引量：14
2李盛恩,王珊.封闭数据立方体技术研究[J].软件学报,2004,15(8):1165-1171. 被引量：25
3Ian Foster.Globus Toolkit Version 4： Software for Service-Oriented Systems[J].Journal of Computer Science & Technology,2006,21(4):513-520. 被引量：44
4Gray J, Chaudhuri S, Bosworth A, et al. Data cube : a relational aggregation operator generalizing group-by, crosstab, and sub-totals [ J]. Data Mining and Knowledge Discovery, 1997,1 ( 1 ) :29-53.
5Lakshmanan L V S, Pei J, Han J W. Quotient cubes:how to summarize the semantics of a data cube [ C ]//Proceedings of the 28th International Conference .on Very Large Data Bases. Hong Kong: [ s. n. ] ,2002:778-789.
6Lakshmanan L V S, Pei J, Zhao Y. QC-trees:an efficient summary structure for semantic OLAP [ C ]//Proceedings of ACM SIGMOD International Conference on Management of Data. San Diego:ACM,2003:64-75.
7Beyer K, Ramakrishnan R. Bottom-up computation of sparse and iceberg CUBEs [C] //Proceedings of ACM SIGMOD International Conference on Management of Data. New York:ACM, 1999:359-370.
8Xin D,Shao Z,Han J W,et al. C-Cubing:efficient computation of closed cubes by aggregation-based checking [ C ]// Proceedings of the 22nd International Conference on Data Engineering. Atlanta : IEEE, 2006:4 -4.
9Chen Y, Dehne F, Eavis T. Parallel ROLAP data cube construction on shared-nothing muhiprocessors [ J ]. Distributed and Parallel Databases ,2004,15 ( 3 ) :219-236.
10Sarawagi S, Agrawal R, Gupta A. On computing the data cube [R]. San Jose: IBM Almaden Research Center, 1996.

共引文献402

1陈豫,曾铮,王三梅.科技信息工作中大数据技术的应用和发展[J].情报学进展,2014(1):81-122. 被引量：2
2陈宁,陈孝文,冯世杰,吕志鹏,陈习,张娜,王岩.基于Hadoop的电力客户用电地址存储与结构化管理系统设计[J].微型电脑应用,2020,36(2):97-101. 被引量：4
3曾新洲.基于大数据的施药平台农药喷洒定量分析研究[J].农机化研究,2020,42(9):243-247. 被引量：3
4李威耀,范国梅,马俊才.基于微生物分类的信息推荐模型[J].计算机应用研究,2020,37(S01):211-212.
5左学刚,邹滨,胡晨霞,李沈鑫,贺晨骋.自然资源大数据助力的城市可持续发展评估[J].测绘科学,2023,48(1):189-200. 被引量：3
6孙骎童.关于集群虚拟机资源调度专利申请分析[J].军民两用技术与产品,2018,0(16):198-198.
7李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
8牟雁超,李红燕,王腾蛟.PHCC:一种处理稀疏变化的封闭数据立方体算法[J].计算机研究与发展,2013,50(S2):85-93. 被引量：2
9常青,严小文,陶晓峰,付峰.基于大数据技术的智能电表运行状态分析系统研究[J].自动化与仪器仪表,2015(12):4-6. 被引量：19
10李远方,邓世昆,闻玉彪,韩月阳.Hadoop-MapReduce下的PageRank矩阵分块算法[J].计算机技术与发展,2011,21(8):6-9. 被引量：13

同被引文献36

1夏芳,陈虹,曹立强,沈卫超.利用位图索引加速大规模科学数据按需访问[J].计算机研究与发展,2011,48(S1):94-99. 被引量：4
2周国亮,宋亚奇,王桂兰,朱永利.状态监测大数据存储及聚类划分研究[J].电工技术学报,2013,28(S2):337-344. 被引量：41
3金龙,吴建生,林开平,陈冰廉.基于遗传算法的神经网络短期气候预测模型[J].高原气象,2005,24(6):981-987. 被引量：40
4栾华,杜小勇,王珊.缓存敏感的封闭冰山立方体计算[J].软件学报,2010,21(4):620-631. 被引量：4
5张乐坚,程明虎,田付友.人工神经网络及支持向量机在降雨量预报中的应用[J].高原气象,2010,29(4):982-991. 被引量：10
6徐舒,李涵,甘犁.市场竞争与中国民航机票定价[J].经济学（季刊）,2011,10(1):635-652. 被引量：9
7侯东风,张维明,刘青宝,邓苏.基于兴趣视图子集的流立方体计算方法[J].计算机研究与发展,2011,48(12):2369-2378. 被引量：2
8宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013,37(4):927-935. 被引量：538
9陈梦杰,陈勇旭,贾益斌,张一川,宋杰.基于Hadoop的大数据查询系统简述[J].计算机与数字工程,2013,41(12):1939-1942. 被引量：5
10阮羚,谢齐家,高胜友,聂德鑫,卢文华,张海龙.人工神经网络和信息融合技术在变压器状态评估中的应用[J].高电压技术,2014,40(3):822-828. 被引量：142

引证文献5

1刘成,牛锐,范贺明,许静,朱永利.基于Spark环境变压器故障并行诊断[J].电力科学与工程,2016,32(6):32-37. 被引量：11
2徐涛,钱帅,卢敏,左海超.一种改进的冰山立方体计算方法及其在机票结算数据中的应用[J].计算机应用研究,2018,35(6):1764-1767.
3廖湖声,黄珊珊,徐俊刚,刘仁峰.Spark性能优化技术研究综述[J].计算机科学,2018,45(7):7-15. 被引量：21
4侯敬儒,吴晟,李英娜.基于Spark的并行KMeans聚类模型研究[J].计算机与数字工程,2018,46(3):537-540. 被引量：8
5勾志竟,宫志宏,徐梅,刘布春.基于Spark的Canopy-FCM在气象中的应用[J].计算机技术与发展,2020,30(8):169-173. 被引量：1

二级引证文献41

1夏正龙,姚蓉,朱亮,钟艳雯.基于Spark的探空逆温识别算法实现[J].湖北农业科学,2021,60(S01):335-339. 被引量：1
2袁宝超,刘道伟,刘丽平,王泽忠.基于Spark的大电网广域时空序列分析平台构建[J].电力建设,2016,37(11):48-54. 被引量：4
3王伟,蒋菱,王峥,宋杰,田娜,蒋玮.基于向量评估遗传算法的智能电网大数据交易模型研究[J].电网与清洁能源,2016,32(10):1-8. 被引量：9
4王浩亮.基于移动学习的海量光纤断点故障数据的识别方法[J].激光杂志,2017,38(7):163-166. 被引量：3
5李刚,于长海,刘云鹏,范辉,文福拴,宋雨.电力变压器故障预测与健康管理:挑战与展望[J].电力系统自动化,2017,41(23):156-167. 被引量：77
6杨志淳,沈煜,杨帆,蔡伟,梁来明.考虑多元因素态势演变的配电变压器迁移学习故障诊断模型[J].电工技术学报,2019,34(7):1505-1515. 被引量：29
7何玉林,黄哲学.大规模数据集聚类算法的研究进展[J].深圳大学学报（理工版）,2019,36(1):4-17. 被引量：9
8张振,冯永亮,赵津曼.一种基于Spark的图像聚类并行化算法[J].电子制作,2019,27(3):67-68. 被引量：3
9王兴达,刘雪峰.Spark平台在单光子成像测量矩阵生成与评估中的应用[J].计算机应用与软件,2019,36(8):55-59.
10张国斌,张叔禹,刘永江,郭瑞君.基于大数据与人工智能技术的电力在线技术监督平台建设方案[J].热力发电,2019,48(9):94-100. 被引量：37

1彭志鹏,蒋外文.基于ROLAP层次维计算技术的研究[J].现代计算机,2008,14(3):23-25.
2四位一体尽在掌握——融合了计算、存储、网络、管理的UCP统一计算平台[J].中国金融电脑,2014(4):85-86.
3冯玉才,向隆刚.维上带层次数据立方的自底向上计算[J].小型微型计算机系统,2004,25(8):1477-1481. 被引量：2
4吴永英,袁芳,向隆刚.不完整数据立方的自底向上计算[J].计算机工程,2002,28(12):108-110.
5吕晓华,翁伟,贾宇波,段江娇.高效快速计算FreeCube的SPT算法[J].计算机工程与设计,2006,27(14):2597-2600. 被引量：1
6Juan J.CUADRADO-GALLEGO,Alain ABRAN,Pablo RODRíGUEZ-SORIA,Miguel A.LARA.An experimental study on the conversion between IFPUG and UCP functional size measurement units[J].Journal of Zhejiang University-Science C(Computers and Electronics),2014,15(3):161-173.
7赵文杰,刘俊萍,南振岐.改进的用例点估算方法[J].电脑知识与技术,2010(12):9917-9919. 被引量：1
8助力企业实现IT收益最大化[J].网络运维与管理,2013(16):9-9.
9王斌,丁祥武.一种基于BUC的水平加权关联规则挖掘算法[J].计算机应用与软件,2008,25(12):112-115. 被引量：2
10刘俊萍,李静静.基于用例点进行软件估算[J].电脑知识与技术,2011,7(9X):6658-6660.

计算机应用

2016年第2期

浏览历史

内容加载中请稍等...

Spark环境下并行立方体计算方法被引量：5

参考文献13

二级参考文献83

共引文献402

同被引文献36

引证文献5

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

Spark环境下并行立方体计算方法 被引量：5

参考文献13

二级参考文献83

共引文献402

同被引文献36

引证文献5

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

Spark环境下并行立方体计算方法被引量：5