一个基于三元组存储的列式OLAP查询执行引擎被引量：4

Column-Oriented Query Execution Engine for OLAP Based on Triplet

下载PDF

导出

摘要大数据与传统的数据仓库技术相结合产生了大数据实时分析处理需要(volume+velocity),它要求大数据背景下的数据仓库不能过多地依赖物化、索引等高存储代价的优化技术,而要提高实时处理能力来应对大数据分析中数据量大、查询分析复杂等特点.这些查询分析操作一般表现为在事实表和维表之间连接操作的基础上对结果集上进行分组聚集等操作.因此,表连接和分组聚集操作是ROLAP(relational OLAP)性能的两个重要决定因素.研究了新硬件平台下针对大规模数据的OLAP查询的性能,设计新的列存储OLAP查询执行引擎CDDTA-MMDB(columnar direct dimensional tuple access-main memory databasequeryexecutionengine,直接维表元组访问的内存数据库查询执行引擎).基于三元组的物化策略,使得CDDTA-MMDB能够减少内存列存储模型上表连接操作访问基表和中间数据结构的次数.首先,CDDTA-MMDB将查询分解为作用在维表和事实表上的子查询,如果只涉及过滤操作,子查询将生成<代理键,布尔值>二元组;否则,子查询生成<代理键,关键字,值>三元组.然后,只需一趟扫描事实表,利用事实表的外键映射函数直接定位相应三元组或者二元组,完成相应的过滤、连接或聚集操作.CDDTA-MMDB充分考虑了内存列存储数据库的设计原则,尽量减少随机内存访问.实验结果表明:CDDTA-MMDB是高效的,与具代表性的列存储数据库相比,比MonetDB 5.5快2.5倍,比C-store的invisible join快5倍;并且,CDDTA-MMDB在多核处理器上具有线性加速比. Integrating big data and traditional data warehouse （DW） techniques bring demand for real-time big data analysis. The new demand means DW can not depend too much on the optimization such as materialization and indexing which consume large space, but instead needs to enhance ability of real-time analysis to handle big data analysis which usually issues complex queries on huge data volumes. Those queries usually consist in applying group or aggregation operator on the join result between fact table and dimension table（s）. The join and group operation often are the bottle-necks for performance improvement. This paper studies the OLAP performance under the new hardware platform and big data environment, and develops a new OLAP query execution engine in columnar storage, called CDDTA-MMDB （columnar direct dimensional tuple access for main memory database query execution engine）. The optimized materialization makes CDDTA-MMDB reduce access to base table and intermediate data structure during join procedure. CDDTA- MMDB decomposes the query into sub-queries on the fact table and dimension table respectively. If the sub-query on dimension table only serves as filter, it will produce the binary tuple （surrogate,Boolean_value）; otherwise, it will produce the triplet in the form of （surrogate,key,value）. Thus, by just scanning the fact table one-pass and utilizing the mapping function of foreign keys in fact table to directly access the binary tuples or triplets, the executor can accomplish the join, filter and group operations. Consideration is fully placed on the design principle for the main-memory columnar database. Experimental results show that the system is efficient and can be 2.5 times faster than MonetDB 5.5 and 5 times faster than invisible join used by C-store. Moreover, it scales linearly on multi-core processors.

作者朱阅岸张延松周烜王珊

机构地区数据工程与知识工程教育部重点实验室(中国人民大学) 中国人民大学信息学院中国人民大学中国调查与数据中心

出处《软件学报》 EI CSCD 北大核心 2014年第4期753-767,共15页 Journal of Software

基金国家科技重大专项(核高基)(2010ZX01042-001-002) 国家自然科学基金(61272138 61232007) 中国人民大学研究生科学研究基金(13XNH216)

关键词大数据分析联机分析处理内存列存储数据库表连接算法物化策略 big data analysis OLAP main-memory columnar database join algorithm materialization

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1张延松,焦敏,王占伟,王珊,周烜.海量数据分析的One-size-fits-all OLAP技术[J].计算机学报,2011,34(10):1936-1946. 被引量：31
2王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752. 被引量：616

二级参考文献55

1[OL].<http://hadoop.apache.org.>.
2WinterCorp: 2005 TopTen Program Summary. http:// www. wintercorp, com/WhitePapers/WC TopTenWP. pdf.
3TDWI Checklist Report: Big Data Analytics. http://tdwi. org/research/2010/08/Big-Data-Analytics, aspx.
4Chaudhuri S, Dayal U. An overview of data warehousing and OLAP technology. SIGMOD Rec, 1997,26(1): 65-74.
5Madden S, DeWitt D J, Stonebraker M. Database parallelism choices greatly impact scalability. DatabaseColumn Blog. http://www, databasecolumn, com/2007/10/database-parallelism-choices, html.
6Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters//Proceedings of the 6th Symposium on Operating System Design and Implementation (OSDI ' 04). San Francisco, California, USA, 2004: 137-150.
7DeWitt D J, Gerber R H, Graefe G, Heytens M L, Kumar K B, Muralikrishna M. GAMMA--A high performance dataflow database machine//Proceedings of the 12th International Conference on Very Large Data Bases (VLDB' 86). Kyoto, Japan, 1986:228-237.
8Fushimi S, Kitsuregawa M, Tanaka H. An overview of the system software of a parallel relational database machine// Proceedings of the 12th International Conference on Very Large DataBases(VLDB'86). Kyoto, Japan, 1986:209-219.
9Brewer E A. Towards robust distributed systems//Proceedings of the 19th Annual ACM Symposium on Principles of Distributed Computing (PODC' 00). Portland, Oregon, USA, 2000:7.
10http: //www. dbms2, com/2008/08/26/known-applications of mapreduce/.

共引文献635

1张刘玲.会展行业发展现状及未来发展趋势[J].质量与市场,2023(12):31-33. 被引量：2
2李明建.试论大数据技术的图书馆特色馆藏文化建设[J].作家天地,2020(21):189-190.
3陈然.大数据时代下企业精准营销发展难题及破解[J].中国经贸导刊,2019,0(5Z):95-96. 被引量：4
4梅傲.数据治理的逻辑基础和实现路径[J].经济法论丛,2023(2):309-325. 被引量：1
5张文华.大数据对体育教育的冲击[J].贵阳学院学报（自然科学版）,2014,9(2):47-51. 被引量：19
6李满意.大数据安全[J].保密科学技术,2012(9):71-72. 被引量：19
7陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：344
8陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18
9王习特,申德荣,聂铁铮,寇月,于戈.共享的MapReduce环境下批量作业的调度算法研究[J].计算机研究与发展,2013,50(S1):332-341. 被引量：2
10董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70

同被引文献31

1陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18
2刘大为,栾华,王珊,覃飙.内存数据库在TPC-H负载下的处理器性能[J].软件学报,2008,19(10):2573-2584. 被引量：10
3徐俊刚,裴莹.数据ETL研究综述[J].计算机科学,2011,38(4):15-20. 被引量：106
4黄晓森,彭利宁,陈启买.基于数据立方体的动态推理控制方法[J].计算机工程,2011,37(17):32-34. 被引量：6
5何小明,张自力,肖灿,夏大飞.基于OLAP与数据挖掘的高考招生数据分析[J].计算机科学,2012,39(6):175-178. 被引量：14
6陈佳,李敏.用于多维数据实视图选择的分布估计算法[J].计算机工程,2012,38(11):45-47. 被引量：4
7王爽,王国仁.面向不确定感知数据的频繁项查询算法[J].计算机学报,2013,36(3):571-581. 被引量：8
8王梅,陆戌辰,乐嘉锦.列存储系统面向列的连接顺序优化研究[J].计算机研究与发展,2013,50(7):1473-1483. 被引量：1
9李海磊,王晗,孔令富,高慧星.一种基于数据两方垂直分布的多维关联规则挖掘算法[J].计算机应用与软件,2014,31(1):18-21. 被引量：4
10焦敏,张延松,王珊,陈红.内存OLAP多核并行查询优化技术研究[J].计算机学报,2014,37(9):1895-1910. 被引量：3

引证文献4

1毛莺池,闵伟,接青,朱沥沥.基于动态镜像的实时数据仓库存取预处理技术研究[J].计算机科学,2015,42(12):130-135. 被引量：6
2侯伟超,刘英博,黄向东.大数据环境下并行数据流预测及优化方法[J].信息技术,2017,41(5):110-116. 被引量：1
3张宇,郭文忠,林森,文朝武,龙洁花.基于Neo4j的草莓种植管理知识图谱构建及验证[J].现代农业科技,2022(1):223-230. 被引量：6
4沈斯杰,陈榕,陈海波,臧斌宇.基于图结构索引的分布式OLAP加速方法[J].软件学报,2023,34(10):4661-4680.

二级引证文献13

1苏礼.大数据分析法在高校业绩评价中的应用[J].网络安全技术与应用,2020(3):66-68. 被引量：1
2孙兴华.基于云平台的高校学生管理预警和疏导系统设计[J].现代电子技术,2018,41(3):175-181. 被引量：2
3王军燕.基于数据仓库的后勤保障体系信息化管理研究[J].广播电视信息,2019,0(5):105-108. 被引量：2
4王晓鹏.区间值属性数据集关联规则挖掘算法仿真[J].计算机仿真,2020,37(1):234-238. 被引量：4
5潘琦,马志强,戴磊.数字化的后勤保障系统设计[J].中国电子科学研究院学报,2021,16(1):62-67. 被引量：3
6周毓奇,曹蕊.基于知识图谱的食品问题溯源系统[J].信息与电脑,2022,34(6):171-174. 被引量：1
7张小霞,冯梅,周珩.面向滑坡灾害事件语义检索的知识图谱构建[J].成都航空职业技术学院学报,2022,38(2):47-50.
8王军燕.广电安全播出保障智慧后勤建设研究[J].广播电视网络,2022,29(7):26-29.
9耿闻轩,赵俊晔,阮继伟,侯跃辉.人工智能辅助种植策略对温室草莓生产调控效果对比研究[J].智慧农业（中英文）,2022,4(2):183-193. 被引量：2
10张宇,于合龙,郭文忠,林森,文朝武,龙洁花.基于知识图谱的番茄种植管理可视化查询[J].农机化研究,2024,46(3):8-13.

1励晓健,林友芳,黄厚宽.数据仓库的视图动态物化调整策略[J].铁道学报,2001,23(4):59-62. 被引量：1
2郝晓燕,常晓明.特征选择及其在文本自动分类中的应用[J].电脑开发与应用,2006,19(12):17-18. 被引量：1
3郝晓燕,常晓明.中文文本分类研究[J].太原理工大学学报,2006,37(6):710-713. 被引量：6
4朱俊.计算机实践教学研究[J].商业文化（学术版）,2007(10):85-85.
5朱俊.计算机实践教学研究[J].商业文化（学术版）,2007(11):87-87. 被引量：2
6李海芳,谭智峰.基于物化策略的异构数据集成的动态查询调度[J].太原理工大学学报,2008,39(2):132-136. 被引量：1
7疏泽民.模拟症状查找电路故障[J].南方农机,2009,40(3):40-40.
8华镕.MES在各行业中的需求与解决方案(一)[J].自动化博览,2015,32(1):52-54.
9汪渭春.基于MPI的并行模拟退火遗传算法[J].福建电脑,2006,22(12):122-123.
10王凌云.基于多维数据库的MOLAP的聚集计算研究[J].中国西部科技,2006,5(28):33-34. 被引量：4

软件学报

2014年第4期

浏览历史

内容加载中请稍等...

一个基于三元组存储的列式OLAP查询执行引擎被引量：4

参考文献2

二级参考文献55

共引文献635

同被引文献31

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一个基于三元组存储的列式OLAP查询执行引擎 被引量：4

参考文献2

二级参考文献55

共引文献635

同被引文献31

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一个基于三元组存储的列式OLAP查询执行引擎被引量：4