-
题名基于Supersonic的并行分组聚集
- 1
-
-
作者
张兵
孙辉
范旭
李翠平
陈红
王雯
-
机构
数据工程与知识工程教育部重点实验室(中国人民大学)
中国人民大学信息学院
-
出处
《计算机应用》
CSCD
北大核心
2016年第1期13-20,共8页
-
文摘
针对在分析型联机分析处理(OLAP)应用中频繁出现的数据密集型操作符——分组聚集耗时较多的问题,提出Cache友好的分组聚集算法对该操作进行性能优化。首先,为充分发挥列存储在数据密集型计算方面的优势,采用基于开源的列存储查询执行引擎Supersonic,并在此之上设计Cache友好的分组聚集算法;其次,为加速查询的执行,使用并行技术,将单线程的分组聚集算法改为多线程并行的分组聚集算法。基于Supersonic设计并实现4种并行分组聚集算法:无共享Hash表并行分组聚集(NSHPGA)算法、表锁共享Hash表并行分组聚集(TLSHPGA)算法、桶锁共享Hash表并行分组聚集(BLSHPGA)算法、节点锁共享Hash表并行分组聚集(NLSHPGA)算法,且在不同的分组势集、不同的线程数的情况下,针对上述4种算法做了多组实验。通过对比3种不同粒度的共享Hash表并行分组聚集算法的加速比,得出NLSHPGA算法在加速比和并发度两方面表现最好,部分查询可达到10倍加速比;通过比较NSHPGA算法和NLSHPGA算法的加速比、Cache miss内存使用等情况,得出NLSHPGA算法在分组势集大于8时,加速比超过NSHPGA算法,并且Cache miss更低,使用的内存更少。
-
关键词
并行分组聚集
SUPERSONIC
节点锁
列存储
cache友好
-
Keywords
parallel group-by aggregation
Supersonic
node-lock
column storage
cache-friendly
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-