-
题名基于Spark的并行ETL
被引量:7
- 1
-
-
作者
丁祥武
解书亮
李继云
-
机构
东华大学计算机科学与技术学院
-
出处
《计算机工程与设计》
北大核心
2017年第9期2580-2585,共6页
-
基金
上海市信息化发展基金项目(XX-XXFZ-05-16-0139)
-
文摘
针对大数据中的"海量"特征,基于Spark研究并行ETL技术的相关内容,提出并设计一种分布式ETL方案,对不同的转换处理分别采用对应的并行方法。针对一般的非聚集处理,如常见的数据清洗、数据格式标准化处理,采用基于分区的并行管道处理算法,使数据处理在分区单元中快速完成,提高数据转换的效率;对于相应的聚集处理,如数据仓库中常见的数值数据的聚合处理,使用分区预聚合方式,最大限度降低数据传输的频次。相关实验结果表明,两种并行处理方法能够有效提高分布式ETL的处理效率和性能,加速大数据量的转换过程。
-
关键词
大数据
数据仓库
抽取、转换、加载
转换处理
分布式
火花大数据平台
-
Keywords
big data
data warehouse
ETL
transformation processing
distributed
Spark
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-