期刊文献+

大数据用户画像开发中的数据倾斜性能调优研究 被引量:1

下载PDF
导出
摘要 大数据用户画像系统工程化开发过程中经常会遇到一系列数据倾斜问题。数据倾斜会造成系统计算处理性能大幅度降低导致系统响应时间无法达到产品端需求标准。工程化开发和测试中在Spark、Hive、Kafka等组件上进行离线或实时ETL作业时极易出现数据倾斜情况。针对以上问题,提出了通过ETL预处理、过滤key、自定义分区合并小文件、缓存中间数据等调优技术解决方法,并且采用SQL主键优化、随机数分配、自定义分区策略等方法和手段实施实验研究,结果表明这些方法可以显著优化MapReduce作业流程,减少系统任务调度的整体时间,达到产品端响应要求。
作者 樊雷 FAN Lei
出处 《信息技术与信息化》 2021年第9期75-77,共3页 Information Technology and Informatization
  • 相关文献

参考文献2

二级参考文献12

共引文献1

同被引文献5

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部