摘要
大数据用户画像系统工程化开发过程中经常会遇到一系列数据倾斜问题。数据倾斜会造成系统计算处理性能大幅度降低导致系统响应时间无法达到产品端需求标准。工程化开发和测试中在Spark、Hive、Kafka等组件上进行离线或实时ETL作业时极易出现数据倾斜情况。针对以上问题,提出了通过ETL预处理、过滤key、自定义分区合并小文件、缓存中间数据等调优技术解决方法,并且采用SQL主键优化、随机数分配、自定义分区策略等方法和手段实施实验研究,结果表明这些方法可以显著优化MapReduce作业流程,减少系统任务调度的整体时间,达到产品端响应要求。
出处
《信息技术与信息化》
2021年第9期75-77,共3页
Information Technology and Informatization