大数据用户画像开发中的数据倾斜性能调优研究被引量：1

下载PDF

导出

摘要大数据用户画像系统工程化开发过程中经常会遇到一系列数据倾斜问题。数据倾斜会造成系统计算处理性能大幅度降低导致系统响应时间无法达到产品端需求标准。工程化开发和测试中在Spark、Hive、Kafka等组件上进行离线或实时ETL作业时极易出现数据倾斜情况。针对以上问题,提出了通过ETL预处理、过滤key、自定义分区合并小文件、缓存中间数据等调优技术解决方法,并且采用SQL主键优化、随机数分配、自定义分区策略等方法和手段实施实验研究,结果表明这些方法可以显著优化MapReduce作业流程,减少系统任务调度的整体时间,达到产品端响应要求。

作者樊雷 FAN Lei

机构地区连云港师范高等专科学校

出处《信息技术与信息化》 2021年第9期75-77,共3页 Information Technology and Informatization

关键词数据倾斜性能优化用户画像

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1汪鑫,芦立华.MapReduce平台上面向倾斜数据连接的负载平衡方法[J].现代电子技术,2021,44(2):65-68. 被引量：1
2阎逸飞,王智立,邱雪松,王嘉潞.Spark环境下基于数据倾斜模型的Shuffle分区优化方案[J].北京邮电大学学报,2020(2):116-121. 被引量：2

二级参考文献12

1郭会云,房俊,李冬.基于负载均衡的多源流数据实时存储系统[J].计算机工程与科学,2017,39(4):641-647. 被引量：11
2韩虎,王鹏,程琨,李波.基于多尺度量子谐振子算法的云计算任务调度[J].计算机应用,2017,37(7):1888-1892. 被引量：8
3孙文,王刚,付强,王晶晶.临空高超声速飞行器多传感器任务分配算法[J].火力与指挥控制,2017,42(12):81-87. 被引量：8
4杜高明,马世碧,宋平,宋宇鲲,张多利,欧阳一鸣.监测机制的NoC负载均衡路由电路设计[J].电子测量与仪器学报,2018,32(5):82-89. 被引量：4
5于琨,张正本,海本斋.基于多目标全局约束的任务分配和调度算法[J].计算机工程与应用,2018,54(8):55-60. 被引量：5
6肖文,胡娟,周晓峰.基于MapReduce计算模型的并行关联规则挖掘算法研究综述[J].计算机应用研究,2018,35(1):13-23. 被引量：47
7钱叶旺,周天清,杨绿溪.异构蜂窝网络中QoS感知的负载平衡方案设计[J].数据采集与处理,2018,33(4):722-731. 被引量：1
8邰滢滢,庞影,段苛苛,付云鹏.基于改进权重的D-S证据理论的动态负载平衡算法[J].计算机应用,2018,38(10):2976-2981. 被引量：4
9万新军,宾博逸,吕宋,宋可,解树平.基于Zernike多项式拟合的非球面点云数据自动调平[J].光学技术,2019,45(2):170-175. 被引量：5
10李卓,徐哲,陈昕,李淑琴.面向移动群智感知的位置相关在线多任务分配算法[J].计算机科学,2019,46(6):102-106. 被引量：10

共引文献1

1何玉林,吴东彤,Philippe Fournier-Viger,黄哲学.基于优先填补策略的Spark数据均衡分区方法[J].电子学报,2024,52(10):3322-3335.

同被引文献5

1陈天伟,彭凌西.基于ZooKeeper的一种分布式系统架构设计与实现[J].通信技术,2018,51(1):87-91. 被引量：7
2方秋水,陈卫国,何建兵,徐锋.分布式计算技术在交通一卡通清分管理系统中的应用研究[J].计算机应用与软件,2018,35(3):102-105. 被引量：5
3张令涛,赵林,张亮,田国辉,孙湃.配用电大数据分布式计算集群负载均衡框架[J].电网技术,2019,43(1):259-265. 被引量：20
4屠雪真,陈小强.分布式系统高效升级方法研究[J].微型电脑应用,2019,35(6):42-46. 被引量：2
5徐希炜,张卫荣,昌厚峰.电商用户行为大数据平台的构建与优化[J].电脑编程技巧与维护,2022(5):93-95. 被引量：4

引证文献1

1朱文静,沈璐婕,张侃弘.烟草商业大数据中数据倾斜问题的探究[J].信息与电脑,2023,35(17):86-89.

1张博,蒋志颀.中小型网站在高并发下的优化方案[J].微型电脑应用,2021,37(8):181-185. 被引量：1
2邵荣生.优质稻米生产中土肥选择及其调优技术[J].农村科学实验,2020(26):55-56.
3王萌,刘旋律,高峰,顾进广.基于资源紧迫度的实时ETL弹性调度机制[J].计算机应用研究,2021,38(7):2118-2124. 被引量：1
4牛梦梦.基于OBE理念下高校教练员知识结构研究[J].休闲,2021(3):0180-0181.
5张华,韩小波,王成飞.综合电子信息系统软件性能测试监控数据分析[J].电子质量,2021(7):73-76. 被引量：2
6彭宇涛.Flink在广西广电实时用户画像系统中的设计与实践[J].中国有线电视,2021(9):939-942. 被引量：1
7王伟俊,赵凯平,陈强曼,吴晓磊,黄森,骆元庆.煤矿抽水蓄能电站水陆两栖机器人控制系统设计[J].机电工程技术,2021,50(9):104-107. 被引量：1
8郭嘉成,宋妙环,王炳文.基于并行SIMT平台的电网系统造价数据分析研究[J].电子设计工程,2021,29(20):129-133.
9申晓改.大数据背景下高职学生信息系统课程教学改革探讨[J].休闲,2021(24):0163-0163.
10王天笑.移动传播时代的新闻传播改革探析[J].新闻传播,2021(17):37-38. 被引量：1

信息技术与信息化

2021年第9期

浏览历史

内容加载中请稍等...

大数据用户画像开发中的数据倾斜性能调优研究被引量：1

参考文献2

二级参考文献12

共引文献1

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

大数据用户画像开发中的数据倾斜性能调优研究 被引量：1

参考文献2

二级参考文献12

共引文献1

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

大数据用户画像开发中的数据倾斜性能调优研究被引量：1