-
题名编码技术改进大规模分布式机器学习性能综述
被引量:6
- 1
-
-
作者
王艳
李念爽
王希龄
钟凤艳
-
机构
华东交通大学软件学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2020年第3期542-561,共20页
-
基金
国家自然科学基金项目(61402172)
江西省自然科学基金项目(20192BAB217006)~~
-
文摘
由于分布式计算系统能为大数据分析提供大规模的计算能力,近年来受到了人们的广泛关注.在分布式计算系统中,存在某些计算节点由于各种因素的影响,计算速度会以某种随机的方式变慢,从而使运行在集群上的机器学习算法执行时间增加,这种节点叫作掉队节点(straggler).介绍了基于编码技术解决这些问题和改进大规模机器学习集群性能的研究进展.首先介绍编码技术和大规模机器学习集群的相关背景;其次将相关研究按照应用场景分成了应用于矩阵乘法、梯度计算、数据洗牌和一些其他应用,并分别进行了介绍分析;最后总结讨论了相关编码技术存在的困难并对未来的研究趋势进行了展望.
-
关键词
编码技术
机器学习
分布式计算
掉队节点容忍
性能优化
-
Keywords
coding technology
machine learning
distributed computing
stragglers tolerate
performance improvement
-
分类号
TP399
[自动化与计算机技术—计算机应用技术]
-
-
题名面向大规模矩阵乘法的编码计算性能研究
- 2
-
-
作者
王艳
王希龄
赖宏达
李念爽
-
机构
华东交通大学软件学院
-
出处
《华东交通大学学报》
2021年第3期41-51,共11页
-
基金
国家自然科学基金项目(61402172)
江西省自然科学基金项目(20192BAB217006)。
-
文摘
为了更好地使用编码计算提高分布式机器学习算法运行效率,需要对大规模矩阵乘法的编码计算方案性能开销进行充分的研究。该文考察了面向大规模矩阵乘法的编码计算方案的任务完成时间,同时也考虑了所有参与分布式计算的节点总的计算开销,给出了各个工作节点完成计算任务的时间,均匀分布场景下总的任务完成时间和集群机器总的计算时间的表达式,对比分析了3种编码方案的性能,并通过实验对比了不同情况对任务完成时间与计算节点总计算开销影响,提出了一个启发式算法,提供了不同编码计算方案的选择依据。
-
关键词
编码计算
分布式机器学习
矩阵乘法
掉队节点
性能研究
-
Keywords
coding computing
distributed machine learning
matrix multiplication
lagging nodes
performance research
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-