摘要
Spark分布式计算平台广泛地应用于大数据分析领域,有关Spark性能配置参数优化方法研究成了热点。Spark有100多个配置项以及丰富的配置参数值,配置项构建了庞大的配置空间,因此从这种多因素多水平的配置空间中选择出有效的配置项成为一个难题。针对这一问题,提出一种改进的均匀设计方法。该算法可以通过样本密度分析和模型梯度检测的方式,提高均匀实验设计的精度。最后,利用该方法测试出针对混合资源依赖应用选择出性能影响最大的配置项。
出处
《自动化应用》
2022年第6期74-76,共3页
Automation Application
基金
湖北省教育厅科学技术研究计划指导性项目“基于k近邻回归的Spark性能配置优化方法的研究”(项目编号:B2018103)。