期刊文献+

深度学习优化器进展综述 被引量:1

Review of Development of Deep Learning Optimizer
下载PDF
导出
摘要 优化器是提高深度学习模型性能的关键因素,通过最小化损失函数使得模型的参数和真实参数接近从而提高模型的性能。随着GPT等大语言模型成为自然语言处理领域研究焦点,以梯度下降优化器为核心的传统优化器对大模型的优化效果甚微。因此自适应矩估计类优化器应运而生,其在提高模型泛化能力等方面显著优于传统优化器。以梯度下降、自适应梯度和自适应矩估计三类优化器为主线,分析其原理及优劣。将优化器应用到Transformer架构中,选取法-英翻译任务作为评估基准,通过实验深入探讨优化器在特定任务上的效果差异。实验结果表明,自适应矩估计类优化器在机器翻译任务上有效提高模型的性能。同时,展望优化器的发展方向并给出在具体任务上的应用场景。 Optimization algorithms are the most critical factor in improving the performance of deep learning models,achieved by minimizing the loss function.Large language models(LLMs),such as GPT,have become the research focus in the field of natural language processing,the optimization effect of traditional gradient descent algorithm has been limited.Therefore,adaptive moment estimation algorithms have emerged,which are significantly superior to traditional optimization algorithms in generalization ability.Based on gradient descent,adaptive gradient,and adaptive moment estimation algorithms,and the pros and cons of optimization algorithms are analyzed.This paper applies optimization algorithms to the Transformer architecture and selects the French-English translation task as the evaluation benchmark.Experiments have shown that adaptive moment estimation algorithms can effectively improve the performance of the model in machine translation tasks.Meanwhile,it discusses the development direction and applications of optimization algorithms.
作者 常禧龙 梁琨 李文涛 CHANG Xilong;LIANG Kun;LI Wentao(College of Artificial Intelligence,Tianjin University of Science and Technology,Tianjin 300457,China)
出处 《计算机工程与应用》 CSCD 北大核心 2024年第7期1-12,共12页 Computer Engineering and Applications
基金 国家自然科学基金(62377036,61807024) 天津市教委科研计划项目(2019KJ235) 天津市企业科技特派员项目(22YDTPJC00940)。
关键词 优化器 机器翻译 TRANSFORMER 深度学习 学习率预热算法 optimizer machine translation Transformer deep learning learning rate warm-up algorithm
  • 相关文献

参考文献1

二级参考文献7

共引文献66

同被引文献10

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部