期刊文献+

基于元权值学习方法的智能博弈对抗研究 被引量:2

Meta Deep Reinforcement Learning Based on the Gradients of Past Action Trajectory and Its Application in Intelligent Game Confrontation
下载PDF
导出
摘要 针对基于传统强化学习方法的策略模型在解决博弈对抗问题时,存在初始策略模型优化的冷启动问题,提出了基于历史行动轨迹梯度的元深度强化学习方法,通过研究不同历史轨迹梯度的特点和形式,根据指挥员对不同历史轨迹数据的评价,确定网络参数梯度更新方向,在此基础上学习元知识,为初始策略模型提供一种高效的网络初始化方法。实验结果表明,该方法缩短了策略模型训练时长,提升了决策模型性能。
作者 徐志雄 王锋 XU Zhixiong;WANG Feng
机构地区 陆军边海防学院
出处 《军事运筹与评估》 2022年第3期31-36,共6页 Military Operations Research and Assessments
基金 国家自然科学基金资助项目(61806221)。
  • 相关文献

参考文献7

二级参考文献40

共引文献54

同被引文献21

引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部