摘要
针对基于传统强化学习方法的策略模型在解决博弈对抗问题时,存在初始策略模型优化的冷启动问题,提出了基于历史行动轨迹梯度的元深度强化学习方法,通过研究不同历史轨迹梯度的特点和形式,根据指挥员对不同历史轨迹数据的评价,确定网络参数梯度更新方向,在此基础上学习元知识,为初始策略模型提供一种高效的网络初始化方法。实验结果表明,该方法缩短了策略模型训练时长,提升了决策模型性能。
作者
徐志雄
王锋
XU Zhixiong;WANG Feng
出处
《军事运筹与评估》
2022年第3期31-36,共6页
Military Operations Research and Assessments
基金
国家自然科学基金资助项目(61806221)。