摘要
针对指挥训练系统所面临的科目越来越复杂,所需要协调的人员越来越庞大,而且对场景的逼真程度要求越来越高,需要多方各级指挥员的参与才能进行训练的问题,提出了一种基于逆向强化学习的方法。首先,通过机器学习得到基于专家数据的潜在回报函数;其次,将回报函数作为轨迹生成训练的奖励函数,利用DDPG网络进行强化学习,训练最优轨迹生成网络模型,使其能够综合众多专家的策略部署能力;最后,对提出的方法在SC2LE平台进行验证,通过对比不同回报函数的训练收敛效果与实际生成策略得分能力来证明了算法的有效性。
作者
刘佳楠
于洋
赵亚威
LIU Jianan;YU Yang;ZHAO Yawei
出处
《信息技术与信息化》
2023年第6期114-117,共4页
Information Technology and Informatization