-
题名一种针对坦克速度控制的深度强化学习算法
被引量:1
- 1
-
-
作者
崔新悦
阳周明
赵彦东
杨霄
范玲瑜
-
机构
北方自动控制技术研究所
-
出处
《火力与指挥控制》
CSCD
北大核心
2022年第4期120-125,共6页
-
文摘
坦克的无人化将成为作战装备的未来研究方向之一,针对坦克无人驾驶如何提高智能体训练速度是当前深度强化学习领域的一大瓶颈,提出一种最近经验回放的探索策略来对传统的软行动者-评论家算法(soft actor-critic,SAC)进行改进,在训练阶段,赋予最近经验更大权重值,增大其采样概率,从而提高了训练的稳定性和收敛速度。在此基础上,基于应用环境以及作战任务设计奖励函数,提高算法的战场适用性。构建具体作战场景,对改进的算法与传统算法进行对比,结果表明,提出的算法在坦克速度控制上表现出更好的性能。
-
关键词
深度强化学习
软行动者
-
评论家算法
坦克速度控制
采样策略
-
Keywords
deep reinforcement learning
soft actor-critic
tank speed control
sampling strategy
-
分类号
TJ811
[兵器科学与技术—武器系统与运用工程]
-