期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于信任域策略优化的末制导控制量学习算法
1
作者 刘士荣 王天一 刘扬 《导航定位与授时》 CSCD 2022年第6期77-84,共8页
近年来,深度强化学习在解决序列决策问题上取得了很大进展,无模型强化学习算法在与环境不断交互的过程中学习策略,不需要提前对环境建模,使其适用于许多问题。针对以往使用强化学习进行末制导策略学习的训练不稳定问题,使用信任域策略... 近年来,深度强化学习在解决序列决策问题上取得了很大进展,无模型强化学习算法在与环境不断交互的过程中学习策略,不需要提前对环境建模,使其适用于许多问题。针对以往使用强化学习进行末制导策略学习的训练不稳定问题,使用信任域策略优化算法直接学习末制导控制量,同时设计了一种新颖的奖励函数,可以提高训练稳定性和算法性能。在二维环境下进行了实验,结果表明,该算法具有良好的训练稳定性,并可以达到很好的命中效果。 展开更多
关键词 末制导控制量 学习算法 深度强化学习 制导 信任域策略优化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部