期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于蒙特卡罗策略梯度的雷达观测器轨迹规划
1
作者 陈辉 王荆宇 +2 位作者 张文旭 赵永红 席磊 《兰州理工大学学报》 CAS 北大核心 2024年第5期77-85,共9页
在目标跟踪过程的雷达观测器轨迹规划(OTP)中,针对马尔可夫步进规划智能决策问题,在离散动作空间上,提出了一种基于蒙特卡罗策略梯度(MCPG)算法的雷达轨迹规划方法.首先,联合目标跟踪状态、奖励机制、动作方案和雷达观测器位置,将OTP过... 在目标跟踪过程的雷达观测器轨迹规划(OTP)中,针对马尔可夫步进规划智能决策问题,在离散动作空间上,提出了一种基于蒙特卡罗策略梯度(MCPG)算法的雷达轨迹规划方法.首先,联合目标跟踪状态、奖励机制、动作方案和雷达观测器位置,将OTP过程建模为一个连续的马尔可夫决策过程(MDP),提出基于MCPG的全局智能规划方法.其次,将跟踪幕长内的每个时间步作为单独一幕来进行策略更新,提出基于MCPG目标跟踪中观测器轨迹的步进智能规划方法,并深入研究目标的跟踪估计特性,构造以跟踪性能优化为目的的奖励函数.最后,对最优非线性目标跟踪过程中基于强化学习的智能OTP决策仿真实验,表明了所提方法的有效性. 展开更多
关键词 目标跟踪 雷达观测器轨迹规划 策略梯度 奖励函数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部