-
题名基于蒙特卡罗策略梯度的雷达观测器轨迹规划
- 1
-
-
作者
陈辉
王荆宇
张文旭
赵永红
席磊
-
机构
兰州理工大学电气工程与信息工程学院
甘肃长风电子科技有限责任公司
甘肃省科学院自动化研究所
-
出处
《兰州理工大学学报》
CAS
北大核心
2024年第5期77-85,共9页
-
基金
国家自然科学基金(62163023,62366031,62363023,61873116)
甘肃省科学院重大专项项目(2023ZDZX-03)
+1 种基金
2023年甘肃省军民融合发展专项资金项目
甘肃省2024年度重点人才项目。
-
文摘
在目标跟踪过程的雷达观测器轨迹规划(OTP)中,针对马尔可夫步进规划智能决策问题,在离散动作空间上,提出了一种基于蒙特卡罗策略梯度(MCPG)算法的雷达轨迹规划方法.首先,联合目标跟踪状态、奖励机制、动作方案和雷达观测器位置,将OTP过程建模为一个连续的马尔可夫决策过程(MDP),提出基于MCPG的全局智能规划方法.其次,将跟踪幕长内的每个时间步作为单独一幕来进行策略更新,提出基于MCPG目标跟踪中观测器轨迹的步进智能规划方法,并深入研究目标的跟踪估计特性,构造以跟踪性能优化为目的的奖励函数.最后,对最优非线性目标跟踪过程中基于强化学习的智能OTP决策仿真实验,表明了所提方法的有效性.
-
关键词
目标跟踪
雷达观测器轨迹规划
策略梯度
奖励函数
-
Keywords
target tracking
radar observer trajectory planning
policy gradient
reward function
-
分类号
TP273
[自动化与计算机技术—检测技术与自动化装置]
-