基于强化学习的多目标点航关联方法

Multi-target Point-Track Association Method Based on Reinforcement Learning

下载PDF

导出

摘要针对密集杂波环境下的多目标点迹-航迹关联问题,以强化学习(Reinforcement Learning,RL)方法为基础,提出了一种基于Q学习的多目标点迹-航迹关联方法。首先,根据整个过程中目标的运动状态,建立马尔可夫决策过程(Markov Decision Process,MDP)模型。其次,利用各状态间的相关程度构成策略函数,选择准确的动作,并设定相应的奖励函数。最后,考虑杂波密集时虚假量测难以分辨,结合目标先验信息,增加了Q表再学习环节,进一步优化关联精度。仿真结果表明,在非机动和强机动两种环境下,该方法都能准确地关联到目标的量测,具有较好的点迹-航迹关联性能。 Aiming at the problem of multi-target point-track association in dense clutter environment,based on the reinforcement learning(RL)method,a multi-target point-track association method based on Q-learning is proposed.First,according to the movement state of the target in the whole process,a Markov decision process(MDP)model is established.Secondly,the paper uses the degree of correlation between the states to form a strategy function,selects the correct action,and sets the corresponding reward function.Finally,considering that false measurements are difficult to distinguish when the clutter is dense,combined with the prior information of the target,the Q-meter re-learning link is added to further optimize the correlation accuracy.The simulation results show that in both non-maneuvering and strong maneuvering environments,the method in this paper can accurately correlate to the measurement of the target,and has a better point-track-track correlation performance.

作者丁国胜蔡民杰 DING Guo-sheng;CAI Min-jie(Nanjing Research Institute of Electronics Technology,Nanjing 210039,China)

机构地区南京电子技术研究所

出处《指挥控制与仿真》 2022年第2期43-48,共6页 Command Control & Simulation

关键词多目标点迹-航迹关联强化学习 MDP模型策略函数 Q表再学习 Multi-target point-track association reinforcement learning MDP model strategy function Q table relearning

分类号 E917 [军事]

引文网络
相关文献

参考文献1

1孙启臣,郭伟震,闫倩倩,周莉.一种基于灰关联分析的多目标跟踪算法[J].鲁东大学学报（自然科学版）,2017,33(1):20-25. 被引量：4

二级参考文献9

1周莉,何友,张维华.Study on data association algorithm of multi-passive-sensor location system[J].Journal of Systems Engineering and Electronics,2005,16(3):489-493. 被引量：3
2王杰贵,罗景青,靳学明.无源跟踪中基于灰关联信息融合的概率数据关联算法[J].电子学报,2006,34(3):391-395. 被引量：16
3周荣喜,刘善存,邱菀华.熵在决策分析中的应用综述[J].控制与决策,2008,23(4):361-366. 被引量：35
4肖建于,童敏明,朱昌杰,范祺.基于pignistic概率距离的改进证据组合规则[J].上海交通大学学报,2012,46(4):636-641. 被引量：23
5李楠,王春雷,胡锦涛,解传军,刘宝华.变权灰关联分布式传感器信息融合的辐射源识别[J].中国电子科学研究院学报,2013,8(3):250-254. 被引量：7
6黄建招,谢建,李良,刘利明.基于冲突系数和pignistic概率距离的改进证据组合方法[J].传感器与微系统,2013,32(9):21-24. 被引量：10
7李庆胜,刘思峰.基于灰色关联的灰色犹豫模糊VIKOR方法[J].数学的实践与认识,2015,45(18):119-126. 被引量：6
8孙永军,李刚,程春田,蔡华祥,涂启玉.结合加权马尔可夫链与GM(1,1)模型的两阶段小水电群发电能力预测方法[J].中国科学：技术科学,2015,45(12):1279-1288. 被引量：6
9王杰贵,罗景青.基于多目标多特征信息融合数据关联的无源跟踪方法[J].电子学报,2004,32(6):1013-1016. 被引量：34

共引文献3

1周彬,王庆,权恒恒.基于多源信息融合的声呐目标非威胁度评估方法[J].水下无人系统学报,2018,26(5):439-443. 被引量：1
2杜明洋,毕大平,王树亮,潘继飞.多特征信息融合的中心群跟踪算法[J].弹箭与制导学报,2018,38(6):37-42. 被引量：1
3朱嘉颖,王雪博,李俊山,袁鹏程,张韬杰.基于犹豫模糊集的特征辅助数据关联算法[J].制导与引信,2020,41(2):33-42.

1无.将学习成效转化为工作动力为妇女群众办实事办好事[J].中国妇运,2022(3):26-27.
2程浩宇.基于DDPG的MEC视频任务卸载算法[J].软件工程与应用,2022,11(1):91-100.
3李大超,王祎璠.基于模糊综合评价的关联性能分析[J].航空电子技术,2021,52(4):14-19. 被引量：1
4樊园杰,张磊,吴利刚,周倩,张梁.基于强化学习的写字楼动态电力价格策略[J].科学技术与工程,2022,22(8):3202-3208. 被引量：2
5李永刚,王月,吴滨源.基于双重Q学习的动态风速预测模型[J].电工技术学报,2022,37(7):1810-1819. 被引量：2
6杨伟康,许小东.一种基于NOMA的Q学习卫星通信随机接入方法[J].遥测遥控,2022,43(2):25-35.
7郭小萍,尹瑞琛,李元.基于MDP-SVM的过程多类型故障诊断[J].电子测量技术,2022,45(1):159-164. 被引量：4
8石永亮,黄萍,陆志天,崔阳.新车型涂装过程密封性保证[J].现代涂料与涂装,2022,25(3):66-68. 被引量：3
9Dong SUI,Weiping XU,Kai ZHANG.Study on the resolution of multi-aircraft flight conflicts based on an IDQN[J].Chinese Journal of Aeronautics,2022,35(2):195-213. 被引量：8
10刘智.数控车铣切削机床金属主轴部件设计研究[J].中国金属通报,2021(23):146-148.

指挥控制与仿真

2022年第2期

浏览历史

内容加载中请稍等...

基于强化学习的多目标点航关联方法

参考文献1

二级参考文献9

共引文献3

相关作者

相关机构

相关主题

浏览历史