-
题名基于混合采样深度Q网络的水面无人艇逃脱策略
- 1
-
-
作者
杨远鹏
宋利飞
茅嘉琪
李一
陈侯京
-
机构
中国船舶集团有限公司系统工程研究院
武汉理工大学高性能船舶技术教育部重点实验室
中国舰船研究设计中心
-
出处
《中国舰船研究》
CSCD
北大核心
2024年第1期256-263,共8页
-
基金
国家自然科学基金项目资助(51809203)。
-
文摘
[目的]针对敌方船舶采用合围战术,研究我方无人艇(USV)被敌方船舶包围情况下的逃跑策略规划问题。[方法]提出一种混合采样深度Q网络(HS-DQN)强化学习算法,逐步增加重要样本的回放频率,并保留一定的探索性,防止算法陷入局部最优。设计状态空间、动作空间和奖励函数,通过训练获得最优的USV逃跑策略,并从奖励值和逃脱成功率方面与DQN算法进行对比。[结果]仿真结果表明,使用HSDQN算法进行训练,逃脱成功率提高2%,算法的收敛速度提高了20%。[结论]HS-DQN算法可以减少USV无效探索的次数,并加快算法的收敛速度,仿真实验验证了USV逃跑策略的有效性。
-
关键词
无人艇
阿波罗尼奥斯圆
围捕-逃跑
深度强化学习
混合采样
-
Keywords
USV
Apollonius circle
pursuit−evasion
deep reinforcement learning
hybrid sampling
-
分类号
U664.82
[交通运输工程—船舶及航道工程]
TP242.6
[自动化与计算机技术—检测技术与自动化装置]
-