-
题名基于深度强化学习的无人驾驶船舶避碰行为决策方法
- 1
-
-
作者
关巍
罗文哲
崔哲闻
-
机构
大连海事大学航海学院
-
出处
《大连海事大学学报》
CAS
CSCD
北大核心
2024年第1期11-19,共9页
-
基金
国家自然科学基金资助项目(52171342)。
-
文摘
为解决无人驾驶船舶的多船避碰问题,结合船舶领域知识、国际海上避碰规则(COLREGs)及船舶操纵特性,提出一种基于深度确定性策略梯度(DDPG)算法的多船会遇避碰行为决策方法。采用门控循环单元(GRU)构建神经网络模型,并进行层归一化处理,可有效处理高维观测数据,提高了行为决策的效率。本文设计的奖励函数符合国际海上避碰规则,并考虑了尽量使用小舵角进行避让的船舶操纵习惯。多船会遇的仿真实验验证了本文避碰决策方法在灵活性和有效性方面的优势。
-
关键词
多船避碰
行为决策
国际海上避碰规则(COL⁃REGs)
深度强化学习
门控循环单元(GRU)
-
Keywords
multi⁃ship collision avoidance
behavioral deci⁃sion⁃making
international regulations for preventing collisions at sea(COLREGs)
deep reinforcement learning
gated recurrent unit(GRU)
-
分类号
U676.1
[交通运输工程—船舶及航道工程]
-
-
题名基于改进PPO算法的船舶自主避碰决策
- 2
-
-
作者
关巍
崔哲闻
罗文哲
-
机构
大连海事大学航海学院
-
出处
《大连海事大学学报》
CAS
CSCD
北大核心
2023年第4期28-36,共9页
-
基金
国家自然科学基金资助项目(52171342)。
-
文摘
为减少船舶避碰决策过程中人为失误导致的海难事故,提出一种基于改进近端策略优化(PPO)算法的船舶自主避碰决策。在传统PPO算法广义优势估计基础上加入自适应基线调整,并且使用长短期记忆网络(LSTM)改进网络结构。船舶的航行信息和激光雷达矢量线被应用于神经网络输入,航行制导、角度偏差及《1972年避碰规则》均被纳入改进的奖励函数设计。两船和多船会遇场景仿真实验表明:本文提出的避碰决策可使船舶实现自主航行,并在避碰过程中符合《避碰规则》,为处理复杂局面下的船舶避碰决策提供了参考。
-
关键词
船舶自主避碰
改进的近端策略优化算法
长短期记忆网络(LSTM)
-
Keywords
ship autonomous collision avoidance
improved proximal policy optimization(PPO)algorithm
long short-term memory(LSTM)
-
分类号
U675.96
[交通运输工程—船舶及航道工程]
-