期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于深度强化学习的无人驾驶船舶避碰行为决策方法
1
作者 关巍 罗文哲 崔哲闻 《大连海事大学学报》 CAS CSCD 北大核心 2024年第1期11-19,共9页
为解决无人驾驶船舶的多船避碰问题,结合船舶领域知识、国际海上避碰规则(COLREGs)及船舶操纵特性,提出一种基于深度确定性策略梯度(DDPG)算法的多船会遇避碰行为决策方法。采用门控循环单元(GRU)构建神经网络模型,并进行层归一化处理,... 为解决无人驾驶船舶的多船避碰问题,结合船舶领域知识、国际海上避碰规则(COLREGs)及船舶操纵特性,提出一种基于深度确定性策略梯度(DDPG)算法的多船会遇避碰行为决策方法。采用门控循环单元(GRU)构建神经网络模型,并进行层归一化处理,可有效处理高维观测数据,提高了行为决策的效率。本文设计的奖励函数符合国际海上避碰规则,并考虑了尽量使用小舵角进行避让的船舶操纵习惯。多船会遇的仿真实验验证了本文避碰决策方法在灵活性和有效性方面的优势。 展开更多
关键词 多船避碰 行为决策 国际海上避碰规则(COL⁃REGs) 深度强化学习 门控循环单元(GRU)
原文传递
基于改进PPO算法的船舶自主避碰决策
2
作者 关巍 崔哲闻 罗文哲 《大连海事大学学报》 CAS CSCD 北大核心 2023年第4期28-36,共9页
为减少船舶避碰决策过程中人为失误导致的海难事故,提出一种基于改进近端策略优化(PPO)算法的船舶自主避碰决策。在传统PPO算法广义优势估计基础上加入自适应基线调整,并且使用长短期记忆网络(LSTM)改进网络结构。船舶的航行信息和激光... 为减少船舶避碰决策过程中人为失误导致的海难事故,提出一种基于改进近端策略优化(PPO)算法的船舶自主避碰决策。在传统PPO算法广义优势估计基础上加入自适应基线调整,并且使用长短期记忆网络(LSTM)改进网络结构。船舶的航行信息和激光雷达矢量线被应用于神经网络输入,航行制导、角度偏差及《1972年避碰规则》均被纳入改进的奖励函数设计。两船和多船会遇场景仿真实验表明:本文提出的避碰决策可使船舶实现自主航行,并在避碰过程中符合《避碰规则》,为处理复杂局面下的船舶避碰决策提供了参考。 展开更多
关键词 船舶自主避碰 改进的近端策略优化算法 长短期记忆网络(LSTM)
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部