文中提出了一种基于深度强化学习(deep reinforcement learning,DRL)的船舶智能避碰方法.该方法利用D3QN(double deep q-learning network with dueling architecture)算法与船舶领域模型,结合《国际海上避碰规则》(COLREGs)的避碰操作...文中提出了一种基于深度强化学习(deep reinforcement learning,DRL)的船舶智能避碰方法.该方法利用D3QN(double deep q-learning network with dueling architecture)算法与船舶领域模型,结合《国际海上避碰规则》(COLREGs)的避碰操作规范设计奖励函数,通过时序差分法实现优先经验回放,构建自主避碰的智能体.通过ROS-gazebo搭建仿真环境,构建神经网络处理环境中的视觉与雷达数据,快速有效地获取环境特征信息.结果表明:对比传统DQN算法,该方法具有更好的决策能力,训练时间更短;在避碰过程中可以对会遇局面做出正确的判断,选择符合COLREGs规范的避碰动作,最终可以准确并及时的避让目标船.展开更多
文摘文中提出了一种基于深度强化学习(deep reinforcement learning,DRL)的船舶智能避碰方法.该方法利用D3QN(double deep q-learning network with dueling architecture)算法与船舶领域模型,结合《国际海上避碰规则》(COLREGs)的避碰操作规范设计奖励函数,通过时序差分法实现优先经验回放,构建自主避碰的智能体.通过ROS-gazebo搭建仿真环境,构建神经网络处理环境中的视觉与雷达数据,快速有效地获取环境特征信息.结果表明:对比传统DQN算法,该方法具有更好的决策能力,训练时间更短;在避碰过程中可以对会遇局面做出正确的判断,选择符合COLREGs规范的避碰动作,最终可以准确并及时的避让目标船.