-
题名基于优势后见经验回放的强化学习导航方法
- 1
-
-
作者
王少桐
况立群
韩慧妍
熊风光
薛红新
-
机构
中北大学计算机科学与技术学院
-
出处
《计算机工程》
CSCD
北大核心
2024年第1期313-319,共7页
-
基金
国家自然科学基金(62106238)
山西省回国留学人员科研项目(2020-113)
山西省科学成果转化引导专项(202104021301055)。
-
文摘
目前强化学习在移动机器人领域表现出了强大的潜力,将强化学习算法与机器人导航相结合,不需要依赖先验知识就可以实现移动机器人的自主导航,但是在机器人强化学习过程中存在样本利用率低且泛化能力不强的问题。针对上述问题,在D3QN算法的基础上提出优势后见经验回放算法用于经验样本的回放。首先计算轨迹样本中轨迹点的优势函数值,选择优势函数最大值的点作为目标点,然后对轨迹样本进行重新标记,将新旧轨迹样本一同放入经验池中增加经验样本的多样性,使智能体利用失败的经验样本学习,更高效地实现到目标点的导航。为评估该方法的有效性,基于Gazebo平台搭建不同的实验环境,并采用TurtleBot3机器人在仿真环境下进行导航训练与迁移测试,结果表明,该算法在训练环境下导航成功率高于当前主流算法,在迁移测试环境中导航成功率可达86.33%,能够有效提高导航样本利用率,降低导航策略学习难度,增强移动机器人在不同环境中的自主导航能力和迁移泛化能力。
-
关键词
强化学习
移动机器人
后见经验回放
神经网络
样本利用率
-
Keywords
reinforcement learning
mobile robots
hindsight experience replay
neural network
sample utilization
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-
-
题名基于改进深度强化学习的移动机器人路径规划
被引量:18
- 2
-
-
作者
王军
杨云霄
李莉
-
机构
沈阳化工大学计算机科学与技术学院
辽宁省化工过程工业智能化技术重点实验室
-
出处
《电子测量技术》
北大核心
2021年第22期19-24,共6页
-
基金
辽宁省高校创新人才支持计划(LR2018057)
辽宁省“百万人才工程”资助项目(辽人社【2019】45号)
+1 种基金
辽宁省自然基金(2019-ZD-0068)
辽宁省教育厅项目(XXLJ2019010)资助。
-
文摘
针对传统深度强化学习中移动机器人在稀疏奖励环境下只有在规定时间步内到达目标位置才能得到积极奖励,中间过程的每一步都是负面奖励的路径规划问题。提出了基于改进深度Q网络的路径规划方法,在移动机器人在探索过程中,对以真实目标为条件的轨迹进行采样,在经验回放过程中,把移动机器人已经到达的状态来代替真正的目标,这样移动机器人可以获得足够的积极奖励信号来开始学习。通过深度卷积神经网络模型,将原始RGB图像作为输入,通过端对端的方法训练,利用置信区间上界探索策略和小批量样本的方法训练神经网络参数,最后得到上、下、左、右4个动作的Q值。在相同的仿真环境中结果表明,该算法提升了采样效率,训练迭代更快,并且更容易收敛,避开障碍物到达终点的成功率增加40%左右,一定程度上解决了稀疏奖励带来的问题。
-
关键词
深度强化学习
路径规划
稀疏奖励
移动机器人
后见经验回放
-
Keywords
deep reinforcement learning
path planning
sparse reward
move robot
hindsight experience replay
-
分类号
TP242
[自动化与计算机技术—检测技术与自动化装置]
-