-
题名基于深度强化学习的机器人导航算法研究
- 1
-
-
作者
熊李艳
舒垚淞
曾辉
黄晓辉
-
机构
华东交通大学信息工程学院
-
出处
《华东交通大学学报》
2023年第1期67-74,共8页
-
基金
国家自然科学基金项目(62067002,61967006,62062033)
江西省自然科学基金项目(20212BAB202008)
江西省交通厅科技项目(2022X0040)。
-
文摘
移动机器人穿越动态密集人群时,由于对环境信息理解不充分,导致机器人导航效率低且泛化能力弱。针对这一问题,提出了一种双重注意深度强化学习算法。首先,对稀疏的奖励函数进行优化,引入距离惩罚项和舒适性距离,保证机器人趋近目标的同时兼顾导航的安全性;其次,设计了一种基于双重注意力的状态价值网络处理环境信息,保证机器人导航系统兼具环境理解能力与实时决策能力;最后,在仿真环境中对算法进行验证。实验结果表明,提出的算法不仅提高了机器人导航效率还提升了导航系统的鲁棒性,主要表现为:在500个随机的测试场景中,碰撞次数和超时次数均为0,导航成功率优于对比算法,且平均导航时间比最好的算法缩短了2%;当环境中行人数量、导航距离发生变化时算法依然有效,且导航时间短于对比算法。
-
关键词
深度强化学习
奖励函数
状态价值网络
双重注意力
-
Keywords
deep reinforcement learning
reward function
state value network
double attention
-
分类号
U495
[交通运输工程—交通运输规划与管理]
TP242
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于记忆探索策略的有模型深度强化学习算法
被引量:1
- 2
-
-
作者
倪坤
刘云龙
于丹宁
-
机构
厦门大学航空航天学院
-
出处
《微电子学与计算机》
2021年第4期23-28,共6页
-
基金
国家自然科学基金项目(61772438,61375077)。
-
文摘
深度强化学习在各个领域中都展现出了巨大的潜力,但现有的深度强化学习算法需要大量样本才能学习到一个较好的策略,而在实际场景中,深度强化学习样本通常存在数量少、成本高等特性.因此,改善样本利用率是拓展深度强化学习应用范围的关键.除了基于模型的方法之外,智能体的探索策略也是影响样本利用率的重要因素.本文在智能体的行为策略中引入基于记忆的探索方法,其可以通过搜索过去的记忆来快速产生高回报的样本供状态价值网络学习,加快算法的训练过程.通过在仿真环境中利用基准任务来对所提算法进行评测,验证了其有效性.
-
关键词
深度强化学习
样本利用率
基于模型的方法
状态价值网络
基于记忆的探索
-
Keywords
deep reinforcement learning
sample utilization
model-based approaches
state value network
memory-based exploration
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-