-
题名基于AM-RPPO的双足机器人适应性行走控制算法
被引量:27
- 1
-
-
作者
马璐
刘成菊
林立民
徐斌辰
陈启军
-
机构
同济大学电子与信息工程学院
-
出处
《机器人》
EI
CSCD
北大核心
2019年第6期731-741,共11页
-
基金
国家自然科学基金(61573260,61673300)
上海市“科技创新行动计划”基础研究领域项目(16JC1401200,17511108602,18DZ1200804)
江苏省自然科学基金(BK20171250)
-
文摘
提出了一种带有注意力机制和循环近端策略优化(AM-RPPO)的深度强化学习(DRL)方法并将其应用于双足机器人的适应性行走控制.首先,对未知环境下双足机器人关节空间行走控制问题依照部分可观测马尔可夫决策过程(POMDP)进行建模,指出了DRL算法近端策略优化(PPO)对真实状态的估计存在偏差的问题.其次,引入循环神经网络(RNN)架构,分析了RNN对时序环境观测状态不同于多层感知机的正向传播过程,说明了RNN相对于传统神经网络的优势,并且将RNN分别嵌入动作生成网络和价值函数生成网络中.再次,引入在深度学习诸多领域应用广泛的注意力机制(AM),利用AM建立基于不同时间步的状态,求得最终价值函数的权重差异化模型.最后,通过仿真实验验证了提出的AM-RPPO算法对存在高维状态信息输入的双足机器人控制问题的有效性.
-
关键词
深度强化学习
循环神经网络
注意力机制
自适应双足行走
-
Keywords
deep reinforcement learning
recurrent neural network
attention mechanism
adaptive biped locomotion
-
分类号
TP242.6
[自动化与计算机技术—检测技术与自动化装置]
-