双足机器人步态控制的深度强化学习方法被引量：8

Deep reinforcement learning method for biped robot gait control

下载PDF

导出

摘要针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法。首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作—评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足机器人连杆模型,在常规的平整路面上将改进的深度Q网络用于作为智能体的双足机器人进行步态控制训练。MATLAB仿真结果表明,与深度Q网络和深度确定性策略梯度算法相比,所提算法有更好的训练速度且其回报曲线具有良好的平滑性。在CPU训练下,经过20 h左右深度强化学习能够完成智能体训练。双足机器人在较小的力矩和长距离下能够稳定快步行走。 Aiming at the stable control of gait during biped robot walking,a deep reinforcement learning method with improved Deep Q-Network(DQN)was proposed.By combining DQN algorithm with a deterministic strategy gradient,an improved DQN learning network was proposed to replace the critic network of actor-critic network with a clipped Double-Q network.A link model of biped robot was established,and the proposed network was used for biped robots gait control training as agents in a conventional flat road environment.MATLAB simulation results showed that compared with DQN and Deep Deterministic Policy Gradient(DDPG)algorithms,the proposed algorithm had a better training speed and its average reward curve had a good smoothness.Under the CPU training conditions,the agent training could be completed after about 20 hours of deep reinforcement learning.The biped robot could achieve stable and fast walking(average speed about 0.5m/s)under the conditions of small torque and long distance(about 5 meters).

作者冯春张祎伟黄成姜文彪武之炜 FENG Chun;ZHANG Yiwei;HUANG Cheng;JIANG Wenbiao;WU Zhiwei(School of Aerospace and Mechanical Engineering,Changzhou Institute of Technology,Changzhou 213032,China)

机构地区常州工学院航空与机械工程学院

出处《计算机集成制造系统》 EI CSCD 北大核心 2021年第8期2341-2349,共9页 Computer Integrated Manufacturing Systems

基金国家自然科学基金青年基金资助项目(11802040) 2018年江苏省青蓝工程优秀青年骨干教师资助项目(A1-5501-19-003)。

关键词双足机器人步态控制深度强化学习智能体操作—评论改进深度Q网络算法 biped robot gait control deep reinforcement learning agent actor-critic improved deep Q-net algorithm

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献4

1张景玲,冯勤炳,赵燕伟,刘金龙,冷龙龙.基于强化学习的超启发算法求解有容量车辆路径问题[J].计算机集成制造系统,2020,26(4):1118-1129. 被引量：9
2杨宏兵,沈露,成明,陶来发.带退化效应多态生产系统调度与维护集成优化[J].计算机集成制造系统,2018,24(1):80-88. 被引量：11
3陈亮,梁宸,张景异,刘韵婷.Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法[J].控制与决策,2021,36(1):75-82. 被引量：18
4赵玉婷,韩宝玲,罗庆生.基于deep Q-network双足机器人非平整地面行走稳定性控制方法[J].计算机应用,2018,38(9):2459-2463. 被引量：13

二级参考文献16

1赵燕伟,彭典军,张景玲,吴斌.有能力约束车辆路径问题的量子进化算法[J].系统工程理论与实践,2009,29(2):159-166. 被引量：41
2李建,陈卫东,王丽军,高雪官,杨军,李慕君.未知不平整地面上的双足步行稳定控制[J].电子学报,2010,38(11):2669-2674. 被引量：9
3段建国,李爱平,谢楠,徐立云.可重构制造系统多态可靠性建模与分析[J].机械工程学报,2011,47(17):104-111. 被引量：9
4吴军,徐昕,王健,贺汉根.面向多机器人系统的增强学习研究进展综述[J].控制与决策,2011,26(11):1601-1610. 被引量：22
5王世进.集成预防性维护计划的单机调度蚁群优化研究[J].工业工程与管理,2011,16(6):60-65. 被引量：4
6崔维伟,陆志强.单机系统的生产调度与预防性维护的集成优化[J].上海交通大学学报,2012,46(12):2009-2013. 被引量：20
7甘婕,曾建潮.考虑维护维修活动的单机调度集成模型[J].计算机集成制造系统,2014,20(5):1099-1105. 被引量：8
8韩军,郝立.机器人关节空间的轨迹规划及仿真[J].南京理工大学学报,2000,24(6):540-543. 被引量：44
9张思源,陆志强,崔维伟.考虑设备周期性维护的流水车间生产调度优化算法[J].计算机集成制造系统,2014,20(6):1379-1387. 被引量：14
10崔维伟,陆志强,潘尔顺.基于多目标优化的生产调度与设备维护集成研究[J].计算机集成制造系统,2014,20(6):1398-1404. 被引量：36

共引文献47

1陈涛.计算机组装与维护中的常见问题及解决方法[J].数码设计,2019,8(6):52-53.
2周婉,胡学敏,史晨寅,魏洁玲,童秀迟.基于深度Q网络的人群疏散机器人运动规划算法[J].计算机应用,2019,39(10):2876-2882. 被引量：4
3林荣霞.全方向蠕动机器人斜坡步态智能控制方法仿真[J].计算机仿真,2019,36(10):307-311. 被引量：1
4陈勃,王锦艳.一种高效的经验回放模块设计[J].计算机应用,2019,39(11):3242-3249.
5甘婕,王磊,曾建潮,张晓红.单机调度与丝锥视情预防性更换集成模型[J].计算机集成制造系统,2019,25(11):2831-2838. 被引量：3
6崔俊文,刘自红,石磊,刘福强,乐玉.基于分层学习的四足机器人运动自适应控制模型[J].计算机测量与控制,2020,28(1):105-110. 被引量：4
7崔维伟.Approximate Approach to Deal with the Uncertainty in Integra ted Production Scheduling and Maintenance Planning[J].Journal of Shanghai Jiaotong university(Science),2020,25(1):106-117.
8胡学敏,成煜,陈国文,张若晗,童秀迟.基于深度时空Q网络的定向导航自动驾驶运动规划[J].计算机应用,2020,40(7):1919-1925. 被引量：3
9裴霞,吴晓,郭鹏,王昕,温昆.考虑状态维护策略与工时恶化作用下的单机调度研究[J].河北科技大学学报,2020,41(5):381-389.
10周友行,赵晗妘,刘汉江,李昱泽,肖雨琴.采用DDPG的双足机器人自学习步态规划方法[J].计算机工程与应用,2021,57(6):254-259. 被引量：7

同被引文献82

1李敏,冯亚丽,吴东林.采摘机器人动态果实目标检测与跟踪技术研究——基于云存储[J].农机化研究,2020,42(9):207-211. 被引量：10
2王学宁,贺汉根,徐昕.求解部分可观测马氏决策过程的强化学习算法[J].控制与决策,2004,19(11):1263-1266. 被引量：5
3李鑫,陈薇,董学平,陈梅,蒋琳.一种基于小脑模型关节控制器评论-策略家的机器人跟踪控制算法[J].控制理论与应用,2011,28(6):894-900. 被引量：4
4周济.智能制造——“中国制造2025”的主攻方向[J].中国机械工程,2015,26(17):2273-2284. 被引量：1202
5王陆新,潘继平,娄钰.近十年中国石油勘探开发回顾与展望[J].国际石油经济,2018,26(7):65-71. 被引量：9
6张翔,吴华,陈游,宋海方,周一鹏.基于POMDP的主动雷达制导弹干扰措施优化方法[J].空军工程大学学报（自然科学版）,2018,19(5):90-96. 被引量：2
7赵玉婷,韩宝玲,罗庆生.基于deep Q-network双足机器人非平整地面行走稳定性控制方法[J].计算机应用,2018,38(9):2459-2463. 被引量：13
8朱振涛,张志威.基于电商平台在线评论智能机器人早教机消费者关注点的实证研究[J].南京工程学院学报（社会科学版）,2018,18(4):39-46. 被引量：1
9Qin Shi,Sihao Zhao,Xiaowei Cui,Mingquan Lu,Mengdi Jia.Anchor Self-Localization Algorithm Based on UWB Ranging and Inertial Measurements[J].Tsinghua Science and Technology,2019,24(6):728-737. 被引量：11
10董瑶,葛莹莹,郭鸿湧,董永峰,杨琛.基于深度强化学习的移动机器人路径规划[J].计算机工程与应用,2019,55(13):15-19. 被引量：27

引证文献8

1宋容.基于大数据聚类分析的爬壁机器人位姿定位控制系统设计[J].计算机测量与控制,2022,30(8):96-102. 被引量：1
2高俊晓.智慧校园导向标识机器人步态自动化控制方法[J].自动化与仪器仪表,2022(8):249-252.
3蔡泽,胡耀光,闻敬谦,张立祥.复杂动态环境下基于深度强化学习的AGV避障方法[J].计算机集成制造系统,2023,29(1):236-245. 被引量：3
4陈恺丰,田博睿,李和清,赵晨阳,陆祖兴,李新德,邓勇.基于DDPG算法的双轮腿机器人运动控制研究[J].系统工程与电子技术,2023,45(4):1144-1151. 被引量：4
5沙林秀,曾童年.基于深度强化学习的机械臂动态目标跟踪控制[J].实验技术与管理,2023,40(6):128-134. 被引量：1
6张泰,李聪航,马荣,董勤娇.基于舆情分析系统的评论机器人系统研究与设计[J].科学与信息化,2023(15):91-95.
7吕相霖,臧兆祥,李思博,王俊英.基于注意力的循环PPO算法及其应用[J].计算机技术与发展,2024,34(1):136-142.
8李丽霞,陈艳.基于D-DQN强化学习算法的双足机器人智能控制研究[J].计算机测量与控制,2024,32(3):181-187.

二级引证文献9

1崔立,宋玉,张进.基于自适应DDPG方法的复杂场景下AUV动动对接[J].船舶工程,2023,45(8):8-14.
2张硕,吴洪明,孙健铨.蒸汽发生器二次侧检测用爬壁式移动机械臂控制系统设计[J].起重运输机械,2023(20):53-58.
3吴斌,张新,VIALOVA Varvara.面向实际工况的AGV局部路径规划及跟踪研究[J].计算机工程与应用,2023,59(20):295-305.
4张梅蕊,杨梅,樊垚淼,焦慧敏,焦心愿.基于DDPG的书房风扇的研究与设计[J].制造业自动化,2023,45(11):161-165.
5关潇卓,丁伟,卢利中,郭铁滨,熊飞.机械臂自适应跟踪控制方案设计及仿真分析[J].中国新技术新产品,2023(20):1-3.
6王修业,汪会明,孙芹芹.无人机-无人车空地无人集群系统多任务协同控制[J].无人系统技术,2023,6(6):70-79.
7侯百乐,齐义文,李献领,李鑫,唐意雯,郭诗彤.通信故障下蒸汽发生器水位MPC/DDPG切换控制[J].沈阳航空航天大学学报,2023,40(5):66-74.
8郑默思,张亮.“新工科”背景下用于机械设计课程的双足教学机器人设计与研究[J].自动化与仪器仪表,2023(11):217-221.
9李子怡,胡祥涛,张勇乐,许建军.基于虚拟目标制导的自适应Q学习路径规划算法[J].计算机集成制造系统,2024,30(2):553-568.

1寇龙威,郭珈宜,郭艳幸,李峰,范仪铭,刘源,王振亚,谭新访.中医药防治膝骨关节炎生物力学机制的进展[J].中医药临床杂志,2020,32(11):2186-2190. 被引量：6
2张兵,李爽,桂莉.院外心搏骤停第一反应人空间需求配置研究[J].解放军护理杂志,2021,38(1):9-12. 被引量：5
3墨西.“I❤NY”如何成为纽约门面担当[J].传奇故事（百家讲坛）（红版）,2021(1):44-45.
4天青,陈楷文(图),Marianne(图).多元深圳的多彩生活[J].城市地理,2020(11):56-57.
5贾红涛,胡文娟.基于确定性策略梯度算法的机械臂控制模型构建及仿真[J].粘接,2021,47(9):151-154.
6马洁,王南,曹译丹,宋燕青.注射用头孢米诺致重度粒细胞减少1例[J].中国医院药学杂志,2021,41(6):665-666.
7李君科.半轮足式机器人的设计及研究[J].现代电子技术,2021,44(18):172-176. 被引量：2
8杨宽女,李建华,吴方超,张凯,胡金娜,李扬政.动态神经肌肉稳定技术治疗慢性腰痛的疗效研究[J].华西医学,2021,36(8):1062-1067. 被引量：2
9陈斌,刘卫国.基于SAC模型的改进遗传算法求解TSP问题[J].计算机科学与探索,2021,15(9):1680-1693. 被引量：12

计算机集成制造系统

2021年第8期

浏览历史

内容加载中请稍等...

双足机器人步态控制的深度强化学习方法被引量：8

参考文献4

二级参考文献16

共引文献47

同被引文献82

引证文献8

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

双足机器人步态控制的深度强化学习方法 被引量：8

参考文献4

二级参考文献16

共引文献47

同被引文献82

引证文献8

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

双足机器人步态控制的深度强化学习方法被引量：8