基于deep Q-network双足机器人非平整地面行走稳定性控制方法被引量：14

Walking stability control method based on deep Q-network for biped robot on uneven ground

下载PDF

导出

摘要针对双足机器人在非平整地面行走时容易失去运动稳定性的问题,提出一种基于一种基于价值的深度强化学习算法DQN(Deep Q-Network)的步态控制方法。首先通过机器人步态规划得到针对平整地面环境的离线步态,然后将双足机器人视为一个智能体,建立机器人环境空间、状态空间、动作空间及奖惩机制,该过程与传统控制方法相比无需复杂的动力学建模过程,最后经过多回合训练使双足机器人学会在不平整地面进行姿态调整,保证行走稳定性。在V-Rep仿真环境中进行了算法验证,双足机器人在非平整地面行走过程中,通过DQN步态调整学习算法,姿态角度波动范围在3°以内,结果表明双足机器人行走稳定性得到明显改善,实现了机器人的姿态调整行为学习,证明了该方法的有效性。 Aiming at the problem that biped robots may easily lose their motion stability when walking on uneven ground,a value-based deep reinforcement learning algorithm called Deep Q-Network(DQN)gait control method was proposed,which is an intelligent learning method of posture adjustment.Firstly,an off-line gait for a flat ground environment was obtained through the gait planning of the robot.Secondly,instead of implementing a complex dynamic model compared to traditional control methods,a bipedal robot was regarded as an agent to establish robot environment space,state space,action space and Reward-Punishment(RP)mechanism.Finally,through multiple rounds of training,the biped robot learned to adjust its posture on the uneven ground and ensures the stability of walking.The performance and effectiveness of the proposed algorithm was validated in a V-Rep simulation environment.The results demonstrate that the biped robot s lateral tile angle is less than 3°after implementing the proposed method and the walking stability is improved obviously,which achieves the robot s posture adjustment behavior learning and proves the effectiveness of the method.

作者赵玉婷韩宝玲罗庆生 ZHAO Yuting;HAN Baoling;LUO Qingsheng(School of Mechanical Engineering,Beijing Institute of Technology,Beijing 100081,China;School of Mechatronical Engineering,Beijing Institute of Technology,Beijing 100081,China)

机构地区北京理工大学机械与车辆学院北京理工大学机电学院

出处《计算机应用》 CSCD 北大核心 2018年第9期2459-2463,共5页 journal of Computer Applications

基金国家部委重点预研基金资助项目(3020020221111)~~

关键词双足机器人行走稳定性步态控制非平整地面强化学习 biped robot walking stability gait control uneven ground reinforcement learning

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献3

1田彦涛,孙中波,李宏扬,王静.动态双足机器人的控制与优化研究进展[J].自动化学报,2016,42(8):1142-1157. 被引量：37
2李建,陈卫东,王丽军,高雪官,杨军,李慕君.未知不平整地面上的双足步行稳定控制[J].电子学报,2010,38(11):2669-2674. 被引量：9
3韩军,郝立.机器人关节空间的轨迹规划及仿真[J].南京理工大学学报,2000,24(6):540-543. 被引量：44

二级参考文献22

1YU Haitao,LI Mantian,CAI Hegao.Analysis on the Performance of the SLIP Runner with Nonlinear Spring Leg[J].Chinese Journal of Mechanical Engineering,2013,26(5):892-899. 被引量：8
2Kazuo H,Masato H,Yuji H,Toru T.Development of honda humanoid robot.Proceedings of the IEEE International Conference on Robotics and Automation (ICRA).Leuven:IEEE Press,1998.1321-1326.
3Kenji K,Fumio K,Shuuji K,Kazuhiko Y,Kazuhiko A,Toshikazu K,Shigehiko O,Takakatsu I.Design of prototype humanoid robotics platform for HRP.Proceedings of the IEEE International Conference on Intelligent Robots and Systems (IROS).EPFL,Lausanne:IEEE Press,2002.2431-2436.
4Jinichi Y,Eiji S,Sadatoshi I,Atsuo T.Development of a bipedal humanoid robot control method of Whole body cooperative dynamic biped walking.Proceedings of the IEEE International Conference on Robotics and Automation (ICRA).Detroit:IEEE Press,1999.368-374.
5Kim J Y,Park I W,Lee J,Kim M S,Cho B K,Oh J H.System design and dynamic walking of humanoid robot KHR-2.Proceedings of the IEEE International Conference on Robotics and Automation (ICRA).Barcelona:IEEE Press,2005.1443-1448.
6Gienger M,Lffler K,Pfeiffer K.Towards the design of a biped jogging robot.Proceedings of the IEEE International Conference on Intelligent Robots and Systems (IROS).Seoul:IEEE Press,2001.4140-4145.
7Zheng Y F,Shen J.Gait synthesis for the SD-2 biped robot to climb sloping surface[J].IEEE Transactions on Robotics and Automation,1990,6(1):86-96.
8Fu C L,Chen Ken.Gait synthesis and sensory control of stair climbing for a humanoid robot[J].IEEE Transactions on Electron Devices,2008,55(5):2111-2120.
9Lffler K,Gienger M,Pfeiffer F,Ulbrich H.Sensors and control concept of a biped robot[J].IEEE Transactions on Electron Devices,2008,51(5):2111-2120.
10Kim J Y,Park I W,Oh J H.Walking control algorithm of biped humanoid robot on uneven and inclined floor[J].Journal of Intelligent Robotic Systems,2007,48(4):457-484.

共引文献85

1崔庆权,宁晶.一种教学和竞赛通用型双足机器人的设计与研究[J].电子测量技术,2020(9):18-22. 被引量：3
2李坚,王英章,张力,徐宗俊.PCB数控钻床下钻机构多体动力学分析与研究[J].计算机仿真,2006,23(11):240-242. 被引量：1
3张传垒,葛为民,宋博.机械手轨迹规划中的BP神经网络方法及仿真[J].组合机床与自动化加工技术,2007(10):22-24. 被引量：5
4卢军鑫,史金飞,罗翔,位兵.视觉伺服机器人打击运动目标的轨迹规划[J].工业仪表与自动化装置,2007(6):73-75.
5田西勇,刘晓平,庄未.基于组合正弦函数的机器人轨迹规划方法[J].机械工程与自动化,2008(1):136-138. 被引量：9
6樊继壮,朱延河,赵杰,蔡鹤皋.三肢体机器人运动分析及规划[J].北京邮电大学学报,2008,31(1):57-61. 被引量：3
7刘晓平,田西勇,庄未.基于非对称组合正弦函数的机器人轨迹规划方法[J].电子机械工程,2008,24(1):56-58. 被引量：11
8冯飞,张洛平,张波.四自由度机器人Matlab仿真实例[J].河南科技大学学报（自然科学版）,2008,29(3):24-26. 被引量：19
9黄磊.基于PRO/E的工业机器人运动学仿真[J].黄石理工学院学报,2009,25(1):5-8. 被引量：1
10李天友,孟正大,赵娇娇,刘迎福,朱伟,刘少辉.基于焊接机器人的关节空间轨迹规划方法[J].电焊机,2009,39(4):47-50. 被引量：12

同被引文献60

1付成龙,黄元林,王健美,陈恳.半被动双足机器人的准开环控制[J].机器人,2009,31(2):110-117. 被引量：19
2方红,杨海蓉.贪婪算法与压缩感知理论[J].自动化学报,2011,37(12):1413-1421. 被引量：101
3ZHAO Jie WU XiaoGuang ZANG XiZhe YAN JiHong.Analysis of period doubling bifurcation and chaos mirror of biped passive dynamic robot gait[J].Chinese Science Bulletin,2012,57(14):1743-1750. 被引量：4
4刘德君,田彦涛,张雷.双足欠驱动机器人能量成型控制[J].机械工程学报,2012,48(23):16-22. 被引量：4
5张奇志,周亚丽.双足机器人半被动行走固定点全局稳定性分析[J].工程力学,2013,30(3):431-436. 被引量：14
6刘帅,邬树楠,刘宇飞,吴志刚,毛子铭.空间机器人抓捕非合作目标的自主强化学习控制[J].中国科学：物理学、力学、天文学,2019,49(2):109-118. 被引量：6
7毛坚桓,殷璐嘉.基于自适应探索改进的深度增强学习算法[J].微电子学与计算机,2016,33(6):139-142. 被引量：2
8王婷婷,丁世飞.基于资格迹的RBF非线性系统强化学习研究[J].小型微型计算机系统,2016,37(7):1508-1512. 被引量：1
9田彦涛,孙中波,李宏扬,王静.动态双足机器人的控制与优化研究进展[J].自动化学报,2016,42(8):1142-1157. 被引量：37
10徐超立,林科,杨晨,吴超华,高小榕.基于小腿表面肌电的智能机器人协同控制方法[J].中国生物医学工程学报,2016,35(4):385-393. 被引量：14

引证文献14

1周婉,胡学敏,史晨寅,魏洁玲,童秀迟.基于深度Q网络的人群疏散机器人运动规划算法[J].计算机应用,2019,39(10):2876-2882. 被引量：4
2林荣霞.全方向蠕动机器人斜坡步态智能控制方法仿真[J].计算机仿真,2019,36(10):307-311. 被引量：1
3陈勃,王锦艳.一种高效的经验回放模块设计[J].计算机应用,2019,39(11):3242-3249.
4崔俊文,刘自红,石磊,刘福强,乐玉.基于分层学习的四足机器人运动自适应控制模型[J].计算机测量与控制,2020,28(1):105-110. 被引量：4
5胡学敏,成煜,陈国文,张若晗,童秀迟.基于深度时空Q网络的定向导航自动驾驶运动规划[J].计算机应用,2020,40(7):1919-1925. 被引量：3
6周友行,赵晗妘,刘汉江,李昱泽,肖雨琴.采用DDPG的双足机器人自学习步态规划方法[J].计算机工程与应用,2021,57(6):254-259. 被引量：7
7柳秀山,张琴,程骏,蔡君.仿生双足机器人步态轨迹自适应控制方法研究[J].计算机仿真,2021,38(3):298-302. 被引量：3
8付苗苗,沈红伟.基于激光与视觉感知的机器人姿态自动控制研究[J].激光杂志,2021,42(5):138-142. 被引量：5
9冯春,张祎伟,黄成,姜文彪,武之炜.双足机器人步态控制的深度强化学习方法[J].计算机集成制造系统,2021,27(8):2341-2349. 被引量：8
10吴晓光,刘绍维,杨磊,邓文强,贾哲恒.基于深度强化学习的双足机器人斜坡步态控制方法[J].自动化学报,2021,47(8):1976-1987. 被引量：27

二级引证文献69

1崔立,宋玉,张进.基于自适应DDPG方法的复杂场景下AUV动动对接[J].船舶工程,2023,45(8):8-14.
2邢翠芳,颜军.脑出血的护理[J].中国基层医药,2000,7(1):68-69.
3牛浩玉,汤文兵,田锦.基于深度强化学习的智能体在智慧消防中的应用研究[J].通信技术,2019,52(10):2567-2572. 被引量：6
4周晓进.基于GIS的校园安全防控管理系统设计[J].现代电子技术,2021,44(4):67-70. 被引量：2
5李小斌,吴宏岐,陈渭红,张力.一种苹果采摘机器人关节伺服控制系统设计及仿真[J].计算机测量与控制,2021,29(3):129-134. 被引量：4
6柳秀山,张琴,程骏,蔡君.仿生双足机器人步态轨迹自适应控制方法研究[J].计算机仿真,2021,38(3):298-302. 被引量：3
7谭嵋,刘士豪,周婉,陈国文,胡学敏.基于深度时空Q网络的机器人疏散人群算法[J].计算机工程,2021,47(6):305-311. 被引量：3
8侯远韶.基于强化学习的腿式机器人运动控制与决策研究[J].科技创新导报,2021,18(3):111-114.
9孙辉辉,胡春鹤,张军国.移动机器人运动规划中的深度强化学习方法[J].控制与决策,2021,36(6):1281-1292. 被引量：31
10张开宇,高国伟,毛浩龙.基于MQTT的机器人集群控制系统设计与实现[J].计算机测量与控制,2021,29(6):98-102. 被引量：3

1王宪伦,冯现东,姜鹏鹏.仿人机器人的步态规划研究[J].机械制造,2018,56(2):21-24. 被引量：1
2李上校,任景萍,周兴龙,刘卉.女性穿着运动文胸与未着文胸状态下步态特征的差异性[J].医用生物力学,2017,32(6):541-547. 被引量：1
3任杰,许江淳,岳秋燕,余丽玲.双足机器人的两种步态规划的解耦分析及比较[J].软件,2017,38(12):10-17. 被引量：1
4王艳芝.将“五大素养”落实为“三种意识”[J].新课程,2018,0(11):239-239.
5陈雨豪,周黎,郭为安,于颖.面向舞蹈机器人步态控制的膝关节参数粒子群优化[J].武汉大学学报（工学版）,2018,51(2):178-182.
6张成,王千年,田敬雷.双足机器人避障与步态规划研究[J].通讯世界,2017,23(23):309-310. 被引量：2
7张钟予,蔡文通,孙赫武,郭文文,李子兴.新型自动便携式大型户外遮阳伞的设计[J].科技风,2018(17):2-3.
8曾远伟,范光宇,黄达,周辉.足球机器人系统设计与开发[J].电脑知识与技术,2018,14(1Z):156-157.
9娄家润,李三平,孙国东,王松.仿人形爬坡机器人的设计及分析[J].机械工程与自动化,2018(5):184-185. 被引量：1
10马宗利,张培强,吕荣基,王建明.四足机器人坡面行走稳定性分析[J].东北大学学报（自然科学版）,2018,39(5):673-678. 被引量：5

计算机应用

2018年第9期

浏览历史

内容加载中请稍等...

基于deep Q-network双足机器人非平整地面行走稳定性控制方法被引量：14

参考文献3

二级参考文献22

共引文献85

同被引文献60

引证文献14

二级引证文献69

相关作者

相关机构

相关主题

浏览历史

基于deep Q-network双足机器人非平整地面行走稳定性控制方法 被引量：14

参考文献3

二级参考文献22

共引文献85

同被引文献60

引证文献14

二级引证文献69

相关作者

相关机构

相关主题

浏览历史

基于deep Q-network双足机器人非平整地面行走稳定性控制方法被引量：14