基于再励学习的被动动态步行机器人被引量：6

Reinforcement learning for passive dynamic walking robot

导出

摘要为了研究仿人、能量高效的双足机器人步行,研制了由MACCEPA(mechanically adjustable compliance and controllable equilibrium position actuator)柔性驱动器驱动的半被动双足机器人,并实现了其动力学仿真系统。提出一种基于再励学习的步行控制方法。该方法首先采用Q-学习方法学习机器人在理想环境中的稳定步行步态及其控制策略,然后将此步态和控制策略作为模糊优胜学习方法的参考步态和参考控制策略并在线学习模糊网络的优胜值参数。仿真结果表明:利用学习训练的结果控制柔性驱动器在步行相转换时的动作,机器人可以实现稳定动态步行。 A quasi-passive dynamic walking robot was built to study natural, energy-efficient biped walking. The robot was actuated by mechanically adjustable compliance and controllable equilibrium position actuators （MACCEPA）. A reinforcement learning based method was used to control the robot to walk. The method firstly learned the desired gait for walking in ideal environment with a gait model based Q-learning algorithm. Then, a fuzzy advantage learning method was used to teach the robot to walk in uneven floor. Stable walking of the robot is achieved by using the learning result to control the action of the actuators when changes occur in the walking phase. The effectiveness of the method was verified by simulations.

作者毛勇李实王家廞贾培发杨泽红丘振

机构地区清华大学计算机科学与技术系

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2008年第1期92-96,共5页 Journal of Tsinghua University(Science and Technology)

关键词机器人双足机器人被动动态步行再励学习 robots biped robots passive dynamic walking reinforcement learning

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献7

1Collins S, Ruina A, Tedrake R, et al. Efficient bipedal robots based on passive-dynamic walkers [J]. Science, 2005, 307: 1082- 1085.
2MeGeer T. Passive dynamic walking[J]. The International Journal of Robotics Research, 1990, 9(2): 62 - 82.
3Schuitema E, Hobbelen D G E, Jonker P P, et al. Using a controller based on reinforcement learning for a passive dynamic walking robot [C]//Proeeedings of IEEE International Conference on Humanoid Robots. Tsukuba, Japan: IEEE, 2005: 232-237.
4Ham R V, Vanderborght B, Verrelst B, et al. MACCEPA: The mechanically adjustable compliance and controllable equilibrium position actuator used in the "controlled passive walking" biped veronica[C]//Proceedings of the 8th International Conference on Climbing and Walking Robots. London, UK: Springer, 2005: 759- 766.
5Wisse M, Schwab A L. First steps in passive dynamic walking [C]//Proceedings of the 7th International Conference on Climbing and Walking Robots. Madrid, Spain: Springer, 2004.
6Sutton R S, Barto A G. Reinforcement Learning: an Introduction [M].Cambridge, MA: The MIT Press, 1998.
7Yan X W, Deng Z D, Sun Z Q. Fuzzy advantage learning [C]//Proeeedings of IEEE International Conference on Fuzzy Systems. Texas, US: IEEE, 2000: 865- 870.

同被引文献61

1闻朝中,李智.粒子群算法在配电网络无功补偿优化中的应用[J].武汉工业学院学报,2004,23(1):18-21. 被引量：39
2庄晓东,孟庆春,熊建设,殷波,王汉萍.动态环境中基于增强式学习的路径规划方法[J].机器人,2001,23(S1):712-716. 被引量：1
3朱庆保,张玉兰.基于栅格法的机器人路径规划蚁群算法[J].机器人,2005,27(2):132-136. 被引量：123
4李寿涛,李元春.在未知环境下基于递阶模糊行为的移动机器人控制算法[J].吉林大学学报（工学版）,2005,35(4):391-397. 被引量：4
5朱庆保.动态复杂环境下的机器人路径规划蚂蚁预测算法[J].计算机学报,2005,28(11):1898-1906. 被引量：51
6陈华华,郭晔,杜歆,顾伟康.基于改进型遗传算法的动态避障路径规划方法[J].传感技术学报,2006,19(2):520-524. 被引量：11
7朱庆保.复杂环境下的机器人路径规划蚂蚁算法[J].自动化学报,2006,32(4):586-593. 被引量：46
8朱庆保.全局未知环境下多机器人运动蚂蚁导航算法[J].软件学报,2006,17(9):1890-1898. 被引量：33
9孙纯哲,桂贵生,韩东,张利.基于蚁群算法的移动机器人路径规划研究与应用[J].合肥工业大学学报（自然科学版）,2006,29(10):1208-1211. 被引量：14
10唐鸿儒,宋爱国,章小兵.基于宏行为的侦察机器人事务执行机制研究[J].机器人,2007,29(2):97-105. 被引量：8

引证文献6

1鲍庆勇,李舜酩,沈峘,门秀花.自主移动机器人局部路径规划综述[J].传感器与微系统,2009,28(9):1-4. 被引量：54
2张国亮.动态环境中移动机器人路径规划研究综述[J].机床与液压,2013,41(1):157-162. 被引量：13
3刘丽梅,崔立芝.双足步行机器人坡度切换控制[J].数码世界,2016,0(6):31-32.
4师名林.基于遗传算法的欠驱动双足机器人步态优化设计[J].机械设计与制造,2017(6):225-229. 被引量：1
5朱晓庆,陈璐,冉登宇,钱义肇,王明超,别桐.基于奖励引导的六足机器人自主步态学习[J].北京工业大学学报,2021,47(2):120-126. 被引量：2
6姚道金,王杨,姚渊,丁加涛,肖晓晖.基于质心运动状态的双足机器人欠驱动步行稳定控制[J].机器人,2017,39(3):324-332. 被引量：8

二级引证文献78

1潘迁,李伟,张云群,丁毓峰.滚动窗口与蚁群算法结合的机器人路径规划[J].机械制造,2012,50(9):25-28.
2鲍庆勇,李舜酩,沈峘,尚伟燕.基于行为融合的移动机器人自主避障算法[J].传感器与微系统,2010,29(5):70-73. 被引量：4
3杜宇上.基于正态密度函数的滚动窗口路径规划方法[J].科学技术与工程,2010,10(15):3741-3744.
4杜宇上.一种基于模糊逻辑的滚动窗口路径规划方法[J].现代电子技术,2010,33(13):146-148. 被引量：4
5赵维,谢晓方,孙艳丽.自主角色导航技术综述[J].计算机应用与软件,2011,28(7):159-163. 被引量：1
6张广林,胡小梅,柴剑飞,赵磊,俞涛.路径规划算法及其应用综述[J].现代机械,2011(5):85-90. 被引量：128
7蒲兴成,张军,张毅.基于神经网络的改进行为协调控制及其在智能轮椅路径规划中的应用[J].智能系统学报,2011,6(5):456-463. 被引量：6
8肖浩,宋晓琳,曹昊天.基于危险斥力场的自动驾驶汽车主动避撞局部路径规划[J].工程设计学报,2012,19(5):379-384. 被引量：6
9刘洲洲.基于改进人工势场法的智能无人车路径规划仿真研究[J].计算技术与自动化,2013,32(2):133-136. 被引量：8
10张希闻,肖本贤.改进D~*算法的移动机器人路径规划[J].传感器与微系统,2018,37(12):52-54. 被引量：14

1唯一.NTFS和FAT32互相转换的方法及常见问题[J].网络与信息,2008(3):67-67.
2吕家亮,王英龙,崔焕庆,魏诺,郭强.基于微粒群优化的三维无线传感网定位算法研究[J].山东大学学报（理学版）,2013,48(5):78-82. 被引量：2
3孔小琴,李琴,李远科,刘武.基于纠缠的量子密钥分配协议仿真[J].计算机工程与应用,2017,53(1):113-117. 被引量：6
4马龙杰,刘德平,王玉闯,高建设.内胆下挂自动化系统设计与研究[J].机床与液压,2016,44(21):1-4. 被引量：1
5李存志,张松炜.一种步进电机驱动器及其控制系统的研究[J].微计算机信息,2008,24(17):125-126. 被引量：8
6将你的博客打包成PDF文件[J].网友世界,2009(14):28-28.
7发那科推出新产品——学习机器人[J].世界制造技术与装备市场,2012(1):42-42.
8王霞.影音传送带不能下载RTSP巧解决[J].电脑迷,2005,0(1):90-90.
9肖晓萍,廖青,李自胜.基于机器人实验教学平台的研制[J].机电产品开发与创新,2008,21(4):19-21. 被引量：12
10Windows8的推出拓展PC未来[J].世界电信,2012(3):26-26.

清华大学学报（自然科学版）

2008年第1期

浏览历史

内容加载中请稍等...

基于再励学习的被动动态步行机器人被引量：6

参考文献7

同被引文献61

引证文献6

二级引证文献78

相关作者

相关机构

相关主题

浏览历史

基于再励学习的被动动态步行机器人 被引量：6

参考文献7

同被引文献61

引证文献6

二级引证文献78

相关作者

相关机构

相关主题

浏览历史

基于再励学习的被动动态步行机器人被引量：6