柔性机器人多层启发式动态规划平衡认知研究被引量：1

Research on Balance Cognition Based on Multi-level Heuristic Dynamic Programming of Flexible Robot

下载PDF

导出

摘要针对柔性自平衡机器人的稳定自平衡认知问题,提出一种基于多层启发式动态规划认知(Multi-level heuristic dynamic programming,Ml HDP)模型的平衡认知方法,将这种认知方法用于柔性自平衡机器人自平衡学习中。通过引入取向奖赏模块,把原有离散形式的奖赏机制转化为连续形式,以转化后的连续奖赏信号作为评价的主要依据。该方案使得机器人在自主认知的过程中能够记录更多信息量,提高其认知能力。通过机器人的自平衡认知实验可以看出,在机器人具有柔性关节的条件下仍然具备良好的认知能力,学习效果优于传统方法,鲁棒性强。 Aiming at the stable self-balancing cognition problems of flexible self-balancing robot, a balance cognition method based on multi-level heuristic dynamic programming is proposed and applied on the self-balance learning of flexible self-balancing robot in this paper In the proposed cognition method, the original reward mechanism with discrete form is transformed into a continuous form by introducing the orientational reward module, and the converted continuous reward signal is used as the major basis for evaluation. The scheme enables the robot to record more information in the autonomic cognition process and improve its cognitive ability. Through the robot self-balancing cognitive experiment, it can be seen that the robot can still be able to achieve good cognitive ability even the robot contains flexible joints. Its learning effect and robustness are better than traditional method.

作者陈静

机构地区天津职业技术师范大学信息技术工程学院

出处《系统仿真学报》 CAS CSCD 北大核心 2018年第1期147-155,共9页 Journal of System Simulation

基金国家自然科学基金青年基金(61403282) 天津市高等学校科技发展基金(20130807) 天津职业技术师范大学校级项目(KJY1311)

关键词启发式动态规划柔性自平衡机器人认知模型内部奖赏 HDP （heuristic dynamic programming） flexible self-balancing robot cognitive model internal reward

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7
2郜园园,阮晓钢,宋洪军.操作条件反射学习自动机及其在机器人平衡控制中的应用[J].控制与决策,2013,28(6):930-934. 被引量：3
3阮晓钢,黄静,范青武,魏若岩.一种基于操作条件反射原理的学习模型[J].控制与决策,2014,29(6):1016-1020. 被引量：4
4方啸,郑德忠.基于自适应动态规划算法的小车自主导航控制策略设计[J].燕山大学学报,2014,38(1):57-65. 被引量：6
5杜治,苏宇,彭昌勇,姚伟,徐敬友,刘巨,文劲宇.基于多层次启发式动态规划算法的电力系统动态等值[J].电力系统保护与控制,2016,44(17):1-9. 被引量：8
6林歆悠,薛瑞,孙冬野.SPHEB基于动态规划的规则控制策略研究[J].系统仿真学报,2013,25(5):1077-1082. 被引量：3
7沈郁,陈伟彪,姚伟,廖诗武,文劲宇,何海波.采用新型自适应动态规划算法的柔性直流输电附加阻尼控制[J].电网技术,2016,40(12):3768-3774. 被引量：14

二级参考文献103

1吕春峰,邵建龙,朱建平,韩东起.基于人工势场法机器人小车避障的研究[J].昆明理工大学学报（理工版）,2005,30(z1):131-134. 被引量：2
2程志江,李剑波.基于模糊控制的智能小车控制系统开发[J].计算机应用,2008,28(S2):350-353. 被引量：10
3李健,陈涵,李大路.电力系统动态等值研究方法综述[J].广东电力,2007,20(2):1-4. 被引量：14
4鞠平,王卫华,谢宏杰,周海强.3区域互联电力系统动态等值的辨识方法[J].中国电机工程学报,2007,27(13):29-34. 被引量：21
5Bernstein D, Zilberstein S, Immerman N. The Complexity of Decentralized Control of Markov Decision Processes. In :Proc of the 16th Conference on Uncertainty in Artificial Intelligence. Stanford, USA, 2000, 32-37.
6Singh S P, Jaakola T, Jordan M I. Reinforcement Learning with Soft State Aggregation. In:Tesauro G, Touretzky D S, Leen T K, eds. Advances in Neural Information Processing Systems 7.Cambridge, USA:MIT Press, 1995, 361-368.
7Moriarty D, Sehultz A, Grefenstette J. Evolutionary Algorithms for Reinforcement Learning. Journal of Artificial Intelligence Research, 1999, 11:241-276.
8Bertsekas D P, Tsitsiklis J N. Neuro-Dynamic Programming.Belmont, USA: Athena Scientific, 1996.
9Barto A G, Mahadevan S. Recent Advances in Hierarchical Reinforcement Learning. Discrete Event Dynamic Systems:Theory and Applications, 2003, 13(4), 41-77.
10Sutton R S, Precup D, Singh S P. Between MDPs and Semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning. Artificial Intelligence, 1999, 112(1-2): 181-211.

共引文献36

1程晓北,沈晶,刘海波,顾国昌,张国印.分层强化学习研究进展[J].计算机工程与应用,2008,44(13):1-5. 被引量：1
2刘全,高阳,陈道蓄,孙吉贵,姚望舒.一种基于启发式轮廓表的逻辑强化学习方法[J].计算机研究与发展,2008,45(11):1824-1830. 被引量：8
3刘全,傅启明,龚声蓉,伏玉琛,崔志明.最小状态变元平均奖赏的强化学习方法[J].通信学报,2011,32(1):66-71. 被引量：15
4曾令康,李大虎,姚伟,孙建波,刘佳,艾小猛,文劲宇,何海波.基于数据驱动的背靠背柔性直流自适应广域阻尼控制[J].中国电机工程学报,2018,38(22):6582-6593. 被引量：2
5李琦,于明伟,赵峰.基于DHP算法的热力站一次网热量分配控制[J].信息与控制,2018,47(6):737-744. 被引量：4
6１[J].控制理论与应用,2015,32(5):675-681.
7刘晓伟,高春鸣.结合行为树与Q-learning优化UT2004中agent行为决策[J].计算机工程与应用,2016,52(3):113-118. 被引量：6
8赵金刚,戈新生.动态规划求解空间双臂机器人非完整运动最优控制问题[J].力学季刊,2016,37(2):225-233. 被引量：8
9赵洪山,兰晓明,米增强.经验Gramian平衡降阶在电力系统中的改进及应用[J].电力系统保护与控制,2017,45(5):51-57. 被引量：1
10关欣,余向阳,南海鹏.交直流混联系统联络线功率振荡分析与抑制[J].高电压技术,2017,43(5):1564-1571. 被引量：6

同被引文献18

1胖永新,金迪,孟宪东.球杆系统的建模、仿真与控制器设计[J].武汉大学学报（工学版）,2005,38(6):142-146. 被引量：27
2李琦,于明伟,赵峰.基于DHP算法的热力站一次网热量分配控制[J].信息与控制,2018,47(6):737-744. 被引量：4
3李惠峰,易文峰,程晓明.基于近似动态规划的目标追踪控制算法[J].北京航空航天大学学报,2019,45(3):597-605. 被引量：2
4朱加华,戈新生,王明泽.三轴航天器姿态控制的自适应动态规划方法[J].北京信息科技大学学报（自然科学版）,2018,33(1):27-32. 被引量：1
5崔黎黎,张勇,张欣.非线性零和微分对策的事件触发自适应动态规划算法[J].控制理论与应用,2018,35(5):610-618. 被引量：4
6蒲俊,马清亮,顾凡.基于自适应动态规划的未知模型非线性系统H_2/H_∞控制[J].电光与控制,2018,25(9):17-21. 被引量：2
7黄长强,赵克新,韩邦杰,魏政磊.一种近似动态规划的无人机机动决策方法[J].电子与信息学报,2018,40(10):2447-2452. 被引量：31
8戴姣,刘春生,孙景亮.基于自适应动态规划的一类非线性系统的容错控制器设计[J].电光与控制,2018,25(10):84-88. 被引量：7
9逯九利,袁朝辉,罗科训.基于近似动态规划的飞机刹车自适应最优控制[J].计算机仿真,2018,35(10):99-103. 被引量：3
10朱坚民,沈昕璐,黄之文.基于RBF神经网络控制的球杆系统位置控制实验研究[J].计算机应用研究,2018,35(12):3747-3751. 被引量：7

引证文献1

1马智慧,苏晓明,李桂君,田振宇.改进的HDP算法研究及其在非线性系统中的应用[J].控制工程,2021,28(9):1893-1901. 被引量：2

二级引证文献2

1孔飞,赵振根,程磊,梁惠勇.输入受限及干扰下固定翼无人机强化学习控制[J].电光与控制,2024,31(2):21-28.
2洪金文,王力超,陈邱卓,胡耀聪.一类欠驱动系统的变结构自抗扰控制[J].兵器装备工程学报,2024,45(5):259-266.

1张正平.企业到底经营管理什么[J].企业文化,2018,0(1):51-53.
2侯丽.我的游戏,我做主——以种植区为例,谈中班幼儿自主性的培养[J].考试周刊,2017,0(49):188-188. 被引量：1
3王薇.人际交往中的委婉劝说策略研究[J].语文建设,2017,0(11Z):63-64. 被引量：1
4魏丽丽,冲蕾,肖曼琳.《车站信号自动控制技术》实验课程探究[J].科技资讯,2017,15(25):149-150. 被引量：4
5戴建良.课堂教学中发展学生化学核心素养——以必修2“乙醇”教学片段为例[J].中学化学教学参考,2017,0(23):26-30. 被引量：3
6骆景光,韩凌,陈立伟,陈欣,胡文泽,高赟,马铮,辛筱茗,贾叶,杨明.无戒烟意愿急性冠脉综合征患者不愿意戒烟原因分析[J].公共卫生与预防医学,2017,28(5):139-141. 被引量：3
7李靖,林泽栋,郜红合,刘兆龙.将TRIZ理论应用于大学生创新思维教育与实践[J].大学教育,2017(12):170-172. 被引量：3
8梁英波,张利红.基于改进ADHDP算法的倒立摆学习控制[J].周口师范学院学报,2017,34(5):46-49.
9唐超超,姜偕富,范化续,张译文.一类线性离散网络控制系统的稳定性准则[J].杭州电子科技大学学报（自然科学版）,2017,37(6):41-47. 被引量：2
10李永忠,郑滔.基于标签的半监督HDP文本分类主题模型[J].模式识别与人工智能,2017,30(12):1138-1148. 被引量：4

系统仿真学报

2018年第1期

浏览历史

内容加载中请稍等...

柔性机器人多层启发式动态规划平衡认知研究被引量：1

参考文献7

二级参考文献103

共引文献36

同被引文献18

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

柔性机器人多层启发式动态规划平衡认知研究 被引量：1

参考文献7

二级参考文献103

共引文献36

同被引文献18

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

柔性机器人多层启发式动态规划平衡认知研究被引量：1