基于递阶强化学习的自主机器人路径规划智能体被引量：5

Autonomous robots path planning agent based on hierarchical reinforcement learning

下载PDF

导出

摘要递阶强化学习是解决状态空间庞大的复杂系统智能体决策的有效方法。通过引入启发式算法思想,对一种递阶强化学习方法进行改进,使得智能体在学习过程中融入了历史信息,提高了学习效率,解决了在庞大状态空间和动态变化环境中对智能体进行最优行为策略学习的问题。以扩展的信念、愿望和意图意识模型为基础,提出了一种具有主动性、自治性、反应性、社会性的自主机器人路径规划智能体体系结构,通过仿真实验,证明了路径规划智能体的可行性和有效性。 Hierarchical reinforcement learning was an effective method to solve decision problems for complex system agent with enormous number of states. By introducing heuristic algorithm, a hierarchical reinforcement learning method was improved, making the agent obtain historical information in the learning process to increase the learning efficiency so as to solve the optimal strategy of agent learning problem in large-scale state space and dynamic environment. Based on expanded Belief Desire Intention （BDI） model, the architecture of autonomous robot path planning agent was presented with properties as initiative, autonomy, reactivity and sociability. It was proved by simulation that the path planning agent was feasible and effective.

作者王文玺肖世德孟祥印陈应松张卫华

机构地区西南交通大学机械工程学院西南交通大学牵引动力国家重点实验室

出处《计算机集成制造系统》 EI CSCD 北大核心 2009年第6期1215-1221,共7页 Computer Integrated Manufacturing Systems

基金国家973计划资助项目(2007CB714701)~~

关键词智能体强化学习意识模型路径规划 agent reinforcement learning consciousness model path planning

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
2SUTTON R S, BARTO A G. Reinforcement learning:an introduction[M]. Cambridge, Mass., USA:MIT Press, 1998.
3BRATMAN M E. Intentions, plans, and practical reason[M]. Cambridge, Mass., USA:Harvard University Press, 1987.
4陈卫东,席裕庚,顾冬雷.自主机器人的强化学习研究进展[J].机器人,2001,23(4):379-384. 被引量：16
5DIETTERICH T. The MAXQ method for hierarchical reinforcement learning[C]//Proceedings of the 15th ICML. San Francisco, Cal. , USA : Morgan Kaufmann, 1998 :118-126.
6SPIROS K, DANIEL K. Reinforcement learning of coordination in cooperative MAS[C]//Proceedings of the 8th National Conference on AI. Alberta, Canada:ACM Press, 2002:326-331.
7胡山立,石纯一.理性Agent的意图维护模型[J].计算机研究与发展,2001,38(9):1046-1050. 被引量：6
8TESSIER C, CHAUDRON L. Confilicting Agents-conflict management in multi Agent systems[M]. Dordrecht, Netherlands: Kluwer Academic Publishers, 2001.
9胡山立,fzu.edu.cn,石纯一.Agent的意图模型[J].软件学报,2000,11(7):965-970. 被引量：24
10RAO A S, GEORGEFF M P. BDI Agents:from theory to practice[C]//Proeeedings of the 1st International Conference on Multi-Agent Systems. New York, N. Y. , USA: ACM Press, 1995:312-319.

二级参考文献18

1于功弟.DSS的新决策方法——模糊决策法的应用[J].计算机工程,1993,19(2):20-23. 被引量：2
2Rao A S，Principles of Knowledge Representation and Reasoning. Proceedings of the 2 nd In，1991年，473页
3Rao A S，Proceedings of the12 th International Joint Conference on Artificial Intelligenc，1991年，498页
4Lin L J，Proc AAAI'91，1991年，781页
5Lin L J，From Animals to Animates:Int Conference on Simulation of Adaptive Behavior，1991年
6MitchellTM著曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003..
7张东摩,陈世福.AODE中智能体心智状态的表示与处理[J].软件学报,1997,8(A00):357-364. 被引量：2
8胡山立,石纯一.适用于Agent非正规模态算子的一种语义解释[J].计算机研究与发展,1999,36(10):1153-1157. 被引量：8
9张汝波,杨广铭,顾国昌,张国印.Q-学习及其在智能机器人局部路径规划中的应用研究[J].计算机研究与发展,1999,36(12):1430-1436. 被引量：17
10蔡庆生,张波.一种基于Agent团队的强化学习模型与应用研究[J].计算机研究与发展,2000,37(9):1087-1093. 被引量：31

共引文献84

1尹红丽,王永明,夏幼明.基于线性时序逻辑的多Agent协商推理模型[J].计算机研究与发展,2006,43(z1):79-83.
2茅洪波,于万波,魏小鹏,姜丽丽.BDI agent导引修改机制用于Peer to Peer系统文件操作[J].大连理工大学学报,2003,43(z1):111-114.
3郭晓军,杨建军,李红卫.Agent仿真中具有先验知识的混合学习算法与混合结构模型[J].海军航空工程学院学报,2007,22(2):247-251.
4范辉,李晋江,张晖.Agent计算的理论[J].系统仿真学报,2001,13(S2):250-252. 被引量：4
5谢云,杨宜民.全自主机器人足球系统的研究综述[J].机器人,2004,26(5):474-480. 被引量：21
6易伟华,夏海光,陈学广.基于BDI和知识水平的分布式协调推理[J].系统工程,2004,22(7):93-98. 被引量：5
7胡琼杰,邵伟民,瞿海军.基于移动代理的移动客户机缓存管理[J].计算机工程与设计,2004,25(9):1563-1565. 被引量：1
8于万波,袁宝民,魏小鹏.规则参数制约下信念、期望及意图主体的前提结论模型演化机制[J].石油大学学报（自然科学版）,2004,28(6):75-79.
9杨红颖,王向阳,赵红.一种基于多Agent的远程教学模型框架[J].现代远距离教育,2005(2):53-57. 被引量：19
10周熠,陈小平.隐式愿望及其形式化[J].软件学报,2005,16(5):771-778. 被引量：1

同被引文献63

1沈晶,顾国昌,刘海波.未知动态环境中基于分层强化学习的移动机器人路径规划[J].机器人,2006,28(5):544-547. 被引量：15
2LaValle S M. Planning algorithms[M]. 2nd ed. New York, NY, USA: Cambridge University Press, 2006.
3Tisdale J, Kim Z, Hedrick J. Autonomous UAV path planning and estimation[J]. IEEE Robotics and Automation Magazine, 2009, 16(2): 35-42.
4Fahimi E Autonomous robots modeling, path planning, and control[M]. Boston, USA: Springer Science+Business Media, LLC, 2009.
5Kuwata Y, How J. Three dimensional receding horizon control for UAVs[C]//AIAA Guidance, Navigation, and Control Conference. Reston, VA, USA: AIAA, 2004:2100-2113.
6Earl M G, D'Andrea R. Iterative MILP methods for vehicle con- trol problems[J]. IEEE Transactions on Robotics, 2005, 21(6): 1158-1167.
7Chen Y, Han J D. LP-based path planning for target pursuit and obstacle avoidance in 3D relative coordinates[C]//American Control Conference. Piseataway, NJ, USA: IEEE, 2010: 5394- 5399.
8Goerzen C, Kong Z, Mettler B. A survey of motion planning al- gorithms from the perspective of autonomous UAV guidance[J]. Journal of Intelligent and Robotic Systems, 2010, 57(1-4): 65- 100.
9Vasudevan C, Ganesan K. Case-based path planning for autonomous underwater vehicles[J]. Autonomous Robots, 1996, 3(2/3): 79-89.
10Kruusmaa M. Global level path planning for mobile robots in dynamic environments[J]. Journal of Intelligent and Robotic Systems, 2003, 38(1): 55-83.

引证文献5

1陈洋,张道辉,赵新刚,韩建达.基于IHDR自主学习框架的无人机3维路径规划[J].机器人,2012,34(5):513-518. 被引量：14
2孙艺彬,杨慧珍.基于定向约束的脉冲耦合神经网络路径规划[J].计算机科学,2019,46(S11):28-32. 被引量：4
3杨琪森,王慎执,桑金楠,王朝飞,黄高,吴澄,宋士吉.复杂开放水域下智能船舶路径规划与避障方法[J].计算机集成制造系统,2022,28(7):2030-2040. 被引量：14
4李伟科,岳洪伟,王宏民,杨勇,赵敏,邓辅秦.基于改进强化学习的模块化自重构机器人编队[J].计算技术与自动化,2022,41(3):6-13. 被引量：3
5李子怡,胡祥涛,张勇乐,许建军.基于虚拟目标制导的自适应Q学习路径规划算法[J].计算机集成制造系统,2024,30(2):553-568.

二级引证文献35

1孙健.基于规则的船舶智能避碰决策关键技术分析[J].运输经理世界,2022(27):155-157. 被引量：1
2黄敏,路飞,李晓磊,田国会,孟可.基于IHDR算法和BP神经网络复合框架的机器人服务自主认知和发育系统[J].机器人,2019,41(5):609-619. 被引量：6
3刘晋,张喜亮,王骏翔,龚沛朱,俞子俊,李兴业.基于认知互动的船舶自主进出港关键技术分析[J].港口科技,2023(8):10-14.
4姜军,齐俊桐,韩建达.面向机动飞行的多旋翼飞行器设计和建模与控制[J].科学通报,2013,58(S2):135-144. 被引量：8
5钱夔,宋爱国,章华涛,张立云.基于自主发育神经网络的机器人室内场景识别[J].机器人,2013,35(6):703-708. 被引量：8
6钱夔,宋爱国,章华涛,张立云.基于单胺类神经递质调节发育算法的机器人视觉定位[J].机器人,2014,36(3):362-368. 被引量：6
7吴德伟,杜佳,戚君宜,杨俊强.向人脑学习的UCAV认知导航航迹规划研究[J].空军工程大学学报（自然科学版）,2014,15(5):46-51. 被引量：3
8陈成,何玉庆,卜春光,韩建达.基于四阶贝塞尔曲线的无人车可行轨迹规划[J].自动化学报,2015,41(3):486-496. 被引量：77
9张德龙,李威凌,吴怀宇,陈洋.基于学习机制的移动机器人动态场景自适应导航方法[J].信息与控制,2016,45(5):521-529. 被引量：6
10张阳,司光亚,王艳正.无人集群作战建模与仿真综述[J].电子信息对抗技术,2018,33(3):30-36. 被引量：14

1王文玺,肖世德,孟祥印,陈应松,张卫华.基于Agent的递阶强化学习模型与体系结构[J].机械工程学报,2010,46(2):76-82. 被引量：4
2李晓萌,杨煜普,许晓鸣.基于递阶强化学习的多智能体AGV调度系统[J].控制与决策,2002,17(3):292-296. 被引量：8
3王帆.网络危机意识模型构建[J].中国教育技术装备,2012(15):20-22.
4刘勇,蒲树祯,程代杰,曹泽翰.BDI模型信念特性研究[J].计算机研究与发展,2005,42(1):54-59. 被引量：7
5许娜,孙爽,许立勇,董彦荣.Agent体系结构综述[J].内蒙古科技与经济,2008(6):220-221. 被引量：4
6徐敏杰,胡兆光,单葆国,吴俊勇.电力需求影响因素的解释结构模型分析[J].中国电力,2009,42(4):1-5. 被引量：15
7祝长生,王志良.基于注意度评价的人工意识模型[J].计算机科学,2010,37(8):229-231. 被引量：2
8李洋,徐伯初.情境意识理论及其在机车人机界面设计中的应用[J].人类工效学,2010,16(4):44-47. 被引量：8
9李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26
10叶媛媛,薛宏涛,沈林成.交互式智能体体系结构应用研究[J].计算机与现代化,2001(1):27-31. 被引量：2

计算机集成制造系统

2009年第6期

浏览历史

内容加载中请稍等...

基于递阶强化学习的自主机器人路径规划智能体被引量：5

参考文献13

二级参考文献18

共引文献84

同被引文献63

引证文献5

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于递阶强化学习的自主机器人路径规划智能体 被引量：5

参考文献13

二级参考文献18

共引文献84

同被引文献63

引证文献5

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于递阶强化学习的自主机器人路径规划智能体被引量：5