DP-Q(λ):大规模Web3D场景中Multi-agent实时路径规划算法被引量：4

DP-Q(λ):Real-time Path Planning for Multi-agent in Large-scale Web3D Scene

下载PDF

导出

摘要大规模场景中Multi-agent可视化路径规划算法,需要在Web3D上实现实时、稳定的碰撞避让。提出了动态概率单链收敛回溯DP-Q(λ)算法,采用方向启发约束,使用高奖赏或重惩罚训练方法,在单智能体上采用概率p(0-1随机数)调节奖罚值,决定下一步的寻路策略,同时感知下一位置是否空闲,完成行走过程的避碰行为,将单智能体的路径规划方案扩展到多智能体路径规划方案中,并进一步在Web3D上实现了这一方案。实验结果表明:该算法实现的多智能体实时路径规划具备了在Web3D上自主学习的高效性和稳定性的要求。 The path planning of multi-agent in an unknown large-scale scene needs an efficient and stable algorithm,and needs to solve multi-agent collision avoidance problem,and then completes a real-time path planning in Web3D.To solve above problems,the DP-Q(λ) algorithm is proposed;and the direction constraints,high reward or punishment weight training methods are used to adjust the values of reward or punishment by using a probability p(0-1 random number).The value from reward or punishment determines its next step path planning strategy.If the next position is free,the agent could walk to it.The above strategy is extended to multi-agent path planning,and is used in Web3D.The experiment shows that the DP-Q(λ) algorithm is efficient and stable in the Web3D real-time multi-agent path planning.

作者闫丰亭贾金原 Yan Fengting;Jia Jinyuan(School of Software Engineering,Shanghai 201804,China)

机构地区同济大学

出处《系统仿真学报》 CAS CSCD 北大核心 2019年第1期16-26,共11页 Journal of System Simulation

基金国家自然科学基金面上项目(61272270)

关键词 WEB3D 大规模未知环境多智能体强化学习动态奖赏p 路径规划 Web3D large-scale unknown environment multi-agent reinforcement learning dynamic rewards p,path planning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1Xin MA,Ya XU,Guo-qiang SUN,Li-xia DENG,Yi-bin LI.State-chain sequential feedback reinforcement learning for path planning of autonomous mobile robots[J].Journal of Zhejiang University-Science C(Computers and Electronics),2013,14(3):167-178. 被引量：5

二级参考文献40

1Agirrebeitia, 3., Aviles, R., de Bustos, I.F., Ajuria, C., 2005. A new APF strategy for path planning in environments with obstacles. Mech. Maeh. Theory., 40(6):645-658. Idol: 10.1016/j.meehmaeht heory.2005.01.0061.
2Alexopoulos, C., Griffin, P.M., 1992. Path plmming for a. mobile robot. IEEE Trans. S'yst. Man CybeT"r,, 22(2): 318-322. [doi:10.1109/21.148404].
3AI-Taharwa, I., Sheta, A., Al-Weshah, M., 2008. A mobile robot path planning using genetic algorithm in staticenvironment. J. Coztput. Sci., 4(4):341-344.
4Barraquand, J., Langlois, B., Latombe, J.C., 1992. Nu- merical potential field techniques for robot path plan- ning. IEEE Trans. Syst. Man Cybern., 22(2):224-241. [doi: 10.1109/21.148426].
5Cao, Q., Huang, Y., Zhou, J., 2006. An Evolutionary Artificial Potential Field Algorithm for Dynamic Path Planning of Mobile Robot. Proc. IEEE/RSJ Int. Conf. on Intelligent Robots and Systems, p.3331-3336. [doi: 10.1109/IROS.2006.2825081.
6Castiilo, 0., Trujillo, L., Melin, P., 2007. Multiple objective genetic algorithms for path-planning optimization in autonomous mobile robots. Soft Conput., 11(3):269- 279. [doi: 10.1007/s00500-006-0068-4].
7I)earden, R., Friedman, N., Russell, S., 1998. Bayesian Q-Learning. Proc. National Conf. on Artificial Intelli- gence, p.761-768.
8Dolgov, D., Thrun, S., Montemerlo, M., Diebet, J., 2010. Path planning for autonomous vehicles in unknown semi-structured environments. Int. J. Robot. Res., 29(5):485-501. [doi: 10.1177/0278364909359210].
9Framling, K., 2007. Guiding exploration by pre-existing knowledge without modifying reward. Neur. Networks, 20(6):736-747. Idol: 10.1016/j.neunet.2007.02.0011.
10Garcia, M.A., Montiel, O., Castillo, O., Sepulveda, R., Melin, P., 2009. Path planning for autonomous mobile robot navigation with ant colony optimization and fuzzy cost function evaluation. Appl. Soft Comput., 9(3):1102- 1110. [doi: 10.1016/j .asoc.2009.02.014].

共引文献4

1孙凤山,张威,葛琳琳.移动机器人在未知环境中避障的控制策略[J].辽宁石油化工大学学报,2016,36(4):69-72. 被引量：3
2周思达,李罗宇,唐嘉宁,杨昕.无人机RLT的三维山地仿真环境搭建与制作[J].计算机仿真,2023,40(5):87-93. 被引量：1
3王小康,冀杰,刘洋,贺庆.基于改进Q学习算法的无人物流配送车路径规划[J].系统仿真学报,2024,36(5):1211-1221. 被引量：2
4唐嘉宁,李成阳,周思达,马孟星,施炀.基于深度强化学习的无人机自主探索方法[J].计算机科学,2024,51(S02):144-149.

同被引文献38

1陈圣磊,吴慧中,肖亮,朱耀琴.基于Metropolis准则的多步Q学习算法与性能仿真[J].系统仿真学报,2007,19(6):1284-1287. 被引量：7
2洪晔,王宏健,边信黔.基于分层马尔可夫决策过程的AUV全局路径规划研究[J].系统仿真学报,2008,20(9):2361-2363. 被引量：3
3余涛,胡细兵,刘靖.基于多步回溯Q(λ)学习算法的多目标最优潮流计算[J].华南理工大学学报（自然科学版）,2010,38(10):139-145. 被引量：7
4余涛,王宇名,甄卫国,叶文加,刘前进.基于多步回溯Q学习的自动发电控制指令动态优化分配算法[J].控制理论与应用,2011,28(1):58-64. 被引量：14
5赵越.模拟退火算法求解指派问题新探[J].吉林建筑工程学院学报,2011,28(4):61-63. 被引量：5
6宋勇,李贻斌,李彩虹.移动机器人路径规划强化学习的初始化[J].控制理论与应用,2012,29(12):1623-1628. 被引量：27
7傅启明,刘全,孙洪坤,高龙,李瑾,王辉.一种二阶TD Error快速Q(λ)算法[J].模式识别与人工智能,2013,26(3):282-292. 被引量：5
8傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：26
9李伟,门佳.一种事件驱动有限状态机的编程实现框架[J].计算机与现代化,2014(6):116-119. 被引量：6
10张福海,李宁,袁儒鹏,付宜利.基于强化学习的机器人路径规划算法[J].华中科技大学学报（自然科学版）,2018,46(12):65-70. 被引量：49

引证文献4

1季野彪,牛龙辉.基于模拟退火策略的强化学习路径规划算法[J].现代计算机,2019,0(32):12-16. 被引量：5
2陈妙云,王雷,丁治强.基于DP-SAMQ行为树的智能体决策模型研究[J].计算机仿真,2021,38(2):301-307. 被引量：2
3王越龙,王松艳,晁涛.基于多步信息辅助的Q-learning路径规划算法[J].系统仿真学报,2024,36(9):2137-2148.
4黄玉春,宋俊,王宸,孙楠,王勤,钟毓宁.基于变体天牛须改进QL的AGV路径规划算法研究[J].制造技术与机床,2024(10):89-97.

二级引证文献7

1余星宝,杨慧斌,周玉凤,闫健.改进A^*的4阶贝塞尔曲线路径规划[J].轻工机械,2020,38(6):64-67. 被引量：8
2杜卓颖,李金禧,张祥来,朱琳.基于改进Q学习的“货到人”拣选系统AGV路径规划[J].物流技术,2020,39(12):88-92.
3胡佳斌,王祥澍,张琪,全瑞坤.优化多步长蚁群算法求解机器人路径规划问题[J].传感器与微系统,2021,40(10):121-124. 被引量：9
4杨杰,张琪,曾俊杰,尹全军.进化行为树方法研究综述[J].系统仿真学报,2021,33(10):2315-2322. 被引量：2
5方志耕,夏悦馨,张靖如,熊仪,陈静邑.基于Agent的体系过程A-GERT网络“刺激-反应”学习模型[J].系统工程与电子技术,2022,44(8):2540-2553. 被引量：2
6海振洋,王健,牟思凯,杜若飞,费明哲,李晶玮.无人驾驶路径规划算法综述[J].农业装备与车辆工程,2022,60(11):142-146. 被引量：4
7张云景,王昊,王帅,孟斌.基于改进SARSA算法的航空器滑行路径规划[J].郑州航空工业管理学院学报,2024,42(1):43-48.

1李建娇.赏识教育在高中生物课堂中的应用[J].广西教育,2018,0(42):158-159.
2何高奇,江东旭,金祎,陈琪,卢兴见,徐明亮.结合影子障碍物和ORCA模型的人群仿真方法[J].中国科学：信息科学,2018,48(3):233-247. 被引量：3
3颜洁.供电企业人力资源管理中的薪酬奖罚及绩效管理[J].现代企业文化,2018,0(35):331-331.
4倪铁.中国传统悬赏逮捕体制初探——以捕系购赏为分析对象[J].犯罪研究,2018(6):2-7.
5孙尧.新时代国有企业基层党建工作创新的思考[J].现代企业文化,2018,0(32):69-69.
6于营,毛睿,潘玉霞,贾树文.基于TLP模型的智能AGV三维实时路径规划研究[J].包装工程,2019,40(3):218-222.
7杨婧,王詠,宋莉莉.心理韧性的神经机制研究进展[J].神经解剖学杂志,2019,35(1):88-92. 被引量：15
8苏学荣,赵晓峰.舰船在能见度不良时的避碰对策[J].军民两用技术与产品,2017,0(20):82-82.
9申代友,库洪安,皮红英,刘联琦,袁克虹.基于深度相机的老年跌倒监护系统[J].中国医学物理学杂志,2019,36(2):223-228. 被引量：5
10李国武,周越,方兴其.ThinMatch:一种高效大规模场景图像匹配方法[J].中国体视学与图像分析,2018,23(4):417-425.

系统仿真学报

2019年第1期

浏览历史

内容加载中请稍等...

DP-Q(λ):大规模Web3D场景中Multi-agent实时路径规划算法被引量：4

参考文献1

二级参考文献40

共引文献4

同被引文献38

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

DP-Q(λ):大规模Web3D场景中Multi-agent实时路径规划算法 被引量：4

参考文献1

二级参考文献40

共引文献4

同被引文献38

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

DP-Q(λ):大规模Web3D场景中Multi-agent实时路径规划算法被引量：4