基于智能规划的多智能体强化学习算法

Multi-agent Reinforcement Learning Algorithm Based on AI Planning

下载PDF

导出

摘要目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案能够作为各智能体的初始策略,并为其探索过程提供有效指导,因此尝试将智能规划与多智能体强化学习进行结合求解,并且提出统一模型UniMP(a Unified model for Multi-agent Reinforcement Learning and AI Planning)。在此基础上,设计并建立相应的问题求解机制。首先,将多智能体强化学习任务转化为智能决策任务;其次,对其执行启发式搜索,以得到一组宏观目标,进而指导强化学习的训练,使得各智能体能够进行更加高效的探索。在多智能体即时战略对抗场景StarCraftⅡ的各地图以及RMAICS战车模拟对战环境下进行实验,结果表明累计奖励值和胜率均有显著提升,从而验证了统一模型的可行性、求解机制的有效性以及所提算法灵活应对强化学习环境突发情况的能力。 At present,deep reinforcement learning algorithms have made a lot of achievements in various fields.However,in the field of multi-agent task,agents are often faced with non-stationary environment with larger state-action space and sparse rewards,low exploration efficiency is still a big challenge.Since AI planning can quickly obtain a solution according to the initial state and target state of the task,this solution can serve as the initial strategy of each agent and provide effective guidance for its exploration process,it is attempted to combine them and propose a unified model for multi-agent reinforcement learning and AI planning(UniMP).On the basis of it,the solution mechanism of the problem can be designed and implemented.By transforming the multi-agent reinforcement learning task into an intelligent decision task,and performing heuristic search on it,a set of macroscopic goals will be obtained,which can guide the training process of reinforcement learning,so that agents can conduct more efficient exploration.Finally,experiments are carried out under the various maps of multi-agent real-time strategy game StarCraftⅡand RoboMaster AI Challenge Simulator 2D.The results show that the cumulative reward value and win rate are significantly improved,which verifies the feasibility of UniMP,the effectiveness of solution mechanism and the ability of our algorithm to flexibly deal with the sudden situation of reinforcement learning environment.

作者辛沅霞华道阳张犁 XIN Yuanxia;HUA Daoyang;ZHANG Li(School of Software Technology,Zhejiang University,Ningbo,Zhejiang 315103,China;School of Physics,Zhejiang University,Hangzhou 310027,China;College of Computer Science and Technology,Zhejiang University,Hangzhou 310027,China)

机构地区浙江大学软件学院浙江大学物理学院浙江大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2024年第5期179-192,共14页 Computer Science

关键词多智能体强化学习智能规划启发式搜索探索效率 Multi-agent reinforcement learning AI planning Heuristically search Exploration efficiency

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1张峻伟,吕帅,张正昊,于佳玉,龚晓宇.基于样本效率优化的深度强化学习方法综述[J].软件学报,2022,33(11):4217-4238. 被引量：8

二级参考文献5

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：475
2刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：132
3李跃,邵振洲,赵振东,施智平,关永.面向轨迹规划的深度强化学习奖励函数设计[J].计算机工程与应用,2020,56(2):226-232. 被引量：9
4杨珉,汪洁.解决深度探索问题的贝叶斯深度强化学习算法[J].计算机科学与探索,2020,14(2):307-316. 被引量：8
5杨惟轶,白辰甲,蔡超,赵英男,刘鹏.深度强化学习中稀疏奖励问题研究综述[J].计算机科学,2020,47(3):182-191. 被引量：38

共引文献7

1曹凯,朱勇,高强,刘金华.深度强化学习在自动控制领域研究现状与展望[J].排灌机械工程学报,2023,41(6):638-648. 被引量：6
2马里佳,洪华平,林秋镇,李坚强,公茂果.基于演化深度强化学习的符号网络影响最大化研究[J].软件学报,2023,34(11):5084-5112.
3王少桐,况立群,韩慧妍,熊风光,薛红新.基于优势后见经验回放的强化学习导航方法[J].计算机工程,2024,50(1):313-319.
4毕聪博,唐聿劼,罗永红,陆超.电力系统优化控制中强化学习方法应用及挑战[J].中国电机工程学报,2024,44(1):1-21. 被引量：3
5王璠,王晓淋.基于深度强化学习的水库群供水优化调度研究[J].水利技术监督,2024(7):198-202.
6吕相霖,臧兆祥,李思博,邹耀斌.基于内在好奇心与自模仿学习的探索算法[J].现代电子技术,2024,47(16):137-144.
7周毅,高华,田永谌.基于裁剪优化和策略指导的近端策略优化算法[J].计算机应用,2024,44(8):2334-2341.

1焦一强,朱艳.乌克兰危机与俄罗斯和北约在黑海的战略对抗[J].俄罗斯东欧中亚研究,2023(6):115-136. 被引量：1
2杨春晓,李国强.基本模型:指向乘法数量关系的一致性[J].教学月刊（小学版）（数学）,2024(4):19-23.
3Lei YUAN,Tao JIANG,Lihe LI,Feng CHEN,Zongzhang ZHANG,Yang YU.Robust cooperative multi-agent reinforcement learning via multi-view message certification[J].Science China(Information Sciences),2024,67(4):127-141.
4魏楚元,王昕,周小平,赵光哲,黄明.大型语言模型及其在建筑行业应用研究综述[J].北京建筑大学学报,2024,40(2):1-14. 被引量：1
5张雪松,陈杨,倪筹帷,陈哲,李志浩,陈健.考虑多类型电解槽差异化特征的分布式电热氢系统优化设计[J].浙江电力,2024,43(4):1-11.
6刘业.美欧数据跨境流动博弈中的欧盟技术主权战略及其实现[J].国际法研究,2023(6):64-85. 被引量：8
7牛晓健,杨雯昕.中国A股市场中个股的动量交易策略——基于复杂网络演化博弈理论[J].广西财经学院学报,2024,37(1):75-93.
8林文强,王硕.企业多元化战略、研发投入与抗风险能力研究——基于中美贸易摩擦视角[J].经营与管理,2024(4):97-103.
9Qingyang Zhang,Kaishen Wang,Jingqing Ruan,Yiming Yang,Dengpeng Xing,Bo Xu.Enhancing Multi-agent Coordination via Dual-channel Consensus[J].Machine Intelligence Research,2024,21(2):349-368.
10“助力乡村振兴社会组织在行动(第四期)”暨“2023中国商会会长博鳌论坛”总会海南学习考察活动顺利举办[J].大社会,2024(1):25-26.

计算机科学

2024年第5期

浏览历史

内容加载中请稍等...

基于智能规划的多智能体强化学习算法

参考文献1

二级参考文献5

共引文献7

相关作者

相关机构

相关主题

浏览历史