利用团队间的影响解决多智能体强化学习中的奖励冲突

Solving reward conflict in multi-agent reinforcement learning by using the influence between teams

下载PDF

导出

摘要本文提出了一种基于智能体间相互作用的MARL学习框架,称为IC,以解决MARL中稀疏奖励环境导致智能体产生冲突的问题。IC的主要功能是根据智能体间的高斯核函数大小赋予不同的值,计算出智能体的影响矩阵,并将影响矩阵的核范数作为额外奖励引入到目标函数中,以提高智能体探索性能以及团队之间的协作能力。实验结果表明,IC可以显著提高智能体间的协作能力,并在稀疏奖励环境中加速智能体对最优策略的学习。这是首次在MARL中尝试利用智能体之间的相互影响来促进智能体的探索能力。 This article proposes a MARL learning framework based on the interaction between agents,called IC,to solve the problem of conflicts between agents caused by sparse reward environments in MARL.The main function of IC is to assign different values based on the Gaussian kernel function size between agents,calculate the influence matrix of agents,and introduce the kernel norm of the influence matrix as an additional reward into the objective function to improve the exploration performance of agents and the collaboration ability between teams.The experimental results indicate that IC can significantly improve the collaboration ability between agents and accelerate their learning of optimal strategies in a sparse reward environment.This is the first attempt in MARL to utilize the mutual influence between agents to promote their exploration ability.

作者赵花蕊 ZHAO Huarui(Platform Economy Development Guidance Center of Henan Province,Zhengzhou 450008,China)

机构地区河南省平台经济发展指导中心

出处《智能计算机与应用》 2024年第10期56-62,共7页 Intelligent Computer and Applications

基金国家自然科学基金(61972092)。

关键词多智能体强化学习稀疏奖励奖励冲突高斯核函数核范数 multi-agent reinforcement learning sparse reward reward conflict Gaussian kernel function kernel norm

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1杜威,丁世飞.多智能体强化学习综述[J].计算机科学,2019,46(8):1-8. 被引量：51
2刘志飞,曹雷,赖俊,陈希亮.基于多智能体深度强化学习的无人机集群自主决策[J].信息技术与网络安全,2022,41(5):77-81. 被引量：3
3罗青,李智军,吕恬生.复杂环境中的多智能体强化学习[J].上海交通大学学报,2002,36(3):302-305. 被引量：9
4杨波,徐升华.基于多智能体建模的知识转移激励机制的演化博弈模型与仿真[J].计算机工程与科学,2010,32(6):162-166. 被引量：3
5赵冬梅,陶然,马泰屹,夏轩,王浩翔.基于多智能体深度确定策略梯度算法的有功-无功协调调度模型[J].电工技术学报,2021,36(9):1914-1925. 被引量：22

二级参考文献53

1陈菊红,林聪.虚拟企业知识共享的过程及其博弈分析[J].情报杂志,2005,24(2):47-49. 被引量：42
2包国宪,李文强.虚拟企业激励方法初探[J].青岛科技大学学报（社会科学版）,2004,20(4):38-41. 被引量：5
3彭灿.虚拟企业中的组织间知识转移与学习[J].科技进步与对策,2005,22(3):10-12. 被引量：21
4郭庆来,孙宏斌,张伯明,吴文传.基于无功源控制空间聚类分析的无功电压分区[J].电力系统自动化,2005,29(10):36-40. 被引量：124
5成桂芳,宁宣熙.虚拟企业内成员企业间知识协作行为的博弈分析[J].科技进步与对策,2005,22(5):10-12. 被引量：14
6齐二石,郑晓东,郑轶松,李钢.基于Web的虚拟企业知识管理系统研究[J].工业工程,2006,9(1):70-74. 被引量：24
7杜维.虚拟企业内部学习策略博弈分析[J].科技管理研究,2006,26(10):121-124. 被引量：6
8Mowshowitz A.Virtual Organization[J].Communication of the ACM,1997,40(9):30-37.
9Eo'Leary D,Kuokka D,Plant R.Artificial Intelligence and Virtual Organization[J].Communication of the ACM,1997,40(1):52-59.
10Majchrzak A,Rice R E,King N,et al.Computer Mediated Inter-Organizational Knowledge Sharing:Insights form a Virtual Team Innovating Using a Collaborative Tool[J].Information Resources Management Journal,2000,13(1):44-53.

共引文献83

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
2谢育星,陆屹,管聪,纪德东.协同空战与多智能体强化学习下的关键问题[J].飞机设计,2023,43(1):6-10.
3王万富,王琢,刘佳鑫,韩亚辉,李春波.基于Qt/Embedded的农林智能装备导航定位算法研究及软件设计[J].国外电子测量技术,2022,41(3):63-68. 被引量：4
4范波,潘泉,张洪才.多智能体学习中基于知识的强化函数设计方法[J].计算机工程与应用,2005,41(3):77-79. 被引量：3
5韩阳.北京图书大厦多项活动庆世界图书日[J].出版参考,2006(05S):9-9.
6韩伟,韩忠愿.基于黑板模型的多智能体合作学习[J].计算机工程,2007,33(22):42-44. 被引量：5
7韩伟.基于边界样本协调的多智能体合作学习[J].模式识别与人工智能,2008,21(1):111-115.
8邢宇明,白振兴.分层强化学习在足球机器人中的应用[J].微计算机信息,2008,24(32):231-233. 被引量：2
9王国磊,钟诗胜,林琳.基于聚类状态隶属度的动态调度Q-学习[J].高技术通讯,2009,19(4):428-433. 被引量：8
10王云,王俊,韩伟.基于进化算法的多智能体合作学习[J].山东大学学报（工学版）,2010,40(6):8-11. 被引量：1

1汪煜坤,易彩,汪浩,周秋阳,冉乐,王靖元.PSD引导的自适应频带划分方法及其在轴承故障诊断中的应用[J].机械工程学报,2024,60(17):179-193.

智能计算机与应用

2024年第10期

浏览历史

内容加载中请稍等...

利用团队间的影响解决多智能体强化学习中的奖励冲突

参考文献5

二级参考文献53

共引文献83

相关作者

相关机构

相关主题

浏览历史