稀疏奖励下基于情感的异构多智能体强化学习被引量：5

Emotion-Based Heterogeneous Multi-agent Reinforcement Learning with Sparse Reward

下载PDF

导出

摘要在强化学习中,当处于奖励分布稀疏的环境时,由于无法获得有效经验,智能体收敛速度和效率都会大幅下降.针对此类稀疏奖励,文中提出基于情感的异构多智能体强化学习方法.首先,建立基于个性的智能体情感模型,为异构多智能体提供激励机制,作为外部奖励的有效补充.然后,基于上述激励机制,融合深度确定性策略,提出稀疏奖励下基于内在情感激励机制的深度确定性策略梯度强化学习算法,加快智能体的收敛速度.最后,在多机器人追捕仿真实验平台上,构建不同难度等级的稀疏奖励情景,验证文中方法在追捕成功率和收敛速度上的有效性和优越性. In reinforcement learning,the convergence speed and efficiency of the agent are greatly reduced due to its inability to acquire effective experience in an sparse reward distribution environment.Aiming at this kind of sparse reward problem,a method of emotion-based heterogeneous multi-agent reinforcement learning with sparse reward is proposed in this paper.Firstly,the emotion model based on personality is established to provide incentive mechanism for multiple heterogeneous agents as an effective supplement to external rewards.Then,based on this mechanism,a deep deterministic strategy gradient reinforcement learning algorithm based on intrinsic emotional incentive mechanism under sparse rewards is proposed to accelerate the convergence speed of agents.Finally,multi-robot pursuit is used as a simulation experiment platform to construct sparse reward scenarios with different difficulty levels,and the effectiveness and superiority of the proposed method in pursuit success rate and convergence speed are verified.

作者方宝富马云婷王在俊王浩 FANG Baofu;MA Yunting;WANG Zaijun;WANG Hao(School of Computer Science and Information Engineering,Hefei University of Technology,Hefei 230601;Anhui Province Key Laboratory of Affective Computing and Advanced Intelligent Machine,Hefei University of Technology,Hefei,230601;Key Laboratory of Flight Techniques and Flight Safety,Civil Aviation Flight University of China,Guanghan 618307)

机构地区合肥工业大学计算机与信息学院合肥工业大学情感计算与先进智能机器安徽省重点实验室中国民用航空飞行学院民航飞行技术与飞行安全重点实验室

出处《模式识别与人工智能》 EI CSCD 北大核心 2021年第3期223-231,共9页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金项目(No.61872327)、中央高校基本科研业务费专项资金项目(No.ACAIM190102)、民航飞行技术与飞行安全重点实验室开放基金项目(No.FZ2020KF07)资助。

关键词强化学习稀疏奖励奖励机制情感模型 Reinforcement Learning Sparse Reward Reward Mechanism Emotion Model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1于腾旭,刘文,刘方.基于强化学习视角的情绪调节研究及展望[J].心理技术与应用,2019,7(3):183-192. 被引量：2
2李海芳,何海鹏,陈俊杰.性格、心情和情感的多层情感建模方法[J].计算机辅助设计与图形学学报,2011,23(4):725-730. 被引量：20

二级参考文献19

1杨国亮,王志良.情感建模研究进展[J].自动化技术与应用,2004,23(11):1-4. 被引量：15
2滕少冬,王志良,王莉,刘冀伟,解仑.基于马尔可夫链的情感计算建模方法[J].计算机工程,2005,31(5):17-19. 被引量：14
3白露,马慧,黄宇霞,罗跃嘉.中国情绪图片系统的编制——在46名中国大学生中的试用[J].中国心理卫生杂志,2005,19(11):719-722. 被引量：314
4王玉洁,王志良,王国江,陈锋军,王怀威.一种情感模型的研究[J].辽宁工程技术大学学报（自然科学版）,2006,25(4):635-637. 被引量：1
5谷学静,王志良,刘冀伟,刘杉.基于HMM的人工心理建模方法研究[J].计算机应用研究,2006,23(12):30-32. 被引量：5
6Ortony A, Clore G L, Collins A. The cognitive structure of emotions [M]. Cambridge: Cambridge University Press, 1990:150-161.
7Elliott C. Multi media communication with emotion-driven "believable agents" [C] //Proceedings of AAAI Spring Symposium on Believable Agents. Palo Alto: Stanford University Press, 1994:500-519.
8Picard W. Affective computing [M]. Cambridge: MIT Press, 1997: 129-142.
9薛为民,王志良.基于EHMM的情感虚拟人心理模型研究[C]//中国人工智能学会第10届全国学术年会论文集.北京:北京邮电大学出版社,2003:712-716.
10Kshirsagar S, Magnenat Thalmann N. A multilayer personality model [C] //Proceedings of the 2nd International Symposium on Smart Graphics. New York~ ACM Press, 2002:107-115.

共引文献20

1李玉强,黄瑜,孙念,李琳,刘爱华.基于性格情绪特征的改进主题情感模型[J].中文信息学报,2020(7):96-104. 被引量：1
2马洪江,周相兵.满足情感蚁群的服务组合优化方法[J].计算机应用,2012,32(12):3347-3352. 被引量：1
3何文译,林鸿飞,杨亮.基于群体智慧的电影排序模型[J].江西师范大学学报（自然科学版）,2013,37(2):136-141. 被引量：4
4郭伏,郝哲哲,许娜,屈庆星,丁一.基于情感体验的应用软件可用性评估方法研究[J].工业工程与管理,2013,18(2):146-152. 被引量：9
5曹建芳,陈俊杰,李海芳.基于Adaboost-BP神经网络的图像情感分类方法研究[J].山西大学学报（自然科学版）,2013,36(3):331-337. 被引量：11
6曹建芳,陈俊杰.基于开放环境下行为学实验的图像情感语义数据分析[J].曲阜师范大学学报（自然科学版）,2014,40(1):26-30.
7曹建芳,陈俊杰,李海芳,赵涓涓.基于模糊理论的场景图像情感语义标注方法研究[J].重庆师范大学学报（自然科学版）,2014,31(2):67-71.
8曹建芳,陈俊杰,李海芳.基于改进的OCC情感模型的自然风景图像分类研究[J].计算机应用与软件,2014,31(6):181-184. 被引量：5
9曹建芳,陈俊杰,杨灿.面向自然语言理解的图像情感语义检索[J].湖南科技大学学报（自然科学版）,2014,29(2):81-85. 被引量：1
10周豪,谢昕.基于认知的情感多Agent交互建模研究[J].软件工程师,2014(12):7-8.

同被引文献25

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：472
2顾苏杭,王士同.基于数据点本身及其位置关系辅助信息挖掘的分类方法[J].模式识别与人工智能,2018,31(3):197-207. 被引量：13
3汪浩,姜顺,潘丰.基于Round-Robin协议网络化系统的故障检测[J].信息与控制,2019,48(5):595-602. 被引量：5
4孙彧,曹雷,陈希亮,徐志雄,赖俊.多智能体深度强化学习研究综述[J].计算机工程与应用,2020,56(5):13-24. 被引量：66
5Wenbin XIAO,Liang CAO,Hongyi LI,Renquan LU.Observer-based adaptive consensus control for nonlinear multi-agent systems with time-delay[J].Science China(Information Sciences),2020,63(3):185-201. 被引量：17
6平瑞,周水生,李冬.高度不平衡数据的代价敏感随机森林分类算法[J].模式识别与人工智能,2020,33(3):249-257. 被引量：24
7Yang YANG,Yanfei LI,Dong YUE.Event-trigger-based consensus secure control of linear multi-agent systems under DoS attacks over multiple transmission channels[J].Science China(Information Sciences),2020,63(5):101-114. 被引量：6
8Yun-peng WANG,Kun-xian ZHENG,Da-xin TIAN,Xu-ting DUAN,Jian-shan ZHOU.Cooperative channel assignment for VANETs based on multiagent reinforcement learning[J].Frontiers of Information Technology & Electronic Engineering,2020,21(7):1047-1058. 被引量：5
9孙长银,穆朝絮.多智能体深度强化学习的若干关键科学问题[J].自动化学报,2020,46(7):1301-1312. 被引量：84
10郑健,陈建,朱琨.基于多智能体强化学习的无人集群协同设计[J].指挥信息系统与技术,2020,11(6):26-31. 被引量：9

引证文献5

1康倩,周水生.光滑有下界的奖惩结合损失函数的最大间隔双球模型[J].模式识别与人工智能,2021,34(10):885-897. 被引量：1
2王浩,汪京,方宝富.稀疏奖励场景下基于个体落差情绪的多智能体协作算法[J].模式识别与人工智能,2022,35(5):451-460.
3张政锋,赵彬琦,单洪明,张军平.问题设定驱动的深度强化学习研究:综述[J].模式识别与人工智能,2022,35(8):718-742. 被引量：2
4熊丽琴,曹雷,赖俊,陈希亮.基于值分解的多智能体深度强化学习综述[J].计算机科学,2022,49(9):172-182. 被引量：15
5宋金波,董宏丽,申雨轩,张金南.Round-Robin协议下基于观测器的多智能体系统H∞一致性控制[J].信息与控制,2022,51(6):719-729. 被引量：1

二级引证文献19

1曲宗峰.智能家居系统的Multi-Agent建模研究[J].家电科技,2022(5):16-21. 被引量：1
2徐磊,张志,章方圆,夏天.基于深度学习和白流量过滤的网络流量检测系统研究[J].电子技术与软件工程,2023(6):1-4.
3王慧琴,苗国英,孙英博.基于多智能体强化学习值分解的优化算法[J].电子测量技术,2023,46(7):73-79.
4徐延军,陈建雄.基于深度强化学习的平滑车速控制系统[J].上海船舶运输科学研究所学报,2023,46(3):35-41.
5项凤涛,罗俊仁,谷学强,苏炯铭,张万鹏.群视角下的多智能体强化学习方法综述[J].智能科学与技术学报,2023,5(3):313-329. 被引量：2
6韩翔宇,李慧,梁硕,王书强.强化学习理论下农村物流配送最优路径规划[J].计算机仿真,2023,40(8):154-158.
7廖登宇,张震,赵德京,崔浩岩.基于多智能体深度强化学习的机器人协作搬运方法[J].电子设计工程,2023,31(23):7-11.
8曹子建,孙泽龙,闫国闯,傅妍芳,杨博,李秦洁,雷凯麟,高领航.基于强化学习的无人机集群对抗策略推演仿真[J].兵工学报,2023,44(S02):126-134.
9王海,潘越,郭继光,陆泽健,于荣欢.基于人机智能融合技术的态势感知应用研究[J].中国电子科学研究院学报,2023,18(12):1100-1112. 被引量：1
10刘彦武.基于离散数学模型的网络多信道时延一致性控制方法[J].信息与电脑,2024,36(3):164-166.

1张辉.高校基层党组织治理体系构建与组织力提升的实证研究[J].武汉船舶职业技术学院学报,2021,20(1):9-13. 被引量：1
2肖静.丹麦实施幼小衔接的目的、举措及启示[J].教育导刊（下半月）,2021(4):91-96. 被引量：1

模式识别与人工智能

2021年第3期

浏览历史

内容加载中请稍等...

稀疏奖励下基于情感的异构多智能体强化学习被引量：5

参考文献2

二级参考文献19

共引文献20

同被引文献25

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

稀疏奖励下基于情感的异构多智能体强化学习 被引量：5

参考文献2

二级参考文献19

共引文献20

同被引文献25

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

稀疏奖励下基于情感的异构多智能体强化学习被引量：5