融合两级注意力的多机器人强化学习导航

Multi-robot Reinforcement Learning Navigation Incorporating Two Levels of Attention

下载PDF

导出

摘要针对多智能体强化学习中因智能体之间的复杂关系所导致的学习效率低及收敛速度慢的问题,提出基于两级注意力机制的方法MADDPG-Attention,在MADDPG算法的Critic网络中增加了软硬两级注意力机制,通过注意力机制学习智能体之间的可借鉴经验,提升智能体之间的相互学习效率.由于单层的软注意力机制会给完全不相关的智能体也赋予学习权重,因此采用硬注意力判断两个智能体之间学习的必要性,裁减无关信息的智能体,再用软注意力判断两个智能体间学习的重要性,按重要性分布来分配学习权重,据此向有可用经验的智能体学习.在多智能体粒子的合作导航环境上进行测试,实验结果表明,MADDPG-Attention算法对复杂关系的理解更为清晰,在3种环境的导航成功率都达到了90%以上,有效提高了学习效率,加快了收敛速度. To solve the low learning efficiency and slow convergence due to the complex relationship among intelligent agents in multi-agent reinforcement learning,this study proposes a two-level attention mechanism based on MADDPGAttention.The mechanism adds soft and hard attention mechanisms to the Critic network of the MADDPG algorithm and learns the learnable experience among intelligent agents through the attention mechanism to improve the mutual learning efficiency of the agents.Since the single-level soft attention mechanism assigns learning weights to completely irrelevant intelligent agents,hard attention is employed to determine the necessity of learning between two intelligent agents,and the agents with irrelevant information are cut.Then soft attention is adopted to determine the importance of learning between two intelligent agents,and the learning weights are assigned according to the importance distribution to learn from the agents with available experience.Meanwhile,tests on a collaborative navigation environment with multi-agent particles show that the MADDPG-Attention algorithm has a clearer understanding of complex relationships and achieves a success rate of more than 90%in all three environments,which improves the learning efficiency and accelerates the convergence rate.

作者张耀丹况立群焦世超韩慧妍薛红新 ZHANG Yao-Dan;KUANG Li-Qun;JIAO Shi-Chao;HAN Hui-Yan;XUE Hong-Xin(School of Computer Science and Technology,North University of China,Taiyuan 030051,China;Shanxi Key Laboratory of Machine Vision and Virtual Reality North University of China),Taiyuan 030051,China;Shanxi Province’s Vision Information Processing and Intelligent Robot Engineering Research Center,Taiyuan 030051,China)

机构地区中北大学计算机科学与技术学院机器视觉与虚拟现实山西省重点实验室(中北大学) 山西省视觉信息处理及智能机器人工程研究中心

出处《计算机系统应用》 2023年第12期43-51,共9页 Computer Systems & Applications

基金国家自然科学基金(62272426,62106238) 山西省科技重大专项计划(202201150401021) 山西省科技成果转化引导专项(202104021301055) 山西省回国留学人员科研资助项目(2020-113) 山西省基础研究计划(202203021222027)。

关键词多智能体强化学习导航 MADDPG 硬注意力软注意力 multi-agent reinforcement learning navigation MADDPG hard attention soft attention

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献4

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
2项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
3殷雨竹,陈建平,傅启明,陆悠,吴宏杰.基于自监督网络的DDPG算法的建筑能耗控制[J].计算机系统应用,2022,31(2):161-167. 被引量：1
4李卓远,张德平.基于BN-DDPG轻量级强化学习算法的智能兵棋推演[J].计算机系统应用,2023,32(4):293-299. 被引量：1

二级参考文献12

1胡龄爻,陈建平,傅启明,胡文,倪庆文.一种面向建筑节能的强化学习自适应控制方法[J].计算机工程与应用,2017,53(21):239-246. 被引量：9
2刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：470
3杨文臣,张轮,Zhu Feng.多智能体强化学习在城市交通网络信号控制方法中的应用综述[J].计算机应用研究,2018,35(6):1613-1618. 被引量：31
4马骋乾,谢伟,孙伟杰.强化学习研究综述[J].指挥控制与仿真,2018,40(6):68-72. 被引量：41
5邓克波,朱晶,韩素颖,李益龙.面向作战方案分析的计算机兵棋推演系统[J].指挥信息系统与技术,2016,7(5):73-77. 被引量：13
6杜威,丁世飞.多智能体强化学习综述[J].计算机科学,2019,46(8):1-8. 被引量：50
7戴勇,黄杏花.人工智能在计算机兵棋推演领域的应用[J].集成电路应用,2020,37(5):67-69. 被引量：4
8杨瑞,严江鹏,李秀.强化学习稀疏奖励算法研究——理论与实验[J].智能系统学报,2020,15(5):888-899. 被引量：18
9张建行,刘全.基于情节经验回放的深度确定性策略梯度方法[J].计算机科学,2021,48(10):37-43. 被引量：6
10王兴众,王敏,罗威.基于SAC算法的作战仿真推演智能决策技术[J].中国舰船研究,2021,16(6):99-108. 被引量：6

共引文献46

1王昊,林远山,李然,于红,王芳.面向养殖网箱巡检任务的强化学习训练系统[J].计算机与数字工程,2023,51(1):103-111.
2王瑞星,董诗音,江飞龙,黄胜全.稀疏奖励下基于强化学习的异构多智能体对抗[J].信息技术,2021,45(5):12-20. 被引量：2
3赵春领.强化学习在混合动力汽车能量管理上的研究综述[J].汽车实用技术,2021,46(16):178-180.
4黄宁馨,尹翔,乐云亮,彭坤彦.一种基于元学习的改进深度强化学习算法[J].扬州大学学报（自然科学版）,2021,24(3):19-23. 被引量：2
5耿俊香,姜静,魏胜楠,段昶.CIDDPG的多智能体通信优化方法研究[J].沈阳理工大学学报,2021,40(4):29-34. 被引量：1
6杨彤,秦进,谢仲涛,袁琳琳.基于遗传交叉算子的深度Q网络样本扩充[J].计算机系统应用,2021,30(12):155-162. 被引量：1
7吴晓军,张成,原盛,任晓春,王玮.基于强化学习的云资源混合式弹性伸缩算法[J].西安交通大学学报,2022,56(1):142-150. 被引量：3
8王帅,洪振宇.基于强化学习的机场行李装箱优化方法[J].包装工程,2022,43(3):257-263. 被引量：4
9王昊,颜承昊,任俊丽,邵思扬.基于视觉的AUV自主水下管线跟踪方法[J].现代信息科技,2021,5(20):16-19.
10付红圣,曾辉,罗钧鼎.基于强化学习的尺寸质量解决方案[J].汽车工艺与材料,2022(7):7-11. 被引量：1

1柳苏颖.网格作图学习导航[J].科学大众（科学中考）,2023(10):10-12.
2马廷淮,彭可兴,周宏豪,荣欢.具有实时注意力的多智能体强化学习通信模型[J].计算机仿真,2023,40(8):445-450.
3高石印,石玮,王聪阜,刘辉.基于强化学习的雷达对抗侦察无人机航线规划[J].空天预警研究学报,2023,37(2):119-123.

计算机系统应用

2023年第12期

浏览历史

内容加载中请稍等...

融合两级注意力的多机器人强化学习导航

参考文献4

二级参考文献12

共引文献46

相关作者

相关机构

相关主题

浏览历史