基于深度强化学习和信息论的多智能体通信方法

Multi-agent communication cooperation based on deep reinforcement learning and information theory

导出

摘要在合作环境的多智能体系统中,有效地进行显式通信可以提高智能体间的协作能力。但现有的通信策略往往将智能体的局部观测值直接作为通信内容,且通信对象通常是按照某种拓扑结构固定的,其结果一方面难以适应任务和环境变化而引起通信过程的不确定性;另一方面,通信对象和通信信息缺乏侧重点会造成通信带宽的资源浪费导致通信效率较低。针对上述多智能体通信协同问题,提出一种融合深度强化学习和信息论的方法来实现多智能体自适应显式通信机制。所提方法采用先验网络使智能体动态地选择通信的对象;再利用互信息的约束和信息瓶颈理论有效过滤冗余信息;最后,汇总自身及接收到的信息推理出更有效的通信内容。通过合作导航和交通路口实验环境证明了该方法对比其他方法提高了多智能体系统的交互效率和合作稳定性。 Effective explicit communication among agents in a multi-agent system can increase their capacity for cooperation. However, existing communication strategies typically use the agents' local observations as the communication content directly, and the communication objects are usually fixed with a certain topology structure. On the one hand, these strategies are difficult to adapt to changes in tasks and environments, which causes uncertainty in the communication process. On the other hand, the communication objects and contents lack focus, resulting in some resource waste and lower communication effectiveness. To address the issues above, this paper proposes an approach that integrates deep reinforcement learning and information theory to realize multi-agent adaptive communication mechanism. The approach uses a prior network to allow the agent to dynamically choose the object, then utilizes the constraints of mutual information and the information bottleneck theory to effectively filter redundant information. Finally, the agent summarizes its own and received information to extract more effective information. The method proposed is demonstrated to improve the stability and interaction efficiency of multi-agent systems compared to other methods through cooperative navigation and traffic junction environments.

作者高兵张哲婕邹启杰刘治国赵锡玲 GAO Bing;ZHANG Zhejie;ZOU Qijie;LIU Zhiguo;ZHAO Xiling(School of Information Engineering Faculty,Dalian University,Dalian 116622,China;Key Laboratory of Communication&Network,Dalian University,Dalian 116622,China)

机构地区大连大学信息工程学院大连大学通信与网络重点实验室

出处《航空学报》 EI CAS CSCD 北大核心 2024年第18期221-233,共13页 Acta Aeronautica et Astronautica Sinica

基金国家自然科学基金(61673084) 2021年辽宁省教育厅项目(LJKZ1180)。

关键词多智能体深度强化学习互信息显式通信信息瓶颈理论合作环境 multi-agent deep reinforcement learning mutual information explicit communication information bottle-neck cooperationenvironment

分类号 V448.2 [航空宇航科学与技术—飞行器设计] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1魏琳慧,刘国文,刘雨,望育梅.基于深度强化学习的卫星互联网路由优化研究[J].天地一体化信息网络,2022,3(3):65-71. 被引量：6

二级参考文献5

1吴巍.天地一体化信息网络发展综述[J].天地一体化信息网络,2020,1(1):1-16. 被引量：72
2杨丹,刘江,张然,刘方琪,欧阳曼,黄韬,刘韵洁.基于SDN的卫星通信网络:现状、机遇与挑战[J].天地一体化信息网络,2020,1(2):34-41. 被引量：13
3李新桐,张亚生.一种适用于低轨卫星的SDN网络人工智能路由方法[J].电子测量技术,2020,43(22):109-114. 被引量：10
4徐晖,孙韶辉.面向6G的天地一体化信息网络架构研究[J].天地一体化信息网络,2021,2(4):1-9. 被引量：20
5安建平,李建国,于季弘,叶能.空天通信网络关键技术综述[J].电子学报,2022,50(2):470-479. 被引量：9

共引文献5

1刘雅琼,吕哲,赵亚飞,寿国础.AI技术在卫星通信/互联网领域的应用综述[J].电信科学,2023,39(2):10-24. 被引量：3
2王葆葆,张秋旋,任晓航,王泼,朱荣臻.6G网络中的星地一体化[J].中国新通信,2023,25(9):1-3.
3何健.基于深度学习算法的SDN路由动态优化方法[J].重庆科技学院学报（自然科学版）,2023,25(6):41-46. 被引量：3
4戴翠琴,吴旭帆,程白凡,杜涛.面向6G AI内生的星地融合组网研究[J].移动通信,2024,48(8):102-110.
5陶志刚,于洋,顾昕钰,张玉兔.基于弹性空间体系的卫星自主组网技术综述[J].先进小卫星技术（中英文）,2024,1(3):1-11.

1周文娇.浅谈全面预算管理在集团公司财务管理中的应用[J].中国乡镇企业会计,2024(11):65-67.
2李洪英.中国-东盟共建“数字丝绸之路”的挑战与策略选择[J].时代经贸,2024,21(10):93-97.
3阮磊,甘爽,殷然.物资供应链的优化与协同管理研究[J].中国物流与采购,2024(19):81-82.
4中国面向全球开放12个核科研设施[J].辐射防护,2024,44(5):475-475.
5张旦,卢玲,谭冬玉.结构式心理护理对骨盆骨折患者情绪状态、疾病不确定感和心理弹性的影响[J].心理月刊,2024(16):182-184.
6张晖,杨兆峰,张鑫刚,王琦,薛培.采用SSI协议实现的通信控制器设计[J].电子技术应用,2024,50(10):93-97.
7张旭凤,田雪,温卫娟.三业融通,产教融合,育新时代物流人——以北京物资学院物流人才培养的实践为例[J].中国储运,2024(10):175-176.
8吕勇波,李柄锦,赵志明,卢喜丰.基于数字化的反应堆系统力学分析集成技术研究[J].科技视界,2024,14(20):38-42.
9王妤琼.基于计算机通信的RPA系统设计研究[J].通信电源技术,2024,41(20):8-10.
10梁树生,朱志雄.荧光法和紫外法测定海水中石油类的对比研究[J].广东化工,2024,51(20):16-19.

航空学报

2024年第18期

浏览历史

内容加载中请稍等...

基于深度强化学习和信息论的多智能体通信方法

参考文献1

二级参考文献5

共引文献5

相关作者

相关机构

相关主题

浏览历史