期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于加权值函数分解的多智能体分层强化学习技能发现方法 被引量:1
1
作者 邹启杰 李文雪 +2 位作者 高兵 赵锡玲 张汝波 《计算机应用研究》 CSCD 北大核心 2023年第9期2743-2748,2754,共7页
针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化... 针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化学习相结合,在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题;其次,在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务;最后,在底层独立Q学习的基础上引入技能发现策略,使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比,实验表明,该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高,提升了整个多智能体系统的决策能力和收敛速度,验证了算法的可行性。 展开更多
关键词 多智能体强化学习 分层强化学习 集中训练分散执行 值函数分解 技能发现
下载PDF
基于深度强化学习和信息论的多智能体通信方法
2
作者 高兵 张哲婕 +2 位作者 邹启杰 刘治国 赵锡玲 《航空学报》 EI CAS CSCD 北大核心 2024年第18期221-233,共13页
在合作环境的多智能体系统中,有效地进行显式通信可以提高智能体间的协作能力。但现有的通信策略往往将智能体的局部观测值直接作为通信内容,且通信对象通常是按照某种拓扑结构固定的,其结果一方面难以适应任务和环境变化而引起通信过... 在合作环境的多智能体系统中,有效地进行显式通信可以提高智能体间的协作能力。但现有的通信策略往往将智能体的局部观测值直接作为通信内容,且通信对象通常是按照某种拓扑结构固定的,其结果一方面难以适应任务和环境变化而引起通信过程的不确定性;另一方面,通信对象和通信信息缺乏侧重点会造成通信带宽的资源浪费导致通信效率较低。针对上述多智能体通信协同问题,提出一种融合深度强化学习和信息论的方法来实现多智能体自适应显式通信机制。所提方法采用先验网络使智能体动态地选择通信的对象;再利用互信息的约束和信息瓶颈理论有效过滤冗余信息;最后,汇总自身及接收到的信息推理出更有效的通信内容。通过合作导航和交通路口实验环境证明了该方法对比其他方法提高了多智能体系统的交互效率和合作稳定性。 展开更多
关键词 多智能体深度强化学习 互信息 显式通信 信息瓶颈理论 合作环境
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部