期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于加权值函数分解的多智能体分层强化学习技能发现方法
被引量:
1
1
作者
邹启杰
李文雪
+2 位作者
高兵
赵锡玲
张汝波
《计算机应用研究》
CSCD
北大核心
2023年第9期2743-2748,2754,共7页
针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化...
针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化学习相结合,在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题;其次,在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务;最后,在底层独立Q学习的基础上引入技能发现策略,使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比,实验表明,该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高,提升了整个多智能体系统的决策能力和收敛速度,验证了算法的可行性。
展开更多
关键词
多智能体强化学习
分层强化学习
集中训练分散执行
值函数分解
技能发现
下载PDF
职称材料
基于深度强化学习和信息论的多智能体通信方法
2
作者
高兵
张哲婕
+2 位作者
邹启杰
刘治国
赵锡玲
《航空学报》
EI
CAS
CSCD
北大核心
2024年第18期221-233,共13页
在合作环境的多智能体系统中,有效地进行显式通信可以提高智能体间的协作能力。但现有的通信策略往往将智能体的局部观测值直接作为通信内容,且通信对象通常是按照某种拓扑结构固定的,其结果一方面难以适应任务和环境变化而引起通信过...
在合作环境的多智能体系统中,有效地进行显式通信可以提高智能体间的协作能力。但现有的通信策略往往将智能体的局部观测值直接作为通信内容,且通信对象通常是按照某种拓扑结构固定的,其结果一方面难以适应任务和环境变化而引起通信过程的不确定性;另一方面,通信对象和通信信息缺乏侧重点会造成通信带宽的资源浪费导致通信效率较低。针对上述多智能体通信协同问题,提出一种融合深度强化学习和信息论的方法来实现多智能体自适应显式通信机制。所提方法采用先验网络使智能体动态地选择通信的对象;再利用互信息的约束和信息瓶颈理论有效过滤冗余信息;最后,汇总自身及接收到的信息推理出更有效的通信内容。通过合作导航和交通路口实验环境证明了该方法对比其他方法提高了多智能体系统的交互效率和合作稳定性。
展开更多
关键词
多智能体深度强化学习
互信息
显式通信
信息瓶颈理论
合作环境
原文传递
题名
基于加权值函数分解的多智能体分层强化学习技能发现方法
被引量:
1
1
作者
邹启杰
李文雪
高兵
赵锡玲
张汝波
机构
大连大学信息工程学院
大连民族大学机电工程学院
出处
《计算机应用研究》
CSCD
北大核心
2023年第9期2743-2748,2754,共7页
基金
国家自然科学基金资助项目(61673084)
2021年辽宁省教育厅项目(LJKZ1180)。
文摘
针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化学习相结合,在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题;其次,在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务;最后,在底层独立Q学习的基础上引入技能发现策略,使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比,实验表明,该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高,提升了整个多智能体系统的决策能力和收敛速度,验证了算法的可行性。
关键词
多智能体强化学习
分层强化学习
集中训练分散执行
值函数分解
技能发现
Keywords
multi-agent reinforcement learning
hierarchical reinforcement learning
centralized training decentralized execution
value function decomposition
skill discovery
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于深度强化学习和信息论的多智能体通信方法
2
作者
高兵
张哲婕
邹启杰
刘治国
赵锡玲
机构
大连大学信息工程学院
大连大学通信与网络重点实验室
出处
《航空学报》
EI
CAS
CSCD
北大核心
2024年第18期221-233,共13页
基金
国家自然科学基金(61673084)
2021年辽宁省教育厅项目(LJKZ1180)。
文摘
在合作环境的多智能体系统中,有效地进行显式通信可以提高智能体间的协作能力。但现有的通信策略往往将智能体的局部观测值直接作为通信内容,且通信对象通常是按照某种拓扑结构固定的,其结果一方面难以适应任务和环境变化而引起通信过程的不确定性;另一方面,通信对象和通信信息缺乏侧重点会造成通信带宽的资源浪费导致通信效率较低。针对上述多智能体通信协同问题,提出一种融合深度强化学习和信息论的方法来实现多智能体自适应显式通信机制。所提方法采用先验网络使智能体动态地选择通信的对象;再利用互信息的约束和信息瓶颈理论有效过滤冗余信息;最后,汇总自身及接收到的信息推理出更有效的通信内容。通过合作导航和交通路口实验环境证明了该方法对比其他方法提高了多智能体系统的交互效率和合作稳定性。
关键词
多智能体深度强化学习
互信息
显式通信
信息瓶颈理论
合作环境
Keywords
multi-agent deep reinforcement learning
mutual information
explicit communication
information bottle-neck
cooperationenvironment
分类号
V448.2 [航空宇航科学与技术—飞行器设计]
TP181 [自动化与计算机技术—控制理论与控制工程]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于加权值函数分解的多智能体分层强化学习技能发现方法
邹启杰
李文雪
高兵
赵锡玲
张汝波
《计算机应用研究》
CSCD
北大核心
2023
1
下载PDF
职称材料
2
基于深度强化学习和信息论的多智能体通信方法
高兵
张哲婕
邹启杰
刘治国
赵锡玲
《航空学报》
EI
CAS
CSCD
北大核心
2024
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部