期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
一种基于动作采样的Q学习算法 被引量:1
1
作者 赵德京 马洪聪 +1 位作者 廖登宇 崔浩岩 《控制工程》 CSCD 北大核心 2024年第1期70-79,共10页
强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和奖励定义学习型智能体与环境的交互过程。多智能体强化学习存在联合动作数随智能体个数的增加呈指数级增长的问题。为缓解此问题,提出一种基于动作采样的Q学习(action-sampli... 强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和奖励定义学习型智能体与环境的交互过程。多智能体强化学习存在联合动作数随智能体个数的增加呈指数级增长的问题。为缓解此问题,提出一种基于动作采样的Q学习(action-sampling based Q-learning,ASQ)算法。该算法采用集中训练-分散执行的框架,在集中训练阶段更新联合动作Q值时并没有遍历所有联合动作Q值,而只对部分联合动作Q值进行采样。在动作选择和执行阶段,每个智能体又独立选择动作,有效减少了学习阶段的计算量。实验结果表明,该算法能够以100%的成功率学习到最优联合策略。 展开更多
关键词 多智能体强化学习 强化学习 Q学习 动作采样
下载PDF
一种基于一致性的多智能体Q学习算法
2
作者 崔浩岩 张震 +1 位作者 赵德京 廖登宇 《控制工程》 CSCD 北大核心 2024年第7期1169-1177,共9页
针对多智能体系统中智能体通信能力受限和多智能体强化学习中联合动作空间维数灾难问题,提出一种基于一致性的多智能体Q学习(multi-agent Q-learning based on consensus,MAQC)算法。该算法采用集中训练-分散执行框架。在集中训练阶段,M... 针对多智能体系统中智能体通信能力受限和多智能体强化学习中联合动作空间维数灾难问题,提出一种基于一致性的多智能体Q学习(multi-agent Q-learning based on consensus,MAQC)算法。该算法采用集中训练-分散执行框架。在集中训练阶段,MAQC算法采用值分解方法缓解联合动作空间维数灾难问题。此外,每个智能体将自己感知到的局部状态和接收到的邻居的局部状态发送给所有邻居,最终使网络中的智能体获得所有智能体的全局状态。智能体所需的时间差分信息由一致性算法获得,智能体只需向邻居发送时间差分信息的分量信息。在执行阶段,每个智能体只需根据与自己动作有关的Q值函数来选择动作。结果表明,MAQC算法能够收敛到最优联合策略。 展开更多
关键词 多智能体强化学习 智能体通信 一致性 Q学习 值分解
下载PDF
基于多智能体深度强化学习的机器人协作搬运方法
3
作者 廖登宇 张震 +1 位作者 赵德京 崔浩岩 《电子设计工程》 2023年第23期7-11,共5页
近年来,机器人协作搬运任务在生产线和无人仓库场景中得到广泛应用。针对在传统路径规划方法上机器人无法达到最高的搬运效率的问题,提出一种通过基于多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的QTRAN Plu... 近年来,机器人协作搬运任务在生产线和无人仓库场景中得到广泛应用。针对在传统路径规划方法上机器人无法达到最高的搬运效率的问题,提出一种通过基于多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的QTRAN Plus算法参与协作搬运的机器人规划路径。QTRAN Plus算法采用混合网络代替QTRAN算法中对每个智能体的Q值网络进行加和的操作,以提高优化能力,并增加了一个新的损失函数,以提高收敛速度。通过协作搬运仿真实验可知,QTRAN Plus能够更快更稳定地学习到机器人的最优路径,其整体表现优于其他对比算法。 展开更多
关键词 多智能体深度强化学习 强化学习 随机博弈 路径规划
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部