期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
Multi-agent reinforcement learning based on policies of global objective
1
作者 张化祥 黄上腾 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2005年第3期676-681,共6页
In general-sum games, taking all agent's collective rationality into account, we define agents' global objective, and propose a novel multi-agent reinforcement learning(RL) algorithm based on global policy. In eac... In general-sum games, taking all agent's collective rationality into account, we define agents' global objective, and propose a novel multi-agent reinforcement learning(RL) algorithm based on global policy. In each learning step, all agents commit to select the global policy to achieve the global goal. We prove this learning algorithm converges given certain restrictions on stage games of learned Q values, and show that it has quite lower computation time complexity than already developed multi-agent learning algorithms for general-sum games. An example is analyzed to show the algorithm' s merits. 展开更多
关键词 markov games reinforcement learning collective rationality policy.
下载PDF
Approximating Nash Equilibrium in Day-ahead Electricity Market Bidding with Multi-agent Deep Reinforcement Learning 被引量:9
2
作者 Yan Du Fangxing Li +1 位作者 Helia Zandi Yaosuo Xue 《Journal of Modern Power Systems and Clean Energy》 SCIE EI CSCD 2021年第3期534-544,共11页
In this paper,a day-ahead electricity market bidding problem with multiple strategic generation company(GEN-CO)bidders is studied.The problem is formulated as a Markov game model,where GENCO bidders interact with each... In this paper,a day-ahead electricity market bidding problem with multiple strategic generation company(GEN-CO)bidders is studied.The problem is formulated as a Markov game model,where GENCO bidders interact with each other to develop their optimal day-ahead bidding strategies.Considering unobservable information in the problem,a model-free and data-driven approach,known as multi-agent deep deterministic policy gradient(MADDPG),is applied for approximating the Nash equilibrium(NE)in the above Markov game.The MAD-DPG algorithm has the advantage of generalization due to the automatic feature extraction ability of the deep neural networks.The algorithm is tested on an IEEE 30-bus system with three competitive GENCO bidders in both an uncongested case and a congested case.Comparisons with a truthful bidding strategy and state-of-the-art deep reinforcement learning methods including deep Q network and deep deterministic policy gradient(DDPG)demonstrate that the applied MADDPG algorithm can find a superior bidding strategy for all the market participants with increased profit gains.In addition,the comparison with a conventional-model-based method shows that the MADDPG algorithm has higher computational efficiency,which is feasible for real-world applications. 展开更多
关键词 Bidding strategy day-ahead electricity market deep reinforcement learning markov game multi-agent deterministic policy gradient(MADDPG) Nash equilibrium(NE)
原文传递
基于Markov对策的多Agent强化学习模型及算法研究 被引量:30
3
作者 高阳 周志华 +1 位作者 何佳洲 陈世福 《计算机研究与发展》 EI CSCD 北大核心 2000年第3期257-263,共7页
在MDP中,单Agent可以通过强化学习来寻找问题的最优解.但在多Agent系统中,MDP模型不再适用.同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题.文中采用非零和Markov对策作为多Agent系统学... 在MDP中,单Agent可以通过强化学习来寻找问题的最优解.但在多Agent系统中,MDP模型不再适用.同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题.文中采用非零和Markov对策作为多Agent系统学习框架,并提出元对策强化学习的学习模型和元对策Q算法.理论证明元对策Q算法收敛在非零和Markov对策的元对策最优解. 展开更多
关键词 元对策 强化学习 多AGENT系统 人工智能
下载PDF
基于Markov对策的强化学习及其在RoboCup中的应用
4
作者 李镇宇 陈小平 《计算机工程与应用》 CSCD 北大核心 2005年第27期202-204,214,共4页
论文研究了Markov对策模型作为学习框架的强化学习,提出了针对RoboCup仿真球队决策问题这一类复杂问题的学习模型和具体算法。在实验中,成功实现了守门员决策,并取得了良好的效果,证明了算法的可行性和有效性。
关键词 markov对策 多主体系统 强化学习 ROBOCUP
下载PDF
基于距离信息的追逃策略:信念状态连续随机博弈 被引量:1
5
作者 陈灵敏 冯宇 李永强 《自动化学报》 EI CAS CSCD 北大核心 2024年第4期828-840,共13页
追逃问题的研究在对抗、追踪以及搜查等领域极具现实意义.借助连续随机博弈与马尔科夫决策过程(Markov decision process, MDP),研究使用测量距离求解多对一追逃问题的最优策略.在此追逃问题中,追捕群体仅领导者可测量与逃逸者间的相对... 追逃问题的研究在对抗、追踪以及搜查等领域极具现实意义.借助连续随机博弈与马尔科夫决策过程(Markov decision process, MDP),研究使用测量距离求解多对一追逃问题的最优策略.在此追逃问题中,追捕群体仅领导者可测量与逃逸者间的相对距离,而逃逸者具有全局视野.追逃策略求解被分为追博弈与马尔科夫决策两个过程.在求解追捕策略时,通过分割环境引入信念区域状态以估计逃逸者位置,同时使用测量距离对信念区域状态进行修正,构建起基于信念区域状态的连续随机追博弈,并借助不动点定理证明了博弈平稳纳什均衡策略的存在性.在求解逃逸策略时,逃逸者根据全局信息建立混合状态下的马尔科夫决策过程及相应的最优贝尔曼方程.同时给出了基于强化学习的平稳追逃策略求解算法,并通过案例验证了该算法的有效性. 展开更多
关键词 追逃问题 信念区域状态 连续随机博弈 马尔科夫决策过程 强化学习
下载PDF
两方零和马尔科夫博弈策略梯度算法及收敛性分析
6
作者 王卓 李永强 +1 位作者 冯宇 冯远静 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第3期480-491,共12页
为了解决基于策略的强化学习方法在两方零和马尔科夫博弈中学习效率低下的问题,提出同时更新双方玩家策略的近似纳什均衡策略优化算法.将两方零和马尔科夫博弈问题描述为最大最小优化问题,针对参数化策略,给出马尔科夫博弈的策略梯度定... 为了解决基于策略的强化学习方法在两方零和马尔科夫博弈中学习效率低下的问题,提出同时更新双方玩家策略的近似纳什均衡策略优化算法.将两方零和马尔科夫博弈问题描述为最大最小优化问题,针对参数化策略,给出马尔科夫博弈的策略梯度定理,并通过近似随机策略梯度的推导,为算法实施提供可行性基础.通过比较分析不同的最大最小问题梯度更新方法,发现额外梯度相较于其他方法具有更好的收敛性能.基于这一发现,提出基于额外梯度的近似纳什均衡策略优化算法,并给出算法的收敛性证明.在Oshi-Zumo游戏上,使用表格式softmax参数化策略以及神经网络作为参数化策略,验证不同游戏规模场景下算法的有效性.通过对比实验,验证算法相对于其他方法的收敛性和优越性. 展开更多
关键词 两方零和马尔科夫博弈 强化学习 策略优化 额外梯度 纳什均衡 神经网络
下载PDF
基于深度强化学习的办公流程任务分配优化
7
作者 廖晨阳 于劲松 乐祥立 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期487-498,共12页
在办公平台中存在异构流程任务大量并行的情况,不仅需要任务执行者具有较强的能力,也对协同调度系统的性能提出了要求。采用强化学习(RL)算法,结合协作配合度、松弛度等定量分析,并基于马尔可夫博弈理论提出多智能体博弈模型,实现以总... 在办公平台中存在异构流程任务大量并行的情况,不仅需要任务执行者具有较强的能力,也对协同调度系统的性能提出了要求。采用强化学习(RL)算法,结合协作配合度、松弛度等定量分析,并基于马尔可夫博弈理论提出多智能体博弈模型,实现以总体流程配合度和最大完工时间为优化目标的优化调度系统,提高了总体执行效率。以真实的业务系统流程作为实验场景,在相同的优化目标下,对比D3QN等3种深度强化学习(DRL)算法和基于蚁群的元启发式算法,验证了所提方法的有效性。 展开更多
关键词 工作流 任务调度 马尔可夫博弈 深度强化学习 协作度
下载PDF
基于时空依赖关系多智能体强化学习的多路口交通信号协同控制方法
8
作者 王兆瑞 岩延 张宝贤 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2024年第3期398-410,共13页
面对日益严重的交通拥堵现象,智能交通信号控制已成为提升城市道路网络性能必不可少的手段。提出一种基于时空依赖关系多智能体强化学习算法的多路口交通信号控制方法STLight(spatiotemporal traffic light control)。通过基于注意力机... 面对日益严重的交通拥堵现象,智能交通信号控制已成为提升城市道路网络性能必不可少的手段。提出一种基于时空依赖关系多智能体强化学习算法的多路口交通信号控制方法STLight(spatiotemporal traffic light control)。通过基于注意力机制的时空依赖模块STDM(spatiotemporal dependent module),STLight可将初始交通观测数据提取为时空特征,以有效捕获各交叉路口间的时空依赖关系。此外,基于所提取的时空特征,STLight在基于集中训练分散执行框架的多智能体强化学习算法基础之上进一步为各个智能体引入全局时空信息,从而进一步提升多智能体之间的协作能力。实验结果表明,STLight在提升城市道路网络的性能方面具有显著的优势,有助于缓解当前大规模城市道路网络的交通拥堵问题。 展开更多
关键词 多智能体强化学习 多路口交通信号控制 注意力机制 马尔可夫博弈 时空依赖
下载PDF
基于多级决策的多智能体自动导航车调度系统 被引量:11
9
作者 李晓萌 杨煜普 许晓鸣 《上海交通大学学报》 EI CAS CSCD 北大核心 2002年第8期1146-1149,共4页
提出基于多级决策和协作学习的方法来建立自动导航车 ( AGV)调度系统中每个 AGV所需要的动态分布式调度策略 .系统中的每一个 AGV都由一个具有两级决策能力的智能体控制 :在选择级 ,智能体采用 Markov对策框架下的强化学习方法 ,以根据... 提出基于多级决策和协作学习的方法来建立自动导航车 ( AGV)调度系统中每个 AGV所需要的动态分布式调度策略 .系统中的每一个 AGV都由一个具有两级决策能力的智能体控制 :在选择级 ,智能体采用 Markov对策框架下的强化学习方法 ,以根据其他 AGV当前的子任务建立自己的最有反应子任务 ;在行动级 ,智能体通过强化学习建立优化的动作策略来完成由选择级确定的子任务 .AGV调度仿真结果证明 ,该方法能提高系统的产量 。 展开更多
关键词 多智能体 自动导航车 调度系统 多级决策 markov对策 强化学习 动态分布式调度策略
下载PDF
多智能体协作技术综述 被引量:28
10
作者 杨煜普 李晓萌 许晓鸣 《信息与控制》 CSCD 北大核心 2001年第4期337-342,共6页
本文从协作模型和研究方法两个角度考察了多智能体协作技术的发展 ,认为是外在的理性形式化模型和内在的对策和学习机制是多智能体协作技术的两个重要方面 .
关键词 多智能体协作 自协调模型 递归建模 markov对策 智能控制
下载PDF
强化学习算法中启发式回报函数的设计及其收敛性分析 被引量:13
11
作者 魏英姿 赵明扬 《计算机科学》 CSCD 北大核心 2005年第3期190-193,共4页
(中国科学院沈阳自动化所机器人学重点实验室沈阳110016)
关键词 强化学习算法 启发式回报函数 收敛性 马尔可夫决策过程 机器学习 人工智能
下载PDF
基于后悔值的多Agent冲突博弈强化学习模型 被引量:6
12
作者 肖正 张世永 《软件学报》 EI CSCD 北大核心 2008年第11期2957-2967,共11页
对于冲突博弈,研究了一种理性保守的行为选择方法,即最小化最坏情况下Agent的后悔值.在该方法下,Agent当前的行为策略在未来可能造成的损失最小,并且在没有任何其他Agent信息的条件下,能够得到Nash均衡混合策略.基于后悔值提出了多Agen... 对于冲突博弈,研究了一种理性保守的行为选择方法,即最小化最坏情况下Agent的后悔值.在该方法下,Agent当前的行为策略在未来可能造成的损失最小,并且在没有任何其他Agent信息的条件下,能够得到Nash均衡混合策略.基于后悔值提出了多Agent复杂环境下冲突博弈的强化学习模型以及算法实现.该模型中通过引入交叉熵距离建立信念更新过程,进一步优化了冲突博弈时的行为选择策略.基于Markov重复博弈模型验证了算法的收敛性,分析了信念与最优策略的关系.此外,与MMDP(multi-agent markov decision process)下Q学习扩展算法相比,该算法在很大程度上减少了冲突发生的次数,增强了Agent行为的协调性,并且提高了系统的性能,有利于维持系统的稳定. 展开更多
关键词 markov对策 强化学习 冲突博弈 冲突消解
下载PDF
认知无线网络中基于随机博弈框架的频率分配 被引量:4
13
作者 刘鑫 阚兴一 王三强 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2011年第5期778-783,共6页
为了解决认知无线网络中分布式的动态频率分配问题,采用随机博弈的框架,将认知链路建模成自私理性的智能体,并提出了一种以最大化平均Q函数为目标的多智能体学习算法—MAQ。通过MAQ学习,分布式的智能体可以实现间接的协商而不需要交互Q... 为了解决认知无线网络中分布式的动态频率分配问题,采用随机博弈的框架,将认知链路建模成自私理性的智能体,并提出了一种以最大化平均Q函数为目标的多智能体学习算法—MAQ。通过MAQ学习,分布式的智能体可以实现间接的协商而不需要交互Q函数和回报值,因为智能体的决策过程需要考虑其他用户的决策。理论证明了MAQ学习算法的收敛性。仿真结果表明,MAQ算法的吞吐量性能接近中心式的学习算法,但是MAQ只需要较少的信息交互。 展开更多
关键词 随机博弈 MARL 认知无线电 资源分配 强化学习 Q学习 分布式网络 markov过程
下载PDF
基于强化学习与对策的多代理协同技术 被引量:3
14
作者 张化祥 黄上腾 《计算机科学》 CSCD 北大核心 2004年第8期116-119,共4页
本文从强化学习与 Markov 对策相结合方面考察了多代理协同技术的发展,系统地分析了已有的研究成果,并指出基于强化学习与对策的多代理协同技术研完中存在的问题及未来研究方向。
关键词 多代理协同 强化学习 markov对策 分布式人工智能
下载PDF
多代理最优响应Q学习及收敛性证明 被引量:1
15
作者 张化祥 黄上腾 《计算机科学》 CSCD 北大核心 2004年第4期96-98,共3页
在分析了多代理强化学习的基础上,提出了一种基于对手策略假设的代理最优响应强化学习规则,并证明了当对手策略满足一定条件时,基于该学习规则的Q值收敛。实验结果与理论证明相一致。
关键词 学习规则 Q学习 强化学习 收敛性证明 多代理强化学习 学习算法 人工智能
下载PDF
基于参数逼近的多智能体强化学习算法 被引量:2
16
作者 赵高长 刘豪 苏军 《计算机工程与设计》 北大核心 2020年第3期862-866,共5页
为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路。引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数... 为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路。引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数更新方程,理论分析算法的收敛性及可行性。仿真结果表明,基于参数逼近的多智能体强化学习算法,能够使智能体100%达到纳什均衡,提高算法性能,简化算法复杂性,相比传统纳什Q学习算法能够较快收敛。 展开更多
关键词 智能体系统 强化学习 马尔科夫博弈 Q学习 纳什均衡
下载PDF
基于多智能体深度强化学习的无人机动态预部署策略 被引量:3
17
作者 唐伦 李质萱 +2 位作者 蒲昊 汪智平 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第6期2007-2015,共9页
针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以... 针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以捕捉动态环境信息,定义用户满意度的概念以刻画用户所获得UAV提供服务的公平性,并以最大化长期总体用户满意度和最小化UAV移动及发射能耗为目标建立优化模型。其次,将上述模型转化为部分可观测马尔科夫博弈过程(POMG),并提出一种基于MADRL的H-MADDPG算法求解该POMG中轨迹规划、用户关联和功率分配的最佳决策。该H-MADDPG算法使用混合网络结构以实现对多模态输入的特征提取,并采用集中式训练-分布式执行的机制以高效地训练和执行决策。最后仿真结果证明了所提算法的有效性。 展开更多
关键词 无人机通信 动态部署 部分可观测马尔科夫博弈 多智能体深度强化学习
下载PDF
一般和对策中基于协商的多代理强化学习
18
作者 张化祥 赵彤 黄上腾 《上海交通大学学报》 EI CAS CSCD 北大核心 2005年第S1期108-112,共5页
一般和对策中,只考虑个体理性的多代理协作是一种无全局目标的协作.代理学习基于对手策略假设,不能保证假设的正确性.为此通过定义代理协作的集体目标,提出了一种基于多代理协商的代理强化学习算法.代理选择协商策略,并惩罚偏离该策略... 一般和对策中,只考虑个体理性的多代理协作是一种无全局目标的协作.代理学习基于对手策略假设,不能保证假设的正确性.为此通过定义代理协作的集体目标,提出了一种基于多代理协商的代理强化学习算法.代理选择协商策略,并惩罚偏离该策略的代理来保证协商策略的执行.文中给出了学习收敛的条件及证明,并以实例加以分析. 展开更多
关键词 markov对策 强化学习 多代理协作 协商
下载PDF
Robocup半场防守中的一种强化学习算法
19
作者 冯林 李琛 孙焘 《计算机技术与发展》 2008年第1期59-62,共4页
Robocup仿真比赛是研究多Agent之间协作和对抗理论的优秀平台,提高Agent的防守能力是一个具有挑战性的问题。为制定合理的防守策略,将Robocup比赛中的一个子任务——半场防守任务分解为多个一对一防守任务,采用了基于Markov对策的强化... Robocup仿真比赛是研究多Agent之间协作和对抗理论的优秀平台,提高Agent的防守能力是一个具有挑战性的问题。为制定合理的防守策略,将Robocup比赛中的一个子任务——半场防守任务分解为多个一对一防守任务,采用了基于Markov对策的强化学习方法解决这种零和交互问题,给出了具体的学习算法。将该算法应用到3D仿真球队——大连理工大学梦之翼(Fantasia)球队,在实际比赛过程中取得了良好效果。验证了采用Markov零和对策的强化学习算法在一对一防守中优于手工代码的结论。 展开更多
关键词 ROBOCUP 强化学习 markov对策 零和对策
下载PDF
Research of Multiagent Coordination and Cooperation Algorithm
20
作者 Jun Li Wen-Long Song Yu-Rong He 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2013年第3期109-112,共4页
To solve the problem of conflict and deadlock with agents in multiagent system,an algorithm of multiagent coordination and cooperation was proposed. Taking agent in multiagent system as a player,the pursuit problem Ma... To solve the problem of conflict and deadlock with agents in multiagent system,an algorithm of multiagent coordination and cooperation was proposed. Taking agent in multiagent system as a player,the pursuit problem Markov model was built. The solution was introduced to get the optimal Nash equilibrium by multiagent reinforcement learning. The method of probability and statistics and Bayes formula was used to estimate the policy knowledge of other players. Relative mean deviation method was used to evaluate the confidence degree in order to increase the convergence speed. The simulation results on pursuit problem showed the feasibility and validity of the given algorithm. 展开更多
关键词 multiagent system markov games Nash equilibrium reinforcement learning
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部