期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
A MULTI-AGENT LOCAL-LEARNING ALGORITHM UNDER GROUP ENVIROMENT
1
作者 Jiang Daoping Yin Yixin Ban Xiaojuan Meng Xiangsong 《Journal of Electronics(China)》 2009年第2期229-236,共8页
In this paper,a local-learning algorithm for multi-agent is presented based on the fact that individual agent performs local perception and local interaction under group environment.As for in-dividual-learning,agent a... In this paper,a local-learning algorithm for multi-agent is presented based on the fact that individual agent performs local perception and local interaction under group environment.As for in-dividual-learning,agent adopts greedy strategy to maximize its reward when interacting with envi-ronment.In group-learning,local interaction takes place between each two agents.A local-learning algorithm to choose and modify agents' actions is proposed to improve the traditional Q-learning algorithm,respectively in the situations of zero-sum games and general-sum games with unique equi-librium or multi-equilibrium.And this local-learning algorithm is proved to be convergent and the computation complexity is lower than the Nash-Q.Additionally,through grid-game test,it is indicated that by using this local-learning algorithm,the local behaviors of agents can spread to globe. 展开更多
关键词 q学习算法 agent 环境 计算复杂度 代理人 贪婪策略 相互作用
下载PDF
基于改进多智能体Nash Q Learning的交通信号协调控制
2
作者 苏港 叶宝林 +2 位作者 姚青 陈滨 张一嘉 《软件工程》 2024年第10期43-49,共7页
为了优化区域交通信号配时方案,提升区域通行效率,文章提出一种基于改进多智能体Nash Q Learning的区域交通信号协调控制方法。首先,采用离散化编码方法,通过划分单元格将连续状态信息转化为离散形式。其次,在算法中融入长短时记忆网络(... 为了优化区域交通信号配时方案,提升区域通行效率,文章提出一种基于改进多智能体Nash Q Learning的区域交通信号协调控制方法。首先,采用离散化编码方法,通过划分单元格将连续状态信息转化为离散形式。其次,在算法中融入长短时记忆网络(Long Short Term Memory,LSTM)模块,用于从状态数据中挖掘更多的隐藏信息,丰富Q值表中的状态数据。最后,基于微观交通仿真软件SUMO(Simulation of Urban Mobility)的仿真测试结果表明,相较于原始Nash Q Learning交通信号控制方法,所提方法在低、中、高流量下车辆的平均等待时间分别减少了11.5%、16.2%和10.0%,平均排队长度分别减少了9.1%、8.2%和7.6%,平均停车次数分别减少了18.3%、16.1%和10.0%。结果证明了该算法具有更好的控制效果。 展开更多
关键词 区域交通信号协调控制 马尔科夫决策 多智能体nash q learning LSTM SUMO
下载PDF
一般和博弈中的合作多agent学习 被引量:7
3
作者 宋梅萍 顾国昌 +1 位作者 张国印 刘海波 《控制理论与应用》 EI CAS CSCD 北大核心 2007年第2期317-321,共5页
理性和收敛是多agent学习研究所追求的目标,在理性合作的多agent系统中提出利用Pareto占优解代替非合作的Nash平衡解进行学习,使agent更具理性,另一方面引入社会公约来启动和约束agent的推理,统一系统中所有agent的决策,从而保证学习的... 理性和收敛是多agent学习研究所追求的目标,在理性合作的多agent系统中提出利用Pareto占优解代替非合作的Nash平衡解进行学习,使agent更具理性,另一方面引入社会公约来启动和约束agent的推理,统一系统中所有agent的决策,从而保证学习的收敛性.利用2人栅格游戏对多种算法进行验证,成功率的比较说明了所提算法具有较好的学习性能. 展开更多
关键词 agent学习 一般和随机博弈 nash平衡 PARETO占优 q-学习
下载PDF
多智能体Q学习在多AUV协调中的应用研究 被引量:4
4
作者 严浙平 李锋 黄宇峰 《应用科技》 CAS 2008年第1期57-60,共4页
分析了近年来提出的几种主要单、多智能体强化算法,提出一种多智能体Q学习算法,并将它用于多AUV协调中.此算法融合了Nash-Q、CE-Q及WoLF-PHC的算法思想或表达形式,程序简单、容易计算,并且具有很好的收敛性.多AUV协调控制仿真实验结果... 分析了近年来提出的几种主要单、多智能体强化算法,提出一种多智能体Q学习算法,并将它用于多AUV协调中.此算法融合了Nash-Q、CE-Q及WoLF-PHC的算法思想或表达形式,程序简单、容易计算,并且具有很好的收敛性.多AUV协调控制仿真实验结果表明这个算法是有效的. 展开更多
关键词 多智能体 q学习 nash均衡 多AUV
下载PDF
群体环境下基于随机对策的多Agent局部学习算法
5
作者 尹怡欣 江道平 +1 位作者 班晓娟 孟祥嵩 《信息与控制》 CSCD 北大核心 2008年第6期703-708,共6页
基于群体环境中个体agent局部感知和交互的生物原型,提出一种随机对策框架下的多agent局部学习算法.算法在与局部环境交互中采用贪婪策略最大化自身利益.分别在零和、一般和的单个平衡点和多个平衡点情形下改进了Nash-Q学习算法;提出了... 基于群体环境中个体agent局部感知和交互的生物原型,提出一种随机对策框架下的多agent局部学习算法.算法在与局部环境交互中采用贪婪策略最大化自身利益.分别在零和、一般和的单个平衡点和多个平衡点情形下改进了Nash-Q学习算法;提出了行为修正方法,并证明了算法收敛、计算复杂度降低. 展开更多
关键词 agent学习 随机对策 nashq 局部学习
下载PDF
多智能体环境下的情绪决策模型 被引量:2
6
作者 林君焕 刘箴 陈月芬 《模式识别与人工智能》 EI CSCD 北大核心 2015年第4期369-376,共8页
建立一种基于情绪的Nash-Q决策模型,它由认知层和情绪层组成.认知层模型由Nash-Q算法实现,情绪层建立在情绪记忆和评价理论之上,由高兴、伤心、恐惧、厌烦组成情绪空间,建立相应刺激与情绪映射模型、情绪与行为动作映射模型、每种情绪... 建立一种基于情绪的Nash-Q决策模型,它由认知层和情绪层组成.认知层模型由Nash-Q算法实现,情绪层建立在情绪记忆和评价理论之上,由高兴、伤心、恐惧、厌烦组成情绪空间,建立相应刺激与情绪映射模型、情绪与行为动作映射模型、每种情绪下的动作信任度评价模型.将文中模型应用到两智能体网格决策实验中,结果表明情绪层的引入可加快收敛速度,同时能有效防止陷入局部最优,更好兼顾在线学习的"保守"和"探索"平衡. 展开更多
关键词 多智能体决策 nash-q学习 情绪决策 博弈理论
下载PDF
基于参数逼近的多智能体强化学习算法 被引量:2
7
作者 赵高长 刘豪 苏军 《计算机工程与设计》 北大核心 2020年第3期862-866,共5页
为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路。引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数... 为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路。引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数更新方程,理论分析算法的收敛性及可行性。仿真结果表明,基于参数逼近的多智能体强化学习算法,能够使智能体100%达到纳什均衡,提高算法性能,简化算法复杂性,相比传统纳什Q学习算法能够较快收敛。 展开更多
关键词 智能体系统 强化学习 马尔科夫博弈 q学习 纳什均衡
下载PDF
基于一般和随机对策论框架下的多智能体学习 被引量:1
8
作者 欧海涛 张卫东 许晓鸣 《自动化学报》 EI CSCD 北大核心 2002年第3期423-426,共4页
将 Q- learning从单智能体框架上扩展到非合作的多智能体框架上 ,建立了在一般和随机对策框架下的多智能体理论框架和学习算法 ,提出了以 Nash平衡点作为学习目标 .给出了对策结构的约束条件 ,并证明了在此约束条件下算法的收敛性 。
关键词 随机对策论 多智能体学习 学习算法 强化学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部