期刊文献+
共找到8,739篇文章
< 1 2 250 >
每页显示 20 50 100
竞争与合作视角下的多Agent强化学习研究进展
1
作者 田小禾 李伟 +3 位作者 许铮 刘天星 戚骁亚 甘中学 《计算机应用与软件》 北大核心 2024年第4期1-15,共15页
随着深度学习和强化学习研究取得长足的进展,多Agent强化学习已成为解决大规模复杂序贯决策问题的通用方法。为了推动该领域的发展,从竞争与合作的视角收集并总结近期相关的研究成果。该文介绍单Agent强化学习;分别介绍多Agent强化学习... 随着深度学习和强化学习研究取得长足的进展,多Agent强化学习已成为解决大规模复杂序贯决策问题的通用方法。为了推动该领域的发展,从竞争与合作的视角收集并总结近期相关的研究成果。该文介绍单Agent强化学习;分别介绍多Agent强化学习的基本理论框架——马尔可夫博弈以及扩展式博弈,并重点阐述了其在竞争、合作和混合三种场景下经典算法及其近期研究进展;讨论多Agent强化学习面临的核心挑战——环境的不稳定性,并通过一个例子对其解决思路进行总结与展望。 展开更多
关键词 深度学习 强化学习 多agent强化学习 环境的不稳定性
下载PDF
基于多Agent强化学习的电力通信网跨层保护方法
2
作者 陈毅龙 《自动化技术与应用》 2024年第10期112-115,共4页
针对当前方法存在数据传输成功率低、传输延迟时间长以及开销大等题,设计基于多Agent强化学习的电力通信网跨层保护方法。首先使用多Agent强化学习算法设定网络多路径协议,控制网络节点数据接收能力,然后构建网络跨层安全构架,设定相应... 针对当前方法存在数据传输成功率低、传输延迟时间长以及开销大等题,设计基于多Agent强化学习的电力通信网跨层保护方法。首先使用多Agent强化学习算法设定网络多路径协议,控制网络节点数据接收能力,然后构建网络跨层安全构架,设定相应网络模型作为网络跨层保护的基础,最后使用罚函数法对模型进行求解,保证函数解具有较高的可靠性,根据求解结果实现对网络跨层算法的优化,实现电力通信网跨层保护方法。实验结果可知,所提方法的收包率得到了明显提升,传输延迟时间缩短,开销低。 展开更多
关键词 多agent强化学习 跨层保护 罚函数 数据包传输延迟
下载PDF
基于多Agent强化学习的多站点CSPS系统的协作Look-ahead控制 被引量:8
3
作者 唐昊 万海峰 +1 位作者 韩江洪 周雷 《自动化学报》 EI CSCD 北大核心 2010年第2期289-296,共8页
研究多站点传送带给料生产加工站(Conveyor-serviced production station,CSPS)系统的最优控制问题,其优化目标是通过合理选择每个CSPS的Look-ahead控制策略,实现整个系统的工件处理率最大.本文首先根据多Agent系统的反应扩散思想,对每... 研究多站点传送带给料生产加工站(Conveyor-serviced production station,CSPS)系统的最优控制问题,其优化目标是通过合理选择每个CSPS的Look-ahead控制策略,实现整个系统的工件处理率最大.本文首先根据多Agent系统的反应扩散思想,对每个Agent的原始性能函数进行改进,引入了具有扩散功能的局域信息交互项(原始项看作具有反应功能);并运用性能势理论,构建一种适用于平均和折扣两种性能准则的Wolf-PHC多Agent学习算法,以求解决策时刻不同步的多站点的协作Look-ahead控制策略.最后,论文通过仿真实验验证了该算法的有效性,学习结果表明,通过性能函数的改进,各工作站的负载平衡性得到改善,整个系统的工件处理率也明显提高. 展开更多
关键词 传送带给料生产加工站 Look-ahead控制 多agent强化学习 性能函数
下载PDF
一种基于案例推理的多agent强化学习方法研究 被引量:4
4
作者 李珺 潘启树 洪炳镕 《机器人》 EI CSCD 北大核心 2009年第4期320-326,共7页
提出一种基于案例推理的多agent强化学习方法。构建了系统策略案例库,通过判断agent之间的协作关系选择相应案例库子集。利用模拟退火方法从中寻找最合适的可再用案例策略,agent按照案例指导执行动作选择。在没有可用案例的情况下,agen... 提出一种基于案例推理的多agent强化学习方法。构建了系统策略案例库,通过判断agent之间的协作关系选择相应案例库子集。利用模拟退火方法从中寻找最合适的可再用案例策略,agent按照案例指导执行动作选择。在没有可用案例的情况下,agent执行联合行为学习(JAL)。在学习结果的基础上实时更新系统策略案例库。追捕问题的仿真结果表明所提方法明显提高了学习速度与收敛性。 展开更多
关键词 多agent强化学习 Q学习 策略再用 基于案例的推理 追捕问题
下载PDF
单agent强化学习与多agent强化学习比较研究 被引量:2
5
作者 吴元斌 《电脑与信息技术》 2009年第1期8-11,共4页
学习、交互及其结合是建立健壮、自治agent的关键必需能力。强化学习是agent学习的重要部分,agent强化学习包括单agent强化学习和多agent强化学习。文章对单agent强化学习与多agent强化学习进行了比较研究,从基本概念、环境框架、学习... 学习、交互及其结合是建立健壮、自治agent的关键必需能力。强化学习是agent学习的重要部分,agent强化学习包括单agent强化学习和多agent强化学习。文章对单agent强化学习与多agent强化学习进行了比较研究,从基本概念、环境框架、学习目标、学习算法等方面进行了对比分析,指出了它们的区别和联系,并讨论了它们所面临的一些开放性的问题。 展开更多
关键词 agent强化学习 多agent强化学习 博弈论
下载PDF
基于多Agent强化学习的流水线维护策略 被引量:5
6
作者 王潇 王红卫 祁超 《系统工程学报》 CSCD 北大核心 2013年第5期702-708,共7页
在生产过程中,设备状态的衰变会影响产品质量,尽管设备仍能运行,但其成品率水平逐渐下降.针对由两台具有衰变质量状态的设备和一个库存缓冲组成的2M1B流水线系统,研究衰变设备的预防维护策略.每台设备可视为一个Agent,其预防维护问题被... 在生产过程中,设备状态的衰变会影响产品质量,尽管设备仍能运行,但其成品率水平逐渐下降.针对由两台具有衰变质量状态的设备和一个库存缓冲组成的2M1B流水线系统,研究衰变设备的预防维护策略.每台设备可视为一个Agent,其预防维护问题被描述成半马氏决策过程模型,并与另一台设备的维护模型相关.以考虑系统全局即时成本为前提,提出了一种分布式的多Agent强化学习方法,获得两台设备在缓冲库存水平下的维护策略.学习所得的维护策略是典型的控制限型形式,即对于给定库存水平,当设备衰变至等于或劣于其相应的控制极限状态时,便触发维护行动. 展开更多
关键词 预防维护 2M1B流水线 多agent强化学习算法 半马氏决策过程 衰变的质量状态
下载PDF
基于多Agent强化学习的危险车辆预警算法 被引量:2
7
作者 王泽学 万启东 +2 位作者 秦杨梅 樊森清 肖泽仪 《电子科技》 2020年第9期44-49,共6页
针对目前行人易受到车辆撞击,且缺乏主动保护手段的问题,文中设计了一个包括雷达等模块的智能可穿戴设备来保护行人免受车辆的冲击。在此基础上,提出了基于模糊综合评价的安全智能算法,从行人的角度出发,综合考虑将雷达探测的车辆数据... 针对目前行人易受到车辆撞击,且缺乏主动保护手段的问题,文中设计了一个包括雷达等模块的智能可穿戴设备来保护行人免受车辆的冲击。在此基础上,提出了基于模糊综合评价的安全智能算法,从行人的角度出发,综合考虑将雷达探测的车辆数据、当地道路交通状况、天气、行人状态等多种影响因素作为评价指标。为提高算法的准确性和适应性,提出了基于BP神经网络和多Agent强化学习的方法赋予模糊综合评价的各指标动态权重。仿真验证结果显示,相较于AHP等取权重方法,该预警算法的警报准确率提高了55%以上;相较单Agent强化学习,该方法学习效率提高了近28倍,说明该智能穿戴设备可以对车辆撞击行人进行有效地预测和警告。 展开更多
关键词 多agent强化学习 危险车辆预警 主动保护 智能穿戴设备 预警算法 模糊综合评价
下载PDF
基于Markov对策的多Agent强化学习模型及算法研究 被引量:30
8
作者 高阳 周志华 +1 位作者 何佳洲 陈世福 《计算机研究与发展》 EI CSCD 北大核心 2000年第3期257-263,共7页
在MDP中,单Agent可以通过强化学习来寻找问题的最优解.但在多Agent系统中,MDP模型不再适用.同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题.文中采用非零和Markov对策作为多Agent系统学... 在MDP中,单Agent可以通过强化学习来寻找问题的最优解.但在多Agent系统中,MDP模型不再适用.同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题.文中采用非零和Markov对策作为多Agent系统学习框架,并提出元对策强化学习的学习模型和元对策Q算法.理论证明元对策Q算法收敛在非零和Markov对策的元对策最优解. 展开更多
关键词 元对策 强化学习 多agent系统 人工智能
下载PDF
随机博弈框架下的多agent强化学习方法综述 被引量:13
9
作者 宋梅萍 顾国昌 张国印 《控制与决策》 EI CSCD 北大核心 2005年第10期1081-1090,共10页
多agent学习是在随机博弈的框架下,研究多个智能体间通过自学习掌握交互技巧的问题.单agent强化学习方法研究的成功,对策论本身牢固的数学基础以及在复杂任务环境中广阔的应用前景,使得多agent强化学习成为目前机器学习研究领域的一个... 多agent学习是在随机博弈的框架下,研究多个智能体间通过自学习掌握交互技巧的问题.单agent强化学习方法研究的成功,对策论本身牢固的数学基础以及在复杂任务环境中广阔的应用前景,使得多agent强化学习成为目前机器学习研究领域的一个重要课题.首先介绍了多agent系统随机博弈中基本概念的形式定义;然后介绍了随机博弈和重复博弈中学习算法的研究以及其他相关工作;最后结合近年来的发展,综述了多agent学习在电子商务、机器人以及军事等方面的应用研究,并介绍了仍存在的问题和未来的研究方向. 展开更多
关键词 多agent系统 随机博弈 强化学习
下载PDF
一种新颖的多agent强化学习方法 被引量:8
10
作者 周浦城 洪炳镕 黄庆成 《电子学报》 EI CAS CSCD 北大核心 2006年第8期1488-1491,共4页
提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法,利用模块化学习结构来克服状态空间的维数灾问题,将Q-学习与利益分配学习相结合以加快学习速度,采用基于观察的对手建模来预测其他agent的动作分布.追... 提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法,利用模块化学习结构来克服状态空间的维数灾问题,将Q-学习与利益分配学习相结合以加快学习速度,采用基于观察的对手建模来预测其他agent的动作分布.追捕问题的仿真结果验证了所提方法的有效性. 展开更多
关键词 多agent学习 Q-学习 利益分配学习 模块化结构 对手建模
下载PDF
基于Stackelberg策略的多Agent强化学习警力巡逻路径规划 被引量:4
11
作者 解易 顾益军 《北京理工大学学报》 EI CAS CSCD 北大核心 2017年第1期93-99,共7页
为解决现有的巡逻路径规划算法仅仅能够处理双人博弈和忽略攻击者存在的问题,提出一种新的基于多agent的强化学习算法.在给定攻击目标分布的情况下,规划任意多防御者和攻击者条件下的最优巡逻路径.考虑到防御者与攻击者选择策略的非同时... 为解决现有的巡逻路径规划算法仅仅能够处理双人博弈和忽略攻击者存在的问题,提出一种新的基于多agent的强化学习算法.在给定攻击目标分布的情况下,规划任意多防御者和攻击者条件下的最优巡逻路径.考虑到防御者与攻击者选择策略的非同时性,采用了Stackelberg强均衡策略作为每个agent选择策略的依据.为了验证算法,在多个巡逻任务中进行了测试.定量和定性的实验结果证明了算法的收敛性和有效性. 展开更多
关键词 巡逻路线规划 Stackelberg强均衡策略 多agent 强化学习
下载PDF
一种基于多Agent强化学习的多星协同任务规划算法 被引量:21
12
作者 王冲 景宁 +2 位作者 李军 王钧 陈浩 《国防科技大学学报》 EI CAS CSCD 北大核心 2011年第1期53-58,共6页
在分析任务特点和卫星约束的基础上给出了多星协同任务规划问题的数学模型。引入约束惩罚算子和多星联合惩罚算子对卫星Agent原始的效用值增益函数进行改进,在此基础上提出了一种多卫星Agent强化学习算法以求解多星协同任务分配策略,设... 在分析任务特点和卫星约束的基础上给出了多星协同任务规划问题的数学模型。引入约束惩罚算子和多星联合惩罚算子对卫星Agent原始的效用值增益函数进行改进,在此基础上提出了一种多卫星Agent强化学习算法以求解多星协同任务分配策略,设计了基于黑板结构的多星交互方式以降低学习交互过程中的通信代价。通过仿真实验及分析证明该方法能够有效解决多星协同任务规划问题。 展开更多
关键词 卫星任务规划 协同规划 多智能体强化学习 黑板结构
下载PDF
元博弈平衡和多Agent强化学习的MetaQ算法 被引量:2
13
作者 王皓 高阳 《计算机研究与发展》 EI CSCD 北大核心 2006年第z1期137-141,共5页
多Agent强化学习(MARL)是强化学习(RL)在多Agent环境中的推广.其中,NashQ学习算法是一个里程碑式的贡献.然而NashQ存在着3点不足:①Nash平衡的"混合策略"思想在MARL中的意义不明确;②一个博弈的Nash平衡可能不是Pareto最优的;... 多Agent强化学习(MARL)是强化学习(RL)在多Agent环境中的推广.其中,NashQ学习算法是一个里程碑式的贡献.然而NashQ存在着3点不足:①Nash平衡的"混合策略"思想在MARL中的意义不明确;②一个博弈的Nash平衡可能不是Pareto最优的;③Nash平衡的计算比较复杂.这3点不足都来源于"Agent是Nash理性的"这一假设.一个称为"MetaQ"的多Agent Q学习算法以元博弈理论为基础,通过改变Agent的理性来避免所有的这些不足.研究证明,MetaQ算法具有很好的理论解释和实验性能. 展开更多
关键词 强化学习 多agent系统 元博弈 MetaQ
下载PDF
多Agent强化学习下的城市路网自适应交通信号协调配时决策研究综述 被引量:2
14
作者 夏新海 《交通运输研究》 2017年第2期17-23,30,共8页
相对于传统的交通信号配时决策方法,多Agent强化学习及其协调方法能更好地适应城市路网交通环境的变化。为探讨其在城市路网自适应交通信号配时决策中的应用,系统地总结了多Agent强化学习及协调机制的研究方法,详细地分析了国内外研究现... 相对于传统的交通信号配时决策方法,多Agent强化学习及其协调方法能更好地适应城市路网交通环境的变化。为探讨其在城市路网自适应交通信号配时决策中的应用,系统地总结了多Agent强化学习及协调机制的研究方法,详细地分析了国内外研究现状,并指出现有研究中存在的问题,在此基础上对未来研究进行了展望。研究结果表明,既有研究主要针对规模较小的路网,存在维数灾难问题,强化学习与协调机制结合研究还不够深入,相关学习参数分析不够细致,仿真环境和情景现实性不强。未来研究可以引入马尔科夫博弈提高决策协调性,嵌入混合交通流、公交优先等交通管理思想增强决策实用性,引入先验知识及其他学习技术加快学习速度,融入物联网、主动管理、大数据等先进理念和前沿技术增加决策的实时性,与交通诱导等集成提升决策的系统性。 展开更多
关键词 agent 强化学习 交通信号 交叉口 信号配时
下载PDF
基于贝叶斯方法的多Agent强化学习 被引量:2
15
作者 郑顾平 曹锦纲 《河北理工学院学报》 2005年第4期65-68,共4页
在多agentss强化学习(MARL)的研究中,很多都是强调MARL算法收敛于期望平衡解。然而,对于标准的强化学习,该过程需要对策略空间的充分探测,而且探测还经常受到惩罚或错失了良机。在多agents系统中,由于agents之间的协作使该问题更加复杂... 在多agentss强化学习(MARL)的研究中,很多都是强调MARL算法收敛于期望平衡解。然而,对于标准的强化学习,该过程需要对策略空间的充分探测,而且探测还经常受到惩罚或错失了良机。在多agents系统中,由于agents之间的协作使该问题更加复杂。为此,提出了在MARL用贝叶斯模型来进行最优探测,该模型与标准的RL模型不同,它将对agent的动作是如何影响其它agents的行为进行推理。同时,还给出了如何对最优贝叶斯探测进行处理以获得理想的结果,并通过与其它算法的比较来说明用贝叶斯方法的可行性。 展开更多
关键词 贝叶斯方法 多agents 强化学习
下载PDF
伙伴选择问题的多Agent强化学习演化博弈方法
16
作者 张颖 李佳 《沈阳工业大学学报》 EI CAS 2009年第5期568-572,共5页
为了解决可供选择的企业伙伴组合规模日益扩大的问题,根据企业结盟伙伴选择招、投标问题的特点,建立了实现竞标费用和拖期惩罚费用之和最小的非线性整数规划模型.利用多Agent的强化学习思想和协调机制,在演化博弈算法的基础上,提出了多A... 为了解决可供选择的企业伙伴组合规模日益扩大的问题,根据企业结盟伙伴选择招、投标问题的特点,建立了实现竞标费用和拖期惩罚费用之和最小的非线性整数规划模型.利用多Agent的强化学习思想和协调机制,在演化博弈算法的基础上,提出了多Agent强化学习演化博弈算法.将算法在多个不同规模的仿真实例上与遗传算法和演化博弈算法进行了对比分析,研究结果表明,该方法在处理规模较大的伙伴选择问题上,计算速度和达优率两方面的综合性能优势明显. 展开更多
关键词 企业结盟 招投标 伙伴选择 多agent 强化学习 演化博弈
下载PDF
一种基于多Agent强化学习的无线传感器网络多路径路由协议 被引量:7
17
作者 乔阳 唐昊 +2 位作者 程文娟 江琦 马学森 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第7期896-899,共4页
文章研究了无线传感器网络中存在的多条最短路径路由选择问题。将无线传感器网络看作多Agent系统,采用强化学习理论,提出了一种基于多Agent强化学习的无线传感器网络多路径路由协议MRLMPRP(Multi-agent Reinforcement Learning based Mu... 文章研究了无线传感器网络中存在的多条最短路径路由选择问题。将无线传感器网络看作多Agent系统,采用强化学习理论,提出了一种基于多Agent强化学习的无线传感器网络多路径路由协议MRLMPRP(Multi-agent Reinforcement Learning based Multiple-path Routing Protocol)。该协议综合考虑了所要发送数据的优先级、节点间的链路质量以及节点数据缓冲队列的拥堵情况,为不同优先级的数据选择出当前网络状况下最优的路径进行数据的传输。仿真结果表明了该协议在降低网络平均端—端延时、提升数据包成功投递率方面的有效性。 展开更多
关键词 无线传感器网络 多路径路由协议 多agent系统 强化学习
下载PDF
多Agent强化学习方法与应用
18
作者 郭凌云 《福建电脑》 2015年第5期92-93,47,共3页
强化学习是Agent通过试错与环境交互改进动作策略,单Agent强化学习能够进行自学习和在线学习,单Agent的知识和资源是有限的,多个Agent强化学习是求解复杂问题的有效途径。多Agent系统比单Agent具有更强的问题求解能力,但多Agent的参与... 强化学习是Agent通过试错与环境交互改进动作策略,单Agent强化学习能够进行自学习和在线学习,单Agent的知识和资源是有限的,多个Agent强化学习是求解复杂问题的有效途径。多Agent系统比单Agent具有更强的问题求解能力,但多Agent的参与又增加了问题的复杂性。本文分析了多Agent强化学习方法的研究现状,总结了目前存在的主要问题及其解决方法,最后介绍了多Agent技术在实际问题中的部分应用。 展开更多
关键词 多agent 强化学习 对策论 POMDP
下载PDF
基于多agent强化学习的语义Web爬虫设计
19
作者 谢枫平 《漳州师范学院学报(自然科学版)》 2010年第4期63-68,共6页
Web的海量信息导致了搜索引擎的出现,同时,Web数据的迅速膨胀以及频繁的更新对搜索引擎提出了更高的要求,而并行搜索引擎可以提高抓取速度,并改善更新效率.语义Web是对未来Web的一个设想,语义Web的数据同传统Web一样面临着数据的膨胀更... Web的海量信息导致了搜索引擎的出现,同时,Web数据的迅速膨胀以及频繁的更新对搜索引擎提出了更高的要求,而并行搜索引擎可以提高抓取速度,并改善更新效率.语义Web是对未来Web的一个设想,语义Web的数据同传统Web一样面临着数据的膨胀更新问题.于是研究语义Web并行搜索引擎成了一个重要的研究方向.介绍了如何设计一个基本的面向语义Web的并行爬虫系统.该系统由一个中央控制器和若干个子爬虫组成.中央控制器负责为爬虫分配抓取任务,并汇总抓取的数据;子爬虫负责抓取并抽取URLs的工作.而对于每个子爬虫除了处理RDF文档之外,还试图从传统HTML网页中通过强化学习的方法发现更多RDF文档链接. 展开更多
关键词 语义WEB 并行爬虫 强化学习
下载PDF
基于多Agent深度强化学习的无人机协作规划方法
20
作者 王娜 马利民 +1 位作者 姜云春 宗成国 《计算机应用与软件》 北大核心 2024年第9期83-89,96,共8页
人机协作控制是多无人机任务规划的重要方式。考虑多无人机任务环境协同解释和策略控制一致性需求,提出基于多Agent深度强化学习的无人机协作规划方法。依据任务知识和行为状态,构建基于任务分配Agent的任务规划器,生成人机交互的相互... 人机协作控制是多无人机任务规划的重要方式。考虑多无人机任务环境协同解释和策略控制一致性需求,提出基于多Agent深度强化学习的无人机协作规划方法。依据任务知识和行为状态,构建基于任务分配Agent的任务规划器,生成人机交互的相互依赖关系;设计一种深度学习强化方法,解决群体行为最优策略和协同控制方法,并利用混合主动行为选择机制评估学习策略。实验结果表明:作为人机交互实例,所提方法通过深度强化学习使群体全局联合动作表现较好,学习速度和稳定性均能优于确定性策略梯度方法。同时,在跟随、自主和混合主动3种模式比较下,可以较好地控制无人机飞行路径和任务,为无人机集群任务执行提供了智能决策依据。 展开更多
关键词 多agent规划 深度强化学习 无人机协同规划 混合主动行为
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部