期刊文献+
共找到181篇文章
< 1 2 10 >
每页显示 20 50 100
基于多Agent的广域保护系统体系研究 被引量:22
1
作者 李振兴 尹项根 +1 位作者 张哲 王育学 《电力系统保护与控制》 EI CSCD 北大核心 2012年第4期71-75,共5页
以提高广域继电保护自治性和适应性为目的,引入多Agent技术设计了广域保护系统的体系结构,并给出了广域保护Agent的设计思路。基于分区域分布集中式系统结构,讨论了广域保护子Agent的数据采集、系统通信、故障识别、知识库、结果执行、... 以提高广域继电保护自治性和适应性为目的,引入多Agent技术设计了广域保护系统的体系结构,并给出了广域保护Agent的设计思路。基于分区域分布集中式系统结构,讨论了广域保护子Agent的数据采集、系统通信、故障识别、知识库、结果执行、学习能力等多任务功能描述。利用多Agent系统并行工作与协作机制,构建了广域保护多代理的体系结构和工作机制,并给出了保护功能分解的多代理分层模型。同时结合广域保护功能,阐述了故障识别、结果执行、通信网络性能监视等几种典型子Agent的详细设计特点、结构、模型及其决策过程。通过多Agent在广域保护中的运用,可以有效实现大规模电网系统在不同运行工况下自适应保护。 展开更多
关键词 广域保护 分区域 分布集中式结构 agent 体系结构
下载PDF
广域保护多Agent系统动态协作机制 被引量:7
2
作者 李振兴 尹项根 +2 位作者 张哲 邓星 刘颖彤 《电力系统保护与控制》 EI CSCD 北大核心 2012年第3期36-40,共5页
以提高广域保护应对系统故障时出现的通信误码、保护失灵和断路器失灵等复杂运行情况的能力为目的,结合故障识别算法,提出了广域保护多Agent系统的动态协作机制。基于分区域分布集中式多Agent广域保护系统结构,结合多信息融合的广域故... 以提高广域保护应对系统故障时出现的通信误码、保护失灵和断路器失灵等复杂运行情况的能力为目的,结合故障识别算法,提出了广域保护多Agent系统的动态协作机制。基于分区域分布集中式多Agent广域保护系统结构,结合多信息融合的广域故障识别保护算法,研究广域保护主站和子站,子站与子站间的信息动态协作机制,详述了保护系统对故障识别、容错处理和执行处理等动态协作机制的处理过程,并利用状态机描述多Agent系统的整体协作机制。基于IEEE 39节点系统的算例分析描述了通信错误、保护失灵和断路器失灵等几种典型故障时多Agent间的协作过程。 展开更多
关键词 广域保护 分布集中式结构 agent 协作 状态机
下载PDF
基于单/多智能体简化强化学习的电力系统无功电压控制
3
作者 马庆 邓长虹 《电工技术学报》 EI CSCD 北大核心 2024年第5期1300-1312,共13页
为了快速平抑分布式能源接入系统产生的无功电压波动,以强化学习、模仿学习为代表的机器学习方法逐渐被应用于无功电压控制。虽然现有方法能实现在线极速求解,但仍然存在离线训练速度慢、普适性不够等阻碍其应用于实际的缺陷。该文首先... 为了快速平抑分布式能源接入系统产生的无功电压波动,以强化学习、模仿学习为代表的机器学习方法逐渐被应用于无功电压控制。虽然现有方法能实现在线极速求解,但仍然存在离线训练速度慢、普适性不够等阻碍其应用于实际的缺陷。该文首先提出一种适用于输电网集中式控制的单智能体简化强化学习方法,该方法基于“Actor-Critic”架构对强化学习进行简化与改进,保留了强化学习无需标签数据与强普适性的优点,同时消除了训练初期因智能体随机搜索造成的计算浪费,大幅提升了强化学习的训练速度;然后,提出一种适用于配电网分布式零通信控制的多智能体简化强化学习方法,该方法将简化强化学习思想推广形成多智能体版本,同时采用模仿学习进行初始化,将全局优化思想提前注入各智能体,提升各无功设备之间的就地协同控制效果;最后,基于改进IEEE 118节点算例的仿真结果验证了所提方法的正确性与快速性。 展开更多
关键词 无功电压控制 集中式控制 单智能体简化强化学习 分布式控制 多智能体简化强化学习
下载PDF
智能Agent角色的动态调整及其通信可靠性研究 被引量:1
4
作者 高峰 《计算机工程》 EI CAS CSCD 北大核心 2006年第6期143-145,220,共4页
在智能化网络管理通信模型的高级层面上借助了人类社会的聘岗机制,使不同角色的智能代理之间能够通过该机制有限状态机所定义的规则,进行角色的动态转变。实现了复杂网络的环境下代理角色适应网络动态复杂变化的功能。充分考虑到网络环... 在智能化网络管理通信模型的高级层面上借助了人类社会的聘岗机制,使不同角色的智能代理之间能够通过该机制有限状态机所定义的规则,进行角色的动态转变。实现了复杂网络的环境下代理角色适应网络动态复杂变化的功能。充分考虑到网络环境的复杂性,在每一个社区引入一个中央消息发布代理(Central Message Publishing Agent),并在其内部实现了出版者/订阅者的机制,解决了可能由于社区中智能代理工作不能正常而造成的代理之间通信的不便。从而有效保证了代理之间通信的可靠性。 展开更多
关键词 智能代理 聘岗机制 中央消息发布代理 出版者/订阅者的机制
下载PDF
多Agent系统任务分配方法综述 被引量:51
5
作者 唐苏妍 朱一凡 +1 位作者 李群 雷永林 《系统工程与电子技术》 EI CSCD 北大核心 2010年第10期2155-2161,共7页
任务分配问题是多Agent系统(multi Agent system,MAS)中的重要研究内容之一,即解决如何将合适的任务分配给合适的Agent以实现整体执行效果最优。在分析MAS四种典型控制架构的基础上,比较了集中式与分布式控制架构下任务分配问题的特点,... 任务分配问题是多Agent系统(multi Agent system,MAS)中的重要研究内容之一,即解决如何将合适的任务分配给合适的Agent以实现整体执行效果最优。在分析MAS四种典型控制架构的基础上,比较了集中式与分布式控制架构下任务分配问题的特点,并对目前MAS中的多种集中式和分布式分配方法分别进行综述。最后,从理论和应用研究两方面总结和分析了MAS任务分配问题的未来发展方向。 展开更多
关键词 agent系统 任务分配 控制架构 集中式 分布式
下载PDF
多智能体中央式协同路径规划算法综述
6
作者 赵小涵 史小露 +3 位作者 陈璐 何思凡 段岁军 李大伟 《农业装备与车辆工程》 2024年第6期144-150,共7页
协同路径规划是实现多智能体协同作业的一项关键技术,需要保证行进至目标点前智能体间无碰撞,同时满足规划轨迹平滑性、规划时间有效性等要求。在明确多智能体协同规划问题的基础上,根据算法原理,将中央式协同路径规划算法分为基于A~*... 协同路径规划是实现多智能体协同作业的一项关键技术,需要保证行进至目标点前智能体间无碰撞,同时满足规划轨迹平滑性、规划时间有效性等要求。在明确多智能体协同规划问题的基础上,根据算法原理,将中央式协同路径规划算法分为基于A~*搜索、基于冲突搜索、基于安全间隔路径、基于代价增长树、基于规约算法以及其他算法,简单阐述各算法原理。研究发现,基于冲突搜索的协同路径规划算法因其计算质量及速度优势成为当前的主流算法,以此为基础进行改进成为当前研究热点。单一类型的算法对不同智能体规模及场景下的适应能力有限,多类型算法融合及智能化方法的介入将成为未来多智能体协同规划的发展趋势。 展开更多
关键词 多智能体 中央式协同路径规划 算法综述 搜索算法 混合算法
下载PDF
多核CPU-GPU异构平台下并行Agent仿真负载均衡方法 被引量:3
7
作者 王维平 余文广 +1 位作者 侯洪涛 李群 《系统工程与电子技术》 EI CSCD 北大核心 2012年第11期2366-2373,共8页
多核中央处理器(central processing unit,CPU)-图形处理器(graphic processing unit,GPU)异构平台为并行Agent仿真提供了一个新的硬件执行平台,而负载均衡方法是充分利用硬件计算资源、提高并行仿真运行性能的一个有效途径。针对多核CP... 多核中央处理器(central processing unit,CPU)-图形处理器(graphic processing unit,GPU)异构平台为并行Agent仿真提供了一个新的硬件执行平台,而负载均衡方法是充分利用硬件计算资源、提高并行仿真运行性能的一个有效途径。针对多核CPU-GPU异构平台下并行Agent仿真的负载均衡问题,建立了面向多核CPU-GPU的并行Agent仿真多层负载分配模型,提出了基于带约束的k-means空间聚类算法的并行Agent仿真静态负载划分方法和动态负载均衡策略,并给出了划分子集间的可交互性判定,以过滤掉大量不会发生交互关系的Agent之间的交互判定计算。最后通过实验验证了本文提出方法的有效性。 展开更多
关键词 并行agent仿真 多核中央处理器 图形处理器 负载均衡
下载PDF
基于多Agent的医疗信任模型的模拟 被引量:3
8
作者 黄巧华 黄穗 《计算机应用与软件》 CSCD 2011年第5期129-130,192,共3页
结合直接交互信任评价和第三方信誉推荐,提出了一种基于多Agent技术的医疗信任模拟模型。使用置信因子来综合直接交互信任值和第三方信誉推荐值;避免了患者直接交互的盲目性和巨额计算,完善了对医生自我推荐的辨别能力。实验采用Swarm... 结合直接交互信任评价和第三方信誉推荐,提出了一种基于多Agent技术的医疗信任模拟模型。使用置信因子来综合直接交互信任值和第三方信誉推荐值;避免了患者直接交互的盲目性和巨额计算,完善了对医生自我推荐的辨别能力。实验采用Swarm仿真平台模拟医疗信任模型的交互过程,结果表明该模型在确定信任关系中相对IT模型要快,比第三方信誉推荐模型相对要可靠。 展开更多
关键词 全局信任值 中央信托agents 推荐值 置信因子
下载PDF
基于改进合同网的中央冷却系统多Agent智能控制研究
9
作者 肖剑波 胡大斌 胡锦晖 《江苏科技大学学报(自然科学版)》 CAS 2018年第3期399-406,共8页
针对电力推进装置中央冷却系统的运行特点、运行工况和智能控制需求,将多Agent控制技术引入中央冷却系统控制中.结合控制需求设计了一种合理的多Agent系统控制结构,采用了Agent联盟的协作结构,并引入了熟人机制,提出了一种改进的合同网... 针对电力推进装置中央冷却系统的运行特点、运行工况和智能控制需求,将多Agent控制技术引入中央冷却系统控制中.结合控制需求设计了一种合理的多Agent系统控制结构,采用了Agent联盟的协作结构,并引入了熟人机制,提出了一种改进的合同网模型.对多Agent智能控制系统的性能和效果进行验证分析,结果表明,该多Agent智能控制系统能够实现正常工况切换及故障工况下的自动控制,达到了控制要求,提高了任务效率. 展开更多
关键词 中央冷却系统 改进合同网 agent系统 智能控制
下载PDF
基于多智能体深度强化学习的多船协同避碰策略
10
作者 黄仁贤 罗亮 《计算机集成制造系统》 EI CSCD 北大核心 2024年第6期1972-1988,共17页
为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延... 为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延迟确定策略梯度(TD3)算法存在的值估计偏差问题,还在模型训练过程中引入熵正则项,以促进探索和控制随机控制策略,采用自适应噪声对不同阶段的任务进行有效探索,进一步提升了算法的学习效果和稳定性。通过实验验证,所提算法在解决多船协同避碰问题上具有较好的决策效果、更快的收敛速度和更稳定的性能。 展开更多
关键词 多智能体深度强化学习 协同避碰 中心化训练去中心化执行 优先经验回放 多智能体Softmax深层双确定性策略梯度
下载PDF
电力推进装置中央冷却系统多Agent智能控制试验研究 被引量:2
11
作者 邵钰蟒 吴杰长 +1 位作者 陈于涛 钱贵中 《舰船科学技术》 北大核心 2015年第11期77-81,共5页
针对电力推进装置中央冷却系统多Agent智能控制的试验验证问题,分析中央冷却系统的运行特点、主要运行工况和智能控制需求,通过二次设计,对主淡水回路进行正常/故障工况模拟。建立相应的试验研究平台,包括以桌面试验装置为核心的硬件结... 针对电力推进装置中央冷却系统多Agent智能控制的试验验证问题,分析中央冷却系统的运行特点、主要运行工况和智能控制需求,通过二次设计,对主淡水回路进行正常/故障工况模拟。建立相应的试验研究平台,包括以桌面试验装置为核心的硬件结构和面向试验装置的多Agent智能控制软件体系。设计试验测试内容,对智能控制的功能和效果进行验证分析。试验研究表明,该试验装置能够模拟真实中央冷却系统的各种正常/故障工况,多Agent智能控制系统能够对中央冷却系统进行有效的智能控制,提高系统的任务效率和生存能力。 展开更多
关键词 中央冷却系统 agent系统 智能控制 试验研究
下载PDF
部分可观测条件下的策略迁移强化学习方法
12
作者 王忠禹 徐晓鹏 王东 《现代防御技术》 北大核心 2024年第2期63-71,共9页
针对多智能体强化学习算法在部分可观测条件下难以形成有效协同策略的问题,基于集中式训练与分散式执行范式(CTDE)提出一种策略迁移强化学习方法。该方法在全局观测下训练可以探索到良好协同策略的教师模块,在部分可观测条件下,学生模... 针对多智能体强化学习算法在部分可观测条件下难以形成有效协同策略的问题,基于集中式训练与分散式执行范式(CTDE)提出一种策略迁移强化学习方法。该方法在全局观测下训练可以探索到良好协同策略的教师模块,在部分可观测条件下,学生模块依据最大化累计回报的期望为目标函数在线训练的同时,利用策略蒸馏技术从教师模块进行策略迁移,并自适应调整教师策略对学生策略的影响比重。在多个地图场景中对所提出的方法进行仿真验证,实验结果表明部分可观测条件下学生模块的胜率高于所对比的基线算法的胜率。研究成果可以应用于多智能体合作任务,提升智能体在分散式执行时的协同性能。 展开更多
关键词 多智能体 强化学习 部分观测 策略迁移 集中式训练与分散式执行
下载PDF
聚类与信息共享的多智能体深度强化学习协同控制交通灯
13
作者 杜同春 王波 +2 位作者 程浩然 罗乐 曾能民 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第2期538-545,共8页
该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类... 该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类内部进行信息共享和中心化训练,并在每个训练过程结束时将评价值最高的值函数网络参数分享给其它智能体。在城市交通仿真软件(SUMO)下的仿真实验结果表明,所提方法能够减少通信的数据量,使得智能体之间的信息共享和中心化训练更加可行和高效,车辆平均等待时长少于当前最优的基于多智能体深度强化学习的交通灯控制方法,能够有效地缓解交通拥堵。 展开更多
关键词 交通信号灯协同控制 集中训练分散执行 强化学习智能体聚类 生长型神经气 深度循环Q网络
下载PDF
基于移动Agent的面向对象分布式冗余服务系统
14
作者 许丽丽 田俊峰 王凤先 《计算机工程与应用》 CSCD 北大核心 2003年第26期102-105,共4页
目前很多分布式应用系统都利用冗余服务技术来提高系统的可用性。论文分析了分布式冗余服务系统中集中管理模式存在的诸多问题,并提出引入移动agent实现对服务实例主动的集中管理和分布管理的结合,从而保证系统高可用性的同时改善系统... 目前很多分布式应用系统都利用冗余服务技术来提高系统的可用性。论文分析了分布式冗余服务系统中集中管理模式存在的诸多问题,并提出引入移动agent实现对服务实例主动的集中管理和分布管理的结合,从而保证系统高可用性的同时改善系统的性能。其中用到对象和实例的概念来定义冗余服务。 展开更多
关键词 集中式管理 冗余服务 移动代理
下载PDF
用多Agent系统分配具有启动成本的有限资源
15
作者 郑明 王玲娟 蔚承建 《计算机工程与应用》 CSCD 北大核心 2010年第4期219-222,共4页
提出了基于多Agent系统分配具有启动成本的有限资源的两种方法:集中式求解方法和分布式求解方法。在分布式求解方法中,给出了分布式的连续双向拍卖协议算法,其Agent采用零智慧增强学习策略。实验结果表明:相对于集中式求解方法,使用分... 提出了基于多Agent系统分配具有启动成本的有限资源的两种方法:集中式求解方法和分布式求解方法。在分布式求解方法中,给出了分布式的连续双向拍卖协议算法,其Agent采用零智慧增强学习策略。实验结果表明:相对于集中式求解方法,使用分布式求解方法是以降低部分效率为代价的,但是当市场的总需求逐渐接近所有卖者能提供的最大资源数时,市场平均效率呈现逐渐递增的趋势。 展开更多
关键词 agent系统 集中式求解方法 分布式求解方法 连续双向拍卖协议 零智慧增强学习策略 市场效率
下载PDF
自然保护地委托代理机制与事权清单探索 被引量:3
16
作者 吴佳雨 谭荣 吴格非 《中国土地科学》 CSCD 北大核心 2023年第4期43-51,共9页
研究目的:在全民所有自然资源资产所有权委托代理机制试点的背景下,探索自然保护地事权清单背后的理论逻辑和判定方法,为协调自然保护地管理过程中的发展与保护、中央和地方两类重要关系提供参考。研究方法:从公共物品供给、效率公平兼... 研究目的:在全民所有自然资源资产所有权委托代理机制试点的背景下,探索自然保护地事权清单背后的理论逻辑和判定方法,为协调自然保护地管理过程中的发展与保护、中央和地方两类重要关系提供参考。研究方法:从公共物品供给、效率公平兼顾原则和政府纵向间约束机制三类理论出发,通过政策文本分析方法,明确了自然保护地委托代理机制和权责。研究结果:(1)自然保护地委托代理机制面临治理对象复杂、治理范围难界定、利益主体多元的三重特殊性。(2)兼顾效率、公平和稳定原则,按照“职责判断—效率评估—公平界定—风险衡量”4阶段的事权判定流程,可实现了事权的清晰划分。(3)形成涵盖中央事权58项,共同事权75项,地方事权39项的自然保护地委托代理的事权清单。研究结论:充分考虑自然保护地的本质特征、功能价值与治理难点,明确各类公共物品供给职责,规避民众统治风险和地方代理风险,实现效率最优决策和治理公平,是自然保护地委托代理机制成功的关键。 展开更多
关键词 自然保护地 自然资源 委托代理 中央地方关系 事权划分
下载PDF
The Research about the Trans-provincial Centralized Bidding Trading Market of East China Power Grid --II:Model Analysis
17
作者 Bin Zou Jie Fan +1 位作者 Xiao-Gang Li Li-Bing Yang 《Engineering(科研)》 2013年第1期121-126,共6页
In this paper a novel cost function based on the relationship between operation cost of unit and generation load rate is employed in an agent-based model of Trans-provincial Centralized Bidding Trading Market of East ... In this paper a novel cost function based on the relationship between operation cost of unit and generation load rate is employed in an agent-based model of Trans-provincial Centralized Bidding Trading Market of East China Grid. Simulation results are compared to real data to prove that the model is correct. Further analysis on simulation results point out the way to achieve an all-win game for power market members: generation companies improve their average load rates of the units by selling their electricity in the market, which makes units' cost drop and settlement price stay lower than benchmark price. Consequently electricity-demand provinces saved expenses, and units increase their profits. In conclusion, the trans-provincial electricity market of East China Power Grid is a successive case which improves the efficiency of the electricity industry by market-oriented measures. 展开更多
关键词 Power Market agent-BASED Simulation East China Grid Trans-provincial centralIZED TRADE Partial ELECTRICITY Competition
下载PDF
基于加权值函数分解的多智能体分层强化学习技能发现方法
18
作者 邹启杰 李文雪 +2 位作者 高兵 赵锡玲 张汝波 《计算机应用研究》 CSCD 北大核心 2023年第9期2743-2748,2754,共7页
针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化... 针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化学习相结合,在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题;其次,在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务;最后,在底层独立Q学习的基础上引入技能发现策略,使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比,实验表明,该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高,提升了整个多智能体系统的决策能力和收敛速度,验证了算法的可行性。 展开更多
关键词 多智能体强化学习 分层强化学习 集中训练分散执行 值函数分解 技能发现
下载PDF
欧洲医药保健网分类系统在中枢神经系统药物相关问题中的干预效果评价
19
作者 姜倩 范芳芳 +3 位作者 姚莉 郑丽丽 胡兰 赵生俊 《安徽医药》 CAS 2023年第11期2313-2317,共5页
目的运用欧洲医药保健网(PCNE)分类系统对中枢神经系统药物相关问题(DRPs)进行分析与评估,为临床药师进行合理用药提供依据。方法选择2020年7月至2021年7月入住新疆医科大学附属中医医院神经内科并且服用中枢神经系统药物的病人,临床药... 目的运用欧洲医药保健网(PCNE)分类系统对中枢神经系统药物相关问题(DRPs)进行分析与评估,为临床药师进行合理用药提供依据。方法选择2020年7月至2021年7月入住新疆医科大学附属中医医院神经内科并且服用中枢神经系统药物的病人,临床药师从药学服务中对发现的DRPs进行干预,并借助PCNE(V9.0)分类系统进行分类汇总。结果纳入654例服用中枢神经系统药物的病人,106例(16.21%)病人共发生112个DRPs。其中DRPs的问题类别集中在治疗安全性(74.11%)和治疗有效性(16.07%)。DRPs发生频率较高的药物为抗精神病药、苯二氮䓬类药、抗焦虑抑郁药、解热镇痛抗炎药及抗痴呆药和改善脑代谢药。DRPs的原因主要是药物选择(79.65%),其次是剂量选择(9.73%)。临床药师共进行了257次介入,其中207次介入被接受,成功率为80.54%。干预接受程度最高的是药物不良反应上报(100%),其次是与病人层面(96.97%)、药物层面(77.98%)及医师层面(76.42%)。发生9例(1.37%)药物不良反应,临床药师参与评价及干预,9例病人均转归良好。结论PCNE分类系统的引入能提升临床药师发现和解决DRPs的能力,提高临床药师在药学服务中的能力及效率,促进临床合理用药。 展开更多
关键词 中枢神经系统药物 药物相关性副作用和不良反应 欧洲医药保健网分类系统 药物相关问题 药学监护
下载PDF
引入通信与探索的多智能体强化学习QMIX算法 被引量:4
20
作者 邓晖奕 李勇振 尹奇跃 《计算机应用》 CSCD 北大核心 2023年第1期202-208,共7页
非平稳性问题是多智能体环境中深度学习面临的主要挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致无终止的循环。为解决上述问题,研究了中... 非平稳性问题是多智能体环境中深度学习面临的主要挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致无终止的循环。为解决上述问题,研究了中心式训练分布式执行(CTDE)架构在强化学习中的实现方法,并分别从智能体间通信和智能体探索这两个角度入手,采用通过方差控制的强化学习算法(VBC)并引入好奇心机制来改进QMIX算法。通过星际争霸Ⅱ学习环境(SC2LE)中的微操场景对所提算法加以验证。实验结果表明,与QMIX算法相比,所提算法的性能有所提升,并且能够得到收敛速度更快的训练模型。 展开更多
关键词 多智能体环境 深度强化学习 中心式训练分布式执行架构 好奇心机制 智能体通信
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部