期刊文献+
共找到48篇文章
< 1 2 3 >
每页显示 20 50 100
A distributed algorithm for signal coordination of multiple agents with embedded platoon dispersion model
1
作者 别一鸣 王殿海 +1 位作者 马东方 朱自博 《Journal of Southeast University(English Edition)》 EI CAS 2011年第3期311-315,共5页
In order to reduce average arterial vehicle delay, a novel distributed and coordinated traffic control algorithm is developed using the multiple agent system and the reinforce learning (RL). The RL is used to minimi... In order to reduce average arterial vehicle delay, a novel distributed and coordinated traffic control algorithm is developed using the multiple agent system and the reinforce learning (RL). The RL is used to minimize average delay of arterial vehicles by training the interaction ability between agents and exterior environments. The Robertson platoon dispersion model is embedded in the RL algorithm to precisely predict platoon movements on arteries and then the reward function is developed based on the dispersion model and delay equations cited by HCM2000. The performance of the algorithm is evaluated in a Matlab environment and comparisons between the algorithm and the conventional coordination algorithm are conducted in three different traffic load scenarios. Results show that the proposed algorithm outperforms the conventional algorithm in all the scenarios. Moreover, with the increase in saturation degree, the performance is improved more significantly. The results verify the feasibility and efficiency of the established algorithm. 展开更多
关键词 multiple agents signal coordination reinforce learning platoon dispersion model
下载PDF
ChatGPT的工作原理、关键技术及未来发展趋势 被引量:19
2
作者 秦涛 杜尚恒 +1 位作者 常元元 王晨旭 《西安交通大学学报》 EI CSCD 北大核心 2024年第1期1-12,共12页
ChatGPT是自然语言处理领域的一项重要技术突破,专注于对话生成任务,在多种任务中表现出卓越的性能。主要探讨ChatGPT的演变历程、关键技术,并分析了其未来可能的发展方向。首先,介绍了ChatGPT的模型架构和技术演进过程。随后,重点讨论... ChatGPT是自然语言处理领域的一项重要技术突破,专注于对话生成任务,在多种任务中表现出卓越的性能。主要探讨ChatGPT的演变历程、关键技术,并分析了其未来可能的发展方向。首先,介绍了ChatGPT的模型架构和技术演进过程。随后,重点讨论了ChatGPT的关键技术,包括提示学习与指令微调、思维链、人类反馈强化学习。然后,分析了由于基于概率生成原理所造成的固有局限,包括事实性错误、垂直领域深度性弱、潜在的恶意应用风险、可解释性及模型实时性差等。最后,探讨了其在典型应用中存在的问题和相应的解决途径,包括在训练评估过程中考虑道德和安全性因素,以降低潜在风险;结合外部专家知识和迁移学习,以提高模型对特定领域的理解能力,更好地适应特定任务场景;引入多模态数据,以提高模型信息理解能力,增强模型通用性和泛化性。通过对ChatGPT模型框架、技术演变与关键技术的分析,为深入理解ChatGPT提供帮助;结合原理分析其固有缺陷,并结合实际应用中存在的问题,挖掘未来可能的研究方向,为自然语言处理领域的深入研究提供有益参考。 展开更多
关键词 ChatGPT模型架构 概率生成 强化学习 迁移学习
下载PDF
基于双视角建模的多智能体协作强化学习方法
3
作者 刘全 施眉龙 +1 位作者 黄志刚 张立华 《计算机学报》 EI CAS CSCD 北大核心 2024年第7期1582-1594,共13页
在多智能体协作领域,强化学习算法通过共享智能体的局部信息来实现智能体间的协作.但共享协作机制极易引发过度协作问题,导致智能体忽视自身局部观测信息,丧失策略多样性,最终陷入低效协作的困境.为了解决该问题,本文提出基于双视角建... 在多智能体协作领域,强化学习算法通过共享智能体的局部信息来实现智能体间的协作.但共享协作机制极易引发过度协作问题,导致智能体忽视自身局部观测信息,丧失策略多样性,最终陷入低效协作的困境.为了解决该问题,本文提出基于双视角建模的多智能体协作强化学习方法(Bi-View Modeling Collaborative Multi-Agent Reinforcement Learning,简称BVM-CMARL).该方法从局部和全局两个视角对智能体进行建模,分别用于产生多样性的策略和激励协作.在局部视角最大化局部变分与自身轨迹的互信息,激励智能体的策略多样性;同时在全局视角最大化全局变分与其他智能体动作的互信息,提高智能体协作水平.最后将局部变分训练出的局部Q值与全局变分训练出的全局Q值合并,避免低效协作.将BVM-CMARL算法应用于星际争霸多智能体挑战赛(StarCraft Multi-Agent Challenge,SMAC)中的等级觅食(Level-Based Foraging,LBF)和走廊(Hallway)等环境,与QMIX、QPLEX、RODE、EOI和MAVEN等5种目前优秀的强化学习算法相比,BVM-CMARL算法具有更好的稳定性和性能表现,在SMAC上的平均胜率为82.81%,比次优算法RODE高13.42%.通过设计模型变体,在消融实验中证明了双视角建模对BVM-CMARL的必要性. 展开更多
关键词 深度强化学习 多智能体系统 多智能体协作 协作建模 对比学习
下载PDF
基于智能体建模的新型电力系统下火电企业市场交易策略 被引量:2
4
作者 李超英 檀勤良 《中国电力》 CSCD 北大核心 2024年第2期212-225,共14页
高比例新能源渗透情景下火电企业竞价策略研究对保障火电企业运营和推进新型电力系统建设具有重要意义。基于智能体建模框架,建立电力现货市场仿真模型和机组自学习决策模型。其中,环境模块建立了考虑源荷双侧不确定性的风光火储多方参... 高比例新能源渗透情景下火电企业竞价策略研究对保障火电企业运营和推进新型电力系统建设具有重要意义。基于智能体建模框架,建立电力现货市场仿真模型和机组自学习决策模型。其中,环境模块建立了考虑源荷双侧不确定性的风光火储多方参与的电力现货市场出清模型;智能体模块将火电机组投标决策过程刻画为部分观测马尔科夫决策过程,采用深度确定性策略梯度算法求解。以HRP-38节点系统为例进行仿真分析,明晰高比例新能源下火电企业市场交易策略。结果表明:在不考虑火电机组提供辅助服务的前提下,随着新能源渗透率的提高,仍有部分位置独特且具有成本优势的火电机组拥有竞争力;预测误差增大将使大容量火电机组投标策略趋于保守,而小容量机组投标策略相反;火电机组在各类场景下均具有隐性共谋倾向,即彼此隐藏信息时仍同时提高报价。 展开更多
关键词 电力市场 多智能体建模 强化学习 报价策略 辅助决策
下载PDF
基于Agent的递阶强化学习模型与体系结构 被引量:4
5
作者 王文玺 肖世德 +2 位作者 孟祥印 陈应松 张卫华 《机械工程学报》 EI CAS CSCD 北大核心 2010年第2期76-82,共7页
通过引入频率最大Q值启发式学习算法,对一种递阶强化学习方法进行改进,解决在庞大状态空间和动态变化环境中对Agent进行最优行为策略学习的问题。引入属性维护算子以及承诺和规划意识属性,对经典信念、愿望、意图模型进行扩展,给出意识... 通过引入频率最大Q值启发式学习算法,对一种递阶强化学习方法进行改进,解决在庞大状态空间和动态变化环境中对Agent进行最优行为策略学习的问题。引入属性维护算子以及承诺和规划意识属性,对经典信念、愿望、意图模型进行扩展,给出意识属性的理性维护过程,增强Agent的自适应性并使Agent具有在动态环境中进行在线学习的能力。根据意识模型提出一种具有主动性、适应性、反应性、社会性的Agent体系结构,并根据该体系结构开发出一种路径规划Agent。通过对行驶环境的组态设定,模拟车辆复杂的行驶状态,并通过对行驶状态的不断学习,最终获得最优路径,证明体系结构的可行性和有效性。 展开更多
关键词 agent 强化学习 体系结构 意识模型
下载PDF
一种基于多Agent强化学习的多星协同任务规划算法 被引量:21
6
作者 王冲 景宁 +2 位作者 李军 王钧 陈浩 《国防科技大学学报》 EI CAS CSCD 北大核心 2011年第1期53-58,共6页
在分析任务特点和卫星约束的基础上给出了多星协同任务规划问题的数学模型。引入约束惩罚算子和多星联合惩罚算子对卫星Agent原始的效用值增益函数进行改进,在此基础上提出了一种多卫星Agent强化学习算法以求解多星协同任务分配策略,设... 在分析任务特点和卫星约束的基础上给出了多星协同任务规划问题的数学模型。引入约束惩罚算子和多星联合惩罚算子对卫星Agent原始的效用值增益函数进行改进,在此基础上提出了一种多卫星Agent强化学习算法以求解多星协同任务分配策略,设计了基于黑板结构的多星交互方式以降低学习交互过程中的通信代价。通过仿真实验及分析证明该方法能够有效解决多星协同任务规划问题。 展开更多
关键词 卫星任务规划 协同规划 多智能体强化学习 黑板结构
下载PDF
一种新颖的多agent强化学习方法 被引量:8
7
作者 周浦城 洪炳镕 黄庆成 《电子学报》 EI CAS CSCD 北大核心 2006年第8期1488-1491,共4页
提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法,利用模块化学习结构来克服状态空间的维数灾问题,将Q-学习与利益分配学习相结合以加快学习速度,采用基于观察的对手建模来预测其他agent的动作分布.追... 提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法,利用模块化学习结构来克服状态空间的维数灾问题,将Q-学习与利益分配学习相结合以加快学习速度,采用基于观察的对手建模来预测其他agent的动作分布.追捕问题的仿真结果验证了所提方法的有效性. 展开更多
关键词 agent学习 Q-学习 利益分配学习 模块化结构 对手建模
下载PDF
一种新的基于Agent的神经网络隐层节点数的优化算法 被引量:8
8
作者 高鹏毅 陈传波 +1 位作者 秦升 胡迎松 《计算机工程与科学》 CSCD 北大核心 2010年第5期30-33,共4页
本文提出了一种新的基于Agent的神经网络隐层结构的优化算法(OHA)。该方法包括两个部分,分别由RLAgent和NNAgent合作完成。RLAgent根据强化学习算法找到一个比当前节点数更优的解,并反馈给NNAgent。NNAgent据此构建相应的网络,并采用分... 本文提出了一种新的基于Agent的神经网络隐层结构的优化算法(OHA)。该方法包括两个部分,分别由RLAgent和NNAgent合作完成。RLAgent根据强化学习算法找到一个比当前节点数更优的解,并反馈给NNAgent。NNAgent据此构建相应的网络,并采用分层训练的算法对该网络进行优化,训练结果再发给RLAgent。在多次循环后,OHA算法就可以找到一个训练误差最小的全局最优解(权值及隐层节点数)。本文讨论了有关的算法、测试和结果分析。Iris数据集和危险评估数据集的测试结果表明,算法避免了盲目搜索造成的计算开销,明显改善了优化性能。 展开更多
关键词 神经网络 隐层节点 隐层结构优化 智能代理 强化学习
下载PDF
多Agent协作的强化学习模型和算法 被引量:6
9
作者 刘菲 曾广周 宋言伟 《计算机科学》 CSCD 北大核心 2006年第12期156-158,186,共4页
结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并... 结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并做出相应的决策,进而达成最优的联合动作策略。最后,通过对猎人-猎物追逐问题的仿真试验验证了该算法的收敛性,表明这种学习算法是一种高效、快速的学习方法。 展开更多
关键词 协作学习 强化学习 agent学习 学习模型 学习算法
下载PDF
基于Q学习的自主Agent模型 被引量:5
10
作者 杨善林 罗贺 胡小建 《微电子学与计算机》 CSCD 北大核心 2006年第9期203-205,208,共4页
为了实现Agent灵活、自主的运行,Agent必须具有很强的学习能力。在BDI模型基础上,引入Q学习方法调整Agent的动作策略。提出了基于Q学习的自主Agent模型,给出了模型的结构及形式化描述,分析了Agent的学习过程。以方格世界的搜索问题为例... 为了实现Agent灵活、自主的运行,Agent必须具有很强的学习能力。在BDI模型基础上,引入Q学习方法调整Agent的动作策略。提出了基于Q学习的自主Agent模型,给出了模型的结构及形式化描述,分析了Agent的学习过程。以方格世界的搜索问题为例,验证了模型的正确性和有效性。 展开更多
关键词 agent 强化学习 Q学习 BDI模型
下载PDF
增程式电动物流车队列的能量管理策略研究 被引量:1
11
作者 王刚 王洪亮 +2 位作者 皮大伟 孙晓旺 王显会 《农业装备与车辆工程》 2024年第2期53-58,共6页
以增程式电动物流车队列为研究对象,为提高整个队列的燃油经济性,从队列的协同自适应巡航控制和能量管理策略两方面进行研究。利用车对车通信和前车领航车跟随式通信拓扑结构,基于分布式模型预测控制,设计了以稳定性、舒适性和经济性为... 以增程式电动物流车队列为研究对象,为提高整个队列的燃油经济性,从队列的协同自适应巡航控制和能量管理策略两方面进行研究。利用车对车通信和前车领航车跟随式通信拓扑结构,基于分布式模型预测控制,设计了以稳定性、舒适性和经济性为优化目标的协同自适应巡航控制器。将增程式电动物流车队列的能量管理策略描述为一个完全合作类型的多智能体强化学习问题,所有智能体共同探索在不同车辆状态下的最优控制动作,提出了基于多智能体强化学习的能量管理策略。仿真结果表明,所设计的生态协同自适应巡航控制策略能够有效地平衡车辆队列的稳定性和经济性。以动态规划为基准,与单智能体算法相比,基于多智能体深度确定性策略梯度算法的能量管理策略可以在显著提高学习速率的同时获得近似最优解。 展开更多
关键词 增程式电动物流车队列 协同自适应巡航控制 分布式模型预测控制 能量管理策略 多智能体强化学习
下载PDF
计及风电的发电商报价多智能体模型
12
作者 黄飞虎 李沛东 +4 位作者 彭舰 董石磊 赵红磊 宋卫平 李强 《计算机科学》 CSCD 北大核心 2024年第S01期1183-1190,共8页
新型电力系统背景下,新能源发电商的报价问题一直是电力现货市场中的研究热点。相比传统能源,风电出力受外界不确定性因素的影响较大,给风力发电商求解最优报价带来了挑战。为此,基于多智能体强化学习算法WoLF-PHC构建了计及风电的发电... 新型电力系统背景下,新能源发电商的报价问题一直是电力现货市场中的研究热点。相比传统能源,风电出力受外界不确定性因素的影响较大,给风力发电商求解最优报价带来了挑战。为此,基于多智能体强化学习算法WoLF-PHC构建了计及风电的发电商报价策略模型。模型中,考虑了风电、火电和水电3种能源参与的现货市场,每一个发电商抽象为一个智能体,且基于随机约束规划算法建模风电智能体的收益函数;对于智能体的报价策略模型,将D3QN与WoLF-PHC算法结合,使模型能够满足报价时智能体状态空间复杂的情况;此外,对于交互环境的建模,提出利用DDPM扩散模型生成风电出力数据,优化风电出清场景的仿真。最后,基于3节点的电力仿真系统开展模拟实验,实验结果表明,提出的风电收益函数建模、WoLF-PHC改进、风电出力生成等技术是可行的,能有效解决风电参与竞价的现货市场报价问题,并且能够在较少的迭代次数后学习到较优的策略。 展开更多
关键词 WoLF-PHC 多智能体强化学习 电力现货市场 竞价策略 扩散模型
下载PDF
基于兵棋推演的空战编组对抗智能决策方法
13
作者 陈晓轩 冯旸赫 +2 位作者 黄金才 刘忠 徐越 《指挥与控制学报》 CSCD 北大核心 2024年第2期213-219,共7页
基于兵棋研究的空战编组对抗方法主要使用规则或运筹等手段,存在假设不够合理、建模不准确、应变性差等缺陷。强化学习算法可以根据作战数据自主学习编组对抗策略,以应对复杂的战场情况,但现有强化学习对作战数据要求高,当动作空间过大... 基于兵棋研究的空战编组对抗方法主要使用规则或运筹等手段,存在假设不够合理、建模不准确、应变性差等缺陷。强化学习算法可以根据作战数据自主学习编组对抗策略,以应对复杂的战场情况,但现有强化学习对作战数据要求高,当动作空间过大时,算法收敛慢,且对仿真平台有较高的要求。针对上述问题,提出了一种融合知识数据和强化学习的空战编组对抗智能决策方法,该决策方法的输入是战场融合态势,使用分层决策框架控制算子选择并执行任务,上层包含使用专家知识驱动的动作选择器,下层包含使用专家知识和作战规则细化的避弹动作执行器、侦察动作执行器和使用强化学习算法控制的打击动作执行器。最后基于典型作战场景进行实验,验证了该方法的可行性和实用性,且具有建模准确、训练高效的优点。 展开更多
关键词 空战编组对抗 多算子的协作与控制 多智能体深度强化学习算法 分层决策模型
下载PDF
海空跨域协同兵棋AI架构设计及关键技术分析 被引量:1
14
作者 苏炯铭 罗俊仁 +1 位作者 陈少飞 项凤涛 《指挥控制与仿真》 2024年第2期35-43,共9页
以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈... 以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈模型,分析了相关的均衡解概念;在分析典型智能体框架基础上,针对海空兵棋推演决策博弈过程,提出基于多智能体分层强化学习的智能体双层架构,能够有效解决智能体间协作和维度灾难问题;从兵力协同、智能体网络设计、对手建模和训练机制共4个方面分析了关键技术。期望为海空兵棋AI设计实现提供架构指导。 展开更多
关键词 海空兵棋 跨域协同 兵棋推演 多智能体 智能博弈 模型架构 分层强化学习
下载PDF
陆战Agent学习机理模型研究 被引量:4
15
作者 韩月敏 林燕 +1 位作者 刘非平 吴淑娟 《指挥控制与仿真》 2010年第1期13-17,共5页
陆战Agent是陆军作战复杂系统ABMS核心的基础要素,学习是陆战Agent适应复杂动态陆战环境的重要能力,如何构建符合陆军作战特点的陆战Agent学习机理模型,是陆军作战复杂系统ABMS必须要解决的关键问题之一。通过陆战Agent基于效果学习本... 陆战Agent是陆军作战复杂系统ABMS核心的基础要素,学习是陆战Agent适应复杂动态陆战环境的重要能力,如何构建符合陆军作战特点的陆战Agent学习机理模型,是陆军作战复杂系统ABMS必须要解决的关键问题之一。通过陆战Agent基于效果学习本质特征和强化学习算法的分析,结合陆战Agent通信和指挥控制的特点,提出了基于知识共享的陆战AgentPS强化学习机理模型。与一般强化学习模型相比,该模型既能解决感知混淆和学习一致性的问题,又能节省存储空间,提高运行效率,还可实现不同形式的知识共享,增强陆战Agent系统的整体学习和完成作战任务的能力。 展开更多
关键词 陆军作战 agent 强化学习 机理模型
下载PDF
基于二阶随机动力学的多虚拟电厂自趋优能量管理策略
16
作者 陈嘉琛 陈中 +2 位作者 李冰融 刘汶瑜 潘俊迪 《中国电机工程学报》 EI CSCD 北大核心 2024年第16期6294-6306,I0003,共14页
分布式资源(distributed energy resources,DERs)的随机元素会引起多虚拟电厂(multi-virtual power plant,MVPP)系统内虚拟电厂(virtual power plant,VPP)策略频繁变化。对于某主体,如何感知其他主体策略突然变化时对自身收益的影响趋势... 分布式资源(distributed energy resources,DERs)的随机元素会引起多虚拟电厂(multi-virtual power plant,MVPP)系统内虚拟电厂(virtual power plant,VPP)策略频繁变化。对于某主体,如何感知其他主体策略突然变化时对自身收益的影响趋势,并快速调整自身策略,是亟需解决的难点。该文提出基于二阶随机动力学的多虚拟电厂自趋优能量管理策略,旨在提升VPP应对其他主体策略变化时的自治能力。首先,针对DERs异质运行特性,聚焦可调空间构建VPP聚合运行模型;然后,基于随机图描绘VPP策略变化的随机特性;其次,用二阶随机动力学方程(stochastic dynamic equation,SDE)探索VPP收益结构的自发演化信息,修正其他主体策略变化时自身综合收益;再次,将修正收益作为融合软动作-评价(integrated soft actor–critic,ISAC)强化学习算法的奖励搭建多智能体求解框架。最后,设计多算法对比实验,验证了该文策略的自趋优性能。 展开更多
关键词 多虚拟电厂 自趋优 聚合运行模型 二阶随机动力学 多智能体强化学习
下载PDF
Development of deep-learning-based autonomous agents for low-speed maneuvering in Unity
17
作者 Riccardo Berta Luca Lazzaroni +4 位作者 Alessio Capello Marianna Cossu Luca Forneris Alessandro Pighetti Francesco Bellotti 《Journal of Intelligent and Connected Vehicles》 EI 2024年第3期229-244,共16页
This study provides a systematic analysis of the resource-consuming training of deep reinforcement-learning (DRL) agents for simulated low-speed automated driving (AD). In Unity, this study established two case studie... This study provides a systematic analysis of the resource-consuming training of deep reinforcement-learning (DRL) agents for simulated low-speed automated driving (AD). In Unity, this study established two case studies: garage parking and navigating an obstacle-dense area. Our analysis involves training a path-planning agent with real-time-only sensor information. This study addresses research questions insufficiently covered in the literature, exploring curriculum learning (CL), agent generalization (knowledge transfer), computation distribution (CPU vs. GPU), and mapless navigation. CL proved necessary for the garage scenario and beneficial for obstacle avoidance. It involved adjustments at different stages, including terminal conditions, environment complexity, and reward function hyperparameters, guided by their evolution in multiple training attempts. Fine-tuning the simulation tick and decision period parameters was crucial for effective training. The abstraction of high-level concepts (e.g., obstacle avoidance) necessitates training the agent in sufficiently complex environments in terms of the number of obstacles. While blogs and forums discuss training machine learning models in Unity, a lack of scientific articles on DRL agents for AD persists. However, since agent development requires considerable training time and difficult procedures, there is a growing need to support such research through scientific means. In addition to our findings, we contribute to the R&D community by providing our environment with open sources. 展开更多
关键词 automated driving autonomous agents deep reinforcement learning curriculum learning modeling and simulation
原文传递
基于潜在状态分布GPT的离线多智能体强化学习方法
18
作者 盛蕾 陈希亮 赖俊 《计算机科学与探索》 CSCD 北大核心 2024年第8期2169-2179,共11页
通过决策Transformer对基础模型进行离线预训练可以有效地解决在线多智能体强化学习采样效率低和可扩展性的问题,但这种生成预训练方法在个体奖励难以定义和数据集不能覆盖最优策略的多智能体任务中表现不佳。针对此问题,采用潜在状态... 通过决策Transformer对基础模型进行离线预训练可以有效地解决在线多智能体强化学习采样效率低和可扩展性的问题,但这种生成预训练方法在个体奖励难以定义和数据集不能覆盖最优策略的多智能体任务中表现不佳。针对此问题,采用潜在状态分布改进决策Transformer,提出了一种融合离线预训练和在线微调的多智能体强化学习算法。该算法利用自编码器和独热编码方法生成离散的潜在状态表示,保留了原始状态空间中某些重要的信息;通过潜在的临时抽象改进生成式预训练的决策Transformer,类似于数据增益的技术,在一定程度上解决了未充分覆盖状态空间的离线数据集导致的外推误差问题;采用集中训练和分散执行的方式解决在线微调时智能体的信度分配问题;通过鼓励探索的多智能体策略梯度算法在下游任务中进一步探索协同策略。在星际争霸仿真平台上进行实验,与基线算法相比,在较少甚至没有离线轨迹数据的任务中得分更高,泛化能力更强。 展开更多
关键词 离线多智能体强化学习 分布式学习 表示学习 大语言模型
下载PDF
一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法 被引量:4
19
作者 张严心 孔涵 +2 位作者 殷辰堃 王子豪 黄志清 《北京工业大学学报》 CAS CSCD 北大核心 2023年第4期459-466,共8页
针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with probabilistic prioritized experience rep... 针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with probabilistic prioritized experience replay based on a distributed paradigm, DPER-MASAC).该算法中的行动者以并行与环境交互的方式收集经验数据,为突破单纯最近经验在多智能体高吞吐量情况下被高概率抽取的局限性,提出更为普适的改进的基于优先级的概率方式对经验数据进行抽样利用的模式,并对智能体的网络参数进行更新.为验证算法的效率,设计了难度递增的2类合作和竞争关系共存的捕食者-猎物任务场景,将DPER-MASAC与多智能体软行动-评论者算法(multi-agent soft Actor-Critic, MASAC)和带有优先经验回放机制的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with prioritized experience replay, PER-MASAC)2种基线算法进行对比实验.结果表明,采用DPER-MASAC训练的捕食者团队其决策水平在最终性能和任务成功率2个维度上均有明显提升. 展开更多
关键词 多智能体系统(MAS) 多智能体深度强化学习(DRL) 优先经验回放机制 分布式结构 抽样概率 软行动-评论者算法
下载PDF
基于多智能体深度强化学习的体系任务分配方法 被引量:2
20
作者 林萌龙 陈涛 +2 位作者 任棒棒 张萌萌 陈洪辉 《指挥与控制学报》 CSCD 2023年第1期93-102,共10页
为了应对在未来复杂的战场环境下,由于通信受限等原因导致的集中式决策模式难以实施的情况,提出了一个基于多智能体深度强化学习的分布式作战体系任务分配算法,该算法为各作战单元均设计一个独立的策略网络,并采用集中式训练、分布式执... 为了应对在未来复杂的战场环境下,由于通信受限等原因导致的集中式决策模式难以实施的情况,提出了一个基于多智能体深度强化学习的分布式作战体系任务分配算法,该算法为各作战单元均设计一个独立的策略网络,并采用集中式训练、分布式执行的方法对智能体的策略网络进行训练,结果显示,经过学习训练后的各作战单元具备一定的自主协同能力,即使在没有中心指挥控制节点协调的情况下,依然能够独立地实现作战任务的高效分配. 展开更多
关键词 多智能体系统 深度强化学习 体系架构 体系设计
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部