期刊文献+
共找到366篇文章
< 1 2 19 >
每页显示 20 50 100
多智能体马尔可夫决策在公交驻站控制中的应用
1
作者 陈春晓 《湖南铁路科技职业技术学院学报》 2014年第1期54-58,共5页
车辆驻站是提高常规公交服务可靠性的常用且有效控制策略,其执行过程需要在随机交互的系统环境中进行动态决策。本文考虑实时公交运营信息的可获得性,以马尔可夫决策过程为理论基础,建立了常规公交驻站控制的多智能体马尔可夫决策模... 车辆驻站是提高常规公交服务可靠性的常用且有效控制策略,其执行过程需要在随机交互的系统环境中进行动态决策。本文考虑实时公交运营信息的可获得性,以马尔可夫决策过程为理论基础,建立了常规公交驻站控制的多智能体马尔可夫决策模型。模型从多智能体、状态、动作、状态转移函数、收益五方面描述了单线公交服务系统驻站控制结构;从全局优化的角度,以乘客车上和在站候车总成本最小化为优化目标,采用改进策略迭代算法寻求有限阶段车辆驻站控制的最优策略。数值仿真验证了模型和算法的有效性。 展开更多
关键词 智能公交 服务可靠性 驻站控制 多智能 马尔可夫决策过程
下载PDF
面向作战决策智能体的融合赋权评估方法
2
作者 张人文 赖俊 +1 位作者 陈希亮 赵春宇 《火力与指挥控制》 CSCD 北大核心 2024年第2期180-188,194,共10页
在兵棋等对抗性作战实验环境下,通过使用基于强化学习方法训练的智能体进行仿真推演,能够检验作战决策效果,达到辅助决策的目的。针对当前作战决策智能体评估往往采用胜率这一单一数据指标的局限,提出了一种基于融合赋权的综合评估方法... 在兵棋等对抗性作战实验环境下,通过使用基于强化学习方法训练的智能体进行仿真推演,能够检验作战决策效果,达到辅助决策的目的。针对当前作战决策智能体评估往往采用胜率这一单一数据指标的局限,提出了一种基于融合赋权的综合评估方法。通过构建涵盖作战决策有效性、作战意图实现性、作战环境适应性、智能体训练效率、智能体训练体系和智能体训练方法等技战术效果指标的评估体系,然后使用主客观方法对不同类型指标进行赋权,再根据指标性质将权值融合进入评估体系,实现基于融合权重的智能体决策效果评估。构建了陆上合成分队进攻作战场景,利用该方法对6个智能体进行评估验证,能够获得智能体的综合排名,有效避免了单一指标的评估局限。该方法对作战决策智能体评估提供了新的思路,符合作战环境需要,具有一定的应用价值。 展开更多
关键词 作战决策 智能 融合赋权 评估方法
下载PDF
多智能体系统在煤矿应急调度中的协同决策策略
3
作者 冯健 《价值工程》 2024年第25期32-34,共3页
所谓多智能体系统,是由煤矿数据、智能分析算法和业务应用三部分组成,业务应用的实现需要以精确的智能分析算法为基础,智能分析算法的设计依赖于海量的煤矿数据。随着矿山综合自动化监控系统及其平台的建设,将不同子系统的大容量监控数... 所谓多智能体系统,是由煤矿数据、智能分析算法和业务应用三部分组成,业务应用的实现需要以精确的智能分析算法为基础,智能分析算法的设计依赖于海量的煤矿数据。随着矿山综合自动化监控系统及其平台的建设,将不同子系统的大容量监控数据汇聚到调度机房。本研究针对煤矿应急调度中存在的效率和响应速度问题,提出了一种基于多智能体系统的高速响应联动模型。通过构建多智能体系数据存储规则和关联规则,对不同子系统的监控数据进行智能分析,实现了煤矿应急情况下的资源优化配置和快速响应。最后利用Dijkstra算法实现煤矿应急调度的仿真。开发了具有应急调度、灾害预测预警、应急保障的虚拟煤矿安全调度系统。 展开更多
关键词 多智能系统 煤矿应急 协同决策 调度策略
下载PDF
基于合作-竞争关系马尔可夫切换下异质多智能体系统均方二分组一致研究
4
作者 蒲兴成 张玲侠 《智能系统学报》 CSCD 北大核心 2023年第4期803-812,共10页
针对马尔可夫切换下离散和连续异质多智能体系统均方二分组一致问题,本文分别构造了2类包含合作竞争关系和马尔可夫切换拓扑结构异质多智能体系统均方二分组一致协议。利用随机不可约非周期矩阵(stochastic indecomposable and aperiodi... 针对马尔可夫切换下离散和连续异质多智能体系统均方二分组一致问题,本文分别构造了2类包含合作竞争关系和马尔可夫切换拓扑结构异质多智能体系统均方二分组一致协议。利用随机不可约非周期矩阵(stochastic indecomposable and aperiodic matrices,SIA)相关性质、图论代数和矩阵分析等理论,得到相关系统实现均方二分组一致的充分必要条件。仿真实例说明了理论结果的有效性。 展开更多
关键词 多智能 马尔可夫 异质系统 切换网络 合作竞争关系 随机不可约非周期矩阵 均方二分组一致性 控制协议
下载PDF
基于深度确定性策略梯度与注意力Critic的多智能体协同清障算法 被引量:1
5
作者 王宪伟 冯翔 虞慧群 《计算机科学》 CSCD 北大核心 2024年第7期319-326,共8页
动态障碍物一直是阻碍智能体自主导航发展的关键因素,而躲避障碍物和清理障碍物是两种解决动态障碍物问题的有效方法。近年来,多智能体躲避动态障碍物(避障)问题受到了广大学者的关注,优秀的多智能体避障算法纷纷涌现。然而,多智能体清... 动态障碍物一直是阻碍智能体自主导航发展的关键因素,而躲避障碍物和清理障碍物是两种解决动态障碍物问题的有效方法。近年来,多智能体躲避动态障碍物(避障)问题受到了广大学者的关注,优秀的多智能体避障算法纷纷涌现。然而,多智能体清理动态障碍物(清障)问题却无人问津,相对应的多智能体清障算法更是屈指可数。为解决多智能体清障问题,文中提出了一种基于深度确定性策略梯度与注意力Critic的多智能体协同清障算法(Multi-Agent Cooperative Algorithm for Obstacle Clearance Based on Deep Deterministic Policy Gradient and Attention Critic, MACOC)。首先,创建了首个多智能体协同清障的环境模型,定义了多智能体及动态障碍物的运动学模型,并根据智能体和动态障碍物数量的不同,构建了4种仿真实验环境;其次,将多智能体协同清障过程定义为马尔可夫决策过程(Markov Decision Process, MDP),构建了多智能体t的状态空间、动作空间和奖励函数;最后,提出一种基于深度确定性策略梯度与注意力Critic的多智能体协同清障算法,并在多智能体协同清障仿真环境中与经典的多智能体强化学习算法进行对比。实验证明,相比对比算法,所提出的MACOC算法清障的成功率更高、速度更快,对复杂环境的适应性更好。 展开更多
关键词 强化学习算法 马尔可夫决策过程 多智能协同控制 动态障碍物清除 注意力机制
下载PDF
基于智能体建模的新型电力系统下火电企业市场交易策略 被引量:2
6
作者 李超英 檀勤良 《中国电力》 CSCD 北大核心 2024年第2期212-225,共14页
高比例新能源渗透情景下火电企业竞价策略研究对保障火电企业运营和推进新型电力系统建设具有重要意义。基于智能体建模框架,建立电力现货市场仿真模型和机组自学习决策模型。其中,环境模块建立了考虑源荷双侧不确定性的风光火储多方参... 高比例新能源渗透情景下火电企业竞价策略研究对保障火电企业运营和推进新型电力系统建设具有重要意义。基于智能体建模框架,建立电力现货市场仿真模型和机组自学习决策模型。其中,环境模块建立了考虑源荷双侧不确定性的风光火储多方参与的电力现货市场出清模型;智能体模块将火电机组投标决策过程刻画为部分观测马尔科夫决策过程,采用深度确定性策略梯度算法求解。以HRP-38节点系统为例进行仿真分析,明晰高比例新能源下火电企业市场交易策略。结果表明:在不考虑火电机组提供辅助服务的前提下,随着新能源渗透率的提高,仍有部分位置独特且具有成本优势的火电机组拥有竞争力;预测误差增大将使大容量火电机组投标策略趋于保守,而小容量机组投标策略相反;火电机组在各类场景下均具有隐性共谋倾向,即彼此隐藏信息时仍同时提高报价。 展开更多
关键词 电力市场 多智能建模 强化学习 报价策略 辅助决策
下载PDF
基于多智能体决策技术的远海物资保障模型
7
作者 董鹏 李蕴哲 石怀斌 《火力与指挥控制》 CSCD 北大核心 2023年第10期18-26,33,共10页
针对远海防卫后勤保障特点,基于Anylogic仿真软件,以作战力量、保障点、保障力量等为智能体模拟了远海物资保障流程,建立了远海物资保障模型,提出了两种保障方案,并以成本费用、补给时间、补给效率为指标,对两种方案进行了对比评估,得... 针对远海防卫后勤保障特点,基于Anylogic仿真软件,以作战力量、保障点、保障力量等为智能体模拟了远海物资保障流程,建立了远海物资保障模型,提出了两种保障方案,并以成本费用、补给时间、补给效率为指标,对两种方案进行了对比评估,得到了最优保障方案。结果表明,利用多智能体仿真技术能有效实现远海物资保障方案问题求解,降低补给时间和成本,提高补给效率,为远海物资保障方案的研究提供技术参考。 展开更多
关键词 远海防卫 多智能决策 远海物资保障 ANYLOGIC 后勤保障
下载PDF
基于多智能体强化学习的配电网电压分散控制
8
作者 马刚 马健 +4 位作者 颜云松 陈永华 赖业宁 李祝昆 唐靖 《综合智慧能源》 CAS 2024年第10期32-39,共8页
大规模分散资源接入配电网改变了传统配电网的潮流分布,导致电压频繁越限。以模型为基础的电压控制方法对电力系统网络拓扑结构要求较高,求解时间较长,不能达到电压实时控制要求。为此,提出一种考虑异步训练的多智能体在线学习配电网电... 大规模分散资源接入配电网改变了传统配电网的潮流分布,导致电压频繁越限。以模型为基础的电压控制方法对电力系统网络拓扑结构要求较高,求解时间较长,不能达到电压实时控制要求。为此,提出一种考虑异步训练的多智能体在线学习配电网电压分散控制策略。该方法将每个光伏逆变器都视为一个智能体。首先对智能体进行分区调整,然后将配电网的电压无功控制问题建模为马尔可夫决策过程,在满足系统分布式约束的基础上,采用多智能体强化学习分散控制框架,结合多智能体深度确定性策略梯度算法对多智能体进行训练。经过训练的智能体可以不需要实时通信,利用局部信息实现分散决策,制定光伏逆变器的出力计划,做到电压实时控制,减少网络损耗。最后,通过仿真验证了该方法的有效性和鲁棒性。 展开更多
关键词 配电网 多智能 电压分散控制 多智能深度确定性策略梯度算法 马尔可夫决策过程
下载PDF
马尔可夫决策过程下的智能电网实时电价模型 被引量:10
9
作者 李江波 王波 +1 位作者 高岩 张惠珍 《系统仿真学报》 CAS CSCD 北大核心 2016年第11期2756-2763,共8页
实时电价策略是节约用电、提高用户用电效用值的有效手段。提出基于马尔可夫决策过程的一个实时电价优化模型。该模型应用有限阶段方法,以供应侧和需求侧的期望效用最大化为目标,依据递减风险理论,采用对数形式对现有效用函数进行改进,... 实时电价策略是节约用电、提高用户用电效用值的有效手段。提出基于马尔可夫决策过程的一个实时电价优化模型。该模型应用有限阶段方法,以供应侧和需求侧的期望效用最大化为目标,依据递减风险理论,采用对数形式对现有效用函数进行改进,从而更加准确地刻画用户用电效用。通过粒子群算法对模型求解,并与固定电价情况进行结果比较。数值模拟结果表明该模型在控制用电量和提高用电效用方面具有良好的效果,同时所得到的实时电价处于固定电价最大和最小值之间,上下波动性小。 展开更多
关键词 智能电网 实时电价 马尔可夫决策过程 递减风险
下载PDF
基于模糊马尔科夫理论的机动智能体决策模型 被引量:8
10
作者 杨萍 毕义明 刘卫东 《系统工程与电子技术》 EI CSCD 北大核心 2008年第3期511-514,共4页
针对机动作战仿真背景,运用智能体理论研究战术机动智能体的最优机动决策问题。对传统的马尔科夫决策模型进行了扩展,通过定义攻击威胁下机动智能体的模糊状态空间、模糊状态转移规律和决策收益,建立了模糊战术机动决策模型,较好地描述... 针对机动作战仿真背景,运用智能体理论研究战术机动智能体的最优机动决策问题。对传统的马尔科夫决策模型进行了扩展,通过定义攻击威胁下机动智能体的模糊状态空间、模糊状态转移规律和决策收益,建立了模糊战术机动决策模型,较好地描述了实际作战决策中的模糊认知、分析、判断等信息处理过程。通过引入强化学习手段,提出融合指挥员先验信息的Q学习算法和状态动态分类识别算法,对状态转移规律不易确定时模型的求解进行了研究;仿真实验验证了模型和算法的有效性。 展开更多
关键词 战术机动决策 智能 建模 模糊理论 马尔科夫决策理论 强化学习
下载PDF
基于兵棋推演的空战编组对抗智能决策方法
11
作者 陈晓轩 冯旸赫 +2 位作者 黄金才 刘忠 徐越 《指挥与控制学报》 CSCD 北大核心 2024年第2期213-219,共7页
基于兵棋研究的空战编组对抗方法主要使用规则或运筹等手段,存在假设不够合理、建模不准确、应变性差等缺陷。强化学习算法可以根据作战数据自主学习编组对抗策略,以应对复杂的战场情况,但现有强化学习对作战数据要求高,当动作空间过大... 基于兵棋研究的空战编组对抗方法主要使用规则或运筹等手段,存在假设不够合理、建模不准确、应变性差等缺陷。强化学习算法可以根据作战数据自主学习编组对抗策略,以应对复杂的战场情况,但现有强化学习对作战数据要求高,当动作空间过大时,算法收敛慢,且对仿真平台有较高的要求。针对上述问题,提出了一种融合知识数据和强化学习的空战编组对抗智能决策方法,该决策方法的输入是战场融合态势,使用分层决策框架控制算子选择并执行任务,上层包含使用专家知识驱动的动作选择器,下层包含使用专家知识和作战规则细化的避弹动作执行器、侦察动作执行器和使用强化学习算法控制的打击动作执行器。最后基于典型作战场景进行实验,验证了该方法的可行性和实用性,且具有建模准确、训练高效的优点。 展开更多
关键词 空战编组对抗 多算子的协作与控制 多智能深度强化学习算法 分层决策模型
下载PDF
基于深度强化学习的多智能体角度跟踪方法设计
12
作者 毕千 钱程 +1 位作者 张可 王成 《计算机工程》 CAS CSCD 北大核心 2024年第11期10-17,共8页
在智能态势感知应用场景中,多智能体角度跟踪问题常出现在需要对移动目标进行监测和控制的场景。与传统的目标跟踪方法不同,角度跟踪任务不仅需要追踪目标的空间坐标,还需确定目标间的相对角度。现有控制方法在处理这类规模较大且易受... 在智能态势感知应用场景中,多智能体角度跟踪问题常出现在需要对移动目标进行监测和控制的场景。与传统的目标跟踪方法不同,角度跟踪任务不仅需要追踪目标的空间坐标,还需确定目标间的相对角度。现有控制方法在处理这类规模较大且易受环境变化影响的问题时往往效果不稳定或性能降低。为此,提出一种基于多智能体强化学习(MARL)的解决方案,首先建立多智能体角度跟踪问题的基础模型,然后设计1个多层次的仿真决策框架并提出针对此问题适应性更强的多智能体强化学习算法AR-MAPPO,通过动态调整数据复用轮数以提升学习效率和模型稳定性。实验结果表明,该方法在多智能体角度跟踪任务中相比传统方法和其他强化学习方法具有更高的收敛效率和更优的角度跟踪性能。 展开更多
关键词 智能决策系统 人工智能 深度强化学习 多智能强化学习 角度跟踪
下载PDF
合作-竞争混合型多智能体系统的虚拟遗憾优势自博弈方法
13
作者 张明悦 金芝 刘坤 《软件学报》 EI CSCD 北大核心 2024年第2期739-757,共19页
合作-竞争混合型多智能体系统由受控的目标智能体和不受控的外部智能体组成.目标智能体之间互相合作,同外部智能体展开竞争,应对环境和外部智能体的动态变化,最终完成指定的任务.针对如何训练目标智能体使他们获得完成任务的最优策略的... 合作-竞争混合型多智能体系统由受控的目标智能体和不受控的外部智能体组成.目标智能体之间互相合作,同外部智能体展开竞争,应对环境和外部智能体的动态变化,最终完成指定的任务.针对如何训练目标智能体使他们获得完成任务的最优策略的问题,现有工作从两个方面展开:(1)仅关注目标智能体间的合作,将外部智能体视为环境的一部分,利用多智能体强化学习来训练目标智能体.这种方法难以应对外部智能体策略未知或者动态改变的情况;(2)仅关注目标智能体和外部智能体间的竞争,将竞争建模为双人博弈,采用自博弈的方法训练目标智能体.这种方法主要针对单个目标智能体和单个外部智能体的情况,难以扩展到由多个目标智能体和多个外部智能体组成的系统中.结合这两类研究,提出一种基于虚拟遗憾优势的自博弈方法.具体地,首先以虚拟遗憾最小化和虚拟多智能体策略梯度为基础,设计虚拟遗憾优势策略梯度方法,使目标智能体能更准确地更新策略;然后,引入模仿学习,以外部智能体的历史决策轨迹作为示教数据,模仿外部智能体的策略,显式地建模外部智能体的行为,来应对自博弈过程中外部智能体策略的动态变化;最后,以虚拟遗憾优势策略梯度和外部智能体行为建模为基础,设计一种自博弈训练方法,该方法能够在外部智能体策略未知或者动态变化的情况下,为多个目标智能体训练出最优的联合策略.以协同电磁对抗为研究案例,设计具有合作-竞争混合特征的3个典型任务.实验结果表明,同其他方法相比,所提方法在自博弈效果方面有至少78%的提升. 展开更多
关键词 多智能强化学习 虚拟遗憾最小化 自博弈 动态决策
下载PDF
基于多智能体深度强化学习的无人艇集群博弈对抗研究
14
作者 于长东 刘新阳 +2 位作者 陈聪 刘殿勇 梁霄 《水下无人系统学报》 2024年第1期79-86,共8页
基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟... 基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟具体作战场景平台,设计多智能体网络模型、奖励函数机制以及训练策略。实验结果表明,文中方法可以有效应对敌方无人艇的协同围捕决策问题,在不同作战场景下具有较高的效率,为未来复杂作战场景下无人艇智能决策研究提供理论参考价值。 展开更多
关键词 无人艇集群 多智能深度确定性策略梯度算法 深度强化学习 智能决策 博弈对抗
下载PDF
基于改进多智能体Nash Q Learning的交通信号协调控制
15
作者 苏港 叶宝林 +2 位作者 姚青 陈滨 张一嘉 《软件工程》 2024年第10期43-49,共7页
为了优化区域交通信号配时方案,提升区域通行效率,文章提出一种基于改进多智能体Nash Q Learning的区域交通信号协调控制方法。首先,采用离散化编码方法,通过划分单元格将连续状态信息转化为离散形式。其次,在算法中融入长短时记忆网络(... 为了优化区域交通信号配时方案,提升区域通行效率,文章提出一种基于改进多智能体Nash Q Learning的区域交通信号协调控制方法。首先,采用离散化编码方法,通过划分单元格将连续状态信息转化为离散形式。其次,在算法中融入长短时记忆网络(Long Short Term Memory,LSTM)模块,用于从状态数据中挖掘更多的隐藏信息,丰富Q值表中的状态数据。最后,基于微观交通仿真软件SUMO(Simulation of Urban Mobility)的仿真测试结果表明,相较于原始Nash Q Learning交通信号控制方法,所提方法在低、中、高流量下车辆的平均等待时间分别减少了11.5%、16.2%和10.0%,平均排队长度分别减少了9.1%、8.2%和7.6%,平均停车次数分别减少了18.3%、16.1%和10.0%。结果证明了该算法具有更好的控制效果。 展开更多
关键词 区域交通信号协调控制 马尔科夫决策 多智能Nash Q Learning LSTM SUMO
下载PDF
多智能体深度强化学习机制的巡游出租车调度策略优化
16
作者 马祥元 《测绘学报》 EI CSCD 北大核心 2024年第4期778-778,共1页
交通领域传统线性规划方法仅在静态网络中求解有限规模的资源调度问题。论文将动态交通网络中表征乘客和驾驶员出行行为下的时空变化特征、状态属性特征和交互关系特征等领域知识转换映射为包含状态、行为、转移概率和奖励函数等元组的... 交通领域传统线性规划方法仅在静态网络中求解有限规模的资源调度问题。论文将动态交通网络中表征乘客和驾驶员出行行为下的时空变化特征、状态属性特征和交互关系特征等领域知识转换映射为包含状态、行为、转移概率和奖励函数等元组的马尔可夫过程,基于序贯决策思想在强化学习框架内的多智能体合作型随机博弈场景下,求解多对象司乘匹配和车辆行为选择策略优化任务的组合动态优化问题。论文主要研究内容如下。 展开更多
关键词 马尔可夫过程 属性特征 深度强化学习 多智能 动态交通网络 线性规划方法 序贯决策 转移概率
下载PDF
基于多智能体航空公司航班恢复协同决策方法
17
作者 季灵 吴薇薇 +2 位作者 吴思韵 高强 刘硕 《南京航空航天大学学报》 CAS CSCD 北大核心 2023年第5期868-877,共10页
航空公司进行航班延误恢复时,各种资源之间会通过航班计划产生间接关联,此时各决策单元若独立地考虑本领域内的资源恢复问题,将难以保证恢复方案的整体可行性和全局优化性。为探究航空公司航班恢复过程中各决策部门的决策模型及其协同关... 航空公司进行航班延误恢复时,各种资源之间会通过航班计划产生间接关联,此时各决策单元若独立地考虑本领域内的资源恢复问题,将难以保证恢复方案的整体可行性和全局优化性。为探究航空公司航班恢复过程中各决策部门的决策模型及其协同关系,本文提出了基于多智能体技术的航班恢复协同决策仿真方法。首先,基于航空公司实际组织架构构建了航班恢复多智能体决策系统框架;其次,对部门间协同决策的动态过程进行了分析,将延误恢复的全过程分为了预恢复、可行解协商、均衡解协商3个阶段,构建了三阶段协同决策机制;最后,根据不同资源的恢复特性建立各决策部门的核心决策模型与部门间自动协商模型,并基于多智能体系统进行仿真。仿真结果显示,基于多智能体的协同决策方法能够在3.8 s的极短时间内针对1天中包含3架飞机和12个航班的航班计划做出完整的延误恢复方案,并且能够在保障航空公司整体效益的情况下一定程度地平衡各决策主体的自身利益。 展开更多
关键词 航空运输 延误恢复 协同决策 多智能 仿真系统
下载PDF
多智能体博弈中的分布式学习:原理与算法
18
作者 谭少林 谷海波 刘克新 《指挥与控制学报》 CSCD 北大核心 2024年第2期127-136,共10页
自主智能决策是未来无人系统发展的核心技术,而博弈学习是实现自主智能决策的关键方法之一。围绕多智能体博弈中分布式学习领域,系统地介绍其基本问题、研究背景及意义;针对连续动作空间博弈与离散动作空间博弈两种典型博弈类型,综述多... 自主智能决策是未来无人系统发展的核心技术,而博弈学习是实现自主智能决策的关键方法之一。围绕多智能体博弈中分布式学习领域,系统地介绍其基本问题、研究背景及意义;针对连续动作空间博弈与离散动作空间博弈两种典型博弈类型,综述多智能体博弈分布式学习算法的构建及收敛性研究进展;给出博弈学习领域尚待突破的挑战性问题。 展开更多
关键词 博弈学习 分布式算法 智能决策 纳什均衡 多智能系统 集群智能
下载PDF
基于时空依赖关系多智能体强化学习的多路口交通信号协同控制方法
19
作者 王兆瑞 岩延 张宝贤 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2024年第3期398-410,共13页
面对日益严重的交通拥堵现象,智能交通信号控制已成为提升城市道路网络性能必不可少的手段。提出一种基于时空依赖关系多智能体强化学习算法的多路口交通信号控制方法STLight(spatiotemporal traffic light control)。通过基于注意力机... 面对日益严重的交通拥堵现象,智能交通信号控制已成为提升城市道路网络性能必不可少的手段。提出一种基于时空依赖关系多智能体强化学习算法的多路口交通信号控制方法STLight(spatiotemporal traffic light control)。通过基于注意力机制的时空依赖模块STDM(spatiotemporal dependent module),STLight可将初始交通观测数据提取为时空特征,以有效捕获各交叉路口间的时空依赖关系。此外,基于所提取的时空特征,STLight在基于集中训练分散执行框架的多智能体强化学习算法基础之上进一步为各个智能体引入全局时空信息,从而进一步提升多智能体之间的协作能力。实验结果表明,STLight在提升城市道路网络的性能方面具有显著的优势,有助于缓解当前大规模城市道路网络的交通拥堵问题。 展开更多
关键词 多智能强化学习 多路口交通信号控制 注意力机制 马尔可夫博弈 时空依赖
下载PDF
随机拓扑下离散多智能体事件触发一致性
20
作者 赵阳 解静 曹洒 《青岛大学学报(工程技术版)》 CAS 2024年第1期1-7,共7页
针对离散时间多智能体跟踪不稳定的问题,本文研究离散多智能体系统的事件触发一致性控制问题,通过马尔可夫跳变拓扑结构实现各智能体间的信息交互,设计了一种基于动态响应的事件触发条件,给出了马尔可夫跳变控制协议,构造带有转移概率... 针对离散时间多智能体跟踪不稳定的问题,本文研究离散多智能体系统的事件触发一致性控制问题,通过马尔可夫跳变拓扑结构实现各智能体间的信息交互,设计了一种基于动态响应的事件触发条件,给出了马尔可夫跳变控制协议,构造带有转移概率的离散Lyapunov函数,得到所有智能体是均方一致性的充分条件。数值算例验证了所提方法的有效性,证明了本结论可用于解决随机拓扑下离散多智能体的跟踪不一致问题。 展开更多
关键词 离散多智能系统 随机切换拓扑 马尔可夫 事件触发 均方一致性
下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部