期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于虚拟自博弈多智能体近端优化策略的无人机对抗决策
1
作者 王明明 张宝勇 +2 位作者 吴冲 平原 齐俊桐 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2023年第6期627-640,共14页
研究了基于虚拟自博弈多智能体近端策略优化的无人机对抗决策问题。无人机对抗依赖自主决策,使无人机能够根据环境信息生成行动指令。提出了一种基于红蓝空战任务的无人机对抗自主决策方法。首先,采用导弹攻击区域与无人机之间的相对角... 研究了基于虚拟自博弈多智能体近端策略优化的无人机对抗决策问题。无人机对抗依赖自主决策,使无人机能够根据环境信息生成行动指令。提出了一种基于红蓝空战任务的无人机对抗自主决策方法。首先,采用导弹攻击区域与无人机之间的相对角度来评估当前情况。然后,以场景评估为指导,进行状态空间、动作空间和实时奖励反馈的设计,简化训练过程。在此基础上,提出了一种利用虚拟自博弈多智能体近端策略的方法,旨在从训练数据的经验缓冲区中推导出优势函数和平均策略。最后,通过对无人机执行红蓝对抗任务的仿真,验证了该方法的有效性和优势所在。 展开更多
关键词 无人机 空战 多智能优化策略 决策
下载PDF
基于混合近端策略优化的交叉口信号相位与配时优化方法 被引量:5
2
作者 陈喜群 朱奕璋 吕朝锋 《交通运输系统工程与信息》 EI CSCD 北大核心 2023年第1期106-113,共8页
交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相... 交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相冲突。为此,本文提出基于混合近端策略优化(Hybrid Proximal Policy Optimization,HPPO)的交叉口信号相位与配时优化方法。首先在考虑相位时间实际应用边界条件约束下,将信号控制动作定义为参数化动作;然后通过提取交通流状态信息并输入到双策略网络,自适应生成下一相位及其相位持续时间,并通过执行动作后的交通状态变化,评估获得奖励值,学习相位和相位时间之间的内在联系。搭建仿真平台,以真实交通流数据为输入对新方法进行测试与算法对比。结果表明:新方法与离散控制相比具有更低的决策频率和更优的控制效果,车辆平均行程时间和车道平均排队长度分别降低了27.65%和23.65%。 展开更多
关键词 智能交通 混合动作空间 深度强化学习 混合策略优化 智能设计
下载PDF
基于多智能体近端策略优化的分布式动态火力分配方法 被引量:1
3
作者 唐骁 吴建设 《科技创新与应用》 2022年第19期13-17,共5页
针对传统的火力分配算法仅适用于静态火力分配,无法估计战场态势的实时变化。文章提出多智能体近端策略优化方法,该方法可以处理分布式指挥下的动态火力分配问题。从实验结果可以看出,该方法能够考虑整个战场在时间维度上的相关性,相比... 针对传统的火力分配算法仅适用于静态火力分配,无法估计战场态势的实时变化。文章提出多智能体近端策略优化方法,该方法可以处理分布式指挥下的动态火力分配问题。从实验结果可以看出,该方法能够考虑整个战场在时间维度上的相关性,相比于启发式方法,显著提升分配效果。对于分布式动态火力分配问题的求解有很好的借鉴意义。 展开更多
关键词 动态火力分配 分布式 多智能深度强化学习 策略优化
下载PDF
基于近端策略优化的空战决策算法研究 被引量:1
4
作者 张博超 温晓玲 +2 位作者 刘璐 张雅茜 王宏光 《航空工程进展》 CSCD 2023年第2期145-151,共7页
面对未来有/无人机协同作战场景,实时准确的空战决策是制胜的关键。复杂的空中环境、瞬变的态势数据以及多重繁琐的作战任务,使有/无人机协同作战将替代单机作战成为未来空战的发展趋势,但多智能体建模和训练过程却面临奖励分配困难、... 面对未来有/无人机协同作战场景,实时准确的空战决策是制胜的关键。复杂的空中环境、瞬变的态势数据以及多重繁琐的作战任务,使有/无人机协同作战将替代单机作战成为未来空战的发展趋势,但多智能体建模和训练过程却面临奖励分配困难、网络难收敛的问题。针对5v5有/无人机协同的空战场景,抽象出有人机和无人机智能体的特征模型,提出基于近端策略优化算法的空战智能决策算法,通过设置态势评估奖励引导空战过程中有/无人机智能体的决策行为向有利态势发展,实现在与环境的实时交互中,输出空战决策序列。通过仿真实验对所提空战决策算法进行验证,结果表明:本文提出的算法在经过训练学习后,能够适应复杂的战场态势,在连续动作空间中得到稳定合理的决策策略。 展开更多
关键词 空战决策 智能决策 强化学习 策略优化 有/无人机协同
下载PDF
基于智能反射面辅助的无人机主动监听优化方法
5
作者 王贤明 杨超群 +2 位作者 邵晋梁 龚成龙 张恒 《无人系统技术》 2024年第1期106-114,共9页
针对可疑用户可能利用无线通信危害公共安全的问题,通过智能反射面和无人机组合的方法来帮助合法监视器监听可疑链路。首先,考虑了无人机与地面用户以及地面用户之间复杂的信道交互,构建了一个合法监视器监听速率最大的优化问题。其次,... 针对可疑用户可能利用无线通信危害公共安全的问题,通过智能反射面和无人机组合的方法来帮助合法监视器监听可疑链路。首先,考虑了无人机与地面用户以及地面用户之间复杂的信道交互,构建了一个合法监视器监听速率最大的优化问题。其次,为了解决这个复杂的非凸优化问题,采用深度强化学习技术,将无人机的轨迹规划和智能反射面的相移变化问题建模为马尔可夫决策过程,设计了相应的奖励函数,并基于最大熵的深度强化学习算法实现无人机和智能反射面相移设计的联合优化。最后,从仿真结果看,与无智能反射面的优化方案相比,有智能反射面的优化方案不仅提高了合法监视器的监听速率,还降低了无人机的能耗,另外智能反射面反射单元的不同数量也会对监听速率产生影响。同时,相较于近端策略优化,基于最大熵的深度强化学习算法的优化策略拥有更稳定的训练过程和更快的收敛速度。 展开更多
关键词 智能反射面 无人机 最大熵的深度强化学习算法 监听速率 策略优化 主动监听
下载PDF
基于多智能体强化学习的无人艇集群集结方法 被引量:1
6
作者 夏家伟 刘志坤 +1 位作者 朱旭芳 刘忠 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第12期3365-3376,共12页
为解决数量不定的同构水面无人艇(USV)集群以期望队形协同集结的问题,提出一种基于多智能体强化学习(MARL)的分布式集群集结控制方法。针对USV通信感知能力约束,建立集群的动态交互图,通过引入二维网格状态特征编码的方法,构建维度不变... 为解决数量不定的同构水面无人艇(USV)集群以期望队形协同集结的问题,提出一种基于多智能体强化学习(MARL)的分布式集群集结控制方法。针对USV通信感知能力约束,建立集群的动态交互图,通过引入二维网格状态特征编码的方法,构建维度不变的智能体观测空间;采用集中式训练和分布式执行的多智能体近端策略优化(MAPPO)强化学习架构,分别设计策略网络和价值网络的状态空间和动作空间,定义收益函数;构建编队集结仿真环境,经过训练,所提方法能有效收敛。仿真结果表明:所提方法在不同期望队形、不同集群数量和部分智能体失效等场景中,均能成功实现快速集结,其灵活性和鲁棒性得到验证。 展开更多
关键词 无人艇 集群系统 多智能强化学习 深度强化学习 集结方法 策略优化
下载PDF
基于多智能体深度强化学习的无人机路径规划 被引量:2
7
作者 司鹏搏 吴兵 +2 位作者 杨睿哲 李萌 孙艳华 《北京工业大学学报》 CAS CSCD 北大核心 2023年第4期449-458,共10页
为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UA... 为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UAV的状态观测空间、动作空间及奖赏函数等实现多UAV无障碍路径规划;其次,为适应UAV搭载的有限计算资源条件,进一步提出基于网络剪枝的多智能体近端策略优化(network pruning-based multi-agent proximal policy optimization, NP-MAPPO)算法,提高了训练效率.仿真结果验证了提出的多UAV路径规划框架在各参数配置下的有效性及NP-MAPPO算法在训练时间上的优越性. 展开更多
关键词 无人机(unmanned aerial vehicle UAV) 复杂环境 路径规划 马尔可夫决策过程 多智能策略优化算法(multi-agent proximal policy optimization mappo) 网络剪枝(network pruning NP)
下载PDF
基于深度强化学习的多智能体动态寻路算法 被引量:1
8
作者 段伟浩 赵瑾 +1 位作者 梁家瑞 曹锐 《计算机仿真》 北大核心 2023年第1期441-446,473,共7页
针对目前多智能体寻路领域中存在的路线单一、易拥堵、易碰撞等问题,提出了一种基于全连接神经网络的近端策略优化算法。智能体利用射线作为其观测值,将收集到的观测值传入全连接神经网络中提取特征,近端策略优化算法根据所提取特征决... 针对目前多智能体寻路领域中存在的路线单一、易拥堵、易碰撞等问题,提出了一种基于全连接神经网络的近端策略优化算法。智能体利用射线作为其观测值,将收集到的观测值传入全连接神经网络中提取特征,近端策略优化算法根据所提取特征决定智能体下一个动作,通过不断训练,从而达到寻路目的。针对稀疏奖励问题,使用好奇心驱动和生成对抗性模仿学习完成训练。在Unity引擎进行仿真的结果证明,所提算法与Unity提供的NavMesh(导航网格)相比,在简单与复杂场景中均可实现更智能、更合理的多智能体动态寻路。 展开更多
关键词 深度强化学习 多智能 动态寻路 策略优化 好奇心驱动 模仿学习
下载PDF
PPO强化学习的多智能体对话策略学习方法
9
作者 魏鹏飞 曾碧 廖文雄 《小型微型计算机系统》 CSCD 北大核心 2022年第7期1370-1377,共8页
对话策略是面向任务的对话系统中的关键组件,给定当前对话状态输出下一个系统动作.近年来,对话策略学习已被广泛地描述为强化学习问题.一种常见的方法是让对话智能体与用户模拟器互动学习.然而,构建一个可靠的用户模拟器并不是一件容易... 对话策略是面向任务的对话系统中的关键组件,给定当前对话状态输出下一个系统动作.近年来,对话策略学习已被广泛地描述为强化学习问题.一种常见的方法是让对话智能体与用户模拟器互动学习.然而,构建一个可靠的用户模拟器并不是一件容易的事,通常与构建一个好的对话代理一样困难.为了避免显式地构建一个用户模拟器,提出了一种PPO强化学习的多智能体对话策略学习方法,将系统端和用户端都构建为智能体.该方法主要通过两个阶段进行策略学习:1)阶段1是模仿学习,采用模仿学习中的行为克隆的方式,对系统策略和用户策略进行预训练;2)阶段2是多智能体强化学习,采用一种数据样本利用率更高以及鲁棒性更好的近端策略优化(PPO)算法,对系统端和用户端的对话策略进行学习.最后,在公开的多域多意图的面向任务的对话语料MultiWOZ上进行了实验,验证了方法的有效性,还分析了在复杂任务中的可伸缩性.此外,将学到的对话策略集成到ConvLab-2平台上进行整体效果评估. 展开更多
关键词 强化学习 多智能 任务对话系统 对话策略学习 模仿学习 策略优化
下载PDF
基于LSTM–PPO算法的多机空战智能决策及目标分配
10
作者 丁云龙 匡敏驰 +2 位作者 朱纪洪 祝靖宇 乔直 《工程科学学报》 EI CSCD 北大核心 2024年第7期1179-1186,共8页
针对传统多机空战中智能决效率低、难以满足复杂空战环境的需求以及目标分配不合理等问题.本文提出一种基于强化学习的多机空战的智能决策及目标分配方法.使用长短期记忆网络(Long short-term memory,LSTM)对状态进行特征提取和态势感知... 针对传统多机空战中智能决效率低、难以满足复杂空战环境的需求以及目标分配不合理等问题.本文提出一种基于强化学习的多机空战的智能决策及目标分配方法.使用长短期记忆网络(Long short-term memory,LSTM)对状态进行特征提取和态势感知,将归一化和特征融合后的状态信息训练残差网络和价值网络,智能体通过近端优化策略(Proximal policy optimization,PPO)针对当前态势选择最优动作.以威胁评估指标作为分配依据,计算综合威胁度,优先将威胁值最大的战机作为攻击目标.为了验证算法的有效性,在课题组搭建的数字孪生仿真环境中进行4v4多机空战实验.并在相同的实验环境下与其他强化学习主流算法进行比较.实验结果表明,使用LSTM–PPO算法在多机空战中的胜率明显优于其他主流强化学习算法,验证了算法的有效性. 展开更多
关键词 多机空战 智能决策 优化策略 威胁评估 目标分配
下载PDF
干扰攻击下基于MAPPO的电视频谱资源分配研究
11
作者 赵越 杨亮 刘明轩 《电视技术》 2024年第3期199-205,共7页
将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网... 将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网络中存在随机和反应扫描两种干扰攻击,通过信道接入和功率分配,使次用户(Secondary Users,SUs)平均吞吐量最大化。将EH-CR网络建模为部分可观测的马尔可夫决策过程,提出了一个基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)的联合信道和功率分配方法。仿真结果表明,提出的方法能够显著提高干扰攻击下SUs的平均吞吐量。 展开更多
关键词 认知无线电(CR) 干扰攻击 多智能策略优化(mappo) 资源分配
下载PDF
基于终端诱导强化学习的航天器轨道追逃博弈 被引量:4
12
作者 耿远卓 袁利 +1 位作者 黄煌 汤亮 《自动化学报》 EI CAS CSCD 北大核心 2023年第5期974-984,共11页
针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实... 针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实际约束条件,建立锥形安全接近区及追逃博弈过程的数学模型;其次,为了提升航天器面对不确定博弈对抗场景的自主决策能力,以近端策略优化(Proximal policy optimization,PPO)算法框架为基础,采用左右互搏的方式同时训练追踪星和逃逸星,交替提升两星的决策能力;在此基础上,为了在指定时刻完成追逃任务,提出一种终端诱导的奖励函数设计方法,基于CW(Clohessy Wiltshire)方程预测两星在终端时刻的相对误差,并将该预测误差引入奖励函数中,有效引导追踪星在指定时刻进入逃逸星的安全接近区.与现有基于当前误差设计奖励函数的方法相比,所提方法能够有效提高追击成功率.最后,通过与其他学习方法仿真对比,验证提出的训练方法和奖励函数设计方法的有效性和优越性. 展开更多
关键词 航天器追逃 智能博弈 策略优化 奖励函数设计 诱导
下载PDF
基于深度强化学习的智能决策方法 被引量:1
13
作者 熊蓉玲 段春怡 +2 位作者 冉华明 杨萌 冯旸赫 《电讯技术》 北大核心 2023年第1期1-6,共6页
针对传统深度强化学习算法难以快速解决长时序复杂任务的问题,提出了一种引入历史信息和人类知识的深度强化学习方法,对经典近端策略优化(Proximal Policy Optimization,PPO)强化学习算法进行改进,在状态空间引入历史状态以反映环境的... 针对传统深度强化学习算法难以快速解决长时序复杂任务的问题,提出了一种引入历史信息和人类知识的深度强化学习方法,对经典近端策略优化(Proximal Policy Optimization,PPO)强化学习算法进行改进,在状态空间引入历史状态以反映环境的时序变化特征,在策略模型中基于人类认知增加无效动作掩膜,禁止智能体进行无效探索,提高探索效率,从而提升模型的训练性能。仿真结果表明,所提方法能够有效解决长时序复杂任务的智能决策问题,相比传统的深度强化学习算法可显著提高模型收敛效果。 展开更多
关键词 智能决策 深度强化学习 策略优化 动作掩膜
下载PDF
基于深度强化学习的智能网联车匝道合并策略
14
作者 陈广福 《电脑知识与技术》 2022年第33期1-3,共3页
针对高速公路智能网联汽车(CAV)匝道合并时的协同决策问题,提出了一种基于近端策略优化(PPO)改进的协作深度强化学习算法(C-PPO)。首先,基于强化学习构建CAV匝道合并场景下的马尔科夫决策过程(MDP)模型,接着设计了一个新颖的协作机制,... 针对高速公路智能网联汽车(CAV)匝道合并时的协同决策问题,提出了一种基于近端策略优化(PPO)改进的协作深度强化学习算法(C-PPO)。首先,基于强化学习构建CAV匝道合并场景下的马尔科夫决策过程(MDP)模型,接着设计了一个新颖的协作机制,即在策略更新过程中的多个时期动态考虑匝道附近CAV的策略更新信息,这一过程可以协调地调整优势值以实现匝道合并车辆之间的协作。实验结果表明,与传统的PPO算法相比,C-PPO算法在匝道合并问题中的效果显著优于基于PPO和ACKTR等主流算法。 展开更多
关键词 深度强化学习 智能网联车 匝道合并 策略优化 马尔科夫决策过程
下载PDF
基于自注意力机制的深度强化学习交通信号控制
15
作者 张玺君 聂生元 +1 位作者 李喆 张红 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第2期96-104,共9页
交通信号控制(Traffic Signal Control, TSC)仍然是交通领域中最重要的研究课题之一。针对现有基于深度强化学习(Deep Reinforcement Learning, DRL)的交通信号控制方法的状态需要人为设计,导致提取交通状态信息难度大以及交通状态信息... 交通信号控制(Traffic Signal Control, TSC)仍然是交通领域中最重要的研究课题之一。针对现有基于深度强化学习(Deep Reinforcement Learning, DRL)的交通信号控制方法的状态需要人为设计,导致提取交通状态信息难度大以及交通状态信息无法全面表达的问题,为了从有限特征中挖掘潜在交通状态信息,从而降低交通状态设计难度,提出一种引入自注意力网络的DRL算法。首先,仅获取交叉口各进入口车道车辆位置,使用非均匀量化和独热编码方法预处理得到车辆位置分布矩阵;其次,使用自注意力网络挖掘车辆位置分布矩阵的空间相关性和潜在信息,作为DRL算法的输入;最后,在单交叉口学习交通信号自适应控制策略,在多交叉口路网中验证所提算法的适应性和鲁棒性。仿真结果表明,在单交叉口环境下,与3种基准算法相比,所提算法在车辆平均等待时间等指标上具有更好的性能;在多交叉口路网中,所提算法仍然具有良好的适应性。 展开更多
关键词 智能交通 自适应控制 深度强化学习 自注意力网络 策略优化
下载PDF
基于PPO的自适应PID控制算法研究
16
作者 周志勇 莫非 +2 位作者 赵凯 郝云波 钱宇峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第6期1425-1432,共8页
采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多... 采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多智能体思想,根据PID三个参数对控制系统的不同影响及六轴机械臂的特性,将三个参数分别作为不同的智能个体进行训练,实现多智能体自适应调整参数的新型多智能体自适应PID算法。仿真结果表明:该算法的训练收敛性优于MA-DDPG与MA-SAC算法,与传统PID算法的控制效果相比,在遇到扰动及振荡的情况下,能够更有效地抑制振荡,并具有更低的超调量和调整时间,控制过程更为平缓,有效提高了机械臂的控制精度,证明了该算法的鲁棒性及有效性。 展开更多
关键词 强化学习 优化算法 自适应PID整定 机械臂 多智能
下载PDF
基于深度强化学习的能源互联网智能巡检任务分配机制 被引量:10
17
作者 徐思雅 邢逸斐 +3 位作者 郭少勇 杨超 邱雪松 孟洛明 《通信学报》 EI CSCD 北大核心 2021年第5期191-204,共14页
在能源互联网中引入无人机进行电力线路巡查,并借助移动边缘计算技术实现巡检任务的接入和处理,可降低服务成本,提高工作效率。但是,由于无人机数据传输需求和地理位置的动态变化,易造成边缘服务器负载不均衡,致使巡检业务处理时延和网... 在能源互联网中引入无人机进行电力线路巡查,并借助移动边缘计算技术实现巡检任务的接入和处理,可降低服务成本,提高工作效率。但是,由于无人机数据传输需求和地理位置的动态变化,易造成边缘服务器负载不均衡,致使巡检业务处理时延和网络能耗较高。为解决以上问题,提出基于深度强化学习的能源互联网智能巡检任务分配机制。首先,综合考虑无人机和边缘节点的运动轨迹、业务差异化的服务需求、边缘节点有限的服务能力等,建立面向时延、能耗等多目标联合优化的双层边缘网络任务卸载模型。进而,基于Lyapunov优化理论和双时间尺度机制,采用近端策略优化的深度强化学习算法,对固定边缘汇聚层和移动边缘接入层边缘节点间的连接关系和卸载策略进行求解。仿真结果表明,所提机制能够在保证系统稳定的情况下降低服务时延和系统能耗。 展开更多
关键词 巡检无人机 任务卸载 策略优化 李雅普诺夫优化 人工智能
下载PDF
基于多智能体强化学习的无人艇协同围捕方法 被引量:4
18
作者 夏家伟 朱旭芳 +2 位作者 张建强 罗亚松 刘忠 《控制与决策》 EI CSCD 北大核心 2023年第5期1438-1447,共10页
针对多无人艇对海上逃逸目标的围捕问题,提出一种基于多智能体强化学习的围捕算法.首先,以无人艇协同进攻为背景建立无边界围捕问题的环境和运动学模型,并针对快速性和合围性的需求给出围捕成功的判定条件;然后,基于多智能体近端策略优... 针对多无人艇对海上逃逸目标的围捕问题,提出一种基于多智能体强化学习的围捕算法.首先,以无人艇协同进攻为背景建立无边界围捕问题的环境和运动学模型,并针对快速性和合围性的需求给出围捕成功的判定条件;然后,基于多智能体近端策略优化(MAPPO)算法建立马尔可夫决策过程框架,结合围捕任务需求分别设计兼具伸缩性和排列不变性的状态空间,围捕距离、方位解耦的动作空间,捕获奖励与步长奖励相结合的奖励函数;最后,采用集中式训练、分布式执行的架构完成对围捕策略的训练,训练时采用课程式学习训练技巧,无人艇群共享相同的策略并独立执行动作.仿真实验表明,在无人艇起始数量不同的测试条件下,所提出方法在围捕成功率和时效性上相较于其他算法更具优势.此外,当无人艇节点损毁时,剩余无人艇仍然具备继续执行围捕任务的能力,所提出方法鲁棒性强,具有在真实环境中部署应用的潜力. 展开更多
关键词 无人艇 多智能 强化学习 深度学习 协同围捕 策略优化
原文传递
信息非完备下多航天器轨道博弈强化学习方法
19
作者 王英杰 袁利 +2 位作者 汤亮 黄煌 耿远卓 《宇航学报》 EI CAS CSCD 北大核心 2023年第10期1522-1533,共12页
针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输... 针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输出结构进行设计,并引入具有记忆功能的长短期记忆网络(LSTM),根据航天器轨道运动在时间、空间连续的属性,补偿位置、速度测量信息的非完备性。然后采用近端策略优化(PPO)算法开展红蓝左右互搏式学习训练。最后通过三组对比训练实验,验证了所提出的方法在信息非完备约束下能够有效增强学习训练过程的稳定性,并提升任务完成率和降低燃料消耗。 展开更多
关键词 航天器 信息非完备 轨道博弈 多智能强化学习 长短期记忆网络 策略优化算法
下载PDF
针对集群攻击的飞行器智能协同拦截策略
20
作者 高树一 林德福 +1 位作者 郑多 胡馨予 《航空学报》 EI CAS CSCD 北大核心 2023年第18期271-286,共16页
无人集群间拦截博弈对抗是未来智能化战争的重要作战场景。针对飞行器集群攻击的协同拦截博弈对抗问题,提出了一种基于近端策略优化方法的多智能体深度强化学习协同拦截策略,将单智能体近端策略优化算法和集中式评价分布式执行算法架构... 无人集群间拦截博弈对抗是未来智能化战争的重要作战场景。针对飞行器集群攻击的协同拦截博弈对抗问题,提出了一种基于近端策略优化方法的多智能体深度强化学习协同拦截策略,将单智能体近端策略优化算法和集中式评价分布式执行算法架构相结合,设计了一种多智能体强化学习智能机动策略,在此基础上为解决算法收敛慢的问题,引入广义优势函数提升算法的收敛性能。仿真结果表明,多机智能协同拦截策略赋予飞行器自主学习的属性,能够根据实时战场态势智能自主分配拦截任务,且通过约束策略更新幅度提升了算法收敛速率。经过不断迭代自学习,能够实现拦截策略的自主优化,在不同的场景下自学习提升协同拦截效能。 展开更多
关键词 群目标协同拦截 策略优化 多智能强化学习 集中式评价-分布式执行 深度学习
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部