期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于虚拟自博弈多智能体近端优化策略的无人机对抗决策
1
作者 王明明 张宝勇 +2 位作者 吴冲 平原 齐俊桐 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2023年第6期627-640,共14页
研究了基于虚拟自博弈多智能体近端策略优化的无人机对抗决策问题。无人机对抗依赖自主决策,使无人机能够根据环境信息生成行动指令。提出了一种基于红蓝空战任务的无人机对抗自主决策方法。首先,采用导弹攻击区域与无人机之间的相对角... 研究了基于虚拟自博弈多智能体近端策略优化的无人机对抗决策问题。无人机对抗依赖自主决策,使无人机能够根据环境信息生成行动指令。提出了一种基于红蓝空战任务的无人机对抗自主决策方法。首先,采用导弹攻击区域与无人机之间的相对角度来评估当前情况。然后,以场景评估为指导,进行状态空间、动作空间和实时奖励反馈的设计,简化训练过程。在此基础上,提出了一种利用虚拟自博弈多智能体近端策略的方法,旨在从训练数据的经验缓冲区中推导出优势函数和平均策略。最后,通过对无人机执行红蓝对抗任务的仿真,验证了该方法的有效性和优势所在。 展开更多
关键词 无人机 空战 多智能体近端优化策略 决策
下载PDF
基于多智能体近端策略优化的多信道动态频谱接入
2
作者 陈平平 张旭 +2 位作者 谢肇鹏 丘毓萍 方毅 《电子学报》 EI CAS CSCD 北大核心 2024年第6期1824-1831,共8页
为了在多用户多信道通信场景中应用动态频谱接入(Dynamic Spectrum Access,DSA)技术提高通信效率,保证用户公平,本文基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)提出了MAPPO-DSA算法.该算法首先针对单... 为了在多用户多信道通信场景中应用动态频谱接入(Dynamic Spectrum Access,DSA)技术提高通信效率,保证用户公平,本文基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)提出了MAPPO-DSA算法.该算法首先针对单信道接入在多个信道同时空闲时存在的频谱浪费问题,使用多信道接入作为解决方案.同时,多信道接入导致状态空间与动作空间指数增长,计算成本高,学习难度大.为此本文引入MAPPO深度强化学习(Deep Reinforcement Learning,DRL)算法,在复杂环境中高效学习和优化接入策略.通过设计优化MAPPO中观测及奖励等强化学习要素和共享网络参数来保证用户公平.最后,在不同场景下的实验结果表明,所提出的MAPPO-DSA能够学习到近似最优的接入策略,部分场景中的网络吞吐量逼近理论上限,显著优于现有算法,且有效保证用户公平. 展开更多
关键词 动态频谱接入 深度强化学习 多智能体近端优化 多信道接入
下载PDF
基于多智能体深度强化学习的无人机路径规划 被引量:4
3
作者 司鹏搏 吴兵 +2 位作者 杨睿哲 李萌 孙艳华 《北京工业大学学报》 CAS CSCD 北大核心 2023年第4期449-458,共10页
为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UA... 为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UAV的状态观测空间、动作空间及奖赏函数等实现多UAV无障碍路径规划;其次,为适应UAV搭载的有限计算资源条件,进一步提出基于网络剪枝的多智能体近端策略优化(network pruning-based multi-agent proximal policy optimization, NP-MAPPO)算法,提高了训练效率.仿真结果验证了提出的多UAV路径规划框架在各参数配置下的有效性及NP-MAPPO算法在训练时间上的优越性. 展开更多
关键词 无人机(unmanned aerial vehicle UAV) 复杂环境 路径规划 马尔可夫决策过程 多智能策略优化算法(multi-agent proximal policy optimization MAPPO) 网络剪枝(network pruning NP)
下载PDF
基于强化学习的多园区综合能源系统经济调度
4
作者 王丙文 付明 黄堃 《电测与仪表》 北大核心 2024年第9期32-39,共8页
多园区综合能源系统中新能源出力与负荷的波动性以及多种能量之间的耦合关系,给多园区综合能源系统的优化调度带来诸多挑战。为此提出一种基于数据驱动的多智能体近端策略优化(multi-agent proximal policy optimization,MAPPO)多园区... 多园区综合能源系统中新能源出力与负荷的波动性以及多种能量之间的耦合关系,给多园区综合能源系统的优化调度带来诸多挑战。为此提出一种基于数据驱动的多智能体近端策略优化(multi-agent proximal policy optimization,MAPPO)多园区综合能源系统经济调度方法。文章综合考虑园区间的能量交易与碳市场交易,以园区日运行成本最小为目标,建立多园区综合能源系统实时优化调度模型;将该优化问题建模为马尔科夫决策过程,并设计状态空间、动作空间以及奖励函数,通过大量历史数据的训练得到多园区综合能源系统优化调度神经网络模型,实现多园区分散式实时优化调度。仿真结果表明:在新能源出力与负荷随机性波动影响下,所提方法能够在降低各园区运行成本的同时减少园区间的信息交互,有助于提高各园区隐私信息的安全性。 展开更多
关键词 多园区综合能源系统 实时经济调度 强化学习 多智能策略优化
下载PDF
干扰攻击下基于MAPPO的电视频谱资源分配研究
5
作者 赵越 杨亮 刘明轩 《电视技术》 2024年第3期199-205,共7页
将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网... 将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网络中存在随机和反应扫描两种干扰攻击,通过信道接入和功率分配,使次用户(Secondary Users,SUs)平均吞吐量最大化。将EH-CR网络建模为部分可观测的马尔可夫决策过程,提出了一个基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)的联合信道和功率分配方法。仿真结果表明,提出的方法能够显著提高干扰攻击下SUs的平均吞吐量。 展开更多
关键词 认知无线电(CR) 干扰攻击 多智能策略优化(MAPPO) 资源分配
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部