期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于虚拟自博弈多智能体近端优化策略的无人机对抗决策
1
作者
王明明
张宝勇
+2 位作者
吴冲
平原
齐俊桐
《Transactions of Nanjing University of Aeronautics and Astronautics》
EI
CSCD
2023年第6期627-640,共14页
研究了基于虚拟自博弈多智能体近端策略优化的无人机对抗决策问题。无人机对抗依赖自主决策,使无人机能够根据环境信息生成行动指令。提出了一种基于红蓝空战任务的无人机对抗自主决策方法。首先,采用导弹攻击区域与无人机之间的相对角...
研究了基于虚拟自博弈多智能体近端策略优化的无人机对抗决策问题。无人机对抗依赖自主决策,使无人机能够根据环境信息生成行动指令。提出了一种基于红蓝空战任务的无人机对抗自主决策方法。首先,采用导弹攻击区域与无人机之间的相对角度来评估当前情况。然后,以场景评估为指导,进行状态空间、动作空间和实时奖励反馈的设计,简化训练过程。在此基础上,提出了一种利用虚拟自博弈多智能体近端策略的方法,旨在从训练数据的经验缓冲区中推导出优势函数和平均策略。最后,通过对无人机执行红蓝对抗任务的仿真,验证了该方法的有效性和优势所在。
展开更多
关键词
无人机
空战
多智能体近端优化
策略
决策
下载PDF
职称材料
基于多智能体近端策略优化的多信道动态频谱接入
2
作者
陈平平
张旭
+2 位作者
谢肇鹏
丘毓萍
方毅
《电子学报》
EI
CAS
CSCD
北大核心
2024年第6期1824-1831,共8页
为了在多用户多信道通信场景中应用动态频谱接入(Dynamic Spectrum Access,DSA)技术提高通信效率,保证用户公平,本文基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)提出了MAPPO-DSA算法.该算法首先针对单...
为了在多用户多信道通信场景中应用动态频谱接入(Dynamic Spectrum Access,DSA)技术提高通信效率,保证用户公平,本文基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)提出了MAPPO-DSA算法.该算法首先针对单信道接入在多个信道同时空闲时存在的频谱浪费问题,使用多信道接入作为解决方案.同时,多信道接入导致状态空间与动作空间指数增长,计算成本高,学习难度大.为此本文引入MAPPO深度强化学习(Deep Reinforcement Learning,DRL)算法,在复杂环境中高效学习和优化接入策略.通过设计优化MAPPO中观测及奖励等强化学习要素和共享网络参数来保证用户公平.最后,在不同场景下的实验结果表明,所提出的MAPPO-DSA能够学习到近似最优的接入策略,部分场景中的网络吞吐量逼近理论上限,显著优于现有算法,且有效保证用户公平.
展开更多
关键词
动态频谱接入
深度强化学习
多智能体近端优化
多信道接入
下载PDF
职称材料
基于多智能体深度强化学习的无人机路径规划
被引量:
4
3
作者
司鹏搏
吴兵
+2 位作者
杨睿哲
李萌
孙艳华
《北京工业大学学报》
CAS
CSCD
北大核心
2023年第4期449-458,共10页
为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UA...
为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UAV的状态观测空间、动作空间及奖赏函数等实现多UAV无障碍路径规划;其次,为适应UAV搭载的有限计算资源条件,进一步提出基于网络剪枝的多智能体近端策略优化(network pruning-based multi-agent proximal policy optimization, NP-MAPPO)算法,提高了训练效率.仿真结果验证了提出的多UAV路径规划框架在各参数配置下的有效性及NP-MAPPO算法在训练时间上的优越性.
展开更多
关键词
无人机(unmanned
aerial
vehicle
UAV)
复杂环境
路径规划
马尔可夫决策过程
多智能
体
近
端
策略
优化
算法(multi-agent
proximal
policy
optimization
MAPPO)
网络剪枝(network
pruning
NP)
下载PDF
职称材料
基于强化学习的多园区综合能源系统经济调度
4
作者
王丙文
付明
黄堃
《电测与仪表》
北大核心
2024年第9期32-39,共8页
多园区综合能源系统中新能源出力与负荷的波动性以及多种能量之间的耦合关系,给多园区综合能源系统的优化调度带来诸多挑战。为此提出一种基于数据驱动的多智能体近端策略优化(multi-agent proximal policy optimization,MAPPO)多园区...
多园区综合能源系统中新能源出力与负荷的波动性以及多种能量之间的耦合关系,给多园区综合能源系统的优化调度带来诸多挑战。为此提出一种基于数据驱动的多智能体近端策略优化(multi-agent proximal policy optimization,MAPPO)多园区综合能源系统经济调度方法。文章综合考虑园区间的能量交易与碳市场交易,以园区日运行成本最小为目标,建立多园区综合能源系统实时优化调度模型;将该优化问题建模为马尔科夫决策过程,并设计状态空间、动作空间以及奖励函数,通过大量历史数据的训练得到多园区综合能源系统优化调度神经网络模型,实现多园区分散式实时优化调度。仿真结果表明:在新能源出力与负荷随机性波动影响下,所提方法能够在降低各园区运行成本的同时减少园区间的信息交互,有助于提高各园区隐私信息的安全性。
展开更多
关键词
多园区综合能源系统
实时经济调度
强化学习
多智能
体
近
端
策略
优化
下载PDF
职称材料
干扰攻击下基于MAPPO的电视频谱资源分配研究
5
作者
赵越
杨亮
刘明轩
《电视技术》
2024年第3期199-205,共7页
将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网...
将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网络中存在随机和反应扫描两种干扰攻击,通过信道接入和功率分配,使次用户(Secondary Users,SUs)平均吞吐量最大化。将EH-CR网络建模为部分可观测的马尔可夫决策过程,提出了一个基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)的联合信道和功率分配方法。仿真结果表明,提出的方法能够显著提高干扰攻击下SUs的平均吞吐量。
展开更多
关键词
认知无线电(CR)
干扰攻击
多智能
体
近
端
策略
优化
(MAPPO)
资源分配
下载PDF
职称材料
题名
基于虚拟自博弈多智能体近端优化策略的无人机对抗决策
1
作者
王明明
张宝勇
吴冲
平原
齐俊桐
机构
天津大学电气与信息工程学院
一飞(海南)科技有限公司研发中心
上海大学未来学院
出处
《Transactions of Nanjing University of Aeronautics and Astronautics》
EI
CSCD
2023年第6期627-640,共14页
基金
supported by the National Natural Science Foundation of China (No.62173242)。
文摘
研究了基于虚拟自博弈多智能体近端策略优化的无人机对抗决策问题。无人机对抗依赖自主决策,使无人机能够根据环境信息生成行动指令。提出了一种基于红蓝空战任务的无人机对抗自主决策方法。首先,采用导弹攻击区域与无人机之间的相对角度来评估当前情况。然后,以场景评估为指导,进行状态空间、动作空间和实时奖励反馈的设计,简化训练过程。在此基础上,提出了一种利用虚拟自博弈多智能体近端策略的方法,旨在从训练数据的经验缓冲区中推导出优势函数和平均策略。最后,通过对无人机执行红蓝对抗任务的仿真,验证了该方法的有效性和优势所在。
关键词
无人机
空战
多智能体近端优化
策略
决策
Keywords
unmanned aerial vehicle(UAV)
air combat
multi-agent proximal policy optimization(MAPPO)
decision-making
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于多智能体近端策略优化的多信道动态频谱接入
2
作者
陈平平
张旭
谢肇鹏
丘毓萍
方毅
机构
福州大学先进制造学院
福州大学物理与信息工程学院
广东工业大学信息工程学院
出处
《电子学报》
EI
CAS
CSCD
北大核心
2024年第6期1824-1831,共8页
基金
国家自然科学基金(No.62171135,No.62322106,No.62071131)
福建省自然科学基金(No.2022J06010)。
文摘
为了在多用户多信道通信场景中应用动态频谱接入(Dynamic Spectrum Access,DSA)技术提高通信效率,保证用户公平,本文基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)提出了MAPPO-DSA算法.该算法首先针对单信道接入在多个信道同时空闲时存在的频谱浪费问题,使用多信道接入作为解决方案.同时,多信道接入导致状态空间与动作空间指数增长,计算成本高,学习难度大.为此本文引入MAPPO深度强化学习(Deep Reinforcement Learning,DRL)算法,在复杂环境中高效学习和优化接入策略.通过设计优化MAPPO中观测及奖励等强化学习要素和共享网络参数来保证用户公平.最后,在不同场景下的实验结果表明,所提出的MAPPO-DSA能够学习到近似最优的接入策略,部分场景中的网络吞吐量逼近理论上限,显著优于现有算法,且有效保证用户公平.
关键词
动态频谱接入
深度强化学习
多智能体近端优化
多信道接入
Keywords
dynamic spectrum access
deep reinforcement learning
multi-agent policy optimization
multi-channel access
分类号
TP317.4 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于多智能体深度强化学习的无人机路径规划
被引量:
4
3
作者
司鹏搏
吴兵
杨睿哲
李萌
孙艳华
机构
北京工业大学信息学部
出处
《北京工业大学学报》
CAS
CSCD
北大核心
2023年第4期449-458,共10页
基金
国家自然科学基金资助项目(61901011)
北京市教育委员会科技项目(KM202010005017,KM202110005021)。
文摘
为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UAV的状态观测空间、动作空间及奖赏函数等实现多UAV无障碍路径规划;其次,为适应UAV搭载的有限计算资源条件,进一步提出基于网络剪枝的多智能体近端策略优化(network pruning-based multi-agent proximal policy optimization, NP-MAPPO)算法,提高了训练效率.仿真结果验证了提出的多UAV路径规划框架在各参数配置下的有效性及NP-MAPPO算法在训练时间上的优越性.
关键词
无人机(unmanned
aerial
vehicle
UAV)
复杂环境
路径规划
马尔可夫决策过程
多智能
体
近
端
策略
优化
算法(multi-agent
proximal
policy
optimization
MAPPO)
网络剪枝(network
pruning
NP)
Keywords
unmanned aerial vehicle(UAV)
complex environment
path planning
Markov decision process
multi-agent proximal policy optimization(MAPPO)algorithm
network pruning(NP)
分类号
U461 [机械工程—车辆工程]
TP308 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于强化学习的多园区综合能源系统经济调度
4
作者
王丙文
付明
黄堃
机构
南瑞集团有限公司(国网电力科学研究院)
出处
《电测与仪表》
北大核心
2024年第9期32-39,共8页
基金
国家重点研发计划项目(2018YFB0905000)。
文摘
多园区综合能源系统中新能源出力与负荷的波动性以及多种能量之间的耦合关系,给多园区综合能源系统的优化调度带来诸多挑战。为此提出一种基于数据驱动的多智能体近端策略优化(multi-agent proximal policy optimization,MAPPO)多园区综合能源系统经济调度方法。文章综合考虑园区间的能量交易与碳市场交易,以园区日运行成本最小为目标,建立多园区综合能源系统实时优化调度模型;将该优化问题建模为马尔科夫决策过程,并设计状态空间、动作空间以及奖励函数,通过大量历史数据的训练得到多园区综合能源系统优化调度神经网络模型,实现多园区分散式实时优化调度。仿真结果表明:在新能源出力与负荷随机性波动影响下,所提方法能够在降低各园区运行成本的同时减少园区间的信息交互,有助于提高各园区隐私信息的安全性。
关键词
多园区综合能源系统
实时经济调度
强化学习
多智能
体
近
端
策略
优化
Keywords
multi-area integrated energy system
real-time economic dispatch
reinforcement learning
multi-agent proximal policy optimization
分类号
TM73 [电气工程—电力系统及自动化]
TK018 [动力工程及工程热物理]
下载PDF
职称材料
题名
干扰攻击下基于MAPPO的电视频谱资源分配研究
5
作者
赵越
杨亮
刘明轩
机构
福州大学电气工程与自动化学院
出处
《电视技术》
2024年第3期199-205,共7页
文摘
将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网络中存在随机和反应扫描两种干扰攻击,通过信道接入和功率分配,使次用户(Secondary Users,SUs)平均吞吐量最大化。将EH-CR网络建模为部分可观测的马尔可夫决策过程,提出了一个基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)的联合信道和功率分配方法。仿真结果表明,提出的方法能够显著提高干扰攻击下SUs的平均吞吐量。
关键词
认知无线电(CR)
干扰攻击
多智能
体
近
端
策略
优化
(MAPPO)
资源分配
Keywords
Cognitive Radio(CR)
jamming attack
Multi-Agent Proximal Policy Optimization(MAPPO)
resource allocation
分类号
TP311.1 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于虚拟自博弈多智能体近端优化策略的无人机对抗决策
王明明
张宝勇
吴冲
平原
齐俊桐
《Transactions of Nanjing University of Aeronautics and Astronautics》
EI
CSCD
2023
0
下载PDF
职称材料
2
基于多智能体近端策略优化的多信道动态频谱接入
陈平平
张旭
谢肇鹏
丘毓萍
方毅
《电子学报》
EI
CAS
CSCD
北大核心
2024
0
下载PDF
职称材料
3
基于多智能体深度强化学习的无人机路径规划
司鹏搏
吴兵
杨睿哲
李萌
孙艳华
《北京工业大学学报》
CAS
CSCD
北大核心
2023
4
下载PDF
职称材料
4
基于强化学习的多园区综合能源系统经济调度
王丙文
付明
黄堃
《电测与仪表》
北大核心
2024
0
下载PDF
职称材料
5
干扰攻击下基于MAPPO的电视频谱资源分配研究
赵越
杨亮
刘明轩
《电视技术》
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部