-
题名基于强化学习的无人机网络资源分配研究
- 1
-
-
作者
范文帝
王俊芳
党甜
杜龙海
陈丛
-
机构
中国电子科技集团公司第
-
出处
《计算机测量与控制》
2024年第1期297-303,311,共8页
-
基金
国防基础科研计划资助(JCKY2020210B021)。
-
文摘
以无人机网络的资源分配为研究对象,研究了基于强化学习的多无人机网络动态时隙分配方案,在无人机网络中,合理地分配时隙资源对改善无人机资源利用率具有重要意义;针对动态时隙分配问题,根据调度问题的限制条件,建立了多无人机网络时隙分配模型,提出了一种基于近端策略优化(PPO)强化学习算法的时隙分配方案,并进行强化学习算法的环境映射,建立马尔可夫决策过程(MDP)模型与强化学习算法接口相匹配;在gym仿真环境下进行模型训练,对提出的时隙分配方案进行验证,仿真结果验证了基于近端策略优化强化学习算法的时隙分配方案在多无人机网络环境下可以高效进行时隙分配,提高网络信道利用率,提出的方案可以根据实际需求适当缩短训练时间得到较优分配结果。
-
关键词
深度强化学习
多无人机网络
动态时隙分配
资源分配
近端策略优化
-
Keywords
deep reinforcement learning
multi-UAV networks
dynamic time slot allocation
resource allocation
proximal policy optimization
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-