期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning
1
作者 Jiawei Xia Yasong Luo +3 位作者 Zhikun Liu Yalun Zhang Haoran Shi Zhong Liu 《Defence Technology(防务技术)》 SCIE EI CAS CSCD 2023年第11期80-94,共15页
To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model wit... To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model without boundary constraints are built,and the criteria for successful target capture are given.Then,the cooperative hunting problem of a USV fleet is modeled as a decentralized partially observable Markov decision process(Dec-POMDP),and a distributed partially observable multitarget hunting Proximal Policy Optimization(DPOMH-PPO)algorithm applicable to USVs is proposed.In addition,an observation model,a reward function and the action space applicable to multi-target hunting tasks are designed.To deal with the dynamic change of observational feature dimension input by partially observable systems,a feature embedding block is proposed.By combining the two feature compression methods of column-wise max pooling(CMP)and column-wise average-pooling(CAP),observational feature encoding is established.Finally,the centralized training and decentralized execution framework is adopted to complete the training of hunting strategy.Each USV in the fleet shares the same policy and perform actions independently.Simulation experiments have verified the effectiveness of the DPOMH-PPO algorithm in the test scenarios with different numbers of USVs.Moreover,the advantages of the proposed model are comprehensively analyzed from the aspects of algorithm performance,migration effect in task scenarios and self-organization capability after being damaged,the potential deployment and application of DPOMH-PPO in the real environment is verified. 展开更多
关键词 Unmanned surface vehicles multi-agent deep reinforcement learning Cooperative hunting Feature embedding proximal policy optimization
下载PDF
Multi-agent reinforcement learning for edge information sharing in vehicular networks 被引量:3
2
作者 Ruyan Wang Xue Jiang +5 位作者 Yujie Zhou Zhidu Li Dapeng Wu Tong Tang Alexander Fedotov Vladimir Badenko 《Digital Communications and Networks》 SCIE CSCD 2022年第3期267-277,共11页
To guarantee the heterogeneous delay requirements of the diverse vehicular services,it is necessary to design a full cooperative policy for both Vehicle to Infrastructure(V2I)and Vehicle to Vehicle(V2V)links.This pape... To guarantee the heterogeneous delay requirements of the diverse vehicular services,it is necessary to design a full cooperative policy for both Vehicle to Infrastructure(V2I)and Vehicle to Vehicle(V2V)links.This paper investigates the reduction of the delay in edge information sharing for V2V links while satisfying the delay requirements of the V2I links.Specifically,a mean delay minimization problem and a maximum individual delay minimization problem are formulated to improve the global network performance and ensure the fairness of a single user,respectively.A multi-agent reinforcement learning framework is designed to solve these two problems,where a new reward function is proposed to evaluate the utilities of the two optimization objectives in a unified framework.Thereafter,a proximal policy optimization approach is proposed to enable each V2V user to learn its policy using the shared global network reward.The effectiveness of the proposed approach is finally validated by comparing the obtained results with those of the other baseline approaches through extensive simulation experiments. 展开更多
关键词 Vehicular networks Edge information sharing Delay guarantee multi-agent reinforcement learning proximal policy optimization
下载PDF
山区应急供水装备路径规划系统设计与应用
3
作者 李伟 赵晨淞 +5 位作者 袁寿其 李昊明 曹卫东 周岭 朱勇 季磊磊 《排灌机械工程学报》 CSCD 北大核心 2024年第10期1066-1072,共7页
灾后救援保障中,应急供水扮演着至关重要的角色.然而,由于山区地形和地貌条件复杂多变,现场指挥调度尤为关键,关系着救援人员能否迅速展开保障装备进行应急供水作业.文中基于多智能体强化学习(multi-agent proximal policy optimization... 灾后救援保障中,应急供水扮演着至关重要的角色.然而,由于山区地形和地貌条件复杂多变,现场指挥调度尤为关键,关系着救援人员能否迅速展开保障装备进行应急供水作业.文中基于多智能体强化学习(multi-agent proximal policy optimization,MAPPO)算法进行了路径规划系统的设计,并进行了试验仿真验证,根据奖励图结果确认该路径规划系统的可行性,并实现系统运行可视化,证明该路径规划系统可以初步满足山区应急供水装备路径规划需求.在此基础上,结合Mask2Former图像分割模型优化山区应急供水装备路径规划系统,将地物信息输出结果和路径规划结果相结合,有效避免了单一路径规划算法在受到环境影响时结果波动较大的问题,提高了路径规划的鲁棒性和可靠性.将该路径规划系统集成至山区应急供水装备指挥平台,以解决山区应急供水路径规划问题,为山区应急供水装备的实际运行提供了有力支持. 展开更多
关键词 路径规划 应急供水 强化学习 指挥调度 多智能体强化学习算法
下载PDF
基于样本优化的PPO算法在单路口信号控制的应用
4
作者 张国有 张新武 《计算机系统应用》 2024年第6期161-168,共8页
优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中... 优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中代理目标函数进行最大化提取,有效提高了模型选择样本的质量,采用多维交通状态向量作为模型观测值的输入方法,以及时跟踪并利用道路交通状态的动态变化过程.为了验证MPPO算法模型的准确性和有效性,在城市交通微观模拟软件(SUMO)上与值函数强化学习控制方法进行对比.仿真实验表明,相比于值函数强化学习控制方法,该方法更贴近真实的交通场景,显著加快了车辆累计等待时间的收敛速度,车辆的平均队列长度和平均等待时间明显缩短,有效提高了单路口车辆的通行效率. 展开更多
关键词 交通信号控制 深度强化学习 近端策略优化算法 代理目标函数 状态特征向量
下载PDF
基于注意力的循环PPO算法及其应用
5
作者 吕相霖 臧兆祥 +1 位作者 李思博 王俊英 《计算机技术与发展》 2024年第1期136-142,共7页
针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信... 针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信息;再次通过LSTM网络提取数据的时域特性;最后基于Actor-Critic结构的PPO算法进行策略学习与训练提升。基于Gym-Minigrid环境设计了两项探索任务的消融与对比实验,实验结果表明ARPPO算法较已有的A2C算法、PPO算法、RPPO算法具有更快的收敛速度,且ARPPO算法在收敛之后具有很强的稳定性,并对存在随机因素的未知环境具备更强的适应力。 展开更多
关键词 深度强化学习 部分可观测 注意力机制 LSTM网络 近端策略优化算法
下载PDF
基于强化学习的动目标协同观测任务自主规划方法
6
作者 刘一隆 张聪 +1 位作者 张斯航 陈砺寒 《空间控制技术与应用》 CSCD 北大核心 2024年第3期42-51,共10页
随着空间目标的数量逐渐增多、空中目标动态性日趋提升,对目标的观测定位问题变得愈发重要.由于需同时观测的目标多且目标动态性强,而星座观测资源有限,为了更高效地调用星座观测资源,需要动态调整多目标协同观测方案,使各目标均具有较... 随着空间目标的数量逐渐增多、空中目标动态性日趋提升,对目标的观测定位问题变得愈发重要.由于需同时观测的目标多且目标动态性强,而星座观测资源有限,为了更高效地调用星座观测资源,需要动态调整多目标协同观测方案,使各目标均具有较好的定位精度,因此需解决星座协同观测多目标的任务规划问题.建立星座姿态轨道模型、目标飞行模型、目标协同探测及定位模型,提出基于几何精度衰减因子(geometric dilution of precision, GDOP)的目标观测定位误差预估模型及目标观测优先级模型,建立基于强化学习的协同观测任务规划框架,采用多头自注意力机制建立策略网络,以及近端策略优化算法开展任务规划算法训练.仿真验证论文提出的方法相比传统启发式方法提升了多目标观测精度和有效跟踪时间,相比遗传算法具有更快的计算速度. 展开更多
关键词 多目标 协同观测 任务规划 强化学习 自注意力机制 近端策略优化
下载PDF
基于深度强化学习的尾旋改出技术
7
作者 谭健美 王君秋 《航空兵器》 CSCD 北大核心 2024年第1期77-88,共12页
本文搭建了飞机仿真环境,基于近端策略优化(PPO)算法建立了尾旋改出算法测试模型,设计了基准版单阶段、基准版双阶段、加深版单阶段、加深版双阶段四种网络结构,用于探究网络结构和改出阶段对尾旋改出效果的影响,设置了鲁棒性测试试验,... 本文搭建了飞机仿真环境,基于近端策略优化(PPO)算法建立了尾旋改出算法测试模型,设计了基准版单阶段、基准版双阶段、加深版单阶段、加深版双阶段四种网络结构,用于探究网络结构和改出阶段对尾旋改出效果的影响,设置了鲁棒性测试试验,从时延、误差和高度等方面进行了算法测试和结果分析。 展开更多
关键词 尾旋改出 深度学习 强化学习 近端策略优化 算法测试 飞机
下载PDF
基于裁剪优化和策略指导的近端策略优化算法
8
作者 周毅 高华 田永谌 《计算机应用》 CSCD 北大核心 2024年第8期2334-2341,共8页
针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差... 针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差异的约束;其次,在策略更新过程中,融入模拟退火和贪心算法的思想,提升算法的探索效率和学习速度。为了验证所提算法的有效性,使用MuJoCo测试基准对COAPG-PPO与CO-PPO(PPO based on Clipping Optimization)、PPO-CMA(PPO with Covariance Matrix Adaptation)、TR-PPO-RB(Trust Region-based PPO with RollBack)和PPO算法进行对比实验。实验结果表明,COAPG-PPO算法在大多数环境中具有更严格的约束能力、更高的探索和利用效率,以及更高的奖励值。 展开更多
关键词 深度强化学习 近端策略优化 信任域约束 模拟退火 贪心算法
下载PDF
基于近端策略优化算法的新能源电力系统安全约束经济调度方法 被引量:8
9
作者 杨志学 任洲洋 +3 位作者 孙志媛 刘默斯 姜晶 印月 《电网技术》 EI CSCD 北大核心 2023年第3期988-997,共10页
针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫... 针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫奖励过程。设计了近端策略优化算法的奖励函数机制,引导智能体高效生成满足交流潮流以及N-1安全约束的调度计划。然后,设计了调度模型与近端策略优化算法的融合机制,建立了调度训练样本的生成与提取方法以及价值网络和策略网络的训练机制。最后,采用IEEE 30节点和IEEE 118节点2个标准测试系统,验证了本文提出方法的有效性和适应性。 展开更多
关键词 安全约束经济调度 深度强化学习 近端策略优化算法 新能源
下载PDF
基于改进PPO算法的机器人局部路径规划 被引量:5
10
作者 刘国名 李彩虹 +3 位作者 李永迪 张国胜 张耀玉 高腾腾 《计算机工程》 CAS CSCD 北大核心 2023年第2期119-126,135,共9页
利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的... 利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的全连接层替换为LSTM记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对LSTM-PPO算法进行仿真验证,结果表明,与传统PPO算法和改进算法SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。 展开更多
关键词 机器人 局部路径规划 长短期记忆神经网络 近端策略优化算法 虚拟目标点
下载PDF
基于多智能体深度强化学习的无人机路径规划 被引量:4
11
作者 司鹏搏 吴兵 +2 位作者 杨睿哲 李萌 孙艳华 《北京工业大学学报》 CAS CSCD 北大核心 2023年第4期449-458,共10页
为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UA... 为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UAV的状态观测空间、动作空间及奖赏函数等实现多UAV无障碍路径规划;其次,为适应UAV搭载的有限计算资源条件,进一步提出基于网络剪枝的多智能体近端策略优化(network pruning-based multi-agent proximal policy optimization, NP-MAPPO)算法,提高了训练效率.仿真结果验证了提出的多UAV路径规划框架在各参数配置下的有效性及NP-MAPPO算法在训练时间上的优越性. 展开更多
关键词 无人机(unmanned aerial vehicle UAV) 复杂环境 路径规划 马尔可夫决策过程 多智能体近端策略优化算法(multi-agent proximal policy optimization MAPPO) 网络剪枝(network pruning NP)
下载PDF
基于近端优化的永磁同步电机温度预测方法 被引量:2
12
作者 岑岗 张晨光 +2 位作者 岑跃峰 马伟锋 赵澄 《汽车技术》 CSCD 北大核心 2021年第3期26-32,共7页
为了精准有效地实现永磁同步电机的温度预测,提出了一种基于近端策略优化(PPO)算法和强化学习(RL)网络的永磁同步电机温度预测模型,即PPO-RL模型,利用PPO算法定义模型训练的损失目标函数,选择Nadam算法作为模型优化器,通过强化学习的Act... 为了精准有效地实现永磁同步电机的温度预测,提出了一种基于近端策略优化(PPO)算法和强化学习(RL)网络的永磁同步电机温度预测模型,即PPO-RL模型,利用PPO算法定义模型训练的损失目标函数,选择Nadam算法作为模型优化器,通过强化学习的Actor-Critic框架最小化损失目标函数,进而完成模型的迭代训练。采用Kaggle公开的永磁同步电机测量数据集进行试验,结果表明,与指数加权移动平均法、循环神经网络和长短期记忆网络相比,PPO-RL模型具有更高的预测精度和可靠性。 展开更多
关键词 永磁同步电机 温度预测 近端策略优化算法 强化学习
下载PDF
基于PPO的移动平台自主导航 被引量:2
13
作者 徐国艳 熊绎维 +1 位作者 周彬 陈冠宏 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第11期2138-2145,共8页
为解决强化学习算法在自主导航任务中动作输出不连续、训练收敛困难等问题,提出了一种基于近似策略优化(PPO)算法的移动平台自主导航方法。在PPO算法的基础上设计了基于正态分布的动作策略函数,解决了移动平台整车线速度和横摆角速度的... 为解决强化学习算法在自主导航任务中动作输出不连续、训练收敛困难等问题,提出了一种基于近似策略优化(PPO)算法的移动平台自主导航方法。在PPO算法的基础上设计了基于正态分布的动作策略函数,解决了移动平台整车线速度和横摆角速度的输出动作连续性问题。设计了一种改进的人工势场算法作为自身位置评价,有效提高强化学习模型在自主导航场景中的收敛速度。针对导航场景设计了模型的网络框架和奖励函数,并在Gazebo仿真环境中进行模型训练,结果表明,引入自身位置评价的模型收敛速度明显提高。将收敛模型移植入真实环境中,验证了所提方法的有效性。 展开更多
关键词 近似策略优化算法 移动平台 自主导航 强化学习 人工势场
下载PDF
基于深度强化学习的多机协同空战方法研究 被引量:52
14
作者 施伟 冯旸赫 +4 位作者 程光权 黄红蓝 黄金才 刘忠 贺威 《自动化学报》 EI CAS CSCD 北大核心 2021年第7期1610-1623,共14页
多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative ... 多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative air combat decision framework,DRL-MACACDF),并针对近端策略优化(Proximal policy optimization,PPO)算法,设计4种算法增强机制,提高多机协同对抗场景下智能体间的协同程度.在兵棋推演平台上进行的仿真实验,验证了该方法的可行性和实用性,并对对抗过程数据进行了可解释性复盘分析,研讨了强化学习与传统兵棋推演结合的交叉研究方向. 展开更多
关键词 多机协同空战 智能决策 深度强化学习 PPO算法 增强机制
下载PDF
融合LSTM和PPO算法的移动机器人视觉导航 被引量:12
15
作者 张仪 冯伟 +4 位作者 王卫军 杨之乐 张艳辉 朱子翰 谭勇 《电子测量与仪器学报》 CSCD 北大核心 2022年第8期132-140,共9页
为提高移动机器人在无地图情况下的视觉导航能力,提升导航成功率,提出了一种融合长短期记忆神经网络(long short term memory, LSTM)和近端策略优化算法(proximal policy optimization, PPO)算法的移动机器人视觉导航模型。首先,该模型... 为提高移动机器人在无地图情况下的视觉导航能力,提升导航成功率,提出了一种融合长短期记忆神经网络(long short term memory, LSTM)和近端策略优化算法(proximal policy optimization, PPO)算法的移动机器人视觉导航模型。首先,该模型融合LSTM和PPO算法作为视觉导航的网络模型;其次,通过移动机器人动作,与目标距离,运动时间等因素设计奖励函数,用以训练目标;最后,以移动机器人第一视角获得的RGB-D图像及目标点的极性坐标为输入,以移动机器人的连续动作值为输出,实现无地图的端到端视觉导航任务,并根据推理到达未接受过训练的新目标。对比前序算法,该模型在模拟环境中收敛速度更快,旧目标的导航成功率平均提高17.7%,新目标的导航成功率提高23.3%,具有较好的导航性能。 展开更多
关键词 近端策略优化算法 长短期记忆神经网络 视觉导航
下载PDF
强化学习算法在超视距空战辅助决策上的应用研究 被引量:13
16
作者 吴宜珈 赖俊 +2 位作者 陈希亮 曹雷 徐鹏 《航空兵器》 CSCD 北大核心 2021年第2期55-61,共7页
针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近... 针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近端策略分层优化算法能够驱动智能体在对抗过程中产生迂回攻击等战术行为,达到提升传统算法性能和提高空战博弈决策效率的目的。 展开更多
关键词 超视距空战 智能决策 人工智能 强化学习 近端策略优化算法 分层强化学习
下载PDF
基于PPO算法优化的IoT环境温度预测研究 被引量:3
17
作者 朱广 霍跃华 +1 位作者 栾庆磊 史艳琼 《传感器与微系统》 CSCD 北大核心 2021年第4期33-36,共4页
针对现有物联网(IoT)环境温度预测方法存在的预测精度低以及预测结果存在滞后性的问题,提出了一种基于优化的近端策略优化(PPO)算法和AC(Actor-Critic)网络的IoT环境温度预测模型(PPO-AC)。模型结合AC强化学习网络构建用于温度预测的双... 针对现有物联网(IoT)环境温度预测方法存在的预测精度低以及预测结果存在滞后性的问题,提出了一种基于优化的近端策略优化(PPO)算法和AC(Actor-Critic)网络的IoT环境温度预测模型(PPO-AC)。模型结合AC强化学习网络构建用于温度预测的双网络模型,并采用优化的PPO算法动态选择损失函数。最后,采用Kaggle数据平台提供的IoT环境温度数据集,通过实验验证了该模型的有效性和稳定性。 展开更多
关键词 物联网(IoT) 近端策略优化(PPO)算法 AC(Actor-Critic)网络 温度预测
下载PDF
基于深度强化学习的三维路径规划算法 被引量:13
18
作者 黄东晋 蒋晨凤 韩凯丽 《计算机工程与应用》 CSCD 北大核心 2020年第15期30-36,共7页
合理的路线选择是智能体三维路径规划研究领域的难点。现有路径规划方法存在不能很好地适应未知地形,避障形式单一等问题。针对这些问题,提出了一种基于LSTM-PPO的智能体三维路径规划算法。利用虚拟射线探测仿真环境,并将收集到的状态... 合理的路线选择是智能体三维路径规划研究领域的难点。现有路径规划方法存在不能很好地适应未知地形,避障形式单一等问题。针对这些问题,提出了一种基于LSTM-PPO的智能体三维路径规划算法。利用虚拟射线探测仿真环境,并将收集到的状态空间和动作状态引入长短时记忆网络。通过额外的奖惩函数和好奇心驱动让智能体学会跳跃通过低矮障碍物,避开大型障碍物。利用PPO算法的截断项机制使得规划策略更新的幅度更加优化。实验结果表明,该算法是可行的,能够更加智能合理地选择路线,很好地适应存在多样障碍物的未知环境。 展开更多
关键词 深度强化学习 近端策略优化算法 路径规划 复杂未知场景
下载PDF
规则引导的智能体决策框架
19
作者 牟轩庭 张宏军 +1 位作者 廖湘琳 章乐贵 《计算机技术与发展》 2022年第10期156-163,共8页
虽然近年来深度强化学习在决策智能中取得突破,但复杂场景中的巨大动作空间仍然是算法成功学习的一大挑战。导致这一问题的主要原因在于缺乏指导的智能体难以累积足够的成功经验,样本数据质量低下,影响模型正确收敛,而加入人类知识进行... 虽然近年来深度强化学习在决策智能中取得突破,但复杂场景中的巨大动作空间仍然是算法成功学习的一大挑战。导致这一问题的主要原因在于缺乏指导的智能体难以累积足够的成功经验,样本数据质量低下,影响模型正确收敛,而加入人类知识进行辅助是一种有效的方法。为此提出了规则引导的智能体决策框架,介绍了决策框架的总体组成;针对不同态势下存在的无效动作导致探索困难的问题,提出了规则引导的智能体决策方法,选择近端策略优化算法和注意力机制构建了简单的智能体网络,利用专家经验设计规则引导层,根据态势特征对智能体的动作空间进行动态约束。实验结果表明:该方法提高了智能体在星际争霸II小型任务“训练陆战队员”中的成绩,并且去掉规则引导层后仍然能够保持部分性能。 展开更多
关键词 深度强化学习 专家经验 规则 动作空间 近端策略优化算法 注意力机制
下载PDF
Efficient and fair PPO-based integrated scheduling method for multiple tasks of SATech-01 satellite
20
作者 Qi SHI Lu LI +5 位作者 Ziruo FANG Xingzi BI Huaqiu LIU Xiaofeng ZHANG Wen CHEN Jinpei YU 《Chinese Journal of Aeronautics》 SCIE EI CAS CSCD 2024年第2期417-430,共14页
SATech-01 is an experimental satellite for space science exploration and on-orbit demonstration of advanced technologies.The satellite is equipped with 16 experimental payloads and supports multiple working modes to m... SATech-01 is an experimental satellite for space science exploration and on-orbit demonstration of advanced technologies.The satellite is equipped with 16 experimental payloads and supports multiple working modes to meet the observation requirements of various payloads.Due to the limitation of platform power supply and data storage systems,proposing reasonable mission planning schemes to improve scientific revenue of the payloads becomes a critical issue.In this article,we formulate the integrated task scheduling of SATech-01 as a multi-objective optimization problem and propose a novel Fair Integrated Scheduling with Proximal Policy Optimization(FIS-PPO)algorithm to solve it.We use multiple decision heads to generate decisions for each task and design the action mask to ensure the schedule meeting the platform constraints.Experimental results show that FIS-PPO could push the capability of the platform to the limit and improve the overall observation efficiency by 31.5%compared to rule-based plans currently used.Moreover,fairness is considered in the reward design and our method achieves much better performance in terms of equal task opportunities.Because of its low computational complexity,our task scheduling algorithm has the potential to be directly deployed on board for real-time task scheduling in future space projects. 展开更多
关键词 Satellite observatories SATech-01 Multi-modes platform Scheduling algorithms Reinforcement learning proximal policy optimization(PPO)
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部