期刊文献+
共找到163篇文章
< 1 2 9 >
每页显示 20 50 100
基于PPO算法的CIES低碳优化调度方法
1
作者 陈凡 吴凌霄 +2 位作者 王曼 吕干云 张小莲 《电力工程技术》 北大核心 2024年第6期88-99,共12页
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优... 阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。 展开更多
关键词 园区综合能源系统(CIES) 优化调度 近端策略优化(ppo)算法 阶梯式碳交易机制 惩罚系数 碳排放
下载PDF
基于自注意力PPO算法的智能配电网多设备协同无功优化控制策略
2
作者 张黎元 宋兴旺 +3 位作者 李冰洁 梁睿 刘长德 彭奕洲 《智慧电力》 北大核心 2024年第10期40-48,共9页
针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近... 针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近端策略优化(PPO)算法对策略网络进行优化训练,算法采用多头自注意力网络获取配电网的实时状态特征,并通过剪切策略梯度法动态控制策略网络的更新幅度;最后,在改进IEEE69节点系统进行仿真验证。结果表明,所提算法的控制性能优于现有先进强化学习算法。 展开更多
关键词 配电网 分布式光伏 电压无功控制 多头自注意力 近端策略优化算法
下载PDF
基于样本优化的PPO算法在单路口信号控制的应用
3
作者 张国有 张新武 《计算机系统应用》 2024年第6期161-168,共8页
优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中... 优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中代理目标函数进行最大化提取,有效提高了模型选择样本的质量,采用多维交通状态向量作为模型观测值的输入方法,以及时跟踪并利用道路交通状态的动态变化过程.为了验证MPPO算法模型的准确性和有效性,在城市交通微观模拟软件(SUMO)上与值函数强化学习控制方法进行对比.仿真实验表明,相比于值函数强化学习控制方法,该方法更贴近真实的交通场景,显著加快了车辆累计等待时间的收敛速度,车辆的平均队列长度和平均等待时间明显缩短,有效提高了单路口车辆的通行效率. 展开更多
关键词 交通信号控制 深度强化学习 近端策略优化算法 代理目标函数 状态特征向量
下载PDF
基于PER-PPO2的入侵检测技术
4
作者 黄迎春 任国杰 《沈阳理工大学学报》 CAS 2024年第5期7-13,共7页
随着万物信息化与智能化的快速发展,网络攻击范围不断扩大。传统的入侵检测算法,如主成分分析(PCA)结合随机森林和K近邻等,由于网络数据繁多,特征提取能力较差,分类准确率低。针对上述问题,提出一种新的入侵检测技术,称为优先经验采样... 随着万物信息化与智能化的快速发展,网络攻击范围不断扩大。传统的入侵检测算法,如主成分分析(PCA)结合随机森林和K近邻等,由于网络数据繁多,特征提取能力较差,分类准确率低。针对上述问题,提出一种新的入侵检测技术,称为优先经验采样的近端策略优化裁剪(prioritized experience replay-proximal policy optimization clip, PER-PPO2)算法,基于强化学习实现包裹法特征选择。深度强化学习通过构建以分类器混淆矩阵为基础的奖励函数,使智能体根据奖励反馈选择分类器的较优特征,结合优先经验采样优化算法的训练样本,提高算法的稳定性与收敛性能;使用性能较优的轻量级梯度提升机(LightGBM)作为分类器。使用NSL-KDD数据集对模型进行实验评估,结果表明模型将数据集的41维特征降低为8维时分类F1值达到0.871 3,可以满足入侵检测的要求。 展开更多
关键词 近端策略优化裁剪 优先经验采样 入侵检测 深度强化学习 LightGBM
下载PDF
基于注意力的循环PPO算法及其应用
5
作者 吕相霖 臧兆祥 +1 位作者 李思博 王俊英 《计算机技术与发展》 2024年第1期136-142,共7页
针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信... 针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信息;再次通过LSTM网络提取数据的时域特性;最后基于Actor-Critic结构的PPO算法进行策略学习与训练提升。基于Gym-Minigrid环境设计了两项探索任务的消融与对比实验,实验结果表明ARPPO算法较已有的A2C算法、PPO算法、RPPO算法具有更快的收敛速度,且ARPPO算法在收敛之后具有很强的稳定性,并对存在随机因素的未知环境具备更强的适应力。 展开更多
关键词 深度强化学习 部分可观测 注意力机制 LSTM网络 近端策略优化算法
下载PDF
异构群智感知PPO多目标任务指派方法
6
作者 杨潇 郭一楠 +1 位作者 吉建娇 刘旭 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第6期1056-1066,共11页
现有移动群智感知系统的任务指派主要面向单一类型移动用户展开,对于存在多种类型移动用户的异构群智感知任务指派研究相对缺乏.为此,本文针对异质移动用户,定义其区域可达性,并给出感知子区域类型划分.进而,兼顾感知任务数量和移动用... 现有移动群智感知系统的任务指派主要面向单一类型移动用户展开,对于存在多种类型移动用户的异构群智感知任务指派研究相对缺乏.为此,本文针对异质移动用户,定义其区域可达性,并给出感知子区域类型划分.进而,兼顾感知任务数量和移动用户规模的时变性,构建了动态异构群智感知系统任务指派的多目标约束优化模型.模型以最大化感知质量和最小化感知成本为目标,综合考虑用户的最大任务执行数量、无人机的受限工作时间等约束.为解决该优化问题,本文提出一种基于近端策略优化的多目标进化优化算法.采用近端策略优化,根据种群的当前进化状态,选取具有最高奖励值的进化算子,生成子代种群.面向不同异构群智感知实例,与多种算法的对比实验结果表明,所提算法获得的Pareto最优解集具有最佳的收敛性和分布性,进化算子选择策略可以有效提升对时变因素的适应能力,改善算法性能. 展开更多
关键词 异构群智感知 多目标优化 强化学习 近端策略优化
下载PDF
基于PPO算法的电热氢耦合综合能源系统优化调度
7
作者 梁涛 张晓婵 +2 位作者 谭建鑫 井延伟 吕梁年 《太阳能学报》 EI CAS CSCD 北大核心 2024年第11期73-83,共11页
为改变“源随荷动”的传统运作模式并增加储能,实现能源网、负荷、储能等各环节协调互动,建立电热氢耦合综合能源系统(ETHC-IES)优化调度,其中应用氢储能实现安全稳定运行的“源-网-荷-储”的新型综合能源系统成为目前的研究热点。以降... 为改变“源随荷动”的传统运作模式并增加储能,实现能源网、负荷、储能等各环节协调互动,建立电热氢耦合综合能源系统(ETHC-IES)优化调度,其中应用氢储能实现安全稳定运行的“源-网-荷-储”的新型综合能源系统成为目前的研究热点。以降低综合能源系统运行成本并减少弃风弃光为目标,将ETHC-IES优化调度问题转换为马尔可夫决策过程(MDP),提出应用基于连续动作的近端策略优化算法(PPO)的综合能源系统优化调度方法。首先建立电热氢储能各部分的数学模型,综合考虑功率平衡,安全状态等约束条件,然后采用PPO算法对模型进行求解,以提高经济性和减少弃风弃光为优化目标,重新设计深度强化学习模型的动作空间、状态空间、奖励函数等,智能体通过训练学习实现ETHC-IES的动态调度优化决策。最后,通过仿真验证所提出模型和优化方法的有效性和优越性。 展开更多
关键词 强化学习 储能 可再生能源 近端策略优化 ETHC-IES
下载PDF
面向无人机集群察打场景的PPO算法设计
8
作者 李俊慧 张振华 +2 位作者 边疆 聂天常 车博山 《火力与指挥控制》 CSCD 北大核心 2024年第3期25-34,共10页
无人机集群决策问题是智能化战争的重要研究方向。以构建的典型无人机集群侦察打击的任务场景为例,研究复杂不确定条件下的无人机集群任务分配与运动规划问题。针对该问题,从战场环境模型参数化设计与典型集群侦察打击任务角度,阐述任... 无人机集群决策问题是智能化战争的重要研究方向。以构建的典型无人机集群侦察打击的任务场景为例,研究复杂不确定条件下的无人机集群任务分配与运动规划问题。针对该问题,从战场环境模型参数化设计与典型集群侦察打击任务角度,阐述任务决策的复杂性与战场环境不确定性。设计通用性较强的状态空间、奖励函数、动作空间和策略网络,其中,为捕捉多元态势信息,设计并处理了多种类型特征作为状态空间,同时设计与察打任务紧密相关的多种类型奖励;动作策略输出采取主谓宾的形式,更好表达复杂操作;策略网络设计了编码器-时序聚合-注意力机制-解码器结构,充分融合特征信息,促进了训练效果。基于近端策略优化算法(proximal policy optimization,PPO)的深度强化学习(deep reinforcement learning,DRL)进行求解。最后,通过仿真环境实验验证了无人机集群在复杂不确定条件下实现察打任务决策的可行性和有效性,展现了集群任务分配与运动规划的智能性。 展开更多
关键词 近端策略优化算法设计 任务分配 运动规划 侦察打击 决策
下载PDF
基于PPO算法的不同驾驶风格跟车模型研究
9
作者 闫鑫 黄志球 +1 位作者 石帆 徐恒 《计算机科学》 CSCD 北大核心 2024年第9期223-232,共10页
自动驾驶对于减少交通堵塞、提高驾驶舒适性具有非常重要的作用,如何提高人们对自动驾驶技术的接受程度仍具有重要的研究意义。针对不同需求的人群定制不同的驾驶风格,可以帮助驾驶人理解自动驾驶行为,提高驾驶人的乘车体验,在一定程度... 自动驾驶对于减少交通堵塞、提高驾驶舒适性具有非常重要的作用,如何提高人们对自动驾驶技术的接受程度仍具有重要的研究意义。针对不同需求的人群定制不同的驾驶风格,可以帮助驾驶人理解自动驾驶行为,提高驾驶人的乘车体验,在一定程度上消除驾驶人对使用自动驾驶系统的心理抵抗性。通过分析自动驾驶场景下的跟车行为,提出基于PPO算法的不同驾驶风格的深度强化学习模型设计方案。首先分析德国高速公路车辆行驶数据集(HDD)中大量驾驶行为轨迹,根据跟车时距(THW)、跟车距离(DHW)、行车加速度以及跟车速度特征进行归类,提取激进型的驾驶风格和稳健型的驾驶风格的特征数据,以此为基础编码能够反映驾驶人风格的奖励函数,经过迭代学习生成不同驾驶风格的深度强化学习模型,并在highway env平台上进行道路模拟。实验结果表明,基于PPO算法的不同风格驾驶模型具有完成任务目标的能力,且与传统的智能驾驶模型(IDM)相比,能够在驾驶行为中准确反映出不同的驾驶风格。 展开更多
关键词 自动驾驶 智能驾驶模型 强化学习 ppo算法 主成分分析 K-MEANS
下载PDF
基于PPO算法的四旋翼无人机位置控制
10
作者 杨宗月 刘磊 刘晨 《计算机仿真》 2024年第2期462-467,521,共7页
针对四旋翼无人机的悬停控制及轨迹跟踪问题,利用近端策略优化算法来控制四旋翼飞行器,通过强化学习训练神经网络,将状态直接映射到四个旋翼,是一种用于在未知动态参数和干扰下控制任何线性或非线性系统的技术。基于回报塑形技术(The re... 针对四旋翼无人机的悬停控制及轨迹跟踪问题,利用近端策略优化算法来控制四旋翼飞行器,通过强化学习训练神经网络,将状态直接映射到四个旋翼,是一种用于在未知动态参数和干扰下控制任何线性或非线性系统的技术。基于回报塑形技术(The reward shaping of RL),提出了一种新颖的奖励函数,相比传统的PID算法,可以使无人机飞行更迅速且平稳。实验表明,四旋翼无人机可以以高精度高平稳的性能从三维中的定点悬停及轨迹跟踪,精度高达97.2%;文中的位置控制器具有泛化性和鲁棒性。 展开更多
关键词 无人机 四旋翼 强化学习 位置控制 近端策略优化
下载PDF
基于MAPPO的无信号灯交叉口自动驾驶决策
11
作者 许曼晨 于镝 +1 位作者 赵理 郭陈栋 《吉林大学学报(信息科学版)》 CAS 2024年第5期790-798,共9页
针对自动驾驶在通过无信号灯交叉口由于车流密集且车辆行为随机不确定的问题,提出一种基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的无信号灯交叉口自动驾驶决策方案。通过MetaDrive仿真环平台搭建多智能体仿真环境,并且... 针对自动驾驶在通过无信号灯交叉口由于车流密集且车辆行为随机不确定的问题,提出一种基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的无信号灯交叉口自动驾驶决策方案。通过MetaDrive仿真环平台搭建多智能体仿真环境,并且设计了综合考虑交通规则、安全到达或发生碰撞等安全性以及交叉口车辆最大、最小速度等车流效率的奖励函数,旨在实现安全高效的自动驾驶决策。仿真实验表明,所提出的自动驾驶决策方案在训练中相较于其他算法具有更出色的稳定性和收敛性,在不同车流密度下均呈现出更高的成功率和安全性。该自动驾驶决策方案在解决无信号灯交叉口环境方面具有显著潜力,并且为复杂路况自动驾驶决策的研究起到促进作用。 展开更多
关键词 自动驾驶 智能决策 无信号灯交叉口 MAppo算法
下载PDF
基于PPO的异构UUV集群任务分配算法
12
作者 董经纬 姚尧 +2 位作者 冯景祥 李亚哲 尤岳 《舰船科学技术》 北大核心 2024年第12期84-89,共6页
无人水下航行器(Unmanned Underwater Vehicle,UUV)集群的任务分配问题是UUV集群形成水下功能的重要问题之一,但是,受限于通信以及探测能力,UUV在水下只能获取有限的信息,不能得到很好的应用。提出一种基于深度强化学习的任务分配算法,... 无人水下航行器(Unmanned Underwater Vehicle,UUV)集群的任务分配问题是UUV集群形成水下功能的重要问题之一,但是,受限于通信以及探测能力,UUV在水下只能获取有限的信息,不能得到很好的应用。提出一种基于深度强化学习的任务分配算法,针对水下信息缺失、奖励稀少的问题,在近端策略优化算法的基础上加入Curiosity模块,给智能体一种减小环境中不确定性的期望,鼓励UUV探索环境中不可预测的部分,实现UUV集群的最优任务分配。最后的仿真实验表明,相较于传统智能算法,该方法收敛更快,可靠性更强。 展开更多
关键词 任务分配 近端策略优化算法 集群
下载PDF
基于LSTM–PPO算法的多机空战智能决策及目标分配
13
作者 丁云龙 匡敏驰 +2 位作者 朱纪洪 祝靖宇 乔直 《工程科学学报》 EI CSCD 北大核心 2024年第7期1179-1186,共8页
针对传统多机空战中智能决效率低、难以满足复杂空战环境的需求以及目标分配不合理等问题.本文提出一种基于强化学习的多机空战的智能决策及目标分配方法.使用长短期记忆网络(Long short-term memory,LSTM)对状态进行特征提取和态势感知... 针对传统多机空战中智能决效率低、难以满足复杂空战环境的需求以及目标分配不合理等问题.本文提出一种基于强化学习的多机空战的智能决策及目标分配方法.使用长短期记忆网络(Long short-term memory,LSTM)对状态进行特征提取和态势感知,将归一化和特征融合后的状态信息训练残差网络和价值网络,智能体通过近端优化策略(Proximal policy optimization,PPO)针对当前态势选择最优动作.以威胁评估指标作为分配依据,计算综合威胁度,优先将威胁值最大的战机作为攻击目标.为了验证算法的有效性,在课题组搭建的数字孪生仿真环境中进行4v4多机空战实验.并在相同的实验环境下与其他强化学习主流算法进行比较.实验结果表明,使用LSTM–PPO算法在多机空战中的胜率明显优于其他主流强化学习算法,验证了算法的有效性. 展开更多
关键词 多机空战 智能决策 近端优化策略 威胁评估 目标分配
下载PDF
干扰攻击下基于MAPPO的电视频谱资源分配研究
14
作者 赵越 杨亮 刘明轩 《电视技术》 2024年第3期199-205,共7页
将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网... 将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网络中存在随机和反应扫描两种干扰攻击,通过信道接入和功率分配,使次用户(Secondary Users,SUs)平均吞吐量最大化。将EH-CR网络建模为部分可观测的马尔可夫决策过程,提出了一个基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)的联合信道和功率分配方法。仿真结果表明,提出的方法能够显著提高干扰攻击下SUs的平均吞吐量。 展开更多
关键词 认知无线电(CR) 干扰攻击 多智能体近端策略优化(MAppo) 资源分配
下载PDF
改进PPO算法的AUV路径规划研究 被引量:3
15
作者 胡致远 王征 +1 位作者 杨洋 尹洋 《电光与控制》 CSCD 北大核心 2023年第1期87-91,102,共6页
面对复杂的三维环境,传统的路径规划算法计算复杂度极度增加,失去了原有的效果。深度强化学习可以不依赖于精确的环境模型,其总体效率远高于传统算法。针对三维环境下的AUV路径规划问题,在建立避碰探测模型和gym仿真环境的基础上,改进... 面对复杂的三维环境,传统的路径规划算法计算复杂度极度增加,失去了原有的效果。深度强化学习可以不依赖于精确的环境模型,其总体效率远高于传统算法。针对三维环境下的AUV路径规划问题,在建立避碰探测模型和gym仿真环境的基础上,改进网络结构的PPO算法设计及模型训练。通过仿真实验,验证了算法的准确率与有效性。 展开更多
关键词 AUV 路径规划 近端策略优化 深度强化学习
下载PDF
基于改进PPO算法的机器人局部路径规划 被引量:6
16
作者 刘国名 李彩虹 +3 位作者 李永迪 张国胜 张耀玉 高腾腾 《计算机工程》 CAS CSCD 北大核心 2023年第2期119-126,135,共9页
利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的... 利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的全连接层替换为LSTM记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对LSTM-PPO算法进行仿真验证,结果表明,与传统PPO算法和改进算法SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。 展开更多
关键词 机器人 局部路径规划 长短期记忆神经网络 近端策略优化算法 虚拟目标点
下载PDF
基于DPPO的移动采摘机器人避障路径规划及仿真 被引量:6
17
作者 林俊强 王红军 +4 位作者 邹湘军 张坡 李承恩 周益鹏 姚书杰 《系统仿真学报》 CAS CSCD 北大核心 2023年第8期1692-1704,共13页
针对移动采摘机器人在野外作业过程中面临随机多变的复杂路径环境难以自主决策的难题,提出一种基于深度强化学习的自主避障路径规划方法。设定状态空间和动作空间,借助人工势场法设计奖励函数的思想,提出了一种基于碰撞锥避碰检测的障... 针对移动采摘机器人在野外作业过程中面临随机多变的复杂路径环境难以自主决策的难题,提出一种基于深度强化学习的自主避障路径规划方法。设定状态空间和动作空间,借助人工势场法设计奖励函数的思想,提出了一种基于碰撞锥避碰检测的障碍物惩罚系数设定方法,提高自主避碰能力。构建了虚拟仿真系统,使用分布式近端策略优化算法(distributed proximal policy optimization,DPPO)完成了移动采摘机器人的学习训练并进行实验验证。仿真结果表明:本系统能够快速、稳定的控制虚拟移动采摘机器人自主避障,获得更优的作业路径,为采摘机器人自主导航提供理论与技术支撑。 展开更多
关键词 深度强化学习 近端策略优化 移动采摘机器人 避障 路径规划 人工势场 碰撞锥
下载PDF
基于PPO算法的无人机近距空战自主引导方法 被引量:4
18
作者 邱妍 赵宝奇 +1 位作者 邹杰 刘仲凯 《电光与控制》 CSCD 北大核心 2023年第1期8-14,共7页
针对无人机近距空战的自主决策问题,提出了一种基于近端策略优化(PPO)算法的无人机自主引导方法。针对敌我距离、角度、速度以及任务约束等信息重塑奖励,建立了无人机三自由度模型,在速度坐标系上构建强化学习的状态和动作,分别对结合... 针对无人机近距空战的自主决策问题,提出了一种基于近端策略优化(PPO)算法的无人机自主引导方法。针对敌我距离、角度、速度以及任务约束等信息重塑奖励,建立了无人机三自由度模型,在速度坐标系上构建强化学习的状态和动作,分别对结合了全连接神经网络的PPO算法(标准PPO算法)和长短时记忆网络的PPO算法(改进PPO算法)模型进行了仿真训练。根据训练的结果可以证明,相比于标准PPO算法,所提的改进PPO算法能够更有效地处理与时间序列高度相关的无人机自主引导任务。 展开更多
关键词 近距空战 近端策略优化 自主引导 长短时记忆网络
下载PDF
基于Safe-PPO算法的安全优先路径规划方法
19
作者 别桐 朱晓庆 +3 位作者 付煜 李晓理 阮晓钢 王全民 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第8期2108-2118,共11页
现有的路径规划算法对路径规划过程中的路径安全性问题考虑较少,并且传统的近端策略优化(PPO)算法存在一定的方差适应性问题。为解决这些问题,提出一种融合进化策略思想和安全奖励函数的安全近端策略优化(Safe-PPO)算法,所提算法以安全... 现有的路径规划算法对路径规划过程中的路径安全性问题考虑较少,并且传统的近端策略优化(PPO)算法存在一定的方差适应性问题。为解决这些问题,提出一种融合进化策略思想和安全奖励函数的安全近端策略优化(Safe-PPO)算法,所提算法以安全优先进行路径规划。采用协方差自适应调整的进化策略(CMA-ES)的思想对PPO算法进行改进,并引入危险系数与动作因子来评估路径的安全性。使用二维栅格地图进行仿真实验,采用传统的PPO算法和Safe-PPO算法进行对比;采用六足机器人在搭建的场景中进行实物实验。仿真实验结果表明:所提算法在安全优先导向的路径规划方面具有合理性与可行性:在训练时Safe-PPO算法相比传统的PPO算法收敛速度提升了18%,获得的奖励提升了5.3%;在测试时采用融合危险系数与动作因子的方案能使机器人学会选择更加安全的道路而非直观上最快速的道路。实物实验结果表明:机器人可以在现实环境中选择更加安全的路径到达目标点。 展开更多
关键词 机器人导航 路径规划 深度强化学习 近端策略优化 安全路径选择
下载PDF
基于PPO算法的仿生鱼循迹智能控制
20
作者 李云飞 严嫏 +2 位作者 张来平 邓小刚 邹舒帆 《计算机系统应用》 2023年第9期230-238,共9页
仿生鱼具有广阔的工程应用前景,对于仿生鱼的控制,首先要解决的是循迹问题.然而,现有的基于CFD方式和传统控制算法的鱼游控制方法存在训练数据获取成本高、控制不稳定等缺点.本文提出了基于PPO算法的仿生鱼循迹智能控制方法:使用代理模... 仿生鱼具有广阔的工程应用前景,对于仿生鱼的控制,首先要解决的是循迹问题.然而,现有的基于CFD方式和传统控制算法的鱼游控制方法存在训练数据获取成本高、控制不稳定等缺点.本文提出了基于PPO算法的仿生鱼循迹智能控制方法:使用代理模型替代CFD方式产生训练数据,提高数据的产生效率;引入高效的PPO算法,加快策略模型的学习速度,提高训练数据的效用;引入速度参数,解决鱼体在急转弯区域无法顺利循迹的问题.实验表明,我们提出的方法在多种类型的路径上均具有更快的收敛速度和更加稳定的控制能力,在仿生机器鱼的智能控制方面具有重要的指导意义. 展开更多
关键词 深度强化学习 仿生鱼 智能控制 代理模型 ppo
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部