期刊文献+
共找到128篇文章
< 1 2 7 >
每页显示 20 50 100
基于注意力的循环PPO算法及其应用
1
作者 吕相霖 臧兆祥 +1 位作者 李思博 王俊英 《计算机技术与发展》 2024年第1期136-142,共7页
针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信... 针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信息;再次通过LSTM网络提取数据的时域特性;最后基于Actor-Critic结构的PPO算法进行策略学习与训练提升。基于Gym-Minigrid环境设计了两项探索任务的消融与对比实验,实验结果表明ARPPO算法较已有的A2C算法、PPO算法、RPPO算法具有更快的收敛速度,且ARPPO算法在收敛之后具有很强的稳定性,并对存在随机因素的未知环境具备更强的适应力。 展开更多
关键词 深度强化学习 部分可观测 注意力机制 LSTM网络 近端策略优化算法
下载PDF
面向无人机集群察打场景的PPO算法设计
2
作者 李俊慧 张振华 +2 位作者 边疆 聂天常 车博山 《火力与指挥控制》 CSCD 北大核心 2024年第3期25-34,共10页
无人机集群决策问题是智能化战争的重要研究方向。以构建的典型无人机集群侦察打击的任务场景为例,研究复杂不确定条件下的无人机集群任务分配与运动规划问题。针对该问题,从战场环境模型参数化设计与典型集群侦察打击任务角度,阐述任... 无人机集群决策问题是智能化战争的重要研究方向。以构建的典型无人机集群侦察打击的任务场景为例,研究复杂不确定条件下的无人机集群任务分配与运动规划问题。针对该问题,从战场环境模型参数化设计与典型集群侦察打击任务角度,阐述任务决策的复杂性与战场环境不确定性。设计通用性较强的状态空间、奖励函数、动作空间和策略网络,其中,为捕捉多元态势信息,设计并处理了多种类型特征作为状态空间,同时设计与察打任务紧密相关的多种类型奖励;动作策略输出采取主谓宾的形式,更好表达复杂操作;策略网络设计了编码器-时序聚合-注意力机制-解码器结构,充分融合特征信息,促进了训练效果。基于近端策略优化算法(proximal policy optimization,PPO)的深度强化学习(deep reinforcement learning,DRL)进行求解。最后,通过仿真环境实验验证了无人机集群在复杂不确定条件下实现察打任务决策的可行性和有效性,展现了集群任务分配与运动规划的智能性。 展开更多
关键词 近端策略优化算法设计 任务分配 运动规划 侦察打击 决策
下载PDF
基于PPO算法的四旋翼无人机位置控制
3
作者 杨宗月 刘磊 刘晨 《计算机仿真》 2024年第2期462-467,521,共7页
针对四旋翼无人机的悬停控制及轨迹跟踪问题,利用近端策略优化算法来控制四旋翼飞行器,通过强化学习训练神经网络,将状态直接映射到四个旋翼,是一种用于在未知动态参数和干扰下控制任何线性或非线性系统的技术。基于回报塑形技术(The re... 针对四旋翼无人机的悬停控制及轨迹跟踪问题,利用近端策略优化算法来控制四旋翼飞行器,通过强化学习训练神经网络,将状态直接映射到四个旋翼,是一种用于在未知动态参数和干扰下控制任何线性或非线性系统的技术。基于回报塑形技术(The reward shaping of RL),提出了一种新颖的奖励函数,相比传统的PID算法,可以使无人机飞行更迅速且平稳。实验表明,四旋翼无人机可以以高精度高平稳的性能从三维中的定点悬停及轨迹跟踪,精度高达97.2%;文中的位置控制器具有泛化性和鲁棒性。 展开更多
关键词 无人机 四旋翼 强化学习 位置控制 近端策略优化
下载PDF
干扰攻击下基于MAPPO的电视频谱资源分配研究
4
作者 赵越 杨亮 刘明轩 《电视技术》 2024年第3期199-205,共7页
将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网... 将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网络中存在随机和反应扫描两种干扰攻击,通过信道接入和功率分配,使次用户(Secondary Users,SUs)平均吞吐量最大化。将EH-CR网络建模为部分可观测的马尔可夫决策过程,提出了一个基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)的联合信道和功率分配方法。仿真结果表明,提出的方法能够显著提高干扰攻击下SUs的平均吞吐量。 展开更多
关键词 认知无线电(CR) 干扰攻击 多智能体近端策略优化(MAppo) 资源分配
下载PDF
基于改进PPO算法的机器人局部路径规划 被引量:4
5
作者 刘国名 李彩虹 +3 位作者 李永迪 张国胜 张耀玉 高腾腾 《计算机工程》 CAS CSCD 北大核心 2023年第2期119-126,135,共9页
利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的... 利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的全连接层替换为LSTM记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对LSTM-PPO算法进行仿真验证,结果表明,与传统PPO算法和改进算法SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。 展开更多
关键词 机器人 局部路径规划 长短期记忆神经网络 近端策略优化算法 虚拟目标点
下载PDF
改进PPO算法的AUV路径规划研究 被引量:1
6
作者 胡致远 王征 +1 位作者 杨洋 尹洋 《电光与控制》 CSCD 北大核心 2023年第1期87-91,102,共6页
面对复杂的三维环境,传统的路径规划算法计算复杂度极度增加,失去了原有的效果。深度强化学习可以不依赖于精确的环境模型,其总体效率远高于传统算法。针对三维环境下的AUV路径规划问题,在建立避碰探测模型和gym仿真环境的基础上,改进... 面对复杂的三维环境,传统的路径规划算法计算复杂度极度增加,失去了原有的效果。深度强化学习可以不依赖于精确的环境模型,其总体效率远高于传统算法。针对三维环境下的AUV路径规划问题,在建立避碰探测模型和gym仿真环境的基础上,改进网络结构的PPO算法设计及模型训练。通过仿真实验,验证了算法的准确率与有效性。 展开更多
关键词 AUV 路径规划 近端策略优化 深度强化学习
下载PDF
基于DPPO的移动采摘机器人避障路径规划及仿真 被引量:2
7
作者 林俊强 王红军 +4 位作者 邹湘军 张坡 李承恩 周益鹏 姚书杰 《系统仿真学报》 CAS CSCD 北大核心 2023年第8期1692-1704,共13页
针对移动采摘机器人在野外作业过程中面临随机多变的复杂路径环境难以自主决策的难题,提出一种基于深度强化学习的自主避障路径规划方法。设定状态空间和动作空间,借助人工势场法设计奖励函数的思想,提出了一种基于碰撞锥避碰检测的障... 针对移动采摘机器人在野外作业过程中面临随机多变的复杂路径环境难以自主决策的难题,提出一种基于深度强化学习的自主避障路径规划方法。设定状态空间和动作空间,借助人工势场法设计奖励函数的思想,提出了一种基于碰撞锥避碰检测的障碍物惩罚系数设定方法,提高自主避碰能力。构建了虚拟仿真系统,使用分布式近端策略优化算法(distributed proximal policy optimization,DPPO)完成了移动采摘机器人的学习训练并进行实验验证。仿真结果表明:本系统能够快速、稳定的控制虚拟移动采摘机器人自主避障,获得更优的作业路径,为采摘机器人自主导航提供理论与技术支撑。 展开更多
关键词 深度强化学习 近端策略优化 移动采摘机器人 避障 路径规划 人工势场 碰撞锥
下载PDF
基于Safe-PPO算法的安全优先路径规划方法
8
作者 别桐 朱晓庆 +3 位作者 付煜 李晓理 阮晓钢 王全民 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第8期2108-2118,共11页
现有的路径规划算法对路径规划过程中的路径安全性问题考虑较少,并且传统的近端策略优化(PPO)算法存在一定的方差适应性问题。为解决这些问题,提出一种融合进化策略思想和安全奖励函数的安全近端策略优化(Safe-PPO)算法,所提算法以安全... 现有的路径规划算法对路径规划过程中的路径安全性问题考虑较少,并且传统的近端策略优化(PPO)算法存在一定的方差适应性问题。为解决这些问题,提出一种融合进化策略思想和安全奖励函数的安全近端策略优化(Safe-PPO)算法,所提算法以安全优先进行路径规划。采用协方差自适应调整的进化策略(CMA-ES)的思想对PPO算法进行改进,并引入危险系数与动作因子来评估路径的安全性。使用二维栅格地图进行仿真实验,采用传统的PPO算法和Safe-PPO算法进行对比;采用六足机器人在搭建的场景中进行实物实验。仿真实验结果表明:所提算法在安全优先导向的路径规划方面具有合理性与可行性:在训练时Safe-PPO算法相比传统的PPO算法收敛速度提升了18%,获得的奖励提升了5.3%;在测试时采用融合危险系数与动作因子的方案能使机器人学会选择更加安全的道路而非直观上最快速的道路。实物实验结果表明:机器人可以在现实环境中选择更加安全的路径到达目标点。 展开更多
关键词 机器人导航 路径规划 深度强化学习 近端策略优化 安全路径选择
下载PDF
基于PPO算法的无人机近距空战自主引导方法
9
作者 邱妍 赵宝奇 +1 位作者 邹杰 刘仲凯 《电光与控制》 CSCD 北大核心 2023年第1期8-14,共7页
针对无人机近距空战的自主决策问题,提出了一种基于近端策略优化(PPO)算法的无人机自主引导方法。针对敌我距离、角度、速度以及任务约束等信息重塑奖励,建立了无人机三自由度模型,在速度坐标系上构建强化学习的状态和动作,分别对结合... 针对无人机近距空战的自主决策问题,提出了一种基于近端策略优化(PPO)算法的无人机自主引导方法。针对敌我距离、角度、速度以及任务约束等信息重塑奖励,建立了无人机三自由度模型,在速度坐标系上构建强化学习的状态和动作,分别对结合了全连接神经网络的PPO算法(标准PPO算法)和长短时记忆网络的PPO算法(改进PPO算法)模型进行了仿真训练。根据训练的结果可以证明,相比于标准PPO算法,所提的改进PPO算法能够更有效地处理与时间序列高度相关的无人机自主引导任务。 展开更多
关键词 近距空战 近端策略优化 自主引导 长短时记忆网络
下载PDF
基于PPO算法的仿生鱼循迹智能控制
10
作者 李云飞 严嫏 +2 位作者 张来平 邓小刚 邹舒帆 《计算机系统应用》 2023年第9期230-238,共9页
仿生鱼具有广阔的工程应用前景,对于仿生鱼的控制,首先要解决的是循迹问题.然而,现有的基于CFD方式和传统控制算法的鱼游控制方法存在训练数据获取成本高、控制不稳定等缺点.本文提出了基于PPO算法的仿生鱼循迹智能控制方法:使用代理模... 仿生鱼具有广阔的工程应用前景,对于仿生鱼的控制,首先要解决的是循迹问题.然而,现有的基于CFD方式和传统控制算法的鱼游控制方法存在训练数据获取成本高、控制不稳定等缺点.本文提出了基于PPO算法的仿生鱼循迹智能控制方法:使用代理模型替代CFD方式产生训练数据,提高数据的产生效率;引入高效的PPO算法,加快策略模型的学习速度,提高训练数据的效用;引入速度参数,解决鱼体在急转弯区域无法顺利循迹的问题.实验表明,我们提出的方法在多种类型的路径上均具有更快的收敛速度和更加稳定的控制能力,在仿生机器鱼的智能控制方面具有重要的指导意义. 展开更多
关键词 深度强化学习 仿生鱼 智能控制 代理模型 ppo
下载PDF
基于自注意力机制的深度强化学习交通信号控制
11
作者 张玺君 聂生元 +1 位作者 李喆 张红 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第2期96-104,共9页
交通信号控制(Traffic Signal Control, TSC)仍然是交通领域中最重要的研究课题之一。针对现有基于深度强化学习(Deep Reinforcement Learning, DRL)的交通信号控制方法的状态需要人为设计,导致提取交通状态信息难度大以及交通状态信息... 交通信号控制(Traffic Signal Control, TSC)仍然是交通领域中最重要的研究课题之一。针对现有基于深度强化学习(Deep Reinforcement Learning, DRL)的交通信号控制方法的状态需要人为设计,导致提取交通状态信息难度大以及交通状态信息无法全面表达的问题,为了从有限特征中挖掘潜在交通状态信息,从而降低交通状态设计难度,提出一种引入自注意力网络的DRL算法。首先,仅获取交叉口各进入口车道车辆位置,使用非均匀量化和独热编码方法预处理得到车辆位置分布矩阵;其次,使用自注意力网络挖掘车辆位置分布矩阵的空间相关性和潜在信息,作为DRL算法的输入;最后,在单交叉口学习交通信号自适应控制策略,在多交叉口路网中验证所提算法的适应性和鲁棒性。仿真结果表明,在单交叉口环境下,与3种基准算法相比,所提算法在车辆平均等待时间等指标上具有更好的性能;在多交叉口路网中,所提算法仍然具有良好的适应性。 展开更多
关键词 智能交通 自适应控制 深度强化学习 自注意力网络 近端策略优化
下载PDF
基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度
12
作者 王桂兰 张海晓 +1 位作者 刘宏 曾康为 《计算机应用研究》 CSCD 北大核心 2024年第5期1508-1514,共7页
为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添... 为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添加碳捕集装置,解决了碳捕集装置耗电和捕碳需求之间的矛盾,进而实现了PIES的低碳化运行;通过采用近端策略优化算法对PIES进行动态调度,解决了源荷的不确定性,平衡了各种能源的供给需求,进而降低了系统的运行成本。实验结果表明:该方法实现了不确定性源荷的实时响应,并相比于DDPG(deep deterministic policy gradient)和DQN(deep Q network)方法在低碳化经济运行方面具有有效性及先进性。 展开更多
关键词 园区综合能源系统 碳捕集 不确定性 低碳经济调度 近端策略优化算法
下载PDF
基于元强化学习的自动驾驶算法研究
13
作者 金彦亮 范宝荣 高塬 《工业控制计算机》 2024年第3期24-26,共3页
随着深度学习和强化学习的发展,基于深度强化学习的端到端自动驾驶模型的研究已经成为热门研究课题。针对基于深度强化学习的自动驾驶模型“学会学习”能力较差,面临新的驾驶任务时需从零开始训练、训练速度缓慢、泛化性能差等问题,提... 随着深度学习和强化学习的发展,基于深度强化学习的端到端自动驾驶模型的研究已经成为热门研究课题。针对基于深度强化学习的自动驾驶模型“学会学习”能力较差,面临新的驾驶任务时需从零开始训练、训练速度缓慢、泛化性能差等问题,提出了一种基于元强化学习的MPPO(Meta-PPO)自动驾驶模型。MPPO模型将元学习与强化学习相结合,利用元学习算法在元训练阶段为自动驾驶模型训练一组良好的参数,使模型在面临新的驾驶任务时能够在该组参数的基础上,经过少量样本微调就可以快速达到收敛状态。实验结果表明,在导航场景任务中,与基于强化学习的基准自动驾驶模型相比,MPPO模型的收敛速度提高了2.52倍,奖励值提高了7.50%,偏移量减少了7.27%,泛化性能也得到了一定程度的提高,能够应用于多任务场景中。 展开更多
关键词 自动驾驶 元学习 强化学习 近端策略优化
下载PDF
基于近端策略优化模板更新的实时目标跟踪方法
14
作者 孙愉亚 龚声蓉 +2 位作者 钟珊 周立凡 范利 《计算机工程与设计》 北大核心 2024年第5期1499-1507,共9页
基于孪生网络的目标跟踪算法往往采用第一帧的外观特征作为固定模板,难以应对目标外观剧烈变化等问题。为此,所提算法在孪生网络的基础上,引入深度强化学习,将模板更新问题建模为马尔可夫决策过程,采用近端策略优化算法进行优化,减少因... 基于孪生网络的目标跟踪算法往往采用第一帧的外观特征作为固定模板,难以应对目标外观剧烈变化等问题。为此,所提算法在孪生网络的基础上,引入深度强化学习,将模板更新问题建模为马尔可夫决策过程,采用近端策略优化算法进行优化,减少因目标外观变化带来的误差积累。针对孪生网络跟踪算法搜索域太小,无法全局搜索目标的问题,引入全局检测算法,找回丢失的目标。所提跟踪算法能够自适应更新模板和全局检测丢失的目标,在OTB数据集和GOT-10k数据集上进行测试,实验结果表明,该方法较代表性方法,具有实时性强和准确率高的优点,能够很好应对目标外观形变以及目标丢失。 展开更多
关键词 目标跟踪 深度强化学习 近端策略优化 马尔可夫决策过程 全局检测 更新模板 孪生网络
下载PDF
基于深度强化学习算法的双边装配线第一类平衡
15
作者 程玮 张亚辉 +2 位作者 曹先锋 金增志 胡小锋 《计算机集成制造系统》 EI CSCD 北大核心 2024年第2期508-519,共12页
针对传统优化算法求解双边装配线第一类平衡问题时不能有效利用历史求解经验,难以得到最优解,提出一种深度强化学习求解算法CNN-PPO。设计了CNN-PPO强化学习智能体结构,在近端策略优化算法基础上,引入卷积神经网络增强智能体的数据特征... 针对传统优化算法求解双边装配线第一类平衡问题时不能有效利用历史求解经验,难以得到最优解,提出一种深度强化学习求解算法CNN-PPO。设计了CNN-PPO强化学习智能体结构,在近端策略优化算法基础上,引入卷积神经网络增强智能体的数据特征提取能力;根据双边装配线问题特征,定义状态矩阵对双边装配线问题进行描述,并引入标记层辅助智能体进行任务决策;根据问题优化目标设计了奖励函数,结合强化学习在线执行—评价机制,为每次决策选择最优的待分配任务,并通过多个案例测试验证了算法的有效性和稳定性。实验结果表明,所提方法的求解结果具有优越性,59个测试案例中有57个可以达到下界。 展开更多
关键词 双边装配线 第一类平衡问题 深度强化学习 卷积神经网络 近端策略优化
下载PDF
无人机集群联合拓扑控制的智能路由规划方法
16
作者 颜志 易正伦 +1 位作者 欧阳博 王耀南 《通信学报》 EI CSCD 北大核心 2024年第2期137-149,共13页
针对现有无人机集群路由协议拓扑适变能力弱,易产生包重传、能量空洞和高时延,严重恶化了数据路由性能的问题,针对无人机集群中集群拓扑与路由的耦合特性,提出了一种联合拓扑控制的智能路由规划(IRPJTC)方法。该方法由基于虚拟力的自适... 针对现有无人机集群路由协议拓扑适变能力弱,易产生包重传、能量空洞和高时延,严重恶化了数据路由性能的问题,针对无人机集群中集群拓扑与路由的耦合特性,提出了一种联合拓扑控制的智能路由规划(IRPJTC)方法。该方法由基于虚拟力的自适应拓扑控制(VFATC)和基于近端策略优化的地理路由规划(PPO-GRP)组成。其中,VFATC使各无人机根据邻居运动状态信息自适应调整与邻居的距离,保证集群中链路的稳定连接;进一步,PPO-GRP引入VFATC中的链路稳定性指标,并结合端到端时延与能耗指标,设计多目标奖励函数,采用深度强化学习中的近端策略优化算法训练路由策略。仿真实验结果表明,IRPJTC相比于现有路由方法,能在保证分组传输成功率的同时,使端到端时延降低12.11%,无人机集群能耗降低4.56%,且具备更强的能耗均衡能力。 展开更多
关键词 无人机集群 路由协议 拓扑控制 近端策略优化 深度强化学习
下载PDF
基于强化学习的无人机网络资源分配研究
17
作者 范文帝 王俊芳 +2 位作者 党甜 杜龙海 陈丛 《计算机测量与控制》 2024年第1期297-303,311,共8页
以无人机网络的资源分配为研究对象,研究了基于强化学习的多无人机网络动态时隙分配方案,在无人机网络中,合理地分配时隙资源对改善无人机资源利用率具有重要意义;针对动态时隙分配问题,根据调度问题的限制条件,建立了多无人机网络时隙... 以无人机网络的资源分配为研究对象,研究了基于强化学习的多无人机网络动态时隙分配方案,在无人机网络中,合理地分配时隙资源对改善无人机资源利用率具有重要意义;针对动态时隙分配问题,根据调度问题的限制条件,建立了多无人机网络时隙分配模型,提出了一种基于近端策略优化(PPO)强化学习算法的时隙分配方案,并进行强化学习算法的环境映射,建立马尔可夫决策过程(MDP)模型与强化学习算法接口相匹配;在gym仿真环境下进行模型训练,对提出的时隙分配方案进行验证,仿真结果验证了基于近端策略优化强化学习算法的时隙分配方案在多无人机网络环境下可以高效进行时隙分配,提高网络信道利用率,提出的方案可以根据实际需求适当缩短训练时间得到较优分配结果。 展开更多
关键词 深度强化学习 多无人机网络 动态时隙分配 资源分配 近端策略优化
下载PDF
基于深度强化学习分层控制的双足机器人多模式步态系统研究
18
作者 徐毓松 上官倩芡 安康 《上海师范大学学报(自然科学版中英文)》 2024年第2期260-267,共8页
提出一种基于深度强化学习(DRL)分层控制的双足机器人多模式步态生成系统.首先采用优势型演员-评论家框架作为高级控制策略,引入近端策略优化(PPO)算法、课程学习(CL)思想对策略进行优化,设计比例-微分(PD)控制器为低级控制器;然后定义... 提出一种基于深度强化学习(DRL)分层控制的双足机器人多模式步态生成系统.首先采用优势型演员-评论家框架作为高级控制策略,引入近端策略优化(PPO)算法、课程学习(CL)思想对策略进行优化,设计比例-微分(PD)控制器为低级控制器;然后定义机器人观测和动作空间进行策略参数化,并根据对称双足行走步态周期性的特点,设计步态周期奖励函数和步进函数;最后通过生成足迹序列,设计多模式任务场景,并在Mujoco仿真平台下验证方法的可行性.结果表明,本方法能够有效提高双足机器人在复杂环境下行走的稳定性以及泛化性. 展开更多
关键词 双足机器人 步态规划 近端策略优化(ppo) 多模式任务 课程学习(CL)
下载PDF
基于PPO的移动平台自主导航 被引量:1
19
作者 徐国艳 熊绎维 +1 位作者 周彬 陈冠宏 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第11期2138-2145,共8页
为解决强化学习算法在自主导航任务中动作输出不连续、训练收敛困难等问题,提出了一种基于近似策略优化(PPO)算法的移动平台自主导航方法。在PPO算法的基础上设计了基于正态分布的动作策略函数,解决了移动平台整车线速度和横摆角速度的... 为解决强化学习算法在自主导航任务中动作输出不连续、训练收敛困难等问题,提出了一种基于近似策略优化(PPO)算法的移动平台自主导航方法。在PPO算法的基础上设计了基于正态分布的动作策略函数,解决了移动平台整车线速度和横摆角速度的输出动作连续性问题。设计了一种改进的人工势场算法作为自身位置评价,有效提高强化学习模型在自主导航场景中的收敛速度。针对导航场景设计了模型的网络框架和奖励函数,并在Gazebo仿真环境中进行模型训练,结果表明,引入自身位置评价的模型收敛速度明显提高。将收敛模型移植入真实环境中,验证了所提方法的有效性。 展开更多
关键词 近似策略优化算法 移动平台 自主导航 强化学习 人工势场
下载PDF
基于深度强化学习的尾旋改出技术
20
作者 谭健美 王君秋 《航空兵器》 CSCD 北大核心 2024年第1期77-88,共12页
本文搭建了飞机仿真环境,基于近端策略优化(PPO)算法建立了尾旋改出算法测试模型,设计了基准版单阶段、基准版双阶段、加深版单阶段、加深版双阶段四种网络结构,用于探究网络结构和改出阶段对尾旋改出效果的影响,设置了鲁棒性测试试验,... 本文搭建了飞机仿真环境,基于近端策略优化(PPO)算法建立了尾旋改出算法测试模型,设计了基准版单阶段、基准版双阶段、加深版单阶段、加深版双阶段四种网络结构,用于探究网络结构和改出阶段对尾旋改出效果的影响,设置了鲁棒性测试试验,从时延、误差和高度等方面进行了算法测试和结果分析。 展开更多
关键词 尾旋改出 深度学习 强化学习 近端策略优化 算法测试 飞机
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部