期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
基于PPO的自适应PID控制算法研究
1
作者 周志勇 莫非 +2 位作者 赵凯 郝云波 钱宇峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第6期1425-1432,共8页
采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多... 采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多智能体思想,根据PID三个参数对控制系统的不同影响及六轴机械臂的特性,将三个参数分别作为不同的智能个体进行训练,实现多智能体自适应调整参数的新型多智能体自适应PID算法。仿真结果表明:该算法的训练收敛性优于MA-DDPG与MA-SAC算法,与传统PID算法的控制效果相比,在遇到扰动及振荡的情况下,能够更有效地抑制振荡,并具有更低的超调量和调整时间,控制过程更为平缓,有效提高了机械臂的控制精度,证明了该算法的鲁棒性及有效性。 展开更多
关键词 强化学习 近端优化算法 自适应PID整定 机械臂 多智能体
下载PDF
基于PPO算法的光储式充电站储能运行策略
2
作者 房群 《电工技术》 2024年第2期97-100,共4页
电动汽车的随机充电与光伏出力的波动特性给光储式充电站的经济高效运行提出了新的要求。为此,提出了一种基于深度强化学习近端策略优化(Proximal Policy Optimization,PPO)算法的光储式充电站储能运行策略。首先,对光储式充电站系统结... 电动汽车的随机充电与光伏出力的波动特性给光储式充电站的经济高效运行提出了新的要求。为此,提出了一种基于深度强化学习近端策略优化(Proximal Policy Optimization,PPO)算法的光储式充电站储能运行策略。首先,对光储式充电站系统结构进行了分析,并建立了以综合运行成本最小为目标的储能运行模型。其次,将该模型转化为马尔科夫决策过程,并采用深度强化学习PPO算法进行训练求解。最后,在一个光储式充电站中进行算例仿真,验证所提策略的有效性。 展开更多
关键词 光储式充电站 储能运行策略 深度强化学习 近端策略优化
下载PDF
基于改进型PPO算法的公寓安全预警模型
3
作者 周亚凤 崔艳春 《信息化研究》 2023年第6期15-20,共6页
随着城市化的加速和公寓建筑的快速增长,确保居民的安全已成为当务之急。本文深入探讨了基于改进型近端策略优化(PPO)算法的公寓安全预警模型的开发。引入了一种新的深度学习架构,作为实时分析和预测潜在安全威胁的核心技术。实验结果表... 随着城市化的加速和公寓建筑的快速增长,确保居民的安全已成为当务之急。本文深入探讨了基于改进型近端策略优化(PPO)算法的公寓安全预警模型的开发。引入了一种新的深度学习架构,作为实时分析和预测潜在安全威胁的核心技术。实验结果表明,改进后的PPO算法在准确性、效率和响应时间方面明显优于传统方法。此外,该系统能够及时提供警报,确保公寓居民的安全。本文不仅强调了深度学习在安全和安防应用中的潜力,而且为智能生活环境领域的未来发展奠定了基础。 展开更多
关键词 改进型近端策略优化算法 算法优化 公寓安全 预警
下载PDF
基于改进PPO算法的机器人局部路径规划 被引量:4
4
作者 刘国名 李彩虹 +3 位作者 李永迪 张国胜 张耀玉 高腾腾 《计算机工程》 CAS CSCD 北大核心 2023年第2期119-126,135,共9页
利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的... 利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的全连接层替换为LSTM记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对LSTM-PPO算法进行仿真验证,结果表明,与传统PPO算法和改进算法SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。 展开更多
关键词 机器人 局部路径规划 长短期记忆神经网络 近端策略优化算法 虚拟目标点
下载PDF
基于PPO算法的机器人轴孔装配控制与仿真
5
作者 申玉鑫 刘晓明 +1 位作者 肖逸 余德平 《机械》 2023年第12期74-80,共7页
针对在管道运输和航空航天领域常见的大口径轴孔装配任务,设计一种基于PPO算法的装配控制方法。首先,建立强化学习算法与装配环境交互训练框架,设计两个网络用于拟合装配策略和评估值函数;其次,设计机器人输出的动作空间与装配环境输出... 针对在管道运输和航空航天领域常见的大口径轴孔装配任务,设计一种基于PPO算法的装配控制方法。首先,建立强化学习算法与装配环境交互训练框架,设计两个网络用于拟合装配策略和评估值函数;其次,设计机器人输出的动作空间与装配环境输出的状态空间,保证学习过程中的有效探索;然后,设计非线性奖励函数以确保训练过程的快速收敛;最后,搭建基于MuJoCo物理引擎的机器人大口径轴孔装配仿真平台,并在仿真平台上对设计算法进行训练和实验。结果表明:基于PPO算法的训练框架能保证训练过程的快速收敛,改进后的优势函数估计方法提升了训练过程的稳定性,训练模型不仅能保证轴插入孔和法兰面贴合,还能保证装配过程的安全性。 展开更多
关键词 装配 ppo算法 Mu JoCo仿真
下载PDF
基于PPO算法的攻击路径发现与寻优方法
6
作者 张国敏 张少勇 张津威 《信息网络安全》 CSCD 北大核心 2023年第9期47-57,共11页
基于策略网络选择渗透动作发现最优攻击路径,是自动化渗透测试的一项关键技术。然而,现有方法在训练过程中存在无效动作过多、收敛速度慢等问题。为了解决这些问题,文章将PPO(Proximal Policy Optimization)算法用于解决攻击路径寻优问... 基于策略网络选择渗透动作发现最优攻击路径,是自动化渗透测试的一项关键技术。然而,现有方法在训练过程中存在无效动作过多、收敛速度慢等问题。为了解决这些问题,文章将PPO(Proximal Policy Optimization)算法用于解决攻击路径寻优问题,并提出带有渗透动作选择模块的改进型PPO算法IPPOPAS(Improved PPO with Penetration Action Selection),该算法在获取回合经验时,根据渗透测试场景进行动作筛选。文章设计实现IPPOPAS算法的各个组件,包括策略网络、价值网络和渗透动作选择模块等,对动作选择过程进行改进,并进行参数调优和算法优化,提高了算法的性能和效率。实验结果表明,IPPOPAS算法在特定网络场景中的收敛速度优于传统深度强化学习算法DQN(Deep Q Network)及其改进算法,并且随着主机中漏洞数量的增加,该算法的收敛速度更快。此外,实验还验证了在网络规模扩大的情况下IPPOPAS算法的有效性。 展开更多
关键词 自动化渗透测试 策略网络 ppo算法 攻击路径发现
下载PDF
基于PPO算法优化的IoT环境温度预测研究 被引量:3
7
作者 朱广 霍跃华 +1 位作者 栾庆磊 史艳琼 《传感器与微系统》 CSCD 北大核心 2021年第4期33-36,共4页
针对现有物联网(IoT)环境温度预测方法存在的预测精度低以及预测结果存在滞后性的问题,提出了一种基于优化的近端策略优化(PPO)算法和AC(Actor-Critic)网络的IoT环境温度预测模型(PPO-AC)。模型结合AC强化学习网络构建用于温度预测的双... 针对现有物联网(IoT)环境温度预测方法存在的预测精度低以及预测结果存在滞后性的问题,提出了一种基于优化的近端策略优化(PPO)算法和AC(Actor-Critic)网络的IoT环境温度预测模型(PPO-AC)。模型结合AC强化学习网络构建用于温度预测的双网络模型,并采用优化的PPO算法动态选择损失函数。最后,采用Kaggle数据平台提供的IoT环境温度数据集,通过实验验证了该模型的有效性和稳定性。 展开更多
关键词 物联网(IoT) 近端策略优化(ppo)算法 AC(Actor-Critic)网络 温度预测
下载PDF
基于强化学习的工业机械臂数字孪生与智能控制 被引量:1
8
作者 王子琪 严知宇 +1 位作者 武辰 王正方 《科技创新与应用》 2023年第23期27-30,共4页
为实现对工业机械臂的实时高效,自动化智能控制,提出一种基于数字孪生技术的工业机械臂控制方法。该方法基于改进的数字孪生系统框架,建立工业机械臂的数字孪生体;链接物理实体和虚拟空间,实现数据的上下行交互;使用深度强化学习算法训... 为实现对工业机械臂的实时高效,自动化智能控制,提出一种基于数字孪生技术的工业机械臂控制方法。该方法基于改进的数字孪生系统框架,建立工业机械臂的数字孪生体;链接物理实体和虚拟空间,实现数据的上下行交互;使用深度强化学习算法训练数字孪生体,实现对工业机械臂的智能控制。 展开更多
关键词 数字孪生 工业机器人 强化学习 智能控制 ppo算法
下载PDF
多智能体强化学习的机械臂运动控制决策研究 被引量:2
9
作者 羊波 王琨 +3 位作者 马祥祥 范彪 徐磊 闫浩 《计算机工程与应用》 CSCD 北大核心 2023年第6期318-325,共8页
针对传统运动控算法存在环境适应性较差,效率低的问题。可以利用强化学习在环境中不断去探索试错,并通过奖励函数对神经网络参数进行调节的方法对机械臂的运动进行控制。但是在现实中无法提供机械臂试错的环境,采用Unity引擎平台来构建... 针对传统运动控算法存在环境适应性较差,效率低的问题。可以利用强化学习在环境中不断去探索试错,并通过奖励函数对神经网络参数进行调节的方法对机械臂的运动进行控制。但是在现实中无法提供机械臂试错的环境,采用Unity引擎平台来构建机械臂的数字孪生仿真环境,设置观察状态变量和设置奖励函数机制,并提出在该模型环境中对PPO(proximal policy optimization)与多智能体(agents)结合的M-PPO算法来加快训练速度,实现通过强化学习算法对机械臂进行智能运动控制,完成机械臂执行末端有效避障快速到达目标物体位置,并通过该算法与M-SAC(多智能体与Soft Actor-Critic结合)和PPO算法的实验结果进行分析,验证M-PPO算法在不同环境下机械臂运动控制决策调试上的有效性与先进性。实现孪生体自主规划决策,反向控制物理体同步运动的目的。 展开更多
关键词 强化学习 Unity引擎 运动控制 M-ppo算法 多智能体
下载PDF
基于深度强化学习的多机协同空战方法研究 被引量:47
10
作者 施伟 冯旸赫 +4 位作者 程光权 黄红蓝 黄金才 刘忠 贺威 《自动化学报》 EI CAS CSCD 北大核心 2021年第7期1610-1623,共14页
多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative ... 多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative air combat decision framework,DRL-MACACDF),并针对近端策略优化(Proximal policy optimization,PPO)算法,设计4种算法增强机制,提高多机协同对抗场景下智能体间的协同程度.在兵棋推演平台上进行的仿真实验,验证了该方法的可行性和实用性,并对对抗过程数据进行了可解释性复盘分析,研讨了强化学习与传统兵棋推演结合的交叉研究方向. 展开更多
关键词 多机协同空战 智能决策 深度强化学习 ppo算法 增强机制
下载PDF
基于改进PPO算法的船舶自主避碰决策
11
作者 关巍 崔哲闻 罗文哲 《大连海事大学学报》 CAS CSCD 北大核心 2023年第4期28-36,共9页
为减少船舶避碰决策过程中人为失误导致的海难事故,提出一种基于改进近端策略优化(PPO)算法的船舶自主避碰决策。在传统PPO算法广义优势估计基础上加入自适应基线调整,并且使用长短期记忆网络(LSTM)改进网络结构。船舶的航行信息和激光... 为减少船舶避碰决策过程中人为失误导致的海难事故,提出一种基于改进近端策略优化(PPO)算法的船舶自主避碰决策。在传统PPO算法广义优势估计基础上加入自适应基线调整,并且使用长短期记忆网络(LSTM)改进网络结构。船舶的航行信息和激光雷达矢量线被应用于神经网络输入,航行制导、角度偏差及《1972年避碰规则》均被纳入改进的奖励函数设计。两船和多船会遇场景仿真实验表明:本文提出的避碰决策可使船舶实现自主航行,并在避碰过程中符合《避碰规则》,为处理复杂局面下的船舶避碰决策提供了参考。 展开更多
关键词 船舶自主避碰 改进的近端策略优化算法 长短期记忆网络(LSTM)
原文传递
基于强化学习的空间机械臂控制方法 被引量:7
12
作者 李鹤宇 林廷宇 +1 位作者 曾贲 施国强 《航天控制》 CSCD 北大核心 2020年第6期38-43,共6页
针对现有空间机械臂控制方法在实际应用中调试时间长、稳定性差的问题,提出一种基于深度强化学习的控制算法。构建仿真环境用于产生数据,通过状态变量实现仿真环境与深度强化学习算法的交互,通过奖励函数实现对神经网络参数的训练,最终... 针对现有空间机械臂控制方法在实际应用中调试时间长、稳定性差的问题,提出一种基于深度强化学习的控制算法。构建仿真环境用于产生数据,通过状态变量实现仿真环境与深度强化学习算法的交互,通过奖励函数实现对神经网络参数的训练,最终实现使用近端策略优化算法(Proximal Policy Optimization,PPO)控制空间机械臂将抓手移动至物体下方特定位置的目的。实验结果表明,本文提出的控制算法能够快速收敛,实现控制空间机械臂完成特定目标,并且有效降低抖动现象,提升控制的稳定性。 展开更多
关键词 空间机械臂 神经网络 深度强化学习 近端策略优化算法(ppo)
下载PDF
基于强化学习的直流蒸汽发生器控制策略研究 被引量:1
13
作者 李程 余刃 +1 位作者 余文敏 王天舒 《舰船科学技术》 北大核心 2022年第11期89-94,共6页
针对直流蒸汽发生器二回路水容积小,负荷变化过程中蒸汽出口压力极易发生波动、难以控制的特点,设计一种基于强化学习PPO算法的直流蒸汽发生器蒸汽出口压力双层控制结构。该算法通过智能体选取PID参数作为强化学习中的动作Action输出,... 针对直流蒸汽发生器二回路水容积小,负荷变化过程中蒸汽出口压力极易发生波动、难以控制的特点,设计一种基于强化学习PPO算法的直流蒸汽发生器蒸汽出口压力双层控制结构。该算法通过智能体选取PID参数作为强化学习中的动作Action输出,作用到被控对象,利用与其交互后得到奖励值的反馈进行智能体的在线学习,通过上层控制参数调整策略的在线学习和底层PID参数的跟踪调整,从而提升控制器的控制性能。通与传统PID控制算法进行仿真比对实验,验证了基于PPO算法的自适应PID控制器具有响应速度更快、超调量和调整时间更小等优点。 展开更多
关键词 直流蒸汽发生器 强化学习 ppo算法 PID控制
下载PDF
基于深度强化学习的三维路径规划算法 被引量:10
14
作者 黄东晋 蒋晨凤 韩凯丽 《计算机工程与应用》 CSCD 北大核心 2020年第15期30-36,共7页
合理的路线选择是智能体三维路径规划研究领域的难点。现有路径规划方法存在不能很好地适应未知地形,避障形式单一等问题。针对这些问题,提出了一种基于LSTM-PPO的智能体三维路径规划算法。利用虚拟射线探测仿真环境,并将收集到的状态... 合理的路线选择是智能体三维路径规划研究领域的难点。现有路径规划方法存在不能很好地适应未知地形,避障形式单一等问题。针对这些问题,提出了一种基于LSTM-PPO的智能体三维路径规划算法。利用虚拟射线探测仿真环境,并将收集到的状态空间和动作状态引入长短时记忆网络。通过额外的奖惩函数和好奇心驱动让智能体学会跳跃通过低矮障碍物,避开大型障碍物。利用PPO算法的截断项机制使得规划策略更新的幅度更加优化。实验结果表明,该算法是可行的,能够更加智能合理地选择路线,很好地适应存在多样障碍物的未知环境。 展开更多
关键词 深度强化学习 近端策略优化算法 路径规划 复杂未知场景
下载PDF
基于深度强化学习的多无人机协同进攻作战智能规划
15
作者 李俊圣 岳龙飞 +2 位作者 左家亮 俞利新 赵家乐 《航空工程进展》 CSCD 2022年第6期40-49,96,共11页
无人机依靠作战效费比高、灵活自主等优势逐步替代了有生力量作战,多无人机协同作战任务规划成为热点研究问题。针对传统任务规划采用的智能优化算法存在的依赖静态、低维的简单场景,机上计算较慢等不足,提出一种基于深度强化学习(DRL)... 无人机依靠作战效费比高、灵活自主等优势逐步替代了有生力量作战,多无人机协同作战任务规划成为热点研究问题。针对传统任务规划采用的智能优化算法存在的依赖静态、低维的简单场景,机上计算较慢等不足,提出一种基于深度强化学习(DRL)的端到端的多无人机协同进攻智能规划方法;将压制敌防空(SEAD)作战任务规划过程建模为马尔科夫决策过程,建立基于近端策略优化(PPO)算法的SEAD智能规划模型,通过两组实验验证智能规划模型的有效性和鲁棒性。结果表明:基于DRL的智能规划方法可以实现快速、精细规划,适应未知、连续高维的环境态势,SEAD智能规划模型具有战术协同规划能力。 展开更多
关键词 多无人机 深度学习 深度强化学习 ppo算法 泛化性 协同作战
下载PDF
基于强化学习的挖掘机时间最优轨迹规划
16
作者 张韵悦 孙志毅 +1 位作者 孙前来 王银 《控制与决策》 EI CSCD 北大核心 2024年第5期1433-1440,共8页
针对挖掘机的自主作业场景,提出基于强化学习的时间最优轨迹规划方法.首先,搭建仿真环境用于产生数据,以动臂、斗杆和铲斗关节的角度、角速度为状态观测变量,以各关节的角加速度值为动作信息,通过状态观测信息实现仿真环境与自主学习算... 针对挖掘机的自主作业场景,提出基于强化学习的时间最优轨迹规划方法.首先,搭建仿真环境用于产生数据,以动臂、斗杆和铲斗关节的角度、角速度为状态观测变量,以各关节的角加速度值为动作信息,通过状态观测信息实现仿真环境与自主学习算法的交互;然后,设计以动臂、斗杆和铲斗关节运动是否超出允许范围、完成任务总时间和目标相对距离为奖励函数对策略网络参数进行训练;最后,利用改进的近端策略优化算法(proximal policy optimization, PPO)实现挖掘机的时间最优轨迹规划.与此同时,与不同连续动作空间的强化学习算法进行对比,实验结果表明:所提出优化算法效率更高,收敛速度更快,作业轨迹更平滑,可有效避免各关节受到较大冲击,有助于挖掘机高效、平稳地作业. 展开更多
关键词 挖掘机 自主作业 轨迹规划 多智能体 ppo算法 智能决策
原文传递
基于强化学习的禁飞区绕飞智能制导技术
17
作者 惠俊鹏 汪韧 郭继峰 《航空学报》 EI CAS CSCD 北大核心 2023年第11期235-247,共13页
人工智能(AI)的快速发展为飞行器制导技术的研究提供新的技术途径。本文针对高速飞行器面临不确定禁飞区的绕飞问题,提出“预测校正制导—基于监督学习预训练倾侧角制导模型—基于强化学习进一步升级倾侧角制导模型”逐级递进的禁飞区... 人工智能(AI)的快速发展为飞行器制导技术的研究提供新的技术途径。本文针对高速飞行器面临不确定禁飞区的绕飞问题,提出“预测校正制导—基于监督学习预训练倾侧角制导模型—基于强化学习进一步升级倾侧角制导模型”逐级递进的禁飞区绕飞智能制导研究框架:一是基于传统预测校正制导生成大量禁飞区绕飞样本轨迹,并基于监督学习方法对倾侧角制导模型进行预训练;二是进一步采用强化学习中近端策略优化算法(PPO)升级倾侧角制导模型,通过飞行器与带有不确定禁飞区环境的大量交互探索,并设置有效的奖励引导,充分挖掘高升阻比飞行器强大的横向机动能力,摆脱传统预测校正制导方法对倾侧角解空间的约束,期望产生更优的绕飞策略。通过与传统预测校正制导和基于监督学习的智能制导的对比分析,验证了基于强化学习的禁飞区绕飞智能制导技术能够充分发挥飞行器的宽域飞行优势,满足未来飞行器智能决策系统对不确定绕飞场景的适应性需求。 展开更多
关键词 智能制导 禁飞区绕飞 强化学习 ppo算法 监督学习
原文传递
基于近端策略优化和广义状态相关探索算法的双连续搅拌反应釜系统跟踪控制
18
作者 史洪岩 付国城 潘多涛 《信息与控制》 CSCD 北大核心 2023年第3期343-351,共9页
连续搅拌反应釜(continuous stirring tank reactor,CSTR)是经典的化工设备,被广泛应用于化工过程。由于其具有较强的非线性和时滞性,传统的控制方法无法满足其跟踪控制的精度要求。针对连续搅拌反应釜提出一种基于广义状态相关探索(gen... 连续搅拌反应釜(continuous stirring tank reactor,CSTR)是经典的化工设备,被广泛应用于化工过程。由于其具有较强的非线性和时滞性,传统的控制方法无法满足其跟踪控制的精度要求。针对连续搅拌反应釜提出一种基于广义状态相关探索(generalized state-dependent exploration,gSDE)的近端策略优化(proximal policy optimization,PPO)算法的跟踪控制方法。首先使用机理模型模拟真实环境与PPO智能体进行交互;其次利用gSDE使每个回合的探索更稳定且方差更小,同时保证了探索的效果;最后通过增加反馈奖励的方式,解决环境稀疏奖励的问题,使得智能体学会如何对CSTR进行跟踪控制。将该算法应用于双CSTR系统进行测试。仿真结果表明,该算法对复杂非线性系统的跟踪控制具有训练过程平稳、控制误差小、对干扰的反应迅速等优势。 展开更多
关键词 双连续搅拌反应釜 深度强化学习 非线性系统 近端策略优化算法 广义状态相关探索
原文传递
基于强化学习的再入飞行器“新质”走廊在线生成技术 被引量:4
19
作者 惠俊鹏 汪韧 俞启东 《航空学报》 EI CAS CSCD 北大核心 2022年第9期615-627,共13页
人工智能技术的突破性进展为飞行器再入制导技术的研究提供了新的技术途径。无论是基于标称轨迹的制导还是预测校正制导,都需要基于人工经验设计飞行走廊参数。本文旨在突破传统制导方法中普遍存在的“锥形”飞行轨迹包络的约束,利用强... 人工智能技术的突破性进展为飞行器再入制导技术的研究提供了新的技术途径。无论是基于标称轨迹的制导还是预测校正制导,都需要基于人工经验设计飞行走廊参数。本文旨在突破传统制导方法中普遍存在的“锥形”飞行轨迹包络的约束,利用强化学习技术在智能决策方面的天然优势,在满足动力学方程和热流率、过载、动压等硬条件的前提下,通过飞行器与环境的大量交互“试错”:一方面,借鉴人类基于反馈来调整学习策略的思想,设置有效的奖励(反馈)引导;另一方面,利用强化学习中近端策略优化(PPO)算法训练飞行器倾侧角制导模型,基于实时的状态信息在线决策倾侧角指令,探索出完全不同于传统制导方法的“新质”飞行走廊。Monte Carlo仿真分析验证了基于强化学习的智能制导技术能够充分发挥飞行器的宽域飞行优势,进一步拓展飞行剖面。 展开更多
关键词 智能制导 “新质”飞行走廊 强化学习 ppo算法 人工智能
原文传递
基于近端策略优化算法的电化学/氢混合储能系统双层配置及运行优化 被引量:10
20
作者 闫庆友 史超凡 +1 位作者 秦光宇 许传博 《电力建设》 CSCD 北大核心 2022年第8期22-32,共11页
针对电化学储能和氢储能的互补特性,提出了一种包含电化学和氢储能的混合储能系统配置和运行的综合优化模型,并提出了智能算法进行求解。该模型基于双层决策优化问题,将混合储能系统配置及运行2个不同时间维度的问题分上下层进行综合求... 针对电化学储能和氢储能的互补特性,提出了一种包含电化学和氢储能的混合储能系统配置和运行的综合优化模型,并提出了智能算法进行求解。该模型基于双层决策优化问题,将混合储能系统配置及运行2个不同时间维度的问题分上下层进行综合求解,并考虑了两者间的相互影响,采用强化学习近端策略优化(proximal policy optimization,PPO)算法求解该双层优化模型。以甘肃省某地区的风光数据,通过对比应用多种传统算法求解结果,验证了所用算法在复杂环境下适应度最高且收敛速度最快。研究结果表明,应用该模型最大可降低24%的弃风、弃光率,有效提升系统综合效益。氢储能作为容量型储能配置不受地形因素限制,适用于多样的应用场景,从而为氢储能这一新型储能形态在全国的广泛配置提供了应用示范。 展开更多
关键词 风光消纳 储能配置 双层优化 氢储能 近端策略优化(ppo)算法
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部