期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于PPO2强化学习算法的空间站轨道预报方法
1
作者 雷骐玮 张洪波 《中国空间科学技术》 CSCD 北大核心 2023年第4期93-103,共11页
影响热层大气密度的因素较多且变化机理复杂,很难建立准确的大气模型,导致大气阻力摄动成为空间站轨道预报精度的主要影响因素之一。研究了基于PPO2强化学习算法的轨道预报方法,利用强化学习网络修正大气模型中的相关参数,提高了轨道预... 影响热层大气密度的因素较多且变化机理复杂,很难建立准确的大气模型,导致大气阻力摄动成为空间站轨道预报精度的主要影响因素之一。研究了基于PPO2强化学习算法的轨道预报方法,利用强化学习网络修正大气模型中的相关参数,提高了轨道预报精度。首先建立了空间站的轨道动力学模型,分析了大气模型参数的误差特性,设计了基于强化学习的轨道动力学模型修正方案。选择PPO2算法作为强化学习算法,设计了训练参量与强化学习网络模型,生成了PPO2算法的训练和测试样本,完成了仿真训练与测试。仿真结果表明,该方案能有效补偿大气密度模型不准确造成的轨道预报误差,提高空间站轨道预报的精度和效率。 展开更多
关键词 大气阻力摄动 空间站 轨道预报 轨道动力学模型修正 ppo2算法
下载PDF
基于PPO2的航天控制器序列决策制导算法设计
2
作者 杨可 翟依婷 +2 位作者 朱志 肖梦旭 董莉 《软件》 2023年第7期5-12,65,共9页
运载火箭的制导回收实现对于航天发展具有重大意义,在火箭回收任务中对回收精确制导、实时低时延的计算能力有高标准,传统回收方法在解决该问题上表现出了一定的缺陷和局限性。本文对控制过程进行马尔可夫决策建模,通过构造PPO2算法框... 运载火箭的制导回收实现对于航天发展具有重大意义,在火箭回收任务中对回收精确制导、实时低时延的计算能力有高标准,传统回收方法在解决该问题上表现出了一定的缺陷和局限性。本文对控制过程进行马尔可夫决策建模,通过构造PPO2算法框架对整个回收过程进行实时求解,采用复合型奖励函数对位置、姿态、着陆阈值和燃料消耗进行相应约束,并对其进行训练。实验表明,基于PPO2算法的回收制导模型可以较好地满足各项约束条件,并实现推力切换最优策略,证明了PPO2算法在处理该问题时可兼顾实时性和控制效果的优化性,对不同初始参数火箭型号和带有扰动的环境偏差均表现出较强的适应能力,具有一定的泛化能力。 展开更多
关键词 深度强化学习 ppo2算法 决策制导
下载PDF
雌雄家蚕变态期酚氧化酶原基因PPO2的转录活性
3
作者 张永亮 朱勇 《贵州农业科学》 CAS 北大核心 2011年第8期157-158,共2页
为了解酚氧化酶原基因PPO2在雌雄家蚕个体变态发育和免疫系统中的功能,采用基因库中的家蚕酚氧化酶原基因PPO2的cDNA序列设计引物,利用RT-PCR技术对雌雄变态期家蚕(从5龄第3天到化蛾)酚氧化酶原基因PPO2的转录活性进行了检测。结果表明... 为了解酚氧化酶原基因PPO2在雌雄家蚕个体变态发育和免疫系统中的功能,采用基因库中的家蚕酚氧化酶原基因PPO2的cDNA序列设计引物,利用RT-PCR技术对雌雄变态期家蚕(从5龄第3天到化蛾)酚氧化酶原基因PPO2的转录活性进行了检测。结果表明,在家蚕雌性变态期,酚氧化酶原基因PPO2除上蔟3 d无表达和5龄3 d、5龄7 d、上蔟8 d表达量高外,其他时期的表达量较高;在家蚕雄性变态期,除在5龄3 d表达微弱和上蔟12 h表达量较低外,其他时期表达量较高。表明,酚氧化酶原基因PPO2在家蚕雌雄变态期的转录表达均具有明显的时空特异性。 展开更多
关键词 家蚕 雌雄变态期 ppo2 转录活性
下载PDF
基于强化学习的多无人飞行器避碰决策方法 被引量:1
4
作者 杨艳飞 诸燕平 +1 位作者 胡灿 张斌 《电光与控制》 CSCD 北大核心 2023年第9期112-118,共7页
随着低空空域环境的日益复杂,执行任务的无人飞行器间发生冲突的概率不断增加。针对传统强化学习算法SAC,DDPG在解决有限空域内多无人飞行器间的避碰问题上存在收敛速度慢、收敛不稳定等缺陷,提出了一种基于PPO2算法的多智能体强化学习(... 随着低空空域环境的日益复杂,执行任务的无人飞行器间发生冲突的概率不断增加。针对传统强化学习算法SAC,DDPG在解决有限空域内多无人飞行器间的避碰问题上存在收敛速度慢、收敛不稳定等缺陷,提出了一种基于PPO2算法的多智能体强化学习(MARL)方法。首先,将多无人飞行器飞行决策问题描述为马尔可夫决策过程;其次,设计状态空间与奖励函数,通过最大化累计奖赏来优化策略,使整体训练更加稳定、收敛更快;最后,基于深度学习TensorFlow框架和强化学习Gym环境搭建飞行模拟场景,进行仿真实验。实验结果表明,所提方法相较于基于SAC和DDPG算法的方法,避碰成功率分别提高约37.74和49.15个百分点,能够更好地解决多无人飞行器间的避碰问题,在收敛速度和收敛稳定性方面更优。 展开更多
关键词 无人飞行器 深度强化学习(DRL) 多智能体 避碰 ppo2
下载PDF
DRL-IDS:基于深度强化学习的工业物联网入侵检测系统 被引量:16
5
作者 李贝贝 宋佳芮 +1 位作者 杜卿芸 何俊江 《计算机科学》 CSCD 北大核心 2021年第7期47-54,共8页
近年来,工业物联网迅猛发展,在实现工业数字化、自动化、智能化的同时也带来了大量的网络威胁,且复杂、多样的工业物联网环境为网络入侵者创造了全新的攻击面。传统的入侵检测技术已无法满足当前工业物联网环境下的网络威胁发现需求。对... 近年来,工业物联网迅猛发展,在实现工业数字化、自动化、智能化的同时也带来了大量的网络威胁,且复杂、多样的工业物联网环境为网络入侵者创造了全新的攻击面。传统的入侵检测技术已无法满足当前工业物联网环境下的网络威胁发现需求。对此,文中提出了一种基于深度强化学习算法近端策略优化(Proximal Policy Optimization 2.0,PPO2)的工业物联网入侵检测系统。该系统将深度学习的感知能力和强化学习的决策能力相结合,以实现对工业物联网多种类型网络攻击的有效检测。首先,运用基于LightGBM的特征选择算法筛选出工业物联网数据中最有效的特征集合;然后,结合深度学习算法将多层感知器网络的隐藏层作为PPO2算法中的价值网络和策略网络的共享网络结构;最后,基于PPO2算法构建入侵检测模型,并使用ReLU(Rectified Linear Unit)进行分类输出。在美国能源部橡树岭国家实验室公开发布的工业物联网真实数据集上开展的大量实验表明,所提出的入侵检测系统在检测对工业物联网的多种类型网络攻击时,获得了99.09%的准确率,且在准确率、精密度、召回率、F1评分等指标上均优于目前基于LSTM,CNN,RNN等深度学习模型和DDQN,DQN等深度强化学习模型的入侵检测系统。 展开更多
关键词 工业物联网 网络安全 入侵检测系统 深度强化学习 ppo2算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部