期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于信任域策略优化的末制导控制量学习算法
1
作者 刘士荣 王天一 刘扬 《导航定位与授时》 CSCD 2022年第6期77-84,共8页
近年来,深度强化学习在解决序列决策问题上取得了很大进展,无模型强化学习算法在与环境不断交互的过程中学习策略,不需要提前对环境建模,使其适用于许多问题。针对以往使用强化学习进行末制导策略学习的训练不稳定问题,使用信任域策略... 近年来,深度强化学习在解决序列决策问题上取得了很大进展,无模型强化学习算法在与环境不断交互的过程中学习策略,不需要提前对环境建模,使其适用于许多问题。针对以往使用强化学习进行末制导策略学习的训练不稳定问题,使用信任域策略优化算法直接学习末制导控制量,同时设计了一种新颖的奖励函数,可以提高训练稳定性和算法性能。在二维环境下进行了实验,结果表明,该算法具有良好的训练稳定性,并可以达到很好的命中效果。 展开更多
关键词 末制导控制量 学习算法 深度强化学习 末制导 信任域策略优化
下载PDF
拦截机动目标的信赖域策略优化制导算法 被引量:1
2
作者 陈文雪 高长生 荆武兴 《航空学报》 EI CAS CSCD 北大核心 2023年第11期277-295,共19页
针对临近空间高超声速飞行器的高速性、机动性等特性,为提高制导算法针对不同初始状态、不同机动性目标的准确性、鲁棒性及智能性,提出一种基于信赖域策略优化(TRPO)算法的深度强化学习制导算法。基于TRPO算法的制导算法由2个策略(动作... 针对临近空间高超声速飞行器的高速性、机动性等特性,为提高制导算法针对不同初始状态、不同机动性目标的准确性、鲁棒性及智能性,提出一种基于信赖域策略优化(TRPO)算法的深度强化学习制导算法。基于TRPO算法的制导算法由2个策略(动作)网络、1个评价网络共同组成,将临近空间目标与拦截弹相对运动系统状态以端对端的方式直接映射为制导指令。在算法训练过程中合理选取连续动作空间、状态空间、并通过权衡能量消耗、相对距离等因素构建奖励函数加快其收敛速度,最终依据训练的智能体模型针对不同任务场景进行拦截测试。仿真结果表明:与传统比例导引律(PN)及改进比例导引律(IPN)相比,本文算法针对学习场景及未知场景均具有更小的脱靶量、更稳定的拦截效果、鲁棒性,并能够在多种配置计算机上广泛应用。 展开更多
关键词 深度强化学习 信任域策略优化 临近空间拦截 导弹末制导 机动目标 马尔可夫过程
原文传递
基于Kriging模型和对偶理论的无约束全局优化方法 被引量:5
3
作者 李耀辉 吴义忠 王书亭 《计算机集成制造系统》 EI CSCD 北大核心 2017年第8期1670-1678,共9页
针对基于Kriging模型的全局优化方法收敛速度慢、优化效率低且无法跳出局部最优区域等缺点,提出一种基于Kriging模型和对偶理论的无约束全局优化方法,引入正则对偶变化将普通Kriging模型本身的非凸优化问题转换为凸优化问题,利用基于Kri... 针对基于Kriging模型的全局优化方法收敛速度慢、优化效率低且无法跳出局部最优区域等缺点,提出一种基于Kriging模型和对偶理论的无约束全局优化方法,引入正则对偶变化将普通Kriging模型本身的非凸优化问题转换为凸优化问题,利用基于Kriging模型的改进信任域策略对该凸优化问题进行迭代寻优。该方法能有效平衡全局和局部搜索行为,并大幅提高算法性能。通过7个数值测试例子和一个工程仿真实例,验证了所提方法的有效性和实用性。 展开更多
关键词 无约束全局优化 代理模型 KRIGING模型 对偶理论 信任域策略
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部