期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于信任域策略优化的末制导控制量学习算法
1
作者
刘士荣
王天一
刘扬
《导航定位与授时》
CSCD
2022年第6期77-84,共8页
近年来,深度强化学习在解决序列决策问题上取得了很大进展,无模型强化学习算法在与环境不断交互的过程中学习策略,不需要提前对环境建模,使其适用于许多问题。针对以往使用强化学习进行末制导策略学习的训练不稳定问题,使用信任域策略...
近年来,深度强化学习在解决序列决策问题上取得了很大进展,无模型强化学习算法在与环境不断交互的过程中学习策略,不需要提前对环境建模,使其适用于许多问题。针对以往使用强化学习进行末制导策略学习的训练不稳定问题,使用信任域策略优化算法直接学习末制导控制量,同时设计了一种新颖的奖励函数,可以提高训练稳定性和算法性能。在二维环境下进行了实验,结果表明,该算法具有良好的训练稳定性,并可以达到很好的命中效果。
展开更多
关键词
末制导控制量
学习算法
深度强化学习
末制导
信任域策略
优化
下载PDF
职称材料
拦截机动目标的信赖域策略优化制导算法
被引量:
1
2
作者
陈文雪
高长生
荆武兴
《航空学报》
EI
CAS
CSCD
北大核心
2023年第11期277-295,共19页
针对临近空间高超声速飞行器的高速性、机动性等特性,为提高制导算法针对不同初始状态、不同机动性目标的准确性、鲁棒性及智能性,提出一种基于信赖域策略优化(TRPO)算法的深度强化学习制导算法。基于TRPO算法的制导算法由2个策略(动作...
针对临近空间高超声速飞行器的高速性、机动性等特性,为提高制导算法针对不同初始状态、不同机动性目标的准确性、鲁棒性及智能性,提出一种基于信赖域策略优化(TRPO)算法的深度强化学习制导算法。基于TRPO算法的制导算法由2个策略(动作)网络、1个评价网络共同组成,将临近空间目标与拦截弹相对运动系统状态以端对端的方式直接映射为制导指令。在算法训练过程中合理选取连续动作空间、状态空间、并通过权衡能量消耗、相对距离等因素构建奖励函数加快其收敛速度,最终依据训练的智能体模型针对不同任务场景进行拦截测试。仿真结果表明:与传统比例导引律(PN)及改进比例导引律(IPN)相比,本文算法针对学习场景及未知场景均具有更小的脱靶量、更稳定的拦截效果、鲁棒性,并能够在多种配置计算机上广泛应用。
展开更多
关键词
深度强化学习
信任域策略
优化
临近空间拦截
导弹末制导
机动目标
马尔可夫过程
原文传递
基于Kriging模型和对偶理论的无约束全局优化方法
被引量:
5
3
作者
李耀辉
吴义忠
王书亭
《计算机集成制造系统》
EI
CSCD
北大核心
2017年第8期1670-1678,共9页
针对基于Kriging模型的全局优化方法收敛速度慢、优化效率低且无法跳出局部最优区域等缺点,提出一种基于Kriging模型和对偶理论的无约束全局优化方法,引入正则对偶变化将普通Kriging模型本身的非凸优化问题转换为凸优化问题,利用基于Kri...
针对基于Kriging模型的全局优化方法收敛速度慢、优化效率低且无法跳出局部最优区域等缺点,提出一种基于Kriging模型和对偶理论的无约束全局优化方法,引入正则对偶变化将普通Kriging模型本身的非凸优化问题转换为凸优化问题,利用基于Kriging模型的改进信任域策略对该凸优化问题进行迭代寻优。该方法能有效平衡全局和局部搜索行为,并大幅提高算法性能。通过7个数值测试例子和一个工程仿真实例,验证了所提方法的有效性和实用性。
展开更多
关键词
无约束全局优化
代理模型
KRIGING模型
对偶理论
信任域策略
下载PDF
职称材料
题名
基于信任域策略优化的末制导控制量学习算法
1
作者
刘士荣
王天一
刘扬
机构
哈尔滨工业大学计算学部
出处
《导航定位与授时》
CSCD
2022年第6期77-84,共8页
基金
国家自然科学基金(62071154)。
文摘
近年来,深度强化学习在解决序列决策问题上取得了很大进展,无模型强化学习算法在与环境不断交互的过程中学习策略,不需要提前对环境建模,使其适用于许多问题。针对以往使用强化学习进行末制导策略学习的训练不稳定问题,使用信任域策略优化算法直接学习末制导控制量,同时设计了一种新颖的奖励函数,可以提高训练稳定性和算法性能。在二维环境下进行了实验,结果表明,该算法具有良好的训练稳定性,并可以达到很好的命中效果。
关键词
末制导控制量
学习算法
深度强化学习
末制导
信任域策略
优化
Keywords
Terminal guidance control quantity
Learning algorithm
Deep reinforcement learning
Terminal guidance
Trust region policy optimization
分类号
V448 [航空宇航科学与技术—飞行器设计]
下载PDF
职称材料
题名
拦截机动目标的信赖域策略优化制导算法
被引量:
1
2
作者
陈文雪
高长生
荆武兴
机构
哈尔滨工业大学航天学院
出处
《航空学报》
EI
CAS
CSCD
北大核心
2023年第11期277-295,共19页
基金
国家自然科学基金(12072090)。
文摘
针对临近空间高超声速飞行器的高速性、机动性等特性,为提高制导算法针对不同初始状态、不同机动性目标的准确性、鲁棒性及智能性,提出一种基于信赖域策略优化(TRPO)算法的深度强化学习制导算法。基于TRPO算法的制导算法由2个策略(动作)网络、1个评价网络共同组成,将临近空间目标与拦截弹相对运动系统状态以端对端的方式直接映射为制导指令。在算法训练过程中合理选取连续动作空间、状态空间、并通过权衡能量消耗、相对距离等因素构建奖励函数加快其收敛速度,最终依据训练的智能体模型针对不同任务场景进行拦截测试。仿真结果表明:与传统比例导引律(PN)及改进比例导引律(IPN)相比,本文算法针对学习场景及未知场景均具有更小的脱靶量、更稳定的拦截效果、鲁棒性,并能够在多种配置计算机上广泛应用。
关键词
深度强化学习
信任域策略
优化
临近空间拦截
导弹末制导
机动目标
马尔可夫过程
Keywords
deep reinforcement learning
trust region policy optimization
near-space interception
missile terminal guidance
maneuvering targets
Markov process
分类号
V488.133 [航空宇航科学技术]
原文传递
题名
基于Kriging模型和对偶理论的无约束全局优化方法
被引量:
5
3
作者
李耀辉
吴义忠
王书亭
机构
许昌学院机电工程学院
华中科技大学国家企业信息化(CAD)应用支撑软件工程技术研究中心
出处
《计算机集成制造系统》
EI
CSCD
北大核心
2017年第8期1670-1678,共9页
基金
国家自然科学基金资助项目(51575205)
国家自然科学基金面上项目(51775472)
+1 种基金
国家科技重大专项资助项目(2013ZX04005-011)
河南省科技厅资助项目(162300410263)~~
文摘
针对基于Kriging模型的全局优化方法收敛速度慢、优化效率低且无法跳出局部最优区域等缺点,提出一种基于Kriging模型和对偶理论的无约束全局优化方法,引入正则对偶变化将普通Kriging模型本身的非凸优化问题转换为凸优化问题,利用基于Kriging模型的改进信任域策略对该凸优化问题进行迭代寻优。该方法能有效平衡全局和局部搜索行为,并大幅提高算法性能。通过7个数值测试例子和一个工程仿真实例,验证了所提方法的有效性和实用性。
关键词
无约束全局优化
代理模型
KRIGING模型
对偶理论
信任域策略
Keywords
unconstrained global optimization
surrogate model
Kriging model
duality theory
trust region method
分类号
TP13 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于信任域策略优化的末制导控制量学习算法
刘士荣
王天一
刘扬
《导航定位与授时》
CSCD
2022
0
下载PDF
职称材料
2
拦截机动目标的信赖域策略优化制导算法
陈文雪
高长生
荆武兴
《航空学报》
EI
CAS
CSCD
北大核心
2023
1
原文传递
3
基于Kriging模型和对偶理论的无约束全局优化方法
李耀辉
吴义忠
王书亭
《计算机集成制造系统》
EI
CSCD
北大核心
2017
5
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部