期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于深度强化学习的动态库存路径优化 被引量:5
1
作者 周建频 张姝柳 《系统仿真学报》 CAS CSCD 北大核心 2019年第10期2155-2163,共9页
针对具有周期性波动需求的动态随机库存路径问题,提出了基于深度强化学习进行仿真优化并实现周期平稳策略的新方法。所研究问题构建动态组合优化模型,通过深度强化学习和设置启发规则来综合决定每个时期的补货节点集合和补货批量分配权... 针对具有周期性波动需求的动态随机库存路径问题,提出了基于深度强化学习进行仿真优化并实现周期平稳策略的新方法。所研究问题构建动态组合优化模型,通过深度强化学习和设置启发规则来综合决定每个时期的补货节点集合和补货批量分配权重。仿真实验结果表明,与现有文献中的两种方法相比,所提出的方法在较低波动需求情况下可分别提高一个周期的平均利润约2.7%和3.9%,在较高波动需求情况下提高约8.2%和7.1%,而周期服务水平在不同需求波动环境下都可以平稳地保持在一个较小的波动范围内。 展开更多
关键词 库存路径问题 启发规则 深度q-学习 动态 周期平稳策略
下载PDF
基于DQN的雷达智能干扰决策方法
2
作者 曹舒雅 张文旭 +1 位作者 赵桐 马丹 《制导与引信》 2024年第2期11-19,共9页
对不同类型的雷达有源干扰进行了讨论,分析了不同干扰的作用机理,并对其干扰效果进行了仿真。讨论了深度Q-学习网络(deep Q-learning network,DQN)算法在传统算法基础上的改进,以及基于DQN的智能干扰决策流程,并通过仿真实验验证了基于... 对不同类型的雷达有源干扰进行了讨论,分析了不同干扰的作用机理,并对其干扰效果进行了仿真。讨论了深度Q-学习网络(deep Q-learning network,DQN)算法在传统算法基础上的改进,以及基于DQN的智能干扰决策流程,并通过仿真实验验证了基于DQN的干扰决策算法的认知特性,同时测试了其在不稳定环境下的性能。仿真结果表明,采用基于DQN的干扰决策算法,能够使干扰机在缺乏先验知识的未知环境中,通过与环境的交互学习,不断提升干扰策略性能。 展开更多
关键词 雷达有源干扰 智能干扰决策 深度q-学习网络
下载PDF
基于纵程解析解的飞行器智能横程机动再入协同制导 被引量:15
3
作者 张晚晴 余文斌 +1 位作者 李静琳 陈万春 《兵工学报》 EI CAS CSCD 北大核心 2021年第7期1400-1411,共12页
针对高超声速飞行器协同饱和打击需求,提出一种基于深度Q-学习网络(DQN)算法的深度强化学习横程机动再入协同制导方法。解耦设计高超声速飞行器横纵制导方法,基于高精度的纵程解析解,解析计算纵向升阻比得到倾侧角模值。抽象横向制导倾... 针对高超声速飞行器协同饱和打击需求,提出一种基于深度Q-学习网络(DQN)算法的深度强化学习横程机动再入协同制导方法。解耦设计高超声速飞行器横纵制导方法,基于高精度的纵程解析解,解析计算纵向升阻比得到倾侧角模值。抽象横向制导倾侧反转逻辑为马尔可夫决策问题,引入强化学习思想,设计一种基于DQN算法的横向智能机动决策器,构建智能体离线学习-在线调用模式,计算倾侧角剖面的符号变化。以典型高超声速飞行器CAV-H为对象,基于数学分析MATLAB平台通过弹道仿真对该制导方法进行验证。仿真结果表明:新制导方法制导精度高,任务适应性强,可以在线使用,能够严格满足飞行时间约束和能量管理需求;相比于基于三维解析解的再入协同制导方法,新制导方法可以更大程度发挥飞行器的横向机动能力,具备更高的突防潜力。 展开更多
关键词 高超声速飞行器 再入协同制导 纵程解析解 深度强化学习 深度q-学习网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部