检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到8篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

基于深度强化学习的数据中心热感知能耗优化方法: 1; 作者李丹阳吴良基 +1 位作者刘慧姜静清《计算机科学》 CSCD 北大核心 2024年第S01期726-733,共8页; 随着数据中心规模的不断扩大,所引起的高能耗、高运营成本和环境污染等问题日益严重,严重影响了数据中心的可持续性。大多数数据中心能耗优化方法为了降低计算能耗,会将任务集中在尽可能少的服务器上,但这样做往往会导致数据中心热点的... 展开更多; 关键词数据中心能耗优化热点任务调度深度强化学习奖励塑造; 下载PDF 职称材料

基于多智能体强化学习的多部件系统维修优化: 2; 作者周一帆郭凯李帮诚《长沙理工大学学报（自然科学版）》 CAS 2023年第2期27-34,共8页; 【目的】研究多智能体强化学习算法用于多部件生产系统维修优化的有效性,及维修优化领域知识用于强化学习的可行性。【方法】将生产系统的维修决策建模为马尔可夫决策过程(Markov decision process,MDP),并采用一种基于奖励塑造的分布式... 展开更多; 关键词多部件生产系统奖励塑造分布式Q学习多智能体强化学习深度强化学习; 下载PDF 职称材料

基于深度强化学习的故障硬盘预测与处理方法被引量：2: 3; 作者管文白房笑宇夏彬《软件导刊》 2023年第3期18-26,共9页; 大数据技术发展产生的海量数据急需一种可靠的数据存储方法,现有的主动故障预测方法相比被动容错机制可取得更好的效果,但是故障硬盘预测领域仍有一些问题亟待解决。当前的故障硬盘预测方法大多是离线的,通过滑动窗口将硬盘数据切分为样... 展开更多; 关键词硬盘故障故障预测深度强化学习 DQN算法奖励塑造; 下载PDF 职称材料

基于深度强化学习的水下机械臂自主控制研究: 4; 作者李忻阳卢倪斌 +1 位作者吕诗为刘海瑞《控制与信息技术》 2023年第6期45-50,共6页; 受限于水下环境和观察角度,精确地控制水下机械臂完成水下自主作业任务具有很大的挑战性。针对这一问题,考虑到强化学习算法对环境具有强大的自适应能力,文章提出一种水下机械臂自主控制方法。首先,其设计了一种近端策略优化(PPO)结合... 展开更多; 关键词水下机械臂强化学习奖励塑造自主作业; 下载PDF 职称材料

战术先验知识启发的多智能体双层强化学习被引量：4: 5; 作者陈晓轩黄魁华 +2 位作者梁星星冯旸赫黄金才《指挥与控制学报》 CSCD 2022年第1期72-79,共8页; 针对典型海空协同作战中指挥控制技术对时效性、准确性和跨域融合能力的高要求,提出了一种先验知识启发的双层强化学习框架.通过研究先验知识启发的奖励塑造方式,提取作战子任务设计状态聚合方法,从而把具体状态映射到抽象状态;基于抽... 展开更多; 关键词海空协同作战先验知识奖励塑造双层强化学习; 下载PDF 职称材料

融合类人驾驶行为的无人驾驶深度强化学习方法被引量：2: 6; 作者吕迪徐坤 +1 位作者李慧云潘仲鸣《集成技术》 2020年第5期34-47,共14页; 现有无人车辆的驾驶策略过于依赖感知-控制映射过程的"正确性",而忽视了人类驾驶汽车时所遵循的驾驶逻辑。该研究基于深度确定性策略梯度算法,提出了一种具备类人驾驶行为的端到端无人驾驶控制策略。通过施加规则约束对智能... 展开更多; 关键词深度强化学习端到端控制无人驾驶类人驾驶奖励塑造; 下载PDF 职称材料

基于多智能体强化学习的轨道追逃博弈方法被引量：5: 7; 作者许旭升党朝辉 +2 位作者宋斌袁秋帆肖余之《上海航天（中英文）》 CSCD 2022年第2期24-31,共8页; 针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法。首先通过对博弈场景进... 展开更多; 关键词集群卫星非合作目标追逃博弈奖励塑造多智能体深度确定性策略梯度算法涌现智能; 下载PDF 职称材料

基于强化学习的高超飞行器协同博弈制导方法: 8; 作者倪炜霖王永海 +2 位作者徐聪赤丰华梁海朝《航空学报》 EI CAS CSCD 北大核心 2023年第S02期55-66,共12页; 研究了多拦截场景下高超声速飞行器主动防御攻防对抗的智能协同博弈制导方法。针对高超声速飞行器与主动防御飞行器协同对抗多个拦截器攻击的博弈问题,提出了一种基于双延迟深度确定性策略梯度算法的高超声速飞行器智能协同博弈制导方法... 展开更多; 关键词博弈理论奖励函数塑造课程学习深度强化学习高超声速飞行器; 原文传递

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部