-
题名基于深度强化学习的数据中心热感知能耗优化方法
- 1
-
-
作者
李丹阳
吴良基
刘慧
姜静清
-
机构
东北大学软件学院
东北大学冶金学院
内蒙古民族大学计算机科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2024年第S01期726-733,共8页
-
基金
国家自然科学基金(62162050)。
-
文摘
随着数据中心规模的不断扩大,所引起的高能耗、高运营成本和环境污染等问题日益严重,严重影响了数据中心的可持续性。大多数数据中心能耗优化方法为了降低计算能耗,会将任务集中在尽可能少的服务器上,但这样做往往会导致数据中心热点的产生,并且提高了冷却能耗。为了解决这一问题,文中首先对数据中心进行建模,并将数据中心总能耗优化问题建模为一个任务调度问题,并且要求调度过程中不产生数据中心热点。为了解决该问题,文中提出了一种基于深度强化学习的数据中心任务调度方法,并使用奖励塑造对该方法进行优化,在不产生热点的前提下降低数据中心的总能耗。最后,通过仿真环境和真实数据中心负载跟踪数据进行了实验。仿真实验结果表明,所提方法相比其他现有的调度方法能够更好地降低数据中心总能耗,最多降低了25.5%。此外,提出的优化方法还不会产生热点,这进一步证明了其优越性。
-
关键词
数据中心
能耗优化
热点
任务调度
深度强化学习
奖励塑造
-
Keywords
Data Center
Energy consumption optimization
Hot spot
Task scheduling
Deep reinforcement learning
Reward shaping
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于多智能体强化学习的多部件系统维修优化
- 2
-
-
作者
周一帆
郭凯
李帮诚
-
机构
东南大学机械工程学院
-
出处
《长沙理工大学学报(自然科学版)》
CAS
2023年第2期27-34,共8页
-
基金
国家自然科学基金资助项目(72071044)。
-
文摘
【目的】研究多智能体强化学习算法用于多部件生产系统维修优化的有效性,及维修优化领域知识用于强化学习的可行性。【方法】将生产系统的维修决策建模为马尔可夫决策过程(Markov decision process,MDP),并采用一种基于奖励塑造的分布式Q学习(shaped reward distributed Q-learning,SR-DQL)算法对其进行求解。通过对智能体的设计和奖励塑造,把维修优化的领域知识应用于强化学习中。【结果】使用包含5个生产单元和4个缓冲库存的生产系统对本文所提出的SR-DQL算法进行验证。相较于Q学习算法,SRDQL算法能够提升6%的平均收益。此外,由该算法计算得到的平均收益也比由分布式Q学习算法和深度强化学习算法计算得到的大。【结论】多智能体强化学习能有效处理大规模生产系统的维修优化问题,添加奖励塑造可以提升算法性能,并得到更优的维修策略。
-
关键词
多部件生产系统
奖励塑造
分布式Q学习
多智能体强化学习
深度强化学习
-
Keywords
multi-component production system
reward shaping
distributed Q-learning
multi-agent reinforcement learning
deep reinforcement learning
-
分类号
TH17
[机械工程—机械制造及自动化]
-
-
题名基于深度强化学习的故障硬盘预测与处理方法
被引量:2
- 3
-
-
作者
管文白
房笑宇
夏彬
-
机构
南京邮电大学计算机学院、软件学院、网络空间安全学院
江苏省大数据安全与智能处理重点实验室
-
出处
《软件导刊》
2023年第3期18-26,共9页
-
基金
国家自然科学基金面上项目(61872186)
南京邮电大学校级自然科学基金项目(NY221070)。
-
文摘
大数据技术发展产生的海量数据急需一种可靠的数据存储方法,现有的主动故障预测方法相比被动容错机制可取得更好的效果,但是故障硬盘预测领域仍有一些问题亟待解决。当前的故障硬盘预测方法大多是离线的,通过滑动窗口将硬盘数据切分为样本,使用欠采样或过采样解决样本不平衡问题。然而,硬盘数据的分布会随时间变化,下采样可能会丢失一些有用特征,过采样可能会导致训练过拟合,该样本使用方式也忽略了样本之间的时间相关性。为了解决这些问题,将存储系统中硬盘的整个运行维护过程视为一个顺序决策过程,使用深度强化学习DQN算法求解。在强化学习语境下,样本不平衡问题转化为稀疏奖励问题。通过奖励塑造及探索机制解决稀疏奖励问题,在模型部署后利用经验回放实现模型在线学习。在开源数据集BackBlaze上的实验验证了该方法的有效性。
-
关键词
硬盘故障
故障预测
深度强化学习
DQN算法
奖励塑造
-
Keywords
hard disk failure
failure prediction
deep reinforcement learning
DQN
reward shaping
-
分类号
TP333
[自动化与计算机技术—计算机系统结构]
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于深度强化学习的水下机械臂自主控制研究
- 4
-
-
作者
李忻阳
卢倪斌
吕诗为
刘海瑞
-
机构
上海中车艾森迪海洋装备有限公司
-
出处
《控制与信息技术》
2023年第6期45-50,共6页
-
基金
国家重点研发计划项目(2022YFC2806901)。
-
文摘
受限于水下环境和观察角度,精确地控制水下机械臂完成水下自主作业任务具有很大的挑战性。针对这一问题,考虑到强化学习算法对环境具有强大的自适应能力,文章提出一种水下机械臂自主控制方法。首先,其设计了一种近端策略优化(PPO)结合行动器-评判器(AC)的强化学习算法训练自主控制策略;其次,对训练过程中出现的稀疏奖励问题,提出了一种基于人工势场法的奖励塑造方法;最后,在仿真试验环境中对基于上述方法训练得到的自主控制策略进行了验证。验证结果表明,该策略可以有效收敛并自主控制水下机械臂向目标位置精确移动,移动快速、过程流畅,末端执行器运动轨迹平滑、稳定。
-
关键词
水下机械臂
强化学习
奖励塑造
自主作业
-
Keywords
underwater manipulator
reinforcement learning
reward shaping
autonomous operation
-
分类号
TP241
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名战术先验知识启发的多智能体双层强化学习
被引量:4
- 5
-
-
作者
陈晓轩
黄魁华
梁星星
冯旸赫
黄金才
-
机构
国防科技大学系统工程学院
-
出处
《指挥与控制学报》
CSCD
2022年第1期72-79,共8页
-
文摘
针对典型海空协同作战中指挥控制技术对时效性、准确性和跨域融合能力的高要求,提出了一种先验知识启发的双层强化学习框架.通过研究先验知识启发的奖励塑造方式,提取作战子任务设计状态聚合方法,从而把具体状态映射到抽象状态;基于抽象状态使用马尔科夫决策过程(Markov decision process,MDP)理论进行建模,使用强化学习算法求解该模型;使用最终求解出的抽象状态价值函数进行基于势能的奖励塑造.以上流程与下层具体MDP过程并行求解,从而搭建了一个双层强化学习算法框架.基于全国兵棋推演大赛的兵棋推演平台进行了实验,在状态空间、动作空间、奖励函数等方面细化算法.指出了先验知识代表从上而下的任务式指挥方式,而多智能体强化学习在某些结构上符合自下而上的事件式指挥方式.两种方式结合,使得该算法控制下的作战单元学习到协同作战战术,面对复杂环境具有更好的鲁棒性.经过仿真实验,该算法控制的红方智能体对抗规则智能体控制的蓝方可以获得70%的胜率.
-
关键词
海空协同作战
先验知识
奖励塑造
双层强化学习
-
Keywords
airsea battle
prior knowledge
reward shaping
double reinforcement learning
-
分类号
E86
[军事—战术学]
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名融合类人驾驶行为的无人驾驶深度强化学习方法
被引量:2
- 6
-
-
作者
吕迪
徐坤
李慧云
潘仲鸣
-
机构
中国科学院深圳先进技术研究院
深圳市电动汽车动力平台与安全技术重点实验室
哈尔滨理工大学
-
出处
《集成技术》
2020年第5期34-47,共14页
-
基金
国家重点研发计划项目(2016YFD0700602)
国家自然科学基金项目(61603377)。
-
文摘
现有无人车辆的驾驶策略过于依赖感知-控制映射过程的"正确性",而忽视了人类驾驶汽车时所遵循的驾驶逻辑。该研究基于深度确定性策略梯度算法,提出了一种具备类人驾驶行为的端到端无人驾驶控制策略。通过施加规则约束对智能体连续行为的影响,建立了能够输出符合类人驾驶连续有序行为的类人驾驶端到端控制网络,对策略输出采用了后验反馈方式,降低了控制策略的危险行为输出率。针对训练过程中出现的稀疏灾难性事件,提出了一种更符合控制策略优化期望的连续奖励函数,提高了算法训练的稳定性。不同仿真环境下的实验结果表明,改进后的奖励塑造方式在评价稀疏灾难性事件时,对目标函数优化期望的近似程度提高了85.57%,训练效率比传统深度确定性策略梯度算法提高了21%,任务成功率提高了19%,任务执行效率提高了15.45%,验证了该方法在控制效率和平顺性方面具备明显优势,显著减少了碰撞事故。
-
关键词
深度强化学习
端到端控制
无人驾驶
类人驾驶
奖励塑造
-
Keywords
deep reinforcement learning
end-to-end control
autonomous driving
human-like driving
reward shaping
-
分类号
TG181
[金属学及工艺—金属学]
-
-
题名基于多智能体强化学习的轨道追逃博弈方法
被引量:5
- 7
-
-
作者
许旭升
党朝辉
宋斌
袁秋帆
肖余之
-
机构
上海宇航系统工程研究所
西北工业大学航天学院
-
出处
《上海航天(中英文)》
CSCD
2022年第2期24-31,共8页
-
文摘
针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法。首先通过对博弈场景进行建模,在考虑最短时间、最优燃料以及碰撞规避的情形下进行奖励函数的塑造和改进,利用深度强化学习方法中的多智能体深度确定性策略梯度(MADDPG)算法进行集中训练,得到各个追捕卫星和逃逸卫星的最优追逃策略参数;然后分布式执行使得多个追捕卫星和逃逸卫星之间能够完成追逃博弈。仿真结果表明:该方法能够完成集群卫星对非合作目标的追逃博弈,且能够利用数量优势有效地弥补速度劣势,涌现出“围捕“”拦截“”合作“”潜伏”等一系列智能博弈行为,有效地实现了博弈目的。
-
关键词
集群卫星
非合作目标
追逃博弈
奖励塑造
多智能体深度确定性策略梯度算法
涌现
智能
-
Keywords
cluster satellite
non-cooperative target
pursuit-evasion game
reward shaping
multi-agent deep deterministic policy gradient(MADDPG)algorithm
emergence
intelligence
-
分类号
V448.21
[航空宇航科学与技术—飞行器设计]
-
-
题名基于强化学习的高超飞行器协同博弈制导方法
- 8
-
-
作者
倪炜霖
王永海
徐聪
赤丰华
梁海朝
-
机构
中山大学航空航天学院
空间物理重点实验室
-
出处
《航空学报》
EI
CAS
CSCD
北大核心
2023年第S02期55-66,共12页
-
基金
国家自然科学基金(62003375,62103452)
-
文摘
研究了多拦截场景下高超声速飞行器主动防御攻防对抗的智能协同博弈制导方法。针对高超声速飞行器与主动防御飞行器协同对抗多个拦截器攻击的博弈问题,提出了一种基于双延迟深度确定性策略梯度算法的高超声速飞行器智能协同博弈制导方法,该方法能够在高超声速飞行器与主动防御飞行器机动能力和响应速度不足的情况下实现对于多拦截器的高成功率博弈。通过构建一类启发式连续奖励函数,设计了一种自适应渐进式课程学习方法,提出了一种快速稳定收敛训练方法,解决深度强化学习训练过程中的稀疏奖励问题,实现智能博弈算法的稳定快速收敛。最后通过数值仿真对所提出方法的有效性进行验证,仿真结果表明,所提出的理论方法能够提高训练收敛效率与稳定性,且相比于传统博弈制导方法具有更高的博弈成功率。
-
关键词
博弈理论
奖励函数塑造
课程学习
深度强化学习
高超声速飞行器
-
Keywords
game theory
reward shaping
curriculum learning
reinforcement learning
hypersonic vehicles
-
分类号
V11
[航空宇航科学与技术—人机与环境工程]
-