期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于改进DQN强化学习算法的弹性光网络资源分配研究
1
作者
尚晓凯
韩龙龙
翟慧鹏
《光通信技术》
2023年第5期12-15,共4页
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现...
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。
展开更多
关键词
弹性光
网络
改进
深度
q
网络
强化学习
算法
资源分配
下载PDF
职称材料
基于改进深度Q网络算法的多园区综合能源系统能量管理方法
被引量:
3
2
作者
薛溟枫
毛晓波
+2 位作者
肖浩
浦骁威
裴玮
《电力建设》
CSCD
北大核心
2022年第12期83-93,共11页
多园区综合能源系统可通过多能互补互济显著提升运行经济性,然而园区之间的复杂互动、多能耦合决策会给多园区综合能源系统的能量管理带来决策空间庞大、算法难以收敛等挑战性问题。为解决上述问题,提出了一种基于改进深度Q网络(modifie...
多园区综合能源系统可通过多能互补互济显著提升运行经济性,然而园区之间的复杂互动、多能耦合决策会给多园区综合能源系统的能量管理带来决策空间庞大、算法难以收敛等挑战性问题。为解决上述问题,提出了一种基于改进深度Q网络(modified deep Q network, MDQN)算法的多园区综合能源系统能量管理方法。首先,采用独立于园区的外部气象数据、历史互动功率数据,构建了基于长短期记忆(long short-term memory, LSTM)深度网络的各园区综合能源系统外部互动环境等值模型,降低了强化学习奖励函数的计算复杂度;其次,提出一种基于k优先采样策略的MDQN算法,用k-优先采样策略来代替ε贪心策略,克服了大规模动作空间中探索效率低下的问题;最后,在含3个园区综合能源系统的算例中进行验证,结果表明MDQN算法相比原DQN算法具有更好的收敛性与稳定性,同时可以提升园区经济效益达29.16%。
展开更多
关键词
园区综合能源系统
深度
强化学习
能量管理
改进
深度
q
网络
(MD
q
N)
算法
原文传递
双足机器人步态控制的深度强化学习方法
被引量:
8
3
作者
冯春
张祎伟
+2 位作者
黄成
姜文彪
武之炜
《计算机集成制造系统》
EI
CSCD
北大核心
2021年第8期2341-2349,共9页
针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法。首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作—评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足...
针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法。首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作—评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足机器人连杆模型,在常规的平整路面上将改进的深度Q网络用于作为智能体的双足机器人进行步态控制训练。MATLAB仿真结果表明,与深度Q网络和深度确定性策略梯度算法相比,所提算法有更好的训练速度且其回报曲线具有良好的平滑性。在CPU训练下,经过20 h左右深度强化学习能够完成智能体训练。双足机器人在较小的力矩和长距离下能够稳定快步行走。
展开更多
关键词
双足机器人
步态控制
深度
强化学习
智能体
操作—评论
改进深度q网络算法
下载PDF
职称材料
题名
基于改进DQN强化学习算法的弹性光网络资源分配研究
1
作者
尚晓凯
韩龙龙
翟慧鹏
机构
国家计算机网络与信息安全管理中心河南分中心
出处
《光通信技术》
2023年第5期12-15,共4页
基金
国家计算机网络与信息安全技术研究专项(242研究计划)(2022Q66)资助
国家自然科学基金项目(批准号:61901159)资助。
文摘
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。
关键词
弹性光
网络
改进
深度
q
网络
强化学习
算法
资源分配
Keywords
elastic optical network
improved reinforcement learning algorithm for deep
q
network
resource allocation
分类号
TN929.1 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于改进深度Q网络算法的多园区综合能源系统能量管理方法
被引量:
3
2
作者
薛溟枫
毛晓波
肖浩
浦骁威
裴玮
机构
国网江苏省电力有限公司无锡供电分公司
中国科学院电工研究所
出处
《电力建设》
CSCD
北大核心
2022年第12期83-93,共11页
基金
国网江苏省电力有限公司科技项目(J2021058)
国家自然科学基金项目(52177124)。
文摘
多园区综合能源系统可通过多能互补互济显著提升运行经济性,然而园区之间的复杂互动、多能耦合决策会给多园区综合能源系统的能量管理带来决策空间庞大、算法难以收敛等挑战性问题。为解决上述问题,提出了一种基于改进深度Q网络(modified deep Q network, MDQN)算法的多园区综合能源系统能量管理方法。首先,采用独立于园区的外部气象数据、历史互动功率数据,构建了基于长短期记忆(long short-term memory, LSTM)深度网络的各园区综合能源系统外部互动环境等值模型,降低了强化学习奖励函数的计算复杂度;其次,提出一种基于k优先采样策略的MDQN算法,用k-优先采样策略来代替ε贪心策略,克服了大规模动作空间中探索效率低下的问题;最后,在含3个园区综合能源系统的算例中进行验证,结果表明MDQN算法相比原DQN算法具有更好的收敛性与稳定性,同时可以提升园区经济效益达29.16%。
关键词
园区综合能源系统
深度
强化学习
能量管理
改进
深度
q
网络
(MD
q
N)
算法
Keywords
park integrated energy system
deep reinforcement learning
energy management
modified deep
q
network(MD
q
N)algorithm
分类号
TM734 [电气工程—电力系统及自动化]
原文传递
题名
双足机器人步态控制的深度强化学习方法
被引量:
8
3
作者
冯春
张祎伟
黄成
姜文彪
武之炜
机构
常州工学院航空与机械工程学院
出处
《计算机集成制造系统》
EI
CSCD
北大核心
2021年第8期2341-2349,共9页
基金
国家自然科学基金青年基金资助项目(11802040)
2018年江苏省青蓝工程优秀青年骨干教师资助项目(A1-5501-19-003)。
文摘
针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法。首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作—评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足机器人连杆模型,在常规的平整路面上将改进的深度Q网络用于作为智能体的双足机器人进行步态控制训练。MATLAB仿真结果表明,与深度Q网络和深度确定性策略梯度算法相比,所提算法有更好的训练速度且其回报曲线具有良好的平滑性。在CPU训练下,经过20 h左右深度强化学习能够完成智能体训练。双足机器人在较小的力矩和长距离下能够稳定快步行走。
关键词
双足机器人
步态控制
深度
强化学习
智能体
操作—评论
改进深度q网络算法
Keywords
biped robot
gait control
deep reinforcement learning
agent
actor-critic
improved deep
q
-net algorithm
分类号
TP242.6 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于改进DQN强化学习算法的弹性光网络资源分配研究
尚晓凯
韩龙龙
翟慧鹏
《光通信技术》
2023
0
下载PDF
职称材料
2
基于改进深度Q网络算法的多园区综合能源系统能量管理方法
薛溟枫
毛晓波
肖浩
浦骁威
裴玮
《电力建设》
CSCD
北大核心
2022
3
原文传递
3
双足机器人步态控制的深度强化学习方法
冯春
张祎伟
黄成
姜文彪
武之炜
《计算机集成制造系统》
EI
CSCD
北大核心
2021
8
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部