期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于归一化优势函数的强化学习混合动力履带车辆能量管理
被引量:
4
1
作者
邹渊
张彬
+4 位作者
张旭东
赵志颖
康铁宇
郭玉枫
吴喆
《兵工学报》
EI
CAS
CSCD
北大核心
2021年第10期2159-2169,共11页
基于强化学习的能量管理策略由于状态变量和控制变量的离散化,处理高维问题时存在“维数灾难”的困扰。针对此问题,提出一种基于归一化优势函数的深度强化学习能量管理算法。采用两个具有归一化优势函数的深度神经网络实现连续控制,消...
基于强化学习的能量管理策略由于状态变量和控制变量的离散化,处理高维问题时存在“维数灾难”的困扰。针对此问题,提出一种基于归一化优势函数的深度强化学习能量管理算法。采用两个具有归一化优势函数的深度神经网络实现连续控制,消除离散化。在对串联式混合动力履带车辆动力总成建模的基础上,完成深度强化学习能量管理算法的框架搭建和参数的更新过程,并将其应用于串联式混合动力履带车辆。仿真结果表明,该算法能够输出更为细化的控制量以及更小的输出波动性,与深度Q学习算法相比,对于串联式混合动力履带车辆的燃油经济性提升了3.96%.通过硬件在环仿真实验验证了强化学习能量管理算法的适应性,以及在实时控制环境下的优化效果。
展开更多
关键词
履带车辆
能量管理策略
归一化优势函数
连续控制
串联式混合动力
硬件在环仿真
下载PDF
职称材料
基于改进Q学习的机械臂实时障碍规避方法
2
作者
吴戴燕
刘世林
《台州学院学报》
2022年第6期13-20,共8页
为了提高实时机械臂规避障碍物的适应性,提出一种基于改进Q学习的控制规避方法。首先,利用深度增强学习对机械臂动作给予奖励和惩罚,并通过深度神经网络学习特征表示。然后,采用状态和动作集合以及环境迁移概率矩阵定义马尔科夫决策过程...
为了提高实时机械臂规避障碍物的适应性,提出一种基于改进Q学习的控制规避方法。首先,利用深度增强学习对机械臂动作给予奖励和惩罚,并通过深度神经网络学习特征表示。然后,采用状态和动作集合以及环境迁移概率矩阵定义马尔科夫决策过程;同时,将归一化优势函数与Q学习算法相结合,以支持在连续空间中定义的机器人系统。实验结果表明:所提方法解决了Q学习收敛速度慢的缺点,实现了高性能机械臂的实时避障,有助于实现人机安全共存。
展开更多
关键词
机械臂
马尔科夫决策
深度增强学习
Q学习
归一化优势函数
下载PDF
职称材料
题名
基于归一化优势函数的强化学习混合动力履带车辆能量管理
被引量:
4
1
作者
邹渊
张彬
张旭东
赵志颖
康铁宇
郭玉枫
吴喆
机构
北京理工大学机械与车辆学院
北京北方车辆集团有限公司
出处
《兵工学报》
EI
CAS
CSCD
北大核心
2021年第10期2159-2169,共11页
基金
国家自然科学基金项目(51775039)。
文摘
基于强化学习的能量管理策略由于状态变量和控制变量的离散化,处理高维问题时存在“维数灾难”的困扰。针对此问题,提出一种基于归一化优势函数的深度强化学习能量管理算法。采用两个具有归一化优势函数的深度神经网络实现连续控制,消除离散化。在对串联式混合动力履带车辆动力总成建模的基础上,完成深度强化学习能量管理算法的框架搭建和参数的更新过程,并将其应用于串联式混合动力履带车辆。仿真结果表明,该算法能够输出更为细化的控制量以及更小的输出波动性,与深度Q学习算法相比,对于串联式混合动力履带车辆的燃油经济性提升了3.96%.通过硬件在环仿真实验验证了强化学习能量管理算法的适应性,以及在实时控制环境下的优化效果。
关键词
履带车辆
能量管理策略
归一化优势函数
连续控制
串联式混合动力
硬件在环仿真
Keywords
series hybrid tracked vehicle
energy management strategy
normalized advantage function
continuous control
hardware-in-the-loop simulation
分类号
TJ810.2 [兵器科学与技术—武器系统与运用工程]
下载PDF
职称材料
题名
基于改进Q学习的机械臂实时障碍规避方法
2
作者
吴戴燕
刘世林
机构
安徽六安技师学院机电工程系
安徽工程大学电子工程学院
出处
《台州学院学报》
2022年第6期13-20,共8页
基金
安徽省高校自然科学研究重大项目(KJ2018ZD066)
安徽省高校自然科学研究重点项目(KJ2019A1184)。
文摘
为了提高实时机械臂规避障碍物的适应性,提出一种基于改进Q学习的控制规避方法。首先,利用深度增强学习对机械臂动作给予奖励和惩罚,并通过深度神经网络学习特征表示。然后,采用状态和动作集合以及环境迁移概率矩阵定义马尔科夫决策过程;同时,将归一化优势函数与Q学习算法相结合,以支持在连续空间中定义的机器人系统。实验结果表明:所提方法解决了Q学习收敛速度慢的缺点,实现了高性能机械臂的实时避障,有助于实现人机安全共存。
关键词
机械臂
马尔科夫决策
深度增强学习
Q学习
归一化优势函数
Keywords
manipulator
Markov decision process
deep reinforcement learning
Q-learning
normalized advantage function
分类号
TP241 [自动化与计算机技术—检测技术与自动化装置]
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于归一化优势函数的强化学习混合动力履带车辆能量管理
邹渊
张彬
张旭东
赵志颖
康铁宇
郭玉枫
吴喆
《兵工学报》
EI
CAS
CSCD
北大核心
2021
4
下载PDF
职称材料
2
基于改进Q学习的机械臂实时障碍规避方法
吴戴燕
刘世林
《台州学院学报》
2022
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部