期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于归一化优势函数的强化学习混合动力履带车辆能量管理 被引量:4
1
作者 邹渊 张彬 +4 位作者 张旭东 赵志颖 康铁宇 郭玉枫 吴喆 《兵工学报》 EI CAS CSCD 北大核心 2021年第10期2159-2169,共11页
基于强化学习的能量管理策略由于状态变量和控制变量的离散化,处理高维问题时存在“维数灾难”的困扰。针对此问题,提出一种基于归一化优势函数的深度强化学习能量管理算法。采用两个具有归一化优势函数的深度神经网络实现连续控制,消... 基于强化学习的能量管理策略由于状态变量和控制变量的离散化,处理高维问题时存在“维数灾难”的困扰。针对此问题,提出一种基于归一化优势函数的深度强化学习能量管理算法。采用两个具有归一化优势函数的深度神经网络实现连续控制,消除离散化。在对串联式混合动力履带车辆动力总成建模的基础上,完成深度强化学习能量管理算法的框架搭建和参数的更新过程,并将其应用于串联式混合动力履带车辆。仿真结果表明,该算法能够输出更为细化的控制量以及更小的输出波动性,与深度Q学习算法相比,对于串联式混合动力履带车辆的燃油经济性提升了3.96%.通过硬件在环仿真实验验证了强化学习能量管理算法的适应性,以及在实时控制环境下的优化效果。 展开更多
关键词 履带车辆 能量管理策略 归一化优势函数 连续控制 串联式混合动力 硬件在环仿真
下载PDF
基于改进Q学习的机械臂实时障碍规避方法
2
作者 吴戴燕 刘世林 《台州学院学报》 2022年第6期13-20,共8页
为了提高实时机械臂规避障碍物的适应性,提出一种基于改进Q学习的控制规避方法。首先,利用深度增强学习对机械臂动作给予奖励和惩罚,并通过深度神经网络学习特征表示。然后,采用状态和动作集合以及环境迁移概率矩阵定义马尔科夫决策过程... 为了提高实时机械臂规避障碍物的适应性,提出一种基于改进Q学习的控制规避方法。首先,利用深度增强学习对机械臂动作给予奖励和惩罚,并通过深度神经网络学习特征表示。然后,采用状态和动作集合以及环境迁移概率矩阵定义马尔科夫决策过程;同时,将归一化优势函数与Q学习算法相结合,以支持在连续空间中定义的机器人系统。实验结果表明:所提方法解决了Q学习收敛速度慢的缺点,实现了高性能机械臂的实时避障,有助于实现人机安全共存。 展开更多
关键词 机械臂 马尔科夫决策 深度增强学习 Q学习 归一化优势函数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部