期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
1
作者
王垚儒
李俊
《武汉科技大学学报》
CAS
北大核心
2020年第2期147-154,共8页
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验...
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。
展开更多
关键词
深度确定性策略梯度
TD3算法
深度强化学习
噪声流
多步截断双Q学习
双
经验回放池
下载PDF
职称材料
基于改进SAC算法的机械臂运动规划
2
作者
唐超
张帆
《电子科技》
2024年第11期47-54,共8页
针对深度强化学习算法在高维状态空间和高精度需求下的机械臂运动规划任务中存在探索效率低、收敛速度慢以及不收敛等问题,文中以SAC(Soft Actor-Critic)算法为基础,引入异步优势机制,提出了一种融合异步优势的AA-SAC(Asynchronous Adva...
针对深度强化学习算法在高维状态空间和高精度需求下的机械臂运动规划任务中存在探索效率低、收敛速度慢以及不收敛等问题,文中以SAC(Soft Actor-Critic)算法为基础,引入异步优势机制,提出了一种融合异步优势的AA-SAC(Asynchronous Advantage Soft Actor-Critic)算法。该算法使用Q target网络代替了原V网络,有效降低了Q网络的方差,n个独立的进程可并行训练,提升了训练效率。将AA-SAC算法的经验回放池划分成两个部分,将高质量的经验数据单独存放、单独采样,以提高有效经验数据的利用率。仿真结果表明,AA-SAC算法在收敛速度、成功率和稳定性上表现最优。相较于SAC算法,AA-SAC算法的收敛时间提前了3000回合。收敛后AA-SAC算法的成功率达到了96%,比SAC算法提升了6%,比DDPG(Deep Deterministic Policy Gradient)算法提升了26%。
展开更多
关键词
深度强化学习
异步优势
SAC算法
经验回放池
机械臂
运动规划
微创手术
CoppeliaSim
下载PDF
职称材料
基于D-DQN强化学习算法的双足机器人智能控制研究
3
作者
李丽霞
陈艳
《计算机测量与控制》
2024年第3期181-187,共7页
针对现有双足机器人智能控制算法存在的轨迹偏差大、效率低等问题,提出了一种基于D-DQN强化学习的控制算法;先分析双足机器人运动中的坐标变换关系和关节连杆补偿过程,然后基于Q值网络实现对复杂运动非线性过程降维处理,采用了Q值网络...
针对现有双足机器人智能控制算法存在的轨迹偏差大、效率低等问题,提出了一种基于D-DQN强化学习的控制算法;先分析双足机器人运动中的坐标变换关系和关节连杆补偿过程,然后基于Q值网络实现对复杂运动非线性过程降维处理,采用了Q值网络权值和辅助权值的双网络权值设计方式,进一步强化DQN网络性能,并以Tanh函数作为神经网络的激活函数,提升DQN网络的数值训练能力;在数据训练和交互中经验回放池发挥出关键的辅助作用,通过将奖励值输入到目标函数中,进一步提升对双足机器人的控制精度,最后通过虚拟约束控制的方式提高双足机器人运动中的稳定性;实验结果显示:在D-DQN强化学习的控制算法,机器人完成第一阶段测试的时间仅为115 s,综合轨迹偏差0.02 m,而且步态切换极限环测试的稳定性良好。
展开更多
关键词
D-DQN
强化学习
双足机器人
智能控制
经验回放池
虚拟约束控制
下载PDF
职称材料
题名
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
1
作者
王垚儒
李俊
机构
武汉科技大学计算机科学与技术学院
武汉科技大学智能信息处理与实时工业系统湖北省重点实验室
出处
《武汉科技大学学报》
CAS
北大核心
2020年第2期147-154,共8页
基金
国家自然科学基金资助项目(61572381)
武汉科技大学智能信息处理与实时工业系统湖北省重点实验室基金资助项目(znxx2018QN06).
文摘
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。
关键词
深度确定性策略梯度
TD3算法
深度强化学习
噪声流
多步截断双Q学习
双
经验回放池
Keywords
deep deterministic policy gradient
TD3 algorithm
deep reinforcement learning
noise flow
multi-step clipped double Q-learning
double experience replay buffers
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于改进SAC算法的机械臂运动规划
2
作者
唐超
张帆
机构
上海工程技术大学机械与汽车工程学院
出处
《电子科技》
2024年第11期47-54,共8页
基金
上海市科委生物医药领域科技支撑计划(17441901200)。
文摘
针对深度强化学习算法在高维状态空间和高精度需求下的机械臂运动规划任务中存在探索效率低、收敛速度慢以及不收敛等问题,文中以SAC(Soft Actor-Critic)算法为基础,引入异步优势机制,提出了一种融合异步优势的AA-SAC(Asynchronous Advantage Soft Actor-Critic)算法。该算法使用Q target网络代替了原V网络,有效降低了Q网络的方差,n个独立的进程可并行训练,提升了训练效率。将AA-SAC算法的经验回放池划分成两个部分,将高质量的经验数据单独存放、单独采样,以提高有效经验数据的利用率。仿真结果表明,AA-SAC算法在收敛速度、成功率和稳定性上表现最优。相较于SAC算法,AA-SAC算法的收敛时间提前了3000回合。收敛后AA-SAC算法的成功率达到了96%,比SAC算法提升了6%,比DDPG(Deep Deterministic Policy Gradient)算法提升了26%。
关键词
深度强化学习
异步优势
SAC算法
经验回放池
机械臂
运动规划
微创手术
CoppeliaSim
Keywords
deep reinforcement learning
asynchronous advantage
SAC algorithm
experience playback pool
mechanical arm
motion planning
minimally invasive surgery
CoppeliaSim
分类号
TP241 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
基于D-DQN强化学习算法的双足机器人智能控制研究
3
作者
李丽霞
陈艳
机构
广州华商学院
出处
《计算机测量与控制》
2024年第3期181-187,共7页
基金
2022年度广州华商学院高等教育教学改革项目(HS2022ZLGC71)。
文摘
针对现有双足机器人智能控制算法存在的轨迹偏差大、效率低等问题,提出了一种基于D-DQN强化学习的控制算法;先分析双足机器人运动中的坐标变换关系和关节连杆补偿过程,然后基于Q值网络实现对复杂运动非线性过程降维处理,采用了Q值网络权值和辅助权值的双网络权值设计方式,进一步强化DQN网络性能,并以Tanh函数作为神经网络的激活函数,提升DQN网络的数值训练能力;在数据训练和交互中经验回放池发挥出关键的辅助作用,通过将奖励值输入到目标函数中,进一步提升对双足机器人的控制精度,最后通过虚拟约束控制的方式提高双足机器人运动中的稳定性;实验结果显示:在D-DQN强化学习的控制算法,机器人完成第一阶段测试的时间仅为115 s,综合轨迹偏差0.02 m,而且步态切换极限环测试的稳定性良好。
关键词
D-DQN
强化学习
双足机器人
智能控制
经验回放池
虚拟约束控制
Keywords
D-DQN
reinforcement learning
bipedal robot
intelligent control
experience playback pool
virtual constraint control
分类号
V19 [航空宇航科学与技术—人机与环境工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
王垚儒
李俊
《武汉科技大学学报》
CAS
北大核心
2020
0
下载PDF
职称材料
2
基于改进SAC算法的机械臂运动规划
唐超
张帆
《电子科技》
2024
0
下载PDF
职称材料
3
基于D-DQN强化学习算法的双足机器人智能控制研究
李丽霞
陈艳
《计算机测量与控制》
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部