期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于改进柔性演员评论家算法的研究
被引量:
2
1
作者
胡仕柯
赵海军
《太原师范学院学报(自然科学版)》
2021年第3期48-52,共5页
针对柔性演员评论家算法训练速度慢且训练过程不稳定的问题,提出了一种改进柔性演员评论家算法.通过在原有算法中引入内在好奇心机制,提高智能体探索能力与样本利用效率,并在仿真环境中用于求解倒立摆问题,实验结果表明文章算法具有更...
针对柔性演员评论家算法训练速度慢且训练过程不稳定的问题,提出了一种改进柔性演员评论家算法.通过在原有算法中引入内在好奇心机制,提高智能体探索能力与样本利用效率,并在仿真环境中用于求解倒立摆问题,实验结果表明文章算法具有更佳的收敛速度与稳定性.
展开更多
关键词
深度强化学习
柔性演员评论家算法
内在好奇心
样本利用效率
下载PDF
职称材料
基于柔性演员-评论家算法的决策规划协同研究
2
作者
唐斌
刘光耀
+3 位作者
江浩斌
田宁
米伟
王春宏
《交通运输系统工程与信息》
EI
CSCD
北大核心
2024年第2期105-113,187,共10页
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与...
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。
展开更多
关键词
智能交通
自动驾驶
柔性
演员
-
评论家
算法
决策规划协同
深度强化学习
下载PDF
职称材料
基于最大熵深度强化学习的双足机器人步态控制方法
被引量:
1
3
作者
李源潮
陶重犇
王琛
《计算机应用》
CSCD
北大核心
2024年第2期445-451,共7页
针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相...
针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相似度方法对经验样本分类,优化经验回放机制;最后,根据知识和经验设计奖励函数,使双足机器人在直线行走训练过程中不断进行姿态调整,确保直线行走的鲁棒性。在Roboschool仿真环境中与其他先进深度强化学习算法,如近端策略优化(PPO)方法和信赖域策略优化(TRPO)方法的实验对比结果表明,所提方法不仅实现了双足机器人快速稳定的直线行走,而且鲁棒性更好。
展开更多
关键词
双足机器人
步态控制
深度强化学习
最大熵
柔性
演员
-
评论家
算法
下载PDF
职称材料
基于改进强化学习的移动机器人动态避障方法
被引量:
5
4
作者
徐建华
邵康康
+1 位作者
王佳惠
刘学聪
《中国惯性技术学报》
EI
CSCD
北大核心
2023年第1期92-99,共8页
针对未知环境下移动机器人动态避障存在规划轨迹长、行驶速度慢和鲁棒性差等问题,提出一种基于改进强化学习的移动机器人动态避障方法。移动机器人根据自身速度、目标位置和激光雷达信息直接得到动作信号,实现端到端的控制。基于距离梯...
针对未知环境下移动机器人动态避障存在规划轨迹长、行驶速度慢和鲁棒性差等问题,提出一种基于改进强化学习的移动机器人动态避障方法。移动机器人根据自身速度、目标位置和激光雷达信息直接得到动作信号,实现端到端的控制。基于距离梯度引导和角度梯度引导促使移动机器人向终点方向优化,加快算法的收敛速度;结合卷积神经网络从多维观测数据中提取高质量特征,提升策略训练效果。仿真试验结果表明,在多动态障碍物环境下,所提方法的训练速度提升40%、轨迹长度缩短2.69%以上、平均线速度增加11.87%以上,与现有主流避障方法相比,具有规划轨迹短、行驶速度快、性能稳定等优点,能够实现移动机器人在多障碍物环境下平稳避障。
展开更多
关键词
移动机器人
动态避障
强化学习
柔性演员评论家算法
卷积神经网络
下载PDF
职称材料
题名
基于改进柔性演员评论家算法的研究
被引量:
2
1
作者
胡仕柯
赵海军
机构
西华师范大学计算机学院
出处
《太原师范学院学报(自然科学版)》
2021年第3期48-52,共5页
基金
西华师范大学基本科研业务费专项资金资助项目(14C002).
文摘
针对柔性演员评论家算法训练速度慢且训练过程不稳定的问题,提出了一种改进柔性演员评论家算法.通过在原有算法中引入内在好奇心机制,提高智能体探索能力与样本利用效率,并在仿真环境中用于求解倒立摆问题,实验结果表明文章算法具有更佳的收敛速度与稳定性.
关键词
深度强化学习
柔性演员评论家算法
内在好奇心
样本利用效率
Keywords
deep reinforcement learning
soft actor-critic
intrinsic curiosity module
sample utilization efficiency
分类号
TP273 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
基于柔性演员-评论家算法的决策规划协同研究
2
作者
唐斌
刘光耀
江浩斌
田宁
米伟
王春宏
机构
江苏大学
江苏罡阳转向系统有限公司
出处
《交通运输系统工程与信息》
EI
CSCD
北大核心
2024年第2期105-113,187,共10页
基金
国家自然科学基金(52225212)
江苏省六大人才高峰项目(2019-GDZB-084)
泰州市科技支撑计划项目(TG202307)。
文摘
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。
关键词
智能交通
自动驾驶
柔性
演员
-
评论家
算法
决策规划协同
深度强化学习
Keywords
intelligent transportation
autonomous driving
soft actor-critic algorithm
collaborative decision and planning
deep reinforcement learning
分类号
U491 [交通运输工程—交通运输规划与管理]
下载PDF
职称材料
题名
基于最大熵深度强化学习的双足机器人步态控制方法
被引量:
1
3
作者
李源潮
陶重犇
王琛
机构
苏州科技大学电子与信息工程学院
清华大学苏州汽车研究院
出处
《计算机应用》
CSCD
北大核心
2024年第2期445-451,共7页
基金
国家自然科学基金资助项目(62201375)
中国博士后科学基金资助项目(2021M691848)
+1 种基金
江苏省自然科学基金资助项目(BK20220635)
苏州市科技项目(SS2019029)。
文摘
针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相似度方法对经验样本分类,优化经验回放机制;最后,根据知识和经验设计奖励函数,使双足机器人在直线行走训练过程中不断进行姿态调整,确保直线行走的鲁棒性。在Roboschool仿真环境中与其他先进深度强化学习算法,如近端策略优化(PPO)方法和信赖域策略优化(TRPO)方法的实验对比结果表明,所提方法不仅实现了双足机器人快速稳定的直线行走,而且鲁棒性更好。
关键词
双足机器人
步态控制
深度强化学习
最大熵
柔性
演员
-
评论家
算法
Keywords
biped robot
gait control
deep reinforcement learning
maximum entropy
Soft Actor-Critic(SAC)algorithm
分类号
TP242.6 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
基于改进强化学习的移动机器人动态避障方法
被引量:
5
4
作者
徐建华
邵康康
王佳惠
刘学聪
机构
北京理工大学自动化学院
出处
《中国惯性技术学报》
EI
CSCD
北大核心
2023年第1期92-99,共8页
基金
装备重大基础研究项目(5140502A03)。
文摘
针对未知环境下移动机器人动态避障存在规划轨迹长、行驶速度慢和鲁棒性差等问题,提出一种基于改进强化学习的移动机器人动态避障方法。移动机器人根据自身速度、目标位置和激光雷达信息直接得到动作信号,实现端到端的控制。基于距离梯度引导和角度梯度引导促使移动机器人向终点方向优化,加快算法的收敛速度;结合卷积神经网络从多维观测数据中提取高质量特征,提升策略训练效果。仿真试验结果表明,在多动态障碍物环境下,所提方法的训练速度提升40%、轨迹长度缩短2.69%以上、平均线速度增加11.87%以上,与现有主流避障方法相比,具有规划轨迹短、行驶速度快、性能稳定等优点,能够实现移动机器人在多障碍物环境下平稳避障。
关键词
移动机器人
动态避障
强化学习
柔性演员评论家算法
卷积神经网络
Keywords
mobile robot
dynamic obstacle avoidance
reinforcement learning
soft actor-critic
convolutional neural network
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于改进柔性演员评论家算法的研究
胡仕柯
赵海军
《太原师范学院学报(自然科学版)》
2021
2
下载PDF
职称材料
2
基于柔性演员-评论家算法的决策规划协同研究
唐斌
刘光耀
江浩斌
田宁
米伟
王春宏
《交通运输系统工程与信息》
EI
CSCD
北大核心
2024
0
下载PDF
职称材料
3
基于最大熵深度强化学习的双足机器人步态控制方法
李源潮
陶重犇
王琛
《计算机应用》
CSCD
北大核心
2024
1
下载PDF
职称材料
4
基于改进强化学习的移动机器人动态避障方法
徐建华
邵康康
王佳惠
刘学聪
《中国惯性技术学报》
EI
CSCD
北大核心
2023
5
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部