期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
连续空间的递归最小二乘行动者—评论家算法
被引量:
2
1
作者
朱文文
金玉净
+1 位作者
伏玉琛
宋绪文
《计算机应用研究》
CSCD
北大核心
2014年第7期1994-1997,2000,共5页
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对...
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对连续的状态空间进行编码,评论家部分改用带资格迹的递归最小二乘时间差分方法,而行动者部分用策略梯度方法,在连续动作空间中进行策略搜索。Mountain Car问题的仿真结果表明该算法具有较好的收敛结果。
展开更多
关键词
强化学习
行动者—评论家
方法
连续状态动作空间
递归最小二乘
策略梯度
高斯径向基函数
下载PDF
职称材料
基于随机加权三重Q学习的异策略最大熵强化学习算法
被引量:
2
2
作者
范静宇
刘全
《计算机科学》
CSCD
北大核心
2022年第6期335-341,共7页
强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家...
强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家算法会受到动作值高估问题的影响。在类行动者-评论家算法的学习过程中,剪切双Q学习可以在一定程度上解决动作值高估的问题,但同时也引入了一定程度的低估问题。为了进一步解决类行动者-评论家算法中的高低估问题,提出了一种新的随机加权三重Q学习方法。该方法可以更好地解决类行动者-评论家算法中的高低估问题。此外,将这种新的方法与软行动者-评论家算法结合,提出了一种新的基于随机加权三重Q学习的软行动者-评论家算法,该算法在限制Q估计值在真实Q值附近的同时,通过随机加权方法增加Q估计值的随机性,从而有效解决了学习过程中对动作值的高低估问题。实验结果表明,相比SAC算法、DDPG算法、PPO算法与TD3算法等深度强化学习算法,SAC-RWTQ算法可以在gym仿真平台中的多个Mujoco任务上获得更好的表现。
展开更多
关键词
Q学习
深度学习
异策略强化学习
连续动作空间
最大熵
软
行动者—评论家
算法
下载PDF
职称材料
基于多层注意力机制—柔性AC算法的机器人路径规划
被引量:
5
3
作者
韩金亮
任海菁
+2 位作者
吴淞玮
蒋欣欣
刘凤凯
《计算机应用研究》
CSCD
北大核心
2020年第12期3650-3655,共6页
针对行动者—评论家算法存在的经验学习样本维度高、策略梯度模型鲁棒性低等问题,依据多代理系统的信息协作优势,构建注意力机制网络并作为代理体,引入多层并行注意力机制网络模型对AC算法进行改进,提出一种基于多层并行注意力机制的柔...
针对行动者—评论家算法存在的经验学习样本维度高、策略梯度模型鲁棒性低等问题,依据多代理系统的信息协作优势,构建注意力机制网络并作为代理体,引入多层并行注意力机制网络模型对AC算法进行改进,提出一种基于多层并行注意力机制的柔性AC算法。将其用于解决动态未知环境下的机器人路径规划问题,可增强行动者的策略梯度鲁棒性并降低评论家的回归误差,实现机器人路径规划最优方案的快速收敛。实验结果表明,该算法有效克服机器人路径规划的局部最优,具有计算速度快、稳定收敛的优点。
展开更多
关键词
行动者—评论家
算法
注意力机制
深度强化学习
机器人路径规划
下载PDF
职称材料
基于替代迹的蜂窝网信道分配Actor-Critic算法
被引量:
1
4
作者
曲明哲
《计算机应用研究》
CSCD
北大核心
2018年第4期1213-1216,共4页
针对D2D混合蜂窝网络在进行信道分配时难以在较高信噪比条件下进行自动信道分配的问题,提出了一种基于替代迹的蜂窝网络信道分配Actor-Critic算法。首先定义了信道分配问题的MDP模型,然后定义了基于替代迹的Actor-Critic算法。Actor采...
针对D2D混合蜂窝网络在进行信道分配时难以在较高信噪比条件下进行自动信道分配的问题,提出了一种基于替代迹的蜂窝网络信道分配Actor-Critic算法。首先定义了信道分配问题的MDP模型,然后定义了基于替代迹的Actor-Critic算法。Actor采用模拟退火探索策略自适应控制状态空间的搜索,将critic部分求解的值函数的时间差分误差用于更新该策略的优先级,再依优先级对策略进行更新;critic部分采用基于替代迹的值函数更新方式,并计算值函数的时间差分误差,以指导actor改进策略。实验结果表明其具有系统吞吐量大和信噪比高的优点。
展开更多
关键词
信道分配
蜂窝网络
行动者—评论家
替代迹
下载PDF
职称材料
题名
连续空间的递归最小二乘行动者—评论家算法
被引量:
2
1
作者
朱文文
金玉净
伏玉琛
宋绪文
机构
苏州大学计算机科学与技术学院
出处
《计算机应用研究》
CSCD
北大核心
2014年第7期1994-1997,2000,共5页
基金
国家自然科学基金资助项目(61070122
61070223
+4 种基金
61373094
60970015)
江苏省自然科学基金资助项目(BK2009116)
江苏省高校自然科学研究项目(09KJA520002)
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K04)
文摘
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对连续的状态空间进行编码,评论家部分改用带资格迹的递归最小二乘时间差分方法,而行动者部分用策略梯度方法,在连续动作空间中进行策略搜索。Mountain Car问题的仿真结果表明该算法具有较好的收敛结果。
关键词
强化学习
行动者—评论家
方法
连续状态动作空间
递归最小二乘
策略梯度
高斯径向基函数
Keywords
reinforcement learning
actor-critic method
continuous state and action space
recursive least-squares
policy gradient
Gaussian radial basis functions
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于随机加权三重Q学习的异策略最大熵强化学习算法
被引量:
2
2
作者
范静宇
刘全
机构
苏州大学计算机科学与技术学院
苏州大学江苏省计算机信息处理技术重点实验室
吉林大学符号计算与知识工程教育部重点实验室
软件新技术与产业化协同创新中心
出处
《计算机科学》
CSCD
北大核心
2022年第6期335-341,共7页
基金
国家自然科学基金(61772355,61702055,61502323,61502329)
江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004)
+2 种基金
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18)
苏州市应用基础研究计划工业部分(SYG201422)
江苏省高校优势学科建设工程资助项目。
文摘
强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家算法会受到动作值高估问题的影响。在类行动者-评论家算法的学习过程中,剪切双Q学习可以在一定程度上解决动作值高估的问题,但同时也引入了一定程度的低估问题。为了进一步解决类行动者-评论家算法中的高低估问题,提出了一种新的随机加权三重Q学习方法。该方法可以更好地解决类行动者-评论家算法中的高低估问题。此外,将这种新的方法与软行动者-评论家算法结合,提出了一种新的基于随机加权三重Q学习的软行动者-评论家算法,该算法在限制Q估计值在真实Q值附近的同时,通过随机加权方法增加Q估计值的随机性,从而有效解决了学习过程中对动作值的高低估问题。实验结果表明,相比SAC算法、DDPG算法、PPO算法与TD3算法等深度强化学习算法,SAC-RWTQ算法可以在gym仿真平台中的多个Mujoco任务上获得更好的表现。
关键词
Q学习
深度学习
异策略强化学习
连续动作空间
最大熵
软
行动者—评论家
算法
Keywords
Q-learning
Deep learning
Off-policy reinforcement learning
Continuous action space
Maximum entropy
Soft actor critic algorithm
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于多层注意力机制—柔性AC算法的机器人路径规划
被引量:
5
3
作者
韩金亮
任海菁
吴淞玮
蒋欣欣
刘凤凯
机构
中国矿业大学数学学院
中国矿业大学环境与测绘学院
中国矿业大学安全工程学院
中国矿业大学信息与控制工程学院
出处
《计算机应用研究》
CSCD
北大核心
2020年第12期3650-3655,共6页
基金
国家自然科学基金资助项目(61501465)
国家大学生创新训练项目(201910290053Z)。
文摘
针对行动者—评论家算法存在的经验学习样本维度高、策略梯度模型鲁棒性低等问题,依据多代理系统的信息协作优势,构建注意力机制网络并作为代理体,引入多层并行注意力机制网络模型对AC算法进行改进,提出一种基于多层并行注意力机制的柔性AC算法。将其用于解决动态未知环境下的机器人路径规划问题,可增强行动者的策略梯度鲁棒性并降低评论家的回归误差,实现机器人路径规划最优方案的快速收敛。实验结果表明,该算法有效克服机器人路径规划的局部最优,具有计算速度快、稳定收敛的优点。
关键词
行动者—评论家
算法
注意力机制
深度强化学习
机器人路径规划
Keywords
actor-critic algorithm
attention mechanism
deep reinforcement learning
robot path planning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于替代迹的蜂窝网信道分配Actor-Critic算法
被引量:
1
4
作者
曲明哲
机构
哈尔滨学院工学院
出处
《计算机应用研究》
CSCD
北大核心
2018年第4期1213-1216,共4页
文摘
针对D2D混合蜂窝网络在进行信道分配时难以在较高信噪比条件下进行自动信道分配的问题,提出了一种基于替代迹的蜂窝网络信道分配Actor-Critic算法。首先定义了信道分配问题的MDP模型,然后定义了基于替代迹的Actor-Critic算法。Actor采用模拟退火探索策略自适应控制状态空间的搜索,将critic部分求解的值函数的时间差分误差用于更新该策略的优先级,再依优先级对策略进行更新;critic部分采用基于替代迹的值函数更新方式,并计算值函数的时间差分误差,以指导actor改进策略。实验结果表明其具有系统吞吐量大和信噪比高的优点。
关键词
信道分配
蜂窝网络
行动者—评论家
替代迹
Keywords
channel allocation
cellular network
Actor-Critic
replace eligibility
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
连续空间的递归最小二乘行动者—评论家算法
朱文文
金玉净
伏玉琛
宋绪文
《计算机应用研究》
CSCD
北大核心
2014
2
下载PDF
职称材料
2
基于随机加权三重Q学习的异策略最大熵强化学习算法
范静宇
刘全
《计算机科学》
CSCD
北大核心
2022
2
下载PDF
职称材料
3
基于多层注意力机制—柔性AC算法的机器人路径规划
韩金亮
任海菁
吴淞玮
蒋欣欣
刘凤凯
《计算机应用研究》
CSCD
北大核心
2020
5
下载PDF
职称材料
4
基于替代迹的蜂窝网信道分配Actor-Critic算法
曲明哲
《计算机应用研究》
CSCD
北大核心
2018
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部