期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
结合向前状态预测和隐空间约束的强化学习表示算法
被引量:
4
1
作者
项宇
秦进
袁琳琳
《计算机系统应用》
2022年第11期148-156,共9页
虽然深度强化学习能够解决很多复杂的控制问题,但是需要付出的代价是必须和环境进行大量的交互,这是深度强化学习所面临的一大挑战.造成这一问题的原因之一是仅依靠值函数损失难以让智能体从高维的复杂输入中提取有效特征.导致智能体对...
虽然深度强化学习能够解决很多复杂的控制问题,但是需要付出的代价是必须和环境进行大量的交互,这是深度强化学习所面临的一大挑战.造成这一问题的原因之一是仅依靠值函数损失难以让智能体从高维的复杂输入中提取有效特征.导致智能体对所处状态理解不足,从而不能正确给状态分配价值.因此,为了让智能体认识所处环境,提高强化学习样本效率,本文提出一种结合向前状态预测与隐空间约束的表示学习方法(regularized predictive representation learning,RPRL).帮助智能体从高维视觉输入中学习并提取状态特征,以此来提高强化学习样本效率.该方法用前向的状态转移损失作为辅助损失,使智能体学习到的特征包含环境转移的相关动态信息.同时在向前预测的基础上添加正则化项对隐空间的状态表示进行约束,进一步帮助智能体学习到高维度输入的平滑、规则表示.该方法在DeepMind Control(DMControl)环境中与其他的基于模型的方法以及加入了表示学习的无模型方法进行比较,都获得了更好的性能.
展开更多
关键词
强化学习
表示方法
状态转移
隐空间约束
连续控制
高维度输入
下载PDF
职称材料
结合Bootstrapped探索方法的CCLF算法
2
作者
杜志斌
黄银豪
《计算机系统应用》
2023年第9期162-168,共7页
深度强化学习因其可用于从高维的图像中提取出有效信息,从而可以自动生成解决各类复杂任务的有效策略,如游戏AI,机器人控制和自动驾驶等.然而,由于任务环境的复杂性以及智能体低下的探索效率,使得即使执行相对简单的任务,智能体仍需要...
深度强化学习因其可用于从高维的图像中提取出有效信息,从而可以自动生成解决各类复杂任务的有效策略,如游戏AI,机器人控制和自动驾驶等.然而,由于任务环境的复杂性以及智能体低下的探索效率,使得即使执行相对简单的任务,智能体仍需要与环境进行大量交互.因此,本文提出一种结合Bootstrapped探索方法的CCLF算法—Bootstrapped CCLF,该算法通过actor网络中多个head来产生更多不同的潜在动作,从而能够访问到更多不同的状态,提高智能体的探索效率,进而加快收敛过程.实验结果表明,该算法在DeepMind Control环境中具有比原算法更好的性能以及稳定性,证明了该算法的有效性.
展开更多
关键词
深度强化学习
策略梯度
探索策略
连续控制
高维度输入
下载PDF
职称材料
题名
结合向前状态预测和隐空间约束的强化学习表示算法
被引量:
4
1
作者
项宇
秦进
袁琳琳
机构
贵州大学计算机科学与技术学院
贵州开放大学信息工程学院
出处
《计算机系统应用》
2022年第11期148-156,共9页
基金
国家自然科学基金(61562009)
贵州省科学技术基金(黔科合基础[2020]1Y275)
贵州省科技计划(黔科合基础[2019]1130号)
文摘
虽然深度强化学习能够解决很多复杂的控制问题,但是需要付出的代价是必须和环境进行大量的交互,这是深度强化学习所面临的一大挑战.造成这一问题的原因之一是仅依靠值函数损失难以让智能体从高维的复杂输入中提取有效特征.导致智能体对所处状态理解不足,从而不能正确给状态分配价值.因此,为了让智能体认识所处环境,提高强化学习样本效率,本文提出一种结合向前状态预测与隐空间约束的表示学习方法(regularized predictive representation learning,RPRL).帮助智能体从高维视觉输入中学习并提取状态特征,以此来提高强化学习样本效率.该方法用前向的状态转移损失作为辅助损失,使智能体学习到的特征包含环境转移的相关动态信息.同时在向前预测的基础上添加正则化项对隐空间的状态表示进行约束,进一步帮助智能体学习到高维度输入的平滑、规则表示.该方法在DeepMind Control(DMControl)环境中与其他的基于模型的方法以及加入了表示学习的无模型方法进行比较,都获得了更好的性能.
关键词
强化学习
表示方法
状态转移
隐空间约束
连续控制
高维度输入
Keywords
reinforcement learning
representation method
state transition
latent space constraint
continuous control
high dimensional input
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
结合Bootstrapped探索方法的CCLF算法
2
作者
杜志斌
黄银豪
机构
华南师范大学软件学院
出处
《计算机系统应用》
2023年第9期162-168,共7页
基金
辽宁省教育厅高等学校基本科研项目(LJKQZ2021164)。
文摘
深度强化学习因其可用于从高维的图像中提取出有效信息,从而可以自动生成解决各类复杂任务的有效策略,如游戏AI,机器人控制和自动驾驶等.然而,由于任务环境的复杂性以及智能体低下的探索效率,使得即使执行相对简单的任务,智能体仍需要与环境进行大量交互.因此,本文提出一种结合Bootstrapped探索方法的CCLF算法—Bootstrapped CCLF,该算法通过actor网络中多个head来产生更多不同的潜在动作,从而能够访问到更多不同的状态,提高智能体的探索效率,进而加快收敛过程.实验结果表明,该算法在DeepMind Control环境中具有比原算法更好的性能以及稳定性,证明了该算法的有效性.
关键词
深度强化学习
策略梯度
探索策略
连续控制
高维度输入
Keywords
deep reinforcement learning
policy gradient
exploration strategies
continuous control
high dimensional input
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
结合向前状态预测和隐空间约束的强化学习表示算法
项宇
秦进
袁琳琳
《计算机系统应用》
2022
4
下载PDF
职称材料
2
结合Bootstrapped探索方法的CCLF算法
杜志斌
黄银豪
《计算机系统应用》
2023
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部