期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
多Agent系统的Q值强化学习算法
被引量:
2
1
作者
尚艳玲
肖文雅
《河南师范大学学报(自然科学版)》
CAS
北大核心
2013年第2期158-160,共3页
对多Agent系统的Q值强化学习算法进行研究,将历史信息因素的影响添加到Q值学习中,提出了一个新的基于多Agent系统的Q值学习算法.该算法在保证多Agent系统利益达到相对最大化的同时,也有效降低了Agent之间的冲突率.最后,通过仿真测试验...
对多Agent系统的Q值强化学习算法进行研究,将历史信息因素的影响添加到Q值学习中,提出了一个新的基于多Agent系统的Q值学习算法.该算法在保证多Agent系统利益达到相对最大化的同时,也有效降低了Agent之间的冲突率.最后,通过仿真测试验证了该算法的有效性.
展开更多
关键词
多AGENT
强化
学习
q值学习
下载PDF
职称材料
推断网络辅助下的DQN在卷烟制丝过程控制中的实证
被引量:
3
2
作者
陆帅
丁香乾
于树松
《制造业自动化》
CSCD
2020年第3期148-151,共4页
针对DQN算法在工业环境维度或动作维度极高的情况下训练速度慢、不易收敛、复用性差的问题,提出了构建等价环境的方法,该方法基于MDP过程构建半增强训练模型,并在输入维度巨大的卷烟制丝过程控制中通过测试。通过分析MP过程,解释了DQN相...
针对DQN算法在工业环境维度或动作维度极高的情况下训练速度慢、不易收敛、复用性差的问题,提出了构建等价环境的方法,该方法基于MDP过程构建半增强训练模型,并在输入维度巨大的卷烟制丝过程控制中通过测试。通过分析MP过程,解释了DQN相对Q值学习更加有效的原因,分析了Q值学习本身忽略的环境压缩问题,提出构建环境等价网络的算法。实验表明,在工业环境中,该算法相对DQN明显提高了记忆的使用效率。可预见该算法能够将已完成训练的环境经验应用在新的任务中。同时该算法可推广至动作等价,以简化拥有连续动作或动作维度极高的环境训练问题。
展开更多
关键词
增强
学习
马尔科夫决策过程(MDP)
神经网络
深度
q值学习
(D
q
N)
降维
下载PDF
职称材料
题名
多Agent系统的Q值强化学习算法
被引量:
2
1
作者
尚艳玲
肖文雅
机构
安阳师范学院计算机教学部
新乡医学院现代教育中心
出处
《河南师范大学学报(自然科学版)》
CAS
北大核心
2013年第2期158-160,共3页
基金
国家自然科学基金(61073065)
河南省社科联
省经联团调研课题(SKL-2012-2608)
文摘
对多Agent系统的Q值强化学习算法进行研究,将历史信息因素的影响添加到Q值学习中,提出了一个新的基于多Agent系统的Q值学习算法.该算法在保证多Agent系统利益达到相对最大化的同时,也有效降低了Agent之间的冲突率.最后,通过仿真测试验证了该算法的有效性.
关键词
多AGENT
强化
学习
q值学习
Keywords
multi-Agent systems
reinforcement learning
q
-learning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
推断网络辅助下的DQN在卷烟制丝过程控制中的实证
被引量:
3
2
作者
陆帅
丁香乾
于树松
机构
中国海洋大学信息科学与工程学院
出处
《制造业自动化》
CSCD
2020年第3期148-151,共4页
基金
青岛市科技计划19-8-1-12-XX
文摘
针对DQN算法在工业环境维度或动作维度极高的情况下训练速度慢、不易收敛、复用性差的问题,提出了构建等价环境的方法,该方法基于MDP过程构建半增强训练模型,并在输入维度巨大的卷烟制丝过程控制中通过测试。通过分析MP过程,解释了DQN相对Q值学习更加有效的原因,分析了Q值学习本身忽略的环境压缩问题,提出构建环境等价网络的算法。实验表明,在工业环境中,该算法相对DQN明显提高了记忆的使用效率。可预见该算法能够将已完成训练的环境经验应用在新的任务中。同时该算法可推广至动作等价,以简化拥有连续动作或动作维度极高的环境训练问题。
关键词
增强
学习
马尔科夫决策过程(MDP)
神经网络
深度
q值学习
(D
q
N)
降维
分类号
TP273 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
多Agent系统的Q值强化学习算法
尚艳玲
肖文雅
《河南师范大学学报(自然科学版)》
CAS
北大核心
2013
2
下载PDF
职称材料
2
推断网络辅助下的DQN在卷烟制丝过程控制中的实证
陆帅
丁香乾
于树松
《制造业自动化》
CSCD
2020
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部