期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于多Agent并行采样和学习经验复用的E^3算法
被引量:
2
1
作者
刘全
杨旭东
+1 位作者
荆玲
肖飞
《吉林大学学报(工学版)》
EI
CAS
CSCD
北大核心
2013年第1期135-140,共6页
针对E3算法所需的收敛时间界限太大,在实际问题中难以有效应用的问题,提出了一种基于多Agent并行采样和学习经验复用的改进算法。该算法在探索阶段,通过多Agent并行采样,快速收集模型信息,加速了模型构建过程;在利用阶段,通过保留最优...
针对E3算法所需的收敛时间界限太大,在实际问题中难以有效应用的问题,提出了一种基于多Agent并行采样和学习经验复用的改进算法。该算法在探索阶段,通过多Agent并行采样,快速收集模型信息,加速了模型构建过程;在利用阶段,通过保留最优值函数的方式复用算法的学习经验,提高了算法迭代计算值函数的效率。仿真实验结果表明,所提方法与原始的E3算法相比,在收敛速度和精度方面都具有很大的提高,与其他两种并行强化学习方法相比也具有很大的性能优势。
展开更多
关键词
人工智能
强化学习
E3算法
多AGENT
并行采样
学习
经验复用
下载PDF
职称材料
采用经验复用的高效强化学习控制方法
被引量:
1
2
作者
郝钏钏
方舟
李平
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2012年第6期70-75,共6页
使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC...
使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息;在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eNAC算法相比,ER-eNAC算法显著减少了学习过程中需要采样的定长情景的条数,提高了学习效率.
展开更多
关键词
强化学习
自然策略梯度
经验复用
倒立摆控制
下载PDF
职称材料
基于B-MAXQ自适应预测PID在柴油机调速中的研究
被引量:
2
3
作者
惠小亮
张朦朦
+2 位作者
李鹏豪
张永林
曹钰
《小型内燃机与车辆技术》
2020年第1期36-43,共8页
PID参数集合的选取直接影响齿条位置,从而控制柴油机的实际转速,所以要想使柴油机的实际转速无限趋近于所设定的目标转速,PID参数的选取至关重要。传统的PID控制技术大多使用的是固定公式调节,很难适应负载、模型参数大范围变化,并且很...
PID参数集合的选取直接影响齿条位置,从而控制柴油机的实际转速,所以要想使柴油机的实际转速无限趋近于所设定的目标转速,PID参数的选取至关重要。传统的PID控制技术大多使用的是固定公式调节,很难适应负载、模型参数大范围变化,并且很难快速确定最优控制参数。针对传统调速方法存在的缺陷,为了提高调速器在调速过程中的综合性能,对执行器PID参数预测方法进行了研究,并且提出一种概率统计Bayes公式和MAXQ算法结合的自适应行为预测算法,即BMAXQ(Bayes-MAXQ)算法。电子调速器工作过程是学习经验累计过程,为避免某些学习经验被丢弃或浪费,在B-MAXQ算法中构建转速-PID预测表,增加即时评价函数C,以及相应的完成函数,使调速过程中学习经验能够得到复用并且实现电子调速器自主调整过程,从而达到预测执行器最优PID参数的目的。最后通过matlab仿真试验验证该调速策略的有效性。
展开更多
关键词
电子调速器
PID
MAXQ学习算法
贝叶斯概率统计
经验复用
下载PDF
职称材料
题名
基于多Agent并行采样和学习经验复用的E^3算法
被引量:
2
1
作者
刘全
杨旭东
荆玲
肖飞
机构
苏州大学计算机科学与技术学院
吉林大学符号计算与知识工程教育部重点实验室
南京大学计算机科学与技术系
出处
《吉林大学学报(工学版)》
EI
CAS
CSCD
北大核心
2013年第1期135-140,共6页
基金
国家自然科学基金项目(61070223
61103045
+7 种基金
60970015
61170020
61272005)
江苏省自然科学基金项目(BK2009116
BK2012616)
江苏省高校自然科学研究项目(09KJA520002
09KJB520012)
吉林大学符号计算与知识工程教育部重点实验室项目(93K172012K04)
文摘
针对E3算法所需的收敛时间界限太大,在实际问题中难以有效应用的问题,提出了一种基于多Agent并行采样和学习经验复用的改进算法。该算法在探索阶段,通过多Agent并行采样,快速收集模型信息,加速了模型构建过程;在利用阶段,通过保留最优值函数的方式复用算法的学习经验,提高了算法迭代计算值函数的效率。仿真实验结果表明,所提方法与原始的E3算法相比,在收敛速度和精度方面都具有很大的提高,与其他两种并行强化学习方法相比也具有很大的性能优势。
关键词
人工智能
强化学习
E3算法
多AGENT
并行采样
学习
经验复用
Keywords
artificial intelligence
reinforcement learning
E^3 algorithm
multi-agent
parallel sampling
learning experience reuse
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
采用经验复用的高效强化学习控制方法
被引量:
1
2
作者
郝钏钏
方舟
李平
机构
浙江大学控制科学与工程学系
浙江大学航空航天学院
出处
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2012年第6期70-75,共6页
基金
国家自然科学基金青年科学基金资助项目(61004066)
浙江省科技计划项目(2011C23106)
文摘
使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息;在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eNAC算法相比,ER-eNAC算法显著减少了学习过程中需要采样的定长情景的条数,提高了学习效率.
关键词
强化学习
自然策略梯度
经验复用
倒立摆控制
Keywords
reinforcement learning
natural policy gradient
experience reuse
inverted pendulum control
分类号
TP273.22 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
基于B-MAXQ自适应预测PID在柴油机调速中的研究
被引量:
2
3
作者
惠小亮
张朦朦
李鹏豪
张永林
曹钰
机构
重庆红江机械有限责任公司
船舶与海洋工程动力系统国家工程实验室
出处
《小型内燃机与车辆技术》
2020年第1期36-43,共8页
基金
工信部“船用高速柴油机电控系统工程化应用研究(一期)”(工信部装函[2018]473号)。
文摘
PID参数集合的选取直接影响齿条位置,从而控制柴油机的实际转速,所以要想使柴油机的实际转速无限趋近于所设定的目标转速,PID参数的选取至关重要。传统的PID控制技术大多使用的是固定公式调节,很难适应负载、模型参数大范围变化,并且很难快速确定最优控制参数。针对传统调速方法存在的缺陷,为了提高调速器在调速过程中的综合性能,对执行器PID参数预测方法进行了研究,并且提出一种概率统计Bayes公式和MAXQ算法结合的自适应行为预测算法,即BMAXQ(Bayes-MAXQ)算法。电子调速器工作过程是学习经验累计过程,为避免某些学习经验被丢弃或浪费,在B-MAXQ算法中构建转速-PID预测表,增加即时评价函数C,以及相应的完成函数,使调速过程中学习经验能够得到复用并且实现电子调速器自主调整过程,从而达到预测执行器最优PID参数的目的。最后通过matlab仿真试验验证该调速策略的有效性。
关键词
电子调速器
PID
MAXQ学习算法
贝叶斯概率统计
经验复用
Keywords
Electronic governor
PID
MAXQ learning algorithm
Bayesian probability statistics
Experience reuse
分类号
TK422 [动力工程及工程热物理—动力机械及工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于多Agent并行采样和学习经验复用的E^3算法
刘全
杨旭东
荆玲
肖飞
《吉林大学学报(工学版)》
EI
CAS
CSCD
北大核心
2013
2
下载PDF
职称材料
2
采用经验复用的高效强化学习控制方法
郝钏钏
方舟
李平
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2012
1
下载PDF
职称材料
3
基于B-MAXQ自适应预测PID在柴油机调速中的研究
惠小亮
张朦朦
李鹏豪
张永林
曹钰
《小型内燃机与车辆技术》
2020
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部