期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于多Agent并行采样和学习经验复用的E^3算法 被引量:2
1
作者 刘全 杨旭东 +1 位作者 荆玲 肖飞 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2013年第1期135-140,共6页
针对E3算法所需的收敛时间界限太大,在实际问题中难以有效应用的问题,提出了一种基于多Agent并行采样和学习经验复用的改进算法。该算法在探索阶段,通过多Agent并行采样,快速收集模型信息,加速了模型构建过程;在利用阶段,通过保留最优... 针对E3算法所需的收敛时间界限太大,在实际问题中难以有效应用的问题,提出了一种基于多Agent并行采样和学习经验复用的改进算法。该算法在探索阶段,通过多Agent并行采样,快速收集模型信息,加速了模型构建过程;在利用阶段,通过保留最优值函数的方式复用算法的学习经验,提高了算法迭代计算值函数的效率。仿真实验结果表明,所提方法与原始的E3算法相比,在收敛速度和精度方面都具有很大的提高,与其他两种并行强化学习方法相比也具有很大的性能优势。 展开更多
关键词 人工智能 强化学习 E3算法 多AGENT 并行采样 学习经验复用
下载PDF
采用经验复用的高效强化学习控制方法 被引量:1
2
作者 郝钏钏 方舟 李平 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第6期70-75,共6页
使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC... 使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息;在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eNAC算法相比,ER-eNAC算法显著减少了学习过程中需要采样的定长情景的条数,提高了学习效率. 展开更多
关键词 强化学习 自然策略梯度 经验复用 倒立摆控制
下载PDF
基于B-MAXQ自适应预测PID在柴油机调速中的研究 被引量:2
3
作者 惠小亮 张朦朦 +2 位作者 李鹏豪 张永林 曹钰 《小型内燃机与车辆技术》 2020年第1期36-43,共8页
PID参数集合的选取直接影响齿条位置,从而控制柴油机的实际转速,所以要想使柴油机的实际转速无限趋近于所设定的目标转速,PID参数的选取至关重要。传统的PID控制技术大多使用的是固定公式调节,很难适应负载、模型参数大范围变化,并且很... PID参数集合的选取直接影响齿条位置,从而控制柴油机的实际转速,所以要想使柴油机的实际转速无限趋近于所设定的目标转速,PID参数的选取至关重要。传统的PID控制技术大多使用的是固定公式调节,很难适应负载、模型参数大范围变化,并且很难快速确定最优控制参数。针对传统调速方法存在的缺陷,为了提高调速器在调速过程中的综合性能,对执行器PID参数预测方法进行了研究,并且提出一种概率统计Bayes公式和MAXQ算法结合的自适应行为预测算法,即BMAXQ(Bayes-MAXQ)算法。电子调速器工作过程是学习经验累计过程,为避免某些学习经验被丢弃或浪费,在B-MAXQ算法中构建转速-PID预测表,增加即时评价函数C,以及相应的完成函数,使调速过程中学习经验能够得到复用并且实现电子调速器自主调整过程,从而达到预测执行器最优PID参数的目的。最后通过matlab仿真试验验证该调速策略的有效性。 展开更多
关键词 电子调速器 PID MAXQ学习算法 贝叶斯概率统计 经验复用
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部