期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于Dyna框架的非参数化近似策略迭代增强学习
1
作者 季挺 张华 《计算机应用》 CSCD 北大核心 2018年第5期1230-1238,共9页
为解决当前近似策略迭代增强学习算法逼近器不能完全自动构建的问题,提出一种基于Dyna框架的非参数化近似策略迭代(NPAPI-Dyna)增强学习算法。引入采样缓存和采样变化率设计二级随机采样过程采集样本,基于轮廓指标、采用K均值聚类算法实... 为解决当前近似策略迭代增强学习算法逼近器不能完全自动构建的问题,提出一种基于Dyna框架的非参数化近似策略迭代(NPAPI-Dyna)增强学习算法。引入采样缓存和采样变化率设计二级随机采样过程采集样本,基于轮廓指标、采用K均值聚类算法实现trial-and-error过程生成核心状态基函数,采用以样本完全覆盖为目标的估计方法生成Q值函数逼近器,采用贪心策略设计动作选择器,利用对状态基函数的访问频次描述环境拓扑特征并构建环境估计模型;而后基于Dyna框架的模型辨识思想,将学习和规划过程有机结合,进一步加快了增强学习速度。一级倒立摆平衡控制的仿真实验中,当增强学习误差率为0.01时,算法学习成功率为100%,学习成功的最小尝试次数仅为2,平均尝试次数仅为7.73,角度平均绝对偏差为3.053 8°,角度平均振荡范围为2.759°;当增强学习误差率为0.1时进行100次独立仿真运算,相比Online-LSPI和BLSPI算法平均需要150次以上尝试才能学习得到控制策略,而NPAPI-Dyna基本可在50次尝试内学习成功。实验分析表明,NPAPI-Dyna能够完全自动地构建、调整增强学习结构,学习结果精度较高,同时较快收敛。 展开更多
关键词 增强学习 dyna框架 策略迭代 非参数化近似策略 倒立摆
下载PDF
基于强化学习的城市交通路径规划 被引量:8
2
作者 刘思嘉 童向荣 《计算机应用》 CSCD 北大核心 2021年第1期185-190,共6页
城市交通路径规划需要考虑规划的快速性和车辆的安全性,而目前大多数强化学习算法不能兼顾两者。针对这个问题,首先提出采用基于模型的算法和与模型无关的算法相结合的Dyna框架,以提高规划的速度;然后使用经典的Sarsa算法作为选路策略,... 城市交通路径规划需要考虑规划的快速性和车辆的安全性,而目前大多数强化学习算法不能兼顾两者。针对这个问题,首先提出采用基于模型的算法和与模型无关的算法相结合的Dyna框架,以提高规划的速度;然后使用经典的Sarsa算法作为选路策略,以提高算法的安全性;最后将两者结合提出了改进的基于Sarsa的Dyna-Sa算法。实验结果表明,提前规划步数越多的强化学习算法收敛速度越快。使用收敛速度和碰撞次数等指标,将Dyna-Sa算法与Q-学习算法、Sarsa算法和Dyna-Q算法进行对比,可知Dyna-Sa算法能够减少车辆在有障碍地图中的碰撞次数,保证车辆在城市交通环境中的安全性,同时能够提高算法收敛速度。 展开更多
关键词 路径规划 城市交通 强化学习 dyna框架 Sarsa算法
下载PDF
12m大客车侧面碰撞安全性分析
3
作者 王守江 马力 +1 位作者 姚晓璐 朱品昌 《客车技术》 2007年第6期19-22,共4页
建立了被撞大客车车身骨架、撞击大客车车身骨架和撞击货车有限元模型,运用ANSYS/LS—DYNA软件,分别模拟了撞击大客车与被撞大客车和撞击货车与被撞大客车侧面碰撞.并从侧面碰撞位置、骨架结构变形、乘员生存空间、碰撞速度和加速... 建立了被撞大客车车身骨架、撞击大客车车身骨架和撞击货车有限元模型,运用ANSYS/LS—DYNA软件,分别模拟了撞击大客车与被撞大客车和撞击货车与被撞大客车侧面碰撞.并从侧面碰撞位置、骨架结构变形、乘员生存空间、碰撞速度和加速度方面分析了被撞大客车侧面碰撞安全性。 展开更多
关键词 侧面碰撞 客车骨架 被动安全 LS—dyna
下载PDF
Automatic Generation Control in a Distributed Power Grid Based on Multi-step Reinforcement Learning
4
作者 Wenmeng Zhao Tuo Zeng +3 位作者 Zhihong Liu Lihui Xie Lei Xi Hui Ma 《Protection and Control of Modern Power Systems》 SCIE EI 2024年第4期39-50,共12页
The increasing use of renewable energy in the power system results in strong stochastic disturbances and degrades the control performance of the distributed power grids.In this paper,a novel multi-agent collaborative ... The increasing use of renewable energy in the power system results in strong stochastic disturbances and degrades the control performance of the distributed power grids.In this paper,a novel multi-agent collaborative reinforcement learning algorithm is proposed with automatic optimization,namely,Dyna-DQL,to quickly achieve an optimal coordination solution for the multi-area distributed power grids.The proposed Dyna framework is combined with double Q-learning to collect and store the environmental samples.This can iteratively update the agents through buffer replay and real-time data.Thus the environmental data can be fully used to enhance the learning speed of the agents.This mitigates the negative impact of heavy stochastic disturbances caused by the integration of renewable energy on the control performance.Simulations are conducted on two different models to validate the effectiveness of the proposed algorithm.The results demonstrate that the proposed Dyna-DQL algorithm exhibits superior stability and robustness compared to other reinforcement learning algorithms. 展开更多
关键词 Automatic generation control dyna framework distributed power grid MULTI-AGENT mod-el-based reinforcement learning
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部