期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
优化Q_learning算法在强化学习中的应用 被引量:2
1
作者 吴志福 《科技通报》 2018年第2期74-76,82,共4页
Q_learning算法在实际应用过程中出现了许多问题,比如维数灾难、收敛缓慢等问题,通过对Q_learning算法进行改进,以期提升Q_learning算法的环境适应能力。基于启发式学习理论,将启发式奖赏函数融合到Q_learning算法中,对Q_learning算法... Q_learning算法在实际应用过程中出现了许多问题,比如维数灾难、收敛缓慢等问题,通过对Q_learning算法进行改进,以期提升Q_learning算法的环境适应能力。基于启发式学习理论,将启发式奖赏函数融合到Q_learning算法中,对Q_learning算法进行优化和改进。最后通过仿真实验进行验证,该改进算法能有效提升机器的环境适应能力和学习能力。因此,经过优化之后的Q_learning算法可以在实际过程中应用。 展开更多
关键词 强化学习 q_learning算法 启发式函数 优化
下载PDF
分层强化学习在足球机器人中的应用 被引量:2
2
作者 邢宇明 白振兴 《微计算机信息》 北大核心 2008年第32期231-233,共3页
提出将MaxQ分层增强式学习应用于足球机器人进攻策略学习,提高了强化学习的性能。通过在Robocup中的应用和实验,得出基于MaxQ分层强化学习的效果要优于传统的强化学习方法。
关键词 强化学习 q_learning算法 MaxQ算法 ROBOCUP
下载PDF
一种基于Agent的单路口交通信号学习控制方法 被引量:62
3
作者 马寿峰 李英 刘豹 《系统工程学报》 CSCD 2002年第6期526-530,共5页
Agent技术是从分布式人工智能领域中兴起的研究热点 .论文将Agent与经验知识和加强学习方法中Q -学习算法相结合 ,应用到城市交通信号控制领域中 ,解决单个路口的动态实时问题 .通过在仿真环境下的对比 。
关键词 Agent 单路口 交通信号 学习控制方法 城市交通控制 智能体 Q-学习 分布式人工智能
下载PDF
强化学习算法研究 被引量:10
4
作者 刘忠 李海红 刘全 《计算机工程与设计》 CSCD 北大核心 2008年第22期5805-5809,共5页
针对智能Agent运动中普遍存在的避障问题,结合强化学习具有的试错和环境交互获得在某状态下选择动作的策略以及无导师在线学习等特性。在介绍强化学习的原理、分类以及主要算法(TD(λ)、Q_learning、Dyna、Prioritized Sweeping、Sarsa... 针对智能Agent运动中普遍存在的避障问题,结合强化学习具有的试错和环境交互获得在某状态下选择动作的策略以及无导师在线学习等特性。在介绍强化学习的原理、分类以及主要算法(TD(λ)、Q_learning、Dyna、Prioritized Sweeping、Sarsa)的基础上,对TD(λ)、Q_learning的算法进行分析,并将其应用到实验中。实验结果表明,强化学习中的、TD(λ)Q_learning等算法在不同情况下都能高效地解决避障等问题。 展开更多
关键词 强化学习 Q学习 Agent智能体 机器人控制 避障 搜索引擎
下载PDF
基于强化学习和组合式深度学习模型的超短期光伏功率预测 被引量:47
5
作者 孟安波 许炫淙 +3 位作者 陈嘉铭 王陈恩 周天民 殷豪 《电网技术》 EI CSCD 北大核心 2021年第12期4721-4728,共8页
超短期光伏功率预测对光伏并网系统的安全运行有着重要意义。针对传统单一预测模型在进行光伏功率预测时受到功率随机波动性的影响导致预测精度往往不理想的问题,提出了组合式深度学习预测模型。首先,采用小波包分解对原始光伏功率序列... 超短期光伏功率预测对光伏并网系统的安全运行有着重要意义。针对传统单一预测模型在进行光伏功率预测时受到功率随机波动性的影响导致预测精度往往不理想的问题,提出了组合式深度学习预测模型。首先,采用小波包分解对原始光伏功率序列进行分解,初步降低了原始光伏功率的非稳定性。其次,在此基础上分别采用长短时记忆网络、门控循环单元与循环神经网络3个单一模型对光伏功率进行预测得到3个预测结果并加权组合。最后,利用强化学习的Q学习算法对组合权重进行优化,进而最大化组合模型的预测性能。以某地光伏电站实测数据进行实验,结果表明文中所提出的组合预测模型优于其他预测模型,并验证了所提模型的有效性。 展开更多
关键词 光伏功率预测 长短时记忆网络 门控循环单元 循环神经网络 Q学习算法 组合模型
下载PDF
随机环境中基于强化学习的智能体路径规划
6
作者 马朋委 潘地林 汪立冬 《电脑知识与技术》 2015年第11期148-149,共2页
为解决随机环境下的智能体的路径规划问题,借助强化学习算法的自学习和和自适应的特点,引入Q学习算法处理随机环境下的路径规划问题。实验结果表明,该算法在解决随机环境中路径规划的有效性。
关键词 强化学习 q_learning 路径规划 随机环境
下载PDF
图像检索中IRRL模型研究 被引量:2
7
作者 王朝晖 孙惠萍 《计算机技术与发展》 2008年第12期35-37,40,共4页
相关反馈实现了人机交互,是图像检索中的不可缺少的部分,一般图像检索中都使用一种反馈算法。IRRL模型将机器学习中的强化学习原理应用到图像检索的相关反馈中来。它将现有的查询点优化、特征加权、贝叶斯分类器等算法作为系统学习的动... 相关反馈实现了人机交互,是图像检索中的不可缺少的部分,一般图像检索中都使用一种反馈算法。IRRL模型将机器学习中的强化学习原理应用到图像检索的相关反馈中来。它将现有的查询点优化、特征加权、贝叶斯分类器等算法作为系统学习的动作,通过不同的状态选择不同的动作,最终为不同类的图像寻找到合适的反馈算法策略,最后根据策略进行具体的图像检索。文中对IRRL模型具体算法进行了研究,并在此基础上提出了一些改进意见。 展开更多
关键词 强化学习 Q-学习 相关反馈 图像检索 IRRL模型
下载PDF
基于强化学习的相关反馈图像检索算法 被引量:1
8
作者 孙惠萍 龚声蓉 +1 位作者 王朝晖 刘全 《计算机工程与应用》 CSCD 北大核心 2008年第34期175-178,共4页
相关反馈算法是图像检索不可缺的重要组成部分,是近来图像检索中研究的一个热点。提出了基于强化学习的相关反馈算法。根据强化学习中的Q_学习函数,建立矩阵Q,对每幅图像建立对应的一项Q(ii=1,2,…,n),记录每幅图像的本次检索中的累计... 相关反馈算法是图像检索不可缺的重要组成部分,是近来图像检索中研究的一个热点。提出了基于强化学习的相关反馈算法。根据强化学习中的Q_学习函数,建立矩阵Q,对每幅图像建立对应的一项Q(ii=1,2,…,n),记录每幅图像的本次检索中的累计反馈值,并根据加权特征法计算新的特征,对于每幅反馈的图像根据Q_学习函数计算其当前的累计反馈值。Q值越大即越与例子图像相关。由于强化学习是通过不断对环境的反馈来获得最佳的路径,这与相关反馈通过对用户检索意图的摸索来获得最优答案的思想一致。实验表明,提出的相关反馈算法具有更大的优越性。 展开更多
关键词 强化学习 Q_学习 相关反馈 图像检索
下载PDF
基于DEC_POMDP的Web服务组合优化算法
9
作者 赵莉 李蜀瑜 《计算机技术与发展》 2014年第3期74-78,共5页
面向服务计算(SOC)和面向服务架构(SOA)技术共同推动了Web服务及其组合技术的发展。网络环境的动态变化及其对Web服务质量(QoS)的影响,给服务成功组合带来挑战,为服务组合效果满足用户需求带来难题。为了得到经济、省时且成功率高的服... 面向服务计算(SOC)和面向服务架构(SOA)技术共同推动了Web服务及其组合技术的发展。网络环境的动态变化及其对Web服务质量(QoS)的影响,给服务成功组合带来挑战,为服务组合效果满足用户需求带来难题。为了得到经济、省时且成功率高的服务组合策略,综合考虑网络环境的动态变化、服务质量的可变性、用户需求的多样性,采用分散的部分可观测马尔可夫决策(DEC_POMDP)模型描述多个服务Agent的自组织服务组合系统,在基本Q学习算法基础上做出改进,求解模型得到组合策略。实验结果表明求解的策略较大地提高了组合服务的成本、时间消耗,且组合成功率较高。采用的DEC_POMDP模型有效地将Web服务组合动态过程描述出来,并自适应地更新了QoS值,采用Q学习算法及时使用了最新的QoS值。 展开更多
关键词 服务质量 自组织 服务组合 Q学习
下载PDF
MDLB:a metadata dynamic load balancing mechanism based on reinforcement learning 被引量:3
10
作者 Zhao-qi WU Jin WEI +2 位作者 Fan ZHANG Wei GUO Guang-wei XIE 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2020年第7期1034-1046,共13页
With the growing amount of information and data, object-oriented storage systems have been widely used in many applications, including the Google File System, Amazon S3, Hadoop Distributed File System, and Ceph, in wh... With the growing amount of information and data, object-oriented storage systems have been widely used in many applications, including the Google File System, Amazon S3, Hadoop Distributed File System, and Ceph, in which load balancing of metadata plays an important role in improving the input/output performance of the entire system. Unbalanced load on the metadata server leads to a serious bottleneck problem for system performance. However, most existing metadata load balancing strategies, which are based on subtree segmentation or hashing, lack good dynamics and adaptability. In this study, we propose a metadata dynamic load balancing(MDLB) mechanism based on reinforcement learning(RL). We learn that the Q_learning algorithm and our RL-based strategy consist of three modules, i.e., the policy selection network, load balancing network, and parameter update network. Experimental results show that the proposed MDLB algorithm can adjust the load dynamically according to the performance of the metadata servers, and that it has good adaptability in the case of sudden change of data volume. 展开更多
关键词 Object-oriented storage system METADATA Dynamic load balancing Reinforcement learning q_learning
原文传递
基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 被引量:12
11
作者 林歆悠 夏玉田 魏申申 《工程科学学报》 EI CSCD 北大核心 2019年第10期1332-1341,共10页
以一款插电式燃料电池电动汽车(plug-in fuel cell electric vehicle,PFCEV)为研究对象,为改善燃料电池氢气消耗和电池电量消耗之间的均衡,实现插电式燃料电池电动汽车的燃料电池与动力电池之间的最优能量分配,考虑燃料电池汽车实时能... 以一款插电式燃料电池电动汽车(plug-in fuel cell electric vehicle,PFCEV)为研究对象,为改善燃料电池氢气消耗和电池电量消耗之间的均衡,实现插电式燃料电池电动汽车的燃料电池与动力电池之间的最优能量分配,考虑燃料电池汽车实时能量分配的即时回报及未来累积折扣回报,以整车作为环境,整车控制作为智能体,提出了一种基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略.通过Matlab/Simulink建立整车仿真模型对所提出的策略进行仿真验证,相比于基于规则的策略,在不同行驶里程下,电池均可保持一定的电量,整车的综合能耗得到明显降低,在100、200和300 km行驶里程下整车百公里能耗分别降低8.84%、29.5%和38.6%;基于快速原型开发平台进行硬件在环试验验证,城市行驶工况工况下整车综合能耗降低20.8%,硬件在环试验结果与仿真结果基本一致,表明了所制定能量管理策略的有效性和可行性. 展开更多
关键词 燃料电池 能量分配 电池电量 综合能耗 智能体 动力电池
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部