期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于平均序列累计奖赏的自适应ε-greedy策略 被引量:5
1
作者 杨彤 秦进 《计算机工程与应用》 CSCD 北大核心 2021年第11期148-155,共8页
探索与利用的权衡是强化学习的挑战之一。探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏。深度强化学习中常用"ε-greedy"策略处理探索与利用的权衡问题,未考虑影响智能... 探索与利用的权衡是强化学习的挑战之一。探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏。深度强化学习中常用"ε-greedy"策略处理探索与利用的权衡问题,未考虑影响智能体做出决策的其他因素,具有一定的盲目性。针对此问题提出一种自适应调节探索因子的ε-greedy策略,该策略依据智能体每完成一次任务所获得的序列累计奖赏值指导智能体进行合理的探索或利用。序列累计奖赏值越大,说明当前智能体所采用的有效动作越多,减小探索因子以便更多地利用历史经验。反之,序列累计奖赏值越小,说明当前策略还有改进的空间,增大探索因子以便探索更多可能的动作。实验结果证明改进的策略在Playing Atari 2600视频游戏中取得了更高的平均奖赏值,说明改进的策略能更好地权衡探索与利用。 展开更多
关键词 深度强化学习 探索与利用 序列累计奖赏 ε-greedy策略
下载PDF
一种强化学习行动策略ε-greedy的改进方法 被引量:2
2
作者 李琛 李茂军 杜佳佳 《计算技术与自动化》 2019年第2期141-145,共5页
强化学习作为机器学习中的一种无监督式学习,在实际应用中的难点之一便是如何平衡强化学习中探索和利用之间的关系。在Q学习结合ε-greedy的基础上,提出了一种参数动态调整的策略。该策略是以学习者在学习过程中各状态下的学习状况为依... 强化学习作为机器学习中的一种无监督式学习,在实际应用中的难点之一便是如何平衡强化学习中探索和利用之间的关系。在Q学习结合ε-greedy的基础上,提出了一种参数动态调整的策略。该策略是以学习者在学习过程中各状态下的学习状况为依据,实现参数的自适应,从而更好地平衡探索和利用之间的关系。同时,引入一种结合了试错法的动作删减机制,对备选动作集合进行"删减",来提高学习者的探索效率。最后通过迷宫问题的实验仿真,验证了所提方法的有效性。 展开更多
关键词 强化学习 ε-greedy策略 探索与利用
下载PDF
基于两步决策与ε-greedy探索的增强学习频谱分配算法
3
作者 尹之杰 汪一鸣 吴澄 《数据采集与处理》 CSCD 北大核心 2018年第6期1003-1012,共10页
在认知无线网络中,认知基站需要进行频谱管理来提升非授权用户的服务质量。基站在寻找频谱空洞分配给非授权用户的过程中,需要做出最好的选择,但极可能是局部最优解,从而造成非授权用户频繁的频谱切换和吞吐率的下降。针对此问题,本文... 在认知无线网络中,认知基站需要进行频谱管理来提升非授权用户的服务质量。基站在寻找频谱空洞分配给非授权用户的过程中,需要做出最好的选择,但极可能是局部最优解,从而造成非授权用户频繁的频谱切换和吞吐率的下降。针对此问题,本文提出基于两步决策与探索的集中式增强学习频谱分配算法。通过设计新型状态动作集,认知基站进行信道分配的两步决策,并应用探索模式,解决认知基站在增强学习过程中探索环境和利用经验进行决策的平衡问题,防止决策的局部最优,提升频谱管理的性能。仿真结果表明,该算法在提升非授权用户吞吐率以及降低频谱切换方面明显优于现有的一些频谱分配策略。 展开更多
关键词 认知无线网络 认知基站 频谱管理 动态频谱接入 增强学习 ε-greedy探索策略
下载PDF
深度强化学习在机器人路径规划中的应用 被引量:3
4
作者 邓修朋 崔建明 +2 位作者 李敏 张小军 宋戈 《电子测量技术》 北大核心 2023年第6期1-8,共8页
针对深度强化学习算法在路径规划的过程中出现与所处环境交互信息不精确、回馈稀疏、收敛不稳定等问题,在竞争网络结构的基础上,提出一种基于自调节贪婪策略与奖励设计的竞争深度Q网络算法。智能体在探索环境时,采用基于自调节贪婪因子... 针对深度强化学习算法在路径规划的过程中出现与所处环境交互信息不精确、回馈稀疏、收敛不稳定等问题,在竞争网络结构的基础上,提出一种基于自调节贪婪策略与奖励设计的竞争深度Q网络算法。智能体在探索环境时,采用基于自调节贪婪因子的ε-greedy探索方法,由学习算法的收敛程度决定探索率ε的大小,从而合理分配探索与利用的概率。根据人工势场法物理理论塑造一种势场奖励函数,在目标处设置较大的引力势场奖励值,在障碍物附近设置斥力势场奖励值,使智能体能够更快的到达终点。在二维网格环境中进行仿真实验,仿真结果表明,该算法在不同规模地图下都取得了更高的平均奖赏值和更稳定的收敛效果,路径规划成功率提高了48.04%,验证了算法在路径规划方面的有效性和鲁棒性。同时与Q-learning算法对比实验表明,所提算法路径规划成功率提高了28.14%,具有更好的环境探索和路径规划能力。 展开更多
关键词 路径规划 强化学习 深度强化学习 ε-greedy策略 人工势场
下载PDF
支撑配电网监测的无线传感网自适应中继选择
5
作者 杨会峰 魏勇 +3 位作者 尚立 刘玮 李建岐 张孙烜 《哈尔滨理工大学学报》 CAS 北大核心 2023年第3期88-97,共10页
为了研究无线传感网中继选择问题从而提升配电网监测水平,依据现有的ε-greedy方法,提出基于自适应ε-greedy算法的配电网监测无线传感网中继选择优化方法。首先,考虑配电网复杂拓扑与强电磁干扰的应用场景,构建配电网无线传感网通信系... 为了研究无线传感网中继选择问题从而提升配电网监测水平,依据现有的ε-greedy方法,提出基于自适应ε-greedy算法的配电网监测无线传感网中继选择优化方法。首先,考虑配电网复杂拓扑与强电磁干扰的应用场景,构建配电网无线传感网通信系统模型;其次,构建支撑配电网监测的无线传感网动态中继选择问题;接着,利用历史中继选择的累计奖赏值自适应调节行为策略的探索力度,在保障可靠性约束下最小化网络能耗;最后,通过仿真验证所提算法的优化性能,仿真结果表明与递减ε-greedy算法、传统ε-greedy算法及最短路径法相比,所提算法能够分别降低能耗8.23%、12.85%和17.11%。 展开更多
关键词 配电网监测 无线传感网 动态中继选择 能耗优化 自适应ε-greedy算法
下载PDF
流量拥堵空域内一种基于Q-Learning算法的改航路径规划
6
作者 向征 何雨阳 全志伟 《科学技术与工程》 北大核心 2022年第32期14494-14501,共8页
目前,空中流量激增导致空域资源紧张的问题越发凸显,为了缓解这一现状,基于流量管理层面对航空器进行改航路径的研究。首先采用栅格化的方式对空域环境进行离散化处理,根据航路点流量的拥挤程度把空域划分为3种不同类型的栅格区域。其... 目前,空中流量激增导致空域资源紧张的问题越发凸显,为了缓解这一现状,基于流量管理层面对航空器进行改航路径的研究。首先采用栅格化的方式对空域环境进行离散化处理,根据航路点流量的拥挤程度把空域划分为3种不同类型的栅格区域。其次通过改进强化学习中马尔科夫决策过程的奖励函数对其进行建模,并基于ε-greedy策略运用Q-Learning算法对该模型进行迭代求解,对相应的参数取值进行探究比较以提高结果的可适用性。最后经过仿真运行,计算出不同参数赋值下的最优路径及相应的性能指标。结果表明:应用该模型和算法可以针对某一时段内的流量拥堵空域搜索出合适的改航路径,使飞机避开流量拥挤的航路点,缩短空中延误时间,有效改善空域拥堵的现况。 展开更多
关键词 改航路径规划 流量拥堵 强化学习 马尔科夫决策过程 Q-Learning算法 ε-greedy策略
下载PDF
基于深度强化学习的移动机器人路径规划 被引量:27
7
作者 董瑶 葛莹莹 +2 位作者 郭鸿湧 董永峰 杨琛 《计算机工程与应用》 CSCD 北大核心 2019年第13期15-19,157,共6页
为解决传统的深度Q网络模型下机器人探索复杂未知环境时收敛速度慢的问题,提出了基于竞争网络结构的改进深度双Q网络方法(Improved Dueling Deep Double Q-Network,IDDDQN)。移动机器人通过改进的DDQN网络结构对其三个动作的值函数进行... 为解决传统的深度Q网络模型下机器人探索复杂未知环境时收敛速度慢的问题,提出了基于竞争网络结构的改进深度双Q网络方法(Improved Dueling Deep Double Q-Network,IDDDQN)。移动机器人通过改进的DDQN网络结构对其三个动作的值函数进行估计,并更新网络参数,通过训练网络得到相应的Q值。移动机器人采用玻尔兹曼分布与ε-greedy相结合的探索策略,选择一个最优动作,到达下一个观察。机器人将通过学习收集到的数据采用改进的重采样优选机制存储到缓存记忆单元中,并利用小批量数据训练网络。实验结果显示,与基本DDQN算法比,IDDDQN训练的机器人能够更快地适应未知环境,网络的收敛速度也得到提高,到达目标点的成功率增加了3倍多,在未知的复杂环境中可以更好地获取最优路径。 展开更多
关键词 深度双Q网络(DDQN) 竞争网络结构 重采样优选机制 玻尔兹曼分布 ε-greedy策略
下载PDF
改进Q-Learning的WRSN充电路径规划算法 被引量:1
8
作者 刘洋 王军 吴云鹏 《太赫兹科学与电子信息学报》 2022年第4期393-401,共9页
针对传统无线传感器网络节点能量供应有限和网络寿命短的瓶颈问题,依据无线能量传输技术领域的最新成果,提出了一种基于改进Q-Learning的无线可充电传感器网络的充电路径规划算法。基站根据网络内各节点能耗信息进行充电任务调度,之后... 针对传统无线传感器网络节点能量供应有限和网络寿命短的瓶颈问题,依据无线能量传输技术领域的最新成果,提出了一种基于改进Q-Learning的无线可充电传感器网络的充电路径规划算法。基站根据网络内各节点能耗信息进行充电任务调度,之后对路径规划问题进行数学建模和目标约束条件设置,将移动充电车抽象为一个智能体(Agent),确定其状态集和动作集,合理改进ε-greedy策略进行动作选择,并选择相关性能参数设计奖赏函数,最后通过迭代学习不断探索状态空间环境,自适应得到最优充电路径。仿真结果证明:该充电路径规划算法能够快速收敛,且与同类型经典算法相比,改进的Q-Learning充电算法在网络寿命、节点平均充电次数和能量利用率等方面具有一定优势。 展开更多
关键词 无线传感器网络 改进Q-Learning 充电路径规划 ε-greedy策略 奖赏函数
下载PDF
基于DRQN的视觉SLAM参数自适应调整
9
作者 陈青梅 秦进 +2 位作者 黄仁婧 崔虎 黄初华 《计算机工程与设计》 北大核心 2022年第11期3235-3242,共8页
为解决传统视觉SLAM算法中的参数调整问题,提出一种基于深度循环Q网络的视觉SLAM参数自适应调整方法。筛选视觉SLAM参数构建动作空间;采用地标点的协方差矩阵描述视觉定位的不确定性,用地标点的不确定性构建奖励函数;参数智能体通过ε-g... 为解决传统视觉SLAM算法中的参数调整问题,提出一种基于深度循环Q网络的视觉SLAM参数自适应调整方法。筛选视觉SLAM参数构建动作空间;采用地标点的协方差矩阵描述视觉定位的不确定性,用地标点的不确定性构建奖励函数;参数智能体通过ε-greedy策略选择Q值最大的动作作用于视觉SLAM环境,根据环境的反馈更新网络参数。EuRoC和TUM-VI数据集上的实验结果表明,该方法提高了室内场景下的位姿轨迹精度,避免了复杂的参数调整过程。 展开更多
关键词 视觉SLAM 深度循环Q网络 ε-greedy策略 不确定度 参数自适应调整
下载PDF
面向地下电力管廊监测的无线自组网中继覆盖增强技术 被引量:6
10
作者 李毅超 纪春华 +2 位作者 尚立 魏勇 李建岐 《电力信息与通信技术》 2022年第6期82-88,共7页
无线自组网通过部署并利用多个中继节点的多跳传输实现中继覆盖增强,可有效解决地下电力管廊弱覆盖、盲覆盖等问题。然而,由于中继节点传输性能以及信道状态的动态变化,需要在不完全信息下动态选择最优中继节点来降低通信能耗。文章基... 无线自组网通过部署并利用多个中继节点的多跳传输实现中继覆盖增强,可有效解决地下电力管廊弱覆盖、盲覆盖等问题。然而,由于中继节点传输性能以及信道状态的动态变化,需要在不完全信息下动态选择最优中继节点来降低通信能耗。文章基于传统ε-greedy算法和递减ε-greedy算法设计了低能耗地下电力管廊无线自组网中继选择算法,最小化地下电力管廊无线传感网数据传输总能耗。仿真结果表明,相较于传统ε-greedy算法,递减ε-greedy算法具有更优的能耗性能。 展开更多
关键词 地下电力管廊 无线自组网 管廊监测 动态中继选择 ε-greedy算法
下载PDF
Structural Topology Optimization by Combining BESO with Reinforcement Learning 被引量:1
11
作者 Hongbo Sun Ling Ma 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2021年第1期85-96,共12页
In this paper,a new algorithm combining the features of bi-direction evolutionary structural optimization(BESO)and reinforcement learning(RL)is proposed for continuum structural topology optimization(STO).In contrast ... In this paper,a new algorithm combining the features of bi-direction evolutionary structural optimization(BESO)and reinforcement learning(RL)is proposed for continuum structural topology optimization(STO).In contrast to conventional approaches which only generate a certain quasi-optimal solution,the goal of the combined method is to provide more quasi-optimal solutions for designers such as the idea of generative design.Two key components were adopted.First,besides sensitivity,value function updated by Monte-Carlo reinforcement learning was utilized to measure the importance of each element,which made the solving process convergent and closer to the optimum.Second,ε-greedy policy added a random perturbation to the main search direction so as to extend the search ability.Finally,the quality and diversity of solutions could be guaranteed by controlling the value of compliance as well as Intersection-over-Union(IoU).Results of several 2D and 3D compliance minimization problems,including a geometrically nonlinear case,show that the combined method is capable of generating a group of good and different solutions that satisfy various possible requirements in engineering design within acceptable computation cost. 展开更多
关键词 structural topology optimization bi-direction evolutionary structural optimization reinforcement learning first-visit Monte-Carlo method ε-greedy policy generative design
下载PDF
基于强化学习的反无人机火力分配模型研究
12
作者 乔勇军 肖凡 《兵器装备工程学报》 CSCD 北大核心 2021年第S02期206-212,共7页
以反无人机作战的打击环节为研究对象,以获得最佳火力分配方式和打击次序为目的,根据对无人机火力打击过程进行建模,设置不同武器位置进行测试,得到了各条件下的最佳火力分配方式和打击次序,泛用性较强;通过可视化打击过程,对比不同条... 以反无人机作战的打击环节为研究对象,以获得最佳火力分配方式和打击次序为目的,根据对无人机火力打击过程进行建模,设置不同武器位置进行测试,得到了各条件下的最佳火力分配方式和打击次序,泛用性较强;通过可视化打击过程,对比不同条件下测试得到的数据判断优劣;为解决探索与学习之间冲突的问题,设计了基于最大回合数的动态ε-greedy算法,对不同情况区分度高,取得了较好的仿真效果。 展开更多
关键词 强化学习 无人机 火力分配 ε-greedy
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部