期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于平均序列累计奖赏的自适应ε-greedy策略 被引量:5
1
作者 杨彤 秦进 《计算机工程与应用》 CSCD 北大核心 2021年第11期148-155,共8页
探索与利用的权衡是强化学习的挑战之一。探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏。深度强化学习中常用"ε-greedy"策略处理探索与利用的权衡问题,未考虑影响智能... 探索与利用的权衡是强化学习的挑战之一。探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏。深度强化学习中常用"ε-greedy"策略处理探索与利用的权衡问题,未考虑影响智能体做出决策的其他因素,具有一定的盲目性。针对此问题提出一种自适应调节探索因子的ε-greedy策略,该策略依据智能体每完成一次任务所获得的序列累计奖赏值指导智能体进行合理的探索或利用。序列累计奖赏值越大,说明当前智能体所采用的有效动作越多,减小探索因子以便更多地利用历史经验。反之,序列累计奖赏值越小,说明当前策略还有改进的空间,增大探索因子以便探索更多可能的动作。实验结果证明改进的策略在Playing Atari 2600视频游戏中取得了更高的平均奖赏值,说明改进的策略能更好地权衡探索与利用。 展开更多
关键词 深度强化学习 探索与利用 序列累计奖赏 ε-greedy策略
下载PDF
一种强化学习行动策略ε-greedy的改进方法 被引量:3
2
作者 李琛 李茂军 杜佳佳 《计算技术与自动化》 2019年第2期141-145,共5页
强化学习作为机器学习中的一种无监督式学习,在实际应用中的难点之一便是如何平衡强化学习中探索和利用之间的关系。在Q学习结合ε-greedy的基础上,提出了一种参数动态调整的策略。该策略是以学习者在学习过程中各状态下的学习状况为依... 强化学习作为机器学习中的一种无监督式学习,在实际应用中的难点之一便是如何平衡强化学习中探索和利用之间的关系。在Q学习结合ε-greedy的基础上,提出了一种参数动态调整的策略。该策略是以学习者在学习过程中各状态下的学习状况为依据,实现参数的自适应,从而更好地平衡探索和利用之间的关系。同时,引入一种结合了试错法的动作删减机制,对备选动作集合进行"删减",来提高学习者的探索效率。最后通过迷宫问题的实验仿真,验证了所提方法的有效性。 展开更多
关键词 强化学习 ε-greedy策略 探索与利用
下载PDF
基于两步决策与ε-greedy探索的增强学习频谱分配算法
3
作者 尹之杰 汪一鸣 吴澄 《数据采集与处理》 CSCD 北大核心 2018年第6期1003-1012,共10页
在认知无线网络中,认知基站需要进行频谱管理来提升非授权用户的服务质量。基站在寻找频谱空洞分配给非授权用户的过程中,需要做出最好的选择,但极可能是局部最优解,从而造成非授权用户频繁的频谱切换和吞吐率的下降。针对此问题,本文... 在认知无线网络中,认知基站需要进行频谱管理来提升非授权用户的服务质量。基站在寻找频谱空洞分配给非授权用户的过程中,需要做出最好的选择,但极可能是局部最优解,从而造成非授权用户频繁的频谱切换和吞吐率的下降。针对此问题,本文提出基于两步决策与探索的集中式增强学习频谱分配算法。通过设计新型状态动作集,认知基站进行信道分配的两步决策,并应用探索模式,解决认知基站在增强学习过程中探索环境和利用经验进行决策的平衡问题,防止决策的局部最优,提升频谱管理的性能。仿真结果表明,该算法在提升非授权用户吞吐率以及降低频谱切换方面明显优于现有的一些频谱分配策略。 展开更多
关键词 认知无线网络 认知基站 频谱管理 动态频谱接入 增强学习 ε-greedy探索策略
下载PDF
基于贪婪DDPG的无人机智能避障算法
4
作者 展望晨 郭乐江 +1 位作者 许世佳 刘重阳 《空天预警研究学报》 CSCD 2024年第5期342-346,共5页
针对传统无人机DDPG避障算法难以解决无人机在未知条件或复杂环境中飞行时的智能避障问题,提出一种基于贪婪DDPG无人机智能避障算法.在传统DDPG算法基础上,通过引入动态调整贪婪度方法和高斯噪声策略,使无人机在探索环境和制定避障策略... 针对传统无人机DDPG避障算法难以解决无人机在未知条件或复杂环境中飞行时的智能避障问题,提出一种基于贪婪DDPG无人机智能避障算法.在传统DDPG算法基础上,通过引入动态调整贪婪度方法和高斯噪声策略,使无人机在探索环境和制定避障策略时,能够更加高效地平衡探索和利用的关系,从而提高学习效率和避障性能.实验结果表明,贪婪DDPG算法在训练效率和泛化能力上均优于传统DDPG算法,显示出良好的鲁棒性. 展开更多
关键词 无人机避障 贪婪DDPG算法 探索策略
下载PDF
信息共享模型和组外贪心策略的郊狼优化算法 被引量:9
5
作者 张新明 李双倩 +3 位作者 刘艳 毛文涛 刘尚旺 刘国奇 《计算机科学》 CSCD 北大核心 2020年第5期217-224,共8页
郊狼优化算法(Coyote Optimization Algorithm,COA)是最近提出的一种新颖群智能优化算法,具有较大的应用潜力,但存在运行时间长和搜索能力不足等问题。因此,文中提出了一种改进的COA,即基于信息共享和组外(静态)贪心的COA(COA based on ... 郊狼优化算法(Coyote Optimization Algorithm,COA)是最近提出的一种新颖群智能优化算法,具有较大的应用潜力,但存在运行时间长和搜索能力不足等问题。因此,文中提出了一种改进的COA,即基于信息共享和组外(静态)贪心的COA(COA based on Information sharing and Static greed selection,ISCOA)。首先,构建一种新型的信息共享模型,用于子群所有郊狼的成长,在郊狼成长前期,共享信息差异性大,以增加种群的多样性,在效狼成长后期,共享信息差异性小,以强化开采能力;其次,构建一种新的组内成长方式,即前期主要采用信息共享模型的成长方式,以郊狼的信息共享为主强化探索能力,后期主要采用原算法的成长方式,以alpha狼和文化趋势的引导为主强化开采能力;最后,将原算法的组内贪心算法改成组外贪心算法,即静态贪心算法,以便提高算法的稳定性和实现目标函数计算等的并行处理,提高运行速度。大量复杂的CEC2017函数优化实验结果表明,与COA相比,ISCOA在29个10维和30维函数上分别获得了23和24个函数的优势,其平均运行时间分别是COA的86.3%和85.7%,降低了运行时间;与7个最先进的算法相比,ISCOA在10维和30维函数上的平均排名分别是1.48和1.69,分别获得了17和18个第一,具有更好的优化效果。运用于实际工程问题的实验结果表明,ISCOA得到了最好的结果,证明了ISCOA有更强的搜索能力和竞争性以及更好的应用前景。 展开更多
关键词 群智能优化算法 郊狼优化算法 贪心算法 探索能力 开采能力
下载PDF
基于栅格空间的自适应GB_RRT^(*)机械臂路径规划 被引量:14
6
作者 张立彬 林后凯 谭大鹏 《计算机集成制造系统》 EI CSCD 北大核心 2022年第6期1638-1649,共12页
为了使移动机械臂在不同危险环境下用较短的搜索时间快速规划较优的避障路径,提出一种基于栅格空间的自适应目标偏向快速搜索随机树算法。结合快速搜索随机树算法渐进最优思想对目标偏向快速搜索随机树算法进行优化,使得搜索路径朝渐进... 为了使移动机械臂在不同危险环境下用较短的搜索时间快速规划较优的避障路径,提出一种基于栅格空间的自适应目标偏向快速搜索随机树算法。结合快速搜索随机树算法渐进最优思想对目标偏向快速搜索随机树算法进行优化,使得搜索路径朝渐进最优解收敛。由于在高维度关节空间内查找相邻节点的计算量较大,通过栅格储存树节点并结合栅格快速查找相邻节点来提升算法效率。利用open表解决目标偏向采样策略引起的重复偏向问题。针对不同环境中偏向阈值难确定的问题提出自适应目标偏向法,结合open表节点的数量变化自适应控制偏向性生长来缩减无效扩展,降低搜索时间和路径代价。为进一步改善路径曲折和代价,采用可变间隔的贪心算法对已规划的路径进行快速优化。仿真实验将所提方法用于不同障碍物环境,结果显示改进算法可以有效缩减搜索时间和路径代价,提升规划稳定性。 展开更多
关键词 快速搜索随机树 移动机械臂 贪心算法 路径规划
下载PDF
水面无人艇自适应危险规避决策过程收敛性分析 被引量:7
7
作者 张汝波 唐平鹏 +2 位作者 杨歌 李雪耀 史长亭 《计算机研究与发展》 EI CSCD 北大核心 2014年第12期2644-2652,共9页
水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法... 水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法为基础,提出了USV在复杂海况下的自适应危险规避决策模型,并以渐进贪心策略作为行为探索策略,证明了USV自适应危险规避决策过程能够以概率1收敛到最优行为策略.论证结果表明,采用在线策略强化学习算法提升USV在复杂海况下的危险规避性能是可行的. 展开更多
关键词 水面无人艇 复杂海况 Sarsa在线策略强化学习 自适应危险规避决策过程 渐进贪心策略
下载PDF
基于改进快速搜索随机树法的机械手路径优化 被引量:37
8
作者 周芳 朱齐丹 赵国良 《机械工程学报》 EI CAS CSCD 北大核心 2011年第11期30-35,共6页
针对多关节机械手路径优化问题,提出一种改进快速搜索随机树(Rapidly-exploring random trees,RRT)优化算法。利用标准RRT算法规划初始可行路径,根据路径长度与路径安全性计算出该路径代价。在后期搜索树生长过程中,中间目标点并非随机... 针对多关节机械手路径优化问题,提出一种改进快速搜索随机树(Rapidly-exploring random trees,RRT)优化算法。利用标准RRT算法规划初始可行路径,根据路径长度与路径安全性计算出该路径代价。在后期搜索树生长过程中,中间目标点并非随机采样,而是选择能使当前路径代价低于其之前路径代价的节点,同时对该节点进行距离检测,避免产生过于密集的节点集。为加快搜索树向未知区域的扩充速度,从最近节点向中间目标点扩充过程中,采用一种贪婪启发式扩充算法:节点以一定步长循环扩充,直至扩充到达目标节点或产生不连通节点。最后对6自由度检修机械手进行路径规划仿真试验,结果表明相对于标准RRT算法,规划路径的质量得到大幅提高。 展开更多
关键词 机械手 快速搜索随机树 路径规划 路径安全性 贪婪启发式扩充
下载PDF
基于改进RRT的路径规划算法 被引量:14
9
作者 刘晓倩 张辉 王英健 《自动化技术与应用》 2019年第5期96-100,共5页
传统的RRT(Rapid-exploration Random Tree)算法具有搜索速度快,适用于解决动力学非完整性约束问题,但是由于算法本身的随机性,生成的路径比较曲折,甚至出现绕远路现象。为此,本文提出一种改进的RRT路径规划算法,该算法结合目标偏向策略... 传统的RRT(Rapid-exploration Random Tree)算法具有搜索速度快,适用于解决动力学非完整性约束问题,但是由于算法本身的随机性,生成的路径比较曲折,甚至出现绕远路现象。为此,本文提出一种改进的RRT路径规划算法,该算法结合目标偏向策略,使算法快速向目标节点收敛;对选取节点的度量函数,加入了角度的影响;同时引入贪心剪枝思想,对冗余节点进行剪枝,提高了路径规划算法的效率;最后通过仿真实验,验证了该算法的正确性和有效性。 展开更多
关键词 路径规划 RRT 目标偏向采样策略 贪心思想
下载PDF
基于最佳子策略记忆的强化探索策略 被引量:1
10
作者 周瑞朋 秦进 《计算机工程》 CAS CSCD 北大核心 2022年第2期106-112,共7页
现有强化学习探索策略存在过度探索的问题,导致智能体收敛速度减慢。通过设计一个基于奖励排序的存储表(M表)和ε-greedy改进算法,提出基于最佳子策略记忆的强化探索策略。将奖励值大于零的样本以子策略的形式存入M表,使其基于奖励降序... 现有强化学习探索策略存在过度探索的问题,导致智能体收敛速度减慢。通过设计一个基于奖励排序的存储表(M表)和ε-greedy改进算法,提出基于最佳子策略记忆的强化探索策略。将奖励值大于零的样本以子策略的形式存入M表,使其基于奖励降序排序,在整个训练过程中,使用与表中相似且奖励值较高的样本以子策略形式替换表中子策略,从而在表中形成一个能有效产生目前最优奖励的动作集合,提高探索的针对性,而不是随机探索。同时,在ε-greedy算法基础上按一定的概率分配,使智能体通过使用M表探索得到MEG探索策略。基于此,智能体在一定概率下将当前状态与M表中子策略匹配,若相似,则将表中与其相似的子策略对应动作反馈给智能体,智能体执行该动作。实验结果表明,该策略能够有效缓解过度探索现象,与DQN系列算法和非DQN系列的A2C算法相比,其在Playing Atari 2600游戏的控制问题中获得了更高的平均奖励值。 展开更多
关键词 强化学习 过度探索 MEG探索 相似度 最佳子策略
下载PDF
一种属性约简的探测性贪婪算法
11
作者 李旻 陈卫东 《计算机工程》 CAS CSCD 2012年第19期163-166,共4页
贪婪算法一旦做出贪婪选择就不能反悔,因此设计简单、执行速度快,但其搜索空间过于狭小,从而降低了贪婪解的精度。针对该问题,提出一种属性约简的探索性贪婪算法,采用前景探测策略提高贪婪解的精度。实验结果表明,该算法在时间略有增加... 贪婪算法一旦做出贪婪选择就不能反悔,因此设计简单、执行速度快,但其搜索空间过于狭小,从而降低了贪婪解的精度。针对该问题,提出一种属性约简的探索性贪婪算法,采用前景探测策略提高贪婪解的精度。实验结果表明,该算法在时间略有增加的情况下能提高解的精度。 展开更多
关键词 粗糙集 属性约简 贪婪算法 探测策略 正区域
下载PDF
基于路径探索的车载自组网贪婪路由算法 被引量:7
12
作者 汤星峰 徐卿钦 马世纬 《计算机应用》 CSCD 北大核心 2020年第6期1738-1744,共7页
为了提高城市中车辆间信息的传输效率,实现车辆间的信息共享,针对目前车载自组网(VANET)中基于地理位置转发的多跳单播路由算法没有考虑城市场景的特殊性,不能很好地适应城市中车辆的高度动态性,使车辆之间的数据包可能在错误的路径上传... 为了提高城市中车辆间信息的传输效率,实现车辆间的信息共享,针对目前车载自组网(VANET)中基于地理位置转发的多跳单播路由算法没有考虑城市场景的特殊性,不能很好地适应城市中车辆的高度动态性,使车辆之间的数据包可能在错误的路径上传播,造成丢包率较高、时延较长的问题,提出了一种新的基于路径探索的贪婪路由算法。首先,以数据包传输时延为标准,运用人工蜂群算法对数字地图规划出的多条路由路径进行探索。其次,优化数据包在车辆之间的多跳转发方式。仿真结果表明,与贪婪周边无状态路由(GPSR)协议和最大持续时间最小角的GPSR(MM-GPSR)改进算法比较,在最好情况下,所提算法的数据包到达率分别提高了13.81%和9.64%,而该算法的数据包平均端到端时延分别降低了61.91%和27.28%。 展开更多
关键词 车载自组网 数据路由 人工蜂群算法 路由路径探索 贪婪转发
下载PDF
基于深度Q网络的虚拟装配路径规划 被引量:3
13
作者 李妍 甄成刚 《计算机工程与设计》 北大核心 2019年第7期2032-2038,共7页
针对虚拟装配中自由空间相对狭窄造成的复杂环境通行性问题,提出通过跟踪和反馈的方式学习最优的动作序列决策的模糊贝叶斯-深度Q网络算法。将模糊综合评判法和贝叶斯决策算法结合起来替代深度Q网络中的ε-贪婪算法,有效进行探索与利用... 针对虚拟装配中自由空间相对狭窄造成的复杂环境通行性问题,提出通过跟踪和反馈的方式学习最优的动作序列决策的模糊贝叶斯-深度Q网络算法。将模糊综合评判法和贝叶斯决策算法结合起来替代深度Q网络中的ε-贪婪算法,有效进行探索与利用,生成最优的动作序列决策,规划待装配体的装配路径。实验结果表明,在狭窄空间中,利用模糊贝叶斯-深度Q网络算法解决虚拟装配的路径规划问题具有较好的通行性和规划效率。 展开更多
关键词 虚拟装配 路径规划 深度Q网络 探索与利用 ε-贪婪算法 模糊贝叶斯
下载PDF
GPS控制测量在矿产勘查中的应用研究
14
作者 卢涛 《世界有色金属》 2025年第1期166-168,共3页
本研究立足于GPS技术在矿产勘查中的应用研究,旨在探索GPS控制测量技术在矿产勘查领域的有效应用。首先,系统梳理了GPS技术在地质勘查、矿床勘探和矿产资源管理等方面的应用现状,明确了GPS在矿产勘查中的重要性和必要性。其次,针对矿产... 本研究立足于GPS技术在矿产勘查中的应用研究,旨在探索GPS控制测量技术在矿产勘查领域的有效应用。首先,系统梳理了GPS技术在地质勘查、矿床勘探和矿产资源管理等方面的应用现状,明确了GPS在矿产勘查中的重要性和必要性。其次,针对矿产勘查中存在的实际问题,提出了基于GPS控制测量的解决方案。然后,提出了基于GPS的矿产地质点云三维重建。最后,通过实验数据分析,验证了GPS控制测量技术在矿产勘查中的可行性和有效性。结果表明,GPS控制测量技术能够为矿产勘查工作提供精准的空间定位和数据支持,提高了勘查工作的效率和精度。 展开更多
关键词 GPS 控制测量 矿产勘查 点云三维重建 贪婪三角化曲面重构
下载PDF
基于快速扩展随机树―贪婪边界搜索的多机器人协同空间探索方法 被引量:11
15
作者 宁宇铭 李团结 +1 位作者 姚聪 邵继升 《机器人》 EI CSCD 北大核心 2022年第6期708-719,共12页
传统多机协同探索算法存在鲁棒性较差、探索效率较低、环境障碍感知不完全等问题,为此本文提出一种基于快速扩展随机树-贪婪边界搜索(RRT-GFE)的多机器人协同空间探索方法。首先,采用Thiessen多边形对环境进行建模与划分,利用RRT边界探... 传统多机协同探索算法存在鲁棒性较差、探索效率较低、环境障碍感知不完全等问题,为此本文提出一种基于快速扩展随机树-贪婪边界搜索(RRT-GFE)的多机器人协同空间探索方法。首先,采用Thiessen多边形对环境进行建模与划分,利用RRT边界探索算法依次对所有Thiessen多边形进行探索;其次,在RRT边界探索算法的基础上,引入GFE算法进行细化搜索,并提取连续边界域的形心作为探索目标点;再次,利用划分所形成的多边形区域以及所提取出的边界点,采用基于改进市场机制的多机器人任务分配方法对探索目标点进行动态分配,并在探索过程中采用地图融合算法进行局部地图的实时融合;最后,基于机器人操作系统(ROS)搭建仿真/样机测试平台并进行了一系列实验验证。结果表明,无论在仿真还是样机实验中,基于RRT-GFE的多机器人协同探索算法均能取得更加省时高效的探索效果。 展开更多
关键词 协同探索 快速扩展随机树 贪婪边界搜索 Thiessen多边形 市场机制 机器人操作系统(ROS)
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部