期刊文献+
共找到360,215篇文章
< 1 2 250 >
每页显示 20 50 100
基于改进Q-learning算法智能仓储AGV路径规划
1
作者 耿华 冯涛 《现代信息科技》 2025年第2期171-175,共5页
作为智能物流系统中重要运输工具的自动引导车(Automated Guided Vehicle,AGV),AGV路径规划与避障算法是移动机器人领域重要研究热点之一。为了解决现有仓储环境下的AGV在运用Q-learning算法进行路径规划时的前期收敛速度慢且探索利用... 作为智能物流系统中重要运输工具的自动引导车(Automated Guided Vehicle,AGV),AGV路径规划与避障算法是移动机器人领域重要研究热点之一。为了解决现有仓储环境下的AGV在运用Q-learning算法进行路径规划时的前期收敛速度慢且探索利用不平衡的问题,提出一种结合引力势场改进Q-learning的算法,同时对贪婪系数进行动态调整。首先,针对传统的Q-learning算法规划时学习效率低问题,构建从AGV到目标点的引力场,引导AGV始终朝着目标点方向移动,减少算法初期盲目性,加强初始阶段的目标性。然后,解决算法探索利用平衡问题,对贪婪系数进行动态改进。仿真实验表明,探索速率提升的同时,算法稳定性也有一定的提升。 展开更多
关键词 q-learning算法 强化学习 人工势场算法 AGV 路径规划
下载PDF
基于改进Q-Learning算法的机器人路径规划
2
作者 潘琦涛 赵岳生 甘育国 《物联网技术》 2025年第3期82-86,共5页
移动机器人的路径规划问题受到了广大学者的关注。当机器人在未知环境中进行路径规划时,为了提高规划的效率,通常需要获取相关的先验知识。在强化学习路径规划中,先验知识可以通过多种方式融入到算法中,其中Q-Learning算法是一种常用的... 移动机器人的路径规划问题受到了广大学者的关注。当机器人在未知环境中进行路径规划时,为了提高规划的效率,通常需要获取相关的先验知识。在强化学习路径规划中,先验知识可以通过多种方式融入到算法中,其中Q-Learning算法是一种常用的方法。传统的Q-Learning算法路径规划存在拐点多、路径长、训练轮次多等问题。因此,提出一种改进算法,针对原Q-Learning算法在机器人路径规划中存在的学习速度慢、探索效率低、规划路径长等突出问题进行了优化。首先,基于栅格地图,在传统算法的基础上采用径向基函数(RBF)网络对Q-Learning算法的动作值函数进行逼近;其次,为了平衡探索与利用的比例,采用了动态调整贪婪因子的方法;最后,增加了机器人可选择的动作,扩充了动作集,改进为八方向探索。仿真结果表明,与Q-Learning算法相比,改进后的Q-Learning算法可将最优路径长度缩短23.33%,拐点个数减少63.16%,算法训练轮次减少31.22%。 展开更多
关键词 q-learning ROS机器人 强化学习 路径规划 径向基函数 探索策略
下载PDF
基于改进Q-learning算法移动机器人局部路径研究
3
作者 方文凯 廖志高 《计算机与数字工程》 2024年第5期1265-1269,1274,共6页
针对局部路径规划时因无法提前获取环境信息导致移动机器人搜索不到合适的路径,以及在采用马尔可夫决策过程中传统强化学习算法应用于局部路径规划时存在着学习效率低下及收敛速度较慢等问题,提出一种改进的Q-learn-ing(QL)算法。首先... 针对局部路径规划时因无法提前获取环境信息导致移动机器人搜索不到合适的路径,以及在采用马尔可夫决策过程中传统强化学习算法应用于局部路径规划时存在着学习效率低下及收敛速度较慢等问题,提出一种改进的Q-learn-ing(QL)算法。首先设计一种动态自适应贪婪策略,用于平衡移动机器人对环境探索和利用之间的问题;其次根据A*算法思想设计启发式学习评估模型,从而动态调整学习因子并为搜索路径提供导向作用;最后引入三阶贝塞尔曲线规划对路径进行平滑处理。通过Pycharm平台仿真结果表明,使得改进后的QL算法所规划的路径长度、搜索效率及路径平滑性等特性上都优于传统Sarsa算法及QL算法,比传统Sarsa算法迭代次数提高32.3%,搜索时间缩短27.08%,比传统QL算法迭代次数提高27.32%,搜索时间缩短17.28%,路径规划的拐点大幅度减少,局部路径优化效果较为明显。 展开更多
关键词 移动机器人 q-learning算法 局部路径 A^(*)算法 贝塞尔曲线
下载PDF
基于时序Q-learning算法的主网变电站继电保护故障快速定位方法
4
作者 刘昊 曲文韬 +2 位作者 张达 李超 李清泉 《微型电脑应用》 2024年第8期134-137,163,共5页
主网变电站继电保护故障通常是突发性的,不会持续一段时间,暂态性质不明显,快速定位效果受限,基于此,提出基于时序Q-learning算法的故障快速定位方法。在时序Q-learning中,使用不同多项式函数参数表示不同主网变电站继电保护动作,采用... 主网变电站继电保护故障通常是突发性的,不会持续一段时间,暂态性质不明显,快速定位效果受限,基于此,提出基于时序Q-learning算法的故障快速定位方法。在时序Q-learning中,使用不同多项式函数参数表示不同主网变电站继电保护动作,采用贪婪策略选择主网变电站继电保护动作,根据继电保护状态反馈结果更新权重,使用时序Q-learning算法进行参数训练。构建故障暂态网络的节点导纳矩阵,计算支路电压、电流,确定故障关联域。按照拓扑图论方式时序Q-learning算法搭建快速定位拓扑结构,通过分析支路电流与故障电流之间距离,计算故障相关度,完成故障快速定位。由实验结果可知,该方法故障相序与实际一致,可以分析主网变电站继电保护暂态性质,适用于复杂多变的继电保护装置。 展开更多
关键词 时序q-learning算法 继电保护 故障快速定位 故障关联域
下载PDF
基于softmax的加权Double Q-Learning算法 被引量:1
5
作者 钟雨昂 袁伟伟 关东海 《计算机科学》 CSCD 北大核心 2024年第S01期46-50,共5页
强化学习作为机器学习的一个分支,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化的问题。Q-Learning作为无模型强化学习的经典方法,存在过估计引起的最大化偏差问题,并且在环境中奖励存在噪声时表现不佳。Dou... 强化学习作为机器学习的一个分支,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化的问题。Q-Learning作为无模型强化学习的经典方法,存在过估计引起的最大化偏差问题,并且在环境中奖励存在噪声时表现不佳。Double Q-Learning(DQL)的出现解决了过估计问题,但同时造成了低估问题。为解决以上算法的高低估问题,提出了基于softmax的加权Q-Learning算法,并将其与DQL相结合,提出了一种新的基于softmax的加权Double Q-Learning算法(WDQL-Softmax)。该算法基于加权双估计器的构造,对样本期望值进行softmax操作得到权重,使用权重估计动作价值,有效平衡对动作价值的高估和低估问题,使估计值更加接近理论值。实验结果表明,在离散动作空间中,相比于Q-Learning算法、DQL算法和WDQL算法,WDQL-Softmax算法的收敛速度更快且估计值与理论值的误差更小。 展开更多
关键词 强化学习 q-learning Double q-learning Softmax
下载PDF
Q-learning算法及其在囚徒困境问题中的实现 被引量:7
6
作者 张春阳 陈小平 +1 位作者 刘贵全 蔡庆生 《计算机工程与应用》 CSCD 北大核心 2001年第13期121-122,128,共3页
Q-learning是一种优良的强化学习算法。该文首先阐述了Q-learning的基本学习机制,然后以囚徒困境问题为背景,分析、对比T Q-learning算法与TFT算法,验证了 Q-learning算法的优良特性。
关键词 机器学习 强化学习 q-learning算法 囚徒困境问题 人工智能
下载PDF
改进Q-Learning算法在路径规划中的应用 被引量:17
7
作者 高乐 马天录 +1 位作者 刘凯 张宇轩 《吉林大学学报(信息科学版)》 CAS 2018年第4期439-443,共5页
针对Q-Learning算法在离散状态下存在运行效率低、学习速度慢等问题,提出一种改进的Q-Learning算法。改进后的算法在原有算法基础上增加了一层学习过程,对环境进行了深度学习。在栅格环境下进行仿真实验,并成功地应用在多障碍物环境下... 针对Q-Learning算法在离散状态下存在运行效率低、学习速度慢等问题,提出一种改进的Q-Learning算法。改进后的算法在原有算法基础上增加了一层学习过程,对环境进行了深度学习。在栅格环境下进行仿真实验,并成功地应用在多障碍物环境下移动机器人路径规划,结果证明了算法的可行性。改进Q-Learning算法以更快的速度收敛,学习次数明显减少,效率最大可提高20%。同时,该算法框架对解决同类问题具有较强的通用性。 展开更多
关键词 路径规划 改进q-learning算法 强化学习 栅格法 机器人
下载PDF
基于改进Q-learning算法的移动机器人局部路径规划 被引量:3
8
作者 张耀玉 李彩虹 +2 位作者 张国胜 李永迪 梁振英 《山东理工大学学报(自然科学版)》 CAS 2023年第2期1-6,共6页
针对Q-learning算法在移动机器人局部路径规划中存在的学习速度慢、效率低等问题,提出一种改进的IQ-learning算法。首先设计了栅格地图,建立机器人八连通的运行环境。其次基于栅格地图设计了状态、动作、Q值表、奖惩函数和动作选择策略;... 针对Q-learning算法在移动机器人局部路径规划中存在的学习速度慢、效率低等问题,提出一种改进的IQ-learning算法。首先设计了栅格地图,建立机器人八连通的运行环境。其次基于栅格地图设计了状态、动作、Q值表、奖惩函数和动作选择策略;在Q-learning算法的基础上,IQ-learning在奖惩函数中增加了对角线运动奖励值,鼓励机器人向八个方向探索路径,将平移运动和对角线运动相结合,减少规划路径长度和在初始阶段的盲目搜索,加快算法的收敛速度。最后利用设计的IQ-learning算法学习策略,分别在离散型、一字型、U型和混合型等障碍物环境下,学习移动机器人的局部路径规划任务,并与Q-learning的规划结果相比较,得出IQ-learning算法能够在更少的学习次数中以较少的步数找到最短路径,规划效率有所提高。 展开更多
关键词 移动机器人 q-learning算法 Iq-learning算法 局部路径规划 栅格地图
下载PDF
Q-learning算法下的机械臂轨迹规划与避障行为研究 被引量:11
9
作者 郭新兰 《机床与液压》 北大核心 2021年第9期57-61,66,共6页
机械臂运动和避障中存在轨迹偏差,要通过适当控制算法加以纠正确保实际轨迹趋近于理想轨迹。提出基于改进Q-learning算法的轨迹规划与避障方案,分别构建状态向量集合和每种状态下的动作集合,利用BP神经网络算法提高模型的连续逼近能力,... 机械臂运动和避障中存在轨迹偏差,要通过适当控制算法加以纠正确保实际轨迹趋近于理想轨迹。提出基于改进Q-learning算法的轨迹规划与避障方案,分别构建状态向量集合和每种状态下的动作集合,利用BP神经网络算法提高模型的连续逼近能力,并在迭代中不断更新Q函数值;路径规划中按照关节旋转角度及连杆空间移动距离最小原则,实现在合理避障同时轨迹偏差度最低。仿真结果表明:提出的控制算法收敛性速度快,路径规划效果优于传统规划方案,偏移成本最低。 展开更多
关键词 q-learning算法 机械臂 轨迹规划与避障方案 状态向量集合
下载PDF
基于n步Q-learning算法的风电抽水蓄能联合系统日随机优化调度研究 被引量:5
10
作者 李文武 马浩云 +1 位作者 贺中豪 徐康 《水电能源科学》 北大核心 2022年第1期206-210,共5页
针对Q-learning算法求解风电抽蓄联合系统日随机优化调度中,存在功率偏差大及收敛速度慢的问题,提出基于n步Q-learning算法的风电抽蓄日随机优化调度方法。先将风电出力随机过程视为Markov过程并建立风电抽蓄日随机优化调度模型;其次分... 针对Q-learning算法求解风电抽蓄联合系统日随机优化调度中,存在功率偏差大及收敛速度慢的问题,提出基于n步Q-learning算法的风电抽蓄日随机优化调度方法。先将风电出力随机过程视为Markov过程并建立风电抽蓄日随机优化调度模型;其次分析n步Q-learning算法应用于优化调度模型中的优势;最后按照应用流程求解优化调度模型。算例表明,n步Q-learning算法的优化结果与n步和学习率取值有关,当两个参数取值适中时能得到最优功率偏差结果,在求解该问题上对比n步Q-learning与Q-learning算法,前者能更快收敛且较后者功率偏差降低7.4%、求解时间降低10.4%,验证了n步Q-learning算法的求解优越性。 展开更多
关键词 风蓄随机优化调度 强化学习 q-learning算法 n步自举法
下载PDF
Markov链与Q-Learning算法的超轻度混动汽车模型预测控制 被引量:2
11
作者 尹燕莉 马永娟 +5 位作者 周亚伟 王瑞鑫 詹森 马什鹏 黄学江 张鑫新 《汽车安全与节能学报》 CAS CSCD 北大核心 2021年第4期557-569,共13页
为了同时兼顾能量管理策略的全局最优性与运算实时性,本文提出了基于Markov链与Q-Learning算法的超轻度混合动力汽车模型预测控制能量管理策略。采用多步Markov模型预测加速度变化过程,计算得出混合动力汽车未来需求功率;以等效燃油消... 为了同时兼顾能量管理策略的全局最优性与运算实时性,本文提出了基于Markov链与Q-Learning算法的超轻度混合动力汽车模型预测控制能量管理策略。采用多步Markov模型预测加速度变化过程,计算得出混合动力汽车未来需求功率;以等效燃油消耗最小与动力电池荷电状态(SOC)局部平衡为目标函数,建立能量管理策略优化模型;采用Q-Learning算法对预测时域内的优化问题进行求解,得到最优转矩分配序列。基于MATLAB/Simulink平台,对于ECE_EUDC+UDDS循环工况进行仿真分析。结果表明:采用Q-Learning求解的控制策略比基于动态规划(DP)求解的控制策略,在保证燃油经济性基本保持一致的前提下,仿真时间缩短了4 s,明显地提高了运行效率,实时性更好。 展开更多
关键词 超轻度混合动力汽车 模型预测控制 Markov链(Markov chain) q-learning算法 多步Markov模型 能量管理
下载PDF
基于Q-Learning算法的毫微微小区功率控制算法 被引量:2
12
作者 李云 唐英 刘涵霄 《电子与信息学报》 EI CSCD 北大核心 2019年第11期2557-2564,共8页
该文研究macro-femto异构蜂窝网络中移动用户的功率控制问题,首先建立了以最小接收信号信干噪比为约束条件,最大化毫微微小区的总能效为目标的优化模型;然后提出了基于Q-Learning算法的毫微微小区集中式功率控制(PCQL)算法,该算法基于... 该文研究macro-femto异构蜂窝网络中移动用户的功率控制问题,首先建立了以最小接收信号信干噪比为约束条件,最大化毫微微小区的总能效为目标的优化模型;然后提出了基于Q-Learning算法的毫微微小区集中式功率控制(PCQL)算法,该算法基于强化学习,能在没有准确信道状态信息的情况下,实现对小区内所有用户终端的发射功率统一调整。仿真结果表明该算法能实现对用户终端的功率有效控制,提升系统能效。 展开更多
关键词 集中式功率控制 q-learning算法 能效优化
下载PDF
基于改进Q-learning算法的移动机器人路径规划
13
作者 井征淼 刘宏杰 周永录 《火力与指挥控制》 CSCD 北大核心 2024年第3期135-141,共7页
针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖... 针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖励值,以及对比斥力函数计算姿值,动态更新Q值,使移动机器人具有目的性的探索,并且优先选择离障碍物较远的位置移动。通过仿真实验证明,与传统Q-learning算法、引入引力场算法对比,改进Q-learning算法加快了收敛速度,缩短了运行时间,提高了学习效率,降低了与障碍物相撞的概率,使移动机器人能够快速地找到一条无碰撞通路。 展开更多
关键词 移动机器人 路径规划 改进的q-learning 人工势场法 强化学习
下载PDF
基于改进型Q-Learning算法的路径规划系统研究
14
作者 娄智波 彭越 辛凯 《计算机与数字工程》 2024年第8期2312-2316,共5页
随着无人驾驶领域的兴起,人工智能、强化学习等概念开始普及。人工智能设备具有集成度高、可训练性以及可编程性等特点,在无人驾驶中的路径规划领域发挥了重要作用。论文首先介绍了现有研究中较为经典的路径规划算法,并针对Q-Learning... 随着无人驾驶领域的兴起,人工智能、强化学习等概念开始普及。人工智能设备具有集成度高、可训练性以及可编程性等特点,在无人驾驶中的路径规划领域发挥了重要作用。论文首先介绍了现有研究中较为经典的路径规划算法,并针对Q-Learning算法效率低下等问题进行研究,提出了一种改进型Q-Learning算法。该算法首先对智能体的运动以及空间环境进行建模,其次改进了Q-Learning算法的奖励机制,最后规定了智能体的运动方式。仿真结果表明,基于改进型Q-Learning算法有效改善了智能体的运动路径以及工作效率。 展开更多
关键词 强化学习 路径规划 奖励 q-learning
下载PDF
流量拥堵空域内一种基于Q-Learning算法的改航路径规划
15
作者 向征 何雨阳 全志伟 《科学技术与工程》 北大核心 2022年第32期14494-14501,共8页
目前,空中流量激增导致空域资源紧张的问题越发凸显,为了缓解这一现状,基于流量管理层面对航空器进行改航路径的研究。首先采用栅格化的方式对空域环境进行离散化处理,根据航路点流量的拥挤程度把空域划分为3种不同类型的栅格区域。其... 目前,空中流量激增导致空域资源紧张的问题越发凸显,为了缓解这一现状,基于流量管理层面对航空器进行改航路径的研究。首先采用栅格化的方式对空域环境进行离散化处理,根据航路点流量的拥挤程度把空域划分为3种不同类型的栅格区域。其次通过改进强化学习中马尔科夫决策过程的奖励函数对其进行建模,并基于ε-greedy策略运用Q-Learning算法对该模型进行迭代求解,对相应的参数取值进行探究比较以提高结果的可适用性。最后经过仿真运行,计算出不同参数赋值下的最优路径及相应的性能指标。结果表明:应用该模型和算法可以针对某一时段内的流量拥堵空域搜索出合适的改航路径,使飞机避开流量拥挤的航路点,缩短空中延误时间,有效改善空域拥堵的现况。 展开更多
关键词 改航路径规划 流量拥堵 强化学习 马尔科夫决策过程 q-learning算法 ε-greedy策略
下载PDF
基于改进Q-learning算法和DWA的路径规划 被引量:3
16
作者 王志伟 邹艳丽 +2 位作者 刘唐慧美 侯凤萍 余自淳 《传感器与微系统》 CSCD 北大核心 2023年第9期148-152,共5页
针对传统Q-learning算法出现的规划路线转折点多,探索效率低,以及无法实现动态环境下的路径规划问题,提出一种基于改进Q-learning算法和动态窗口法(DWA)的融合算法。首先,改变传统Q-learning算法的搜索方式,由原先的8方向变成16方向;利... 针对传统Q-learning算法出现的规划路线转折点多,探索效率低,以及无法实现动态环境下的路径规划问题,提出一种基于改进Q-learning算法和动态窗口法(DWA)的融合算法。首先,改变传统Q-learning算法的搜索方式,由原先的8方向变成16方向;利用模拟退火算法对Q-learning进行迭代优化;通过路径节点优化算法进行节点简化,提高路径平滑度。然后,提取改进Q-learning算法规划路径的节点,将其作为DWA算法的临时目标,前进过程中,能够实时躲避环境中出现的动静态障碍物。最终实验结果表明:融合算法具有较好的路径规划能力,实现了全局最优和有效避障的效果。 展开更多
关键词 q-learning算法 路径规划 动态窗口法
下载PDF
基于Q-learning算法的煤矿井下移动机器人路径算法研究与展望 被引量:2
17
作者 胡敏 《煤炭技术》 CAS 北大核心 2013年第9期33-34,共2页
文章研究了Q-learning算法,并且基于该算法,对煤矿井下机器人的移动路径进行了规划,并且对规划方案进行了仿真分析,通过研究发现Q-learning算法的路径规划能力优越,特别是对于条件极为恶劣、工况十分复杂的煤矿井下作业环境而言,能够较... 文章研究了Q-learning算法,并且基于该算法,对煤矿井下机器人的移动路径进行了规划,并且对规划方案进行了仿真分析,通过研究发现Q-learning算法的路径规划能力优越,特别是对于条件极为恶劣、工况十分复杂的煤矿井下作业环境而言,能够较好地获取满意的规划结果。 展开更多
关键词 q-learning算法 机器人 路径规划
下载PDF
基于Q-learning算法的vEPC虚拟网络功能部署方法 被引量:16
18
作者 袁泉 汤红波 +2 位作者 黄开枝 王晓雷 赵宇 《通信学报》 EI CSCD 北大核心 2017年第8期172-182,共11页
针对虚拟化演进分组核心网(v EPC)环境下,现有虚拟网络功能(VNF)部署方法无法在优化时延的同时保证服务链部署收益的问题,提出一种改进的基于Q-learning算法的v EPC虚拟网络功能部署方法。在传统0-1规划模型的基础上,采用马尔可夫决策... 针对虚拟化演进分组核心网(v EPC)环境下,现有虚拟网络功能(VNF)部署方法无法在优化时延的同时保证服务链部署收益的问题,提出一种改进的基于Q-learning算法的v EPC虚拟网络功能部署方法。在传统0-1规划模型的基础上,采用马尔可夫决策过程建立了v EPC服务链部署的空间—时间优化模型,并设计了改进的Q-learning算法求解。该方法同时考虑了空间维度下的EPC服务链虚拟映射和时间维度下的VNF生命周期管理,实现了VNF部署的收益—时延多目标优化。仿真结果表明,与其他VNF部署方法相比,该方法在降低网络时延的同时提高了VNF部署的收益和请求接受率。 展开更多
关键词 5G 虚拟网络功能 服务功能链部署 q-learning
下载PDF
Q-learning算法优化的SVDPP推荐算法 被引量:3
19
作者 周运腾 张雪英 +3 位作者 李凤莲 刘书昌 焦江丽 田豆 《计算机工程》 CAS CSCD 北大核心 2021年第2期46-51,共6页
为进一步改善个性化推荐系统的推荐效果,通过使用强化学习方法对SVDPP算法进行优化,提出一种新的协同过滤推荐算法。考虑用户评分的时间效应,将推荐问题转化为马尔科夫决策过程。在此基础上,利用Q-learning算法构建融合时间戳信息的用... 为进一步改善个性化推荐系统的推荐效果,通过使用强化学习方法对SVDPP算法进行优化,提出一种新的协同过滤推荐算法。考虑用户评分的时间效应,将推荐问题转化为马尔科夫决策过程。在此基础上,利用Q-learning算法构建融合时间戳信息的用户评分优化模型,同时通过预测评分取整填充和优化边界补全方法预测缺失值,以解决数据稀疏性问题。实验结果显示,该算法的均方根误差较SVDPP算法降低了0.005 6,表明融合时间戳并采用强化学习方法进行推荐性能优化是可行的。 展开更多
关键词 协同过滤 奇异值分解 强化学习 马尔科夫决策过程 q-learning算法
下载PDF
基于优化Q-learning算法的机器人路径规划 被引量:3
20
作者 钱信 吕成伊 宋世杰 《南昌大学学报(工科版)》 CAS 2022年第4期396-401,共6页
针对传统Q-learning算法在路径规划中存在收敛速度慢、难以平衡探索与利用的关系等问题,采用改进后的势场对Q-learning算法的Q表初值进行优化,引入多步长策略减少算法的迭代次数和路径中的拐点个数,加入动态调节贪婪因子平衡探索与利用... 针对传统Q-learning算法在路径规划中存在收敛速度慢、难以平衡探索与利用的关系等问题,采用改进后的势场对Q-learning算法的Q表初值进行优化,引入多步长策略减少算法的迭代次数和路径中的拐点个数,加入动态调节贪婪因子平衡探索与利用的关系。仿真结果证明,与Q-learnig算法相比,改进后的IMD-Q-learnig算法可将最优路径长度缩短79.09%,拐点个数减少46.67%,算法效率提升88.40%。 展开更多
关键词 q-learning算法 路径规划 移动机器人 多步长
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部