期刊文献+
共找到356,430篇文章
< 1 2 250 >
每页显示 20 50 100
基于改进Q-learning算法移动机器人局部路径研究
1
作者 方文凯 廖志高 《计算机与数字工程》 2024年第5期1265-1269,1274,共6页
针对局部路径规划时因无法提前获取环境信息导致移动机器人搜索不到合适的路径,以及在采用马尔可夫决策过程中传统强化学习算法应用于局部路径规划时存在着学习效率低下及收敛速度较慢等问题,提出一种改进的Q-learn-ing(QL)算法。首先... 针对局部路径规划时因无法提前获取环境信息导致移动机器人搜索不到合适的路径,以及在采用马尔可夫决策过程中传统强化学习算法应用于局部路径规划时存在着学习效率低下及收敛速度较慢等问题,提出一种改进的Q-learn-ing(QL)算法。首先设计一种动态自适应贪婪策略,用于平衡移动机器人对环境探索和利用之间的问题;其次根据A*算法思想设计启发式学习评估模型,从而动态调整学习因子并为搜索路径提供导向作用;最后引入三阶贝塞尔曲线规划对路径进行平滑处理。通过Pycharm平台仿真结果表明,使得改进后的QL算法所规划的路径长度、搜索效率及路径平滑性等特性上都优于传统Sarsa算法及QL算法,比传统Sarsa算法迭代次数提高32.3%,搜索时间缩短27.08%,比传统QL算法迭代次数提高27.32%,搜索时间缩短17.28%,路径规划的拐点大幅度减少,局部路径优化效果较为明显。 展开更多
关键词 移动机器人 q-learning算法 局部路径 A^(*)算法 贝塞尔曲线
下载PDF
基于时序Q-learning算法的主网变电站继电保护故障快速定位方法
2
作者 刘昊 曲文韬 +2 位作者 张达 李超 李清泉 《微型电脑应用》 2024年第8期134-137,163,共5页
主网变电站继电保护故障通常是突发性的,不会持续一段时间,暂态性质不明显,快速定位效果受限,基于此,提出基于时序Q-learning算法的故障快速定位方法。在时序Q-learning中,使用不同多项式函数参数表示不同主网变电站继电保护动作,采用... 主网变电站继电保护故障通常是突发性的,不会持续一段时间,暂态性质不明显,快速定位效果受限,基于此,提出基于时序Q-learning算法的故障快速定位方法。在时序Q-learning中,使用不同多项式函数参数表示不同主网变电站继电保护动作,采用贪婪策略选择主网变电站继电保护动作,根据继电保护状态反馈结果更新权重,使用时序Q-learning算法进行参数训练。构建故障暂态网络的节点导纳矩阵,计算支路电压、电流,确定故障关联域。按照拓扑图论方式时序Q-learning算法搭建快速定位拓扑结构,通过分析支路电流与故障电流之间距离,计算故障相关度,完成故障快速定位。由实验结果可知,该方法故障相序与实际一致,可以分析主网变电站继电保护暂态性质,适用于复杂多变的继电保护装置。 展开更多
关键词 时序q-learning算法 继电保护 故障快速定位 故障关联域
下载PDF
基于softmax的加权Double Q-Learning算法
3
作者 钟雨昂 袁伟伟 关东海 《计算机科学》 CSCD 北大核心 2024年第S01期46-50,共5页
强化学习作为机器学习的一个分支,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化的问题。Q-Learning作为无模型强化学习的经典方法,存在过估计引起的最大化偏差问题,并且在环境中奖励存在噪声时表现不佳。Dou... 强化学习作为机器学习的一个分支,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化的问题。Q-Learning作为无模型强化学习的经典方法,存在过估计引起的最大化偏差问题,并且在环境中奖励存在噪声时表现不佳。Double Q-Learning(DQL)的出现解决了过估计问题,但同时造成了低估问题。为解决以上算法的高低估问题,提出了基于softmax的加权Q-Learning算法,并将其与DQL相结合,提出了一种新的基于softmax的加权Double Q-Learning算法(WDQL-Softmax)。该算法基于加权双估计器的构造,对样本期望值进行softmax操作得到权重,使用权重估计动作价值,有效平衡对动作价值的高估和低估问题,使估计值更加接近理论值。实验结果表明,在离散动作空间中,相比于Q-Learning算法、DQL算法和WDQL算法,WDQL-Softmax算法的收敛速度更快且估计值与理论值的误差更小。 展开更多
关键词 强化学习 q-learning Double q-learning Softmax
下载PDF
基于改进Q-learning算法的移动机器人局部路径规划 被引量:3
4
作者 张耀玉 李彩虹 +2 位作者 张国胜 李永迪 梁振英 《山东理工大学学报(自然科学版)》 CAS 2023年第2期1-6,共6页
针对Q-learning算法在移动机器人局部路径规划中存在的学习速度慢、效率低等问题,提出一种改进的IQ-learning算法。首先设计了栅格地图,建立机器人八连通的运行环境。其次基于栅格地图设计了状态、动作、Q值表、奖惩函数和动作选择策略;... 针对Q-learning算法在移动机器人局部路径规划中存在的学习速度慢、效率低等问题,提出一种改进的IQ-learning算法。首先设计了栅格地图,建立机器人八连通的运行环境。其次基于栅格地图设计了状态、动作、Q值表、奖惩函数和动作选择策略;在Q-learning算法的基础上,IQ-learning在奖惩函数中增加了对角线运动奖励值,鼓励机器人向八个方向探索路径,将平移运动和对角线运动相结合,减少规划路径长度和在初始阶段的盲目搜索,加快算法的收敛速度。最后利用设计的IQ-learning算法学习策略,分别在离散型、一字型、U型和混合型等障碍物环境下,学习移动机器人的局部路径规划任务,并与Q-learning的规划结果相比较,得出IQ-learning算法能够在更少的学习次数中以较少的步数找到最短路径,规划效率有所提高。 展开更多
关键词 移动机器人 q-learning算法 Iq-learning算法 局部路径规划 栅格地图
下载PDF
基于改进Q-learning算法的移动机器人路径规划
5
作者 井征淼 刘宏杰 周永录 《火力与指挥控制》 CSCD 北大核心 2024年第3期135-141,共7页
针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖... 针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖励值,以及对比斥力函数计算姿值,动态更新Q值,使移动机器人具有目的性的探索,并且优先选择离障碍物较远的位置移动。通过仿真实验证明,与传统Q-learning算法、引入引力场算法对比,改进Q-learning算法加快了收敛速度,缩短了运行时间,提高了学习效率,降低了与障碍物相撞的概率,使移动机器人能够快速地找到一条无碰撞通路。 展开更多
关键词 移动机器人 路径规划 改进的q-learning 人工势场法 强化学习
下载PDF
基于改进型Q-Learning算法的路径规划系统研究
6
作者 娄智波 彭越 辛凯 《计算机与数字工程》 2024年第8期2312-2316,共5页
随着无人驾驶领域的兴起,人工智能、强化学习等概念开始普及。人工智能设备具有集成度高、可训练性以及可编程性等特点,在无人驾驶中的路径规划领域发挥了重要作用。论文首先介绍了现有研究中较为经典的路径规划算法,并针对Q-Learning... 随着无人驾驶领域的兴起,人工智能、强化学习等概念开始普及。人工智能设备具有集成度高、可训练性以及可编程性等特点,在无人驾驶中的路径规划领域发挥了重要作用。论文首先介绍了现有研究中较为经典的路径规划算法,并针对Q-Learning算法效率低下等问题进行研究,提出了一种改进型Q-Learning算法。该算法首先对智能体的运动以及空间环境进行建模,其次改进了Q-Learning算法的奖励机制,最后规定了智能体的运动方式。仿真结果表明,基于改进型Q-Learning算法有效改善了智能体的运动路径以及工作效率。 展开更多
关键词 强化学习 路径规划 奖励 q-learning
下载PDF
基于改进Q-learning算法和DWA的路径规划 被引量:2
7
作者 王志伟 邹艳丽 +2 位作者 刘唐慧美 侯凤萍 余自淳 《传感器与微系统》 CSCD 北大核心 2023年第9期148-152,共5页
针对传统Q-learning算法出现的规划路线转折点多,探索效率低,以及无法实现动态环境下的路径规划问题,提出一种基于改进Q-learning算法和动态窗口法(DWA)的融合算法。首先,改变传统Q-learning算法的搜索方式,由原先的8方向变成16方向;利... 针对传统Q-learning算法出现的规划路线转折点多,探索效率低,以及无法实现动态环境下的路径规划问题,提出一种基于改进Q-learning算法和动态窗口法(DWA)的融合算法。首先,改变传统Q-learning算法的搜索方式,由原先的8方向变成16方向;利用模拟退火算法对Q-learning进行迭代优化;通过路径节点优化算法进行节点简化,提高路径平滑度。然后,提取改进Q-learning算法规划路径的节点,将其作为DWA算法的临时目标,前进过程中,能够实时躲避环境中出现的动静态障碍物。最终实验结果表明:融合算法具有较好的路径规划能力,实现了全局最优和有效避障的效果。 展开更多
关键词 q-learning算法 路径规划 动态窗口法
下载PDF
改进Q-learning算法的柔性上料系统研究 被引量:1
8
作者 丁慧琴 曹雏清 +1 位作者 徐昌军 李龙 《现代制造工程》 CSCD 北大核心 2023年第4期87-92,129,共7页
现有振动式给料柔性上料系统的工作效果多数依靠出厂前人工手动调试,手动振动参数调试存在耗时长、费人力问题,且调试结果有较强针对性,导致系统柔性能力不足。提出一种基于改进Q-learning算法的柔性上料系统,结合柔性上料系统自身特性... 现有振动式给料柔性上料系统的工作效果多数依靠出厂前人工手动调试,手动振动参数调试存在耗时长、费人力问题,且调试结果有较强针对性,导致系统柔性能力不足。提出一种基于改进Q-learning算法的柔性上料系统,结合柔性上料系统自身特性对传统Q-learning算法的奖励函数和ε-贪婪策略进行改进,令柔性上料系统自学习寻找一组有较优料件振动效果的振动参数。由实验可得,所提算法能减少人工在柔性上料系统调试上的参与度,证明了该算法在柔性上料系统中的可行性和有效性,且与传统Q-learning算法相比较,改进Q-learning算法更符合柔性上料系统的实际应用。 展开更多
关键词 强化学习 q-learning算法 柔性上料系统
下载PDF
基于Q-learning算法的配电网储能装置控制策略研究
9
作者 王晓康 俞智浩 芦翔 《宁夏电力》 2023年第5期6-11,共6页
通过在配电网末端接入用于系统调压等辅助服务的储能装置,能有效解决可再生能源的高度间歇性和负荷需求波动导致的配变过载问题。基于强化学习的Q-learning算法,针对储能电池运行情况进行建模仿真,通过单时段优化内嵌的Q值得到各时段储... 通过在配电网末端接入用于系统调压等辅助服务的储能装置,能有效解决可再生能源的高度间歇性和负荷需求波动导致的配变过载问题。基于强化学习的Q-learning算法,针对储能电池运行情况进行建模仿真,通过单时段优化内嵌的Q值得到各时段储能电池荷电状态的最优调度方案。实例试验分析表明,当迭代次数达到一定数量时,利用Q-learning算法能够达到理论上的最优解。最后,通过将Q-learning算法与动态规划算法生成的标准最优调度方案进行对比,证明了Q-learning算法能够与动态规划算法达成一致最优解。 展开更多
关键词 强化学习 储能装置 q-learning算法 动态规划算法
下载PDF
基于Q-learning算法的多天线无线携能通信安全传输方案研究
10
作者 陈森基 《通信电源技术》 2023年第15期5-7,共3页
基于Q-learning算法,针对多天线无线携能通信的安全传输问题展开研究。在该研究中,将通信环境和攻击威胁作为系统的状态,而通信节点的操作和反应策略被视为系统对该状态的行动,利用Q-learning算法学习最佳的安全传输策略。通过实验验证... 基于Q-learning算法,针对多天线无线携能通信的安全传输问题展开研究。在该研究中,将通信环境和攻击威胁作为系统的状态,而通信节点的操作和反应策略被视为系统对该状态的行动,利用Q-learning算法学习最佳的安全传输策略。通过实验验证,验证了所设计的安全传输方案在传输速率、误码率以及安全性方面的有效性。实验结果表明,基于Q-learning算法的安全传输方案能够自适应地应对不同的通信环境和攻击威胁,提高传输的安全性与可靠性。 展开更多
关键词 q-learning算法 通信安全 传输方案
下载PDF
基于Q-Learning算法的无人机空战机动决策研究
11
作者 姚培源 魏潇龙 +1 位作者 俞利新 李胜厚 《电光与控制》 CSCD 北大核心 2023年第5期16-22,共7页
针对无人机空战对抗自主机动决策问题,设计了侧向机动决策算法。通过加入启发式因子的方式和双Q表交替学习的机制,弥补了传统Q-Learning算法学习速度慢、无效学习多的不足。通过路径规划仿真和数据的对比,验证了改进Q-Learning算法具有... 针对无人机空战对抗自主机动决策问题,设计了侧向机动决策算法。通过加入启发式因子的方式和双Q表交替学习的机制,弥补了传统Q-Learning算法学习速度慢、无效学习多的不足。通过路径规划仿真和数据的对比,验证了改进Q-Learning算法具有更好的稳定性和求解能力。设计了动态的栅格规划环境,能够使无人机根据变化的空战态势自适应调整栅格尺寸大小,且对求解的速率不产生影响。基于Q-Learning算法,构建了无人机空战对抗侧向机动决策模型,并通过武器平台调换的方式验证了改进Q-Learning算法能显著提升无人机空战胜负比。 展开更多
关键词 无人机 空战 机动决策 动态栅格环境 路径规划 q-learning学习表算法
下载PDF
Q-learning算法及其在囚徒困境问题中的实现 被引量:7
12
作者 张春阳 陈小平 +1 位作者 刘贵全 蔡庆生 《计算机工程与应用》 CSCD 北大核心 2001年第13期121-122,128,共3页
Q-learning是一种优良的强化学习算法。该文首先阐述了Q-learning的基本学习机制,然后以囚徒困境问题为背景,分析、对比T Q-learning算法与TFT算法,验证了 Q-learning算法的优良特性。
关键词 机器学习 强化学习 q-learning算法 囚徒困境问题 人工智能
下载PDF
基于Q-learning算法解决多目标柔性作业车间调度问题 被引量:2
13
作者 李雅明 张斌 《工业控制计算机》 2023年第9期112-114,共3页
近几十年来,柔性作业车间调度问题由于其不确定性和复杂度引起了许多学者的关注。易陷入局部最优一直是元启发式算法解决柔性作业车间调度问题的不足之处,对此提出了一种改进的Q-learning强化学习算法,该改进算法设计并定义了状态空间... 近几十年来,柔性作业车间调度问题由于其不确定性和复杂度引起了许多学者的关注。易陷入局部最优一直是元启发式算法解决柔性作业车间调度问题的不足之处,对此提出了一种改进的Q-learning强化学习算法,该改进算法设计并定义了状态空间和动作集,并通过随机生成可行的工序编码,在随机贪婪策略下选择合适的加工机器形成对应可行的机器编码,以最大完工时间和总能耗的多目标优化函数为可行解优劣的衡量标准。最后将所提算法模型使用车间调度问题的标准算例进行了验证,实验结果说明了所提算法的有效性,提升了解决多目标柔性作业车间问题的精度。 展开更多
关键词 q-learning 柔性作业车间调度 多目标 随机贪婪 强化学习
下载PDF
改进Q-Learning算法在路径规划中的应用 被引量:17
14
作者 高乐 马天录 +1 位作者 刘凯 张宇轩 《吉林大学学报(信息科学版)》 CAS 2018年第4期439-443,共5页
针对Q-Learning算法在离散状态下存在运行效率低、学习速度慢等问题,提出一种改进的Q-Learning算法。改进后的算法在原有算法基础上增加了一层学习过程,对环境进行了深度学习。在栅格环境下进行仿真实验,并成功地应用在多障碍物环境下... 针对Q-Learning算法在离散状态下存在运行效率低、学习速度慢等问题,提出一种改进的Q-Learning算法。改进后的算法在原有算法基础上增加了一层学习过程,对环境进行了深度学习。在栅格环境下进行仿真实验,并成功地应用在多障碍物环境下移动机器人路径规划,结果证明了算法的可行性。改进Q-Learning算法以更快的速度收敛,学习次数明显减少,效率最大可提高20%。同时,该算法框架对解决同类问题具有较强的通用性。 展开更多
关键词 路径规划 改进q-learning算法 强化学习 栅格法 机器人
下载PDF
Q-learning算法下的机械臂轨迹规划与避障行为研究 被引量:10
15
作者 郭新兰 《机床与液压》 北大核心 2021年第9期57-61,66,共6页
机械臂运动和避障中存在轨迹偏差,要通过适当控制算法加以纠正确保实际轨迹趋近于理想轨迹。提出基于改进Q-learning算法的轨迹规划与避障方案,分别构建状态向量集合和每种状态下的动作集合,利用BP神经网络算法提高模型的连续逼近能力,... 机械臂运动和避障中存在轨迹偏差,要通过适当控制算法加以纠正确保实际轨迹趋近于理想轨迹。提出基于改进Q-learning算法的轨迹规划与避障方案,分别构建状态向量集合和每种状态下的动作集合,利用BP神经网络算法提高模型的连续逼近能力,并在迭代中不断更新Q函数值;路径规划中按照关节旋转角度及连杆空间移动距离最小原则,实现在合理避障同时轨迹偏差度最低。仿真结果表明:提出的控制算法收敛性速度快,路径规划效果优于传统规划方案,偏移成本最低。 展开更多
关键词 q-learning算法 机械臂 轨迹规划与避障方案 状态向量集合
下载PDF
基于n步Q-learning算法的风电抽水蓄能联合系统日随机优化调度研究 被引量:5
16
作者 李文武 马浩云 +1 位作者 贺中豪 徐康 《水电能源科学》 北大核心 2022年第1期206-210,共5页
针对Q-learning算法求解风电抽蓄联合系统日随机优化调度中,存在功率偏差大及收敛速度慢的问题,提出基于n步Q-learning算法的风电抽蓄日随机优化调度方法。先将风电出力随机过程视为Markov过程并建立风电抽蓄日随机优化调度模型;其次分... 针对Q-learning算法求解风电抽蓄联合系统日随机优化调度中,存在功率偏差大及收敛速度慢的问题,提出基于n步Q-learning算法的风电抽蓄日随机优化调度方法。先将风电出力随机过程视为Markov过程并建立风电抽蓄日随机优化调度模型;其次分析n步Q-learning算法应用于优化调度模型中的优势;最后按照应用流程求解优化调度模型。算例表明,n步Q-learning算法的优化结果与n步和学习率取值有关,当两个参数取值适中时能得到最优功率偏差结果,在求解该问题上对比n步Q-learning与Q-learning算法,前者能更快收敛且较后者功率偏差降低7.4%、求解时间降低10.4%,验证了n步Q-learning算法的求解优越性。 展开更多
关键词 风蓄随机优化调度 强化学习 q-learning算法 n步自举法
下载PDF
Markov链与Q-Learning算法的超轻度混动汽车模型预测控制 被引量:2
17
作者 尹燕莉 马永娟 +5 位作者 周亚伟 王瑞鑫 詹森 马什鹏 黄学江 张鑫新 《汽车安全与节能学报》 CAS CSCD 北大核心 2021年第4期557-569,共13页
为了同时兼顾能量管理策略的全局最优性与运算实时性,本文提出了基于Markov链与Q-Learning算法的超轻度混合动力汽车模型预测控制能量管理策略。采用多步Markov模型预测加速度变化过程,计算得出混合动力汽车未来需求功率;以等效燃油消... 为了同时兼顾能量管理策略的全局最优性与运算实时性,本文提出了基于Markov链与Q-Learning算法的超轻度混合动力汽车模型预测控制能量管理策略。采用多步Markov模型预测加速度变化过程,计算得出混合动力汽车未来需求功率;以等效燃油消耗最小与动力电池荷电状态(SOC)局部平衡为目标函数,建立能量管理策略优化模型;采用Q-Learning算法对预测时域内的优化问题进行求解,得到最优转矩分配序列。基于MATLAB/Simulink平台,对于ECE_EUDC+UDDS循环工况进行仿真分析。结果表明:采用Q-Learning求解的控制策略比基于动态规划(DP)求解的控制策略,在保证燃油经济性基本保持一致的前提下,仿真时间缩短了4 s,明显地提高了运行效率,实时性更好。 展开更多
关键词 超轻度混合动力汽车 模型预测控制 Markov链(Markov chain) q-learning算法 多步Markov模型 能量管理
下载PDF
基于Q-Learning算法的毫微微小区功率控制算法 被引量:2
18
作者 李云 唐英 刘涵霄 《电子与信息学报》 EI CSCD 北大核心 2019年第11期2557-2564,共8页
该文研究macro-femto异构蜂窝网络中移动用户的功率控制问题,首先建立了以最小接收信号信干噪比为约束条件,最大化毫微微小区的总能效为目标的优化模型;然后提出了基于Q-Learning算法的毫微微小区集中式功率控制(PCQL)算法,该算法基于... 该文研究macro-femto异构蜂窝网络中移动用户的功率控制问题,首先建立了以最小接收信号信干噪比为约束条件,最大化毫微微小区的总能效为目标的优化模型;然后提出了基于Q-Learning算法的毫微微小区集中式功率控制(PCQL)算法,该算法基于强化学习,能在没有准确信道状态信息的情况下,实现对小区内所有用户终端的发射功率统一调整。仿真结果表明该算法能实现对用户终端的功率有效控制,提升系统能效。 展开更多
关键词 集中式功率控制 q-learning算法 能效优化
下载PDF
流量拥堵空域内一种基于Q-Learning算法的改航路径规划
19
作者 向征 何雨阳 全志伟 《科学技术与工程》 北大核心 2022年第32期14494-14501,共8页
目前,空中流量激增导致空域资源紧张的问题越发凸显,为了缓解这一现状,基于流量管理层面对航空器进行改航路径的研究。首先采用栅格化的方式对空域环境进行离散化处理,根据航路点流量的拥挤程度把空域划分为3种不同类型的栅格区域。其... 目前,空中流量激增导致空域资源紧张的问题越发凸显,为了缓解这一现状,基于流量管理层面对航空器进行改航路径的研究。首先采用栅格化的方式对空域环境进行离散化处理,根据航路点流量的拥挤程度把空域划分为3种不同类型的栅格区域。其次通过改进强化学习中马尔科夫决策过程的奖励函数对其进行建模,并基于ε-greedy策略运用Q-Learning算法对该模型进行迭代求解,对相应的参数取值进行探究比较以提高结果的可适用性。最后经过仿真运行,计算出不同参数赋值下的最优路径及相应的性能指标。结果表明:应用该模型和算法可以针对某一时段内的流量拥堵空域搜索出合适的改航路径,使飞机避开流量拥挤的航路点,缩短空中延误时间,有效改善空域拥堵的现况。 展开更多
关键词 改航路径规划 流量拥堵 强化学习 马尔科夫决策过程 q-learning算法 ε-greedy策略
下载PDF
基于Q-learning算法的煤矿井下移动机器人路径算法研究与展望 被引量:2
20
作者 胡敏 《煤炭技术》 CAS 北大核心 2013年第9期33-34,共2页
文章研究了Q-learning算法,并且基于该算法,对煤矿井下机器人的移动路径进行了规划,并且对规划方案进行了仿真分析,通过研究发现Q-learning算法的路径规划能力优越,特别是对于条件极为恶劣、工况十分复杂的煤矿井下作业环境而言,能够较... 文章研究了Q-learning算法,并且基于该算法,对煤矿井下机器人的移动路径进行了规划,并且对规划方案进行了仿真分析,通过研究发现Q-learning算法的路径规划能力优越,特别是对于条件极为恶劣、工况十分复杂的煤矿井下作业环境而言,能够较好地获取满意的规划结果。 展开更多
关键词 q-learning算法 机器人 路径规划
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部