期刊文献+
共找到1,582篇文章
< 1 2 80 >
每页显示 20 50 100
改进Q-Learning的路径规划算法研究
1
作者 宋丽君 周紫瑜 +2 位作者 李云龙 侯佳杰 何星 《小型微型计算机系统》 CSCD 北大核心 2024年第4期823-829,共7页
针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在... 针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在更新函数中设计深度学习因子以保证算法探索概率;融合遗传算法,避免陷入局部路径最优同时按阶段探索最优迭代步长次数,以减少动态地图探索重复率;最后提取输出的最优路径关键节点采用贝塞尔曲线进行平滑处理,进一步保证路径平滑度和可行性.实验通过栅格法构建地图,对比实验结果表明,改进后的算法效率相较于传统算法在迭代次数和路径上均有较大优化,且能够较好的实现动态地图下的路径规划,进一步验证所提方法的有效性和实用性. 展开更多
关键词 移动机器人 路径规划 q-learning算法 平滑处理 动态避障
下载PDF
基于改进Q-Learning的移动机器人路径规划算法
2
作者 王立勇 王弘轩 +2 位作者 苏清华 王绅同 张鹏博 《电子测量技术》 北大核心 2024年第9期85-92,共8页
随着移动机器人在生产生活中的深入应用,其路径规划能力也需要向快速性和环境适应性兼备发展。为解决现有移动机器人使用强化学习方法进行路径规划时存在的探索前期容易陷入局部最优、反复搜索同一区域,探索后期收敛率低、收敛速度慢的... 随着移动机器人在生产生活中的深入应用,其路径规划能力也需要向快速性和环境适应性兼备发展。为解决现有移动机器人使用强化学习方法进行路径规划时存在的探索前期容易陷入局部最优、反复搜索同一区域,探索后期收敛率低、收敛速度慢的问题,本研究提出一种改进的Q-Learning算法。该算法改进Q矩阵赋值方法,使迭代前期探索过程具有指向性,并降低碰撞的情况;改进Q矩阵迭代方法,使Q矩阵更新具有前瞻性,避免在一个小区域中反复探索;改进随机探索策略,在迭代前期全面利用环境信息,后期向目标点靠近。在不同栅格地图仿真验证结果表明,本文算法在Q-Learning算法的基础上,通过上述改进降低探索过程中的路径长度、减少抖动并提高收敛的速度,具有更高的计算效率。 展开更多
关键词 路径规划 强化学习 移动机器人 q-learning算法 ε-decreasing策略
下载PDF
改进的Q-learning蜂群算法求解置换流水车间调度问题
3
作者 杜利珍 宣自风 +1 位作者 唐家琦 王鑫涛 《组合机床与自动化加工技术》 北大核心 2024年第10期175-180,共6页
针对置换流水车间调度问题,提出了一种基于改进的Q-learning算法的人工蜂群算法。该算法设计了一种改进的奖励函数作为人工蜂群算法的环境,根据奖励函数的优劣来判断下一代种群的寻优策略,并通过Q-learning智能选择人工蜂群算法的蜜源... 针对置换流水车间调度问题,提出了一种基于改进的Q-learning算法的人工蜂群算法。该算法设计了一种改进的奖励函数作为人工蜂群算法的环境,根据奖励函数的优劣来判断下一代种群的寻优策略,并通过Q-learning智能选择人工蜂群算法的蜜源的更新维度数大小,根据选择的维度数大小对编码进行更新,提高了收敛速度和精度,最后使用不同规模的置换流水车间调度问题的实例来验证所提算法的性能,通过对标准实例的计算与其它算法对比,证明该算法的准确性。 展开更多
关键词 q-learning算法 人工蜂群算法 置换流水车间调度
下载PDF
基于softmax的加权Double Q-Learning算法
4
作者 钟雨昂 袁伟伟 关东海 《计算机科学》 CSCD 北大核心 2024年第S01期46-50,共5页
强化学习作为机器学习的一个分支,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化的问题。Q-Learning作为无模型强化学习的经典方法,存在过估计引起的最大化偏差问题,并且在环境中奖励存在噪声时表现不佳。Dou... 强化学习作为机器学习的一个分支,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化的问题。Q-Learning作为无模型强化学习的经典方法,存在过估计引起的最大化偏差问题,并且在环境中奖励存在噪声时表现不佳。Double Q-Learning(DQL)的出现解决了过估计问题,但同时造成了低估问题。为解决以上算法的高低估问题,提出了基于softmax的加权Q-Learning算法,并将其与DQL相结合,提出了一种新的基于softmax的加权Double Q-Learning算法(WDQL-Softmax)。该算法基于加权双估计器的构造,对样本期望值进行softmax操作得到权重,使用权重估计动作价值,有效平衡对动作价值的高估和低估问题,使估计值更加接近理论值。实验结果表明,在离散动作空间中,相比于Q-Learning算法、DQL算法和WDQL算法,WDQL-Softmax算法的收敛速度更快且估计值与理论值的误差更小。 展开更多
关键词 强化学习 q-learning Double q-learning Softmax
下载PDF
基于多步信息辅助的Q-learning路径规划算法
5
作者 王越龙 王松艳 晁涛 《系统仿真学报》 CAS CSCD 北大核心 2024年第9期2137-2148,共12页
为提升静态环境下移动机器人路径规划能力,解决传统Q-learning算法在路径规划中收敛速度慢的问题,提出一种基于多步信息辅助机制的Q-learning改进算法。利用ε-greedy策略中贪婪动作的多步信息与历史最优路径长度更新资格迹,使有效的资... 为提升静态环境下移动机器人路径规划能力,解决传统Q-learning算法在路径规划中收敛速度慢的问题,提出一种基于多步信息辅助机制的Q-learning改进算法。利用ε-greedy策略中贪婪动作的多步信息与历史最优路径长度更新资格迹,使有效的资格迹在算法迭代中持续发挥作用,用保存的多步信息解决可能落入的循环陷阱;使用局部多花朵的花授粉算法初始化Q值表,提升机器人前期搜索效率;基于机器人不同探索阶段的目的,结合迭代路径长度的标准差与机器人成功到达目标点的次数设计动作选择策略,以增强算法对环境信息探索与利用的平衡能力。实验结果表明:该算法具有较快的收敛速度,验证了算法的可行性与有效性。 展开更多
关键词 路径规划 q-learning 收敛速度 动作选择策略 栅格地图
下载PDF
基于改进Q-learning算法移动机器人局部路径研究
6
作者 方文凯 廖志高 《计算机与数字工程》 2024年第5期1265-1269,1274,共6页
针对局部路径规划时因无法提前获取环境信息导致移动机器人搜索不到合适的路径,以及在采用马尔可夫决策过程中传统强化学习算法应用于局部路径规划时存在着学习效率低下及收敛速度较慢等问题,提出一种改进的Q-learn-ing(QL)算法。首先... 针对局部路径规划时因无法提前获取环境信息导致移动机器人搜索不到合适的路径,以及在采用马尔可夫决策过程中传统强化学习算法应用于局部路径规划时存在着学习效率低下及收敛速度较慢等问题,提出一种改进的Q-learn-ing(QL)算法。首先设计一种动态自适应贪婪策略,用于平衡移动机器人对环境探索和利用之间的问题;其次根据A*算法思想设计启发式学习评估模型,从而动态调整学习因子并为搜索路径提供导向作用;最后引入三阶贝塞尔曲线规划对路径进行平滑处理。通过Pycharm平台仿真结果表明,使得改进后的QL算法所规划的路径长度、搜索效率及路径平滑性等特性上都优于传统Sarsa算法及QL算法,比传统Sarsa算法迭代次数提高32.3%,搜索时间缩短27.08%,比传统QL算法迭代次数提高27.32%,搜索时间缩短17.28%,路径规划的拐点大幅度减少,局部路径优化效果较为明显。 展开更多
关键词 移动机器人 q-learning算法 局部路径 A^(*)算法 贝塞尔曲线
下载PDF
基于改进Q-learning算法的移动机器人路径规划
7
作者 井征淼 刘宏杰 周永录 《火力与指挥控制》 CSCD 北大核心 2024年第3期135-141,共7页
针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖... 针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖励值,以及对比斥力函数计算姿值,动态更新Q值,使移动机器人具有目的性的探索,并且优先选择离障碍物较远的位置移动。通过仿真实验证明,与传统Q-learning算法、引入引力场算法对比,改进Q-learning算法加快了收敛速度,缩短了运行时间,提高了学习效率,降低了与障碍物相撞的概率,使移动机器人能够快速地找到一条无碰撞通路。 展开更多
关键词 移动机器人 路径规划 改进的q-learning 人工势场法 强化学习
下载PDF
基于改进型Q-Learning算法的路径规划系统研究
8
作者 娄智波 彭越 辛凯 《计算机与数字工程》 2024年第8期2312-2316,共5页
随着无人驾驶领域的兴起,人工智能、强化学习等概念开始普及。人工智能设备具有集成度高、可训练性以及可编程性等特点,在无人驾驶中的路径规划领域发挥了重要作用。论文首先介绍了现有研究中较为经典的路径规划算法,并针对Q-Learning... 随着无人驾驶领域的兴起,人工智能、强化学习等概念开始普及。人工智能设备具有集成度高、可训练性以及可编程性等特点,在无人驾驶中的路径规划领域发挥了重要作用。论文首先介绍了现有研究中较为经典的路径规划算法,并针对Q-Learning算法效率低下等问题进行研究,提出了一种改进型Q-Learning算法。该算法首先对智能体的运动以及空间环境进行建模,其次改进了Q-Learning算法的奖励机制,最后规定了智能体的运动方式。仿真结果表明,基于改进型Q-Learning算法有效改善了智能体的运动路径以及工作效率。 展开更多
关键词 强化学习 路径规划 奖励 q-learning
下载PDF
基于Q-Learning的动态BLE Mesh网络高能效路由算法
9
作者 蒋龙荣 刘静 +1 位作者 刘文超 王兰 《无线电通信技术》 北大核心 2024年第4期664-673,共10页
针对动态低功耗蓝牙(Bluetooth Low Energy, BLE)Mesh网络规范采用的管理式泛洪路由机制所导致的数据包冗余和高能耗的问题,提出了动态BLE Mesh网络高能效路由算法。通过建立基于Q-Learning的BLE Mesh网络路由模型,将BLE Mesh网络中节... 针对动态低功耗蓝牙(Bluetooth Low Energy, BLE)Mesh网络规范采用的管理式泛洪路由机制所导致的数据包冗余和高能耗的问题,提出了动态BLE Mesh网络高能效路由算法。通过建立基于Q-Learning的BLE Mesh网络路由模型,将BLE Mesh网络中节点的剩余能量、转发成本、移动因子以及接收信号强度指示(Received Signal Strength Indicator, RSSI)纳入到奖励函数的设计中。同时对BLE Mesh网络中的心跳机制进行改进,使网络中的节点更加高效地获取环境信息。采用基于探索的路由发现机制来更新网络中节点的Q值,使其能更加准确反映节点移动所导致的网络拓扑变化。仿真结果表明,该算法在节点能耗和网络开销上均优于传统的管理式泛洪路由机制。 展开更多
关键词 低功耗蓝牙 MESH网络 物联网应用 q-learning
下载PDF
基于Q‒learning的变电站无线传感器网络路由算法
10
作者 赵锴 沙杰 丛尤嘉 《太赫兹科学与电子信息学报》 2024年第9期952-958,共7页
电力系统中的无线传感器网络(WSN)可以对工作中设备的状态和环境数据进行实时感知采集,是一种推动智能电网发展的重要技术。针对变电站场景中WSN的网络存活时间、传输时延、传输丢包率上的特殊要求,提出了一种基于强化学习的WSN路由方... 电力系统中的无线传感器网络(WSN)可以对工作中设备的状态和环境数据进行实时感知采集,是一种推动智能电网发展的重要技术。针对变电站场景中WSN的网络存活时间、传输时延、传输丢包率上的特殊要求,提出了一种基于强化学习的WSN路由方案。将数据包在WSN的发送过程抽象为一个马尔科夫决策过程(MDP),根据优化目标合理设置奖励,并给出了基于Q-learning的最优路由求解方法。仿真结果与数值分析表明,所提方案在网络存活时间、传输时延、丢包率等方面的性能均优于基准方案。 展开更多
关键词 变电站无线传感网 路由策略 马尔科夫决策过程 q-learning算法 网络性能优化
下载PDF
基于时序Q-learning算法的主网变电站继电保护故障快速定位方法
11
作者 刘昊 曲文韬 +2 位作者 张达 李超 李清泉 《微型电脑应用》 2024年第8期134-137,163,共5页
主网变电站继电保护故障通常是突发性的,不会持续一段时间,暂态性质不明显,快速定位效果受限,基于此,提出基于时序Q-learning算法的故障快速定位方法。在时序Q-learning中,使用不同多项式函数参数表示不同主网变电站继电保护动作,采用... 主网变电站继电保护故障通常是突发性的,不会持续一段时间,暂态性质不明显,快速定位效果受限,基于此,提出基于时序Q-learning算法的故障快速定位方法。在时序Q-learning中,使用不同多项式函数参数表示不同主网变电站继电保护动作,采用贪婪策略选择主网变电站继电保护动作,根据继电保护状态反馈结果更新权重,使用时序Q-learning算法进行参数训练。构建故障暂态网络的节点导纳矩阵,计算支路电压、电流,确定故障关联域。按照拓扑图论方式时序Q-learning算法搭建快速定位拓扑结构,通过分析支路电流与故障电流之间距离,计算故障相关度,完成故障快速定位。由实验结果可知,该方法故障相序与实际一致,可以分析主网变电站继电保护暂态性质,适用于复杂多变的继电保护装置。 展开更多
关键词 时序q-learning算法 继电保护 故障快速定位 故障关联域
下载PDF
发电商基于Q-Learning算法的日前市场竞价策略 被引量:8
12
作者 王帅 《能源技术经济》 2010年第3期34-39,共6页
电力市场仿真可以研究市场规则、市场结构对价格形成的影响和市场参与者的动态行为。初步建立了用智能多代理模拟日前市场发电商竞价策略的模型,采用Q-Learning算法优化自身策略。改进了增强学习算法中探索参数的选取,使程序在开始阶段... 电力市场仿真可以研究市场规则、市场结构对价格形成的影响和市场参与者的动态行为。初步建立了用智能多代理模拟日前市场发电商竞价策略的模型,采用Q-Learning算法优化自身策略。改进了增强学习算法中探索参数的选取,使程序在开始阶段以较大的概率进行新的搜索,避免过早陷入局部最优。改进了阶梯形报价曲线的构造方法,减小了计算量,提高了计算速度。 展开更多
关键词 电力市场 定价 智能代理 q—learning算法 竞价策略
下载PDF
基于Q-learning的自适应链路状态路由协议
13
作者 吴麒 左琳立 +2 位作者 丁建 邢智童 夏士超 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第5期945-953,共9页
针对大规模无人机自组网面临的任务需求多样性、电磁环境复杂性、节点高机动性等问题,充分考虑无人机节点高速移动的特点,基于无人机拓扑稳定度和链路通信容量指标设计了一种无人机多点中继(multi-point relay,MPR)选择方法;为了减少网... 针对大规模无人机自组网面临的任务需求多样性、电磁环境复杂性、节点高机动性等问题,充分考虑无人机节点高速移动的特点,基于无人机拓扑稳定度和链路通信容量指标设计了一种无人机多点中继(multi-point relay,MPR)选择方法;为了减少网络路由更新时间,增加无人机自组网路由策略的稳定性和可靠性,提出了一种基于Q-learning的自适应链路状态路由协议(Q-learning based adaptive link state routing,QALSR)。仿真结果表明,所提算法性能指标优于现有的主动路由协议。 展开更多
关键词 无人机自组网 路由协议 强化学习 自适应
下载PDF
基于Q-Learning的航空器滑行路径规划研究
14
作者 王兴隆 王睿峰 《中国民航大学学报》 CAS 2024年第3期28-33,共6页
针对传统算法规划航空器滑行路径准确度低、不能根据整体场面运行情况进行路径规划的问题,提出一种基于Q-Learning的路径规划方法。通过对机场飞行区网络结构模型和强化学习的仿真环境分析,设置了状态空间和动作空间,并根据路径的合规... 针对传统算法规划航空器滑行路径准确度低、不能根据整体场面运行情况进行路径规划的问题,提出一种基于Q-Learning的路径规划方法。通过对机场飞行区网络结构模型和强化学习的仿真环境分析,设置了状态空间和动作空间,并根据路径的合规性和合理性设定了奖励函数,将路径合理性评价值设置为滑行路径长度与飞行区平均滑行时间乘积的倒数。最后,分析了动作选择策略参数对路径规划模型的影响。结果表明,与A*算法和Floyd算法相比,基于Q-Learning的路径规划在滑行距离最短的同时,避开了相对繁忙的区域,路径合理性评价值高。 展开更多
关键词 滑行路径规划 机场飞行区 强化学习 q-learning
下载PDF
基于Q-learning的移动群智感知任务分配算法 被引量:11
15
作者 胡华 张强 +2 位作者 胡海洋 陈洁 李忠金 《计算机集成制造系统》 EI CSCD 北大核心 2018年第7期1774-1783,共10页
移动群智感知环境中的任务分配是工作流研究领域中一个新方向,为解决应用任务在移动智能用户间的合理调度与分配,本文将机器学习中的Q-learning方法引入到工作流任务分配问题中,提出一种针对多目标的强化贪婪迭代方法。该算法从宏观层... 移动群智感知环境中的任务分配是工作流研究领域中一个新方向,为解决应用任务在移动智能用户间的合理调度与分配,本文将机器学习中的Q-learning方法引入到工作流任务分配问题中,提出一种针对多目标的强化贪婪迭代方法。该算法从宏观层面上通过强化学习的每一次探索进行学习优化,微观层面上通过贪心算法为每一次迭代选择局部最优解,增强了算法的性能。对比其他3种算法,所提算法不但能降低时间和能耗开销,而且收敛速度较快,能够提高感知效率,可作为移动群体感知的工作流调度问题走向智能化的一种尝试。 展开更多
关键词 移动群智感知 q-learning方法 任务分配 算法
下载PDF
基于Q-learning算法的vEPC虚拟网络功能部署方法 被引量:16
16
作者 袁泉 汤红波 +2 位作者 黄开枝 王晓雷 赵宇 《通信学报》 EI CSCD 北大核心 2017年第8期172-182,共11页
针对虚拟化演进分组核心网(v EPC)环境下,现有虚拟网络功能(VNF)部署方法无法在优化时延的同时保证服务链部署收益的问题,提出一种改进的基于Q-learning算法的v EPC虚拟网络功能部署方法。在传统0-1规划模型的基础上,采用马尔可夫决策... 针对虚拟化演进分组核心网(v EPC)环境下,现有虚拟网络功能(VNF)部署方法无法在优化时延的同时保证服务链部署收益的问题,提出一种改进的基于Q-learning算法的v EPC虚拟网络功能部署方法。在传统0-1规划模型的基础上,采用马尔可夫决策过程建立了v EPC服务链部署的空间—时间优化模型,并设计了改进的Q-learning算法求解。该方法同时考虑了空间维度下的EPC服务链虚拟映射和时间维度下的VNF生命周期管理,实现了VNF部署的收益—时延多目标优化。仿真结果表明,与其他VNF部署方法相比,该方法在降低网络时延的同时提高了VNF部署的收益和请求接受率。 展开更多
关键词 5G 虚拟网络功能 服务功能链部署 q-learning
下载PDF
基于GA-Q-learning算法的虚拟维修作业规划模型 被引量:1
17
作者 焦玉民 王强 +2 位作者 徐婷 谢庆华 王海涛 《兵工学报》 EI CAS CSCD 北大核心 2013年第5期627-633,共7页
针对虚拟维修环境中任务执行过程存在的不确定性和随机性问题,提出了一种基于Q学习算法的作业策略规划模型,该方法将虚拟维修过程转化为选取不同动作参与状态转移的过程。在该过程中,采用试错机制和逆向求解的方法求解动作策略规划问题... 针对虚拟维修环境中任务执行过程存在的不确定性和随机性问题,提出了一种基于Q学习算法的作业策略规划模型,该方法将虚拟维修过程转化为选取不同动作参与状态转移的过程。在该过程中,采用试错机制和逆向求解的方法求解动作策略规划问题,并将任务特征匹配机制和顺序约束机制作为启发机制,保证策略学习过程中持续进化可行策略;在进化过程中,将动作因子赋予概率值,并采用遗传算法(GA)进化动作因子的概率分布,避免了策略学习过程中强化早期Q值较高的动作,为求解虚拟维修的最佳作业流程提供了一种行之有效的解决方法。将该方法应用于轮式挖掘机虚拟维修训练系统中,仿真结果表明,正确的动作在作业策略迭代过程中均能够获得较高的Q值,验证了方法的可行性和实用性。 展开更多
关键词 人工智能 虚拟维修 q学习 遗传算法 作业规划
下载PDF
Q-learning算法及其在囚徒困境问题中的实现 被引量:7
18
作者 张春阳 陈小平 +1 位作者 刘贵全 蔡庆生 《计算机工程与应用》 CSCD 北大核心 2001年第13期121-122,128,共3页
Q-learning是一种优良的强化学习算法。该文首先阐述了Q-learning的基本学习机制,然后以囚徒困境问题为背景,分析、对比T Q-learning算法与TFT算法,验证了 Q-learning算法的优良特性。
关键词 机器学习 强化学习 q-learning算法 囚徒困境问题 人工智能
下载PDF
基于Q-learning算法的煤矿井下移动机器人路径规划 被引量:4
19
作者 徐学东 《煤炭技术》 CAS 北大核心 2013年第2期105-106,共2页
如何针对煤矿井下环境的不确定性规划机器人的路径是其中的一个难点。文章提出了一种基于Q-learning算法的移动机器人路径规划,希望对提高机器人救援的避障能力的提升,起到一定的促进作用。
关键词 煤矿 机器人 q—learning 路径规划
下载PDF
基于Q-learning的机会频谱接入信道选择算法 被引量:10
20
作者 张凯 李鸥 杨白薇 《计算机应用研究》 CSCD 北大核心 2013年第5期1467-1470,共4页
针对未知环境下机会频谱接入的信道选择问题进行研究。将智能控制中的Q-learning理论应用于信道选择问题,建立次用户信道选择模型,提出了一种基于Q-learning的信道选择算法。该算法通过不断与环境进行交互和学习,引导次用户尽量选择累... 针对未知环境下机会频谱接入的信道选择问题进行研究。将智能控制中的Q-learning理论应用于信道选择问题,建立次用户信道选择模型,提出了一种基于Q-learning的信道选择算法。该算法通过不断与环境进行交互和学习,引导次用户尽量选择累积回报最大的信道,最大化次用户吞吐量。引入Boltzmann学习规则在信道探索与利用之间获得折中。仿真结果表明,与随机选择算法相比,该算法在不需要信道环境先验知识或预测模型下,能够自适应地选择可用性较好的信道,有效提高次用户吞吐量,且收敛速度较快。 展开更多
关键词 认知无线电 机会频谱接入 q学习 信道选择 Boltzmann规则
下载PDF
上一页 1 2 80 下一页 到第
使用帮助 返回顶部