期刊文献+
共找到4,468篇文章
< 1 2 224 >
每页显示 20 50 100
改进Q-Learning的路径规划算法研究
1
作者 宋丽君 周紫瑜 +2 位作者 李云龙 侯佳杰 何星 《小型微型计算机系统》 CSCD 北大核心 2024年第4期823-829,共7页
针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在... 针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在更新函数中设计深度学习因子以保证算法探索概率;融合遗传算法,避免陷入局部路径最优同时按阶段探索最优迭代步长次数,以减少动态地图探索重复率;最后提取输出的最优路径关键节点采用贝塞尔曲线进行平滑处理,进一步保证路径平滑度和可行性.实验通过栅格法构建地图,对比实验结果表明,改进后的算法效率相较于传统算法在迭代次数和路径上均有较大优化,且能够较好的实现动态地图下的路径规划,进一步验证所提方法的有效性和实用性. 展开更多
关键词 移动机器人 路径规划 q-learning算法 平滑处理 动态避障
下载PDF
基于Q-Learning的航空器滑行路径规划研究
2
作者 王兴隆 王睿峰 《中国民航大学学报》 CAS 2024年第3期28-33,共6页
针对传统算法规划航空器滑行路径准确度低、不能根据整体场面运行情况进行路径规划的问题,提出一种基于Q-Learning的路径规划方法。通过对机场飞行区网络结构模型和强化学习的仿真环境分析,设置了状态空间和动作空间,并根据路径的合规... 针对传统算法规划航空器滑行路径准确度低、不能根据整体场面运行情况进行路径规划的问题,提出一种基于Q-Learning的路径规划方法。通过对机场飞行区网络结构模型和强化学习的仿真环境分析,设置了状态空间和动作空间,并根据路径的合规性和合理性设定了奖励函数,将路径合理性评价值设置为滑行路径长度与飞行区平均滑行时间乘积的倒数。最后,分析了动作选择策略参数对路径规划模型的影响。结果表明,与A*算法和Floyd算法相比,基于Q-Learning的路径规划在滑行距离最短的同时,避开了相对繁忙的区域,路径合理性评价值高。 展开更多
关键词 滑行路径规划 机场飞行区 强化学习 q-learning
下载PDF
基于Q-Learning的分簇无线传感网信任管理机制
3
作者 赵远亮 王涛 +3 位作者 李平 吴雅婷 孙彦赞 王瑞 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第2期255-266,共12页
针对无线传感器网络中存在的安全问题,提出了基于Q-Learning的分簇无线传感网信任管理机制(Q-learning based trust management mechanism for clustered wireless sensor networks,QLTMM-CWSN).该机制主要考虑通信信任、数据信任和能... 针对无线传感器网络中存在的安全问题,提出了基于Q-Learning的分簇无线传感网信任管理机制(Q-learning based trust management mechanism for clustered wireless sensor networks,QLTMM-CWSN).该机制主要考虑通信信任、数据信任和能量信任3个方面.在网络运行过程中,基于节点的通信行为、数据分布和能量消耗,使用Q-Learning算法更新节点信任值,并选择簇内信任值最高的节点作为可信簇头节点.当簇中主簇头节点的信任值低于阈值时,可信簇头节点代替主簇头节点管理簇内成员节点,维护正常的数据传输.研究结果表明,QLTMM-CWSN机制能有效抵御通信攻击、伪造本地数据攻击、能量攻击和混合攻击. 展开更多
关键词 无线传感器网络 q-learning 信任管理机制 网络安全
下载PDF
基于softmax的加权Double Q-Learning算法
4
作者 钟雨昂 袁伟伟 关东海 《计算机科学》 CSCD 北大核心 2024年第S01期46-50,共5页
强化学习作为机器学习的一个分支,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化的问题。Q-Learning作为无模型强化学习的经典方法,存在过估计引起的最大化偏差问题,并且在环境中奖励存在噪声时表现不佳。Dou... 强化学习作为机器学习的一个分支,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化的问题。Q-Learning作为无模型强化学习的经典方法,存在过估计引起的最大化偏差问题,并且在环境中奖励存在噪声时表现不佳。Double Q-Learning(DQL)的出现解决了过估计问题,但同时造成了低估问题。为解决以上算法的高低估问题,提出了基于softmax的加权Q-Learning算法,并将其与DQL相结合,提出了一种新的基于softmax的加权Double Q-Learning算法(WDQL-Softmax)。该算法基于加权双估计器的构造,对样本期望值进行softmax操作得到权重,使用权重估计动作价值,有效平衡对动作价值的高估和低估问题,使估计值更加接近理论值。实验结果表明,在离散动作空间中,相比于Q-Learning算法、DQL算法和WDQL算法,WDQL-Softmax算法的收敛速度更快且估计值与理论值的误差更小。 展开更多
关键词 强化学习 q-learning Double q-learning Softmax
下载PDF
基于改进Q-learning算法移动机器人局部路径研究
5
作者 方文凯 廖志高 《计算机与数字工程》 2024年第5期1265-1269,1274,共6页
针对局部路径规划时因无法提前获取环境信息导致移动机器人搜索不到合适的路径,以及在采用马尔可夫决策过程中传统强化学习算法应用于局部路径规划时存在着学习效率低下及收敛速度较慢等问题,提出一种改进的Q-learn-ing(QL)算法。首先... 针对局部路径规划时因无法提前获取环境信息导致移动机器人搜索不到合适的路径,以及在采用马尔可夫决策过程中传统强化学习算法应用于局部路径规划时存在着学习效率低下及收敛速度较慢等问题,提出一种改进的Q-learn-ing(QL)算法。首先设计一种动态自适应贪婪策略,用于平衡移动机器人对环境探索和利用之间的问题;其次根据A*算法思想设计启发式学习评估模型,从而动态调整学习因子并为搜索路径提供导向作用;最后引入三阶贝塞尔曲线规划对路径进行平滑处理。通过Pycharm平台仿真结果表明,使得改进后的QL算法所规划的路径长度、搜索效率及路径平滑性等特性上都优于传统Sarsa算法及QL算法,比传统Sarsa算法迭代次数提高32.3%,搜索时间缩短27.08%,比传统QL算法迭代次数提高27.32%,搜索时间缩短17.28%,路径规划的拐点大幅度减少,局部路径优化效果较为明显。 展开更多
关键词 移动机器人 q-learning算法 局部路径 A^(*)算法 贝塞尔曲线
下载PDF
Traffic Control Based on Integrated Kalman Filtering and Adaptive Quantized Q-Learning Framework for Internet of Vehicles
6
作者 Othman S.Al-Heety Zahriladha Zakaria +4 位作者 Ahmed Abu-Khadrah Mahamod Ismail Sarmad Nozad Mahmood Mohammed Mudhafar Shakir Hussein Alsariera 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第3期2103-2127,共25页
Intelligent traffic control requires accurate estimation of the road states and incorporation of adaptive or dynamically adjusted intelligent algorithms for making the decision.In this article,these issues are handled... Intelligent traffic control requires accurate estimation of the road states and incorporation of adaptive or dynamically adjusted intelligent algorithms for making the decision.In this article,these issues are handled by proposing a novel framework for traffic control using vehicular communications and Internet of Things data.The framework integrates Kalman filtering and Q-learning.Unlike smoothing Kalman filtering,our data fusion Kalman filter incorporates a process-aware model which makes it superior in terms of the prediction error.Unlike traditional Q-learning,our Q-learning algorithm enables adaptive state quantization by changing the threshold of separating low traffic from high traffic on the road according to the maximum number of vehicles in the junction roads.For evaluation,the model has been simulated on a single intersection consisting of four roads:east,west,north,and south.A comparison of the developed adaptive quantized Q-learning(AQQL)framework with state-of-the-art and greedy approaches shows the superiority of AQQL with an improvement percentage in terms of the released number of vehicles of AQQL is 5%over the greedy approach and 340%over the state-of-the-art approach.Hence,AQQL provides an effective traffic control that can be applied in today’s intelligent traffic system. 展开更多
关键词 q-learning intelligent transportation system(ITS) traffic control vehicular communication kalman filtering smart city Internet of Things
下载PDF
Novel Static Security and Stability Control of Power Systems Based on Artificial Emotional Lazy Q-Learning
7
作者 Tao Bao Xiyuan Ma +3 位作者 Zhuohuan Li Duotong Yang Pengyu Wang Changcheng Zhou 《Energy Engineering》 EI 2024年第6期1713-1737,共25页
The stability problem of power grids has become increasingly serious in recent years as the size of novel power systems increases.In order to improve and ensure the stable operation of the novel power system,this stud... The stability problem of power grids has become increasingly serious in recent years as the size of novel power systems increases.In order to improve and ensure the stable operation of the novel power system,this study proposes an artificial emotional lazy Q-learning method,which combines artificial emotion,lazy learning,and reinforcement learning for static security and stability analysis of power systems.Moreover,this study compares the analysis results of the proposed method with those of the small disturbance method for a stand-alone power system and verifies that the proposed lazy Q-learning method is able to effectively screen useful data for learning,and improve the static security stability of the new type of power system more effectively than the traditional proportional-integral-differential control and Q-learning methods. 展开更多
关键词 Artificial sentiment static secure stable analysis q-learning lazy learning data filtering
下载PDF
Energy-Saving Distributed Flexible Job Shop Scheduling Optimization with Dual Resource Constraints Based on Integrated Q-Learning Multi-Objective Grey Wolf Optimizer
8
作者 Hongliang Zhang Yi Chen +1 位作者 Yuteng Zhang Gongjie Xu 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第8期1459-1483,共25页
The distributed flexible job shop scheduling problem(DFJSP)has attracted great attention with the growth of the global manufacturing industry.General DFJSP research only considers machine constraints and ignores worke... The distributed flexible job shop scheduling problem(DFJSP)has attracted great attention with the growth of the global manufacturing industry.General DFJSP research only considers machine constraints and ignores worker constraints.As one critical factor of production,effective utilization of worker resources can increase productivity.Meanwhile,energy consumption is a growing concern due to the increasingly serious environmental issues.Therefore,the distributed flexible job shop scheduling problem with dual resource constraints(DFJSP-DRC)for minimizing makespan and total energy consumption is studied in this paper.To solve the problem,we present a multi-objective mathematical model for DFJSP-DRC and propose a Q-learning-based multi-objective grey wolf optimizer(Q-MOGWO).In Q-MOGWO,high-quality initial solutions are generated by a hybrid initialization strategy,and an improved active decoding strategy is designed to obtain the scheduling schemes.To further enhance the local search capability and expand the solution space,two wolf predation strategies and three critical factory neighborhood structures based on Q-learning are proposed.These strategies and structures enable Q-MOGWO to explore the solution space more efficiently and thus find better Pareto solutions.The effectiveness of Q-MOGWO in addressing DFJSP-DRC is verified through comparison with four algorithms using 45 instances.The results reveal that Q-MOGWO outperforms comparison algorithms in terms of solution quality. 展开更多
关键词 Distributed flexible job shop scheduling problem dual resource constraints energy-saving scheduling multi-objective grey wolf optimizer q-learning
下载PDF
基于Q-Learning的动态BLE Mesh网络高能效路由算法
9
作者 蒋龙荣 刘静 +1 位作者 刘文超 王兰 《无线电通信技术》 北大核心 2024年第4期664-673,共10页
针对动态低功耗蓝牙(Bluetooth Low Energy, BLE)Mesh网络规范采用的管理式泛洪路由机制所导致的数据包冗余和高能耗的问题,提出了动态BLE Mesh网络高能效路由算法。通过建立基于Q-Learning的BLE Mesh网络路由模型,将BLE Mesh网络中节... 针对动态低功耗蓝牙(Bluetooth Low Energy, BLE)Mesh网络规范采用的管理式泛洪路由机制所导致的数据包冗余和高能耗的问题,提出了动态BLE Mesh网络高能效路由算法。通过建立基于Q-Learning的BLE Mesh网络路由模型,将BLE Mesh网络中节点的剩余能量、转发成本、移动因子以及接收信号强度指示(Received Signal Strength Indicator, RSSI)纳入到奖励函数的设计中。同时对BLE Mesh网络中的心跳机制进行改进,使网络中的节点更加高效地获取环境信息。采用基于探索的路由发现机制来更新网络中节点的Q值,使其能更加准确反映节点移动所导致的网络拓扑变化。仿真结果表明,该算法在节点能耗和网络开销上均优于传统的管理式泛洪路由机制。 展开更多
关键词 低功耗蓝牙 MESH网络 物联网应用 q-learning
下载PDF
基于改进Q-learning算法的移动机器人路径规划
10
作者 井征淼 刘宏杰 周永录 《火力与指挥控制》 CSCD 北大核心 2024年第3期135-141,共7页
针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖... 针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖励值,以及对比斥力函数计算姿值,动态更新Q值,使移动机器人具有目的性的探索,并且优先选择离障碍物较远的位置移动。通过仿真实验证明,与传统Q-learning算法、引入引力场算法对比,改进Q-learning算法加快了收敛速度,缩短了运行时间,提高了学习效率,降低了与障碍物相撞的概率,使移动机器人能够快速地找到一条无碰撞通路。 展开更多
关键词 移动机器人 路径规划 改进的q-learning 人工势场法 强化学习
下载PDF
改进Q-Learning输电线路超声驱鸟设备参数优化研究
11
作者 徐浩 房旭 +3 位作者 张浩 王爱军 周洪益 宋钰 《电工电气》 2024年第5期53-57,共5页
超声波驱鸟是一种解决输电设备鸟害的重要手段,但现场使用超声波驱鸟器工作模式较单一,易产生鸟类适应问题。提出了一种改进Q-Learning输电线路超声驱鸟设备参数优化方法,针对涉鸟故障历史数据量少以及鸟类的适应性问题,将强化学习算法... 超声波驱鸟是一种解决输电设备鸟害的重要手段,但现场使用超声波驱鸟器工作模式较单一,易产生鸟类适应问题。提出了一种改进Q-Learning输电线路超声驱鸟设备参数优化方法,针对涉鸟故障历史数据量少以及鸟类的适应性问题,将强化学习算法应用于输电线路超声驱鸟设备参数优化;针对传统强化学习算法在设备终端应用中存在收敛慢、耗时长的缺点,提出一种基于动态学习率的改进Q-Learning算法,对不同频段超声波的权重进行自适应优化。实验结果显示,改进Q-Learning算法最优参数的迭代收敛速度大幅提高,优化后驱鸟设备的驱鸟成功率达到了76%,优于传统强化学习算法模式,较好地解决了鸟类适应性问题。 展开更多
关键词 改进q-learning 超声波驱鸟 参数优化 适应性
下载PDF
基于Q-learning的轻量化填充结构3D打印路径规划
12
作者 徐文鹏 王东晓 +3 位作者 付林朋 张鹏 侯守明 曾艳阳 《传感器与微系统》 CSCD 北大核心 2023年第12期44-47,共4页
针对轻量化填充结构模型,提出了一种基于Q-learning算法的3D打印路径规划方法,来改善该结构路径规划中转弯与启停次数较多的问题。首先对填充和分层处理后的模型切片进行预处理,然后以减少打印头转弯和启停动作为目标,构建相对应的马尔... 针对轻量化填充结构模型,提出了一种基于Q-learning算法的3D打印路径规划方法,来改善该结构路径规划中转弯与启停次数较多的问题。首先对填充和分层处理后的模型切片进行预处理,然后以减少打印头转弯和启停动作为目标,构建相对应的马尔可夫决策过程数学模型,多次迭代动作价值函数至其收敛,求解出一组取得最大回报值的动作策略,按照所设定的数学模型将该策略转义输出为打印路径,最后通过对比实验进行验证。实验结果表明:该方法能有效减少打印头的转弯和启停次数,增加打印路径的连续性,节省打印时间,同时可以在一定程度上提升打印质量。 展开更多
关键词 3D打印 路径规划 q-learning算法 轻量化填充结构
下载PDF
基于BAS和Q-Learning的移动机器人路径规划算法研究 被引量:1
13
作者 程晶晶 周明龙 邓雄峰 《长春工程学院学报(自然科学版)》 2023年第3期107-111,共5页
针对传统Q-Learning存在的起始阶段盲目搜索、动作选择策略不科学的问题,提出了联合BAS和Q-Learning的移动机器人路径规划算法。该算法运用欧式距离定位坐标,引入搜索因子对搜索时间和学习速度进行平衡改进,并采用BAS和贝塞尔曲线分别优... 针对传统Q-Learning存在的起始阶段盲目搜索、动作选择策略不科学的问题,提出了联合BAS和Q-Learning的移动机器人路径规划算法。该算法运用欧式距离定位坐标,引入搜索因子对搜索时间和学习速度进行平衡改进,并采用BAS和贝塞尔曲线分别优化Q值、平滑路径。将提出的算法应用于仿真试验和实物试验,结果表明其能够高效、精准地在静态和动态障碍物环境下获得最优路径,具有较强的工程适用性。 展开更多
关键词 移动机器人 路径规划 q-learning算法 天牛须搜索 路径平滑
下载PDF
改进麻雀算法和Q-Learning优化集成学习轨道电路故障诊断
14
作者 徐凯 郑浩 +1 位作者 涂永超 吴仕勋 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2023年第11期4426-4437,共12页
无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻... 无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻雀算法和Q-Learning优化集成学习的轨道电路故障诊断新方法,该方法有机地将集成学习与计算智能和强化学习相结合,充分挖掘轨道电路故障特征,提高性能评价指标。首先,使用卷积神经网络、长短期记忆网络和多层感知器深度学习模型,以及支持向量机和随机森林传统机器学习模型,共同构成集成学习基学习器,解决单一学习模型的不足,不同基学习器的使用保证集成学习的多样性。从自动化机器学习角度出发,采用改进麻雀算法优化该集成学习模型的结构和参数,克服其结构和参数难以确定的问题。在此之上,引入强化学习Q-learning对集成模型中各基学习器组合权重进行优化,智能地确定集成学习各基学习器的组合权重。最后,将集成学习模型的预测结果与真实结果比较后得到误差,再采用BP神经网络对预测结果进行补偿修正,进一步提高轨道电路的故障诊断性能评价指标。仿真结果表明,利用所提方法进一步改善了轨道电路故障诊断的准确度、精确度、召回率和F1值等性能评价指标。 展开更多
关键词 无绝缘轨道电路 故障诊断 集成学习 改进麻雀算法 q-learning 误差修正
下载PDF
基于Q-Learning的青霉素发酵过程控制方法
15
作者 王彦朋 郭佳佳 王晓君 《信息化研究》 2023年第3期31-35,47,共6页
针对在复杂场景下,保持青霉素发酵过程中的温度稳定性以及提高青霉素产量的问题,本文建立了一种基于强化学习的青霉素发酵系统模型。选取强化学习算法中的Q-Learning算法,设计基于Q-Learning强化学习理论的控制策略,将控制任务分解成两... 针对在复杂场景下,保持青霉素发酵过程中的温度稳定性以及提高青霉素产量的问题,本文建立了一种基于强化学习的青霉素发酵系统模型。选取强化学习算法中的Q-Learning算法,设计基于Q-Learning强化学习理论的控制策略,将控制任务分解成两个子任务分别进行控制,使青霉素在发酵过程中保持稳定。建立仿真环境并进行实验,仿真结果表明,该方法可以在未知环境变化的青霉素发酵过程中有效地使温度趋于稳定,具有一定的应用价值。 展开更多
关键词 强化学习 q-learning算法 青霉素发酵
下载PDF
转移概率部分未知的离散时间Markov跳变系统Nash微分博弈
16
作者 张成科 徐萌 杨璐 《广东工业大学学报》 CAS 2024年第2期129-138,共10页
考虑到转移概率矩阵元素无法完全获悉,如何在转移概率部分未知的情境下研究离散时间Markov跳变系统Nash微分博弈是有待解决的问题之一,这一问题可以为转移概率部分未知的Markov跳变系统Nash微分博弈理论在管理问题上的应用提供理论支撑... 考虑到转移概率矩阵元素无法完全获悉,如何在转移概率部分未知的情境下研究离散时间Markov跳变系统Nash微分博弈是有待解决的问题之一,这一问题可以为转移概率部分未知的Markov跳变系统Nash微分博弈理论在管理问题上的应用提供理论支撑。基于此,本文首先研究单人博弈情形,即ε-次优控制问题,借助自由连接权矩阵和配方法,得到了ε-次优控制策略存在的充分性条件,并给出了成本函数上界的显式表达;然后延伸至双人博弈进行分析,得到了ε-次优Nash均衡策略存在的条件等价于求解双线性矩阵不等式和矩阵不等式的优化问题,并通过启发式算法求解优化问题得到ε-次优Nash均衡策略;最后通过数值算例证明了主要结论的有效性。 展开更多
关键词 离散时间Markov跳变系统 ε-次优控制 ε-次优nash均衡
下载PDF
基于改进Q-learning算法和DWA的路径规划 被引量:2
17
作者 王志伟 邹艳丽 +2 位作者 刘唐慧美 侯凤萍 余自淳 《传感器与微系统》 CSCD 北大核心 2023年第9期148-152,共5页
针对传统Q-learning算法出现的规划路线转折点多,探索效率低,以及无法实现动态环境下的路径规划问题,提出一种基于改进Q-learning算法和动态窗口法(DWA)的融合算法。首先,改变传统Q-learning算法的搜索方式,由原先的8方向变成16方向;利... 针对传统Q-learning算法出现的规划路线转折点多,探索效率低,以及无法实现动态环境下的路径规划问题,提出一种基于改进Q-learning算法和动态窗口法(DWA)的融合算法。首先,改变传统Q-learning算法的搜索方式,由原先的8方向变成16方向;利用模拟退火算法对Q-learning进行迭代优化;通过路径节点优化算法进行节点简化,提高路径平滑度。然后,提取改进Q-learning算法规划路径的节点,将其作为DWA算法的临时目标,前进过程中,能够实时躲避环境中出现的动静态障碍物。最终实验结果表明:融合算法具有较好的路径规划能力,实现了全局最优和有效避障的效果。 展开更多
关键词 q-learning算法 路径规划 动态窗口法
下载PDF
一种差分演化Q表的改进Q-Learning方法 被引量:1
18
作者 李骁 曹子建 +1 位作者 贾浩文 郭瑞麒 《西安工业大学学报》 CAS 2023年第4期369-382,共14页
针对Q-Learning算法在路径搜索应用中的盲目性而导致收敛速度慢、回报效率低的问题,文中提出了一种差分演化Q表的改进Q-Learning方法(DE-Q-Learning)。改进算法利用差分演化算法的全局搜索优势,将由Q表个体组成的演化种群通过变异、交... 针对Q-Learning算法在路径搜索应用中的盲目性而导致收敛速度慢、回报效率低的问题,文中提出了一种差分演化Q表的改进Q-Learning方法(DE-Q-Learning)。改进算法利用差分演化算法的全局搜索优势,将由Q表个体组成的演化种群通过变异、交叉和选择操作选择出较好的初始Q表,以此提升Q-Learning前期回报与探索能力。文中在OpenAI的Gym环境中验证了DE-Q-Learning方法的有效性,并进一步在复杂迷宫环境和强化学习环境Pacman中实验了其在复杂路径搜索和动态避障问题上的性能。实验结果表明,DE-Q-Learning在Pacman环境中相比于改进算法Double-Q-Learning和SA-Q-Learning不仅在历史回报方面具有明显优势,而且收敛速度分别提升了42.16%和15.88%,这表明DE-Q-Learning能够显著提高历史累积回报和算法的收敛速度。 展开更多
关键词 强化学习 差分演化 q-learning Q表
下载PDF
基于改进Q-learning算法的移动机器人局部路径规划 被引量:2
19
作者 张耀玉 李彩虹 +2 位作者 张国胜 李永迪 梁振英 《山东理工大学学报(自然科学版)》 CAS 2023年第2期1-6,共6页
针对Q-learning算法在移动机器人局部路径规划中存在的学习速度慢、效率低等问题,提出一种改进的IQ-learning算法。首先设计了栅格地图,建立机器人八连通的运行环境。其次基于栅格地图设计了状态、动作、Q值表、奖惩函数和动作选择策略;... 针对Q-learning算法在移动机器人局部路径规划中存在的学习速度慢、效率低等问题,提出一种改进的IQ-learning算法。首先设计了栅格地图,建立机器人八连通的运行环境。其次基于栅格地图设计了状态、动作、Q值表、奖惩函数和动作选择策略;在Q-learning算法的基础上,IQ-learning在奖惩函数中增加了对角线运动奖励值,鼓励机器人向八个方向探索路径,将平移运动和对角线运动相结合,减少规划路径长度和在初始阶段的盲目搜索,加快算法的收敛速度。最后利用设计的IQ-learning算法学习策略,分别在离散型、一字型、U型和混合型等障碍物环境下,学习移动机器人的局部路径规划任务,并与Q-learning的规划结果相比较,得出IQ-learning算法能够在更少的学习次数中以较少的步数找到最短路径,规划效率有所提高。 展开更多
关键词 移动机器人 q-learning算法 Iq-learning算法 局部路径规划 栅格地图
下载PDF
基于Q-Learning算法的无人机空战机动决策研究
20
作者 姚培源 魏潇龙 +1 位作者 俞利新 李胜厚 《电光与控制》 CSCD 北大核心 2023年第5期16-22,共7页
针对无人机空战对抗自主机动决策问题,设计了侧向机动决策算法。通过加入启发式因子的方式和双Q表交替学习的机制,弥补了传统Q-Learning算法学习速度慢、无效学习多的不足。通过路径规划仿真和数据的对比,验证了改进Q-Learning算法具有... 针对无人机空战对抗自主机动决策问题,设计了侧向机动决策算法。通过加入启发式因子的方式和双Q表交替学习的机制,弥补了传统Q-Learning算法学习速度慢、无效学习多的不足。通过路径规划仿真和数据的对比,验证了改进Q-Learning算法具有更好的稳定性和求解能力。设计了动态的栅格规划环境,能够使无人机根据变化的空战态势自适应调整栅格尺寸大小,且对求解的速率不产生影响。基于Q-Learning算法,构建了无人机空战对抗侧向机动决策模型,并通过武器平台调换的方式验证了改进Q-Learning算法能显著提升无人机空战胜负比。 展开更多
关键词 无人机 空战 机动决策 动态栅格环境 路径规划 q-learning学习表算法
下载PDF
上一页 1 2 224 下一页 到第
使用帮助 返回顶部