期刊文献+
共找到8,112篇文章
< 1 2 250 >
每页显示 20 50 100
Q-Learning-Assisted Meta-Heuristics for Scheduling Distributed Hybrid Flow Shop Problems
1
作者 Qianyao Zhu Kaizhou Gao +2 位作者 Wuze Huang Zhenfang Ma Adam Slowik 《Computers, Materials & Continua》 SCIE EI 2024年第9期3573-3589,共17页
The flow shop scheduling problem is important for the manufacturing industry.Effective flow shop scheduling can bring great benefits to the industry.However,there are few types of research on Distributed Hybrid Flow S... The flow shop scheduling problem is important for the manufacturing industry.Effective flow shop scheduling can bring great benefits to the industry.However,there are few types of research on Distributed Hybrid Flow Shop Problems(DHFSP)by learning assisted meta-heuristics.This work addresses a DHFSP with minimizing the maximum completion time(Makespan).First,a mathematical model is developed for the concerned DHFSP.Second,four Q-learning-assisted meta-heuristics,e.g.,genetic algorithm(GA),artificial bee colony algorithm(ABC),particle swarm optimization(PSO),and differential evolution(DE),are proposed.According to the nature of DHFSP,six local search operations are designed for finding high-quality solutions in local space.Instead of randomselection,Q-learning assists meta-heuristics in choosing the appropriate local search operations during iterations.Finally,based on 60 cases,comprehensive numerical experiments are conducted to assess the effectiveness of the proposed algorithms.The experimental results and discussions prove that using Q-learning to select appropriate local search operations is more effective than the random strategy.To verify the competitiveness of the Q-learning assistedmeta-heuristics,they are compared with the improved iterated greedy algorithm(IIG),which is also for solving DHFSP.The Friedman test is executed on the results by five algorithms.It is concluded that the performance of four Q-learning-assisted meta-heuristics are better than IIG,and the Q-learning-assisted PSO shows the best competitiveness. 展开更多
关键词 Distributed scheduling hybrid flow shop META-heuristicS local search q-learning
下载PDF
改进Q-Learning的路径规划算法研究
2
作者 宋丽君 周紫瑜 +2 位作者 李云龙 侯佳杰 何星 《小型微型计算机系统》 CSCD 北大核心 2024年第4期823-829,共7页
针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在... 针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在更新函数中设计深度学习因子以保证算法探索概率;融合遗传算法,避免陷入局部路径最优同时按阶段探索最优迭代步长次数,以减少动态地图探索重复率;最后提取输出的最优路径关键节点采用贝塞尔曲线进行平滑处理,进一步保证路径平滑度和可行性.实验通过栅格法构建地图,对比实验结果表明,改进后的算法效率相较于传统算法在迭代次数和路径上均有较大优化,且能够较好的实现动态地图下的路径规划,进一步验证所提方法的有效性和实用性. 展开更多
关键词 移动机器人 路径规划 q-learning算法 平滑处理 动态避障
下载PDF
改进的Q-learning蜂群算法求解置换流水车间调度问题
3
作者 杜利珍 宣自风 +1 位作者 唐家琦 王鑫涛 《组合机床与自动化加工技术》 北大核心 2024年第10期175-180,共6页
针对置换流水车间调度问题,提出了一种基于改进的Q-learning算法的人工蜂群算法。该算法设计了一种改进的奖励函数作为人工蜂群算法的环境,根据奖励函数的优劣来判断下一代种群的寻优策略,并通过Q-learning智能选择人工蜂群算法的蜜源... 针对置换流水车间调度问题,提出了一种基于改进的Q-learning算法的人工蜂群算法。该算法设计了一种改进的奖励函数作为人工蜂群算法的环境,根据奖励函数的优劣来判断下一代种群的寻优策略,并通过Q-learning智能选择人工蜂群算法的蜜源的更新维度数大小,根据选择的维度数大小对编码进行更新,提高了收敛速度和精度,最后使用不同规模的置换流水车间调度问题的实例来验证所提算法的性能,通过对标准实例的计算与其它算法对比,证明该算法的准确性。 展开更多
关键词 q-learning算法 人工蜂群算法 置换流水车间调度
下载PDF
基于改进Q-Learning的移动机器人路径规划算法
4
作者 王立勇 王弘轩 +2 位作者 苏清华 王绅同 张鹏博 《电子测量技术》 北大核心 2024年第9期85-92,共8页
随着移动机器人在生产生活中的深入应用,其路径规划能力也需要向快速性和环境适应性兼备发展。为解决现有移动机器人使用强化学习方法进行路径规划时存在的探索前期容易陷入局部最优、反复搜索同一区域,探索后期收敛率低、收敛速度慢的... 随着移动机器人在生产生活中的深入应用,其路径规划能力也需要向快速性和环境适应性兼备发展。为解决现有移动机器人使用强化学习方法进行路径规划时存在的探索前期容易陷入局部最优、反复搜索同一区域,探索后期收敛率低、收敛速度慢的问题,本研究提出一种改进的Q-Learning算法。该算法改进Q矩阵赋值方法,使迭代前期探索过程具有指向性,并降低碰撞的情况;改进Q矩阵迭代方法,使Q矩阵更新具有前瞻性,避免在一个小区域中反复探索;改进随机探索策略,在迭代前期全面利用环境信息,后期向目标点靠近。在不同栅格地图仿真验证结果表明,本文算法在Q-Learning算法的基础上,通过上述改进降低探索过程中的路径长度、减少抖动并提高收敛的速度,具有更高的计算效率。 展开更多
关键词 路径规划 强化学习 移动机器人 q-learning算法 ε-decreasing策略
下载PDF
基于Q-Learning的航空器滑行路径规划研究
5
作者 王兴隆 王睿峰 《中国民航大学学报》 CAS 2024年第3期28-33,共6页
针对传统算法规划航空器滑行路径准确度低、不能根据整体场面运行情况进行路径规划的问题,提出一种基于Q-Learning的路径规划方法。通过对机场飞行区网络结构模型和强化学习的仿真环境分析,设置了状态空间和动作空间,并根据路径的合规... 针对传统算法规划航空器滑行路径准确度低、不能根据整体场面运行情况进行路径规划的问题,提出一种基于Q-Learning的路径规划方法。通过对机场飞行区网络结构模型和强化学习的仿真环境分析,设置了状态空间和动作空间,并根据路径的合规性和合理性设定了奖励函数,将路径合理性评价值设置为滑行路径长度与飞行区平均滑行时间乘积的倒数。最后,分析了动作选择策略参数对路径规划模型的影响。结果表明,与A*算法和Floyd算法相比,基于Q-Learning的路径规划在滑行距离最短的同时,避开了相对繁忙的区域,路径合理性评价值高。 展开更多
关键词 滑行路径规划 机场飞行区 强化学习 q-learning
下载PDF
基于Q-Learning的分簇无线传感网信任管理机制
6
作者 赵远亮 王涛 +3 位作者 李平 吴雅婷 孙彦赞 王瑞 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第2期255-266,共12页
针对无线传感器网络中存在的安全问题,提出了基于Q-Learning的分簇无线传感网信任管理机制(Q-learning based trust management mechanism for clustered wireless sensor networks,QLTMM-CWSN).该机制主要考虑通信信任、数据信任和能... 针对无线传感器网络中存在的安全问题,提出了基于Q-Learning的分簇无线传感网信任管理机制(Q-learning based trust management mechanism for clustered wireless sensor networks,QLTMM-CWSN).该机制主要考虑通信信任、数据信任和能量信任3个方面.在网络运行过程中,基于节点的通信行为、数据分布和能量消耗,使用Q-Learning算法更新节点信任值,并选择簇内信任值最高的节点作为可信簇头节点.当簇中主簇头节点的信任值低于阈值时,可信簇头节点代替主簇头节点管理簇内成员节点,维护正常的数据传输.研究结果表明,QLTMM-CWSN机制能有效抵御通信攻击、伪造本地数据攻击、能量攻击和混合攻击. 展开更多
关键词 无线传感器网络 q-learning 信任管理机制 网络安全
下载PDF
基于多步信息辅助的Q-learning路径规划算法
7
作者 王越龙 王松艳 晁涛 《系统仿真学报》 CAS CSCD 北大核心 2024年第9期2137-2148,共12页
为提升静态环境下移动机器人路径规划能力,解决传统Q-learning算法在路径规划中收敛速度慢的问题,提出一种基于多步信息辅助机制的Q-learning改进算法。利用ε-greedy策略中贪婪动作的多步信息与历史最优路径长度更新资格迹,使有效的资... 为提升静态环境下移动机器人路径规划能力,解决传统Q-learning算法在路径规划中收敛速度慢的问题,提出一种基于多步信息辅助机制的Q-learning改进算法。利用ε-greedy策略中贪婪动作的多步信息与历史最优路径长度更新资格迹,使有效的资格迹在算法迭代中持续发挥作用,用保存的多步信息解决可能落入的循环陷阱;使用局部多花朵的花授粉算法初始化Q值表,提升机器人前期搜索效率;基于机器人不同探索阶段的目的,结合迭代路径长度的标准差与机器人成功到达目标点的次数设计动作选择策略,以增强算法对环境信息探索与利用的平衡能力。实验结果表明:该算法具有较快的收敛速度,验证了算法的可行性与有效性。 展开更多
关键词 路径规划 q-learning 收敛速度 动作选择策略 栅格地图
下载PDF
基于softmax的加权Double Q-Learning算法
8
作者 钟雨昂 袁伟伟 关东海 《计算机科学》 CSCD 北大核心 2024年第S01期46-50,共5页
强化学习作为机器学习的一个分支,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化的问题。Q-Learning作为无模型强化学习的经典方法,存在过估计引起的最大化偏差问题,并且在环境中奖励存在噪声时表现不佳。Dou... 强化学习作为机器学习的一个分支,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化的问题。Q-Learning作为无模型强化学习的经典方法,存在过估计引起的最大化偏差问题,并且在环境中奖励存在噪声时表现不佳。Double Q-Learning(DQL)的出现解决了过估计问题,但同时造成了低估问题。为解决以上算法的高低估问题,提出了基于softmax的加权Q-Learning算法,并将其与DQL相结合,提出了一种新的基于softmax的加权Double Q-Learning算法(WDQL-Softmax)。该算法基于加权双估计器的构造,对样本期望值进行softmax操作得到权重,使用权重估计动作价值,有效平衡对动作价值的高估和低估问题,使估计值更加接近理论值。实验结果表明,在离散动作空间中,相比于Q-Learning算法、DQL算法和WDQL算法,WDQL-Softmax算法的收敛速度更快且估计值与理论值的误差更小。 展开更多
关键词 强化学习 q-learning Double q-learning Softmax
下载PDF
多无人机辅助边缘计算场景下基于Q-learning的任务卸载优化
9
作者 张露 王康 +2 位作者 燕晶 张博文 王茂励 《曲阜师范大学学报(自然科学版)》 CAS 2024年第4期74-82,共9页
引入多无人机辅助边缘计算系统,由多个无人机和原有边缘服务器共同为移动用户提供通信和计算资源;将优化问题建模为资源竞争和卸载决策约束下的系统总效用最大化问题,系统总效用由用户满意度、任务延迟和系统能耗3个因素组成.由于优化... 引入多无人机辅助边缘计算系统,由多个无人机和原有边缘服务器共同为移动用户提供通信和计算资源;将优化问题建模为资源竞争和卸载决策约束下的系统总效用最大化问题,系统总效用由用户满意度、任务延迟和系统能耗3个因素组成.由于优化模型是一个具有NP难属性的非凸问题,故采用强化学习方法求解得到使系统总效用最大的最优任务卸载决策集.仿真实验结果表明,与贪心顺序调优卸载方案和随机选择卸载方案相比,该文提出的Q-learning方案的系统总效用分别提高了15%和43%以上. 展开更多
关键词 多无人机辅助边缘计算系统 任务卸载 q-learning算法
下载PDF
基于改进Q-learning算法移动机器人局部路径研究
10
作者 方文凯 廖志高 《计算机与数字工程》 2024年第5期1265-1269,1274,共6页
针对局部路径规划时因无法提前获取环境信息导致移动机器人搜索不到合适的路径,以及在采用马尔可夫决策过程中传统强化学习算法应用于局部路径规划时存在着学习效率低下及收敛速度较慢等问题,提出一种改进的Q-learn-ing(QL)算法。首先... 针对局部路径规划时因无法提前获取环境信息导致移动机器人搜索不到合适的路径,以及在采用马尔可夫决策过程中传统强化学习算法应用于局部路径规划时存在着学习效率低下及收敛速度较慢等问题,提出一种改进的Q-learn-ing(QL)算法。首先设计一种动态自适应贪婪策略,用于平衡移动机器人对环境探索和利用之间的问题;其次根据A*算法思想设计启发式学习评估模型,从而动态调整学习因子并为搜索路径提供导向作用;最后引入三阶贝塞尔曲线规划对路径进行平滑处理。通过Pycharm平台仿真结果表明,使得改进后的QL算法所规划的路径长度、搜索效率及路径平滑性等特性上都优于传统Sarsa算法及QL算法,比传统Sarsa算法迭代次数提高32.3%,搜索时间缩短27.08%,比传统QL算法迭代次数提高27.32%,搜索时间缩短17.28%,路径规划的拐点大幅度减少,局部路径优化效果较为明显。 展开更多
关键词 移动机器人 q-learning算法 局部路径 A^(*)算法 贝塞尔曲线
下载PDF
一种基于Q-learning强化学习的导向性处理器安全性模糊测试方案
11
作者 崔云凯 张伟 《北京信息科技大学学报(自然科学版)》 2024年第4期81-87,95,共8页
针对处理器安全性模糊测试在进行细粒度变异时遗传算法存在一定的盲目性,易使生成的测试用例触发相同类型漏洞的问题,提出了一种基于Q-learning强化学习的导向性处理器安全性模糊测试方案。通过测试用例的状态值和所触发的漏洞类型对应... 针对处理器安全性模糊测试在进行细粒度变异时遗传算法存在一定的盲目性,易使生成的测试用例触发相同类型漏洞的问题,提出了一种基于Q-learning强化学习的导向性处理器安全性模糊测试方案。通过测试用例的状态值和所触发的漏洞类型对应的权值构造奖励函数,使用强化学习指导生成具有针对性和导向性的测试用例,快速地触发不同类型的漏洞。在Hikey970平台上的实验验证了基于ARMv8的测试用例生成框架的有效性,并且相较于传统使用遗传算法作为反馈的策略,本文方案在相同时间内生成有效测试用例的的数量多19.15%,发现漏洞类型的数量多80.00%。 展开更多
关键词 处理器漏洞检测 模糊测试 q-learning强化学习 ARMv8 分支预测类漏洞
下载PDF
Exact and heuristic formulae to compute the geodetic height from the ellipse equation
12
作者 Mohamed Eleiche Ahmed Hamdi Mansi 《Geodesy and Geodynamics》 EI CSCD 2024年第2期150-155,共6页
The conversion of the cartesian coordinates of a point to its geodetic equivalent coordinates in reference to the geodetic ellipsoid is one of the main challenges in geodesy.The ellipse equation in the meridian plane ... The conversion of the cartesian coordinates of a point to its geodetic equivalent coordinates in reference to the geodetic ellipsoid is one of the main challenges in geodesy.The ellipse equation in the meridian plane significantly influences the value of the geodetic coordinates.This research analyzes this influence and how it can contribute to their solutions.The study investigates the mathematical relation between them and presents an exact formula relating to the geodetic height and the ellipse equation.In addition,a heuristic formula for the relation between the geodetic height and the ellipse equation is proposed,which is independent of the geodetic latitude and has a relative accuracy better than 99.9 %.The calculation is stable,and the cost is low. 展开更多
关键词 Ellipse equation Geodetic height heuristic geodetic height
下载PDF
Improved STNModels and Heuristic Rules for Cooperative Scheduling in Automated Container Terminals
13
作者 Hongyan Xia Jin Zhu 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第2期1637-1661,共25页
Improving the cooperative scheduling efficiency of equipment is the key for automated container terminals to copewith the development trend of large-scale ships. In order to improve the solution efficiency of the exis... Improving the cooperative scheduling efficiency of equipment is the key for automated container terminals to copewith the development trend of large-scale ships. In order to improve the solution efficiency of the existing spacetimenetwork (STN) model for the cooperative scheduling problem of yard cranes (YCs) and automated guidedvehicles (AGVs) and extend its application scenarios, two improved STN models are proposed. The flow balanceconstraints in the original model are decomposed, and the trajectory constraints of YCs and AGVs are added toacquire the model STN_A. The coupling constraint in STN_A is updated, and buffer constraints are added toSTN_A so that themodel STN_B is built.As the size of the problem increases, the solution speed of CPLEX becomesthe bottleneck. So a heuristic method containing three groups of heuristic rules is designed to obtain a near-optimalsolution quickly. Experimental results showthat the computation time of STN_A is shortened by 49.47% on averageand the gap is reduced by 1.69% on average compared with the original model. The gap between the solution ofthe heuristic rules and the solution of CPLEX is less than 3.50%, and the solution time of the heuristic rules is onaverage 99.85% less than the solution time of CPLEX. Compared with STN_A, the computation time for solvingSTN_B increases by 58.93% on average. 展开更多
关键词 Automated container terminal BUFFER cooperative scheduling heuristic rules space-time network
下载PDF
Traffic Control Based on Integrated Kalman Filtering and Adaptive Quantized Q-Learning Framework for Internet of Vehicles
14
作者 Othman S.Al-Heety Zahriladha Zakaria +4 位作者 Ahmed Abu-Khadrah Mahamod Ismail Sarmad Nozad Mahmood Mohammed Mudhafar Shakir Hussein Alsariera 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第3期2103-2127,共25页
Intelligent traffic control requires accurate estimation of the road states and incorporation of adaptive or dynamically adjusted intelligent algorithms for making the decision.In this article,these issues are handled... Intelligent traffic control requires accurate estimation of the road states and incorporation of adaptive or dynamically adjusted intelligent algorithms for making the decision.In this article,these issues are handled by proposing a novel framework for traffic control using vehicular communications and Internet of Things data.The framework integrates Kalman filtering and Q-learning.Unlike smoothing Kalman filtering,our data fusion Kalman filter incorporates a process-aware model which makes it superior in terms of the prediction error.Unlike traditional Q-learning,our Q-learning algorithm enables adaptive state quantization by changing the threshold of separating low traffic from high traffic on the road according to the maximum number of vehicles in the junction roads.For evaluation,the model has been simulated on a single intersection consisting of four roads:east,west,north,and south.A comparison of the developed adaptive quantized Q-learning(AQQL)framework with state-of-the-art and greedy approaches shows the superiority of AQQL with an improvement percentage in terms of the released number of vehicles of AQQL is 5%over the greedy approach and 340%over the state-of-the-art approach.Hence,AQQL provides an effective traffic control that can be applied in today’s intelligent traffic system. 展开更多
关键词 q-learning intelligent transportation system(ITS) traffic control vehicular communication kalman filtering smart city Internet of Things
下载PDF
Novel Static Security and Stability Control of Power Systems Based on Artificial Emotional Lazy Q-Learning
15
作者 Tao Bao Xiyuan Ma +3 位作者 Zhuohuan Li Duotong Yang Pengyu Wang Changcheng Zhou 《Energy Engineering》 EI 2024年第6期1713-1737,共25页
The stability problem of power grids has become increasingly serious in recent years as the size of novel power systems increases.In order to improve and ensure the stable operation of the novel power system,this stud... The stability problem of power grids has become increasingly serious in recent years as the size of novel power systems increases.In order to improve and ensure the stable operation of the novel power system,this study proposes an artificial emotional lazy Q-learning method,which combines artificial emotion,lazy learning,and reinforcement learning for static security and stability analysis of power systems.Moreover,this study compares the analysis results of the proposed method with those of the small disturbance method for a stand-alone power system and verifies that the proposed lazy Q-learning method is able to effectively screen useful data for learning,and improve the static security stability of the new type of power system more effectively than the traditional proportional-integral-differential control and Q-learning methods. 展开更多
关键词 Artificial sentiment static secure stable analysis q-learning lazy learning data filtering
下载PDF
Energy-Saving Distributed Flexible Job Shop Scheduling Optimization with Dual Resource Constraints Based on Integrated Q-Learning Multi-Objective Grey Wolf Optimizer
16
作者 Hongliang Zhang Yi Chen +1 位作者 Yuteng Zhang Gongjie Xu 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第8期1459-1483,共25页
The distributed flexible job shop scheduling problem(DFJSP)has attracted great attention with the growth of the global manufacturing industry.General DFJSP research only considers machine constraints and ignores worke... The distributed flexible job shop scheduling problem(DFJSP)has attracted great attention with the growth of the global manufacturing industry.General DFJSP research only considers machine constraints and ignores worker constraints.As one critical factor of production,effective utilization of worker resources can increase productivity.Meanwhile,energy consumption is a growing concern due to the increasingly serious environmental issues.Therefore,the distributed flexible job shop scheduling problem with dual resource constraints(DFJSP-DRC)for minimizing makespan and total energy consumption is studied in this paper.To solve the problem,we present a multi-objective mathematical model for DFJSP-DRC and propose a Q-learning-based multi-objective grey wolf optimizer(Q-MOGWO).In Q-MOGWO,high-quality initial solutions are generated by a hybrid initialization strategy,and an improved active decoding strategy is designed to obtain the scheduling schemes.To further enhance the local search capability and expand the solution space,two wolf predation strategies and three critical factory neighborhood structures based on Q-learning are proposed.These strategies and structures enable Q-MOGWO to explore the solution space more efficiently and thus find better Pareto solutions.The effectiveness of Q-MOGWO in addressing DFJSP-DRC is verified through comparison with four algorithms using 45 instances.The results reveal that Q-MOGWO outperforms comparison algorithms in terms of solution quality. 展开更多
关键词 Distributed flexible job shop scheduling problem dual resource constraints energy-saving scheduling multi-objective grey wolf optimizer q-learning
下载PDF
基于Q-Learning的动态BLE Mesh网络高能效路由算法
17
作者 蒋龙荣 刘静 +1 位作者 刘文超 王兰 《无线电通信技术》 北大核心 2024年第4期664-673,共10页
针对动态低功耗蓝牙(Bluetooth Low Energy, BLE)Mesh网络规范采用的管理式泛洪路由机制所导致的数据包冗余和高能耗的问题,提出了动态BLE Mesh网络高能效路由算法。通过建立基于Q-Learning的BLE Mesh网络路由模型,将BLE Mesh网络中节... 针对动态低功耗蓝牙(Bluetooth Low Energy, BLE)Mesh网络规范采用的管理式泛洪路由机制所导致的数据包冗余和高能耗的问题,提出了动态BLE Mesh网络高能效路由算法。通过建立基于Q-Learning的BLE Mesh网络路由模型,将BLE Mesh网络中节点的剩余能量、转发成本、移动因子以及接收信号强度指示(Received Signal Strength Indicator, RSSI)纳入到奖励函数的设计中。同时对BLE Mesh网络中的心跳机制进行改进,使网络中的节点更加高效地获取环境信息。采用基于探索的路由发现机制来更新网络中节点的Q值,使其能更加准确反映节点移动所导致的网络拓扑变化。仿真结果表明,该算法在节点能耗和网络开销上均优于传统的管理式泛洪路由机制。 展开更多
关键词 低功耗蓝牙 MESH网络 物联网应用 q-learning
下载PDF
基于改进Q-learning算法的移动机器人路径规划
18
作者 井征淼 刘宏杰 周永录 《火力与指挥控制》 CSCD 北大核心 2024年第3期135-141,共7页
针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖... 针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖励值,以及对比斥力函数计算姿值,动态更新Q值,使移动机器人具有目的性的探索,并且优先选择离障碍物较远的位置移动。通过仿真实验证明,与传统Q-learning算法、引入引力场算法对比,改进Q-learning算法加快了收敛速度,缩短了运行时间,提高了学习效率,降低了与障碍物相撞的概率,使移动机器人能够快速地找到一条无碰撞通路。 展开更多
关键词 移动机器人 路径规划 改进的q-learning 人工势场法 强化学习
下载PDF
基于改进型Q-Learning算法的路径规划系统研究
19
作者 娄智波 彭越 辛凯 《计算机与数字工程》 2024年第8期2312-2316,共5页
随着无人驾驶领域的兴起,人工智能、强化学习等概念开始普及。人工智能设备具有集成度高、可训练性以及可编程性等特点,在无人驾驶中的路径规划领域发挥了重要作用。论文首先介绍了现有研究中较为经典的路径规划算法,并针对Q-Learning... 随着无人驾驶领域的兴起,人工智能、强化学习等概念开始普及。人工智能设备具有集成度高、可训练性以及可编程性等特点,在无人驾驶中的路径规划领域发挥了重要作用。论文首先介绍了现有研究中较为经典的路径规划算法,并针对Q-Learning算法效率低下等问题进行研究,提出了一种改进型Q-Learning算法。该算法首先对智能体的运动以及空间环境进行建模,其次改进了Q-Learning算法的奖励机制,最后规定了智能体的运动方式。仿真结果表明,基于改进型Q-Learning算法有效改善了智能体的运动路径以及工作效率。 展开更多
关键词 强化学习 路径规划 奖励 q-learning
下载PDF
基于时序Q-learning算法的主网变电站继电保护故障快速定位方法
20
作者 刘昊 曲文韬 +2 位作者 张达 李超 李清泉 《微型电脑应用》 2024年第8期134-137,163,共5页
主网变电站继电保护故障通常是突发性的,不会持续一段时间,暂态性质不明显,快速定位效果受限,基于此,提出基于时序Q-learning算法的故障快速定位方法。在时序Q-learning中,使用不同多项式函数参数表示不同主网变电站继电保护动作,采用... 主网变电站继电保护故障通常是突发性的,不会持续一段时间,暂态性质不明显,快速定位效果受限,基于此,提出基于时序Q-learning算法的故障快速定位方法。在时序Q-learning中,使用不同多项式函数参数表示不同主网变电站继电保护动作,采用贪婪策略选择主网变电站继电保护动作,根据继电保护状态反馈结果更新权重,使用时序Q-learning算法进行参数训练。构建故障暂态网络的节点导纳矩阵,计算支路电压、电流,确定故障关联域。按照拓扑图论方式时序Q-learning算法搭建快速定位拓扑结构,通过分析支路电流与故障电流之间距离,计算故障相关度,完成故障快速定位。由实验结果可知,该方法故障相序与实际一致,可以分析主网变电站继电保护暂态性质,适用于复杂多变的继电保护装置。 展开更多
关键词 时序q-learning算法 继电保护 故障快速定位 故障关联域
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部