期刊文献+
共找到1,509篇文章
< 1 2 76 >
每页显示 20 50 100
基于Q⁃learning算法的无人机自组网AODV稳定路由改进方法
1
作者 李海滨 唐晓刚 +3 位作者 常继红 吴署光 周尚辉 王梦阳 《现代电子技术》 2023年第6期91-97,共7页
针对小型无人机集群组网中节点高速移动、网络拓扑变化剧烈导致的网络性能下降问题,在无线自组网按需平面距离向量(AODV)协议基础上,提出一种具有链路稳定度意识的无人机自组网路由协议(LN⁃AODV)。首先,通过加权计算链路维持时间和邻居... 针对小型无人机集群组网中节点高速移动、网络拓扑变化剧烈导致的网络性能下降问题,在无线自组网按需平面距离向量(AODV)协议基础上,提出一种具有链路稳定度意识的无人机自组网路由协议(LN⁃AODV)。首先,通过加权计算链路维持时间和邻居节点变化度,从而选择稳定路径,解决拓扑结构动态变化条件下数据传输延迟和数据成功投递率下降的难题;然后,结合Q⁃learning算法自适应调整Hello消息的发送周期,使协议能够通过感知拓扑变化程度调整路由控制开销和拓扑感知灵敏度。仿真结果表明,相比于AODV,所提方法在端到端延迟、分组投递率、路由开销和数据吞吐量4个网络性能指标上分别提升7.56%,2.58%,17.39%,2.62%,可适应于节点高速运动的无人机自组网,对于无线自组网理论研究及拓展应用具有重要的借鉴意义。 展开更多
关键词 无人机自组网 路由协议 AODV q⁃learning 稳定路径 拓扑感知 Hello报文 邻居节点
下载PDF
基于改进Q⁃learning算法的输电线路拟声驱鸟策略研究 被引量:1
2
作者 柯杰龙 张羽 +2 位作者 朱朋辉 黄炽坤 吴可廷 《南京信息工程大学学报(自然科学版)》 CAS 北大核心 2022年第5期579-586,共8页
日益频繁的鸟类活动给输电线路的安全运行带来了极大威胁,而现有拟声驱鸟装置由于缺乏智能性,无法长期有效驱鸟.为了解决上述问题,本文提出基于改进Q⁃learning算法的拟声驱鸟策略.首先,为了评价各音频的驱鸟效果,结合模糊理论,将鸟类听... 日益频繁的鸟类活动给输电线路的安全运行带来了极大威胁,而现有拟声驱鸟装置由于缺乏智能性,无法长期有效驱鸟.为了解决上述问题,本文提出基于改进Q⁃learning算法的拟声驱鸟策略.首先,为了评价各音频的驱鸟效果,结合模糊理论,将鸟类听到音频后的动作行为量化为不同鸟类反应类型.然后,设计单一音频驱鸟实验,统计各音频驱鸟效果数据,得到各音频的初始权重值,为拟声驱鸟装置的音频选择提供实验依据.为了使计算所得的音频权重值更符合实际实验情况,对CRITIC(Criteria Impor⁃tance Though Intercrieria Correlation)方法的权重计算公式进行了优化.最后,使用实验所得音频权重值对Q⁃learning算法进行改进,并设计与其他拟声驱鸟策略的对比实验,实验数据显示改进Q⁃learning算法的拟声驱鸟策略驱鸟效果优于其他三种驱鸟策略,收敛速度快,驱鸟效果稳定,能够降低鸟类的适应性. 展开更多
关键词 拟声音频 驱鸟效果 模糊理论 q⁃learning算法 驱鸟策略
下载PDF
改进Q-Learning的路径规划算法研究
3
作者 宋丽君 周紫瑜 +2 位作者 李云龙 侯佳杰 何星 《小型微型计算机系统》 CSCD 北大核心 2024年第4期823-829,共7页
针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在... 针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在更新函数中设计深度学习因子以保证算法探索概率;融合遗传算法,避免陷入局部路径最优同时按阶段探索最优迭代步长次数,以减少动态地图探索重复率;最后提取输出的最优路径关键节点采用贝塞尔曲线进行平滑处理,进一步保证路径平滑度和可行性.实验通过栅格法构建地图,对比实验结果表明,改进后的算法效率相较于传统算法在迭代次数和路径上均有较大优化,且能够较好的实现动态地图下的路径规划,进一步验证所提方法的有效性和实用性. 展开更多
关键词 移动机器人 路径规划 q-learning算法 平滑处理 动态避障
下载PDF
基于softmax的加权Double Q-Learning算法
4
作者 钟雨昂 袁伟伟 关东海 《计算机科学》 CSCD 北大核心 2024年第S01期46-50,共5页
强化学习作为机器学习的一个分支,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化的问题。Q-Learning作为无模型强化学习的经典方法,存在过估计引起的最大化偏差问题,并且在环境中奖励存在噪声时表现不佳。Dou... 强化学习作为机器学习的一个分支,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化的问题。Q-Learning作为无模型强化学习的经典方法,存在过估计引起的最大化偏差问题,并且在环境中奖励存在噪声时表现不佳。Double Q-Learning(DQL)的出现解决了过估计问题,但同时造成了低估问题。为解决以上算法的高低估问题,提出了基于softmax的加权Q-Learning算法,并将其与DQL相结合,提出了一种新的基于softmax的加权Double Q-Learning算法(WDQL-Softmax)。该算法基于加权双估计器的构造,对样本期望值进行softmax操作得到权重,使用权重估计动作价值,有效平衡对动作价值的高估和低估问题,使估计值更加接近理论值。实验结果表明,在离散动作空间中,相比于Q-Learning算法、DQL算法和WDQL算法,WDQL-Softmax算法的收敛速度更快且估计值与理论值的误差更小。 展开更多
关键词 强化学习 q-learning Double q-learning Softmax
下载PDF
基于改进Q-learning算法移动机器人局部路径研究
5
作者 方文凯 廖志高 《计算机与数字工程》 2024年第5期1265-1269,1274,共6页
针对局部路径规划时因无法提前获取环境信息导致移动机器人搜索不到合适的路径,以及在采用马尔可夫决策过程中传统强化学习算法应用于局部路径规划时存在着学习效率低下及收敛速度较慢等问题,提出一种改进的Q-learn-ing(QL)算法。首先... 针对局部路径规划时因无法提前获取环境信息导致移动机器人搜索不到合适的路径,以及在采用马尔可夫决策过程中传统强化学习算法应用于局部路径规划时存在着学习效率低下及收敛速度较慢等问题,提出一种改进的Q-learn-ing(QL)算法。首先设计一种动态自适应贪婪策略,用于平衡移动机器人对环境探索和利用之间的问题;其次根据A*算法思想设计启发式学习评估模型,从而动态调整学习因子并为搜索路径提供导向作用;最后引入三阶贝塞尔曲线规划对路径进行平滑处理。通过Pycharm平台仿真结果表明,使得改进后的QL算法所规划的路径长度、搜索效率及路径平滑性等特性上都优于传统Sarsa算法及QL算法,比传统Sarsa算法迭代次数提高32.3%,搜索时间缩短27.08%,比传统QL算法迭代次数提高27.32%,搜索时间缩短17.28%,路径规划的拐点大幅度减少,局部路径优化效果较为明显。 展开更多
关键词 移动机器人 q-learning算法 局部路径 A^(*)算法 贝塞尔曲线
下载PDF
基于改进Q-learning算法的移动机器人路径规划
6
作者 井征淼 刘宏杰 周永录 《火力与指挥控制》 CSCD 北大核心 2024年第3期135-141,共7页
针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖... 针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖励值,以及对比斥力函数计算姿值,动态更新Q值,使移动机器人具有目的性的探索,并且优先选择离障碍物较远的位置移动。通过仿真实验证明,与传统Q-learning算法、引入引力场算法对比,改进Q-learning算法加快了收敛速度,缩短了运行时间,提高了学习效率,降低了与障碍物相撞的概率,使移动机器人能够快速地找到一条无碰撞通路。 展开更多
关键词 移动机器人 路径规划 改进的q-learning 人工势场法 强化学习
下载PDF
基于Q-Learning的动态BLE Mesh网络高能效路由算法
7
作者 蒋龙荣 刘静 +1 位作者 刘文超 王兰 《无线电通信技术》 北大核心 2024年第4期664-673,共10页
针对动态低功耗蓝牙(Bluetooth Low Energy, BLE)Mesh网络规范采用的管理式泛洪路由机制所导致的数据包冗余和高能耗的问题,提出了动态BLE Mesh网络高能效路由算法。通过建立基于Q-Learning的BLE Mesh网络路由模型,将BLE Mesh网络中节... 针对动态低功耗蓝牙(Bluetooth Low Energy, BLE)Mesh网络规范采用的管理式泛洪路由机制所导致的数据包冗余和高能耗的问题,提出了动态BLE Mesh网络高能效路由算法。通过建立基于Q-Learning的BLE Mesh网络路由模型,将BLE Mesh网络中节点的剩余能量、转发成本、移动因子以及接收信号强度指示(Received Signal Strength Indicator, RSSI)纳入到奖励函数的设计中。同时对BLE Mesh网络中的心跳机制进行改进,使网络中的节点更加高效地获取环境信息。采用基于探索的路由发现机制来更新网络中节点的Q值,使其能更加准确反映节点移动所导致的网络拓扑变化。仿真结果表明,该算法在节点能耗和网络开销上均优于传统的管理式泛洪路由机制。 展开更多
关键词 低功耗蓝牙 MESH网络 物联网应用 q-learning
下载PDF
基于Q-Learning的航空器滑行路径规划研究
8
作者 王兴隆 王睿峰 《中国民航大学学报》 CAS 2024年第3期28-33,共6页
针对传统算法规划航空器滑行路径准确度低、不能根据整体场面运行情况进行路径规划的问题,提出一种基于Q-Learning的路径规划方法。通过对机场飞行区网络结构模型和强化学习的仿真环境分析,设置了状态空间和动作空间,并根据路径的合规... 针对传统算法规划航空器滑行路径准确度低、不能根据整体场面运行情况进行路径规划的问题,提出一种基于Q-Learning的路径规划方法。通过对机场飞行区网络结构模型和强化学习的仿真环境分析,设置了状态空间和动作空间,并根据路径的合规性和合理性设定了奖励函数,将路径合理性评价值设置为滑行路径长度与飞行区平均滑行时间乘积的倒数。最后,分析了动作选择策略参数对路径规划模型的影响。结果表明,与A*算法和Floyd算法相比,基于Q-Learning的路径规划在滑行距离最短的同时,避开了相对繁忙的区域,路径合理性评价值高。 展开更多
关键词 滑行路径规划 机场飞行区 强化学习 q-learning
下载PDF
基于Q-Learning的分簇无线传感网信任管理机制
9
作者 赵远亮 王涛 +3 位作者 李平 吴雅婷 孙彦赞 王瑞 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第2期255-266,共12页
针对无线传感器网络中存在的安全问题,提出了基于Q-Learning的分簇无线传感网信任管理机制(Q-learning based trust management mechanism for clustered wireless sensor networks,QLTMM-CWSN).该机制主要考虑通信信任、数据信任和能... 针对无线传感器网络中存在的安全问题,提出了基于Q-Learning的分簇无线传感网信任管理机制(Q-learning based trust management mechanism for clustered wireless sensor networks,QLTMM-CWSN).该机制主要考虑通信信任、数据信任和能量信任3个方面.在网络运行过程中,基于节点的通信行为、数据分布和能量消耗,使用Q-Learning算法更新节点信任值,并选择簇内信任值最高的节点作为可信簇头节点.当簇中主簇头节点的信任值低于阈值时,可信簇头节点代替主簇头节点管理簇内成员节点,维护正常的数据传输.研究结果表明,QLTMM-CWSN机制能有效抵御通信攻击、伪造本地数据攻击、能量攻击和混合攻击. 展开更多
关键词 无线传感器网络 q-learning 信任管理机制 网络安全
下载PDF
改进麻雀算法和Q-Learning优化集成学习轨道电路故障诊断
10
作者 徐凯 郑浩 +1 位作者 涂永超 吴仕勋 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2023年第11期4426-4437,共12页
无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻... 无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻雀算法和Q-Learning优化集成学习的轨道电路故障诊断新方法,该方法有机地将集成学习与计算智能和强化学习相结合,充分挖掘轨道电路故障特征,提高性能评价指标。首先,使用卷积神经网络、长短期记忆网络和多层感知器深度学习模型,以及支持向量机和随机森林传统机器学习模型,共同构成集成学习基学习器,解决单一学习模型的不足,不同基学习器的使用保证集成学习的多样性。从自动化机器学习角度出发,采用改进麻雀算法优化该集成学习模型的结构和参数,克服其结构和参数难以确定的问题。在此之上,引入强化学习Q-learning对集成模型中各基学习器组合权重进行优化,智能地确定集成学习各基学习器的组合权重。最后,将集成学习模型的预测结果与真实结果比较后得到误差,再采用BP神经网络对预测结果进行补偿修正,进一步提高轨道电路的故障诊断性能评价指标。仿真结果表明,利用所提方法进一步改善了轨道电路故障诊断的准确度、精确度、召回率和F1值等性能评价指标。 展开更多
关键词 无绝缘轨道电路 故障诊断 集成学习 改进麻雀算法 q-learning 误差修正
下载PDF
基于BAS和Q-Learning的移动机器人路径规划算法研究 被引量:1
11
作者 程晶晶 周明龙 邓雄峰 《长春工程学院学报(自然科学版)》 2023年第3期107-111,共5页
针对传统Q-Learning存在的起始阶段盲目搜索、动作选择策略不科学的问题,提出了联合BAS和Q-Learning的移动机器人路径规划算法。该算法运用欧式距离定位坐标,引入搜索因子对搜索时间和学习速度进行平衡改进,并采用BAS和贝塞尔曲线分别优... 针对传统Q-Learning存在的起始阶段盲目搜索、动作选择策略不科学的问题,提出了联合BAS和Q-Learning的移动机器人路径规划算法。该算法运用欧式距离定位坐标,引入搜索因子对搜索时间和学习速度进行平衡改进,并采用BAS和贝塞尔曲线分别优化Q值、平滑路径。将提出的算法应用于仿真试验和实物试验,结果表明其能够高效、精准地在静态和动态障碍物环境下获得最优路径,具有较强的工程适用性。 展开更多
关键词 移动机器人 路径规划 q-learning算法 天牛须搜索 路径平滑
下载PDF
基于Q-learning的搜救机器人自主路径规划
12
作者 褚晶 邓旭辉 岳颀 《南京航空航天大学学报》 CAS CSCD 北大核心 2024年第2期364-374,共11页
当人为和自然灾害突然发生时,在极端情况下快速部署搜救机器人是拯救生命的关键。为了完成救援任务,搜救机器人需要在连续动态未知环境中,自主进行路径规划以到达救援目标位置。本文提出了一种搜救机器人传感器配置方案,应用基于Q⁃tabl... 当人为和自然灾害突然发生时,在极端情况下快速部署搜救机器人是拯救生命的关键。为了完成救援任务,搜救机器人需要在连续动态未知环境中,自主进行路径规划以到达救援目标位置。本文提出了一种搜救机器人传感器配置方案,应用基于Q⁃table和神经网络的Q⁃learning算法,实现搜救机器人的自主控制,解决了在未知环境中如何避开静态和动态障碍物的路径规划问题。如何平衡训练过程的探索与利用是强化学习的挑战之一,本文在贪婪搜索和Boltzmann搜索的基础上,提出了对搜索策略进行动态选择的混合优化方法。并用MATLAB进行了仿真,结果表明所提出的方法是可行有效的。采用该传感器配置的搜救机器人能够有效地响应环境变化,到达目标位置的同时成功避开静态、动态障碍物。 展开更多
关键词 搜救机器人 路径规划 传感器配置 q⁃learning 神经网络
下载PDF
A Deep Reinforcement Learning-Based Technique for Optimal Power Allocation in Multiple Access Communications
13
作者 Sepehr Soltani Ehsan Ghafourian +2 位作者 Reza Salehi Diego Martín Milad Vahidi 《Intelligent Automation & Soft Computing》 2024年第1期93-108,共16页
Formany years,researchers have explored power allocation(PA)algorithms driven bymodels in wireless networks where multiple-user communications with interference are present.Nowadays,data-driven machine learning method... Formany years,researchers have explored power allocation(PA)algorithms driven bymodels in wireless networks where multiple-user communications with interference are present.Nowadays,data-driven machine learning methods have become quite popular in analyzing wireless communication systems,which among them deep reinforcement learning(DRL)has a significant role in solving optimization issues under certain constraints.To this purpose,in this paper,we investigate the PA problem in a k-user multiple access channels(MAC),where k transmitters(e.g.,mobile users)aim to send an independent message to a common receiver(e.g.,base station)through wireless channels.To this end,we first train the deep Q network(DQN)with a deep Q learning(DQL)algorithm over the simulation environment,utilizing offline learning.Then,the DQN will be used with the real data in the online training method for the PA issue by maximizing the sumrate subjected to the source power.Finally,the simulation results indicate that our proposedDQNmethod provides better performance in terms of the sumrate compared with the available DQL training approaches such as fractional programming(FP)and weighted minimum mean squared error(WMMSE).Additionally,by considering different user densities,we show that our proposed DQN outperforms benchmark algorithms,thereby,a good generalization ability is verified over wireless multi-user communication systems. 展开更多
关键词 Deep reinforcement learning deep q learning multiple access channel power allocation
下载PDF
基于改进Q-learning算法和DWA的路径规划 被引量:2
14
作者 王志伟 邹艳丽 +2 位作者 刘唐慧美 侯凤萍 余自淳 《传感器与微系统》 CSCD 北大核心 2023年第9期148-152,共5页
针对传统Q-learning算法出现的规划路线转折点多,探索效率低,以及无法实现动态环境下的路径规划问题,提出一种基于改进Q-learning算法和动态窗口法(DWA)的融合算法。首先,改变传统Q-learning算法的搜索方式,由原先的8方向变成16方向;利... 针对传统Q-learning算法出现的规划路线转折点多,探索效率低,以及无法实现动态环境下的路径规划问题,提出一种基于改进Q-learning算法和动态窗口法(DWA)的融合算法。首先,改变传统Q-learning算法的搜索方式,由原先的8方向变成16方向;利用模拟退火算法对Q-learning进行迭代优化;通过路径节点优化算法进行节点简化,提高路径平滑度。然后,提取改进Q-learning算法规划路径的节点,将其作为DWA算法的临时目标,前进过程中,能够实时躲避环境中出现的动静态障碍物。最终实验结果表明:融合算法具有较好的路径规划能力,实现了全局最优和有效避障的效果。 展开更多
关键词 q-learning算法 路径规划 动态窗口法
下载PDF
基于Q-learning的混合动力汽车能量管理策略
15
作者 游杰 《汽车电器》 2024年第8期24-27,30,共5页
随着能源与环境问题的日益突出,对混合动力汽车进行研究具有重要的意义。作为一种多能源汽车,能量管理和分配策略是提高混合动力汽车燃油经济性及降低排放的关键。混合动力汽车由内燃机和电池两种不同的动力源驱动,对于给定的功率需求,... 随着能源与环境问题的日益突出,对混合动力汽车进行研究具有重要的意义。作为一种多能源汽车,能量管理和分配策略是提高混合动力汽车燃油经济性及降低排放的关键。混合动力汽车由内燃机和电池两种不同的动力源驱动,对于给定的功率需求,如何分配两种动力源的输出功率,使得整个循环的耗油量达到最小是混合动力系统控制需要解决的问题。文章以Q学习全局优化算法为基础,对整车能量进行分配,并获得发动机和电机的最优转矩,在保持电池荷电状态平衡的同时,提高整车的燃油经济性。使用MATLAB/Simulink并在NEDC循环工况下进行仿真分析,得到的结论为混合动力汽车的油耗为4.627L/km,相对于传统小型汽车6.88L/100km,降幅为32.75%。 展开更多
关键词 能量管理 q-learning 混合动力汽车 燃油经济性
下载PDF
改进Q-Learning输电线路超声驱鸟设备参数优化研究
16
作者 徐浩 房旭 +3 位作者 张浩 王爱军 周洪益 宋钰 《电工电气》 2024年第5期53-57,共5页
超声波驱鸟是一种解决输电设备鸟害的重要手段,但现场使用超声波驱鸟器工作模式较单一,易产生鸟类适应问题。提出了一种改进Q-Learning输电线路超声驱鸟设备参数优化方法,针对涉鸟故障历史数据量少以及鸟类的适应性问题,将强化学习算法... 超声波驱鸟是一种解决输电设备鸟害的重要手段,但现场使用超声波驱鸟器工作模式较单一,易产生鸟类适应问题。提出了一种改进Q-Learning输电线路超声驱鸟设备参数优化方法,针对涉鸟故障历史数据量少以及鸟类的适应性问题,将强化学习算法应用于输电线路超声驱鸟设备参数优化;针对传统强化学习算法在设备终端应用中存在收敛慢、耗时长的缺点,提出一种基于动态学习率的改进Q-Learning算法,对不同频段超声波的权重进行自适应优化。实验结果显示,改进Q-Learning算法最优参数的迭代收敛速度大幅提高,优化后驱鸟设备的驱鸟成功率达到了76%,优于传统强化学习算法模式,较好地解决了鸟类适应性问题。 展开更多
关键词 改进q-learning 超声波驱鸟 参数优化 适应性
下载PDF
基于改进Q-learning算法的移动机器人局部路径规划 被引量:2
17
作者 张耀玉 李彩虹 +2 位作者 张国胜 李永迪 梁振英 《山东理工大学学报(自然科学版)》 CAS 2023年第2期1-6,共6页
针对Q-learning算法在移动机器人局部路径规划中存在的学习速度慢、效率低等问题,提出一种改进的IQ-learning算法。首先设计了栅格地图,建立机器人八连通的运行环境。其次基于栅格地图设计了状态、动作、Q值表、奖惩函数和动作选择策略;... 针对Q-learning算法在移动机器人局部路径规划中存在的学习速度慢、效率低等问题,提出一种改进的IQ-learning算法。首先设计了栅格地图,建立机器人八连通的运行环境。其次基于栅格地图设计了状态、动作、Q值表、奖惩函数和动作选择策略;在Q-learning算法的基础上,IQ-learning在奖惩函数中增加了对角线运动奖励值,鼓励机器人向八个方向探索路径,将平移运动和对角线运动相结合,减少规划路径长度和在初始阶段的盲目搜索,加快算法的收敛速度。最后利用设计的IQ-learning算法学习策略,分别在离散型、一字型、U型和混合型等障碍物环境下,学习移动机器人的局部路径规划任务,并与Q-learning的规划结果相比较,得出IQ-learning算法能够在更少的学习次数中以较少的步数找到最短路径,规划效率有所提高。 展开更多
关键词 移动机器人 q-learning算法 Iq-learning算法 局部路径规划 栅格地图
下载PDF
基于Q-Learning算法的无人机空战机动决策研究
18
作者 姚培源 魏潇龙 +1 位作者 俞利新 李胜厚 《电光与控制》 CSCD 北大核心 2023年第5期16-22,共7页
针对无人机空战对抗自主机动决策问题,设计了侧向机动决策算法。通过加入启发式因子的方式和双Q表交替学习的机制,弥补了传统Q-Learning算法学习速度慢、无效学习多的不足。通过路径规划仿真和数据的对比,验证了改进Q-Learning算法具有... 针对无人机空战对抗自主机动决策问题,设计了侧向机动决策算法。通过加入启发式因子的方式和双Q表交替学习的机制,弥补了传统Q-Learning算法学习速度慢、无效学习多的不足。通过路径规划仿真和数据的对比,验证了改进Q-Learning算法具有更好的稳定性和求解能力。设计了动态的栅格规划环境,能够使无人机根据变化的空战态势自适应调整栅格尺寸大小,且对求解的速率不产生影响。基于Q-Learning算法,构建了无人机空战对抗侧向机动决策模型,并通过武器平台调换的方式验证了改进Q-Learning算法能显著提升无人机空战胜负比。 展开更多
关键词 无人机 空战 机动决策 动态栅格环境 路径规划 q-learning学习表算法
下载PDF
改进Q-learning算法的柔性上料系统研究
19
作者 丁慧琴 曹雏清 +1 位作者 徐昌军 李龙 《现代制造工程》 CSCD 北大核心 2023年第4期87-92,129,共7页
现有振动式给料柔性上料系统的工作效果多数依靠出厂前人工手动调试,手动振动参数调试存在耗时长、费人力问题,且调试结果有较强针对性,导致系统柔性能力不足。提出一种基于改进Q-learning算法的柔性上料系统,结合柔性上料系统自身特性... 现有振动式给料柔性上料系统的工作效果多数依靠出厂前人工手动调试,手动振动参数调试存在耗时长、费人力问题,且调试结果有较强针对性,导致系统柔性能力不足。提出一种基于改进Q-learning算法的柔性上料系统,结合柔性上料系统自身特性对传统Q-learning算法的奖励函数和ε-贪婪策略进行改进,令柔性上料系统自学习寻找一组有较优料件振动效果的振动参数。由实验可得,所提算法能减少人工在柔性上料系统调试上的参与度,证明了该算法在柔性上料系统中的可行性和有效性,且与传统Q-learning算法相比较,改进Q-learning算法更符合柔性上料系统的实际应用。 展开更多
关键词 强化学习 q-learning算法 柔性上料系统
下载PDF
基于Q-Learning的无线区块链广播路由算法
20
作者 魏京生 司鹏搏 +1 位作者 李萌 张延华 《高技术通讯》 CAS 2023年第1期72-78,共7页
面向无线区块链网络场景,参考常用的区块链逻辑分层,提出一个独立灵活的分层逻辑架构,详细地介绍了每层的工作原理及作用。在现有广播路由算法的基础上结合无线区块链网络场景,针对广播过程中存在的广播冗余及广播总能耗高等缺陷,提出... 面向无线区块链网络场景,参考常用的区块链逻辑分层,提出一个独立灵活的分层逻辑架构,详细地介绍了每层的工作原理及作用。在现有广播路由算法的基础上结合无线区块链网络场景,针对广播过程中存在的广播冗余及广播总能耗高等缺陷,提出了一种基于Q-Learning的广播路由算法。该算法将无线区块链网络交易信息广播过程描述为多个agent的广播决策问题,通过线下学习、训练,帮助每一个当前广播节点agent做出是否广播的决策。仿真实验结果证明,该算法有效地解决了广播冗余问题,减少了广播过程的总能耗。 展开更多
关键词 无线区块链 q-learning 广播冗余 能耗
下载PDF
上一页 1 2 76 下一页 到第
使用帮助 返回顶部