期刊文献+
共找到904篇文章
< 1 2 46 >
每页显示 20 50 100
一种基于Q-learning强化学习的导向性处理器安全性模糊测试方案
1
作者 崔云凯 张伟 《北京信息科技大学学报(自然科学版)》 2024年第4期81-87,95,共8页
针对处理器安全性模糊测试在进行细粒度变异时遗传算法存在一定的盲目性,易使生成的测试用例触发相同类型漏洞的问题,提出了一种基于Q-learning强化学习的导向性处理器安全性模糊测试方案。通过测试用例的状态值和所触发的漏洞类型对应... 针对处理器安全性模糊测试在进行细粒度变异时遗传算法存在一定的盲目性,易使生成的测试用例触发相同类型漏洞的问题,提出了一种基于Q-learning强化学习的导向性处理器安全性模糊测试方案。通过测试用例的状态值和所触发的漏洞类型对应的权值构造奖励函数,使用强化学习指导生成具有针对性和导向性的测试用例,快速地触发不同类型的漏洞。在Hikey970平台上的实验验证了基于ARMv8的测试用例生成框架的有效性,并且相较于传统使用遗传算法作为反馈的策略,本文方案在相同时间内生成有效测试用例的的数量多19.15%,发现漏洞类型的数量多80.00%。 展开更多
关键词 处理器漏洞检测 模糊测试 q-learning强化学习 ARMv8 分支预测类漏洞
下载PDF
基于深度强化学习的空天地一体化网络资源分配算法
2
作者 刘雪芳 毛伟灏 杨清海 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2831-2841,共11页
空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深... 空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深度强化学习(DRL)资源分配算法。基于第3代合作伙伴计划(3GPP)标准中定义的用户参考信号接收功率(RSRP),考虑地面同频干扰情况,以不同域中基站的时频资源作为约束条件,构建了最大化系统用户的下行吞吐量优化问题。利用深度Q网络(DQN)算法求解该优化问题时,定义了能够综合考虑用户服务质量需求、系统自适应能力及系统鲁棒性的奖励函数。仿真结果表明,综合考虑无人驾驶汽车,沉浸式服务及普通移动终端通信业务需求时,表征系统性能的奖励函数值在2 000次迭代下,相较于贪婪算法提升了39.1%;对于无人驾驶汽车业务,利用DQN算法进行资源分配后,相比于贪婪算法,丢包数平均下降38.07%,时延下降了6.05%。 展开更多
关键词 空天地一体化网络 资源分配算法 深度强化学习 深度Q网络
下载PDF
基于改进Q-Learning的移动机器人路径规划算法
3
作者 王立勇 王弘轩 +2 位作者 苏清华 王绅同 张鹏博 《电子测量技术》 北大核心 2024年第9期85-92,共8页
随着移动机器人在生产生活中的深入应用,其路径规划能力也需要向快速性和环境适应性兼备发展。为解决现有移动机器人使用强化学习方法进行路径规划时存在的探索前期容易陷入局部最优、反复搜索同一区域,探索后期收敛率低、收敛速度慢的... 随着移动机器人在生产生活中的深入应用,其路径规划能力也需要向快速性和环境适应性兼备发展。为解决现有移动机器人使用强化学习方法进行路径规划时存在的探索前期容易陷入局部最优、反复搜索同一区域,探索后期收敛率低、收敛速度慢的问题,本研究提出一种改进的Q-Learning算法。该算法改进Q矩阵赋值方法,使迭代前期探索过程具有指向性,并降低碰撞的情况;改进Q矩阵迭代方法,使Q矩阵更新具有前瞻性,避免在一个小区域中反复探索;改进随机探索策略,在迭代前期全面利用环境信息,后期向目标点靠近。在不同栅格地图仿真验证结果表明,本文算法在Q-Learning算法的基础上,通过上述改进降低探索过程中的路径长度、减少抖动并提高收敛的速度,具有更高的计算效率。 展开更多
关键词 路径规划 强化学习 移动机器人 q-learning算法 ε-decreasing策略
下载PDF
基于强化学习的柴油机调速算法研究
4
作者 姚崇 董璕 +2 位作者 李瑞 龙云 宋恩哲 《内燃机工程》 CAS CSCD 北大核心 2024年第4期71-80,共10页
为了更好地调节柴油机转速,提出一种强化学习–比例积分微分(proportional integral derivative, PID)控制器,并应用到了柴油机转速控制中。基于连续动作空间的柔性动作–评价(soft actor-critic, SAC)算法,结合连续型PID控制器,设计了... 为了更好地调节柴油机转速,提出一种强化学习–比例积分微分(proportional integral derivative, PID)控制器,并应用到了柴油机转速控制中。基于连续动作空间的柔性动作–评价(soft actor-critic, SAC)算法,结合连续型PID控制器,设计了一种强化学习–PID控制器,可代替传统PID控制的转速环。优化设计了基于演员–评论家(actor-critic)框架的输入输出和奖励函数以匹配柴油机特性,采用随机动作增加寻优效率,形成SAC-PID控制柴油机转速的网络交互结构,达到快速调整转速,减小稳定时间的效果。构建了以柴油机D6114为原型机的MATLAB/Simulink平均值模型,并利用试验数据验证了仿真模型的有效性。利用平均值模型,仿真验证了该控制算法效果。经过仿真验证本算法使柴油机转速响应曲线超调量更小,响应时间更快,鲁棒性更强,SAC-PID控制负载瞬态调速率和稳定时间均已达到1级精度指标。仿真对比验证了SAC算法的联合控制效果,结果表明其较其他算法更佳。 展开更多
关键词 柴油机调速 比例积分微分控制器 强化学习算法 非线性复杂系统
下载PDF
基于强化学习的离散层级萤火虫算法检测蛋白质复合物
5
作者 张其文 郭欣欣 《计算机应用研究》 CSCD 北大核心 2024年第7期1977-1982,共6页
蛋白质复合物的检测有助于从分子水平上理解生命的活动过程。针对群智能算法检测蛋白质复合物时假阳/阴性率高、准确率低、种群多样性下降等问题,提出了基于强化学习的离散层级萤火虫算法检测蛋白质复合物(reinforcement learning-based... 蛋白质复合物的检测有助于从分子水平上理解生命的活动过程。针对群智能算法检测蛋白质复合物时假阳/阴性率高、准确率低、种群多样性下降等问题,提出了基于强化学习的离散层级萤火虫算法检测蛋白质复合物(reinforcement learning-based discrete level firefly algorithm for detecting protein complexes,RLDLFA-DPC)。引入强化学习思想提出一种自适应层级划分策略,动态调整层级结构,能有效解决迭代后期种群多样性下降的问题。在层级学习策略中个体向两个优秀层级学习,避免算法陷入局部最优。为了提高蛋白质复合物检测的精度,结合个体环境信息提出自适应搜索半径的局部搜索策略。最后,在酵母蛋白质的4个数据集上,与8种经典的蛋白质复合物检测方法进行对比,验证了该方法的有效性。 展开更多
关键词 蛋白质复合物 萤火虫算法 强化学习 层级学习策略 局部搜索策略
下载PDF
基于深度强化学习的高铁客票动态定价算法
6
作者 毕文杰 陈功 《计算机应用与软件》 北大核心 2024年第4期228-235,261,共9页
为了解决需求函数未知情况下的高铁客票动态定价问题。以最大化单列车期望收益为目标构建Markov多阶段决策模型并设计DQN(Deep Q Net)强化学习框架寻找动态定价最优策略。算法以当日收益为奖励,通过神经网络来逼近所有状态-动作组合的... 为了解决需求函数未知情况下的高铁客票动态定价问题。以最大化单列车期望收益为目标构建Markov多阶段决策模型并设计DQN(Deep Q Net)强化学习框架寻找动态定价最优策略。算法以当日收益为奖励,通过神经网络来逼近所有状态-动作组合的期望最优收益。为验证算法性能,基于市场动态和旅客行为,开发高铁客运需求模拟系统并进行仿真实验。实验结果表明,智能体动态定价策略可以在不同需求水平下灵活调整价格,其性能接近理论上界并且显著优于对比策略。 展开更多
关键词 收益管理 高铁客票定价 动态定价 动态规划 强化学习 环境模拟算法
下载PDF
基于路径模仿和SAC强化学习的机械臂路径规划算法 被引量:1
7
作者 宋紫阳 李军怀 +2 位作者 王怀军 苏鑫 于蕾 《计算机应用》 CSCD 北大核心 2024年第2期439-444,共6页
在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径... 在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径规划算法。通过将示教路径融入奖励函数使机械臂在强化学习过程中对示教路径进行模仿以提高学习效率,并采用SAC算法使机械臂路径规划算法的训练更快、稳定性更好。基于所提算法和深度确定性策略梯度(DDPG)算法分别规划10条路径,所提算法和DDPG算法规划的路径与参考路径的平均距离分别是0.8 cm和1.9 cm。实验结果表明,路径模仿机制能提高训练效率,所提算法比DDPG算法能更好地探索环境,使得规划路径更加合理。 展开更多
关键词 模仿学习 强化学习 SAC算法 路径规划 奖励函数
下载PDF
改进麻雀算法和Q-Learning优化集成学习轨道电路故障诊断 被引量:3
8
作者 徐凯 郑浩 +1 位作者 涂永超 吴仕勋 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2023年第11期4426-4437,共12页
无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻... 无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻雀算法和Q-Learning优化集成学习的轨道电路故障诊断新方法,该方法有机地将集成学习与计算智能和强化学习相结合,充分挖掘轨道电路故障特征,提高性能评价指标。首先,使用卷积神经网络、长短期记忆网络和多层感知器深度学习模型,以及支持向量机和随机森林传统机器学习模型,共同构成集成学习基学习器,解决单一学习模型的不足,不同基学习器的使用保证集成学习的多样性。从自动化机器学习角度出发,采用改进麻雀算法优化该集成学习模型的结构和参数,克服其结构和参数难以确定的问题。在此之上,引入强化学习Q-learning对集成模型中各基学习器组合权重进行优化,智能地确定集成学习各基学习器的组合权重。最后,将集成学习模型的预测结果与真实结果比较后得到误差,再采用BP神经网络对预测结果进行补偿修正,进一步提高轨道电路的故障诊断性能评价指标。仿真结果表明,利用所提方法进一步改善了轨道电路故障诊断的准确度、精确度、召回率和F1值等性能评价指标。 展开更多
关键词 无绝缘轨道电路 故障诊断 集成学习 改进麻雀算法 q-learning 误差修正
下载PDF
基于分区搜索和强化学习的多模态多目标头脑风暴优化算法 被引量:1
9
作者 李鑫 余墨多 +1 位作者 姜庆超 范勤勤 《计算机应用研究》 CSCD 北大核心 2024年第8期2374-2383,共10页
维持种群多样性和提高算法搜索效率是多模态多目标优化亟需解决的两大问题。为解决以上问题,提出了一种基于分区搜索和强化学习的多模态多目标头脑风暴优化算法(MMBSO-ZSRL)。在MMBSO-ZSRL中,首先将决策空间分解为多个子空间以降低搜索... 维持种群多样性和提高算法搜索效率是多模态多目标优化亟需解决的两大问题。为解决以上问题,提出了一种基于分区搜索和强化学习的多模态多目标头脑风暴优化算法(MMBSO-ZSRL)。在MMBSO-ZSRL中,首先将决策空间分解为多个子空间以降低搜索难度和维持种群多样性;然后,使用SARSA(state-action-reward-state-action)算法来平衡头脑风暴算法的全局探索和局部开发能力;并使用特殊拥挤距离来挑选个体来指导种群进化。为了验证所提算法的性能,选取六种先进的多模态多目标优化算法来进行比较,并选取IEEE CEC2019多模态多目标问题基准测试集来对所有比较算法的性能进行测试。实验结果表明,MMBSO-ZSRL的整体性能要显著优于其他六种比较算法。MMBSO-ZSRL不仅可以找到多样性和逼近性更好的帕累托前沿,而且可以在决策空间找到更多的帕累托最优解。 展开更多
关键词 多模态多目标优化 头脑风暴优化算法 强化学习 SARSA算法 分区搜索
下载PDF
基于softmax的加权Double Q-Learning算法
10
作者 钟雨昂 袁伟伟 关东海 《计算机科学》 CSCD 北大核心 2024年第S01期46-50,共5页
强化学习作为机器学习的一个分支,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化的问题。Q-Learning作为无模型强化学习的经典方法,存在过估计引起的最大化偏差问题,并且在环境中奖励存在噪声时表现不佳。Dou... 强化学习作为机器学习的一个分支,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化的问题。Q-Learning作为无模型强化学习的经典方法,存在过估计引起的最大化偏差问题,并且在环境中奖励存在噪声时表现不佳。Double Q-Learning(DQL)的出现解决了过估计问题,但同时造成了低估问题。为解决以上算法的高低估问题,提出了基于softmax的加权Q-Learning算法,并将其与DQL相结合,提出了一种新的基于softmax的加权Double Q-Learning算法(WDQL-Softmax)。该算法基于加权双估计器的构造,对样本期望值进行softmax操作得到权重,使用权重估计动作价值,有效平衡对动作价值的高估和低估问题,使估计值更加接近理论值。实验结果表明,在离散动作空间中,相比于Q-Learning算法、DQL算法和WDQL算法,WDQL-Softmax算法的收敛速度更快且估计值与理论值的误差更小。 展开更多
关键词 强化学习 q-learning Double q-learning Softmax
下载PDF
基于深度强化学习算法的储能系统盈利策略研究
11
作者 杨国山 董鹏旭 +3 位作者 姚苏航 王永利 宋汶秦 周东 《电力需求侧管理》 2024年第2期20-26,共7页
在高比例新能源接入下,配置储能可以辅助电力系统削峰填谷,平抑波动。然而目前储能系统成本较高,需要政府进行支持。为此,提出了一种储能盈利策略,以在电网、储能运营商和用户组成的电力市场中实现运营利润最大化。结合智能算法提出了... 在高比例新能源接入下,配置储能可以辅助电力系统削峰填谷,平抑波动。然而目前储能系统成本较高,需要政府进行支持。为此,提出了一种储能盈利策略,以在电网、储能运营商和用户组成的电力市场中实现运营利润最大化。结合智能算法提出了一种考虑激励的盈利策略,为每个峰值时段的储能系统运营商提供不同权重的奖励分配。该算法一方面基于最小二乘支持向量机的深度学习,来建立价格和负荷预测模型;另一方面基于深度强化学习,考虑电网的峰值状态、用户负荷需求和储能系统运营商利润,确定最优充放电策略。最后通过案例分析,验证该策略可以显著提高储能系统运营商利润并减轻电网压力。 展开更多
关键词 储能系统 盈利策略 支持向量机 深度强化学习算法
下载PDF
基于强化学习的聚类算法
12
作者 李佳辉 徐应涛 张莹 《计算机科学与应用》 2024年第7期114-120,共7页
创新性地将强化学习技术引入聚类算法中,旨在解决传统聚类方法面临的两大难题:初始聚类中心选择的不确定性以及计算过程中欧氏距离划分样本导致的高时间复杂度。通过引入强化学习的奖惩机制,设计了一种基于“代理”Agent的行为选择策略... 创新性地将强化学习技术引入聚类算法中,旨在解决传统聚类方法面临的两大难题:初始聚类中心选择的不确定性以及计算过程中欧氏距离划分样本导致的高时间复杂度。通过引入强化学习的奖惩机制,设计了一种基于“代理”Agent的行为选择策略,有效替代了传统的欧氏距离计算过程,从而消除了初始聚类中心对算法稳定性的潜在影响,并大幅提升了算法的收敛速度。提出了一种全新的基于强化学习的聚类算法,不仅在数学上严谨证明了其收敛性,而且在实际应用中展现了显著优势。通过数值实验验证,该算法在聚类准确率上较传统方法有明显提升,同时在算法性能上也表现出更加优越的特点,这一研究对于提升数据处理效率和准确性具有重要意义。 展开更多
关键词 聚类算法 强化学习 贪婪策略 奖惩机制 强化信号 RLC算法
下载PDF
基于强化学习的多技能项目调度算法
13
作者 胡振涛 崔南方 +1 位作者 胡雪君 雷晓琪 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第3期502-511,共10页
多技能项目调度存在组合爆炸的现象,其问题复杂度远超传统的单技能项目调度,启发式算法和元启发式算法在求解多技能项目调度问题时也各有缺陷.为此,根据项目调度的特点和强化学习的算法逻辑,本文设计了基于强化学习的多技能项目调度算法... 多技能项目调度存在组合爆炸的现象,其问题复杂度远超传统的单技能项目调度,启发式算法和元启发式算法在求解多技能项目调度问题时也各有缺陷.为此,根据项目调度的特点和强化学习的算法逻辑,本文设计了基于强化学习的多技能项目调度算法.首先,将多技能项目调度过程建模为符合马尔科夫性质的序贯决策过程,并依据决策过程设计了双智能体机制.而后,通过状态整合和行动分解,降低了价值函数的学习难度.最后,为进一步提高算法性能,针对资源的多技能特性,设计了技能归并法,显著降低了资源分配算法的时间复杂度.与启发式算法的对比实验显示,本文所设计的强化学习算法求解性能更高,与元启发式算法的对比实验表明,该算法稳定性更强,且求解速度更快. 展开更多
关键词 多技能资源 项目调度 智能算法 强化学习 并行调度
下载PDF
基于强化学习的网络拥塞控制算法 被引量:2
14
作者 李凡 李慧斯 马文丹 《科技创新与应用》 2024年第10期55-58,共4页
该文结合强化学习方法提出一种QLCC算法,此算法是将网络拥塞过程进行简化之后描述为马尔科夫决策过程,在Q-learning算法应用的基础上创新设计的新型网络拥塞控制算法。研究过程中首先介绍强化学习方法,并对网络拥塞过程中马尔科夫决策... 该文结合强化学习方法提出一种QLCC算法,此算法是将网络拥塞过程进行简化之后描述为马尔科夫决策过程,在Q-learning算法应用的基础上创新设计的新型网络拥塞控制算法。研究过程中首先介绍强化学习方法,并对网络拥塞过程中马尔科夫决策过程的构建条件及假设进行探讨,之后从框架结构、参数结构及定义、参数离散划分和更新步骤几个方面介绍QLCC算法,并采取仿真实验方法对该种新算法的网络吞吐量、公平性、随机丢包环境下的吞吐量分别进行检测,通过与其他3种传统网络拥塞控制算法进行对比分析,证实QLCC算法具有吞吐量较佳、公平性最高、抗丢包性能最优的性能,说明其是一种具有较高应用优势的智能化网络拥塞控制算法。 展开更多
关键词 强化学习 QLCC算法 网络拥塞控制 学习方法 仿真实验
下载PDF
稳定且受限的新强化学习SAC算法
15
作者 海日 张兴亮 +1 位作者 姜源 杨永健 《吉林大学学报(信息科学版)》 CAS 2024年第2期318-325,共8页
为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固... 为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固定温度SAC算法中的Q函数高估问题,同时增强算法在测试过程中稳定性的效果。最后,在4个OpenAI Gym Mujoco环境下对SCSAC算法进行了验证,实验结果表明,稳定且受限的SAC算法相比固定温度SAC算法可以有效减小Q函数高估出现的次数并能在测试中获得更加稳定的结果。 展开更多
关键词 强化学习 最大熵强化学习 Q值高估 SAC算法
下载PDF
利用强化学习的改进遗传算法求解柔性作业车间调度问题
16
作者 陈祉烨 胡毅 +2 位作者 刘俊 王军 张曦阳 《科学技术与工程》 北大核心 2024年第25期10848-10856,共9页
针对传统遗传算法在解决柔性作业车间调度问题时易陷入局部最优解、参数不能智能调整、局部搜索能力差的问题,建立以最大完工时间最小为目标的柔性作业车间调度模型,并提出一种基于强化学习的改进遗传算法(reinforcement learning impro... 针对传统遗传算法在解决柔性作业车间调度问题时易陷入局部最优解、参数不能智能调整、局部搜索能力差的问题,建立以最大完工时间最小为目标的柔性作业车间调度模型,并提出一种基于强化学习的改进遗传算法(reinforcement learning improved genetic algorithm,RLIGA)求解该模型。首先,在遗传算法迭代过程中,利用强化学习动态调整关键参数。其次,引入基于工序编码距离的离散莱维飞行机制,改进求解空间。最后,引入变邻域搜索机制,提升算法的局部开发能力。使用PyCharm运行Brandimarte算例,验证算法的求解性能,实验证明所提算法求解效率较高,跳出局部最优能力更强,求解结果更好。 展开更多
关键词 强化学习 遗传算法 离散莱维飞行 工序编码距离 变邻域搜索
下载PDF
基于高斯混合模型的分布式强化学习算法鲁棒性优化
17
作者 毕霄昀 鲁广东 蔡霞 《软件工程》 2024年第11期75-78,共4页
当前,分布式强化学习假设所有智能体均能正常工作,但在实际情况中可能存在异常智能体。为此,提出了一种基于高斯混合模型的聚类方法,用于优化分布式强化学习算法。首先,计算智能体上传梯度对应的高斯分布概率。其次,根据高斯分布更新聚... 当前,分布式强化学习假设所有智能体均能正常工作,但在实际情况中可能存在异常智能体。为此,提出了一种基于高斯混合模型的聚类方法,用于优化分布式强化学习算法。首先,计算智能体上传梯度对应的高斯分布概率。其次,根据高斯分布更新聚类模型参数,并重复执行上述步骤直至收敛。最后,根据聚类模型筛选异常梯度。实验结果表明,该方法能在存在异常智能体的场景下,有效维持分布式强化学习的训练效果,提高算法的鲁棒性。 展开更多
关键词 聚类算法 分布式强化学习 鲁棒性
下载PDF
基于深度强化学习算法的火力-目标分配方法
18
作者 李伟光 陈栋 《指挥控制与仿真》 2024年第3期62-69,共8页
针对火力-目标分配问题解空间较大、离散、非线性等特点,提出了一种基于DQN的深度强化学习算法,通过将6层全连接前馈神经网络与Q-learning算法相结合,充分发挥了深度学习的感知能力和强化学习的决策能力,通过模型性能测试对比,该方法拟... 针对火力-目标分配问题解空间较大、离散、非线性等特点,提出了一种基于DQN的深度强化学习算法,通过将6层全连接前馈神经网络与Q-learning算法相结合,充分发挥了深度学习的感知能力和强化学习的决策能力,通过模型性能测试对比,该方法拟合能力较强、收敛速度较快、方差抖动性较小,并通过实际作战场景对算法进行了验证,所得的分配结果符合作战期望,可为指挥员火力打击分配问题决策提供一定参考。 展开更多
关键词 火力-目标分配 深度强化学习 q-learning算法 DQN算法
下载PDF
基于改进Q-learning算法的移动机器人路径规划
19
作者 井征淼 刘宏杰 周永录 《火力与指挥控制》 CSCD 北大核心 2024年第3期135-141,共7页
针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖... 针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖励值,以及对比斥力函数计算姿值,动态更新Q值,使移动机器人具有目的性的探索,并且优先选择离障碍物较远的位置移动。通过仿真实验证明,与传统Q-learning算法、引入引力场算法对比,改进Q-learning算法加快了收敛速度,缩短了运行时间,提高了学习效率,降低了与障碍物相撞的概率,使移动机器人能够快速地找到一条无碰撞通路。 展开更多
关键词 移动机器人 路径规划 改进的q-learning 人工势场法 强化学习
下载PDF
基于强化学习知识获取共享算法的太阳电池模型参数辨识
20
作者 熊国江 辜再宇 《太阳能学报》 EI CAS CSCD 北大核心 2024年第9期334-344,共11页
为准确辨识太阳电池模型参数,提出一种基于强化学习的知识获取共享算法(RLGSK)。针对知识获取共享算法(GSK)初级阶段和高级阶段的选择机制过于死板,处理太阳电池模型参数辨识问题时难以充分平衡全局与局部搜索,存在收敛慢、精度低等问题... 为准确辨识太阳电池模型参数,提出一种基于强化学习的知识获取共享算法(RLGSK)。针对知识获取共享算法(GSK)初级阶段和高级阶段的选择机制过于死板,处理太阳电池模型参数辨识问题时难以充分平衡全局与局部搜索,存在收敛慢、精度低等问题,一方面,通过强化学习调整迭代时初级和高级阶段的个体比例,实现不同情景下知识获取与共享的灵活调整;另一方面,依靠性能导向的种群规模缩减实现计算资源的高效利用,提高算法性能。将RLGSK应用于5种案例,并与其他算法进行比较。结果表明,与GSK相比,RLGSK的搜索精度、稳定度和收敛速度提升极大,与其他算法相比也有很强的竞争力。 展开更多
关键词 参数辨识 太阳电池 光伏组件 强化学习 知识获取共享算法
下载PDF
上一页 1 2 46 下一页 到第
使用帮助 返回顶部