期刊文献+
共找到369篇文章
< 1 2 19 >
每页显示 20 50 100
基于深度强化学习的空天地一体化网络资源分配算法
1
作者 刘雪芳 毛伟灏 杨清海 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2831-2841,共11页
空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深... 空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深度强化学习(DRL)资源分配算法。基于第3代合作伙伴计划(3GPP)标准中定义的用户参考信号接收功率(RSRP),考虑地面同频干扰情况,以不同域中基站的时频资源作为约束条件,构建了最大化系统用户的下行吞吐量优化问题。利用深度Q网络(DQN)算法求解该优化问题时,定义了能够综合考虑用户服务质量需求、系统自适应能力及系统鲁棒性的奖励函数。仿真结果表明,综合考虑无人驾驶汽车,沉浸式服务及普通移动终端通信业务需求时,表征系统性能的奖励函数值在2 000次迭代下,相较于贪婪算法提升了39.1%;对于无人驾驶汽车业务,利用DQN算法进行资源分配后,相比于贪婪算法,丢包数平均下降38.07%,时延下降了6.05%。 展开更多
关键词 空天地一体化网络 资源分配算法 深度强化学习 深度Q网络
下载PDF
基于深度强化学习算法的储能系统盈利策略研究
2
作者 杨国山 董鹏旭 +3 位作者 姚苏航 王永利 宋汶秦 周东 《电力需求侧管理》 2024年第2期20-26,共7页
在高比例新能源接入下,配置储能可以辅助电力系统削峰填谷,平抑波动。然而目前储能系统成本较高,需要政府进行支持。为此,提出了一种储能盈利策略,以在电网、储能运营商和用户组成的电力市场中实现运营利润最大化。结合智能算法提出了... 在高比例新能源接入下,配置储能可以辅助电力系统削峰填谷,平抑波动。然而目前储能系统成本较高,需要政府进行支持。为此,提出了一种储能盈利策略,以在电网、储能运营商和用户组成的电力市场中实现运营利润最大化。结合智能算法提出了一种考虑激励的盈利策略,为每个峰值时段的储能系统运营商提供不同权重的奖励分配。该算法一方面基于最小二乘支持向量机的深度学习,来建立价格和负荷预测模型;另一方面基于深度强化学习,考虑电网的峰值状态、用户负荷需求和储能系统运营商利润,确定最优充放电策略。最后通过案例分析,验证该策略可以显著提高储能系统运营商利润并减轻电网压力。 展开更多
关键词 储能系统 盈利策略 支持向量机 深度强化学习算法
下载PDF
基于DQN的多智能体深度强化学习运动规划方法 被引量:1
3
作者 史殿习 彭滢璇 +3 位作者 杨焕焕 欧阳倩滢 张玉晖 郝锋 《计算机科学》 CSCD 北大核心 2024年第2期268-277,共10页
DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对... DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对这些问题,提出了一种基于DQN的多智能体深度强化学习运动规划方法,该方法可以帮助智能体学习到高效稳定的运动规划策略,无碰撞地到达目标点。首先,在DQN方法的基础上,提出了基于Dueling的Q值计算优化机制,将Q值的计算方式改进为计算状态值和优势函数值,并根据当前正在更新的Q值网络的参数选择最优动作,使得Q值的计算更加简单准确;其次,提出了基于GRU的记忆机制,引入了GRU模块,使得网络可以捕捉时序信息,具有处理智能体历史信息的能力;最后,提出了基于噪声的有效探索机制,通过引入参数化的噪声,改变了DQN中的探索方式,提高了智能体的探索效率,使得多智能体系统达到探索-利用的平衡状态。在PyBullet仿真平台的6种不同的仿真场景中进行了测试,实验结果表明,所提方法可以使多智能体团队进行高效协作,无碰撞地到达各自目标点,且策略训练过程稳定。 展开更多
关键词 多智能体系统 运动规划 深度强化学习 dqn方法
下载PDF
基于深度强化学习算法的火力-目标分配方法
4
作者 李伟光 陈栋 《指挥控制与仿真》 2024年第3期62-69,共8页
针对火力-目标分配问题解空间较大、离散、非线性等特点,提出了一种基于DQN的深度强化学习算法,通过将6层全连接前馈神经网络与Q-learning算法相结合,充分发挥了深度学习的感知能力和强化学习的决策能力,通过模型性能测试对比,该方法拟... 针对火力-目标分配问题解空间较大、离散、非线性等特点,提出了一种基于DQN的深度强化学习算法,通过将6层全连接前馈神经网络与Q-learning算法相结合,充分发挥了深度学习的感知能力和强化学习的决策能力,通过模型性能测试对比,该方法拟合能力较强、收敛速度较快、方差抖动性较小,并通过实际作战场景对算法进行了验证,所得的分配结果符合作战期望,可为指挥员火力打击分配问题决策提供一定参考。 展开更多
关键词 火力-目标分配 深度强化学习 Q-learning算法 dqn算法
下载PDF
基于深度强化学习算法的弹性供应链调度优化方法 被引量:1
5
作者 张进军 《信息技术与信息化》 2024年第4期89-92,共4页
由于参与供应链的客户需求和供应者配置的多元性,导致供应链的配送成本难以得到有效控制,主要是因为在模型求解过程中,受困于参数本身的矛盾性,求解过程很容易陷入局部最优。为此,提出基于深度强化学习算法的弹性供应链调度优化方法研... 由于参与供应链的客户需求和供应者配置的多元性,导致供应链的配送成本难以得到有效控制,主要是因为在模型求解过程中,受困于参数本身的矛盾性,求解过程很容易陷入局部最优。为此,提出基于深度强化学习算法的弹性供应链调度优化方法研究。分别从供应者配置角度和客户需求角度构建了供应链模型,以供应链配送成本最小化为目标函数,应用深度强化学习算法中的深度Q网络(deepQ-network,DQN)算法进行训练,同步进行弹性供应链优化调度。DQN能够有效地处理这种高维状态空间,通过深度神经网络学习状态与动作之间的映射关系,自动提取关键特征,从而简化问题的复杂性。将收敛输出结果期望误差,输入供应链模型进行迭代计算,输出优化调度结果。测试结果表明,设计的方法可以实现对配送成本的有效控制。 展开更多
关键词 深度强化学习算法 弹性供应链调度 供应者配置 客户需求 供应链模型 配送成本最小化 DeepQ-Network 误差收敛
下载PDF
融合经验知识与深度强化学习的久棋Alpha-Beta算法优化研究
6
作者 张小川 杨小漫 +3 位作者 涂飞 王鑫 严明珠 梁渝卓 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第5期115-120,共6页
藏族久棋作为一种传统的棋类博弈游戏,具备高度复杂的规则体系以及变幻莫测的棋局演变。传统的博弈策略在面对不同对手和棋局时不稳定,性能差,需要新的方法提高藏族久棋AI的博弈水平。以藏族久棋为研究对象,针对布局阶段,改进传统Alpha-... 藏族久棋作为一种传统的棋类博弈游戏,具备高度复杂的规则体系以及变幻莫测的棋局演变。传统的博弈策略在面对不同对手和棋局时不稳定,性能差,需要新的方法提高藏族久棋AI的博弈水平。以藏族久棋为研究对象,针对布局阶段,改进传统Alpha-Beta剪枝搜索算法,并结合经验知识,融入深度强化学习算法完成棋盘布局合理性的落子选择,以此为后续阶段铺路。在行棋阶段与飞子阶段,结合经验知识使用Alpha-Beta算法,完成行棋路径。最后,将所提算法和策略集成于久棋AI程序,在中国计算机博弈锦标赛中取得了良好的成绩,验证了该方法的有效性。 展开更多
关键词 藏族久棋 经验知识 Alpha-Beta算法 深度强化学习 计算机博弈
下载PDF
基于深度强化学习的分层自适应PID控制算法
7
作者 余文浩 齐立哲 +1 位作者 梁瀚文 孙云权 《计算机系统应用》 2024年第9期245-252,共8页
比例积分微分(PID)控制在工业控制和机器人控制领域应用非常广泛.然而,其在实际应用中存在参数整定复杂、系统无法精准建模以及对被控对象变化敏感的问题.为了解决这些问题,本文提出了一种基于深度强化学习算法的分层自适应PID控制算法,... 比例积分微分(PID)控制在工业控制和机器人控制领域应用非常广泛.然而,其在实际应用中存在参数整定复杂、系统无法精准建模以及对被控对象变化敏感的问题.为了解决这些问题,本文提出了一种基于深度强化学习算法的分层自适应PID控制算法,即TD3-PID,用于移动机器人的自动控制.其中,上层控制器通过实时观测当前环境状态和系统状态实现对下层PID控制器参数和输出补偿量进行调整,以实时补偿误差从而优化系统性能.本文将所提出的TD3-PID控制器应用于4轮移动机器人轨迹跟踪任务并和其他控制方法进行了真实场景实验对比.结果显示TD3-PID控制器表现出更优越的动态响应性能和抗干扰能力,整体响应误差显著减小,在提高控制系统性能方面具有显著的优势. 展开更多
关键词 深度强化学习 PID算法 自适应控制 确定性策略梯度算法 轨迹跟踪
下载PDF
基于深度强化学习算法的全视角人脸纹理图像生成方法
8
作者 吕周澍 《湖南邮电职业技术学院学报》 2024年第2期34-38,共5页
由于人脸的面部特征复杂且纹理结构多样,传统方法往往受到完整性、纹理真实性、清晰度以及鲁棒性等方面的局限。因此,本研究提出基于深度强化学习算法的全视角人脸纹理图像生成方法。首先,对全视角人脸面部区域进行细致划分,建立坐标系... 由于人脸的面部特征复杂且纹理结构多样,传统方法往往受到完整性、纹理真实性、清晰度以及鲁棒性等方面的局限。因此,本研究提出基于深度强化学习算法的全视角人脸纹理图像生成方法。首先,对全视角人脸面部区域进行细致划分,建立坐标系以精确提取各区域的关键纹理结构特征点。随后,将这些特征点输入深度强化学习模型中,通过算法优化整合成一套全面的全视角特征点集合。利用马尔科夫权重场进一步处理特征点,通过计算联合概率,并结合重叠区域约束条件,生成了细节丰富、纹理清晰的全视角人脸纹理图像。实验结果表明,所提出方法生成的图像具有较高的峰值信噪比和较高的纹理清晰度,且鲁棒性较好,有效满足了高质量人脸纹理图像生成的需求。 展开更多
关键词 人脸图像生成 人脸纹理图像 深度强化学习算法 图像生成
下载PDF
基于深度强化学习的交通标识检测算法优化与实践研究
9
作者 胡涛 申邵林 《佳木斯大学学报(自然科学版)》 CAS 2024年第3期141-144,180,共5页
交通标识是道路交通系统的重要组成部分,在实际应用中,交通标识主要存在于室外,极易受到光照、雨雾等因素的影响,导致图像采集质量参差不齐。同时,由于拍摄角度、距离、对焦等因素的影响,获取的图像不够高清,这对交通标识的检测带来巨... 交通标识是道路交通系统的重要组成部分,在实际应用中,交通标识主要存在于室外,极易受到光照、雨雾等因素的影响,导致图像采集质量参差不齐。同时,由于拍摄角度、距离、对焦等因素的影响,获取的图像不够高清,这对交通标识的检测带来巨大挑战。为了解决交通标识检测问题,在深度强化学习基础上,结合当下经典目标检测算法进行深入分析,以YOLOv5,YOLOv5-Tiny作为基础网络模型,经过算法改进与优化,结果表明交通标识检测精度得到较大的提升,可以在复杂的环境条件下精准地对交通标识进行检测,并且检测具有较强的实时性以及较高的实用价值,符合交通标识检测对算法精度的要求。 展开更多
关键词 深度强化学习 交通标识检测 算法
下载PDF
基于深度强化学习和遗传算法的最后一公里路径优化问题研究
10
作者 吕翊程 邵雪焱 《科技促进发展》 2024年第4期346-355,共10页
最后一公里路径优化是提高物流企业配送效率的关键问题。本研究将深度强化学习中求解组合优化的方法(Learning to Optimize,L2O)与遗传算法相结合,提出一种混合算法,以求解最后一公里路径优化问题。在L2O模块中,扩展了已有框架,引入时... 最后一公里路径优化是提高物流企业配送效率的关键问题。本研究将深度强化学习中求解组合优化的方法(Learning to Optimize,L2O)与遗传算法相结合,提出一种混合算法,以求解最后一公里路径优化问题。在L2O模块中,扩展了已有框架,引入时间和剩余容量编码器,有效反映了问题的时间和容量约束。同时,遗传算法模块采用重启策略和采样概率调控,更充分地利用了L2O的网络信息。基于亚马逊实际业务数据构建测试集,计算结果表明,在同样的求解时间内,该算法优于Gurobi求解器和扩展的指针网络算法。 展开更多
关键词 深度强化学习 遗传算法 最后一公里 路径优化
下载PDF
基于深度强化学习算法的汽车发动机智能控制研究
11
作者 陈孝威 《汽车测试报告》 2024年第8期32-34,共3页
现有的汽车发动机控制方法低压涡轮转速为3000 r/min,发动机压比值与期望值存在出入。该文设计汽车发动机智能控制器,通过校正的方式来降低动态不确定性对控制器的影响,更新发动机转速。定义奖励函数,针对使燃气轮机转速趋向稳定的动作... 现有的汽车发动机控制方法低压涡轮转速为3000 r/min,发动机压比值与期望值存在出入。该文设计汽车发动机智能控制器,通过校正的方式来降低动态不确定性对控制器的影响,更新发动机转速。定义奖励函数,针对使燃气轮机转速趋向稳定的动作添加大量奖励值,针对影响转速偏离目标值的动作添加少量奖励值,建立控制发动机的动作空间,并设计回报函数,调节网络参数,从而实现控制。试验结果表明,提出的控制方法低压涡轮转速为3400r/min,提高了发动机的性能,并且发动机压比值稳定在1.8,与预期结果一致,未出现明显的超调现象,显示出控制方法的稳定性。 展开更多
关键词 深度强化学习算法 汽车发动机 智能控制
下载PDF
基于深度强化学习的工业网络入侵检测研究 被引量:2
12
作者 刘胜全 刘博 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第1期80-86,共7页
为了有效识别工业网络环境中由多条异常数据共同组合的新型攻击,提出了一种基于深度强化学习的融合模型DQN-LSTM.该模型将流量数据的空间特征和时序特征相结合,展开异常检测.在公开的工控网络天然气工厂数据集上进行实验,DQN-LSTM模型... 为了有效识别工业网络环境中由多条异常数据共同组合的新型攻击,提出了一种基于深度强化学习的融合模型DQN-LSTM.该模型将流量数据的空间特征和时序特征相结合,展开异常检测.在公开的工控网络天然气工厂数据集上进行实验,DQN-LSTM模型在准确率和F1值上与SVM、CNN、LSTM、DQN等方法相比,本文模型的综合性能更好. 展开更多
关键词 工业控制系统 流量异常检测 深度强化学习 dqn LSTM
下载PDF
基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法 被引量:1
13
作者 张帆 邵光耀 +1 位作者 李昱翰 李玉雪 《工矿自动化》 CSCD 北大核心 2024年第6期23-29,45,共8页
受深部开采冲击地压等地质灾害扰动的影响,存在矿井超前支护系统自感知能力差、智能抗冲自适应能力弱、缺乏决策控制能力等问题。针对上述问题,提出了一种基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法。通过多源传... 受深部开采冲击地压等地质灾害扰动的影响,存在矿井超前支护系统自感知能力差、智能抗冲自适应能力弱、缺乏决策控制能力等问题。针对上述问题,提出了一种基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法。通过多源传感器感知巷道环境和超前液压支架支护状态,在虚拟世界中创建物理实体的数字孪生模型,其中物理模型精确展现超前液压支架的结构特征和细节,控制模型实现超前液压支架的自适应控制,机理模型实现对超前液压支架自适应支护的逻辑描述和机理解释,数据模型存储超前液压支架实体运行数据和孪生数据,仿真模型完成超前液压支架立柱仿真以实现超前液压支架与数字孪生模型虚实交互。根据基于深度Q网络(DQN)的超前液压支架自适应抗冲决策算法,对仿真环境中巷道抗冲支护进行智能决策,并依据决策结果对物理实体和数字孪生模型下达调控指令,实现超前液压支架智能控制。实验结果表明:立柱位移与压力变化一致,说明超前液压支架立柱仿真模型设计合理,从而验证了数字孪生模型的准确性;基于DQN的矿井超前液压支架自适应抗冲决策算法可通过调节液压支架控制器PID参数,自适应调控立柱压力,提升巷道安全等级,实现超前液压支架自适应抗冲支护。 展开更多
关键词 矿井智能抗冲 超前液压支架 自适应支护 数字孪生 深度强化学习 深度Q网络 dqn
下载PDF
基于深度强化学习和隐私保护的群智感知动态任务分配策略
14
作者 傅彦铭 陆盛林 +1 位作者 陈嘉元 覃华 《信息网络安全》 CSCD 北大核心 2024年第3期449-461,共13页
在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果... 在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果的影响,同时忽视了工人位置隐私的保护问题。针对这些不足,文章提出一种基于深度强化学习和隐私保护的群智感知动态任务分配策略。该策略首先通过差分隐私技术为工人位置添加噪声,保护工人隐私;然后利用深度强化学习方法自适应地调整任务批量分配;最后使用基于工人任务执行能力阈值的贪婪算法计算最优策略下的平台总效用。在真实数据集上的实验结果表明,该策略在不同参数设置下均能保持优越的性能,同时有效地保护了工人的位置隐私。 展开更多
关键词 群智感知 深度强化学习 隐私保护 深度Q网络 能力阈值贪婪算法
下载PDF
基于深度强化学习的园区综合能源系统低碳经济调度
15
作者 杨挺 刘豪 +3 位作者 王静 党兆帅 耿毅男 盆海波 《电网技术》 EI CSCD 北大核心 2024年第9期3604-3613,I0022,I0023,共12页
为降低园区综合能源系统的运行成本和碳排放量,同时应对系统不确定性带来的随机波动,提出一种考虑阶梯式碳交易的园区综合能源系统低碳经济调度模型,并采用深度强化学习方法求解。首先构建园区阶梯式碳交易模型,将碳交易成本考虑在内对... 为降低园区综合能源系统的运行成本和碳排放量,同时应对系统不确定性带来的随机波动,提出一种考虑阶梯式碳交易的园区综合能源系统低碳经济调度模型,并采用深度强化学习方法求解。首先构建园区阶梯式碳交易模型,将碳交易成本考虑在内对园区综合能源系统低碳经济调度问题进行数学描述;其次将该调度问题表述为马尔可夫决策过程框架,定义系统的观测状态、调度动作和奖励函数;继而采用近端策略优化算法进行低碳经济调度决策。所提方法无需进行负荷预测或不确定性建模,能够对源和荷的随机波动做出实时响应。最后基于多场景多算法进行算例仿真,结果表明所提方法提高系统运行经济性的同时降低了系统碳排放量。 展开更多
关键词 园区综合能源系统 阶梯式碳交易 深度强化学习 近端策略优化算法 低碳经济调度
下载PDF
基于深度强化学习的立体投送策略优化方法研究 被引量:2
16
作者 安靖 司光亚 张雷 《系统仿真学报》 CAS CSCD 北大核心 2024年第1期39-49,共11页
基于深度强化学习算法在策略优化问题中的良好表现,以立体投送作战行动为主要研究对象,提出了一种深度强化学习框架与仿真推演实验协同的作战行动策略优化方法。在分析策略优化研究现状的基础上,根据研究问题对深度学习框架进行了分析比... 基于深度强化学习算法在策略优化问题中的良好表现,以立体投送作战行动为主要研究对象,提出了一种深度强化学习框架与仿真推演实验协同的作战行动策略优化方法。在分析策略优化研究现状的基础上,根据研究问题对深度学习框架进行了分析比较,构建了基于A3C算法的深度强化学习立体投送策略模型,并通过仿真推演和分布式计算,实现深度强化学习模型与“人不在回路”仿真推演的交互学习,获得优化后的立体投送策略,验证了深度强化学习框架与仿真推演实验协同优化策略的有效性。 展开更多
关键词 深度强化学习 仿真推演 策略优化 立体投送 A3C算法
下载PDF
基于最大熵深度强化学习的双足机器人步态控制方法 被引量:1
17
作者 李源潮 陶重犇 王琛 《计算机应用》 CSCD 北大核心 2024年第2期445-451,共7页
针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相... 针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相似度方法对经验样本分类,优化经验回放机制;最后,根据知识和经验设计奖励函数,使双足机器人在直线行走训练过程中不断进行姿态调整,确保直线行走的鲁棒性。在Roboschool仿真环境中与其他先进深度强化学习算法,如近端策略优化(PPO)方法和信赖域策略优化(TRPO)方法的实验对比结果表明,所提方法不仅实现了双足机器人快速稳定的直线行走,而且鲁棒性更好。 展开更多
关键词 双足机器人 步态控制 深度强化学习 最大熵 柔性演员-评论家算法
下载PDF
城轨列车深度强化学习节能优化控制方法
18
作者 郭啸 孟建军 +3 位作者 陈晓强 胥如迅 李德仓 宋明瑞 《铁道标准设计》 北大核心 2024年第7期185-191,217,共8页
为提高城轨列车自动驾驶(Automatic Train Operation,ATO)的控制性能,针对城轨ATO目标速度曲线追踪控制方法中工况切换频繁、牵引能耗高等问题,以列车准点、精准停车和能耗为优化目标,设计了一种以时间冗余(Time Redundancy,TR)规划参... 为提高城轨列车自动驾驶(Automatic Train Operation,ATO)的控制性能,针对城轨ATO目标速度曲线追踪控制方法中工况切换频繁、牵引能耗高等问题,以列车准点、精准停车和能耗为优化目标,设计了一种以时间冗余(Time Redundancy,TR)规划参考系统为主动约束的列车深度强化学习DQN控制方法。建立了城轨列车动力学模型和多目标优化适应度函数;定义了TR规划参考系统约束下的DQN列车控制器,并对控制器中的动作空间和奖励函数进行设置;最后规定了列车控制器神经网络更新方法,利用随机梯度下降算法更新Q网络参数。结果表明:加入以TR时间规划参考系统为约束的TR-DQN算法提高了DQN迭代收敛速度以及迭代训练过程中的稳定性;TR-DQN动态调整列车运行策略的控制方法相比传统目标速度曲线追踪PID算法能耗降低12.32%,列车站间工况切换频率较低;针对设置的3种不同站间规划时间,列车牵引能耗依次降低7.5%和6.4%,列车站间工况动态切换频率和牵引能耗随行程规划时间增大而降低。 展开更多
关键词 城市轨道交通 列车自动驾驶 时间规划系统 节能运行 深度强化学习 dqn算法
下载PDF
基于深度强化学习的收割机省内协同调度优化策略
19
作者 李子康 张璠 +3 位作者 滕桂法 李政 王梓怡 马世纪 《农业工程学报》 EI CAS CSCD 北大核心 2024年第14期23-32,共10页
针对目前多机多地块间调度作业存在效率低、成本高等问题,该研究构建了以收割机地块间转移成本最小为目标的协同调度模型,设计了基于深度强化学习的收割机协同调度优化算法(inter-regional collaborative optimization scheduling algor... 针对目前多机多地块间调度作业存在效率低、成本高等问题,该研究构建了以收割机地块间转移成本最小为目标的协同调度模型,设计了基于深度强化学习的收割机协同调度优化算法(inter-regional collaborative optimization scheduling algorithm based on deep reinforcement learning,DRL-ICOSA)。首先分析收割机调度作业的马尔可夫决策过程,构建基于注意力机制的策略网络和价值网络,在随机采样策略中引入动态高斯噪声,以避免训练初期陷入局部最优,同时提高网络模型的鲁棒性;接着采用近端策略优化算法(proximal policy optimization,PPO)训练网络模型;最后利用测试集验证DRL-ICOSA算法,得到收割机优化调度方案。基于有效作业时长40和24 h、农机调度中心位于作业区域中心和区域边缘的4种组合作业场景下,采用DRL-ICOSA算法、遗传算法(genetic algorithm,GA)、粒子群算法(particle swarm optimization,PSO)和模拟退火算法(simulated annealing,SA)计算调度策略并进行对比分析。试验结果表明:当调度中心位于区域中心或边缘时,有效作业时长为40 h,DRL-ICOSA算法相较于GA、PSO和SA算法,平均调度成本降幅不少于13.9%;有效作业时长为24 h,平均调度成本降幅不少于11.5%。当作业时长为40或24 h时,调度中心位于区域中心,DRL-ICOSA算法相较于GA、PSO和SA算法,平均调度成本降幅不少于12.3%;调度中心位于区域边缘时,DRL-ICOSA算法相较于GA、PSO和SA算法,平均调度降幅不低于11.5%。因此,有效作业时长为40或24 h、调度中心位于区域中心或边缘时,相比其他3种算法,DRL-ICOSA算法均能计算得到最低的调度成本。这一研究结果可为收割机省内协同作业提供科学合理的调度方案。 展开更多
关键词 农业机械 优化算法 路径规划 深度强化学习 协同调度
下载PDF
基于知识辅助深度强化学习的巡飞弹组动态突防决策
20
作者 孙浩 黎海青 +2 位作者 梁彦 马超雄 吴翰 《兵工学报》 EI CAS CSCD 北大核心 2024年第9期3161-3176,共16页
巡飞弹组(Loitering Munition Group,LMG)突防控制决策是提高巡飞弹群组作战自主性与智能性的关键。针对存在截击拦截器和临机防空火力区的动态环境中弹组突防机动指令在线生成困难的问题,提出一种基于知识辅助强化学习方法的LMG突防控... 巡飞弹组(Loitering Munition Group,LMG)突防控制决策是提高巡飞弹群组作战自主性与智能性的关键。针对存在截击拦截器和临机防空火力区的动态环境中弹组突防机动指令在线生成困难的问题,提出一种基于知识辅助强化学习方法的LMG突防控制决策算法。结合领域知识、规则知识改进状态空间和回报函数设计提高算法泛化能力与训练收敛速度。构建基于软动作-评价方法的LMG突防控制决策框架,以提高算法探索效率。利用专家经验和模仿学习方法改善多弹多威胁带来的解空间狭窄、算法初始高效训练经验匮乏的问题。实验结果表明,新算法能够在动态环境中实时生成有效的突防机动指令,相较于对比方法效果更好,验证了算法的有效性。 展开更多
关键词 巡飞弹组 知识辅助深度强化学习 Soft Actor-Critic算法 动态环境突防 控制决策
下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部