期刊文献+
共找到259篇文章
< 1 2 13 >
每页显示 20 50 100
基于改进DQN算法的无人仓多AGV路径规划 被引量:1
1
作者 谢勇 郑绥君 +1 位作者 程念胜 朱洪君 《工业工程》 2024年第1期36-44,53,共10页
针对无人仓中多AGV路径规划与冲突问题,以最小化总行程时间为目标,建立多AGV路径规划模型,提出一种基于动态决策的改进DQN算法。算法设计了基于单AGV静态路径规划的经验知识模型,指导AGV的学习探索方向,提前规避冲突与障碍物,加快算法... 针对无人仓中多AGV路径规划与冲突问题,以最小化总行程时间为目标,建立多AGV路径规划模型,提出一种基于动态决策的改进DQN算法。算法设计了基于单AGV静态路径规划的经验知识模型,指导AGV的学习探索方向,提前规避冲突与障碍物,加快算法收敛。同时提出基于总行程时间最短的冲突消解策略,从根本上解决多AGV路径冲突与死锁问题。最后,建立无人仓栅格地图进行仿真实验。结果表明,本文提出的模型和算法较其他DQN算法收敛速度提升13.3%,平均损失值降低26.3%。这说明该模型和算法有利于规避和化解无人仓多AGV路径规划冲突,减少多AGV总行程时间,对提高无人仓作业效率具有重要指导意义。 展开更多
关键词 多AGV 路径规划 dqn算法 经验知识 冲突消解
下载PDF
Double DQN Method For Botnet Traffic Detection System
2
作者 Yutao Hu Yuntao Zhao +1 位作者 Yongxin Feng Xiangyu Ma 《Computers, Materials & Continua》 SCIE EI 2024年第4期509-530,共22页
In the face of the increasingly severe Botnet problem on the Internet,how to effectively detect Botnet traffic in realtime has become a critical problem.Although the existing deepQnetwork(DQN)algorithminDeep reinforce... In the face of the increasingly severe Botnet problem on the Internet,how to effectively detect Botnet traffic in realtime has become a critical problem.Although the existing deepQnetwork(DQN)algorithminDeep reinforcement learning can solve the problem of real-time updating,its prediction results are always higher than the actual results.In Botnet traffic detection,although it performs well in the training set,the accuracy rate of predicting traffic is as high as%;however,in the test set,its accuracy has declined,and it is impossible to adjust its prediction strategy on time based on new data samples.However,in the new dataset,its accuracy has declined significantly.Therefore,this paper proposes a Botnet traffic detection system based on double-layer DQN(DDQN).Two Q-values are designed to adjust the model in policy and action,respectively,to achieve real-time model updates and improve the universality and robustness of the model under different data sets.Experiments show that compared with the DQN model,when using DDQN,the Q-value is not too high,and the detectionmodel has improved the accuracy and precision of Botnet traffic.Moreover,when using Botnet data sets other than the test set,the accuracy and precision of theDDQNmodel are still higher than DQN. 展开更多
关键词 dqn Ddqn deep reinforcement learning botnet detection feature classification
下载PDF
基于Dueling DQN算法的列车运行图节能优化研究
3
作者 刘飞 唐方慧 +3 位作者 刘琳婷 胡文斌 哈进兵 钱程 《都市快轨交通》 北大核心 2024年第2期39-46,共8页
通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,... 通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,建立基于区间动态客流概率统计的时刻表迭代优化模型,降低动态客流变化对节能率的影响。对预测Q网络和目标Q网络分别选取自适应时刻估计和均方根反向传播方法,提高模型收敛快速性,同时以时刻表优化前、后总运行时间不变、乘客换乘时间和等待时间最小为优化目标,实现节能时刻表无感切换。以苏州轨道交通4号线为例验证方法的有效性,节能对比试验结果表明:在到达换乘站时刻偏差不超过2 s和列车全周转运行时间不变的前提下,列车牵引节能率达5.27%,车公里能耗下降4.99%。 展开更多
关键词 城市轨道交通 时刻表优化 牵引节能 Dueling dqn 动态客流
下载PDF
基于改进分层DQN算法的智能体路径规划
4
作者 杨尚志 张刚 +1 位作者 陈跃华 何小龙 《计算机应用与软件》 北大核心 2024年第5期226-232,239,共8页
针对智能体使用DQN(Deep Q Network)算法进行路径规划时存在收敛速度慢、Q值难以准确描述动作好坏的问题,提出一种优化DQN模型结构的分层DQN算法。该算法建立的激励层和动作层叠加生成更为准确的Q值,用于选择最优动作,使整个网络的抗干... 针对智能体使用DQN(Deep Q Network)算法进行路径规划时存在收敛速度慢、Q值难以准确描述动作好坏的问题,提出一种优化DQN模型结构的分层DQN算法。该算法建立的激励层和动作层叠加生成更为准确的Q值,用于选择最优动作,使整个网络的抗干扰能力更强。仿真结果表明,智能体使用分层DQN算法的收敛速度更快,从而验证了算法的有效性。 展开更多
关键词 分层dqn 神经网络 强化学习 路径规划
下载PDF
基于DQN的多智能体深度强化学习运动规划方法 被引量:2
5
作者 史殿习 彭滢璇 +3 位作者 杨焕焕 欧阳倩滢 张玉晖 郝锋 《计算机科学》 CSCD 北大核心 2024年第2期268-277,共10页
DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对... DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对这些问题,提出了一种基于DQN的多智能体深度强化学习运动规划方法,该方法可以帮助智能体学习到高效稳定的运动规划策略,无碰撞地到达目标点。首先,在DQN方法的基础上,提出了基于Dueling的Q值计算优化机制,将Q值的计算方式改进为计算状态值和优势函数值,并根据当前正在更新的Q值网络的参数选择最优动作,使得Q值的计算更加简单准确;其次,提出了基于GRU的记忆机制,引入了GRU模块,使得网络可以捕捉时序信息,具有处理智能体历史信息的能力;最后,提出了基于噪声的有效探索机制,通过引入参数化的噪声,改变了DQN中的探索方式,提高了智能体的探索效率,使得多智能体系统达到探索-利用的平衡状态。在PyBullet仿真平台的6种不同的仿真场景中进行了测试,实验结果表明,所提方法可以使多智能体团队进行高效协作,无碰撞地到达各自目标点,且策略训练过程稳定。 展开更多
关键词 多智能体系统 运动规划 深度强化学习 dqn方法
下载PDF
基于Dueling Double DQN的交通信号控制方法
6
作者 叶宝林 陈栋 +2 位作者 刘春元 陈滨 吴维敏 《计算机测量与控制》 2024年第7期154-161,共8页
为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作... 为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作-价值函数的估计值和目标值迭代运算过程进行了优化,克服基于深度强化学习DQN的交通信号控制模型存在收敛速度慢的问题;设计了一个新的Dueling Network解耦交通状态和相位动作的价值,增强Double DQN(DDQN)提取深层次特征信息的能力;基于微观仿真平台SUMO搭建了一个单交叉口模拟仿真框架和环境,开展仿真测试;仿真测试结果表明,与传统交通信号控制方法和基于深度强化学习DQN的交通信号控制方法相比,所提方法能够有效减少车辆平均等待时间、车辆平均排队长度和车辆平均停车次数,明显提升交叉口通行效率。 展开更多
关键词 交通信号控制 深度强化学习 Dueling Double dqn Dueling Network
下载PDF
基于改进DQN的移动机器人避障路径规划 被引量:1
7
作者 田箫源 董秀成 《中国惯性技术学报》 EI CSCD 北大核心 2024年第4期406-416,共11页
针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效... 针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效率和成功率。其次提出奖励优化方法,利用状态间的访问次数差异给予奖励,平衡状态点的访问次数,避免过度访问;同时通过计算与目标点的欧氏距离,使其偏向于选择接近目标的路径,并取消远离目标惩罚,实现奖励机制的自适应优化。最后设计了动态探索因子函数,在后期训练中侧重利用强化学习策略选取动作和学习,提高算法性能和学习效率。实验仿真结果显示,与传统DQN算法相比,改进算法在训练时间上缩短了40.25%,避障成功率上提升了79.8%以及路径长度上缩短了2.25%,均体现了更好的性能。 展开更多
关键词 移动机器人 dqn算法 路径规划 避障 深度强化学习
下载PDF
基于补偿标准差的DQN风险调控交易策略
8
作者 符甲鑫 刘磊 《计算机应用与软件》 北大核心 2024年第3期141-146,共6页
针对传统交易策略无法在复杂的市场条件下取得稳定收益的问题,提出基于补偿标准差的DQN风险调控交易策略。通过融合历史行情和技术指标数据,采用卷积神经网络提取数据特征,判断交易信号,并利用累积补偿标准差计算具有风险调控作用的奖... 针对传统交易策略无法在复杂的市场条件下取得稳定收益的问题,提出基于补偿标准差的DQN风险调控交易策略。通过融合历史行情和技术指标数据,采用卷积神经网络提取数据特征,判断交易信号,并利用累积补偿标准差计算具有风险调控作用的奖励函数,有效地提升策略的自适应能力。该策略对沪深300指数2015年至2019年进行交易实验,在2019年测试阶段,策略年收益达到16.13%,胜率为54.62%,夏普比率为15.91%。 展开更多
关键词 智能体 dqn 累计补偿 定量交易 期货市场
下载PDF
未知环境下基于Dueling DQN的无人机路径规划研究
9
作者 赵恬恬 孔建国 +1 位作者 梁海军 刘晨宇 《现代计算机》 2024年第5期37-43,共7页
为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;... 为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;最后在仿真环境中对DQN和Dueling DQN展开训练,结果表明:①Dueling DQN能规划出未知环境下从初始点到目标点的无碰撞路径,且能获得更高的奖励值;②经过50000次训练,Dueling DQN的成功率比DQN提高17.71%,碰撞率减少1.57%,超过最长步长率降低16.14%。 展开更多
关键词 无人机 路径规划 深度强化学习 Dueling dqn算法
下载PDF
基于DQN算法的农用无人车作业路径规划
10
作者 庄金炜 张晓菲 +1 位作者 尹琪东 陈克 《沈阳理工大学学报》 CAS 2024年第4期32-37,共6页
传统农用无人车作业时常依据人工经验确定作业路线,面对复杂的作业环境时无法保证路径规划的高效性,且传统覆盖路径规划方法聚焦于覆盖率而忽略了车辆作业路线上的损耗。为此,提出一种以减少车辆在路线上的损耗为目标的最优全局覆盖路... 传统农用无人车作业时常依据人工经验确定作业路线,面对复杂的作业环境时无法保证路径规划的高效性,且传统覆盖路径规划方法聚焦于覆盖率而忽略了车辆作业路线上的损耗。为此,提出一种以减少车辆在路线上的损耗为目标的最优全局覆盖路径规划方法。以深度Q网络(DQN)算法为基础,根据作业时车辆的真实轨迹创建奖励策略(RLP),对车辆在路线上的损耗进行优化,减少车辆的转弯数、掉头数及重复作业面积,设计了RLP-DQN算法。仿真实验结果表明,对比遗传算法、A~*算法等传统路径规划方法,本文RLP-DQN算法综合性能较好,可在实现全覆盖路径规划的同时有效减少路线损耗。 展开更多
关键词 农用无人车 路径规划 深度强化学习 dqn算法
下载PDF
一种基于DQN的去中心化优先级卸载策略
11
作者 张俊娜 李天泽 +1 位作者 赵晓焱 袁培燕 《计算机工程》 CAS CSCD 北大核心 2024年第9期235-245,共11页
边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故... 边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故障的影响,且会产生较多的能耗和较高的时延。针对以上问题,提出一种基于深度Q网络(DQN)的去中心化优先级(DP-DQN)卸载策略。首先,设置通信矩阵模拟现实中边缘服务器有限的通信状态;其次,通过对任务设定优先级,使任务可以在不同边缘服务器之间跳转,保证各边缘服务器均可以自主制定卸载策略,完成任务卸载的去中心化;最后,根据任务的跳转次数为任务分配更多的计算资源,提高资源利用效率和优化效果。为了验证所提策略的有效性,针对不同DQN下参数的收敛性能进行了研究对比,实验结果表明,在不同测试情景下,DP-DQN的性能均优于本地算法、完全贪婪算法和多目标任务卸载算法,性能可提升约11%~19%。 展开更多
关键词 边缘计算 任务卸载 资源分配 去中心化 优先级 深度Q网络
下载PDF
基于DQN出价策略的多无人机目标分配拍卖算法
12
作者 陈梓豪 胡春鹤 《聊城大学学报(自然科学版)》 2024年第4期23-32,共10页
为实现多无人机监测目标分配任务匹配度、成功率等收益最大化及路径长度、障碍物碰撞风险等代价最小化,基于数据样本驱动的强化学习方法,提出了一种融合深度Q网络(Deep Q-network,DQN)出价策略的自主进化拍卖算法。首先,构建了多无人机... 为实现多无人机监测目标分配任务匹配度、成功率等收益最大化及路径长度、障碍物碰撞风险等代价最小化,基于数据样本驱动的强化学习方法,提出了一种融合深度Q网络(Deep Q-network,DQN)出价策略的自主进化拍卖算法。首先,构建了多无人机任务目标拍卖的马尔科夫决策模型,并且分别以竞拍者剩余竞拍容量为环境,输出增价因子为动作,前后两轮拍卖收益增幅为回报。其次,构建了新型的DQN出价和竞拍决策神经网络模型。该模型通过构建包含拍卖环境、增价因子、回报等元素的强化学习训练样本库,在拍卖过程中以一种离线学习模式不断训练DQN神经网络,使其按照DQN策略在拍卖过程中,根据拍卖环境输出增价因子,实现拍卖结果收益的优化。最后,通过多无人机多监测目标分配仿真,验证了所提出基于DQN拍卖机制的目标分配方法的有效性。通过与传统拍卖算法结果相比,方法获得的拍卖收益提升21.4%。 展开更多
关键词 多无人机 拍卖算法 dqn 多目标分配 拍卖收益
下载PDF
基于改进DQN算法的自动化码头AGV调度问题研究
13
作者 梁承姬 张石东 +1 位作者 王钰 鲁斌 《系统仿真学报》 CAS CSCD 北大核心 2024年第11期2592-2603,共12页
针对自动化码头AGV(automated guided vehicle)调度问题,提出了一种考虑未来任务的深度Q网络(future tasks considering deep Q-network,F-DQN)算法指导AGV进行实时调度。对系统状态进行了改进,结合实时调度和静态调度的优点,在做出实... 针对自动化码头AGV(automated guided vehicle)调度问题,提出了一种考虑未来任务的深度Q网络(future tasks considering deep Q-network,F-DQN)算法指导AGV进行实时调度。对系统状态进行了改进,结合实时调度和静态调度的优点,在做出实时决策时考虑了静态的未来任务信息,以获得更优的调度方案。以洋山四期自动化码头的真实布局和设备情况为参考,使用仿真软件Plant Simulation进行了一系列仿真实验。实验结果表明:F-DQN算法可以有效解决自动化码头AGV实时调度问题,且F-DQN算法相比于传统DQN算法,能够显著缩短岸桥的等待时间。 展开更多
关键词 自动化码头 AGV调度 dqn MDP 仿真模型
下载PDF
基于DQN的VDES异构星座兼容策略
14
作者 王雪帆 李宗旺 梁旭文 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2024年第4期550-557,共8页
异构VDES(VHF data exchange system)星座采用相同的通信频率和时分多址通信机制,使得异构星座重复覆盖区域内存在大量由时隙冲突造成的同频干扰,严重影响通信质量。针对此问题,提出一种基于深度Q网络(DQN)的星座间兼容策略。基于VDES... 异构VDES(VHF data exchange system)星座采用相同的通信频率和时分多址通信机制,使得异构星座重复覆盖区域内存在大量由时隙冲突造成的同频干扰,严重影响通信质量。针对此问题,提出一种基于深度Q网络(DQN)的星座间兼容策略。基于VDES通信流程,设置船站作为资源信息中转节点,赋予卫星对通信环境的感知能力。在此基础上,将异构星座场景下的资源分配问题建模为强化学习问题,提出一种基于DQN的时隙资源分配算法。通过重构历史资源信息和当前资源信息,规划最优时隙资源分配方案,并根据结果对算法迭代优化。仿真结果表明,所提出的策略可以有效提高通信性能。 展开更多
关键词 VDES dqn 卫星通信 干扰规避 资源分配
下载PDF
基于改进DQN算法的考虑船舶配载图的翻箱问题研究
15
作者 梁承姬 花跃 王钰 《重庆交通大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第9期43-49,77,共8页
为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进... 为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进行求解,同时为了提高算法求解的性能,又在原算法的基础上设计了基于启发式算法的阈值和全新的奖励函数以改进算法。通过与其它文献中的实验结果进行对比,结果显示:在计算结果上,改进的DQN算法在各个算例上的结果均优于目前各个启发式算法的最优结果,并且规模越大,结果越好;在训练时间上,改进的DQN算法极大的优于未改进的DQN算法,并且规模越大,节省的时间也更显著。 展开更多
关键词 交通运输工程 海运 集装箱翻箱 船舶配载图 dqn算法
下载PDF
基于DQN算法的泵站供水系统节能控制优化
16
作者 陈财会 张天 +3 位作者 黄健康 金典 王卓悦 张小磊 《净水技术》 CAS 2024年第4期60-67,127,共9页
针对手动调节泵站中水泵运行的转速和启停会造成严重的能量浪费问题,引入基于深度Q网络(deep Q-learning network,DQN)的强化学习算法,通过获取当前泵组运行的状态,自动优化水泵组工作时各个水泵的运行参数,在各个水泵均处于高效区的前... 针对手动调节泵站中水泵运行的转速和启停会造成严重的能量浪费问题,引入基于深度Q网络(deep Q-learning network,DQN)的强化学习算法,通过获取当前泵组运行的状态,自动优化水泵组工作时各个水泵的运行参数,在各个水泵均处于高效区的前提下,提高水泵组的整体效率。对水泵组状态优化问题分别进行了数学描述和马尔可夫决策过程描述。同时定义了水泵组运行时的状态空间、动作空间和即时奖励值,构建DQN网络,并以深圳市M水厂为算例,在由Gym构建的自定义仿真环境中进行验证。相较于人工调控,DQN算法调控降低了8.84%的损失能耗,一年可节省吨水电耗达1.27×10^(-2) kW·h/t,实现了节能减排,具有良好的经济效能。同时,DQN算法可通过在线学习的方式适应供水环境的变化,具有自主性、实时性、可推广性等优点。 展开更多
关键词 泵站供水 优化调度 dqn算法 马尔可夫决策过程 节能减排
下载PDF
基于Double DQN的双模式多目标信号配时方法
17
作者 聂雷 张明萱 +1 位作者 黄庆涵 鲍海洲 《计算机技术与发展》 2024年第8期143-150,共8页
近年来深度强化学习作为一种高效可靠的机器学习方法被广泛应用在交通信号控制领域。目前,现有交通信号配时方法通常忽略了特殊车辆(例如救护车、消防车等)的优先通行;此外,基于传统深度强化学习的信号配时方法优化目标较为单一,导致其... 近年来深度强化学习作为一种高效可靠的机器学习方法被广泛应用在交通信号控制领域。目前,现有交通信号配时方法通常忽略了特殊车辆(例如救护车、消防车等)的优先通行;此外,基于传统深度强化学习的信号配时方法优化目标较为单一,导致其在复杂交通场景中性能不佳。针对上述问题,基于Double DQN提出一种融合特殊车辆优先通行的双模式多目标信号配时方法(Dual-mode Multi-objective signal timing method based on Double DQN,DMDD),以提高不同交通场景下路口的通行效率。该方法首先基于路口的饱和状态选择信号控制模式,特殊车辆在紧急控制模式下被赋予更高的通行权重,有利于其更快通过路口;接着针对等待时长、队列长度和CO 2排放量3个指标分别设计神经网络进行奖励计算;最后利用Double DQN进行最优信号相位的选择,通过灵活切换信号相位以提升通行效率。基于SUMO的实验结果表明,DMDD与对比方法相比能有效缩短路口处特殊车辆的等待时长、队列长度和CO 2排放量,特殊车辆能够更快通过路口,有效地提高了通行效率。 展开更多
关键词 交通信号配时 深度强化学习 双模式多目标 Double dqn SUMO
下载PDF
基于DQN的二次供水系统运行优化研究
18
作者 耿为民 颜军 +1 位作者 谢善斌 万鸣 《计算机应用与软件》 北大核心 2024年第10期393-397,共5页
二次供水系统是饮用水到达用户的最后关键环节,针对二次供水运行中水龄较长影响水质的问题,提出一种基于深度学习Q学习算法(Deep Q-Learning Network,DQN)的运行优化模型。该模型将水压、水龄、能耗优化目标综合计算成对应的奖励,基于... 二次供水系统是饮用水到达用户的最后关键环节,针对二次供水运行中水龄较长影响水质的问题,提出一种基于深度学习Q学习算法(Deep Q-Learning Network,DQN)的运行优化模型。该模型将水压、水龄、能耗优化目标综合计算成对应的奖励,基于水力模拟的运行工况为输入,进水池、水泵的运行指令为输出。以某二次供水系统为例,利用EPANET软件构建水力模型,基于DQN分别对组件运行进行优化。结果显示,优化后均在保证供水压力的前提下达到降低水龄的目标。 展开更多
关键词 二次供水系统 dqn算法 运行优化 水龄
下载PDF
无人机辅助智能交通系统中基于C-DQN的信息年龄最小化研究
19
作者 李登治 王宁 《测试技术学报》 2024年第4期371-377,共7页
无人机(Unmanned Aerial Vehicle, UAV)由于高机动性和低运营成本的优势,有望在未来智能交通系统(Intelligent Transportation System, ITS)中被部署为车辆数据收集器。为了保证所采集数据的时效性,以信息年龄(Age of Information, AoI... 无人机(Unmanned Aerial Vehicle, UAV)由于高机动性和低运营成本的优势,有望在未来智能交通系统(Intelligent Transportation System, ITS)中被部署为车辆数据收集器。为了保证所采集数据的时效性,以信息年龄(Age of Information, AoI)来衡量无人机从车辆接收到的数据的新鲜度。因此,提出一种基于信息年龄最小化的无人机辅助智能交通系统方案,通过联合优化无人机轨迹和无人机与车辆的关联策略,最小化所有车辆的信息年龄加权和。将该优化问题建模为一个马尔可夫决策过程(Markov Decision Process,MDP),并采用Curiosity-Driven Deep Q-learning Network(C-DQN)算法来求解。大量仿真结果表明,该算法在探索能力和收益性能方面优于传统Deep Q-learning Network(DQN)算法。 展开更多
关键词 无人机 智能交通系统 信息年龄 马尔可夫决策过程 C-dqn
下载PDF
基于D-DQN强化学习算法的双足机器人智能控制研究
20
作者 李丽霞 陈艳 《计算机测量与控制》 2024年第3期181-187,共7页
针对现有双足机器人智能控制算法存在的轨迹偏差大、效率低等问题,提出了一种基于D-DQN强化学习的控制算法;先分析双足机器人运动中的坐标变换关系和关节连杆补偿过程,然后基于Q值网络实现对复杂运动非线性过程降维处理,采用了Q值网络... 针对现有双足机器人智能控制算法存在的轨迹偏差大、效率低等问题,提出了一种基于D-DQN强化学习的控制算法;先分析双足机器人运动中的坐标变换关系和关节连杆补偿过程,然后基于Q值网络实现对复杂运动非线性过程降维处理,采用了Q值网络权值和辅助权值的双网络权值设计方式,进一步强化DQN网络性能,并以Tanh函数作为神经网络的激活函数,提升DQN网络的数值训练能力;在数据训练和交互中经验回放池发挥出关键的辅助作用,通过将奖励值输入到目标函数中,进一步提升对双足机器人的控制精度,最后通过虚拟约束控制的方式提高双足机器人运动中的稳定性;实验结果显示:在D-DQN强化学习的控制算法,机器人完成第一阶段测试的时间仅为115 s,综合轨迹偏差0.02 m,而且步态切换极限环测试的稳定性良好。 展开更多
关键词 D-dqn 强化学习 双足机器人 智能控制 经验回放池 虚拟约束控制
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部