期刊文献+
共找到343篇文章
< 1 2 18 >
每页显示 20 50 100
Improved Double Deep Q Network Algorithm Based on Average Q-Value Estimation and Reward Redistribution for Robot Path Planning
1
作者 Yameng Yin Lieping Zhang +3 位作者 Xiaoxu Shi Yilin Wang Jiansheng Peng Jianchu Zou 《Computers, Materials & Continua》 SCIE EI 2024年第11期2769-2790,共22页
By integrating deep neural networks with reinforcement learning,the Double Deep Q Network(DDQN)algorithm overcomes the limitations of Q-learning in handling continuous spaces and is widely applied in the path planning... By integrating deep neural networks with reinforcement learning,the Double Deep Q Network(DDQN)algorithm overcomes the limitations of Q-learning in handling continuous spaces and is widely applied in the path planning of mobile robots.However,the traditional DDQN algorithm suffers from sparse rewards and inefficient utilization of high-quality data.Targeting those problems,an improved DDQN algorithm based on average Q-value estimation and reward redistribution was proposed.First,to enhance the precision of the target Q-value,the average of multiple previously learned Q-values from the target Q network is used to replace the single Q-value from the current target Q network.Next,a reward redistribution mechanism is designed to overcome the sparse reward problem by adjusting the final reward of each action using the round reward from trajectory information.Additionally,a reward-prioritized experience selection method is introduced,which ranks experience samples according to reward values to ensure frequent utilization of high-quality data.Finally,simulation experiments are conducted to verify the effectiveness of the proposed algorithm in fixed-position scenario and random environments.The experimental results show that compared to the traditional DDQN algorithm,the proposed algorithm achieves shorter average running time,higher average return and fewer average steps.The performance of the proposed algorithm is improved by 11.43%in the fixed scenario and 8.33%in random environments.It not only plans economic and safe paths but also significantly improves efficiency and generalization in path planning,making it suitable for widespread application in autonomous navigation and industrial automation. 展开更多
关键词 Double deep q network path planning average q-value estimation reward redistribution mechanism reward-prioritized experience selection method
下载PDF
一种基于DQN的去中心化优先级卸载策略
2
作者 张俊娜 李天泽 +1 位作者 赵晓焱 袁培燕 《计算机工程》 CAS CSCD 北大核心 2024年第9期235-245,共11页
边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故... 边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故障的影响,且会产生较多的能耗和较高的时延。针对以上问题,提出一种基于深度Q网络(DQN)的去中心化优先级(DP-DQN)卸载策略。首先,设置通信矩阵模拟现实中边缘服务器有限的通信状态;其次,通过对任务设定优先级,使任务可以在不同边缘服务器之间跳转,保证各边缘服务器均可以自主制定卸载策略,完成任务卸载的去中心化;最后,根据任务的跳转次数为任务分配更多的计算资源,提高资源利用效率和优化效果。为了验证所提策略的有效性,针对不同DQN下参数的收敛性能进行了研究对比,实验结果表明,在不同测试情景下,DP-DQN的性能均优于本地算法、完全贪婪算法和多目标任务卸载算法,性能可提升约11%~19%。 展开更多
关键词 边缘计算 任务卸载 资源分配 去中心化 优先级 深度q网络
下载PDF
基于FL-MADQN算法的NR-V2X车载通信频谱资源分配
3
作者 李中捷 邱凡 +2 位作者 姜家祥 李江虹 贾玉婷 《中南民族大学学报(自然科学版)》 CAS 2024年第3期401-407,共7页
针对5G新空口-车联网(New Radio-Vehicle to Everything,NR-V2X)场景下车对基础设施(Vehicle to Infrastructure,V2I)和车对车(Vehicle to Vehicle,V2V)共享上行通信链路的频谱资源分配问题,提出了一种联邦-多智能体深度Q网络(Federated... 针对5G新空口-车联网(New Radio-Vehicle to Everything,NR-V2X)场景下车对基础设施(Vehicle to Infrastructure,V2I)和车对车(Vehicle to Vehicle,V2V)共享上行通信链路的频谱资源分配问题,提出了一种联邦-多智能体深度Q网络(Federated Learning-Multi-Agent Deep Q Network,FL-MADQN)算法.该分布式算法中,每个车辆用户作为一个智能体,根据获取的本地信道状态信息,以网络信道容量最佳为目标函数,采用DQN算法训练学习本地网络模型.采用联邦学习加快以及稳定各智能体网络模型训练的收敛速度,即将各智能体的本地模型上传至基站进行聚合形成全局模型,再将全局模型下发至各智能体更新本地模型.仿真结果表明:与传统分布式多智能体DQN算法相比,所提出的方案具有更快的模型收敛速度,并且当车辆用户数增大时仍然保证V2V链路的通信效率以及V2I链路的信道容量. 展开更多
关键词 车联网 资源分配 深度q网络 联邦学习
下载PDF
演化算法的DQN网络参数优化方法
4
作者 曹子建 郭瑞麒 +2 位作者 贾浩文 李骁 徐恺 《西安工业大学学报》 CAS 2024年第2期219-231,共13页
为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQ... 为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQN网络参数以加快其收敛速度的方法(DE-DQN)。首先,将DQN的网络参数编码为演化个体;其次,分别采用“运行步长”和“平均回报”两种适应度函数评价方式;利用CartPole控制问题进行仿真对比,验证了两种评价方式的有效性。最后,实验结果表明,在智能体训练5 000代时所提出的改进算法,以“运行步长”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了82.7%,18.1%和25.1%,并优于改进DQN算法;以“平均回报”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了74.9%,18.5%和13.3%并优于改进DQN算法。这说明了DE-DQN算法相较于传统的DQN及其改进算法前期能获得更多有用信息,加快收敛速度。 展开更多
关键词 深度强化学习 深度q网络 收敛加速 演化算法 自动控制
下载PDF
基于Dueling-DQN的异构无线网络垂直切换算法研究
5
作者 李敏之 李转怀 《电子测量技术》 北大核心 2024年第15期101-108,共8页
针对当前异构无线网络中切换算法考虑的服务质量指标较少,用户频繁切换愈加严重的问题,提出了基于主客观加权与改进的深度强化学习相结合的异构无线网络垂直切换方法。首先,提出了一种支持异构无线网络的软件定义网络架构;其次,提出了... 针对当前异构无线网络中切换算法考虑的服务质量指标较少,用户频繁切换愈加严重的问题,提出了基于主客观加权与改进的深度强化学习相结合的异构无线网络垂直切换方法。首先,提出了一种支持异构无线网络的软件定义网络架构;其次,提出了主客观加权相结合的属性加权算法;最后,将网络选择问题利用改进的Dueling-DQN方法解决。仿真结果表明,本文所提算法在不同用户类型网络下切换次数分别减少了11.25%,13.34%,18.76%,13.75%,吞吐量提升了16.64%。因此本文所提算法有效避免了乒乓切换,减少切换次数并且提升了吞吐量。 展开更多
关键词 异构无线网络 软件定义网络 层次分析法 熵值法 深度q学习
下载PDF
无人驾驶中运用DQN进行障碍物分类的避障方法
6
作者 刘航博 马礼 +2 位作者 李阳 马东超 傅颖勋 《计算机工程》 CAS CSCD 北大核心 2024年第11期380-389,共10页
安全是无人驾驶汽车需要考虑的首要因素,而避障问题是解决驾驶安全最有效的手段。基于学习的避障方法因其能够从环境中学习并直接从感知中做出决策的能力而受到研究者的关注。深度Q网络(DQN)作为一种流行的强化学习方法,在无人驾驶避障... 安全是无人驾驶汽车需要考虑的首要因素,而避障问题是解决驾驶安全最有效的手段。基于学习的避障方法因其能够从环境中学习并直接从感知中做出决策的能力而受到研究者的关注。深度Q网络(DQN)作为一种流行的强化学习方法,在无人驾驶避障领域取得了很大的进展,但这些方法未考虑障碍物类型对避障策略的影响。基于对障碍物的准确分类提出一种Classification Security DQN(CSDQN)的车辆行驶决策框架。根据障碍物的不同类型以及环境信息给出具有更高安全性的无人驾驶决策,达到提高无人驾驶安全性的目的。首先对检测到的障碍物根据障碍物的安全性等级进行分类,然后根据不同类型障碍物提出安全评估函数,利用位置的不确定性和基于距离的安全度量来评估安全性,接着CSDQN决策框架利用障碍物类型、相对位置信息以及安全评估函数进行不断迭代优化获得最终模型。仿真结果表明,与先进的深度强化学习进行比较,在多种障碍物的情况下,采用CSDQN方法相较于DQN和SDQN方法分别提升了43.9%和4.2%的安全性,以及17.8%和3.7%的稳定性。 展开更多
关键词 无人驾驶 深度q网络 分类避障 评估函数 安全性
下载PDF
基于DQN和功率分配的FDA-MIMO雷达抗扫频干扰
7
作者 周长霖 王春阳 +3 位作者 宫健 谭铭 包磊 刘明杰 《雷达科学与技术》 北大核心 2024年第2期155-160,169,共7页
频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频... 频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频率分集阵列-多输入多输出(Frequency Diversity Array-Multiple Input Multiple Output,FDA-MIMO)雷达与电磁干扰环境交互模型,使得FDA-MIMO雷达能够在与电磁环境交互过程中,感知干扰抑制干扰。其次,本文提出了一种基于深度Q网络(Deep Q-Network,DQN)和FDA-MIMO雷达发射功率分配的扫频干扰抑制方法,使得雷达系统能够在充分利用频谱资源的情况下最大化SINR。最后,仿真结果证实,在强化学习框架下,FDA-MIMO雷达能够通过对发射功率分配进行优化,完成干扰抑制,提升雷达性能。 展开更多
关键词 频率分集阵列 扫频干扰 强化学习 深度q网络 功率分配
下载PDF
基于改进DQN的动态避障路径规划
8
作者 郑晨炜 侯凌燕 +2 位作者 王超 赵青娟 邹智元 《北京信息科技大学学报(自然科学版)》 2024年第5期14-22,共9页
针对传统深度Q学习网络(deep Q-learning network,DQN)在具有动态障碍物的路径规划下,移动机器人在探索时频繁碰撞难以移动至目标点的问题,通过在探索策略和经验回放机制上进行改进,提出一种改进的DQN算法。在探索策略上,利用快速搜索... 针对传统深度Q学习网络(deep Q-learning network,DQN)在具有动态障碍物的路径规划下,移动机器人在探索时频繁碰撞难以移动至目标点的问题,通过在探索策略和经验回放机制上进行改进,提出一种改进的DQN算法。在探索策略上,利用快速搜索随机树(rapidly-exploring random tree,RRT)算法自动生成静态先验知识来指导动作选取,替代ε-贪婪策略的随机动作,提高智能体到达目标的成功率;在经验利用上,使用K-means算法设计一种聚类经验回放机制,根据动态障碍物的位置信息进行聚类分簇,着重采样与当前智能体状态相似的经验进行回放,使智能体更有效地避免碰撞动态障碍物。二维栅格化环境下的仿真实验表明,在动态环境下,该算法可以避开静态和动态障碍物,成功移动至目标点,验证了该算法在应对动态避障路径规划的可行性。 展开更多
关键词 动态环境 路径规划 深度q学习网络 避障 经验回放
下载PDF
基于Dueling Double DQN的交通信号控制方法
9
作者 叶宝林 陈栋 +2 位作者 刘春元 陈滨 吴维敏 《计算机测量与控制》 2024年第7期154-161,共8页
为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作... 为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作-价值函数的估计值和目标值迭代运算过程进行了优化,克服基于深度强化学习DQN的交通信号控制模型存在收敛速度慢的问题;设计了一个新的Dueling Network解耦交通状态和相位动作的价值,增强Double DQN(DDQN)提取深层次特征信息的能力;基于微观仿真平台SUMO搭建了一个单交叉口模拟仿真框架和环境,开展仿真测试;仿真测试结果表明,与传统交通信号控制方法和基于深度强化学习DQN的交通信号控制方法相比,所提方法能够有效减少车辆平均等待时间、车辆平均排队长度和车辆平均停车次数,明显提升交叉口通行效率。 展开更多
关键词 交通信号控制 深度强化学习 Dueling Double dqn Dueling network
下载PDF
基于改进DDQN的无人车路径规划算法
10
作者 曹京威 何秋生 《组合机床与自动化加工技术》 北大核心 2024年第8期48-53,共6页
针对DDQN算法在路径规划方面存在收敛速度慢和路径质量低等问题,基于DDQN算法研究了一种无人车路径规划算法。首先,通过获得多个时刻的奖励值,将这些奖励累加并均值处理从而充分利用奖励值信息;然后,通过优化斥力生成的方向改进人工势场... 针对DDQN算法在路径规划方面存在收敛速度慢和路径质量低等问题,基于DDQN算法研究了一种无人车路径规划算法。首先,通过获得多个时刻的奖励值,将这些奖励累加并均值处理从而充分利用奖励值信息;然后,通过优化斥力生成的方向改进人工势场法,并用改进的人工势场法代替随机探索提升收敛速度;最后,通过判断路径与障碍物的关系移除冗余节点,并使用贝塞尔曲线对路径进行平滑处理提升路径质量。仿真结果表明,在20×20的两种环境中,改进的DDQN算法相比原始DDQN算法收敛速度分别提升69.01%和55.88%,路径长度分别缩短21.39%和14.33%,并且路径平滑度更高。将改进的DDQN算法部署在无人车上进行检验,结果表明无人车能够较好完成路径规划任务。 展开更多
关键词 强化学习 深度q网络 人工势场 路径规划
下载PDF
基于改进DQN算法的考虑船舶配载图的翻箱问题研究
11
作者 梁承姬 花跃 王钰 《重庆交通大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第9期43-49,77,共8页
为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进... 为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进行求解,同时为了提高算法求解的性能,又在原算法的基础上设计了基于启发式算法的阈值和全新的奖励函数以改进算法。通过与其它文献中的实验结果进行对比,结果显示:在计算结果上,改进的DQN算法在各个算例上的结果均优于目前各个启发式算法的最优结果,并且规模越大,结果越好;在训练时间上,改进的DQN算法极大的优于未改进的DQN算法,并且规模越大,节省的时间也更显著。 展开更多
关键词 交通运输工程 海运 集装箱翻箱 船舶配载图 dqn算法
下载PDF
Artificial Potential Field Incorporated Deep-Q-Network Algorithm for Mobile Robot Path Prediction 被引量:3
12
作者 A.Sivaranjani B.Vinod 《Intelligent Automation & Soft Computing》 SCIE 2023年第1期1135-1150,共16页
Autonomous navigation of mobile robots is a challenging task that requires them to travel from their initial position to their destination without collision in an environment.Reinforcement Learning methods enable a st... Autonomous navigation of mobile robots is a challenging task that requires them to travel from their initial position to their destination without collision in an environment.Reinforcement Learning methods enable a state action function in mobile robots suited to their environment.During trial-and-error interaction with its surroundings,it helps a robot tofind an ideal behavior on its own.The Deep Q Network(DQN)algorithm is used in TurtleBot 3(TB3)to achieve the goal by successfully avoiding the obstacles.But it requires a large number of training iterations.This research mainly focuses on a mobility robot’s best path prediction utilizing DQN and the Artificial Potential Field(APF)algorithms.First,a TB3 Waffle Pi DQN is built and trained to reach the goal.Then the APF shortest path algorithm is incorporated into the DQN algorithm.The proposed planning approach is compared with the standard DQN method in a virtual environment based on the Robot Operation System(ROS).The results from the simulation show that the combination is effective for DQN and APF gives a better optimal path and takes less time when compared to the conventional DQN algo-rithm.The performance improvement rate of the proposed DQN+APF in comparison with DQN in terms of the number of successful targets is attained by 88%.The performance of the proposed DQN+APF in comparison with DQN in terms of average time is achieved by 0.331 s.The performance of the proposed DQN+APF in comparison with DQN average rewards in which the positive goal is attained by 85%and the negative goal is attained by-90%. 展开更多
关键词 Artificial potentialfield deep reinforcement learning mobile robot turtle bot deep q network path prediction
下载PDF
基于DQN的雷达智能干扰决策方法
13
作者 曹舒雅 张文旭 +1 位作者 赵桐 马丹 《制导与引信》 2024年第2期11-19,共9页
对不同类型的雷达有源干扰进行了讨论,分析了不同干扰的作用机理,并对其干扰效果进行了仿真。讨论了深度Q-学习网络(deep Q-learning network,DQN)算法在传统算法基础上的改进,以及基于DQN的智能干扰决策流程,并通过仿真实验验证了基于... 对不同类型的雷达有源干扰进行了讨论,分析了不同干扰的作用机理,并对其干扰效果进行了仿真。讨论了深度Q-学习网络(deep Q-learning network,DQN)算法在传统算法基础上的改进,以及基于DQN的智能干扰决策流程,并通过仿真实验验证了基于DQN的干扰决策算法的认知特性,同时测试了其在不稳定环境下的性能。仿真结果表明,采用基于DQN的干扰决策算法,能够使干扰机在缺乏先验知识的未知环境中,通过与环境的交互学习,不断提升干扰策略性能。 展开更多
关键词 雷达有源干扰 智能干扰决策 深度q-学习网络
下载PDF
采用可供性改进DQN的推动-抓取技能学习
14
作者 温凯 李东年 +1 位作者 陈成军 赵正旭 《组合机床与自动化加工技术》 北大核心 2024年第11期34-37,43,共5页
在机器人自主抓取领域,由于抓取对象的大小形状以及分布状态的随机性,仅靠单一的抓取操作完成对工作区域内物体的抓取是十分困难的,而推动和抓取动作的结合可以降低抓取环境的复杂性,通过推动操作可以改变抓取对象的分布以便于更好的抓... 在机器人自主抓取领域,由于抓取对象的大小形状以及分布状态的随机性,仅靠单一的抓取操作完成对工作区域内物体的抓取是十分困难的,而推动和抓取动作的结合可以降低抓取环境的复杂性,通过推动操作可以改变抓取对象的分布以便于更好的抓取。但是推动动作的添加同时也会产生一些无效的推动,会降低模型的学习效率。在基于深度Q网络(deep Q-network,DQN)的视觉推动抓取(visual pushing for grasping,VPG)模型的基础上,提出了一种可供性方案用于简化机器人动作规划空间的搜索复杂度,加快机器人抓取的学习进程。通过减少在任何给定情况下可用的行动数量来实现更快的计划,有助于从数据中更高效和精确地学习模型。最后通过在V-rep仿真平台上的仿真场景验证了所提方法的有效性。 展开更多
关键词 机器人抓取 可供性 深度q网络 深度强化学习
下载PDF
基于DQN的机场加油车动态调度方法研究
15
作者 陈维兴 李业波 《西北工业大学学报》 EI CAS CSCD 北大核心 2024年第4期764-773,共10页
针对实际航班时刻不确定导致机场加油车利用率低、调度实时性差的问题,提出一种结合了多目标深度强化学习框架的深度Q网络加油车动态调度方法。建立了以最大化加油任务准时率以及平均空闲车辆占比为目标的优化模型;设计了5个衡量车辆当... 针对实际航班时刻不确定导致机场加油车利用率低、调度实时性差的问题,提出一种结合了多目标深度强化学习框架的深度Q网络加油车动态调度方法。建立了以最大化加油任务准时率以及平均空闲车辆占比为目标的优化模型;设计了5个衡量车辆当前状态的状态特征作为网络的输入,再根据2种目标提出了2种调度策略作为动作空间,使得算法能够根据航班动态数据实时生成动态调度方案;完成了对机场加油车动态调度模型的求解,并利用不同规模的算例验证了算法的有效性以及实时性。将所提方法应用于实际调度中,结果表明,与人工调度相比,平均每天加油任务准时完成数增加9.43个,车辆平均工作时间减少57.6 min,DQN的结果更具优势,提升了加油车运行效率。 展开更多
关键词 机场加油车 动态调度 深度强化学习 深度q网络 多目标优化
下载PDF
基于DQN算法的货运列车长大下坡运行优化算法研究
16
作者 何之煜 李一楠 +1 位作者 李辉 吉志军 《控制与信息技术》 2024年第4期19-27,共9页
为解决货运列车在长大下坡区段进行循环制动调速时,不合理的制动与缓解时机容易导致列车运行不安全的问题,文章以SS6B型电力机车牵引C80货车作为研究对象,建立基于质量带的列车动力学模型,将列车运行效率、运行安全性以及闸瓦磨损作为... 为解决货运列车在长大下坡区段进行循环制动调速时,不合理的制动与缓解时机容易导致列车运行不安全的问题,文章以SS6B型电力机车牵引C80货车作为研究对象,建立基于质量带的列车动力学模型,将列车运行效率、运行安全性以及闸瓦磨损作为优化目标,综合考虑区段限速和制动缸充风时间约束,提出基于深度Q网络(deepQ-network,DQN)的列车长大下坡优化运行曲线智能生成算法,并通过与环境交互搜寻最优循环制动工况转换点。其利用经验回放和双网络机制对训练样本进行批采样,并通过对神经网络状态输入进行预处理;采用变ε-greedy策略对动作空间可行域进行探索,构建基于值函数的损失函数;通过批梯度下降方法对网络参数进行迭代更新。利用Matlab搭建仿真测试环境,仿真结果表明:通过随机生成入坡速度对列车长大下坡运行任务进行训练,累积奖励随训练次数逐渐收敛,验证了该算法的收敛性和泛化性;训练完成后,不同入坡速度下生成的优化运行曲线能够控制列车在达到限速之前施加空气制动,并在充风结束后缓解,保证了列车安全、高效运行,进一步验证了算法的有效性;另外,通过对不同学习率以及不同网络输入预处理后分布范围的平均累积奖励曲线对比,验证了该算法能够提升收敛速度和稳定性。该研究结果为进一步优化货运列车长大下坡区段运行曲线生成方法、保障列车运行效率和安全提供了参考。 展开更多
关键词 货运列车 长大下坡 运行曲线 深度q网络 神经网络 输入预处理
下载PDF
基于DQN的二次供水系统运行优化研究
17
作者 耿为民 颜军 +1 位作者 谢善斌 万鸣 《计算机应用与软件》 北大核心 2024年第10期393-397,共5页
二次供水系统是饮用水到达用户的最后关键环节,针对二次供水运行中水龄较长影响水质的问题,提出一种基于深度学习Q学习算法(Deep Q-Learning Network,DQN)的运行优化模型。该模型将水压、水龄、能耗优化目标综合计算成对应的奖励,基于... 二次供水系统是饮用水到达用户的最后关键环节,针对二次供水运行中水龄较长影响水质的问题,提出一种基于深度学习Q学习算法(Deep Q-Learning Network,DQN)的运行优化模型。该模型将水压、水龄、能耗优化目标综合计算成对应的奖励,基于水力模拟的运行工况为输入,进水池、水泵的运行指令为输出。以某二次供水系统为例,利用EPANET软件构建水力模型,基于DQN分别对组件运行进行优化。结果显示,优化后均在保证供水压力的前提下达到降低水龄的目标。 展开更多
关键词 二次供水系统 dqn算法 运行优化 水龄
下载PDF
基于改进DQN算法的陶瓷梭式窑温度智能控制
18
作者 朱永红 余英剑 李蔓华 《中国陶瓷工业》 CAS 2024年第5期33-38,共6页
针对陶瓷梭式窑大延迟、非线性、慢时变及强耦合等特点,提出了基于改进DQN算法的陶瓷梭式窑温度智能控制方法。首先,建立了基于BP神经网络的陶瓷梭式窑模型。然后,提出了基于改进DQN算法的智能控制方法。最后,对所提出的方法进行了仿真... 针对陶瓷梭式窑大延迟、非线性、慢时变及强耦合等特点,提出了基于改进DQN算法的陶瓷梭式窑温度智能控制方法。首先,建立了基于BP神经网络的陶瓷梭式窑模型。然后,提出了基于改进DQN算法的智能控制方法。最后,对所提出的方法进行了仿真研究。仿真结果表明,改进的PRDQN算法的温度控制相对误差为0℃~5℃,温度控制效果相对较好。因此,所提出的方法是有效且可行的。 展开更多
关键词 陶瓷梭式窑 深度强化学习 BP神经网络 PRdqn算法
下载PDF
基于DDQN改进方法的“斗地主”策略
19
作者 孔燕 吴晓聪 +1 位作者 芮烨锋 史鸿远 《信息技术》 2024年第5期66-72,80,共8页
基于当前一些已有方法在牌类博弈中训练时间长、动作空间大、胜率低等问题,提出了针对DDQN算法网络架构、编码方式的改进方法。采用二进制对手牌特征进行编码,采用手牌拆分的方法把神经网络分为主牌神经网络和副牌神经网络,并且增加GRU... 基于当前一些已有方法在牌类博弈中训练时间长、动作空间大、胜率低等问题,提出了针对DDQN算法网络架构、编码方式的改进方法。采用二进制对手牌特征进行编码,采用手牌拆分的方法把神经网络分为主牌神经网络和副牌神经网络,并且增加GRU神经网络处理序列动作。经实验表明,该算法训练时间比传统DQN算法缩短了13%,在“地主”和“农民”位置上的平均胜率为70%和75%,高于DQN算法的28%和60%,证明了改进算法在上述部分指标方面的优势。 展开更多
关键词 深度强化学习 Double deep q-learning 计算机博弈 Gate Recurrent Unit神经网络 大规模离散动作空间
下载PDF
基于超级账本和DQN的农产品供应链溯源和管理平台
20
作者 刘海宏 吴睿辉 《贵阳学院学报(自然科学版)》 2024年第2期81-87,共7页
为实现农产品供应链的产品跟踪溯源并改善供应链信息管理,确保消费者的食品安全并提高系统参与者的收益,提出了基于区块链和深度增强学习的农产品供应链管理解决方案。首先,利用超级账本(Hyperledger Fabric)部署基于区块链的农产品供... 为实现农产品供应链的产品跟踪溯源并改善供应链信息管理,确保消费者的食品安全并提高系统参与者的收益,提出了基于区块链和深度增强学习的农产品供应链管理解决方案。首先,利用超级账本(Hyperledger Fabric)部署基于区块链的农产品供应链管理系统,对农产品从产地到终端消费者的交付进行全程监测和跟踪溯源。其后,在数据存储池中利用DQN实现农产品生产和仓储的高效决策,最大化供应链参与成员的利益。最后,利用REST API实现区块链网络与数据存储池模块的通信,支持系统成员实现高效安全的交互。安全性分析和仿真结果表明,所提系统可实现安全、可问责、可审核的去中心化农产品供应链管理,系统响应和查询时间能够满足现实应用需求,且所提DQN算法能够有效改善供应链成员的生产和仓储决策效率。 展开更多
关键词 农产品 供应链 区块链 深度q网络 超级账本 去中心化
下载PDF
上一页 1 2 18 下一页 到第
使用帮助 返回顶部