期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于改进DQN算法的考虑船舶配载图的翻箱问题研究
1
作者 梁承姬 花跃 王钰 《重庆交通大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第9期43-49,77,共8页
为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进... 为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进行求解,同时为了提高算法求解的性能,又在原算法的基础上设计了基于启发式算法的阈值和全新的奖励函数以改进算法。通过与其它文献中的实验结果进行对比,结果显示:在计算结果上,改进的DQN算法在各个算例上的结果均优于目前各个启发式算法的最优结果,并且规模越大,结果越好;在训练时间上,改进的DQN算法极大的优于未改进的DQN算法,并且规模越大,节省的时间也更显著。 展开更多
关键词 交通运输工程 海运 集装箱翻箱 船舶配载图 dqn算法
下载PDF
基于改进DQN算法的陶瓷梭式窑温度智能控制
2
作者 朱永红 余英剑 李蔓华 《中国陶瓷工业》 CAS 2024年第5期33-38,共6页
针对陶瓷梭式窑大延迟、非线性、慢时变及强耦合等特点,提出了基于改进DQN算法的陶瓷梭式窑温度智能控制方法。首先,建立了基于BP神经网络的陶瓷梭式窑模型。然后,提出了基于改进DQN算法的智能控制方法。最后,对所提出的方法进行了仿真... 针对陶瓷梭式窑大延迟、非线性、慢时变及强耦合等特点,提出了基于改进DQN算法的陶瓷梭式窑温度智能控制方法。首先,建立了基于BP神经网络的陶瓷梭式窑模型。然后,提出了基于改进DQN算法的智能控制方法。最后,对所提出的方法进行了仿真研究。仿真结果表明,改进的PRDQN算法的温度控制相对误差为0℃~5℃,温度控制效果相对较好。因此,所提出的方法是有效且可行的。 展开更多
关键词 陶瓷梭式窑 深度强化学习 BP神经网络 PRdqn算法
下载PDF
基于DQN的旋翼无人机着陆控制算法 被引量:2
3
作者 唐进 梁彦刚 +1 位作者 白志会 黎克波 《系统工程与电子技术》 EI CSCD 北大核心 2023年第5期1451-1460,共10页
针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化... 针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化为马尔可夫决策过程。其次,设计分别考虑无人机横向和纵向控制过程的奖励函数,将着陆控制问题转入强化学习框架。然后,采用深度Q网络(deep Q network,DQN)算法求解该强化学习问题,通过大量训练得到着陆控制智能体。最后,通过多种工况下的着陆平台进行大量的数值模拟和仿真分析,验证了算法的有效性。 展开更多
关键词 深度强化学习 马尔可夫决策过程 深度Q网络算法 旋翼无人机 着陆控制
下载PDF
基于改进DQN算法的机器人路径规划 被引量:4
4
作者 李奇儒 耿霞 《计算机工程》 CAS CSCD 北大核心 2023年第12期111-120,共10页
传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内... 传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内获取最优路径。为了解决上述问题,提出一种改进的ERDQN算法。通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下一次出现该状态的概率越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离,重新设计奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值,从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明,与DQN算法相比,ERDQN算法的平均得分提高了18.9%,规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。 展开更多
关键词 深度Q网络算法 路径规划 深度强化学习 状态探索 奖励函数 避障
下载PDF
深度强化学习驱动下的智能电网通信网业务路由分配方法研究
5
作者 胡楠 张维 《通信电源技术》 2024年第10期43-45,共3页
在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析... 在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析,以提高通信资源利用率,提升业务路由方法的稳定性和可靠性。 展开更多
关键词 智能电网 通信网 深度Q网络(dqn)算法 异步优势演员-评论家(A3C)算法 深度学习
下载PDF
基于正交试验的感应控制参数组合优化 被引量:2
6
作者 王志建 龙顺忠 李颖宏 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第6期1128-1136,共9页
针对随机流量波动较大的交叉口,提出优化感应控制策略,采用正交试验方法获取最优控制参数组合.将最大排队长度作为通行需求阈值来优化感应控制逻辑,将设置的3种相位切换机制(优先排队、优先延误和固定顺序)加入感应控制参数组合中.在SUM... 针对随机流量波动较大的交叉口,提出优化感应控制策略,采用正交试验方法获取最优控制参数组合.将最大排队长度作为通行需求阈值来优化感应控制逻辑,将设置的3种相位切换机制(优先排队、优先延误和固定顺序)加入感应控制参数组合中.在SUMO仿真中,模拟北京市北辰西路与科荟南路交叉口环境,采用正交试验方法筛选出不同交通流量下感应控制的最优参数组合.设计对比实验验证最优参数组合的有效性,将最优参数组合应用在深度Q学习(DQN)算法中进一步优化感应控制.结果表明,正交试验方法能够快速有效地获取最优参数组合;在低、中等交通流量下,与未使用最优参数组合的DQN算法相比,使用最优参数组合的DQN算法的收敛速度分别增加了48.14%、38.89%,平均累计车均延误分别减少了8.45%、7.09%. 展开更多
关键词 信号交叉口 感应控制 影响参数 正交试验 深度Q学习(dqn)算法
下载PDF
基于强化学习的改进NSGA-Ⅱ算法的城市快速路入口匝道控制
7
作者 陈娟 郭琦 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期666-680,共15页
为了缓解城市快速路拥堵和尾气排放问题,提出了基于竞争结构和深度循环Q网络的改进非支配排序遗传算法(non-dominated sorting genetic algorithm Ⅱ based on dueling deep recurrent Q network, DRQN-NSGA-Ⅱ).该算法结合了基于竞争... 为了缓解城市快速路拥堵和尾气排放问题,提出了基于竞争结构和深度循环Q网络的改进非支配排序遗传算法(non-dominated sorting genetic algorithm Ⅱ based on dueling deep recurrent Q network, DRQN-NSGA-Ⅱ).该算法结合了基于竞争结构的深度Q网络(dueling deep Q network, Dueling DQN)、深度循环Q网络(deep recurrent Q network, DRQN)和NSGA-Ⅱ算法,将Dueling DRQN-NSGA-Ⅱ算法用于匝道控制问题.除了考虑匝道车辆汇入以提高快速路通行效率外,还考虑了环境和能源指标,将尾气排放和燃油消耗作为评价指标.除了与无控制情况及其他算法进行比较之外, Dueling DRQN-NSGA-Ⅱ还与NSGA-Ⅱ算法进行了比较.实验结果表明:与无控制情况相比,本算法能有效改善路网通行效率、缓解环境污染、减少能源损耗;相对于无控制情况,总花费时间(total time spent, TTS)减少了16.14%,总尾气排放(total emissions, TE)减少了9.56%,总燃油消耗(total fuel consumption, TF)得到了43.49%的改善. 展开更多
关键词 匝道控制 基于竞争结构的深度Q网络 深度循环Q网络 非支配排序遗传算法
下载PDF
基于深度强化学习的暂态稳定紧急控制决策方法 被引量:5
8
作者 李宏浩 张沛 刘曌 《电力系统自动化》 EI CSCD 北大核心 2023年第5期144-152,共9页
随着广域测量系统在暂态稳定控制中的应用,广域信息的随机性时滞造成了系统受控时状态的不确定性,并且切机和切负荷控制的离散决策变量维度极高,电网在线紧急控制决策面临着挑战。为此,将暂态稳定紧急控制问题建模为马尔可夫决策问题,... 随着广域测量系统在暂态稳定控制中的应用,广域信息的随机性时滞造成了系统受控时状态的不确定性,并且切机和切负荷控制的离散决策变量维度极高,电网在线紧急控制决策面临着挑战。为此,将暂态稳定紧急控制问题建模为马尔可夫决策问题,提出一种深度Q网络(DQN)强化学习与暂态能量函数相结合的紧急控制决策方法,多步序贯决策过程中可应对紧急控制的时滞不确定性影响。奖励函数以考虑控制目标和约束条件的短期奖励函数和考虑稳定性的长期奖励函数构成,并在奖励函数中引入暂态能量函数的势能指数来提高学习效率。以最大化累计奖励为目标,通过DQN算法在离散化动作空间中学习得到最优紧急控制策略,解决暂态稳定紧急控制问题。所提方法通过IEEE 39节点系统验证了模型在紧急控制决策中的有效性。 展开更多
关键词 深度强化学习 暂态稳定 紧急控制决策 暂态能量函数 深度Q网络(dqn)算法 时滞
下载PDF
好奇心蒸馏双Q网络移动机器人路径规划方法 被引量:1
9
作者 张凤 顾琦然 袁帅 《计算机工程与应用》 CSCD 北大核心 2023年第19期316-322,共7页
针对移动机器人的路径规划中DQN算法存在过估计、样本利用率低、奖励稀疏等,从而影响机器人获取最优路径的问题,提出基于好奇心蒸馏模块竞争架构的双Q网络(curiosity distillation module dueling deep double Q-network prioritized ex... 针对移动机器人的路径规划中DQN算法存在过估计、样本利用率低、奖励稀疏等,从而影响机器人获取最优路径的问题,提出基于好奇心蒸馏模块竞争架构的双Q网络(curiosity distillation module dueling deep double Q-network prioritized experience replay,CDM-D3QN-PER)方法。该方法以D3QN为基础,在输入端添加长短时记忆网络(long short term memory,LSTM)处理雷达和相机的信息,降低过估计的影响,获得更有利的环境信息;采用优先经验回放机制(prioritized experience replay,PER)作为采样方法,使样本得到充分利用,提高样本利用率;引入好奇心蒸馏模块(curiosity distillation module,CDM),缓解奖励稀疏的问题。通过仿真实验与DQN、DDQN、D3QN相比,CDM-D3QN-PER算法训练的机器人到达目标点的次数明显增加,为DQN算法的3倍。该算法使奖励值得到提升,加快了收敛速度,能够在复杂的未知环境中获得最优路径。 展开更多
关键词 dqn算法 D3QN算法 好奇心蒸馏模块 长短时记忆网络(LSTM) 最优路径
下载PDF
基于深度强化学习的增程式电动轻卡能量管理策略 被引量:1
10
作者 段龙锦 王贵勇 +1 位作者 王伟超 何述超 《内燃机工程》 CAS CSCD 北大核心 2023年第6期90-99,共10页
为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,T... 为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法的实时能量管理策略,以发动机燃油消耗量、电池荷电状态(state of charge,SOC)变化等为优化目标,在世界轻型车辆测试程序(world light vehicle test procedure,WLTP)中对深度强化学习智能体进行训练。仿真结果表明,利用不同工况验证了基于TD3算法的能量管理策略(energy management strategy,EMS)具有较好的稳定性和适应性;TD3算法实现对发动机转速和转矩连续控制,使得输出功率更加平滑。将基于TD3算法的EMS与基于传统深度Q网络(deep Q-network,DQN)算法和深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行对比分析,结果表明:基于TD3算法的EMS燃油经济性分别相比基于DQN算法和DDPG算法提高了12.35%和0.67%,达到基于动态规划(dynamic programming,DP)算法的94.85%,收敛速度相比基于DQN算法和DDPG算法分别提高了40.00%和47.60%。 展开更多
关键词 深度Q网络 深度确定性策略梯度 双延迟深度确定性策略梯度算法 增程式电动轻卡
下载PDF
基于深度强化学习的多阶段信息物理协同拓扑攻击方法 被引量:1
11
作者 伊娜 徐建军 +1 位作者 陈月 孙迪康 《电力工程技术》 北大核心 2023年第4期149-158,共10页
随着智能电网的发展及通信设备不断引入到信息物理系统(cyber physical system,CPS)中,CPS正面临一种破坏性更强的新型攻击方式——信息物理协同攻击(coordinated cyber physical attack,CCPA),其隐蔽性与威胁性易导致系统出现级联故障... 随着智能电网的发展及通信设备不断引入到信息物理系统(cyber physical system,CPS)中,CPS正面临一种破坏性更强的新型攻击方式——信息物理协同攻击(coordinated cyber physical attack,CCPA),其隐蔽性与威胁性易导致系统出现级联故障。首先,基于攻击者的视角,提出一种多阶段信息物理协同拓扑攻击模型,单阶段的物理攻击使线路中断,双阶段的网络攻击分别用来掩盖物理攻击的断开线路和制造一条新的虚假断开线路。其次,结合深度强化学习(deep reinforcement learning,DRL)理论,提出一种基于深度Q网络(deep Q-network,DQN)的最小攻击资源确定方法。然后,给出攻击者考虑上层最大化物理攻击效果和下层最小化攻击代价的具体模型及求解方法。最后,以IEEE 30节点系统为例,验证了所提多阶段攻击模型的有效性。仿真结果表明,多阶段信息物理协同拓扑攻击较单一攻击更加隐蔽且有效,对电网的破坏程度更大,为防御此类攻击提供了参考。 展开更多
关键词 信息物理系统(CPS) 信息物理协同攻击(CCPA) 拓扑攻击 负荷重分配攻击 深度强化学习(DRL) 深度Q网络(dqn)算法
下载PDF
基于深度强化学习的应急通信网规划方法 被引量:1
12
作者 陈浩然 朱巍 于胜 《指挥控制与仿真》 2023年第1期150-156,共7页
应急通信具有较强的突发性和不确定性,为满足应急通信网规划中灵活快速组网的要求,根据不同层次网络特点,进行网络拓扑结构分层建模描述,应用深度强化学习算法,实现拓扑结构生成,并通过算法优化其生成效率,依据业务特点,按策略分配应急... 应急通信具有较强的突发性和不确定性,为满足应急通信网规划中灵活快速组网的要求,根据不同层次网络特点,进行网络拓扑结构分层建模描述,应用深度强化学习算法,实现拓扑结构生成,并通过算法优化其生成效率,依据业务特点,按策略分配应急通信网业务资源,实现完整的应急通信网规划,最后通过样例仿真,验证了应急通信网模型及算法的科学性和高效性,为应急通信网的规划提供参考。 展开更多
关键词 应急通信网 通信网络规划 深度强化学习 dqn算法
下载PDF
一种车载服务的快速深度Q学习网络边云迁移策略 被引量:8
13
作者 彭军 王成龙 +3 位作者 蒋富 顾欣 牟玥玥 刘伟荣 《电子与信息学报》 EI CSCD 北大核心 2020年第1期58-64,共7页
智能网联交通系统中车载用户的高速移动,不可避免地造成了数据在边缘服务器之间频繁迁移,产生了额外的通信回传时延,对边缘服务器的实时计算服务带来了巨大的挑战。为此,该文提出一种基于车辆运动轨迹的快速深度Q学习网络(DQN-TP)边云... 智能网联交通系统中车载用户的高速移动,不可避免地造成了数据在边缘服务器之间频繁迁移,产生了额外的通信回传时延,对边缘服务器的实时计算服务带来了巨大的挑战。为此,该文提出一种基于车辆运动轨迹的快速深度Q学习网络(DQN-TP)边云迁移策略,实现数据迁移的离线评估和在线决策。车载决策神经网络实时获取接入的边缘服务器网络状态和通信回传时延,根据车辆的运动轨迹进行虚拟机或任务迁移的决策,同时将实时的决策信息和获取的边缘服务器网络状态信息发送到云端的经验回放池中;评估神经网络在云端读取经验回放池中的相关信息进行网络参数的优化训练,定时更新车载决策神经网络的权值,实现在线决策的优化。最后仿真验证了所提算法与虚拟机迁移算法和任务迁移算法相比能有效地降低时延。 展开更多
关键词 智能网联交通系统 虚拟机迁移 强化学习 深度Q学习网络
下载PDF
多指标优化的深度强化学习单交叉口信号控制 被引量:4
14
作者 任安虎 任洋洋 王瑶 《国外电子测量技术》 北大核心 2022年第10期104-111,共8页
针对目前交叉口信号灯的控制方法无法有效的应对实时变化的交通状态。该算法提出多指标优化的深度强化学习单交叉口信号控制,以共同优化多指标来定义奖惩函数,动作的选择策略为贪心策略,其中探索率以固定的频率进行余弦衰减,在足够多的... 针对目前交叉口信号灯的控制方法无法有效的应对实时变化的交通状态。该算法提出多指标优化的深度强化学习单交叉口信号控制,以共同优化多指标来定义奖惩函数,动作的选择策略为贪心策略,其中探索率以固定的频率进行余弦衰减,在足够多的探索未知动作的基础上也保证了更好的收敛结果,最后使用SUMO仿真平台对该算法的控制效果进行验证。结果表明,该算法相比固定配时方案和感应控制方案,能够更有效的降低交叉口车辆的延误时间、排队长度、停车次数3项指标,具有更好的适用性跟有效性。 展开更多
关键词 交通信号控制 卷积神经网络 深度强化学习 多指标优化 dqn算法 SUMO仿真
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部