期刊文献+
共找到54篇文章
< 1 2 3 >
每页显示 20 50 100
基于改进DQN算法的无人仓多AGV路径规划 被引量:1
1
作者 谢勇 郑绥君 +1 位作者 程念胜 朱洪君 《工业工程》 2024年第1期36-44,53,共10页
针对无人仓中多AGV路径规划与冲突问题,以最小化总行程时间为目标,建立多AGV路径规划模型,提出一种基于动态决策的改进DQN算法。算法设计了基于单AGV静态路径规划的经验知识模型,指导AGV的学习探索方向,提前规避冲突与障碍物,加快算法... 针对无人仓中多AGV路径规划与冲突问题,以最小化总行程时间为目标,建立多AGV路径规划模型,提出一种基于动态决策的改进DQN算法。算法设计了基于单AGV静态路径规划的经验知识模型,指导AGV的学习探索方向,提前规避冲突与障碍物,加快算法收敛。同时提出基于总行程时间最短的冲突消解策略,从根本上解决多AGV路径冲突与死锁问题。最后,建立无人仓栅格地图进行仿真实验。结果表明,本文提出的模型和算法较其他DQN算法收敛速度提升13.3%,平均损失值降低26.3%。这说明该模型和算法有利于规避和化解无人仓多AGV路径规划冲突,减少多AGV总行程时间,对提高无人仓作业效率具有重要指导意义。 展开更多
关键词 多AGV 路径规划 dqn算法 经验知识 冲突消解
下载PDF
Automatic Driving Operation Strategy of Urban Rail Train Based on Improved DQN Algorithm
2
作者 Tian Lu Bohong Liu 《Journal on Artificial Intelligence》 2023年第1期113-129,共17页
To realize a better automatic train driving operation control strategy for urban rail trains,an automatic train driving method with improved DQN algorithm(classical deep reinforcement learning algorithm)is proposed as... To realize a better automatic train driving operation control strategy for urban rail trains,an automatic train driving method with improved DQN algorithm(classical deep reinforcement learning algorithm)is proposed as a research object.Firstly,the train control model is established by considering the train operation requirements.Secondly,the dueling network and DDQN ideas are introduced to prevent the value function overestimation problem.Finally,the priority experience playback and“restricted speed arrival time”are used to reduce the useless experience utilization.The experiments are carried out to verify the train operation strategy method by simulating the actual line conditions.From the experimental results,the train operation meets the ATO requirements,the energy consumption is 15.75%more energy-efficient than the actual operation,and the algorithm convergence speed is improved by about 37%.The improved DQN method not only enhances the efficiency of the algorithm but also forms a more effective operation strategy than the actual operation,thereby contributing meaningfully to the advancement of automatic train operation intelligence. 展开更多
关键词 dqn algorithm automatic train operation(ATO) operation strategy urban rail train
下载PDF
基于DQN算法的农用无人车作业路径规划
3
作者 庄金炜 张晓菲 +1 位作者 尹琪东 陈克 《沈阳理工大学学报》 CAS 2024年第4期32-37,共6页
传统农用无人车作业时常依据人工经验确定作业路线,面对复杂的作业环境时无法保证路径规划的高效性,且传统覆盖路径规划方法聚焦于覆盖率而忽略了车辆作业路线上的损耗。为此,提出一种以减少车辆在路线上的损耗为目标的最优全局覆盖路... 传统农用无人车作业时常依据人工经验确定作业路线,面对复杂的作业环境时无法保证路径规划的高效性,且传统覆盖路径规划方法聚焦于覆盖率而忽略了车辆作业路线上的损耗。为此,提出一种以减少车辆在路线上的损耗为目标的最优全局覆盖路径规划方法。以深度Q网络(DQN)算法为基础,根据作业时车辆的真实轨迹创建奖励策略(RLP),对车辆在路线上的损耗进行优化,减少车辆的转弯数、掉头数及重复作业面积,设计了RLP-DQN算法。仿真实验结果表明,对比遗传算法、A~*算法等传统路径规划方法,本文RLP-DQN算法综合性能较好,可在实现全覆盖路径规划的同时有效减少路线损耗。 展开更多
关键词 农用无人车 路径规划 深度强化学习 dqn算法
下载PDF
未知环境下基于Dueling DQN的无人机路径规划研究
4
作者 赵恬恬 孔建国 +1 位作者 梁海军 刘晨宇 《现代计算机》 2024年第5期37-43,共7页
为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;... 为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;最后在仿真环境中对DQN和Dueling DQN展开训练,结果表明:①Dueling DQN能规划出未知环境下从初始点到目标点的无碰撞路径,且能获得更高的奖励值;②经过50000次训练,Dueling DQN的成功率比DQN提高17.71%,碰撞率减少1.57%,超过最长步长率降低16.14%。 展开更多
关键词 无人机 路径规划 深度强化学习 Dueling dqn算法
下载PDF
基于DQN出价策略的多无人机目标分配拍卖算法
5
作者 陈梓豪 胡春鹤 《聊城大学学报(自然科学版)》 2024年第4期23-32,共10页
为实现多无人机监测目标分配任务匹配度、成功率等收益最大化及路径长度、障碍物碰撞风险等代价最小化,基于数据样本驱动的强化学习方法,提出了一种融合深度Q网络(Deep Q-network,DQN)出价策略的自主进化拍卖算法。首先,构建了多无人机... 为实现多无人机监测目标分配任务匹配度、成功率等收益最大化及路径长度、障碍物碰撞风险等代价最小化,基于数据样本驱动的强化学习方法,提出了一种融合深度Q网络(Deep Q-network,DQN)出价策略的自主进化拍卖算法。首先,构建了多无人机任务目标拍卖的马尔科夫决策模型,并且分别以竞拍者剩余竞拍容量为环境,输出增价因子为动作,前后两轮拍卖收益增幅为回报。其次,构建了新型的DQN出价和竞拍决策神经网络模型。该模型通过构建包含拍卖环境、增价因子、回报等元素的强化学习训练样本库,在拍卖过程中以一种离线学习模式不断训练DQN神经网络,使其按照DQN策略在拍卖过程中,根据拍卖环境输出增价因子,实现拍卖结果收益的优化。最后,通过多无人机多监测目标分配仿真,验证了所提出基于DQN拍卖机制的目标分配方法的有效性。通过与传统拍卖算法结果相比,方法获得的拍卖收益提升21.4%。 展开更多
关键词 多无人机 拍卖算法 dqn 多目标分配 拍卖收益
下载PDF
基于改进DQN的移动机器人避障路径规划
6
作者 田箫源 董秀成 《中国惯性技术学报》 EI CSCD 北大核心 2024年第4期406-416,共11页
针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效... 针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效率和成功率。其次提出奖励优化方法,利用状态间的访问次数差异给予奖励,平衡状态点的访问次数,避免过度访问;同时通过计算与目标点的欧氏距离,使其偏向于选择接近目标的路径,并取消远离目标惩罚,实现奖励机制的自适应优化。最后设计了动态探索因子函数,在后期训练中侧重利用强化学习策略选取动作和学习,提高算法性能和学习效率。实验仿真结果显示,与传统DQN算法相比,改进算法在训练时间上缩短了40.25%,避障成功率上提升了79.8%以及路径长度上缩短了2.25%,均体现了更好的性能。 展开更多
关键词 移动机器人 dqn算法 路径规划 避障 深度强化学习
下载PDF
基于DQN算法的泵站供水系统节能控制优化
7
作者 陈财会 张天 +3 位作者 黄健康 金典 王卓悦 张小磊 《净水技术》 CAS 2024年第4期60-67,127,共9页
针对手动调节泵站中水泵运行的转速和启停会造成严重的能量浪费问题,引入基于深度Q网络(deep Q-learning network,DQN)的强化学习算法,通过获取当前泵组运行的状态,自动优化水泵组工作时各个水泵的运行参数,在各个水泵均处于高效区的前... 针对手动调节泵站中水泵运行的转速和启停会造成严重的能量浪费问题,引入基于深度Q网络(deep Q-learning network,DQN)的强化学习算法,通过获取当前泵组运行的状态,自动优化水泵组工作时各个水泵的运行参数,在各个水泵均处于高效区的前提下,提高水泵组的整体效率。对水泵组状态优化问题分别进行了数学描述和马尔可夫决策过程描述。同时定义了水泵组运行时的状态空间、动作空间和即时奖励值,构建DQN网络,并以深圳市M水厂为算例,在由Gym构建的自定义仿真环境中进行验证。相较于人工调控,DQN算法调控降低了8.84%的损失能耗,一年可节省吨水电耗达1.27×10^(-2) kW·h/t,实现了节能减排,具有良好的经济效能。同时,DQN算法可通过在线学习的方式适应供水环境的变化,具有自主性、实时性、可推广性等优点。 展开更多
关键词 泵站供水 优化调度 dqn算法 马尔可夫决策过程 节能减排
下载PDF
基于输出层具有噪声的DQN的无人车路径规划 被引量:2
8
作者 李杨 闫冬梅 刘磊 《应用数学和力学》 CSCD 北大核心 2023年第4期450-460,共11页
在DQN算法的框架下,研究了无人车路径规划问题.为提高探索效率,将处理连续状态的DQN算法加以变化地应用到离散状态,同时为平衡探索与利用,选择仅在DQN网络输出层添加噪声,并设计了渐进式奖励函数,最后在Gazebo仿真环境中进行实验.仿真... 在DQN算法的框架下,研究了无人车路径规划问题.为提高探索效率,将处理连续状态的DQN算法加以变化地应用到离散状态,同时为平衡探索与利用,选择仅在DQN网络输出层添加噪声,并设计了渐进式奖励函数,最后在Gazebo仿真环境中进行实验.仿真结果表明:①该策略能快速规划出从初始点到目标点的无碰撞路线,与Q-learning算法、DQN算法和noisynet_DQN算法相比,该文提出的算法收敛速度更快;②该策略关于初始点、目标点、障碍物具有泛化能力,验证了其有效性与鲁棒性. 展开更多
关键词 深度强化学习 无人车 dqn算法 Gauss噪声 路径规划 Gazebo仿真
下载PDF
基于改进DQN算法的机器人路径规划 被引量:3
9
作者 李奇儒 耿霞 《计算机工程》 CAS CSCD 北大核心 2023年第12期111-120,共10页
传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内... 传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内获取最优路径。为了解决上述问题,提出一种改进的ERDQN算法。通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下一次出现该状态的概率越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离,重新设计奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值,从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明,与DQN算法相比,ERDQN算法的平均得分提高了18.9%,规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。 展开更多
关键词 深度Q网络算法 路径规划 深度强化学习 状态探索 奖励函数 避障
下载PDF
基于DQN的旋翼无人机着陆控制算法 被引量:1
10
作者 唐进 梁彦刚 +1 位作者 白志会 黎克波 《系统工程与电子技术》 EI CSCD 北大核心 2023年第5期1451-1460,共10页
针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化... 针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化为马尔可夫决策过程。其次,设计分别考虑无人机横向和纵向控制过程的奖励函数,将着陆控制问题转入强化学习框架。然后,采用深度Q网络(deep Q network,DQN)算法求解该强化学习问题,通过大量训练得到着陆控制智能体。最后,通过多种工况下的着陆平台进行大量的数值模拟和仿真分析,验证了算法的有效性。 展开更多
关键词 深度强化学习 马尔可夫决策过程 深度Q网络算法 旋翼无人机 着陆控制
下载PDF
改进DQN算法在WSNs资源分配中的应用 被引量:1
11
作者 郑岚 徐丽萍 《成都工业学院学报》 2023年第6期56-60,共5页
无线传感器网络(WSNs)资源分配不均,容易引起网络服务中断或假警报等情况发生。为此提出一种改进的深度Q网络(DQN)算法,以提升WSNs资源的分配效率。首先搭建WSNs拓扑结构,并给出WSNs的网络属性,基于误码率最小化、网络链路容量最大化、... 无线传感器网络(WSNs)资源分配不均,容易引起网络服务中断或假警报等情况发生。为此提出一种改进的深度Q网络(DQN)算法,以提升WSNs资源的分配效率。首先搭建WSNs拓扑结构,并给出WSNs的网络属性,基于误码率最小化、网络链路容量最大化、资源分配负载均衡度最大化、网络节点能耗最小化等复合条件,建立目标函数及约束条件的多目标优化模型。然后,针对DQN算法的过估计问题和随机经验回放机制进行改进,利用改进DQN算法求取多目标优化模型最优解,得出WSNs资源分配方案。结果表明:与传统分配方案相比,改进DQN资源分配方案的传输延迟更低,节点总能耗更小,具有更好的实际应用效果。 展开更多
关键词 改进dqn算法 无线传感器网络 多目标优化模型 网络资源 分配方案
下载PDF
基于DQN算法的电力仿生机器狗步态规划
12
作者 苗俊杰 郭猛 +1 位作者 邹捷 王爽 《微型电脑应用》 2023年第3期47-51,共5页
传统仿生机器狗步态规划需构建动力学模型,对此提出一种基于DQN的仿生机器狗步态规划方法。结合DQN算法的基本原理,将DQN算法与仿生机器狗控制器结合,进而大量训练仿生机器狗的DQN控制器,设置DQN的参数和计算DQN的奖励函数,并在Webhots... 传统仿生机器狗步态规划需构建动力学模型,对此提出一种基于DQN的仿生机器狗步态规划方法。结合DQN算法的基本原理,将DQN算法与仿生机器狗控制器结合,进而大量训练仿生机器狗的DQN控制器,设置DQN的参数和计算DQN的奖励函数,并在Webhots仿真环境中对四足机器狗进行训练,得到四足仿生机器狗运动的翻滚角、俯仰角以及损失函数的变化。结果表明,通过DQN训练得到的仿生机器狗的翻滚角、俯仰角和损失函数都能趋于稳定,说明机器狗能快速平稳地完成步态运动,证实了DQN控制器的有效性,可为四足机器狗的步态生成提供新的方案。 展开更多
关键词 仿生机器狗 步态规划 强化学习 dqn算法
下载PDF
基于改进DQN算法的机器人路径规划
13
作者 马浩东 陈玲玲 金小杭 《电脑与电信》 2023年第11期37-41,共5页
为了解决机器人路径规划到达目标点困难,以及容易碰撞的问题,研究提出一种改进的DQN算法并命名为MDQN,通过改变状态空间的设置,能更准确地区分不同的状态,得到一个更符合实际的观测空间;通过改变奖励函数,能够获得更有价值的奖励值,从... 为了解决机器人路径规划到达目标点困难,以及容易碰撞的问题,研究提出一种改进的DQN算法并命名为MDQN,通过改变状态空间的设置,能更准确地区分不同的状态,得到一个更符合实际的观测空间;通过改变奖励函数,能够获得更有价值的奖励值,从而提高学习效率。实验在栅格地图中进行,在Pycharm平台上仿真,结果表明,改进的算法与传统DQN算法相比,具有更高的奖励值、能够顺利到达目标点,且路径更短等优点。 展开更多
关键词 路径规划 dqn算法 状态空间 奖励函数 栅格法
下载PDF
基于DQN算法的多微网非计划孤岛切换策略
14
作者 贺旭辉 褚四虎 +1 位作者 张羽 张雪菲 《东北电力技术》 2023年第8期14-18,共5页
配电网发生故障时,多微网会发生非计划孤岛对内部负荷供电产生较大冲击。针对这一问题,提出一种基于深度Q网络(deep Q network,DQN)算法的多微网非计划孤岛切换策略。首先,利用多微网非计划孤岛过程中的源荷储信息进行马尔科夫决策过程... 配电网发生故障时,多微网会发生非计划孤岛对内部负荷供电产生较大冲击。针对这一问题,提出一种基于深度Q网络(deep Q network,DQN)算法的多微网非计划孤岛切换策略。首先,利用多微网非计划孤岛过程中的源荷储信息进行马尔科夫决策过程建模,并利用DQN算法对多微网的运行环境进行探索式学习,以找到最佳的减载策略。其次,执行该减载策略弥补由于非计划孤岛造成的多微网系统内部功率缺额,以保证多微网频率恢复正常并使减载损失最小。最后,基于改进IEEE-33节点的多微网模型对所提策略性能进行测试,测试结果表明了该策略的可行性和有效性。 展开更多
关键词 多微网 非计划孤岛 dqn算法 低频减载
下载PDF
基于强化学习DQN算法的智能决策模型研究
15
作者 韩中华 《现代计算机》 2023年第14期52-56,共5页
针对强化学习DQN算法的三个优化因子(即Dueling、Double⁃Q以及Prioritized⁃replay)之间是否存在相互促进或抑制的关系,对三个优化因子之间进行随意组合作为交易策略进行研究,并将2020年9月2日至2022年9月2日期间雅虎金融网站上的HDFC银... 针对强化学习DQN算法的三个优化因子(即Dueling、Double⁃Q以及Prioritized⁃replay)之间是否存在相互促进或抑制的关系,对三个优化因子之间进行随意组合作为交易策略进行研究,并将2020年9月2日至2022年9月2日期间雅虎金融网站上的HDFC银行股票的收盘价作为研究对象。研究结果发现,相较于基线模型,Dueling对股票短期收益预测最为贴合实际,并且对Double⁃Q与Prioritized⁃replay起到了促进作用;Prioritized⁃replay对Double-Q与Dueling起到了抑制作用,而Double⁃Q则对Prioritized⁃replay与Dueling未起到显著性改变。鉴于DQN算法在股票短期收益预测的随机性与预测精度的问题,其未来在金融预测领域将会有更好的应用前景。 展开更多
关键词 dqn算法 深度学习 股票收益预测
下载PDF
基于深度强化学习的自学习排课遗传算法研究
16
作者 徐海涛 程海燕 童名文 《计算机科学》 CSCD 北大核心 2024年第S01期229-236,共8页
排课是教学活动中一项常规而重要的事项,传统的人工排课方式费时费力,且容易出现错误,无法满足大规模排课的需求,而经典排课遗传算法存在收敛速度过快、排课效率随约束因素的增加而下降等问题。针对已有排课遗传算法存在的问题,提出一... 排课是教学活动中一项常规而重要的事项,传统的人工排课方式费时费力,且容易出现错误,无法满足大规模排课的需求,而经典排课遗传算法存在收敛速度过快、排课效率随约束因素的增加而下降等问题。针对已有排课遗传算法存在的问题,提出一种基于深度强化学习的自学习排课遗传算法(GA-DRL)。GA-DRL算法利用Q-learning算法,实现了交叉参数和变异参数的自适应调整,增强了遗传算法的搜索能力,通过建立马尔可夫决策过程(MDP)的参数动态调整模型,对种群适应度函数进行状态集合的分析,实现对种群的整体性能的综合评价。同时将深度Q-网络算法(DQN)引入调度问题中,以解决排课中种群状态多、Q表数据量大的问题。实验结果表明,与经典排课遗传算法和改进的遗传算法相比,GA-DRL算法在正确率和寻优能力上有所提升。所提算法还可以应用于考场安排、电影院的排座和航空航线规划等问题。 展开更多
关键词 排课问题 遗传算法 Q-学习 深度Q-网络
下载PDF
城轨列车深度强化学习节能优化控制方法
17
作者 郭啸 孟建军 +3 位作者 陈晓强 胥如迅 李德仓 宋明瑞 《铁道标准设计》 北大核心 2024年第7期185-191,217,共8页
为提高城轨列车自动驾驶(Automatic Train Operation,ATO)的控制性能,针对城轨ATO目标速度曲线追踪控制方法中工况切换频繁、牵引能耗高等问题,以列车准点、精准停车和能耗为优化目标,设计了一种以时间冗余(Time Redundancy,TR)规划参... 为提高城轨列车自动驾驶(Automatic Train Operation,ATO)的控制性能,针对城轨ATO目标速度曲线追踪控制方法中工况切换频繁、牵引能耗高等问题,以列车准点、精准停车和能耗为优化目标,设计了一种以时间冗余(Time Redundancy,TR)规划参考系统为主动约束的列车深度强化学习DQN控制方法。建立了城轨列车动力学模型和多目标优化适应度函数;定义了TR规划参考系统约束下的DQN列车控制器,并对控制器中的动作空间和奖励函数进行设置;最后规定了列车控制器神经网络更新方法,利用随机梯度下降算法更新Q网络参数。结果表明:加入以TR时间规划参考系统为约束的TR-DQN算法提高了DQN迭代收敛速度以及迭代训练过程中的稳定性;TR-DQN动态调整列车运行策略的控制方法相比传统目标速度曲线追踪PID算法能耗降低12.32%,列车站间工况切换频率较低;针对设置的3种不同站间规划时间,列车牵引能耗依次降低7.5%和6.4%,列车站间工况动态切换频率和牵引能耗随行程规划时间增大而降低。 展开更多
关键词 城市轨道交通 列车自动驾驶 时间规划系统 节能运行 深度强化学习 dqn算法
下载PDF
基于Double-DQN的中央空调系统节能优化运行 被引量:10
18
作者 闫军威 黄琪 周璇 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第1期135-144,共10页
针对中央空调系统机理建模困难和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和自学习机制的中央空调系统节能优化运行方法;设计了空调系统马尔可夫决策过程模型,采用具有双神经网络结构的强化学习算法解决学习过程中容易产... 针对中央空调系统机理建模困难和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和自学习机制的中央空调系统节能优化运行方法;设计了空调系统马尔可夫决策过程模型,采用具有双神经网络结构的强化学习算法解决学习过程中容易产生的维数灾难和值函数过估计问题.然后以广州市某办公建筑中央空调系统为研究对象,建立该系统的TRNSYS仿真平台,对算法的有效性进行了验证.仿真结果表明:该方法在满足室内热舒适性要求的前提下,以系统能耗最小为目标,实现了系统的节能优化运行;与PID控制和单神经网络强化学习控制方法相比,系统总能耗分别降低5.36%和1.64%,非舒适性时间总占比分别减少2.32%和1.37%.文中提出的强化学习控制器能够有效解决值函数过估计问题,具有良好的鲁棒性,自适应优化能力和较好的节能效果,可为建筑节能提供新思路. 展开更多
关键词 中央空调系统 节能优化运行 强化学习 Double-dqn算法 双神经网络结构 总能耗 室内热舒适性
下载PDF
基于深度强化学习的AUV路径规划研究
19
作者 房鹏程 周焕银 董玫君 《机床与液压》 北大核心 2024年第9期134-141,共8页
针对三维海洋环境水下自主航行器(AUV)路径规划问题,传统的路径规划算法在三维空间中搜索时间长,对环境的依赖性强,且环境发生改变时,需要重新规划路径,不满足实时性要求。为了使AUV能够自主学习场景并做出决策,提出一种改进的Dueling ... 针对三维海洋环境水下自主航行器(AUV)路径规划问题,传统的路径规划算法在三维空间中搜索时间长,对环境的依赖性强,且环境发生改变时,需要重新规划路径,不满足实时性要求。为了使AUV能够自主学习场景并做出决策,提出一种改进的Dueling DQN算法,更改了传统的网络结构以适应AUV路径规划场景。此外,针对路径规划在三维空间中搜寻目标点困难的问题,在原有的优先经验回放池基础上提出了经验蒸馏回放池,使智能体学习失败经验从而提高模型前期的收敛速度和稳定性。仿真实验结果表明:所提出的算法比传统路径规划算法具有更高的实时性,规划路径更短,在收敛速度和稳定性方面都优于标准的DQN算法。 展开更多
关键词 自主水下航行器(AUV) 三维路径规划 深度强化学习 Dueling dqn算法
下载PDF
基于深度强化学习的综合电子系统重构方法
20
作者 马驰 张国群 +2 位作者 孙俊格 吕广喆 张涛 《空天防御》 2024年第1期63-70,共8页
重构作为综合模块化航空电子系统用来提高容错性和稳定性的常用手段,是指发生某一故障后,系统根据事先预设好的重构蓝图,通过一系列应用迁移动作从故障状态转为正常状态的过程。随着综合电子系统的功能多元化和结构复杂化,提高系统的容... 重构作为综合模块化航空电子系统用来提高容错性和稳定性的常用手段,是指发生某一故障后,系统根据事先预设好的重构蓝图,通过一系列应用迁移动作从故障状态转为正常状态的过程。随着综合电子系统的功能多元化和结构复杂化,提高系统的容错性和稳定性显得至关重要。然而现有的人工重构和传统重构算法这两种重构配置蓝图设计方式难以保证综合电子系统的容错性和稳定性。本文针对综合电子系统故障情况,结合深度强化学习算法,对重构蓝图的重构模型进行探索并提出基于优先经验回放的竞争深度Q网络算法(PEP_DDQN),通过优先经验回放机制和SUMTREE批量样本抽取技术提出基于深度强化学习的优先经验回放和竞争深度Q网络重构算法。实验表明,相较于传统强化学习Q-Learning算法和DQN算法实现的重构蓝图生成算法,所提出的PEP_DDQN算法能生成更高质量的蓝图并具有更高的收敛性能与更快的求解速度。 展开更多
关键词 综合模块化航空电子系统 智能重构 深度强化学习 dqn算法
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部