期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
演化算法的DQN网络参数优化方法
1
作者 曹子建 郭瑞麒 +2 位作者 贾浩文 李骁 徐恺 《西安工业大学学报》 CAS 2024年第2期219-231,共13页
为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQ... 为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQN网络参数以加快其收敛速度的方法(DE-DQN)。首先,将DQN的网络参数编码为演化个体;其次,分别采用“运行步长”和“平均回报”两种适应度函数评价方式;利用CartPole控制问题进行仿真对比,验证了两种评价方式的有效性。最后,实验结果表明,在智能体训练5 000代时所提出的改进算法,以“运行步长”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了82.7%,18.1%和25.1%,并优于改进DQN算法;以“平均回报”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了74.9%,18.5%和13.3%并优于改进DQN算法。这说明了DE-DQN算法相较于传统的DQN及其改进算法前期能获得更多有用信息,加快收敛速度。 展开更多
关键词 深度强化学习 深度q网络 收敛加速 演化算法 自动控制
下载PDF
基于改进联邦竞争深度Q网络的多微网能量管理策略
2
作者 黎海涛 刘伊然 +3 位作者 杨艳红 肖浩 谢冬雪 裴玮 《电力系统自动化》 EI CSCD 北大核心 2024年第8期174-184,共11页
目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能... 目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能量转换的能量管理模型,提出基于正余弦算法的联邦竞争深度Q网络学习算法,并基于该算法设计了计及能量交易与转换的多MG能量管理与优化策略。仿真结果表明,所提能量管理策略在保护数据隐私的前提下,能够得到更高奖励且最大化MG经济收益,同时降低了通信时延。 展开更多
关键词 微网(MG) 联邦学习 竞争深度q网络 正余弦算法 能量管理
下载PDF
基于改进DQN算法的考虑船舶配载图的翻箱问题研究
3
作者 梁承姬 花跃 王钰 《重庆交通大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第9期43-49,77,共8页
为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进... 为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进行求解,同时为了提高算法求解的性能,又在原算法的基础上设计了基于启发式算法的阈值和全新的奖励函数以改进算法。通过与其它文献中的实验结果进行对比,结果显示:在计算结果上,改进的DQN算法在各个算例上的结果均优于目前各个启发式算法的最优结果,并且规模越大,结果越好;在训练时间上,改进的DQN算法极大的优于未改进的DQN算法,并且规模越大,节省的时间也更显著。 展开更多
关键词 交通运输工程 海运 集装箱翻箱 船舶配载图 DqN算法
下载PDF
基于DQN的旋翼无人机着陆控制算法 被引量:2
4
作者 唐进 梁彦刚 +1 位作者 白志会 黎克波 《系统工程与电子技术》 EI CSCD 北大核心 2023年第5期1451-1460,共10页
针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化... 针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化为马尔可夫决策过程。其次,设计分别考虑无人机横向和纵向控制过程的奖励函数,将着陆控制问题转入强化学习框架。然后,采用深度Q网络(deep Q network,DQN)算法求解该强化学习问题,通过大量训练得到着陆控制智能体。最后,通过多种工况下的着陆平台进行大量的数值模拟和仿真分析,验证了算法的有效性。 展开更多
关键词 深度强化学习 马尔可夫决策过程 深度q网络算法 旋翼无人机 着陆控制
下载PDF
基于改进DQN算法的机器人路径规划 被引量:4
5
作者 李奇儒 耿霞 《计算机工程》 CAS CSCD 北大核心 2023年第12期111-120,共10页
传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内... 传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内获取最优路径。为了解决上述问题,提出一种改进的ERDQN算法。通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下一次出现该状态的概率越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离,重新设计奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值,从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明,与DQN算法相比,ERDQN算法的平均得分提高了18.9%,规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。 展开更多
关键词 深度q网络算法 路径规划 深度强化学习 状态探索 奖励函数 避障
下载PDF
好奇心蒸馏双Q网络移动机器人路径规划方法 被引量:1
6
作者 张凤 顾琦然 袁帅 《计算机工程与应用》 CSCD 北大核心 2023年第19期316-322,共7页
针对移动机器人的路径规划中DQN算法存在过估计、样本利用率低、奖励稀疏等,从而影响机器人获取最优路径的问题,提出基于好奇心蒸馏模块竞争架构的双Q网络(curiosity distillation module dueling deep double Q-network prioritized ex... 针对移动机器人的路径规划中DQN算法存在过估计、样本利用率低、奖励稀疏等,从而影响机器人获取最优路径的问题,提出基于好奇心蒸馏模块竞争架构的双Q网络(curiosity distillation module dueling deep double Q-network prioritized experience replay,CDM-D3QN-PER)方法。该方法以D3QN为基础,在输入端添加长短时记忆网络(long short term memory,LSTM)处理雷达和相机的信息,降低过估计的影响,获得更有利的环境信息;采用优先经验回放机制(prioritized experience replay,PER)作为采样方法,使样本得到充分利用,提高样本利用率;引入好奇心蒸馏模块(curiosity distillation module,CDM),缓解奖励稀疏的问题。通过仿真实验与DQN、DDQN、D3QN相比,CDM-D3QN-PER算法训练的机器人到达目标点的次数明显增加,为DQN算法的3倍。该算法使奖励值得到提升,加快了收敛速度,能够在复杂的未知环境中获得最优路径。 展开更多
关键词 DqN算法 D3qN算法 好奇心蒸馏模块 长短时记忆网络(LSTM) 最优路径
下载PDF
基于改进DQN强化学习算法的弹性光网络资源分配研究 被引量:2
7
作者 尚晓凯 韩龙龙 翟慧鹏 《光通信技术》 2023年第5期12-15,共4页
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现... 针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。 展开更多
关键词 弹性光网络 改进深度q网络强化学习算法 资源分配
下载PDF
Deep reinforcement learning for UAV swarm rendezvous behavior
8
作者 ZHANG Yaozhong LI Yike +1 位作者 WU Zhuoran XU Jialin 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第2期360-373,共14页
The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the mai... The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the main trends of UAV development in the future.This paper studies the behavior decision-making process of UAV swarm rendezvous task based on the double deep Q network(DDQN)algorithm.We design a guided reward function to effectively solve the problem of algorithm convergence caused by the sparse return problem in deep reinforcement learning(DRL)for the long period task.We also propose the concept of temporary storage area,optimizing the memory playback unit of the traditional DDQN algorithm,improving the convergence speed of the algorithm,and speeding up the training process of the algorithm.Different from traditional task environment,this paper establishes a continuous state-space task environment model to improve the authentication process of UAV task environment.Based on the DDQN algorithm,the collaborative tasks of UAV swarm in different task scenarios are trained.The experimental results validate that the DDQN algorithm is efficient in terms of training UAV swarm to complete the given collaborative tasks while meeting the requirements of UAV swarm for centralization and autonomy,and improving the intelligence of UAV swarm collaborative task execution.The simulation results show that after training,the proposed UAV swarm can carry out the rendezvous task well,and the success rate of the mission reaches 90%. 展开更多
关键词 double deep q network(DDqN)algorithms unmanned aerial vehicle(UAV)swarm task decision deep reinforcement learning(DRL) sparse returns
下载PDF
基于深度强化学习和隐私保护的群智感知动态任务分配策略
9
作者 傅彦铭 陆盛林 +1 位作者 陈嘉元 覃华 《信息网络安全》 CSCD 北大核心 2024年第3期449-461,共13页
在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果... 在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果的影响,同时忽视了工人位置隐私的保护问题。针对这些不足,文章提出一种基于深度强化学习和隐私保护的群智感知动态任务分配策略。该策略首先通过差分隐私技术为工人位置添加噪声,保护工人隐私;然后利用深度强化学习方法自适应地调整任务批量分配;最后使用基于工人任务执行能力阈值的贪婪算法计算最优策略下的平台总效用。在真实数据集上的实验结果表明,该策略在不同参数设置下均能保持优越的性能,同时有效地保护了工人的位置隐私。 展开更多
关键词 群智感知 深度强化学习 隐私保护 双深度q网络 能力阈值贪婪算法
下载PDF
基于强化学习的无人机智能组网技术及应用综述
10
作者 邱修林 宋博 +4 位作者 殷俊 徐雷 柯亚琪 廖振强 杨余旺 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2024年第8期1576-1589,1598,共15页
针对无人机在民用和军事等领域中的研究热度及应用需求日益增长,传统Mode1-Based的网络部署、设计、操作方法无法应对动态变化的无人机场景的问题,本文综述了灵活性高、适应性强的AI-Based的智能组网技术,并引入强化学习这一人工智能领... 针对无人机在民用和军事等领域中的研究热度及应用需求日益增长,传统Mode1-Based的网络部署、设计、操作方法无法应对动态变化的无人机场景的问题,本文综述了灵活性高、适应性强的AI-Based的智能组网技术,并引入强化学习这一人工智能领域的重要分支。对现有利用强化学习技术解决无人机组网难题的研究进行了概述,结合无人机组网的特性梳理了此领域应用强化学习技术的主要思路。从几个应用场景,以及组网关键技术的角度进行了归纳,给出了基于强化学习的无人机智能组网技术所面临的机遇与挑战,并进行了总结。探究了无人机通信的感知能力与决策能力,适应了其动态变化且需要高度自治的环境需求。为未来无人机智能组网技术的发展提供了有价值的理论基础和实践指导。 展开更多
关键词 飞行自组网 强化学习 深度q网络算法 多智能体 无人机集群 智能路由 资源分配 跨层优化
下载PDF
蜣螂优化算法下“互联网+营销服务”虚拟机器人应用模型 被引量:1
11
作者 何玮 周雨湉 +3 位作者 俞阳 康雨萌 朱萌 钱旭盛 《西安工程大学学报》 CAS 2024年第1期113-120,共8页
为了应对新形势下的电力营销服务形势,提升互联网时代的电网优质服务水平,利用蜣螂优化(dung beetle optimizer,DBO)算法,设计了一种“互联网+营销服务”虚拟机器人模型。首先针对电网营销部门可能发生的人机交互情景开展交互分析与关... 为了应对新形势下的电力营销服务形势,提升互联网时代的电网优质服务水平,利用蜣螂优化(dung beetle optimizer,DBO)算法,设计了一种“互联网+营销服务”虚拟机器人模型。首先针对电网营销部门可能发生的人机交互情景开展交互分析与关系框架设计,然后基于深度Q网络(deep Q network,DQN)建立虚拟机器人自主学习模型,引入DBO算法完成模型超参数的高效寻优并通过训练完成优化后的模型学习,最终将实际的电力营销数据输入到模型中进行实验测试。在特定的测试环境下综合检测模型的实际应用情况,测试结果表明:该虚拟机器人模型在功能性实验、非功能性实验和安全性实验中模型运转和系统运转正常率达到100%,能够较好地实现人机交互功能,达到全天候客户需求精准响应的战略目标。 展开更多
关键词 深度q网络 虚拟机器人 蜣螂优化(DBO)算法 超参数寻优 电力营销服务
下载PDF
基于深度强化学习带时间窗的绿色车辆路径问题研究
12
作者 曹煜 叶春明 《物流科技》 2024年第19期72-79,共8页
如何在客户规定的时间内合理安排车辆运输路线,一直是物流领域亟待解决的问题。基于此,文章提出使用基于软更新策略的决斗双重深度Q网络(Dueling Double Deep Q-network,D3QN),设计动作空间、状态空间与奖励函数,对带时间窗的绿色车辆... 如何在客户规定的时间内合理安排车辆运输路线,一直是物流领域亟待解决的问题。基于此,文章提出使用基于软更新策略的决斗双重深度Q网络(Dueling Double Deep Q-network,D3QN),设计动作空间、状态空间与奖励函数,对带时间窗的绿色车辆路径问题进行建模与求解。选择了小、中、大规模的总计18个算例,将三种算法的实验结果在平均奖励、平均调度车辆数、平均里程和运算时间四个维度进行比较。实验结果表明:在大多数算例中,与Double DQN和Dueling DQN相比,D3QN能在可接受的增加时间范围内,获得更高的奖励函数,调度更少的车辆数,运输更短的里程,实现绿色调度的目标。 展开更多
关键词 深度强化学习 路径优化 决斗双重深度q网络 D3qN算法 车辆路径问题
下载PDF
基于混合智能优化算法的医疗物资库存管理研究
13
作者 徐爱萍 郝一炜 朱碧云 《电子设计工程》 2024年第21期37-40,46,共5页
针对传统医疗物资库存管理方法存在的库存过剩或不足等问题,以最小化库存成本和最大化物资利用率为目标,提出了一种基于深度强化学习的混合智能优化算法。该算法融合了深度Q网络的学习能力和进化禁忌搜索算法的全局优化能力,综合考虑全... 针对传统医疗物资库存管理方法存在的库存过剩或不足等问题,以最小化库存成本和最大化物资利用率为目标,提出了一种基于深度强化学习的混合智能优化算法。该算法融合了深度Q网络的学习能力和进化禁忌搜索算法的全局优化能力,综合考虑全局与局部最优解,实现医疗物资库存管理的精准优化。在实验中,将提出的算法与多种优化方法在真实数据集上进行了对比,结果显示,所提算法在最小化库存成本和最大化物资利用率方面均表现最佳,分别为22212元和0.9507。 展开更多
关键词 医疗物资 库存管理 深度q网络 进化禁忌搜索算法
下载PDF
深度强化学习驱动下的智能电网通信网业务路由分配方法研究
14
作者 胡楠 张维 《通信电源技术》 2024年第10期43-45,共3页
在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析... 在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析,以提高通信资源利用率,提升业务路由方法的稳定性和可靠性。 展开更多
关键词 智能电网 通信网 深度q网络(DqN)算法 异步优势演员-评论家(A3C)算法 深度学习
下载PDF
基于改进竞争深度Q网络算法的微电网能量管理与优化策略 被引量:16
15
作者 黎海涛 申保晨 +3 位作者 杨艳红 裴玮 吕鑫 韩雨庭 《电力系统自动化》 EI CSCD 北大核心 2022年第7期42-49,共8页
可再生能源发电的随机波动性和储能运行控制的时间序列耦合特性给微电网的能量管理与最优运行带来了诸多挑战,成为学术界研究的热点问题。文中提出一种基于改进竞争深度Q网络算法的微电网能量管理与优化方法,采用多参数动作探索机制和... 可再生能源发电的随机波动性和储能运行控制的时间序列耦合特性给微电网的能量管理与最优运行带来了诸多挑战,成为学术界研究的热点问题。文中提出一种基于改进竞争深度Q网络算法的微电网能量管理与优化方法,采用多参数动作探索机制和优化设计的神经网络结构,对分布式可再生能源的功率输出、能源交易市场的电价和电力负荷的状态等环境信息进行学习,并运用学习到的策略进行微电网能量管理与优化。仿真结果表明,基于改进竞争深度Q网络算法的微电网能量管理与优化策略的性能优于基于场景的随机规划算法、深度Q网络算法和竞争深度Q网络算法。 展开更多
关键词 微电网 能量管理 深度强化学习 竞争深度q网络算法 神经网络结构 多参数动作探索机制
下载PDF
基于深度Q网络的多智能体逃逸算法设计
16
作者 闫博为 杜润乐 +1 位作者 班晓军 周荻 《导航定位与授时》 CSCD 2022年第6期40-47,共8页
当前多智能体追逃博弈问题通常在二维平面下展开研究,且逃逸方智能体运动不受约束,同时传统方法在缺乏准确模型时存在设计控制策略困难的问题。针对三维空间中逃逸方智能体运动受约束的情况,提出了一种基于深度Q网络(DQN)的多智能体逃... 当前多智能体追逃博弈问题通常在二维平面下展开研究,且逃逸方智能体运动不受约束,同时传统方法在缺乏准确模型时存在设计控制策略困难的问题。针对三维空间中逃逸方智能体运动受约束的情况,提出了一种基于深度Q网络(DQN)的多智能体逃逸算法。该算法采用分布式学习的方法,逃逸方智能体通过对环境的探索学习得到满足期望的逃逸策略。为提高学习效率,根据任务的难易程度将智能体策略学习划分为两个阶段,并设计了相应的奖励函数引导智能体探索满足期望的逃逸策略。仿真结果表明,该算法所得逃逸策略效果稳定,并且具有泛化能力,在改变一定的初始位置条件后,逃逸方智能体也可成功逃逸。 展开更多
关键词 逃逸算法 深度强化学习 多智能体 深度q网络
下载PDF
基于深度Q网络的虚拟装配路径规划 被引量:3
17
作者 李妍 甄成刚 《计算机工程与设计》 北大核心 2019年第7期2032-2038,共7页
针对虚拟装配中自由空间相对狭窄造成的复杂环境通行性问题,提出通过跟踪和反馈的方式学习最优的动作序列决策的模糊贝叶斯-深度Q网络算法。将模糊综合评判法和贝叶斯决策算法结合起来替代深度Q网络中的ε-贪婪算法,有效进行探索与利用... 针对虚拟装配中自由空间相对狭窄造成的复杂环境通行性问题,提出通过跟踪和反馈的方式学习最优的动作序列决策的模糊贝叶斯-深度Q网络算法。将模糊综合评判法和贝叶斯决策算法结合起来替代深度Q网络中的ε-贪婪算法,有效进行探索与利用,生成最优的动作序列决策,规划待装配体的装配路径。实验结果表明,在狭窄空间中,利用模糊贝叶斯-深度Q网络算法解决虚拟装配的路径规划问题具有较好的通行性和规划效率。 展开更多
关键词 虚拟装配 路径规划 深度q网络 探索与利用 ε-贪婪算法 模糊贝叶斯
下载PDF
基于正交试验的感应控制参数组合优化 被引量:2
18
作者 王志建 龙顺忠 李颖宏 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第6期1128-1136,共9页
针对随机流量波动较大的交叉口,提出优化感应控制策略,采用正交试验方法获取最优控制参数组合.将最大排队长度作为通行需求阈值来优化感应控制逻辑,将设置的3种相位切换机制(优先排队、优先延误和固定顺序)加入感应控制参数组合中.在SUM... 针对随机流量波动较大的交叉口,提出优化感应控制策略,采用正交试验方法获取最优控制参数组合.将最大排队长度作为通行需求阈值来优化感应控制逻辑,将设置的3种相位切换机制(优先排队、优先延误和固定顺序)加入感应控制参数组合中.在SUMO仿真中,模拟北京市北辰西路与科荟南路交叉口环境,采用正交试验方法筛选出不同交通流量下感应控制的最优参数组合.设计对比实验验证最优参数组合的有效性,将最优参数组合应用在深度Q学习(DQN)算法中进一步优化感应控制.结果表明,正交试验方法能够快速有效地获取最优参数组合;在低、中等交通流量下,与未使用最优参数组合的DQN算法相比,使用最优参数组合的DQN算法的收敛速度分别增加了48.14%、38.89%,平均累计车均延误分别减少了8.45%、7.09%. 展开更多
关键词 信号交叉口 感应控制 影响参数 正交试验 深度q学习(DqN)算法
下载PDF
梯级水库深度强化学习长期随机优化调度研究 被引量:1
19
作者 李文武 周佳妮 +1 位作者 裴本林 张一凡 《水力发电学报》 CSCD 北大核心 2023年第11期21-32,共12页
梯级水库调度相较于单库调度状态空间呈指数级增大,为解决基于表格的强化学习方法在解决梯级水库长期随机优化调度问题时面临的维数灾问题,提出采用深度强化学习中的深度Q网络算法求解。首先基于Copula函数分析梯级水库随机入库径流的... 梯级水库调度相较于单库调度状态空间呈指数级增大,为解决基于表格的强化学习方法在解决梯级水库长期随机优化调度问题时面临的维数灾问题,提出采用深度强化学习中的深度Q网络算法求解。首先基于Copula函数分析梯级水库随机入库径流的联合分布函数;再根据时序差分思想分别建立目标神经网络和主神经网络,分别逼近当前和下一状态对应的动作状态价值,并采用ε-贪婪探索利用策略获取最优调度策略;最后将主要参数分步调优保障调度效益。算例对比表明,深度Q网络算法相较于Q学习算法及其改进算法提升了优化调度目标值,加快收敛速度,有效解决了梯级水库随机优化调度中的维数灾问题. 展开更多
关键词 梯级水库随机优化调度 深度强化学习 深度q网络算法 时序差分思想 探索利用策略
下载PDF
基于强化学习的改进NSGA-Ⅱ算法的城市快速路入口匝道控制
20
作者 陈娟 郭琦 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期666-680,共15页
为了缓解城市快速路拥堵和尾气排放问题,提出了基于竞争结构和深度循环Q网络的改进非支配排序遗传算法(non-dominated sorting genetic algorithm Ⅱ based on dueling deep recurrent Q network, DRQN-NSGA-Ⅱ).该算法结合了基于竞争... 为了缓解城市快速路拥堵和尾气排放问题,提出了基于竞争结构和深度循环Q网络的改进非支配排序遗传算法(non-dominated sorting genetic algorithm Ⅱ based on dueling deep recurrent Q network, DRQN-NSGA-Ⅱ).该算法结合了基于竞争结构的深度Q网络(dueling deep Q network, Dueling DQN)、深度循环Q网络(deep recurrent Q network, DRQN)和NSGA-Ⅱ算法,将Dueling DRQN-NSGA-Ⅱ算法用于匝道控制问题.除了考虑匝道车辆汇入以提高快速路通行效率外,还考虑了环境和能源指标,将尾气排放和燃油消耗作为评价指标.除了与无控制情况及其他算法进行比较之外, Dueling DRQN-NSGA-Ⅱ还与NSGA-Ⅱ算法进行了比较.实验结果表明:与无控制情况相比,本算法能有效改善路网通行效率、缓解环境污染、减少能源损耗;相对于无控制情况,总花费时间(total time spent, TTS)减少了16.14%,总尾气排放(total emissions, TE)减少了9.56%,总燃油消耗(total fuel consumption, TF)得到了43.49%的改善. 展开更多
关键词 匝道控制 基于竞争结构的深度q网络 深度循环q网络 非支配排序遗传算法
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部