期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于D3QN的交通灯控制优化
1
作者 张国有 宋世峰 《计算机与现代化》 2023年第7期30-35,47,共7页
交通灯在控制路口车辆通行上起着至关重要的作用。现阶段城市路口的交通灯多采用固定配时、固定相位变换的控制策略,难以满足不同的车流情况。设计出能够根据路口车流情况实时调整交通灯变换的控制方案成为智能交通领域的研究热点之一... 交通灯在控制路口车辆通行上起着至关重要的作用。现阶段城市路口的交通灯多采用固定配时、固定相位变换的控制策略,难以满足不同的车流情况。设计出能够根据路口车流情况实时调整交通灯变换的控制方案成为智能交通领域的研究热点之一。而城市路口车流具有动态变化性,难以直接对其展开研究。为了设计一种合适的交通灯动态控制方案,本文引入深度强学习技术。将十字路口交通灯控制问题抽象成强化学习模型,采用D3QN算法对该模型进行求解。在此基础上综合考虑处于不同状态的车辆,改进状态输入和奖励函数。最终在交通模拟器SUMO上进行不同车流下的仿真实验。实验结果表明,模型训练趋于稳定后,改进奖励函数和状态输入的D3QN算法的平均队列长度在3种车流量下对比传统的固定控制策略和自适应控制策略均有明显提升,对比DQN和DDQN算法也有一定的优化,控制效果更佳。 展开更多
关键词 交通灯控制 深度强化学习 d3qn算法 状态输入 奖励函数 车流情况
下载PDF
基于强化学习的自适应网络威胁缓解
2
作者 齐分岭 刘智磊 +2 位作者 张永军 许延峰 石成豪 《通信与信息技术》 2024年第3期6-10,33,共6页
随着互联网信息技术的深入发展,通信网络受到攻击入侵威胁也在不断变化,提出一种强化学习算法用于网络自适应威胁缓解,在SDN框架的基础上,研究使用强化学习算法用于网络安全管理。以D3QN算法为基础并对其结构进行了改进,使用改进后的D3Q... 随着互联网信息技术的深入发展,通信网络受到攻击入侵威胁也在不断变化,提出一种强化学习算法用于网络自适应威胁缓解,在SDN框架的基础上,研究使用强化学习算法用于网络安全管理。以D3QN算法为基础并对其结构进行了改进,使用改进后的D3QN深度强化学习方法来学习缓解APT攻击,实现网络威胁自适应控制。最后对实验结果进行了评估并给出了改进算法模型的收敛结果,验证了该强化学习方法用于自适应网络威胁缓解的可用性和有效性。 展开更多
关键词 强化学习 SDN 改进d3qn算法 自适应网络威胁缓解
下载PDF
基于改进型D3QN深度强化学习的铁路智能选线方法 被引量:5
3
作者 袁泉 曾文驱 +3 位作者 李子涵 高天赐 杨冬营 何庆 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2022年第2期344-350,共7页
传统的人工选线方法劳动强度大,设计效率低,随着我国铁路建设重心向西部复杂艰险山区转移,人工选线面临的困难日趋凸显。为缩减铁路选线的人力物力成本,提高设计效率,亟需发展结合了人工智能和信息技术的现代选线技术。为此,提出一种基... 传统的人工选线方法劳动强度大,设计效率低,随着我国铁路建设重心向西部复杂艰险山区转移,人工选线面临的困难日趋凸显。为缩减铁路选线的人力物力成本,提高设计效率,亟需发展结合了人工智能和信息技术的现代选线技术。为此,提出一种基于深度强化学习理论的铁路智能选线方法。以带有空间属性信息的数字高程模型为选线环境,以相邻空间点间的建造费用为即时奖励,以工程建造费用最小为优化目标,设置离散化的备选动作,考虑多种约束条件,构建面向铁路选线的深度强化学习模型。结合深度学习的感知能力和强化学习的决策能力,利用双竞争深度Q学习网络(Dueling-Double-Deep Q Network,D3QN)对模型进行训练,既克服强化学习问题对复杂状态和动作空间难以收敛的缺点,同时解决了传统DQN算法易于出现过估计、训练不稳定的问题,实现自动对选线环境进行感知、搜索、判断、决策,最终寻得目标函数最优的线路方案。以某山区铁路对本方法进行验证,实验结果表明:该方法能搜索到多样化的线路备选方案,可以为设计人员提供新的设计思路;有效降低了铁路建设的经济费用,较人工选线方案节约最多达17.5%。智能选线方法可以帮助节省选线工作成本,不遗漏有价值的方案,提高工作效率。 展开更多
关键词 深度强化学习 智能选线 d3qn算法 信息化
下载PDF
多用户蜂窝网络中基于深度强化学习的功率分配 被引量:4
4
作者 刘子怡 李君 李正权 《国外电子测量技术》 北大核心 2023年第3期30-35,共6页
在用户密集分布的蜂窝网络中,功率分配是决定系统性能和通信质量的重要因素之一。由于现有的功率分配算法往往达不到理想效果,而且泛化能力较差。在此基础上,提出一种基于D3QN(dueling double deep Q network)的功率分配算法来优化系统... 在用户密集分布的蜂窝网络中,功率分配是决定系统性能和通信质量的重要因素之一。由于现有的功率分配算法往往达不到理想效果,而且泛化能力较差。在此基础上,提出一种基于D3QN(dueling double deep Q network)的功率分配算法来优化系统的传输速率。D3QN采用双神经网络和竞争网络优化神经网络的结构,通过解耦动作的选择和价值的评估,解决了DQN中出现的高估问题。仿真结果表明,该算法能够获得的平均速率比DQN高7.14%,在收敛速度和稳定性方面也有较好的表现,且泛化能力较强,可适用于不同实际场景。 展开更多
关键词 功率分配 蜂窝网络 深度强化学习 d3qn算法
下载PDF
好奇心蒸馏双Q网络移动机器人路径规划方法
5
作者 张凤 顾琦然 袁帅 《计算机工程与应用》 CSCD 北大核心 2023年第19期316-322,共7页
针对移动机器人的路径规划中DQN算法存在过估计、样本利用率低、奖励稀疏等,从而影响机器人获取最优路径的问题,提出基于好奇心蒸馏模块竞争架构的双Q网络(curiosity distillation module dueling deep double Q-network prioritized ex... 针对移动机器人的路径规划中DQN算法存在过估计、样本利用率低、奖励稀疏等,从而影响机器人获取最优路径的问题,提出基于好奇心蒸馏模块竞争架构的双Q网络(curiosity distillation module dueling deep double Q-network prioritized experience replay,CDM-D3QN-PER)方法。该方法以D3QN为基础,在输入端添加长短时记忆网络(long short term memory,LSTM)处理雷达和相机的信息,降低过估计的影响,获得更有利的环境信息;采用优先经验回放机制(prioritized experience replay,PER)作为采样方法,使样本得到充分利用,提高样本利用率;引入好奇心蒸馏模块(curiosity distillation module,CDM),缓解奖励稀疏的问题。通过仿真实验与DQN、DDQN、D3QN相比,CDM-D3QN-PER算法训练的机器人到达目标点的次数明显增加,为DQN算法的3倍。该算法使奖励值得到提升,加快了收敛速度,能够在复杂的未知环境中获得最优路径。 展开更多
关键词 DQN算法 d3qn算法 好奇心蒸馏模块 长短时记忆网络(LSTM) 最优路径
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部