期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于Dueling Double DQN的交通信号控制方法
1
作者 叶宝林 陈栋 +2 位作者 刘春元 陈滨 吴维敏 《计算机测量与控制》 2024年第7期154-161,共8页
为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作... 为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作-价值函数的估计值和目标值迭代运算过程进行了优化,克服基于深度强化学习DQN的交通信号控制模型存在收敛速度慢的问题;设计了一个新的Dueling Network解耦交通状态和相位动作的价值,增强Double DQN(DDQN)提取深层次特征信息的能力;基于微观仿真平台SUMO搭建了一个单交叉口模拟仿真框架和环境,开展仿真测试;仿真测试结果表明,与传统交通信号控制方法和基于深度强化学习DQN的交通信号控制方法相比,所提方法能够有效减少车辆平均等待时间、车辆平均排队长度和车辆平均停车次数,明显提升交叉口通行效率。 展开更多
关键词 交通信号控制 深度强化学习 Dueling double dqn Dueling Network
下载PDF
基于Double DQN的双模式多目标信号配时方法
2
作者 聂雷 张明萱 +1 位作者 黄庆涵 鲍海洲 《计算机技术与发展》 2024年第8期143-150,共8页
近年来深度强化学习作为一种高效可靠的机器学习方法被广泛应用在交通信号控制领域。目前,现有交通信号配时方法通常忽略了特殊车辆(例如救护车、消防车等)的优先通行;此外,基于传统深度强化学习的信号配时方法优化目标较为单一,导致其... 近年来深度强化学习作为一种高效可靠的机器学习方法被广泛应用在交通信号控制领域。目前,现有交通信号配时方法通常忽略了特殊车辆(例如救护车、消防车等)的优先通行;此外,基于传统深度强化学习的信号配时方法优化目标较为单一,导致其在复杂交通场景中性能不佳。针对上述问题,基于Double DQN提出一种融合特殊车辆优先通行的双模式多目标信号配时方法(Dual-mode Multi-objective signal timing method based on Double DQN,DMDD),以提高不同交通场景下路口的通行效率。该方法首先基于路口的饱和状态选择信号控制模式,特殊车辆在紧急控制模式下被赋予更高的通行权重,有利于其更快通过路口;接着针对等待时长、队列长度和CO 2排放量3个指标分别设计神经网络进行奖励计算;最后利用Double DQN进行最优信号相位的选择,通过灵活切换信号相位以提升通行效率。基于SUMO的实验结果表明,DMDD与对比方法相比能有效缩短路口处特殊车辆的等待时长、队列长度和CO 2排放量,特殊车辆能够更快通过路口,有效地提高了通行效率。 展开更多
关键词 交通信号配时 深度强化学习 双模式多目标 double dqn SUMO
下载PDF
基于多代理Double DQN算法模拟发电侧竞价行为 被引量:20
3
作者 高宇 李昀 +2 位作者 曹蓉蓉 李宁峰 高铭泽 《电网技术》 EI CSCD 北大核心 2020年第11期4175-4182,共8页
强化学习已经成为研究发电侧竞价策略的重要方法,而Q-Learning算法的Q-table维度问题是限制其应用在发电侧竞价策略的主要原因,为此文章采用智能多代理Double DQN(doubledeepq-learningnetwork,DDQN)算法进行研究。DDQN算法采用神经网... 强化学习已经成为研究发电侧竞价策略的重要方法,而Q-Learning算法的Q-table维度问题是限制其应用在发电侧竞价策略的主要原因,为此文章采用智能多代理Double DQN(doubledeepq-learningnetwork,DDQN)算法进行研究。DDQN算法采用神经网络估计值函数与选择动作策略,解决了Q-Learning会因为状态序列的增加导致计算量庞大甚至无法求解的问题。此外,文章根据日前市场发电商报价方式设计了报价策略并作为DDQN的动作空间,将发电商中标电量与负荷需求作为DDQN的状态序列,在tensorflow环境中模拟竞价过程。实验结果表明,使用DDQN算法模拟发电商竞价行为是可行的,并且参与竞价的发电商都达到了纳什均衡点。 展开更多
关键词 多代理 double dqn 神经网络 竞价行为 纳什均衡
下载PDF
基于Expectimax搜索与Double DQN的非完备信息博弈算法 被引量:7
4
作者 雷捷维 王嘉旸 +2 位作者 任航 闫天伟 黄伟 《计算机工程》 CAS CSCD 北大核心 2021年第3期304-310,320,共8页
麻将作为典型的非完备信息博弈游戏主要通过传统Expectimax搜索算法实现,其剪枝策略与估值函数基于人工先验知识设计,存在假设不合理等问题。提出一种结合Expectimax搜索与Double DQN强化学习算法的非完备信息博弈算法。在Expectimax搜... 麻将作为典型的非完备信息博弈游戏主要通过传统Expectimax搜索算法实现,其剪枝策略与估值函数基于人工先验知识设计,存在假设不合理等问题。提出一种结合Expectimax搜索与Double DQN强化学习算法的非完备信息博弈算法。在Expectimax搜索树扩展过程中,采用Double DQN输出的估值设计估值函数并在限定搜索层数内获得分支估值,同时设计剪枝策略对打牌动作进行排序与部分扩展实现搜索树剪枝。在Double DQN模型训练过程中,将麻将信息编码为特征数据输入神经网络获得估值,使用Expectimax搜索算法得到最优动作以改进探索策略。实验结果表明,与Expectimax搜索算法、Double DQN算法等监督学习算法相比,该算法在麻将游戏上胜率与得分更高,具有更优异的博弈性能。 展开更多
关键词 double dqn算法 Expectimax搜索 非完备信息博弈 麻将 强化学习
下载PDF
Federated double DQN based multi-energy microgrid energy management strategy considering carbon emissions 被引量:2
5
作者 Yanhong Yang Tengfei Ma +3 位作者 Haitao Li Yiran Liu Chenghong Tang Wei Pei 《Global Energy Interconnection》 EI CSCD 2023年第6期689-699,共11页
Multi-energy microgrids(MEMG)play an important role in promoting carbon neutrality and achieving sustainable development.This study investigates an effective energy management strategy(EMS)for MEMG.First,an energy man... Multi-energy microgrids(MEMG)play an important role in promoting carbon neutrality and achieving sustainable development.This study investigates an effective energy management strategy(EMS)for MEMG.First,an energy management system model that allows for intra-microgrid energy conversion is developed,and the corresponding Markov decision process(MDP)problem is formulated.Subsequently,an improved double deep Q network(iDDQN)algorithm is proposed to enhance the exploration ability by modifying the calculation of the Q value,and a prioritized experience replay(PER)is introduced into the iDDQN to improve the training speed and effectiveness.Finally,taking advantage of the federated learning(FL)and iDDQN algorithms,a federated iDDQN is proposed to design an MEMG energy management strategy to enable each microgrid to share its experiences in the form of local neural network(NN)parameters with the federation layer,thus ensuring the privacy and security of data.The simulation results validate the superior performance of the proposed energy management strategy in minimizing the economic costs of the MEMG while reducing CO_2 emissions and protecting data privacy. 展开更多
关键词 Multi-energy microgrid Federated learning Improved double dqn Energy conversion
下载PDF
基于强化学习的高层建筑施工进度-成本优化研究
6
作者 张立茂 崔胜博 +1 位作者 肖仲华 黄锦庭 《工程管理学报》 2024年第6期110-116,共7页
为解决高层建筑施工进度-成本目标智能优化管控问题,提出了一种基于强化学习算法并考虑工序工期不确定性的高层建筑施工进度-成本综合优化算法框架方法,该方法融合PERT原理引入不确定性,基于DoubleDQN算法架构开发了进度-成本优化决策... 为解决高层建筑施工进度-成本目标智能优化管控问题,提出了一种基于强化学习算法并考虑工序工期不确定性的高层建筑施工进度-成本综合优化算法框架方法,该方法融合PERT原理引入不确定性,基于DoubleDQN算法架构开发了进度-成本优化决策模型。并在某高层建筑工程案例项目中进行了验证和应用,经过模型优化后,案例项目工序施工总工期、总成本优化提升明显,实现了项目的降本增效,有助于施工过程科学规划决策与风险管理。这种基于强化学习所开发的优化算法框架克服了传统方法的局限性,有效提升了高层建筑施工管控的智能化水平,为科学施工管理赋能。 展开更多
关键词 强化学习 施工管控 进度-成本优化 double dqn 高层建筑
下载PDF
基于注意力机制的交通信号控制技术 被引量:1
7
作者 黄思萌 王梅 杨晨 《信息技术与信息化》 2023年第3期93-96,共4页
多年来深度强化学习算法与智能交通系统结合的方法在交通信号控制领域取得了突出成效。然而,仅依靠深度强化学习算法仍然无法弥补卷积神经网络提取特征的缺陷,从而影响智能体的整体策略输出。针对现存的特征提取问题,在深度双Q网络(doub... 多年来深度强化学习算法与智能交通系统结合的方法在交通信号控制领域取得了突出成效。然而,仅依靠深度强化学习算法仍然无法弥补卷积神经网络提取特征的缺陷,从而影响智能体的整体策略输出。针对现存的特征提取问题,在深度双Q网络(double deep Q network,double DQN)模型基础上提出了一种基于注意力机制的深度强化学习模型进行交通信号控制。将压缩激活网络(squeeze and excitation networks,SENet)注意力机制添加到三维卷积神经网络中,通过建模特征图通道间的相互依赖来增强卷积神经网络的表征质量,从而输出最优的交通信号控制动作。实验结果表明,算法表现出了良好的交通信号控制效果,且具有显著的稳定性。 展开更多
关键词 交通信号控制 智能交通系统 深度强化学习 double dqn算法 SENet注意力机制
下载PDF
特征降维的深度强化学习脑卒中分类预测研究 被引量:4
8
作者 袁甜甜 李凤莲 +2 位作者 张雪英 胡风云 贾文辉 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第3期194-203,共10页
针对脑卒中筛查数据集冗余,特征较多,采用传统的分类算法效果较差的问题,为实现脑卒中筛查数据高效的诊断预测,建立了一种混合特征降维的深度强化学习分类预测优化模型。提出一种改进的CFS特征选择算法,并与PCA结合,对原始脑卒中筛查数... 针对脑卒中筛查数据集冗余,特征较多,采用传统的分类算法效果较差的问题,为实现脑卒中筛查数据高效的诊断预测,建立了一种混合特征降维的深度强化学习分类预测优化模型。提出一种改进的CFS特征选择算法,并与PCA结合,对原始脑卒中筛查数据集进行特征降维;基于Double DQN和Dueling DQN算法构建深度强化学习分类预测模型,引入一种更具鲁棒性的损失函数,对模型进行了优化,提高了模型的分类效果;对比已有的Naive Bayes、J48、SVM、KNN和DQN模型在公共数据集及脑卒中筛查数据集的实验结果,结果表明:所提模型在特征降维和分类预测2个方面均表现优越,在脑卒中筛查数据集上分类准确率优于对比算法,可为临床上脑卒中疾病的辅助诊断提供建议。 展开更多
关键词 特征降维 改进的CFS double Dueling dqn 损失函数 脑卒中
下载PDF
Improved Double Deep Q Network-Based Task Scheduling Algorithm in Edge Computing for Makespan Optimization
9
作者 Lei Zeng Qi Liu +1 位作者 Shigen Shen Xiaodong Liu 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2024年第3期806-817,共12页
Edge computing nodes undertake an increasing number of tasks with the rise of business density.Therefore,how to efficiently allocate large-scale and dynamic workloads to edge computing resources has become a critical ... Edge computing nodes undertake an increasing number of tasks with the rise of business density.Therefore,how to efficiently allocate large-scale and dynamic workloads to edge computing resources has become a critical challenge.This study proposes an edge task scheduling approach based on an improved Double Deep Q Network(DQN),which is adopted to separate the calculations of target Q values and the selection of the action in two networks.A new reward function is designed,and a control unit is added to the experience replay unit of the agent.The management of experience data are also modified to fully utilize its value and improve learning efficiency.Reinforcement learning agents usually learn from an ignorant state,which is inefficient.As such,this study proposes a novel particle swarm optimization algorithm with an improved fitness function,which can generate optimal solutions for task scheduling.These optimized solutions are provided for the agent to pre-train network parameters to obtain a better cognition level.The proposed algorithm is compared with six other methods in simulation experiments.Results show that the proposed algorithm outperforms other benchmark methods regarding makespan. 展开更多
关键词 edge computing task scheduling reinforcement learning MAKESPAN double Deep Q Network(dqn)
原文传递
基于深度强化学习的工序交互式智能体Job shop调度方法 被引量:1
10
作者 陈睿奇 黎雯馨 +1 位作者 王传洋 杨宏兵 《机械工程学报》 EI CAS CSCD 北大核心 2023年第12期78-88,共11页
针对作业车间调度问题(Job shop scheduling problem, JSSP)因NP-难属性难以快速获得优质解,以及生产场景随机扰动所导致的频繁重调度等求解难题,基于深度强化学习提出一种新颖的交互式工序智能体(Interactive operation agent, IOA)调... 针对作业车间调度问题(Job shop scheduling problem, JSSP)因NP-难属性难以快速获得优质解,以及生产场景随机扰动所导致的频繁重调度等求解难题,基于深度强化学习提出一种新颖的交互式工序智能体(Interactive operation agent, IOA)调度模型框架。在分析工序间工艺路线和加工设备约束关系的基础上,将Job shop的加工工序构建为工序智能体,设计工序智能体间的交互机制,智能体依据彼此关系进行特征交互并更新自身的特征向量,并基于工序特征和最早加工时间设计拟合动作值函数的深度神经网络,调度模型根据系统状态和工序智能体特征即可生成调度策略。采用Double DQN算法训练IOA调度模型,引入经验回放机制消除序列训练样本间的相关性,训练好的模型可以快速生成高质量的调度方案,并在机器发生故障时能够有效执行重调度策略。试验结果表明所提出的IOA调度方法优于贪婪算法和启发式调度规则,且具有良好鲁棒性和泛化能力。 展开更多
关键词 Job shop调度 深度强化学习 工序智能体 机器故障 double dqn算法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部