期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于深度Q神经网络(DQN)的空调冷却水系统无模型优化
1
作者 熊乔枫 李铮伟 赵铭炎 《暖通空调》 2023年第7期88-93,135,共7页
在建筑空调水系统的优化控制领域,基于模型的控制方法得到了广泛的研究和验证。但基于模型的控制很大程度上依赖于精确的系统性能模型和足够的传感器,而这对于某些建筑来说是很难获得的。针对这一问题,本文提出了一种基于深度Q神经网络(... 在建筑空调水系统的优化控制领域,基于模型的控制方法得到了广泛的研究和验证。但基于模型的控制很大程度上依赖于精确的系统性能模型和足够的传感器,而这对于某些建筑来说是很难获得的。针对这一问题,本文提出了一种基于深度Q神经网络(DQN)的空调冷却水系统无模型优化方法,该方法以室外空气湿球温度、系统冷负荷及冷水机组开启状态为状态,以冷却塔风机和水泵的频率为动作,以系统性能系数(COP)为奖励。根据实际系统的实测数据进行建模,在模拟环境中使用基于粒子群优化算法的模型优化方法、基于Q值(Q learning)优化的强化学习方法和基于DQN的无模型优化方法进行实验,结果表明基于DQN的无模型优化方法的优化效果最好,有7.68%的平均COP提升与7.15%的节能率,在复杂系统下拥有较好的节能效果。 展开更多
关键词 无模型优化 深度q神经网络 冷却水系统 优化控制 能耗
下载PDF
结合先验知识的深度Q神经网络算法研究 被引量:3
2
作者 褚伟 茹琦 任明仑 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2019年第7期901-905,958,共6页
深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射... 深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射,根据先验知识对动作选择过程的影响程度,将先验知识引入DQN算法,优化DQN算法的动作选择规则,降低其在探索过程中的动作选择随机性,并使用赛车游戏对算法进行训练。实验结果表明,PK-DQN算法能够更快收敛,有较高的学习效率,算法训练时长明显缩短。 展开更多
关键词 深度学习 强化学习 深度q神经网络(DqN) 先验知识
下载PDF
基于期望值函数的离策略深度Q神经网络算法 被引量:2
3
作者 刘川莉 蔡乐才 +2 位作者 高祥 居锦武 吴昊霖 《四川理工学院学报(自然科学版)》 CAS 2019年第1期52-60,共9页
深度Q神经网络算法的值函数迭代算法大多为Q学习算法,这种算法使用贪婪值函数作逼近目标,不利于深度Q神经网络算法获得长期来看更好的策略。通过以期望思想求解的期望值函数取代贪婪值函数作为更新目标,提出了基于期望值函数的离策略深... 深度Q神经网络算法的值函数迭代算法大多为Q学习算法,这种算法使用贪婪值函数作逼近目标,不利于深度Q神经网络算法获得长期来看更好的策略。通过以期望思想求解的期望值函数取代贪婪值函数作为更新目标,提出了基于期望值函数的离策略深度Q神经网络算法,并结合DQN算法神经网络更新方法,给出期望值函数能够作用于DQN算法的解释。通过使用该算法能够快速获得长期回报较高的动作和稳定的策略。最后分别在CarPole-v1和Acrobot仿真环境中对期望值函数的离策略深度Q神经网络算法和深度Q神经网络算法进行获取策略的稳定性对比实验,结果表明,基于期望值函数的离策略深度Q神经网络算法能够快速获得长期回报较高的动作,并且该算法表现更为稳定。 展开更多
关键词 深度q神经网络 期望值函数 离策略 策略表现
下载PDF
基于深度学习神经网络和量子遗传算法的柔性作业车间动态调度 被引量:7
4
作者 陈亮 阎春平 +1 位作者 陈建霖 侯跃辉 《重庆大学学报》 CSCD 北大核心 2022年第6期40-54,共15页
针对柔性作业车间动态调度问题构建以平均延期惩罚、能耗、偏差度为目标的动态调度优化模型,提出一种基于深度Q学习神经网络的量子遗传算法。首先搭建基于动态事件扰动和周期性重调度的学习环境,利用深度Q学习神经网络算法,建立环境-行... 针对柔性作业车间动态调度问题构建以平均延期惩罚、能耗、偏差度为目标的动态调度优化模型,提出一种基于深度Q学习神经网络的量子遗传算法。首先搭建基于动态事件扰动和周期性重调度的学习环境,利用深度Q学习神经网络算法,建立环境-行为评价神经网络模型作为优化模型的适应度函数。然后利用改进的量子遗传算法求解动态调度优化模型。该算法设计了基于工序编码和设备编码的多层编码解码方案;制定了基于适应度的动态调整旋转角策略,提高了种群的收敛速度;结合基于Tent映射的混沌搜索算法,以跳出局部最优解。最后通过测试算例验证了环境-行为评价神经网络模型的鲁棒性和对环境的适应性,以及优化算法的有效性。 展开更多
关键词 柔性作业车间动态调度 能耗 平均延期惩罚 偏差度 深度q学习神经网络 改进量子遗传算法 混沌搜索
下载PDF
对多功能雷达的DQN认知干扰决策方法 被引量:15
5
作者 张柏开 朱卫纲 《系统工程与电子技术》 EI CSCD 北大核心 2020年第4期819-825,共7页
基于Q-Learning的认知干扰决策方法随着多功能雷达(multifunctional radar,MFR)可执行的任务越来越多,决策效率明显下降。对此,提出了一种对MFR的深度Q神经网络(deep Q network,DQN)干扰决策方法。首先,分析MFR信号特点并构建干扰库,以... 基于Q-Learning的认知干扰决策方法随着多功能雷达(multifunctional radar,MFR)可执行的任务越来越多,决策效率明显下降。对此,提出了一种对MFR的深度Q神经网络(deep Q network,DQN)干扰决策方法。首先,分析MFR信号特点并构建干扰库,以此为基础研究干扰决策方法。其次,通过对DQN原理的简要阐述,提出了干扰决策方法及其决策流程。最后,对该决策方法进行了仿真试验并通过对比DQN和Q-Learning的决策性能,验证了所提方法的必要性。为提高决策的实时性和准确率,对DQN算法进行了改进,在此基础上,结合先验知识进一步提高了决策效率。仿真试验表明:该决策方法能够较好地自主学习实际战场中的干扰效果,对可执行多种雷达任务的MFR完成干扰决策。 展开更多
关键词 多功能雷达 干扰决策 深度q神经网络 认知电子战 先验知识
下载PDF
基于强化学习的超启发算法求解有容量车辆路径问题 被引量:11
6
作者 张景玲 冯勤炳 +2 位作者 赵燕伟 刘金龙 冷龙龙 《计算机集成制造系统》 EI CSCD 北大核心 2020年第4期1118-1129,共12页
为了更高效地求解物流优化领域中的有容量车辆路径问题,减少陷入局部最优的情况,提出一种基于强化学习的超启发算法。设计了算法的高层启发式策略,包括选择策略和解的接受准则:基于学习机制,使用强化学习中的深度Q神经网络算法构造该算... 为了更高效地求解物流优化领域中的有容量车辆路径问题,减少陷入局部最优的情况,提出一种基于强化学习的超启发算法。设计了算法的高层启发式策略,包括选择策略和解的接受准则:基于学习机制,使用强化学习中的深度Q神经网络算法构造该算法的选择策略,对底层算子的性能进行奖惩评价;利用奖惩值以及模拟退火作为算法的接受准则,对优质解建立序列池,从而引导算法更有效地搜索解空间,并采用聚类思想提升初始解的质量。对有容量车辆问题的标准算例进行计算,并与其他算法对比,统计分析了最优值、误差率和平均值,实验结果表明了所提算法在该问题求解上的有效性和稳定性,总体求解效果优于对比算法。 展开更多
关键词 车辆路径问题 强化学习 深度q神经网络 超启发算法
下载PDF
基于态势认知的无人机集群围捕方法 被引量:10
7
作者 吴子沉 胡斌 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第2期424-430,共7页
无人机集群围捕是智能无人机"蜂群"作战的一种重要任务方式。现有集群围捕方法大多建立在环境已知的基础上,面对未知的任务环境时围捕策略经常性失效。针对此问题,提出了基于态势认知的发育模型,探索一种对环境适应性较佳的... 无人机集群围捕是智能无人机"蜂群"作战的一种重要任务方式。现有集群围捕方法大多建立在环境已知的基础上,面对未知的任务环境时围捕策略经常性失效。针对此问题,提出了基于态势认知的发育模型,探索一种对环境适应性较佳的围捕方法。首先,对集群围捕行为分解,将围捕离散化;然后,基于深度Q神经网络(DQN),设计一种围捕策略的生成方法;最后,建立状态-策略知识库,并通过大量有效数据的训练,针对不同环境获得不同的策略,对知识库进行发育。仿真结果表明:提出的基于态势认知的发育模型,能够有效适应不同环境,完成不同环境下的围捕。 展开更多
关键词 无人机 集群围捕 态势认知 深度q神经网络(DqN) 自主发育
下载PDF
基于DQN强化学习的自动驾驶转向控制策略 被引量:3
8
作者 林歆悠 叶卓明 周斌豪 《机械工程学报》 EI CAS CSCD 北大核心 2023年第16期315-324,共10页
为解决自动驾驶汽车的自主转向问题,大多研究主要基于模型预测控制(Model predictive control,MPC)策略,而传统MPC策略需要被控对象精确的数学模型同时需要大量实时控制计算。为此,提出一种基于深度Q-Learning神经网络(Deep Q-Learning ... 为解决自动驾驶汽车的自主转向问题,大多研究主要基于模型预测控制(Model predictive control,MPC)策略,而传统MPC策略需要被控对象精确的数学模型同时需要大量实时控制计算。为此,提出一种基于深度Q-Learning神经网络(Deep Q-Learning neural network,DQN)强化学习的转向控制策略,使自动驾驶汽车能够精准有效地进行路径跟踪,提高路径跟踪精度和稳定性。该策略基于DQN强化学习通过选取合适的学习率对智能体进行训练,使训练后的智能体能够自适应根据不同路况和车速得到最佳的前轮转角。仿真对比结果表明,与无约束的线性二次型调节器(Linear quadratic regulator,LQR)控制策略相比,基于DQN强化学习的控制策略的累计绝对横向位置偏差以及累计绝对横摆角度偏差都有较大的增加,但也在可接受的范围内,能有效提高路径跟踪的精度。最后的实车试验结果同样表明了所制定的控制策略的有效性。 展开更多
关键词 自动驾驶 转向控制 路径跟踪 强化学习 深度q学习神经网络
原文传递
面向智能工厂多机器人定位的无线分布式协同决策 被引量:1
9
作者 张文璐 霍子龙 +2 位作者 赵西雨 崔琪楣 陶小峰 《无线电通信技术》 2022年第4期718-727,共10页
由于未来智能工厂中智能机器人的工作环境复杂多变,机器人进行协作定位时无法获知全局信道状态,其选择的标定节点可能被其他机器人占用,导致定位性能的波动较大,稳定性差。针对该问题,提出了基于双重深度超Q神经网络(DDHQN)的多机器人... 由于未来智能工厂中智能机器人的工作环境复杂多变,机器人进行协作定位时无法获知全局信道状态,其选择的标定节点可能被其他机器人占用,导致定位性能的波动较大,稳定性差。针对该问题,提出了基于双重深度超Q神经网络(DDHQN)的多机器人协同决策算法;首先将多机器人进行协作定位时的决策系统构建为竞争加合作模型,并通过奖励函数的设计鼓励机器人参与协作;为了避免机器人之间的决策冲突,引入表示机器人决策轨迹的记录空间以实现对其他机器人的行为预估,记录空间的内容依据机器人的无线感知结果进行迭代更新;最后,仿真证明了所提出的基于DDHQN的多机器人协同决策算法使得每个机器人能够以群体性能最大为目标进行独立学习,在一定的迭代次数后可以实现精准的行为预估,并收敛到稳定有效的决策方案。 展开更多
关键词 双重深度q神经网络(DDHqN) 多机器人协同 标定节点选择 决策轨迹 行为预估 无线感知
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部