期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
Double Deep Q-Network Decoder Based on EEG Brain-Computer Interface
1
作者 REN Min XU Renyu ZHU Ting 《ZTE Communications》 2023年第3期3-10,共8页
Brain-computer interfaces(BCI)use neural activity as a control signal to enable direct communication between the human brain and external devices.The electrical signals generated by the brain are captured through elec... Brain-computer interfaces(BCI)use neural activity as a control signal to enable direct communication between the human brain and external devices.The electrical signals generated by the brain are captured through electroencephalogram(EEG)and translated into neural intentions reflecting the user’s behavior.Correct decoding of the neural intentions then facilitates the control of external devices.Reinforcement learning-based BCIs enhance decoders to complete tasks based only on feedback signals(rewards)from the environment,building a general framework for dynamic mapping from neural intentions to actions that adapt to changing environments.However,using traditional reinforcement learning methods can have challenges such as the curse of dimensionality and poor generalization.Therefore,in this paper,we use deep reinforcement learning to construct decoders for the correct decoding of EEG signals,demonstrate its feasibility through experiments,and demonstrate its stronger generalization on motion imaging(MI)EEG data signals with high dynamic characteristics. 展开更多
关键词 brain-computer interface(BCI) electroencephalogram(EEG) deep reinforcement learning(deep rl) motion imaging(MI)generalizability
下载PDF
考虑储能调控优化的配电网分布式电源选址定容
2
作者 李童宇 武浩然 +2 位作者 陈衡 刘涛 李国亮 《浙江电力》 2024年第6期41-51,共11页
稳定配电网潮流分布、明确分布式电源的接入位置和容量是含分布式电源配电网优化运行的重要问题。提出一种基于深度强化学习算法的储能调控优化模型,实现分布式电源配置与用电负荷需求关系的匹配,从而稳定高渗透率下配电网的潮流分布。... 稳定配电网潮流分布、明确分布式电源的接入位置和容量是含分布式电源配电网优化运行的重要问题。提出一种基于深度强化学习算法的储能调控优化模型,实现分布式电源配置与用电负荷需求关系的匹配,从而稳定高渗透率下配电网的潮流分布。以线路损耗与电压波动性为损失函数,提出基于多目标遗传算法的分布式电源选址定容决策模型。在IEEE 14节点系统进行测试,结果表明该算法能够有效选择分布式电源的最佳接入位置和容量,在保证电压幅值不产生过大波动的同时,进一步降低了整体网络的线路损耗。 展开更多
关键词 分布式电源 深度强化学习 储能优化 多目标遗传算法 选址定容
下载PDF
基于深度强化学习的多能流楼宇低碳调度方法
3
作者 胥栋 李逸超 +2 位作者 李赟 徐刚 杜佳玮 《浙江电力》 2024年第2期126-136,共11页
建筑减排已成为中国达到“双碳”目标的重要途径,智慧楼宇作为多能流网络耦合的综合能源主体,面临碳排放量较多、多能流网络耦合程度高、负荷用能行为动态特性明显等问题。针对这一问题,提出基于深度强化学习的多能流楼宇低碳调度方法... 建筑减排已成为中国达到“双碳”目标的重要途径,智慧楼宇作为多能流网络耦合的综合能源主体,面临碳排放量较多、多能流网络耦合程度高、负荷用能行为动态特性明显等问题。针对这一问题,提出基于深度强化学习的多能流楼宇低碳调度方法。首先,根据智慧楼宇的实际碳排放量,建立了一种奖惩阶梯型碳排放权交易机制。其次,面向碳市场和多能流耦合网络,以最小化运行成本为目标函数,建立多能流低碳楼宇调度模型,并将该调度问题转换为马尔可夫决策过程。然后,利用Rainbow算法进行优化调度问题的求解。最后,通过仿真分析验证了优化调度模型的可行性及有效性。 展开更多
关键词 “双碳”目标 多能流 低碳调度 深度强化学习
下载PDF
强化学习控制方法及在类火箭飞行器上的应用 被引量:1
4
作者 黄旭 柳嘉润 +3 位作者 贾晨辉 骆无意 巩庆海 冯明涛 《宇航学报》 EI CAS CSCD 北大核心 2023年第5期708-718,共11页
针对类火箭飞行器进行了基于深度确定性策略梯度(DDPG)算法的姿态控制研究,完成了算法设计和智能体训练,并进行了仿真与飞行试验。基于飞行器六自由度模型搭建飞行模拟器,针对悬停模式,以多拍姿态角跟踪误差以及姿态角速度作为智能体可... 针对类火箭飞行器进行了基于深度确定性策略梯度(DDPG)算法的姿态控制研究,完成了算法设计和智能体训练,并进行了仿真与飞行试验。基于飞行器六自由度模型搭建飞行模拟器,针对悬停模式,以多拍姿态角跟踪误差以及姿态角速度作为智能体可观测的状态,控制指令作为智能体动作,设计了含有跟踪误差、控制指令变化量以及一次性奖励的回报函数,在模拟器中训练智能体并完成了从仿真环境到真实系统的迁移。研究中未按传统设计流程对飞行器模型进行通道分解等简化,轻量化神经网络形式的智能体仅通过与模拟器交互的形式学习姿态控制策略,智能体在仿真和飞行试验中都展现出了良好性能。 展开更多
关键词 强化学习(rl) 深度确定性策略梯度算法(DDPG) 姿态控制 飞行试验
下载PDF
一种最大置信上界经验采样的深度Q网络方法 被引量:13
5
作者 朱斐 吴文 +1 位作者 刘全 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2018年第8期1694-1705,共12页
由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破... 由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性. 展开更多
关键词 强化学习 深度强化学习 最大置信上界 经验回放 深度Q网络
下载PDF
强化学习求解组合最优化问题的研究综述 被引量:10
6
作者 王扬 陈智斌 +1 位作者 吴兆蕊 高远 《计算机科学与探索》 CSCD 北大核心 2022年第2期261-279,共19页
组合最优化问题(COP)的求解方法已经渗透到人工智能、运筹学等众多领域。随着数据规模的不断增大、问题更新速度的变快,运用传统方法求解COP问题在速度、精度、泛化能力等方面受到很大冲击。近年来,强化学习(RL)在无人驾驶、工业自动化... 组合最优化问题(COP)的求解方法已经渗透到人工智能、运筹学等众多领域。随着数据规模的不断增大、问题更新速度的变快,运用传统方法求解COP问题在速度、精度、泛化能力等方面受到很大冲击。近年来,强化学习(RL)在无人驾驶、工业自动化等领域的广泛应用,显示出强大的决策力和学习能力,故而诸多研究者尝试使用RL求解COP问题,为求解此类问题提供了一种全新的方法。首先简要梳理常见的COP问题及其RL的基本原理;其次阐述RL求解COP问题的难点,分析RL应用于组合最优化(CO)领域的优势,对RL与COP问题结合的原理进行研究;然后总结近年来采用RL求解COP问题的理论方法和应用研究,对各类代表性研究所解决COP问题的关键要点、算法逻辑、优化效果进行对比分析,以突出RL模型的优越性,并对不同方法的局限性及其使用场景进行归纳总结;最后提出了四个RL求解COP问题的潜在研究方向。 展开更多
关键词 强化学习(rl) 深度强化学习(Drl) 组合最优化问题(COP)
下载PDF
基于DQN的超密集网络能效资源管理 被引量:4
7
作者 郑冰原 孙彦赞 +2 位作者 吴雅婷 王涛 方勇 《计算机工程》 CAS CSCD 北大核心 2021年第5期169-175,共7页
小基站的密集随机部署会产生严重干扰和较高能耗问题,为降低网络干扰、保证用户网络服务质量(QoS)并提高网络能效,构建一种基于深度强化学习(DRL)的资源分配和功率控制联合优化框架。综合考虑超密集异构网络中的同层干扰和跨层干扰,提... 小基站的密集随机部署会产生严重干扰和较高能耗问题,为降低网络干扰、保证用户网络服务质量(QoS)并提高网络能效,构建一种基于深度强化学习(DRL)的资源分配和功率控制联合优化框架。综合考虑超密集异构网络中的同层干扰和跨层干扰,提出对频谱与功率资源联合控制能效以及用户QoS的联合优化问题。针对该联合优化问题的NP-Hard特性,提出基于DRL框架的资源分配和功率控制联合优化算法,并定义联合频谱和功率分配的状态、动作以及回报函数。利用强化学习、在线学习和深度神经网络线下训练对网络资源进行控制,从而找到最佳资源和功率控制策略。仿真结果表明,与枚举算法、Q-学习算法和两阶段算法相比,该算法可在保证用户QoS的同时有效提升网络能效。 展开更多
关键词 超密集网络 能效 资源分配 强化学习 功率控制 深度学习
下载PDF
深度强化学习研究综述 被引量:42
8
作者 杨思明 单征 +1 位作者 丁煜 李刚伟 《计算机工程》 CAS CSCD 北大核心 2021年第12期19-29,共11页
深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究... 深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。 展开更多
关键词 深度学习 强化学习 深度强化学习 逆向强化学习 基于模型的元学习
下载PDF
基于强化学习的路径规划技术综述 被引量:35
9
作者 闫皎洁 张锲石 胡希平 《计算机工程》 CAS CSCD 北大核心 2021年第10期16-25,共10页
路径规划作为移动机器人自主导航的关键技术,主要是使目标对象在规定范围内找到一条从起点到终点的无碰撞安全路径。阐述基于常规方法和强化学习方法的路径规划技术,将强化学习方法主要分为基于值和基于策略两类,对比时序差分、Q-Learn... 路径规划作为移动机器人自主导航的关键技术,主要是使目标对象在规定范围内找到一条从起点到终点的无碰撞安全路径。阐述基于常规方法和强化学习方法的路径规划技术,将强化学习方法主要分为基于值和基于策略两类,对比时序差分、Q-Learning等基于值的代表方法与策略梯度、模仿学习等基于策略的代表方法,并分析其融合策略和深度强化学习方法方法的发展现状。在此基础上,总结各种强化学习方法的优缺点及适用场合,同时对基于强化学习的路径规划技术的未来发展方向进行展望。 展开更多
关键词 路径规划 强化学习 深度强化学习 移动机器人 自主导航
下载PDF
使用增强学习训练多焦点聚焦模型 被引量:2
10
作者 刘畅 刘勤让 《自动化学报》 EI CSCD 北大核心 2017年第9期1563-1570,共8页
聚焦模型(Attention model,AM)将计算资源集中于输入数据特定区域,相比卷积神经网络,AM具有参数少、计算量独立输入和高噪声下正确率较高等优点.相对于输入图像和识别目标,聚焦区域通常较小;如果聚焦区域过小,就会导致过多的迭代次数,... 聚焦模型(Attention model,AM)将计算资源集中于输入数据特定区域,相比卷积神经网络,AM具有参数少、计算量独立输入和高噪声下正确率较高等优点.相对于输入图像和识别目标,聚焦区域通常较小;如果聚焦区域过小,就会导致过多的迭代次数,降低了效率,也难以在同一输入中寻找多个目标.因此本文提出多焦点聚焦模型,同时对多处并行聚焦.使用增强学习(Reinforce learning,RL)进行训练,将所有焦点的行为统一评分训练.与单焦点聚焦模型相比,训练速度和识别速度提高了25%.同时本模型具有较高的通用性. 展开更多
关键词 深度学习 聚焦模型 增强学习 多焦点
下载PDF
递归最小二乘循环神经网络
11
作者 赵杰 张春元 +3 位作者 刘超 周辉 欧宜贵 宋淇 《自动化学报》 EI CAS CSCD 北大核心 2022年第8期2050-2061,共12页
针对循环神经网络(Recurrent neural networks,RNNs)一阶优化算法学习效率不高和二阶优化算法时空开销过大,提出一种新的迷你批递归最小二乘优化算法.所提算法采用非激活线性输出误差替代传统的激活输出误差反向传播,并结合加权线性最... 针对循环神经网络(Recurrent neural networks,RNNs)一阶优化算法学习效率不高和二阶优化算法时空开销过大,提出一种新的迷你批递归最小二乘优化算法.所提算法采用非激活线性输出误差替代传统的激活输出误差反向传播,并结合加权线性最小二乘目标函数关于隐藏层线性输出的等效梯度,逐层导出RNNs参数的迷你批递归最小二乘解.相较随机梯度下降算法,所提算法只在RNNs的隐藏层和输出层分别增加了一个协方差矩阵,其时间复杂度和空间复杂度仅为随机梯度下降算法的3倍左右.此外,本文还就所提算法的遗忘因子自适应问题和过拟合问题分别给出一种解决办法.仿真结果表明,无论是对序列数据的分类问题还是预测问题,所提算法的收敛速度要优于现有主流一阶优化算法,而且在超参数的设置上具有较好的鲁棒性. 展开更多
关键词 深度学习 循环神经网络 递归最小二乘 迷你批学习 优化算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部