期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于actor-critic框架的在线积分强化学习算法研究 被引量:2
1
作者 蔡军 苟文耀 刘颜 《电子测量与仪器学报》 CSCD 北大核心 2023年第3期194-201,共8页
针对轮式移动机器人动力学系统难以实现无模型的最优跟踪控制问题,提出了一种基于actor-critic框架的在线积分强化学习控制算法。首先,构建RBF评价神经网络并基于近似贝尔曼误差设计该网络的权值更新律,以拟合二次型跟踪控制性能指标函... 针对轮式移动机器人动力学系统难以实现无模型的最优跟踪控制问题,提出了一种基于actor-critic框架的在线积分强化学习控制算法。首先,构建RBF评价神经网络并基于近似贝尔曼误差设计该网络的权值更新律,以拟合二次型跟踪控制性能指标函数。其次,构建RBF行为神经网络并以最小化性能指标函数为目标设计权值更新律,补偿动力学系统中的未知项。最后,通过Lyapunov理论证明了所提出的积分强化学习控制算法可以使得价值函数,行为神经网络权值误差与评价神经网络权值误差一致最终有界。仿真和实验结果表明,该算法不仅可以实现对恒定速度以及时变速度的跟踪,还可以在嵌入式平台上进行实现。 展开更多
关键词 积分强化学习 RBF神经网络 非线性仿射系统 跟踪控制
下载PDF
聚类与信息共享的多智能体深度强化学习协同控制交通灯
2
作者 杜同春 王波 +2 位作者 程浩然 罗乐 曾能民 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第2期538-545,共8页
该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类... 该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类内部进行信息共享和中心化训练,并在每个训练过程结束时将评价值最高的值函数网络参数分享给其它智能体。在城市交通仿真软件(SUMO)下的仿真实验结果表明,所提方法能够减少通信的数据量,使得智能体之间的信息共享和中心化训练更加可行和高效,车辆平均等待时长少于当前最优的基于多智能体深度强化学习的交通灯控制方法,能够有效地缓解交通拥堵。 展开更多
关键词 交通信号灯协同控制 集中训练分散执行 强化学习智能体聚类 生长神经气 深度循环Q网络
下载PDF
带状态约束的事件触发积分强化学习控制
3
作者 田奋铭 刘飞 《计算机测量与控制》 2023年第7期143-149,共7页
为克服全状态对称约束以及控制策略频繁更新的局限,针对一类具有部分动力学未知的仿射非线性连续系统的最优控制问题,提出一种带状态约束的事件触发积分强化学习的控制器设计方法;该方法是一种基于数据的在线策略迭代方法;引入系统转换... 为克服全状态对称约束以及控制策略频繁更新的局限,针对一类具有部分动力学未知的仿射非线性连续系统的最优控制问题,提出一种带状态约束的事件触发积分强化学习的控制器设计方法;该方法是一种基于数据的在线策略迭代方法;引入系统转换将带有全状态约束的系统转化为不含约束的系统;基于事件触发机制以及积分强化学习算法,通过交替执行系统转换、策略评估、策略改进,最终系统在满足全状态约束的情况下,代价函数以及控制策略将分别收敛于最优值,并能降低控制策略的更新频率;此外,利用李雅普诺夫函数对系统的稳定性进行严格的分析;通过单连杆机械臂的仿真实验说明算法的可行性。 展开更多
关键词 仿射非线性系统 最优控制 事件触发控制 积分强化学习 神经网络
下载PDF
基于强化学习的1型糖尿病胰岛素给药策略研究
4
作者 焦泽辉 解柏森 孙福权 《计算机应用研究》 CSCD 北大核心 2023年第9期2765-2769,共5页
1型糖尿病(T1D)患者需要通过外源性胰岛素的输送将血糖(BG)维持在治疗范围内。目前,已有的几种基于模型预测控制和强化学习(RL)的胰岛素给药算法存在样本效率差、奖励机制过于简单、血糖调控效果不佳等问题。为此提出了一种基于强化学... 1型糖尿病(T1D)患者需要通过外源性胰岛素的输送将血糖(BG)维持在治疗范围内。目前,已有的几种基于模型预测控制和强化学习(RL)的胰岛素给药算法存在样本效率差、奖励机制过于简单、血糖调控效果不佳等问题。为此提出了一种基于强化学习的带有指导网络的胰岛素给药策略(insulin administration strategy with guided network,IASGN),针对给药策略安全性能和快速性的特点,引入累积情节奖励和分类经验回放方法,按照不同的重要性采样权重增加了精英样本池,并基于精英样本池训练给药指导网络,对策略网络进行动作指导,改进了奖励机制,在FDA批准的UVA/Padova T1D模拟器中验证了该方法的性能。结果显示,该方法TIR(time in range)达到了98.21%,TBR(time below range)接近于0,CVGA中所有患者均处于A+B区的安全范围,可以使患者血糖长期处于正常范围内,避免了低血糖的风险,在与基准方法对比中也获得了更好的表现。 展开更多
关键词 强化学习 1糖尿病治疗 胰岛素给药策略 精英样本池 指导网络
下载PDF
基于改进U型网络的注意强化学习目标检测 被引量:1
5
作者 曹立春 《计算机应用与软件》 北大核心 2022年第6期169-175,共7页
为了提高目标检测领域小目标漏检及整体的检测精度不高的问题,提出改进的U-Net,以提取不同尺度的特征,并引入强化学习来调整包围框的精度。具体过程是定义检测框为agent,agent根据初始候选区域信息决定移动行为以选择下一个逼近真实目... 为了提高目标检测领域小目标漏检及整体的检测精度不高的问题,提出改进的U-Net,以提取不同尺度的特征,并引入强化学习来调整包围框的精度。具体过程是定义检测框为agent,agent根据初始候选区域信息决定移动行为以选择下一个逼近真实目标的候选区域,重复上述过程直至agent确定当前区域足够精确时终止搜索过程。实验证明,该方法的目标检测精确度相比文献[16]方法提升了1.6百分点,有效地提升了小目标的利用率。 展开更多
关键词 目标检测 U网络 强化学习 特征融合 注意力机制机
下载PDF
一种快速的单层感知器网络学习算法 被引量:3
6
作者 易中凯 吴沧浦 《计算机工程》 CAS CSCD 北大核心 2001年第12期43-45,共3页
提出了一种单层感知器网络训练的新算法。证明了对于线性可分问题和线性不可分问题,算法总是在有限步内终止,算法的迭代次数以模式数为上界;而且,在算法终止时,对于线性可分问题,总是能得到正确的权向量解,所以,如果在算法结束时还不能... 提出了一种单层感知器网络训练的新算法。证明了对于线性可分问题和线性不可分问题,算法总是在有限步内终止,算法的迭代次数以模式数为上界;而且,在算法终止时,对于线性可分问题,总是能得到正确的权向量解,所以,如果在算法结束时还不能划分所有模式,则说明给定的模式集确是不可线性划分的。 展开更多
关键词 层感知器网络 增广模式向量 增广权值向量 学习算法 神经网络 模式识别
下载PDF
基于深度强化学习的激励型需求响应决策优化模型 被引量:28
7
作者 徐弘升 陆继翔 +3 位作者 杨志宏 李昀 陆进军 黄华 《电力系统自动化》 EI CSCD 北大核心 2021年第14期97-103,共7页
随着中国电力市场化改革的推进,售电侧市场逐步开放,售电商可以聚合大量的分散负荷参与电力市场环境下的需求响应。文中提出以售电商和用户综合收益最大化为目标的基于深度强化学习的激励型需求响应建模和求解方法。首先,建立售电商和... 随着中国电力市场化改革的推进,售电侧市场逐步开放,售电商可以聚合大量的分散负荷参与电力市场环境下的需求响应。文中提出以售电商和用户综合收益最大化为目标的基于深度强化学习的激励型需求响应建模和求解方法。首先,建立售电商和用户的需求响应模型,通过引入时间-价格弹性,改进现有的用户响应模型,考虑用户对相邻时段补贴价格差的反应。然后,基于马尔可夫决策过程框架构建补贴价格决策优化模型,并设计基于深度Q学习网络的求解算法。最后,以1个售电商和3个不同类型的用户为例进行仿真计算,通过分析算法收敛性和对比不同模型及参数下的优化结果,验证了改进模型的合理性和生成策略的有效性,并分析了激励型需求响应对售电商以及用户的影响。 展开更多
关键词 激励需求响应 价格弹性系数 深度强化学习 深度Q学习网络
下载PDF
基于前馈型神经网络解线性Fredholm积分-微分方程
8
作者 许彩虹 邵新平 张林 《杭州电子科技大学学报(自然科学版)》 2022年第2期96-102,共7页
为了研究积分微分方程的数值解,构造了一种前馈型神经网络用于求解Fredholm积分微分方程近似解。首先,运用Taylor展开式近似代替未知函数,神经网络的误差由内部误差和边界误差组成。其次,应用神经网络对Taylor展开式的系数进行学习从而... 为了研究积分微分方程的数值解,构造了一种前馈型神经网络用于求解Fredholm积分微分方程近似解。首先,运用Taylor展开式近似代替未知函数,神经网络的误差由内部误差和边界误差组成。其次,应用神经网络对Taylor展开式的系数进行学习从而得到近似解。最后,与梯形求积规则(Trapezoidal Quadrature Rule,TQR)数值方法进行比较,验证了提出方法的可行性与有效性。 展开更多
关键词 Fredholm积分微分方程 前馈神经网络 近似解 学习算法
下载PDF
非零和微分博弈系统的事件触发最优跟踪控制
9
作者 石义博 王朝立 《控制理论与应用》 EI CAS CSCD 北大核心 2023年第2期220-230,共11页
近年来,对于具有未知动态的非零和微分博弈系统的跟踪问题,已经得到了讨论,然而这些方法是时间触发的,在传输带宽和计算资源有限的环境下并不适用.针对具有未知动态的连续时间非线性非零和微分博弈系统,本文提出了一种基于积分强化学习... 近年来,对于具有未知动态的非零和微分博弈系统的跟踪问题,已经得到了讨论,然而这些方法是时间触发的,在传输带宽和计算资源有限的环境下并不适用.针对具有未知动态的连续时间非线性非零和微分博弈系统,本文提出了一种基于积分强化学习的事件触发自适应动态规划方法.该策略受梯度下降法和经验重放技术的启发,利用历史和当前数据更新神经网络权值.该方法提高了神经网络权值的收敛速度,消除了一般文献设计中常用的初始容许控制假设.同时,该算法提出了一种易于在线检查的持续激励条件(通常称为PE),避免了传统的不容易检查的持续激励条件.基于李亚普诺夫理论,证明了跟踪误差和评价神经网络估计误差的一致最终有界性.最后,通过一个数值仿真实例验证了该方法的可行性. 展开更多
关键词 非零和博弈 积分强化学习 最优跟踪控制 神经网络 事件触发
下载PDF
再入飞行器自适应最优姿态控制 被引量:10
10
作者 张振宁 张冉 +1 位作者 聂文明 李惠峰 《宇航学报》 EI CAS CSCD 北大核心 2019年第2期199-206,共8页
针对再入飞行器姿态控制问题,应用自适应动态规划(ADP)理论设计了姿态控制器。将再入飞行器的姿态控制建模为非线性系统的最优控制问题,提出单网络积分型强化学习(SNIRL)算法进行求解,该算法简化了积分型强化学习(IRL)算法在迭代计算中... 针对再入飞行器姿态控制问题,应用自适应动态规划(ADP)理论设计了姿态控制器。将再入飞行器的姿态控制建模为非线性系统的最优控制问题,提出单网络积分型强化学习(SNIRL)算法进行求解,该算法简化了积分型强化学习(IRL)算法在迭代计算中的执行-评价双网络结构,只需要采用评价网络估计值函数就可以求得最优控制律,其收敛性得到了理论证明。基于SNIRL算法设计了自适应最优控制器,并证明了闭环系统的稳定性。通过数值仿真校验了SNIRL算法比IRL算法计算效率更高,收敛速度更快,并校验了自适应最优姿态控制器的有效性。 展开更多
关键词 再入飞行器 姿态控制 自适应最优控制 单网络积分型强化学习
下载PDF
改进FCOS的行人检测算法 被引量:1
11
作者 刘丹 汪慧兰 +1 位作者 曾浩文 王桂丽 《计算机工程与设计》 北大核心 2022年第11期3264-3270,共7页
为解决行人目标特殊性和复杂性导致的检测速度和精度不高问题,提出改进的FCOS检测算法。采用轻量型网络作为FCOS的主干网络,提高检测速度;运用同步批归一化替代批归一化方法进行网络模型训练;在原有特征层基础上增加C_(2)层进行特征融合... 为解决行人目标特殊性和复杂性导致的检测速度和精度不高问题,提出改进的FCOS检测算法。采用轻量型网络作为FCOS的主干网络,提高检测速度;运用同步批归一化替代批归一化方法进行网络模型训练;在原有特征层基础上增加C_(2)层进行特征融合,提高精度。实验结果表明,改进算法在Caltech数据集上mAP为88.9%,对小尺度行人检测效果增强,检测速度提高了85.3%,在具有鲁棒性的同时也满足行人检测实时性要求。 展开更多
关键词 行人检测 全卷积阶段 深度学习 轻量网络 同步批归一化
下载PDF
基于零和博弈的多智能体网络鲁棒包容控制 被引量:2
12
作者 于镝 《控制与决策》 EI CSCD 北大核心 2021年第8期1841-1848,共8页
针对受扰非线性多智能体网络,研究分布式鲁棒包容控制方法.采用微分博弈理论将有界L2增益包容控制问题描述成多玩家零和博弈问题.对于每个跟随者,当至少有一个领航者与其存在有向路径通信时,基于局部邻居信息定义每个跟随者的性能指标,... 针对受扰非线性多智能体网络,研究分布式鲁棒包容控制方法.采用微分博弈理论将有界L2增益包容控制问题描述成多玩家零和博弈问题.对于每个跟随者,当至少有一个领航者与其存在有向路径通信时,基于局部邻居信息定义每个跟随者的性能指标,从而得出包容误差L2有界且零和博弈解存在的结论.在系统动态完全未知的情况下,采用积分强化学习算法和执行-评价-干扰网络,在线得到近似最优策略.仿真结果表明了所提出方案的有效性和正确性. 展开更多
关键词 多智能体网络 鲁棒包容控制 零和博弈 积分强化学习
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部