期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
12
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于actor-critic框架的在线积分强化学习算法研究
被引量:
2
1
作者
蔡军
苟文耀
刘颜
《电子测量与仪器学报》
CSCD
北大核心
2023年第3期194-201,共8页
针对轮式移动机器人动力学系统难以实现无模型的最优跟踪控制问题,提出了一种基于actor-critic框架的在线积分强化学习控制算法。首先,构建RBF评价神经网络并基于近似贝尔曼误差设计该网络的权值更新律,以拟合二次型跟踪控制性能指标函...
针对轮式移动机器人动力学系统难以实现无模型的最优跟踪控制问题,提出了一种基于actor-critic框架的在线积分强化学习控制算法。首先,构建RBF评价神经网络并基于近似贝尔曼误差设计该网络的权值更新律,以拟合二次型跟踪控制性能指标函数。其次,构建RBF行为神经网络并以最小化性能指标函数为目标设计权值更新律,补偿动力学系统中的未知项。最后,通过Lyapunov理论证明了所提出的积分强化学习控制算法可以使得价值函数,行为神经网络权值误差与评价神经网络权值误差一致最终有界。仿真和实验结果表明,该算法不仅可以实现对恒定速度以及时变速度的跟踪,还可以在嵌入式平台上进行实现。
展开更多
关键词
积分
强化
学习
RBF神经
网络
非线性仿射系统
跟踪控制
下载PDF
职称材料
聚类与信息共享的多智能体深度强化学习协同控制交通灯
2
作者
杜同春
王波
+2 位作者
程浩然
罗乐
曾能民
《电子与信息学报》
EI
CAS
CSCD
北大核心
2024年第2期538-545,共8页
该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类...
该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类内部进行信息共享和中心化训练,并在每个训练过程结束时将评价值最高的值函数网络参数分享给其它智能体。在城市交通仿真软件(SUMO)下的仿真实验结果表明,所提方法能够减少通信的数据量,使得智能体之间的信息共享和中心化训练更加可行和高效,车辆平均等待时长少于当前最优的基于多智能体深度强化学习的交通灯控制方法,能够有效地缓解交通拥堵。
展开更多
关键词
交通信号灯协同控制
集中训练分散执行
强化
学习
智能体聚类
生长
型
神经气
深度循环Q
网络
下载PDF
职称材料
带状态约束的事件触发积分强化学习控制
3
作者
田奋铭
刘飞
《计算机测量与控制》
2023年第7期143-149,共7页
为克服全状态对称约束以及控制策略频繁更新的局限,针对一类具有部分动力学未知的仿射非线性连续系统的最优控制问题,提出一种带状态约束的事件触发积分强化学习的控制器设计方法;该方法是一种基于数据的在线策略迭代方法;引入系统转换...
为克服全状态对称约束以及控制策略频繁更新的局限,针对一类具有部分动力学未知的仿射非线性连续系统的最优控制问题,提出一种带状态约束的事件触发积分强化学习的控制器设计方法;该方法是一种基于数据的在线策略迭代方法;引入系统转换将带有全状态约束的系统转化为不含约束的系统;基于事件触发机制以及积分强化学习算法,通过交替执行系统转换、策略评估、策略改进,最终系统在满足全状态约束的情况下,代价函数以及控制策略将分别收敛于最优值,并能降低控制策略的更新频率;此外,利用李雅普诺夫函数对系统的稳定性进行严格的分析;通过单连杆机械臂的仿真实验说明算法的可行性。
展开更多
关键词
仿射非线性系统
最优控制
事件触发控制
积分
强化
学习
神经
网络
下载PDF
职称材料
基于强化学习的1型糖尿病胰岛素给药策略研究
4
作者
焦泽辉
解柏森
孙福权
《计算机应用研究》
CSCD
北大核心
2023年第9期2765-2769,共5页
1型糖尿病(T1D)患者需要通过外源性胰岛素的输送将血糖(BG)维持在治疗范围内。目前,已有的几种基于模型预测控制和强化学习(RL)的胰岛素给药算法存在样本效率差、奖励机制过于简单、血糖调控效果不佳等问题。为此提出了一种基于强化学...
1型糖尿病(T1D)患者需要通过外源性胰岛素的输送将血糖(BG)维持在治疗范围内。目前,已有的几种基于模型预测控制和强化学习(RL)的胰岛素给药算法存在样本效率差、奖励机制过于简单、血糖调控效果不佳等问题。为此提出了一种基于强化学习的带有指导网络的胰岛素给药策略(insulin administration strategy with guided network,IASGN),针对给药策略安全性能和快速性的特点,引入累积情节奖励和分类经验回放方法,按照不同的重要性采样权重增加了精英样本池,并基于精英样本池训练给药指导网络,对策略网络进行动作指导,改进了奖励机制,在FDA批准的UVA/Padova T1D模拟器中验证了该方法的性能。结果显示,该方法TIR(time in range)达到了98.21%,TBR(time below range)接近于0,CVGA中所有患者均处于A+B区的安全范围,可以使患者血糖长期处于正常范围内,避免了低血糖的风险,在与基准方法对比中也获得了更好的表现。
展开更多
关键词
强化
学习
1
型
糖尿病治疗
胰岛素给药策略
精英样本池
指导
网络
下载PDF
职称材料
基于改进U型网络的注意强化学习目标检测
被引量:
1
5
作者
曹立春
《计算机应用与软件》
北大核心
2022年第6期169-175,共7页
为了提高目标检测领域小目标漏检及整体的检测精度不高的问题,提出改进的U-Net,以提取不同尺度的特征,并引入强化学习来调整包围框的精度。具体过程是定义检测框为agent,agent根据初始候选区域信息决定移动行为以选择下一个逼近真实目...
为了提高目标检测领域小目标漏检及整体的检测精度不高的问题,提出改进的U-Net,以提取不同尺度的特征,并引入强化学习来调整包围框的精度。具体过程是定义检测框为agent,agent根据初始候选区域信息决定移动行为以选择下一个逼近真实目标的候选区域,重复上述过程直至agent确定当前区域足够精确时终止搜索过程。实验证明,该方法的目标检测精确度相比文献[16]方法提升了1.6百分点,有效地提升了小目标的利用率。
展开更多
关键词
目标检测
U
型
网络
强化
学习
特征融合
注意力机制机
下载PDF
职称材料
一种快速的单层感知器网络学习算法
被引量:
3
6
作者
易中凯
吴沧浦
《计算机工程》
CAS
CSCD
北大核心
2001年第12期43-45,共3页
提出了一种单层感知器网络训练的新算法。证明了对于线性可分问题和线性不可分问题,算法总是在有限步内终止,算法的迭代次数以模式数为上界;而且,在算法终止时,对于线性可分问题,总是能得到正确的权向量解,所以,如果在算法结束时还不能...
提出了一种单层感知器网络训练的新算法。证明了对于线性可分问题和线性不可分问题,算法总是在有限步内终止,算法的迭代次数以模式数为上界;而且,在算法终止时,对于线性可分问题,总是能得到正确的权向量解,所以,如果在算法结束时还不能划分所有模式,则说明给定的模式集确是不可线性划分的。
展开更多
关键词
单
层感知器
网络
增广
型
模式向量
增广
型
权值向量
学习
算法
神经
网络
模式识别
下载PDF
职称材料
基于深度强化学习的激励型需求响应决策优化模型
被引量:
28
7
作者
徐弘升
陆继翔
+3 位作者
杨志宏
李昀
陆进军
黄华
《电力系统自动化》
EI
CSCD
北大核心
2021年第14期97-103,共7页
随着中国电力市场化改革的推进,售电侧市场逐步开放,售电商可以聚合大量的分散负荷参与电力市场环境下的需求响应。文中提出以售电商和用户综合收益最大化为目标的基于深度强化学习的激励型需求响应建模和求解方法。首先,建立售电商和...
随着中国电力市场化改革的推进,售电侧市场逐步开放,售电商可以聚合大量的分散负荷参与电力市场环境下的需求响应。文中提出以售电商和用户综合收益最大化为目标的基于深度强化学习的激励型需求响应建模和求解方法。首先,建立售电商和用户的需求响应模型,通过引入时间-价格弹性,改进现有的用户响应模型,考虑用户对相邻时段补贴价格差的反应。然后,基于马尔可夫决策过程框架构建补贴价格决策优化模型,并设计基于深度Q学习网络的求解算法。最后,以1个售电商和3个不同类型的用户为例进行仿真计算,通过分析算法收敛性和对比不同模型及参数下的优化结果,验证了改进模型的合理性和生成策略的有效性,并分析了激励型需求响应对售电商以及用户的影响。
展开更多
关键词
激励
型
需求响应
价格弹性系数
深度
强化
学习
深度Q
学习
网络
下载PDF
职称材料
基于前馈型神经网络解线性Fredholm积分-微分方程
8
作者
许彩虹
邵新平
张林
《杭州电子科技大学学报(自然科学版)》
2022年第2期96-102,共7页
为了研究积分微分方程的数值解,构造了一种前馈型神经网络用于求解Fredholm积分微分方程近似解。首先,运用Taylor展开式近似代替未知函数,神经网络的误差由内部误差和边界误差组成。其次,应用神经网络对Taylor展开式的系数进行学习从而...
为了研究积分微分方程的数值解,构造了一种前馈型神经网络用于求解Fredholm积分微分方程近似解。首先,运用Taylor展开式近似代替未知函数,神经网络的误差由内部误差和边界误差组成。其次,应用神经网络对Taylor展开式的系数进行学习从而得到近似解。最后,与梯形求积规则(Trapezoidal Quadrature Rule,TQR)数值方法进行比较,验证了提出方法的可行性与有效性。
展开更多
关键词
Fredholm
积分
微分方程
前馈
型
神经
网络
近似解
学习
算法
下载PDF
职称材料
非零和微分博弈系统的事件触发最优跟踪控制
9
作者
石义博
王朝立
《控制理论与应用》
EI
CAS
CSCD
北大核心
2023年第2期220-230,共11页
近年来,对于具有未知动态的非零和微分博弈系统的跟踪问题,已经得到了讨论,然而这些方法是时间触发的,在传输带宽和计算资源有限的环境下并不适用.针对具有未知动态的连续时间非线性非零和微分博弈系统,本文提出了一种基于积分强化学习...
近年来,对于具有未知动态的非零和微分博弈系统的跟踪问题,已经得到了讨论,然而这些方法是时间触发的,在传输带宽和计算资源有限的环境下并不适用.针对具有未知动态的连续时间非线性非零和微分博弈系统,本文提出了一种基于积分强化学习的事件触发自适应动态规划方法.该策略受梯度下降法和经验重放技术的启发,利用历史和当前数据更新神经网络权值.该方法提高了神经网络权值的收敛速度,消除了一般文献设计中常用的初始容许控制假设.同时,该算法提出了一种易于在线检查的持续激励条件(通常称为PE),避免了传统的不容易检查的持续激励条件.基于李亚普诺夫理论,证明了跟踪误差和评价神经网络估计误差的一致最终有界性.最后,通过一个数值仿真实例验证了该方法的可行性.
展开更多
关键词
非零和博弈
积分
强化
学习
最优跟踪控制
神经
网络
事件触发
下载PDF
职称材料
再入飞行器自适应最优姿态控制
被引量:
10
10
作者
张振宁
张冉
+1 位作者
聂文明
李惠峰
《宇航学报》
EI
CAS
CSCD
北大核心
2019年第2期199-206,共8页
针对再入飞行器姿态控制问题,应用自适应动态规划(ADP)理论设计了姿态控制器。将再入飞行器的姿态控制建模为非线性系统的最优控制问题,提出单网络积分型强化学习(SNIRL)算法进行求解,该算法简化了积分型强化学习(IRL)算法在迭代计算中...
针对再入飞行器姿态控制问题,应用自适应动态规划(ADP)理论设计了姿态控制器。将再入飞行器的姿态控制建模为非线性系统的最优控制问题,提出单网络积分型强化学习(SNIRL)算法进行求解,该算法简化了积分型强化学习(IRL)算法在迭代计算中的执行-评价双网络结构,只需要采用评价网络估计值函数就可以求得最优控制律,其收敛性得到了理论证明。基于SNIRL算法设计了自适应最优控制器,并证明了闭环系统的稳定性。通过数值仿真校验了SNIRL算法比IRL算法计算效率更高,收敛速度更快,并校验了自适应最优姿态控制器的有效性。
展开更多
关键词
再入飞行器
姿态控制
自适应最优控制
单网络积分型强化学习
下载PDF
职称材料
改进FCOS的行人检测算法
被引量:
1
11
作者
刘丹
汪慧兰
+1 位作者
曾浩文
王桂丽
《计算机工程与设计》
北大核心
2022年第11期3264-3270,共7页
为解决行人目标特殊性和复杂性导致的检测速度和精度不高问题,提出改进的FCOS检测算法。采用轻量型网络作为FCOS的主干网络,提高检测速度;运用同步批归一化替代批归一化方法进行网络模型训练;在原有特征层基础上增加C_(2)层进行特征融合...
为解决行人目标特殊性和复杂性导致的检测速度和精度不高问题,提出改进的FCOS检测算法。采用轻量型网络作为FCOS的主干网络,提高检测速度;运用同步批归一化替代批归一化方法进行网络模型训练;在原有特征层基础上增加C_(2)层进行特征融合,提高精度。实验结果表明,改进算法在Caltech数据集上mAP为88.9%,对小尺度行人检测效果增强,检测速度提高了85.3%,在具有鲁棒性的同时也满足行人检测实时性要求。
展开更多
关键词
行人检测
全卷积
单
阶段
深度
学习
轻量
型
网络
同步批归一化
下载PDF
职称材料
基于零和博弈的多智能体网络鲁棒包容控制
被引量:
2
12
作者
于镝
《控制与决策》
EI
CSCD
北大核心
2021年第8期1841-1848,共8页
针对受扰非线性多智能体网络,研究分布式鲁棒包容控制方法.采用微分博弈理论将有界L2增益包容控制问题描述成多玩家零和博弈问题.对于每个跟随者,当至少有一个领航者与其存在有向路径通信时,基于局部邻居信息定义每个跟随者的性能指标,...
针对受扰非线性多智能体网络,研究分布式鲁棒包容控制方法.采用微分博弈理论将有界L2增益包容控制问题描述成多玩家零和博弈问题.对于每个跟随者,当至少有一个领航者与其存在有向路径通信时,基于局部邻居信息定义每个跟随者的性能指标,从而得出包容误差L2有界且零和博弈解存在的结论.在系统动态完全未知的情况下,采用积分强化学习算法和执行-评价-干扰网络,在线得到近似最优策略.仿真结果表明了所提出方案的有效性和正确性.
展开更多
关键词
多智能体
网络
鲁棒包容控制
零和博弈
积分
强化
学习
原文传递
题名
基于actor-critic框架的在线积分强化学习算法研究
被引量:
2
1
作者
蔡军
苟文耀
刘颜
机构
重庆邮电大学自动化学院
出处
《电子测量与仪器学报》
CSCD
北大核心
2023年第3期194-201,共8页
基金
重庆市教委科学技术研究项目(KJZD-M202200603)
重庆市自然科学基金项目(CSTB2022NSCQ-MSX0380)资助。
文摘
针对轮式移动机器人动力学系统难以实现无模型的最优跟踪控制问题,提出了一种基于actor-critic框架的在线积分强化学习控制算法。首先,构建RBF评价神经网络并基于近似贝尔曼误差设计该网络的权值更新律,以拟合二次型跟踪控制性能指标函数。其次,构建RBF行为神经网络并以最小化性能指标函数为目标设计权值更新律,补偿动力学系统中的未知项。最后,通过Lyapunov理论证明了所提出的积分强化学习控制算法可以使得价值函数,行为神经网络权值误差与评价神经网络权值误差一致最终有界。仿真和实验结果表明,该算法不仅可以实现对恒定速度以及时变速度的跟踪,还可以在嵌入式平台上进行实现。
关键词
积分
强化
学习
RBF神经
网络
非线性仿射系统
跟踪控制
Keywords
integral reinforcement learning
RBF neural network
nonlinear affine system
tracking control
分类号
TP13 [自动化与计算机技术—控制理论与控制工程]
TN911.4 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
聚类与信息共享的多智能体深度强化学习协同控制交通灯
2
作者
杜同春
王波
程浩然
罗乐
曾能民
机构
安徽师范大学计算机与信息学院
哈尔滨工程大学经济管理学院
出处
《电子与信息学报》
EI
CAS
CSCD
北大核心
2024年第2期538-545,共8页
文摘
该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类内部进行信息共享和中心化训练,并在每个训练过程结束时将评价值最高的值函数网络参数分享给其它智能体。在城市交通仿真软件(SUMO)下的仿真实验结果表明,所提方法能够减少通信的数据量,使得智能体之间的信息共享和中心化训练更加可行和高效,车辆平均等待时长少于当前最优的基于多智能体深度强化学习的交通灯控制方法,能够有效地缓解交通拥堵。
关键词
交通信号灯协同控制
集中训练分散执行
强化
学习
智能体聚类
生长
型
神经气
深度循环Q
网络
Keywords
Traffic light cooperative control
Centralized training with decentralized execution
Reinforcement learning agent cluster
Growing neural gas
Deep recurrent Q-network
分类号
TN929.5 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
带状态约束的事件触发积分强化学习控制
3
作者
田奋铭
刘飞
机构
江南大学轻工过程先进控制教育部重点实验室
江南大学自动化研究所
出处
《计算机测量与控制》
2023年第7期143-149,共7页
基金
国家自然科学基金(61833007)。
文摘
为克服全状态对称约束以及控制策略频繁更新的局限,针对一类具有部分动力学未知的仿射非线性连续系统的最优控制问题,提出一种带状态约束的事件触发积分强化学习的控制器设计方法;该方法是一种基于数据的在线策略迭代方法;引入系统转换将带有全状态约束的系统转化为不含约束的系统;基于事件触发机制以及积分强化学习算法,通过交替执行系统转换、策略评估、策略改进,最终系统在满足全状态约束的情况下,代价函数以及控制策略将分别收敛于最优值,并能降低控制策略的更新频率;此外,利用李雅普诺夫函数对系统的稳定性进行严格的分析;通过单连杆机械臂的仿真实验说明算法的可行性。
关键词
仿射非线性系统
最优控制
事件触发控制
积分
强化
学习
神经
网络
Keywords
affine nonlinear system
optimal control
event-triggering control
integral reinforcement learning
neural network
分类号
TP273 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
基于强化学习的1型糖尿病胰岛素给药策略研究
4
作者
焦泽辉
解柏森
孙福权
机构
东北大学信息科学与工程学院
东北大学秦皇岛分校数学与统计学院
出处
《计算机应用研究》
CSCD
北大核心
2023年第9期2765-2769,共5页
基金
国家重点研发计划资助项目(2018YFB1402800)。
文摘
1型糖尿病(T1D)患者需要通过外源性胰岛素的输送将血糖(BG)维持在治疗范围内。目前,已有的几种基于模型预测控制和强化学习(RL)的胰岛素给药算法存在样本效率差、奖励机制过于简单、血糖调控效果不佳等问题。为此提出了一种基于强化学习的带有指导网络的胰岛素给药策略(insulin administration strategy with guided network,IASGN),针对给药策略安全性能和快速性的特点,引入累积情节奖励和分类经验回放方法,按照不同的重要性采样权重增加了精英样本池,并基于精英样本池训练给药指导网络,对策略网络进行动作指导,改进了奖励机制,在FDA批准的UVA/Padova T1D模拟器中验证了该方法的性能。结果显示,该方法TIR(time in range)达到了98.21%,TBR(time below range)接近于0,CVGA中所有患者均处于A+B区的安全范围,可以使患者血糖长期处于正常范围内,避免了低血糖的风险,在与基准方法对比中也获得了更好的表现。
关键词
强化
学习
1
型
糖尿病治疗
胰岛素给药策略
精英样本池
指导
网络
Keywords
reinforcement learning
treatment of type 1 diabetes
insulin administration
elite sample pool
guidance network
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于改进U型网络的注意强化学习目标检测
被引量:
1
5
作者
曹立春
机构
内蒙古师范大学计算机科学技术学院
出处
《计算机应用与软件》
北大核心
2022年第6期169-175,共7页
基金
内蒙古自然科学基金项目(2018MS06008)。
文摘
为了提高目标检测领域小目标漏检及整体的检测精度不高的问题,提出改进的U-Net,以提取不同尺度的特征,并引入强化学习来调整包围框的精度。具体过程是定义检测框为agent,agent根据初始候选区域信息决定移动行为以选择下一个逼近真实目标的候选区域,重复上述过程直至agent确定当前区域足够精确时终止搜索过程。实验证明,该方法的目标检测精确度相比文献[16]方法提升了1.6百分点,有效地提升了小目标的利用率。
关键词
目标检测
U
型
网络
强化
学习
特征融合
注意力机制机
Keywords
Object detection
U type network
Reinforcement learning
Feature fusion
Attention mechanism
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种快速的单层感知器网络学习算法
被引量:
3
6
作者
易中凯
吴沧浦
机构
北京理工大学自动控制系
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第12期43-45,共3页
基金
高校博士专项科研基金项目(B-122)
文摘
提出了一种单层感知器网络训练的新算法。证明了对于线性可分问题和线性不可分问题,算法总是在有限步内终止,算法的迭代次数以模式数为上界;而且,在算法终止时,对于线性可分问题,总是能得到正确的权向量解,所以,如果在算法结束时还不能划分所有模式,则说明给定的模式集确是不可线性划分的。
关键词
单
层感知器
网络
增广
型
模式向量
增广
型
权值向量
学习
算法
神经
网络
模式识别
Keywords
Single layered perception neural networks
Extented pattern vector
Extented weight vector
Weight space
Pattern hyperplane
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于深度强化学习的激励型需求响应决策优化模型
被引量:
28
7
作者
徐弘升
陆继翔
杨志宏
李昀
陆进军
黄华
机构
南瑞集团有限公司(国网电力科学研究院有限公司)
智能电网保护与运行控制国家重点实验室
出处
《电力系统自动化》
EI
CSCD
北大核心
2021年第14期97-103,共7页
基金
国家重点研发计划资助项目(2018AAA0101504)
国家电网公司科技项目(5700-202019364A-0-0-00)。
文摘
随着中国电力市场化改革的推进,售电侧市场逐步开放,售电商可以聚合大量的分散负荷参与电力市场环境下的需求响应。文中提出以售电商和用户综合收益最大化为目标的基于深度强化学习的激励型需求响应建模和求解方法。首先,建立售电商和用户的需求响应模型,通过引入时间-价格弹性,改进现有的用户响应模型,考虑用户对相邻时段补贴价格差的反应。然后,基于马尔可夫决策过程框架构建补贴价格决策优化模型,并设计基于深度Q学习网络的求解算法。最后,以1个售电商和3个不同类型的用户为例进行仿真计算,通过分析算法收敛性和对比不同模型及参数下的优化结果,验证了改进模型的合理性和生成策略的有效性,并分析了激励型需求响应对售电商以及用户的影响。
关键词
激励
型
需求响应
价格弹性系数
深度
强化
学习
深度Q
学习
网络
Keywords
incentive demand response
price elastic coefficient
deep reinforcement learning
deep Q-learning network
分类号
F426.61 [经济管理—产业经济]
F274 [经济管理—企业管理]
下载PDF
职称材料
题名
基于前馈型神经网络解线性Fredholm积分-微分方程
8
作者
许彩虹
邵新平
张林
机构
杭州电子科技大学理学院
出处
《杭州电子科技大学学报(自然科学版)》
2022年第2期96-102,共7页
基金
国家自然科学基金资助项目(11701133)。
文摘
为了研究积分微分方程的数值解,构造了一种前馈型神经网络用于求解Fredholm积分微分方程近似解。首先,运用Taylor展开式近似代替未知函数,神经网络的误差由内部误差和边界误差组成。其次,应用神经网络对Taylor展开式的系数进行学习从而得到近似解。最后,与梯形求积规则(Trapezoidal Quadrature Rule,TQR)数值方法进行比较,验证了提出方法的可行性与有效性。
关键词
Fredholm
积分
微分方程
前馈
型
神经
网络
近似解
学习
算法
Keywords
Fredholm integro-differential equation
feedforward neural network
approximate solution
learning algorithm
分类号
O242.2 [理学—计算数学]
下载PDF
职称材料
题名
非零和微分博弈系统的事件触发最优跟踪控制
9
作者
石义博
王朝立
机构
上海理工大学理学院
上海理工大学光电信息与计算机工程学院
出处
《控制理论与应用》
EI
CAS
CSCD
北大核心
2023年第2期220-230,共11页
基金
Supported by the National Defense Basic Research Program(JCKY2019413D001)
the Natural Science Foundation(6217023627,62003214,62173054)
the Shanghai Natural Science Foundation(19ZR1436000)。
文摘
近年来,对于具有未知动态的非零和微分博弈系统的跟踪问题,已经得到了讨论,然而这些方法是时间触发的,在传输带宽和计算资源有限的环境下并不适用.针对具有未知动态的连续时间非线性非零和微分博弈系统,本文提出了一种基于积分强化学习的事件触发自适应动态规划方法.该策略受梯度下降法和经验重放技术的启发,利用历史和当前数据更新神经网络权值.该方法提高了神经网络权值的收敛速度,消除了一般文献设计中常用的初始容许控制假设.同时,该算法提出了一种易于在线检查的持续激励条件(通常称为PE),避免了传统的不容易检查的持续激励条件.基于李亚普诺夫理论,证明了跟踪误差和评价神经网络估计误差的一致最终有界性.最后,通过一个数值仿真实例验证了该方法的可行性.
关键词
非零和博弈
积分
强化
学习
最优跟踪控制
神经
网络
事件触发
Keywords
nonzero-sum games
integral reinforcement learning
optimal tracking control
neural network
eventtriggered
分类号
TP13 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
再入飞行器自适应最优姿态控制
被引量:
10
10
作者
张振宁
张冉
聂文明
李惠峰
机构
北京航空航天大学宇航学院
出处
《宇航学报》
EI
CAS
CSCD
北大核心
2019年第2期199-206,共8页
基金
国家重点研发计划(2016YFB1200100)
文摘
针对再入飞行器姿态控制问题,应用自适应动态规划(ADP)理论设计了姿态控制器。将再入飞行器的姿态控制建模为非线性系统的最优控制问题,提出单网络积分型强化学习(SNIRL)算法进行求解,该算法简化了积分型强化学习(IRL)算法在迭代计算中的执行-评价双网络结构,只需要采用评价网络估计值函数就可以求得最优控制律,其收敛性得到了理论证明。基于SNIRL算法设计了自适应最优控制器,并证明了闭环系统的稳定性。通过数值仿真校验了SNIRL算法比IRL算法计算效率更高,收敛速度更快,并校验了自适应最优姿态控制器的有效性。
关键词
再入飞行器
姿态控制
自适应最优控制
单网络积分型强化学习
Keywords
Reentry vehicle
Attitude control
Adaptive optimal control
Single-network integral reinforcement learning
分类号
V448.2 [航空宇航科学与技术—飞行器设计]
下载PDF
职称材料
题名
改进FCOS的行人检测算法
被引量:
1
11
作者
刘丹
汪慧兰
曾浩文
王桂丽
机构
安徽师范大学物理与电子信息学院
出处
《计算机工程与设计》
北大核心
2022年第11期3264-3270,共7页
基金
安徽省自然科学基金项目(1708085QF133)
安徽师范大学创新基金项目(2018XJJ100)
安徽省智能机器人信息融合与控制工程实验室基金项目(IFCIR2020004)。
文摘
为解决行人目标特殊性和复杂性导致的检测速度和精度不高问题,提出改进的FCOS检测算法。采用轻量型网络作为FCOS的主干网络,提高检测速度;运用同步批归一化替代批归一化方法进行网络模型训练;在原有特征层基础上增加C_(2)层进行特征融合,提高精度。实验结果表明,改进算法在Caltech数据集上mAP为88.9%,对小尺度行人检测效果增强,检测速度提高了85.3%,在具有鲁棒性的同时也满足行人检测实时性要求。
关键词
行人检测
全卷积
单
阶段
深度
学习
轻量
型
网络
同步批归一化
Keywords
pedestrian detection
FCOS
deep learning
lightweight network
SyncBN
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于零和博弈的多智能体网络鲁棒包容控制
被引量:
2
12
作者
于镝
机构
北京信息科技大学自动化学院
出处
《控制与决策》
EI
CSCD
北大核心
2021年第8期1841-1848,共8页
基金
北京信息科技大学学科群建设项目(5121911003)。
文摘
针对受扰非线性多智能体网络,研究分布式鲁棒包容控制方法.采用微分博弈理论将有界L2增益包容控制问题描述成多玩家零和博弈问题.对于每个跟随者,当至少有一个领航者与其存在有向路径通信时,基于局部邻居信息定义每个跟随者的性能指标,从而得出包容误差L2有界且零和博弈解存在的结论.在系统动态完全未知的情况下,采用积分强化学习算法和执行-评价-干扰网络,在线得到近似最优策略.仿真结果表明了所提出方案的有效性和正确性.
关键词
多智能体
网络
鲁棒包容控制
零和博弈
积分
强化
学习
Keywords
multi-agent networks
robust containment control
zero-sum game
integral reinforcement control
分类号
TP273 [自动化与计算机技术—检测技术与自动化装置]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于actor-critic框架的在线积分强化学习算法研究
蔡军
苟文耀
刘颜
《电子测量与仪器学报》
CSCD
北大核心
2023
2
下载PDF
职称材料
2
聚类与信息共享的多智能体深度强化学习协同控制交通灯
杜同春
王波
程浩然
罗乐
曾能民
《电子与信息学报》
EI
CAS
CSCD
北大核心
2024
0
下载PDF
职称材料
3
带状态约束的事件触发积分强化学习控制
田奋铭
刘飞
《计算机测量与控制》
2023
0
下载PDF
职称材料
4
基于强化学习的1型糖尿病胰岛素给药策略研究
焦泽辉
解柏森
孙福权
《计算机应用研究》
CSCD
北大核心
2023
0
下载PDF
职称材料
5
基于改进U型网络的注意强化学习目标检测
曹立春
《计算机应用与软件》
北大核心
2022
1
下载PDF
职称材料
6
一种快速的单层感知器网络学习算法
易中凯
吴沧浦
《计算机工程》
CAS
CSCD
北大核心
2001
3
下载PDF
职称材料
7
基于深度强化学习的激励型需求响应决策优化模型
徐弘升
陆继翔
杨志宏
李昀
陆进军
黄华
《电力系统自动化》
EI
CSCD
北大核心
2021
28
下载PDF
职称材料
8
基于前馈型神经网络解线性Fredholm积分-微分方程
许彩虹
邵新平
张林
《杭州电子科技大学学报(自然科学版)》
2022
0
下载PDF
职称材料
9
非零和微分博弈系统的事件触发最优跟踪控制
石义博
王朝立
《控制理论与应用》
EI
CAS
CSCD
北大核心
2023
0
下载PDF
职称材料
10
再入飞行器自适应最优姿态控制
张振宁
张冉
聂文明
李惠峰
《宇航学报》
EI
CAS
CSCD
北大核心
2019
10
下载PDF
职称材料
11
改进FCOS的行人检测算法
刘丹
汪慧兰
曾浩文
王桂丽
《计算机工程与设计》
北大核心
2022
1
下载PDF
职称材料
12
基于零和博弈的多智能体网络鲁棒包容控制
于镝
《控制与决策》
EI
CSCD
北大核心
2021
2
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部