期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
17
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于长短期记忆近端策略优化强化学习的等效并行机在线调度方法
被引量:
8
1
作者
贺俊杰
张洁
+3 位作者
张朋
汪俊亮
郑鹏
王明
《中国机械工程》
EI
CAS
CSCD
北大核心
2022年第3期329-338,共10页
针对等效并行机在线调度问题,以加权完工时间和为目标,提出了一种基于长短期记忆近端策略优化(LSTM-PPO)强化学习的在线调度方法。通过设计融合LSTM的智能体记录车间的历史状态变化和调度策略,进而根据状态信息进行在线调度。设计了车...
针对等效并行机在线调度问题,以加权完工时间和为目标,提出了一种基于长短期记忆近端策略优化(LSTM-PPO)强化学习的在线调度方法。通过设计融合LSTM的智能体记录车间的历史状态变化和调度策略,进而根据状态信息进行在线调度。设计了车间状态矩阵对问题约束和优化目标进行描述,在调度决策中引入额外的设备等待指令来扩大解空间,并设计奖励函数将优化目标分解为分步奖励值实现调度决策评价。最后基于PPO算法进行模型更新和参数全局优化。实验结果表明所提方法优于现有的几种启发式规则,并将所提算法应用于实际车间的生产调度,有效减小了加权完工时间和。
展开更多
关键词
等效并行机
在线
调度
强化
学习
长短期记忆近端
策略
优化
下载PDF
职称材料
基于Sarsa算法的城轨列车节能控制策略研究
2
作者
孟建军
蒋小一
+1 位作者
陈晓强
胥如迅
《铁道标准设计》
北大核心
2024年第8期8-14,共7页
针对城市轨道交通节能运行问题,提出一种基于Sarsa强化学习算法的城轨列车节能控制策略,实现了城轨列车在自动驾驶状态下,面对不同路况,执行减少能源消耗驾驶策略的同时兼顾准时性和舒适性。根据线路条件将列车状态进行离散化处理,将连...
针对城市轨道交通节能运行问题,提出一种基于Sarsa强化学习算法的城轨列车节能控制策略,实现了城轨列车在自动驾驶状态下,面对不同路况,执行减少能源消耗驾驶策略的同时兼顾准时性和舒适性。根据线路条件将列车状态进行离散化处理,将连续的驾驶过程分为若干个子区间进行分段求解。结合区间限速、初始状态、终末状态等限制条件,基于能耗及运行时间分别构造适当的奖励函数。同时,用当前状态下可达的最大速度与最小速度对可选速度集合进行限制,缩小探索空间,加快算法收敛。最后,通过对北京铁路亦庄线小红门站至肖村站的实例进行仿真。实验结果表明,与传统的动态规划方法相比,Sarsa算法在满足舒适性和准时性要求的情况下节能9.32%。相比于强化学习中的Q学习算法,在速度的选取过程中,超速次数也有明显下降。仿真结果证明Sarsa算法具有更好的节能效果和安全性。在算法参数不变的情况下,调整限速条件,与传统动态规划算法进行二次对比,依旧节能4.21%,验证了算法的鲁棒性。
展开更多
关键词
城市轨道交通
节能
强化
学习
sarsa
算法
控制
策略
下载PDF
职称材料
《在线学习——强化企业优势的知识策略》
3
作者
马克·J·罗森伯格
《科技智囊》
2003年第1期109-109,共1页
关键词
书评
《
在线
学习
--
强化
企业优势的知识
策略
》
终身
学习
因特网
企业
学习
型组织
下载PDF
职称材料
基于强化学习的改进三维A^(*)算法在线航迹规划
被引量:
4
4
作者
任智
张栋
唐硕
《系统工程与电子技术》
EI
CSCD
北大核心
2023年第1期193-201,共9页
针对飞行器在线航迹规划对算法实时性与结果最优性要求高的问题,基于强化学习方法改进三维A^(*)算法。首先,引入收缩因子改进代价函数的启发信息加权方法提升算法时间性能;其次,建立算法实时性与结果最优性的性能变化度量模型,结合深度...
针对飞行器在线航迹规划对算法实时性与结果最优性要求高的问题,基于强化学习方法改进三维A^(*)算法。首先,引入收缩因子改进代价函数的启发信息加权方法提升算法时间性能;其次,建立算法实时性与结果最优性的性能变化度量模型,结合深度确定性策略梯度方法设计动作-状态与奖励函数,对收缩因子进行优化训练;最后,在多场景下对改进后的三维A^(*)算法进行仿真验证。仿真结果表明,改进算法能够在保证航迹结果最优性的同时有效提升算法时间性能。
展开更多
关键词
改进A^(*)算法
收缩因子
强化
学习
深度确定性
策略
梯度
在线
航迹规划
下载PDF
职称材料
求解部分可观测马氏决策过程的强化学习算法
被引量:
5
5
作者
王学宁
贺汉根
徐昕
《控制与决策》
EI
CSCD
北大核心
2004年第11期1263-1266,共4页
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来...
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高.
展开更多
关键词
强化
学习
部分可观测Markov决策过程
sarsa
学习
无记忆
策略
下载PDF
职称材料
基于强化学习的多智能体协作实现
被引量:
2
6
作者
陈雪江
杨东勇
《浙江工业大学学报》
CAS
2004年第5期516-519,572,共5页
基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中。但是由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此强化学习不能直接用于多智能体的协作学习问题。本文提出了多智能体协...
基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中。但是由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此强化学习不能直接用于多智能体的协作学习问题。本文提出了多智能体协作的两层强化学习方法。该方法主要通过在单个智能体中构筑两层强化学习单元来实现。第一层强化学习单元负责学习智能体的联合任务协作策略,第二层强化学习单元负责学习在本智能体看来是最有效的行动策略。所提出的方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明所提出的方法比采用传统强化学习方法的智能体协作得更好。
展开更多
关键词
强化
学习
多智能体系统
协作
策略
马尔科夫过程
单元
在线
学习
模型
习作
协作
学习
物体
下载PDF
职称材料
一种基于核的在线策略梯度算法
7
作者
唐丽丽
朱海军
朱斐
《新疆大学学报(自然科学版)》
CAS
2018年第2期209-216,共8页
策略梯度算法是一种广义的策略迭代方法,由于其高效性得到了广泛的关注和研究.策略梯度算法包括策略评估与策略改进两个部分.传统的在线策略梯度方法在处理大规模问题时,表现不佳.为此,提出一种基于核的在线策略梯度算法,在强化学习经...
策略梯度算法是一种广义的策略迭代方法,由于其高效性得到了广泛的关注和研究.策略梯度算法包括策略评估与策略改进两个部分.传统的在线策略梯度方法在处理大规模问题时,表现不佳.为此,提出一种基于核的在线策略梯度算法,在强化学习经典算法评论家行动者的框架下,采用核方法近似表示值函数与策略函数,采用真在线时间差分算法评估策略的值函数,并根据真在线思想改进策略参数的更新方式.最后通过平衡杆问题和爬山小车实验验证算法的有效性.
展开更多
关键词
策略
梯度
在线
学习
核方法
强化
学习
时间差分
下载PDF
职称材料
强化学习算法在雷达智能抗干扰中的应用
被引量:
12
8
作者
汪浩
王峰
《现代雷达》
CSCD
北大核心
2020年第3期40-44,48,共6页
雷达在工作过程中所应对的干扰场景复杂且多变,所具有的反干扰措施难以穷举。人工设计的反干扰流程与抑制策略在面对这些对抗场景时,由于受限于专家的经验知识,其反干扰性能难以保证。对此,文中从雷达抗干扰的应用需求出发,通过引入强...
雷达在工作过程中所应对的干扰场景复杂且多变,所具有的反干扰措施难以穷举。人工设计的反干扰流程与抑制策略在面对这些对抗场景时,由于受限于专家的经验知识,其反干扰性能难以保证。对此,文中从雷达抗干扰的应用需求出发,通过引入强化学习方法,提出一种基于强化学习模型的智能抗干扰方法。分别利用Q学习与Sarsa两种典型的强化学习算法对反干扰模型中的值函数进行了计算并迭代,使得反干扰策略具备了自主更新与优化功能。仿真结果表明,强化学习算法在训练过程中能够收敛并实现反干扰策略的优化。相比于传统的反干扰设计手段,雷达反干扰的智能化程度得到了有效提升。
展开更多
关键词
智能雷达
强化
学习
干扰抑制
策略
优化
Q
学习
sarsa
算法
下载PDF
职称材料
基于机器学习的地铁行人流在线优化控制研究
9
作者
史佳洁
杨鹏
皮雁南
《系统仿真学报》
CAS
CSCD
北大核心
2023年第2期386-395,共10页
为了实现高峰期地铁站行人流管控的在线优化,设计了基于机器学习的地铁站行人流管控算法框架。以某地铁车站早高峰的行人流管控流程为研究对象,利用Agent技术搭建地铁站行人流管控仿真模型。多次运行仿真模型可以获得深度学习网络的训...
为了实现高峰期地铁站行人流管控的在线优化,设计了基于机器学习的地铁站行人流管控算法框架。以某地铁车站早高峰的行人流管控流程为研究对象,利用Agent技术搭建地铁站行人流管控仿真模型。多次运行仿真模型可以获得深度学习网络的训练数据。通过对网络进行充分训练,得到优化调度策略。将网络接入地铁站行人流实时运行数据,实现实时优化管控。仿真实验表明:引入的深度强化学习框架可以实现在线优化,调度结果优于传统方法。
展开更多
关键词
深度
强化
学习
行人流管控
地铁站调度
策略
在线
仿真
实时优化
下载PDF
职称材料
基于改进SARSA算法的航空器滑行路径规划
10
作者
张云景
王昊
+1 位作者
王帅
孟斌
《郑州航空工业管理学院学报》
2024年第1期43-48,共6页
航空器滑行是机场运行中最重要的一环,缩短滑行时间也是提高机场运行效率的主要手段。为了改变仅依靠人工进行机坪管制的现状,文章针对航空器滑行的特殊环境,利用改进SARSA算法对航空器的滑行路径进行规划,并通过仿真验证了该算法在规...
航空器滑行是机场运行中最重要的一环,缩短滑行时间也是提高机场运行效率的主要手段。为了改变仅依靠人工进行机坪管制的现状,文章针对航空器滑行的特殊环境,利用改进SARSA算法对航空器的滑行路径进行规划,并通过仿真验证了该算法在规划路径长度和迭代次数方面优于传统SARSA算法,进而更好地为管制员决策提供辅助参考。
展开更多
关键词
强化
学习
路径规划
模拟退火
策略
sarsa
算法
下载PDF
职称材料
基于改进Sarsa算法的拖轮动态调度方法
11
作者
李佳琛
段兴锋
《重庆科技学院学报(自然科学版)》
CAS
2024年第3期42-48,共7页
从优化Sarsa算法的角度展开拖轮动态调度方法研究。采用强化学习框架并结合拖轮的状态和环境信息,建立状态-动作函数,进而搜索拖轮调度最佳策略。改进Sarsa算法中Q函数的更新方式,以克服收敛速度慢的问题。同时,根据学习率选择模式和动...
从优化Sarsa算法的角度展开拖轮动态调度方法研究。采用强化学习框架并结合拖轮的状态和环境信息,建立状态-动作函数,进而搜索拖轮调度最佳策略。改进Sarsa算法中Q函数的更新方式,以克服收敛速度慢的问题。同时,根据学习率选择模式和动作选择方式,对探索策略与利用策略加以平衡,以提高算法的收敛速度和性能。算例仿真实验结果表明,采用该算法可有效缩短船舶等待时间,进而提升拖轮资源的利用效率。
展开更多
关键词
sarsa
算法
拖轮
自适应调度
强化
学习
算法
策略
下载PDF
职称材料
动态电源管理超时策略自适应优化算法
被引量:
3
12
作者
江琦
奚宏生
殷保群
《控制与决策》
EI
CSCD
北大核心
2008年第4期372-377,共6页
基于强化学习的方法,提出一种动态电源管理超时策略自适应在线优化算法.构建基于超时策略动态电源管理系统的半Markov控制过程模型,将动态电源管理问题转化为一个带约束的优化问题.利用此模型的动态结构特性,结合在线梯度估计与随机逼...
基于强化学习的方法,提出一种动态电源管理超时策略自适应在线优化算法.构建基于超时策略动态电源管理系统的半Markov控制过程模型,将动态电源管理问题转化为一个带约束的优化问题.利用此模型的动态结构特性,结合在线梯度估计与随机逼近推导超时策略的在线优化算法.该算法自适应性强,计算量小,具有全局收敛性.通过无线网络通信节点动态电源管理的应用仿真验证了算法的有效性.
展开更多
关键词
动态电源管理
超时
策略
半Markov控制过程
强化
学习
在线
优化
下载PDF
职称材料
策略极限理论与策略统计学习
被引量:
1
13
作者
严晓东
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2024年第1期1-10,45,共11页
非线性期望是山东大学彭实戈院士开辟的原创性研究方向之一,对各个领域的科学研究越来越重要,而大数据和人工智能的兴起,为非线性期望创新理论与应用研究提供了更强劲的动力。最近,山东大学“非线性期望”团队基于多臂老虎机的策略博弈...
非线性期望是山东大学彭实戈院士开辟的原创性研究方向之一,对各个领域的科学研究越来越重要,而大数据和人工智能的兴起,为非线性期望创新理论与应用研究提供了更强劲的动力。最近,山东大学“非线性期望”团队基于多臂老虎机的策略博弈过程开创了“策略极限理论”,是非线性概率理论与强化学习交叉的重大突破性科研成果,变革了传统统计方法研究范式。本文结合徐宗本院士提出的人工智能的10个重大数理基础问题,国家自然科学基金委员会发布的2022年度重大研究计划项目中关于可解释、可通用的人工智能方法的申报指南,以及科技部发布的数学和应用研究重点专项2021、2022年度项目中“数据科学与人工智能的数学基础”理论研究的申报指南,采用“策略”这一概念探寻和揭示人工智能本质和规律,尝试启发、促动人工智能技术变革的激发源和理论依据。不同于传统的大数定律和中心极限定理在独立同分布假设下开展统计学习的研究,策略极限理论打破了数据可交换这一局限,在更大的概率空间中探求最优分布,并提出获得最优分布的最优策略路径,与之对应的统计学习过程被命名为策略统计学习,为复杂机器学习的可解释和可信赖的统计方法研究提供理论支撑。本文介绍策略极限理论的应用包括但不限于:(1)大规模数据的策略抽样;(2)数据流的在线学习;(3)强化学习的中心极限定理;(4)数据的差分隐私保护;(5)联邦学习的策略融合;(6)迁移学习和元学习的信息重构;(7)知识推理与数据驱动的融合。
展开更多
关键词
人工智能
策略
极限理论
数理基础
大数据分析
强化
学习
在线
学习
迁移
学习
联邦
学习
数据隐私保护
知识推理与数据驱动
原文传递
水面无人艇自适应危险规避决策过程收敛性分析
被引量:
6
14
作者
张汝波
唐平鹏
+2 位作者
杨歌
李雪耀
史长亭
《计算机研究与发展》
EI
CSCD
北大核心
2014年第12期2644-2652,共9页
水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法...
水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法为基础,提出了USV在复杂海况下的自适应危险规避决策模型,并以渐进贪心策略作为行为探索策略,证明了USV自适应危险规避决策过程能够以概率1收敛到最优行为策略.论证结果表明,采用在线策略强化学习算法提升USV在复杂海况下的危险规避性能是可行的.
展开更多
关键词
水面无人艇
复杂海况
sarsa在线策略强化学习
自适应危险规避决策过程
渐进贪心
策略
下载PDF
职称材料
在线深度强化学习探索策略生成方法综述
15
作者
李石磊
叶清
+3 位作者
袁志民
陈云
何涛
付钰
《机器人》
EI
2024年第6期753-768,共16页
针对在线深度强化学习算法训练过程中的探索-利用难题,在对其概要介绍基础上,从探索策略与任务策略的关系角度入手,对单智能体在线深度强化学习算法中的探索策略生成方法进行分类综述。首先重点介绍了基于任务策略奖励空间与参数空间的...
针对在线深度强化学习算法训练过程中的探索-利用难题,在对其概要介绍基础上,从探索策略与任务策略的关系角度入手,对单智能体在线深度强化学习算法中的探索策略生成方法进行分类综述。首先重点介绍了基于任务策略奖励空间与参数空间的探索策略生成方法,对在奖励空间中引入内在激励的探索方法进行了分类介绍并结合优缺点分析给出了相关研究进展;结合任务性能和多样性需求,对参数空间神经进化算法中的个体适应度函数表征方法进行了详细分析。随后,对动作空间探索和参数空间探索相结合的思路与方法进行了综述分析,并对高层任务目标空间和任务无关探索策略生成方法进行了介绍。最后,对探索策略安全约束处理方法进行了分类讨论,并给出了探索策略生成面临的难题与下一步研究方向。
展开更多
关键词
在线
深度
强化
学习
探索
策略
任务
策略
内在激励
参数空间
安全探索
原文传递
多伺服电机智能化协调容错轨迹跟踪控制系统设计
被引量:
3
16
作者
朱俊威
顾曹源
+2 位作者
王鼎
张文安
王鑫
《控制理论与应用》
EI
CAS
CSCD
北大核心
2021年第7期1023-1032,共10页
针对一类具有执行器、传感器故障的多伺服电机控制系统,设计了相应的多伺服电机智能化协调容错轨迹跟踪控制系统.首先,提出了一种新结构的分布式中间估计器,修改了其设计结构,提高了估计方案的可行性.其次,通过在线强化学习估计策略,可...
针对一类具有执行器、传感器故障的多伺服电机控制系统,设计了相应的多伺服电机智能化协调容错轨迹跟踪控制系统.首先,提出了一种新结构的分布式中间估计器,修改了其设计结构,提高了估计方案的可行性.其次,通过在线强化学习估计策略,可以显著提高估计性能,其核心是自适应切换机制与源故障模式定位功能块的集成,并根据估计值设计了协调容错轨迹跟踪控制器.同时,设计了可视化人机交互操作界面,可将伺服电机的实时位置、速度、相应的位置、速度估计值及控制性能等信息反馈至监控中心.操作人员可随时调节伺服输入,完成任务调整,可有效提升系统实用性.多伺服电机控制系统的实验结果验证了所提方法的有效性及优越性.
展开更多
关键词
多伺服电机
协调容错轨迹跟踪控制
智能化
在线
强化
学习
估计
策略
人机交互
下载PDF
职称材料
网络服务DDoS攻击主动防御框架
被引量:
4
17
作者
柴新忠
李凯
+1 位作者
龚梦瑶
赵原
《计算机工程与设计》
北大核心
2021年第10期2770-2775,共6页
为高效保护在线网络服务,提出一种基于动目标防御的主动防御框架,其通过周期性地重组网络服务系统中接入用户和反向代理服务器之间的网络连接来保证系统的安全性,这就是所谓的“洗牌”。通过这种方式,恶意用户难以对系统进行分布式拒绝...
为高效保护在线网络服务,提出一种基于动目标防御的主动防御框架,其通过周期性地重组网络服务系统中接入用户和反向代理服务器之间的网络连接来保证系统的安全性,这就是所谓的“洗牌”。通过这种方式,恶意用户难以对系统进行分布式拒绝服务(DDoS)攻击,但动目标防御也带来了巨大的资源消耗,阻碍了其大规模的应用与推广。为解决上述问题,提出一种面向在线网络服务DDoS攻击的智能化主动防御框架DQ-MOTAG,将深度强化学习与动目标防御进行结合。设计一个算法生成每个洗牌周期的最优持续时间,指导后续的洗牌过程。进行一系列实验验证DQ-MOTAG与现有方法相比,在防御性能、误封率和网络源消耗等方面具有明显的优越性。
展开更多
关键词
动目标防御
深度
强化
学习
自适应
策略
DDOS攻击
在线
网络服务
下载PDF
职称材料
题名
基于长短期记忆近端策略优化强化学习的等效并行机在线调度方法
被引量:
8
1
作者
贺俊杰
张洁
张朋
汪俊亮
郑鹏
王明
机构
东华大学机械工程学院
上海交通大学机械与动力工程学院
出处
《中国机械工程》
EI
CAS
CSCD
北大核心
2022年第3期329-338,共10页
基金
国家重点研发计划(2019YFB1706300)
东华大学青年教师科研启动基金。
文摘
针对等效并行机在线调度问题,以加权完工时间和为目标,提出了一种基于长短期记忆近端策略优化(LSTM-PPO)强化学习的在线调度方法。通过设计融合LSTM的智能体记录车间的历史状态变化和调度策略,进而根据状态信息进行在线调度。设计了车间状态矩阵对问题约束和优化目标进行描述,在调度决策中引入额外的设备等待指令来扩大解空间,并设计奖励函数将优化目标分解为分步奖励值实现调度决策评价。最后基于PPO算法进行模型更新和参数全局优化。实验结果表明所提方法优于现有的几种启发式规则,并将所提算法应用于实际车间的生产调度,有效减小了加权完工时间和。
关键词
等效并行机
在线
调度
强化
学习
长短期记忆近端
策略
优化
Keywords
related parallel machine
online scheduling
reinforcement learning
proximal policy optimization with long short-term memory(LSTM-PPO)
分类号
TH166 [机械工程—机械制造及自动化]
下载PDF
职称材料
题名
基于Sarsa算法的城轨列车节能控制策略研究
2
作者
孟建军
蒋小一
陈晓强
胥如迅
机构
兰州交通大学机电技术研究所
甘肃省物流与运输装备行业技术中心
甘肃省物流及运输装备信息化工程技术研究中心
兰州交通大学机电工程学院
出处
《铁道标准设计》
北大核心
2024年第8期8-14,共7页
基金
国家自然科学基金项目(62063013)
兰州交通大学青年基金项目(2021018)
甘肃省优秀研究生“创新之星”项目(2022CXZX-517)。
文摘
针对城市轨道交通节能运行问题,提出一种基于Sarsa强化学习算法的城轨列车节能控制策略,实现了城轨列车在自动驾驶状态下,面对不同路况,执行减少能源消耗驾驶策略的同时兼顾准时性和舒适性。根据线路条件将列车状态进行离散化处理,将连续的驾驶过程分为若干个子区间进行分段求解。结合区间限速、初始状态、终末状态等限制条件,基于能耗及运行时间分别构造适当的奖励函数。同时,用当前状态下可达的最大速度与最小速度对可选速度集合进行限制,缩小探索空间,加快算法收敛。最后,通过对北京铁路亦庄线小红门站至肖村站的实例进行仿真。实验结果表明,与传统的动态规划方法相比,Sarsa算法在满足舒适性和准时性要求的情况下节能9.32%。相比于强化学习中的Q学习算法,在速度的选取过程中,超速次数也有明显下降。仿真结果证明Sarsa算法具有更好的节能效果和安全性。在算法参数不变的情况下,调整限速条件,与传统动态规划算法进行二次对比,依旧节能4.21%,验证了算法的鲁棒性。
关键词
城市轨道交通
节能
强化
学习
sarsa
算法
控制
策略
Keywords
urban rail trains
energy-efficient
reinforcement learning
sarsa
algorithm
control strategy
分类号
U231 [交通运输工程—道路与铁道工程]
U268.6 [机械工程—车辆工程]
U284.48 [交通运输工程—交通信息工程及控制]
下载PDF
职称材料
题名
《在线学习——强化企业优势的知识策略》
3
作者
马克·J·罗森伯格
出处
《科技智囊》
2003年第1期109-109,共1页
关键词
书评
《
在线
学习
--
强化
企业优势的知识
策略
》
终身
学习
因特网
企业
学习
型组织
分类号
G236 [文化科学]
F270 [经济管理—企业管理]
下载PDF
职称材料
题名
基于强化学习的改进三维A^(*)算法在线航迹规划
被引量:
4
4
作者
任智
张栋
唐硕
机构
西北工业大学航天学院
陕西省空天飞行器设计重点实验室
出处
《系统工程与电子技术》
EI
CSCD
北大核心
2023年第1期193-201,共9页
基金
国家自然科学基金重点项目(61933010)
国家自然科学基金(61903301)资助课题。
文摘
针对飞行器在线航迹规划对算法实时性与结果最优性要求高的问题,基于强化学习方法改进三维A^(*)算法。首先,引入收缩因子改进代价函数的启发信息加权方法提升算法时间性能;其次,建立算法实时性与结果最优性的性能变化度量模型,结合深度确定性策略梯度方法设计动作-状态与奖励函数,对收缩因子进行优化训练;最后,在多场景下对改进后的三维A^(*)算法进行仿真验证。仿真结果表明,改进算法能够在保证航迹结果最优性的同时有效提升算法时间性能。
关键词
改进A^(*)算法
收缩因子
强化
学习
深度确定性
策略
梯度
在线
航迹规划
Keywords
improved A^(*)algorithm
shrinkage factor
reinforcement learning
deep deterministic policy gradient
real-time path planning
分类号
TJ765 [兵器科学与技术—武器系统与运用工程]
下载PDF
职称材料
题名
求解部分可观测马氏决策过程的强化学习算法
被引量:
5
5
作者
王学宁
贺汉根
徐昕
机构
国防科技大学自动化研究所
出处
《控制与决策》
EI
CSCD
北大核心
2004年第11期1263-1266,共4页
基金
国家自然科学基金重点项目(60234030)
青年科学基金资助项目(60303012).
文摘
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高.
关键词
强化
学习
部分可观测Markov决策过程
sarsa
学习
无记忆
策略
Keywords
Convergence of numerical methods
Decision theory
Markov processes
Optimization
State space methods
分类号
TP319 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于强化学习的多智能体协作实现
被引量:
2
6
作者
陈雪江
杨东勇
机构
浙江工业大学信息工程学院
出处
《浙江工业大学学报》
CAS
2004年第5期516-519,572,共5页
基金
浙江省自然科学基金项目(601078)
文摘
基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中。但是由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此强化学习不能直接用于多智能体的协作学习问题。本文提出了多智能体协作的两层强化学习方法。该方法主要通过在单个智能体中构筑两层强化学习单元来实现。第一层强化学习单元负责学习智能体的联合任务协作策略,第二层强化学习单元负责学习在本智能体看来是最有效的行动策略。所提出的方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明所提出的方法比采用传统强化学习方法的智能体协作得更好。
关键词
强化
学习
多智能体系统
协作
策略
马尔科夫过程
单元
在线
学习
模型
习作
协作
学习
物体
Keywords
reinforcement learning
Q-learning
multi-agent
cooperation
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TP242 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
一种基于核的在线策略梯度算法
7
作者
唐丽丽
朱海军
朱斐
机构
苏州农业职业技术学院
苏州大学计算机科学与技术学院
出处
《新疆大学学报(自然科学版)》
CAS
2018年第2期209-216,共8页
基金
国家自然科学基金(61303108)
文摘
策略梯度算法是一种广义的策略迭代方法,由于其高效性得到了广泛的关注和研究.策略梯度算法包括策略评估与策略改进两个部分.传统的在线策略梯度方法在处理大规模问题时,表现不佳.为此,提出一种基于核的在线策略梯度算法,在强化学习经典算法评论家行动者的框架下,采用核方法近似表示值函数与策略函数,采用真在线时间差分算法评估策略的值函数,并根据真在线思想改进策略参数的更新方式.最后通过平衡杆问题和爬山小车实验验证算法的有效性.
关键词
策略
梯度
在线
学习
核方法
强化
学习
时间差分
Keywords
policy gradient
online learning
kernel method
reinforcement learning
time difference
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
强化学习算法在雷达智能抗干扰中的应用
被引量:
12
8
作者
汪浩
王峰
机构
河海大学计算机与信息学院
出处
《现代雷达》
CSCD
北大核心
2020年第3期40-44,48,共6页
文摘
雷达在工作过程中所应对的干扰场景复杂且多变,所具有的反干扰措施难以穷举。人工设计的反干扰流程与抑制策略在面对这些对抗场景时,由于受限于专家的经验知识,其反干扰性能难以保证。对此,文中从雷达抗干扰的应用需求出发,通过引入强化学习方法,提出一种基于强化学习模型的智能抗干扰方法。分别利用Q学习与Sarsa两种典型的强化学习算法对反干扰模型中的值函数进行了计算并迭代,使得反干扰策略具备了自主更新与优化功能。仿真结果表明,强化学习算法在训练过程中能够收敛并实现反干扰策略的优化。相比于传统的反干扰设计手段,雷达反干扰的智能化程度得到了有效提升。
关键词
智能雷达
强化
学习
干扰抑制
策略
优化
Q
学习
sarsa
算法
Keywords
intelligent radar
reinforcement learning
jamming suppression
strategy optimization
Q-learning
sarsa
algorithm
分类号
TN972 [电子电信—信号与信息处理]
下载PDF
职称材料
题名
基于机器学习的地铁行人流在线优化控制研究
9
作者
史佳洁
杨鹏
皮雁南
机构
天津理工大学
北京市地铁运营有限公司地铁运营技术研发中心
出处
《系统仿真学报》
CAS
CSCD
北大核心
2023年第2期386-395,共10页
基金
中央高校基本科研业务费(2019JBM032)。
文摘
为了实现高峰期地铁站行人流管控的在线优化,设计了基于机器学习的地铁站行人流管控算法框架。以某地铁车站早高峰的行人流管控流程为研究对象,利用Agent技术搭建地铁站行人流管控仿真模型。多次运行仿真模型可以获得深度学习网络的训练数据。通过对网络进行充分训练,得到优化调度策略。将网络接入地铁站行人流实时运行数据,实现实时优化管控。仿真实验表明:引入的深度强化学习框架可以实现在线优化,调度结果优于传统方法。
关键词
深度
强化
学习
行人流管控
地铁站调度
策略
在线
仿真
实时优化
Keywords
deep reinforcement learning
pedestrian flow control
scheduling strategy in subway station
online simulation
real-time optimization
分类号
TP391.9 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于改进SARSA算法的航空器滑行路径规划
10
作者
张云景
王昊
王帅
孟斌
机构
郑州航空工业管理学院民航学院
河海大学
出处
《郑州航空工业管理学院学报》
2024年第1期43-48,共6页
基金
河南省科技攻关项目(212102210141,232102240101)
河南省科技智库项目(HNKJZK-2024-50B)。
文摘
航空器滑行是机场运行中最重要的一环,缩短滑行时间也是提高机场运行效率的主要手段。为了改变仅依靠人工进行机坪管制的现状,文章针对航空器滑行的特殊环境,利用改进SARSA算法对航空器的滑行路径进行规划,并通过仿真验证了该算法在规划路径长度和迭代次数方面优于传统SARSA算法,进而更好地为管制员决策提供辅助参考。
关键词
强化
学习
路径规划
模拟退火
策略
sarsa
算法
Keywords
reinforcement learning
path planning
simulated annealing strategy
sarsa
algorithm
分类号
V351 [航空宇航科学与技术—人机与环境工程]
下载PDF
职称材料
题名
基于改进Sarsa算法的拖轮动态调度方法
11
作者
李佳琛
段兴锋
机构
集美大学航海学院
出处
《重庆科技学院学报(自然科学版)》
CAS
2024年第3期42-48,共7页
基金
福建省自然科学基金项目“海上智能调度”(2019J01325)。
文摘
从优化Sarsa算法的角度展开拖轮动态调度方法研究。采用强化学习框架并结合拖轮的状态和环境信息,建立状态-动作函数,进而搜索拖轮调度最佳策略。改进Sarsa算法中Q函数的更新方式,以克服收敛速度慢的问题。同时,根据学习率选择模式和动作选择方式,对探索策略与利用策略加以平衡,以提高算法的收敛速度和性能。算例仿真实验结果表明,采用该算法可有效缩短船舶等待时间,进而提升拖轮资源的利用效率。
关键词
sarsa
算法
拖轮
自适应调度
强化
学习
算法
策略
Keywords
sarsa
algorithm
tugboats
adaptive scheduling
reinforcement learning
algorithm strategy
分类号
TP391 [自动化与计算机技术—计算机应用技术]
U691 [交通运输工程—港口、海岸及近海工程]
下载PDF
职称材料
题名
动态电源管理超时策略自适应优化算法
被引量:
3
12
作者
江琦
奚宏生
殷保群
机构
中国科学技术大学自动化系
出处
《控制与决策》
EI
CSCD
北大核心
2008年第4期372-377,共6页
基金
国家自然科学基金项目(60774038
60574065)
+3 种基金
国家863计划项目(2006AA01Z114)
安徽省自然科学基金项目(050420301
070412063)
中国科学技术大学研究生创新基金项目(KD2006036)
文摘
基于强化学习的方法,提出一种动态电源管理超时策略自适应在线优化算法.构建基于超时策略动态电源管理系统的半Markov控制过程模型,将动态电源管理问题转化为一个带约束的优化问题.利用此模型的动态结构特性,结合在线梯度估计与随机逼近推导超时策略的在线优化算法.该算法自适应性强,计算量小,具有全局收敛性.通过无线网络通信节点动态电源管理的应用仿真验证了算法的有效性.
关键词
动态电源管理
超时
策略
半Markov控制过程
强化
学习
在线
优化
Keywords
Dynamic power management
Timeout policy
Semi-Markov control processes
Reinforcement learning
Optimization online
分类号
TP202 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
策略极限理论与策略统计学习
被引量:
1
13
作者
严晓东
机构
山东大学中泰证券金融研究院
出处
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2024年第1期1-10,45,共11页
基金
国家自然科学基金资助项目(12371292)
国家统计局统计科学研究资助项目(2022LY080)
科技部国家重点研发计划资助项目(2023YFA1008701)。
文摘
非线性期望是山东大学彭实戈院士开辟的原创性研究方向之一,对各个领域的科学研究越来越重要,而大数据和人工智能的兴起,为非线性期望创新理论与应用研究提供了更强劲的动力。最近,山东大学“非线性期望”团队基于多臂老虎机的策略博弈过程开创了“策略极限理论”,是非线性概率理论与强化学习交叉的重大突破性科研成果,变革了传统统计方法研究范式。本文结合徐宗本院士提出的人工智能的10个重大数理基础问题,国家自然科学基金委员会发布的2022年度重大研究计划项目中关于可解释、可通用的人工智能方法的申报指南,以及科技部发布的数学和应用研究重点专项2021、2022年度项目中“数据科学与人工智能的数学基础”理论研究的申报指南,采用“策略”这一概念探寻和揭示人工智能本质和规律,尝试启发、促动人工智能技术变革的激发源和理论依据。不同于传统的大数定律和中心极限定理在独立同分布假设下开展统计学习的研究,策略极限理论打破了数据可交换这一局限,在更大的概率空间中探求最优分布,并提出获得最优分布的最优策略路径,与之对应的统计学习过程被命名为策略统计学习,为复杂机器学习的可解释和可信赖的统计方法研究提供理论支撑。本文介绍策略极限理论的应用包括但不限于:(1)大规模数据的策略抽样;(2)数据流的在线学习;(3)强化学习的中心极限定理;(4)数据的差分隐私保护;(5)联邦学习的策略融合;(6)迁移学习和元学习的信息重构;(7)知识推理与数据驱动的融合。
关键词
人工智能
策略
极限理论
数理基础
大数据分析
强化
学习
在线
学习
迁移
学习
联邦
学习
数据隐私保护
知识推理与数据驱动
Keywords
artificial intelligence
strategic limit theory
mathematical foundation
big data analysis
reinforcement learning
online learning
transfer learning
federated learning
data privacy protection
knowledge reasoning and data driving
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TP181 [自动化与计算机技术—控制理论与控制工程]
O211.4 [理学—概率论与数理统计]
原文传递
题名
水面无人艇自适应危险规避决策过程收敛性分析
被引量:
6
14
作者
张汝波
唐平鹏
杨歌
李雪耀
史长亭
机构
哈尔滨工程大学计算机科学与技术学院
大连民族学院机电信息学院
武汉第二船舶设计研究所
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第12期2644-2652,共9页
基金
国家自然科学基金项目(60975071
61100005
60975019)
文摘
水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法为基础,提出了USV在复杂海况下的自适应危险规避决策模型,并以渐进贪心策略作为行为探索策略,证明了USV自适应危险规避决策过程能够以概率1收敛到最优行为策略.论证结果表明,采用在线策略强化学习算法提升USV在复杂海况下的危险规避性能是可行的.
关键词
水面无人艇
复杂海况
sarsa在线策略强化学习
自适应危险规避决策过程
渐进贪心
策略
Keywords
unmanned surface vehicle (USV)
complicated sea-state~
sarsa
on-policy reinforcement learning
adaptive obstacle avoidance decision process
greedy in the limit and infinite exploration (GLIE)
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
在线深度强化学习探索策略生成方法综述
15
作者
李石磊
叶清
袁志民
陈云
何涛
付钰
机构
海军工程大学信息安全系
出处
《机器人》
EI
2024年第6期753-768,共16页
基金
海军武器装备综合研究项目(2022108010)
军委科技委基础加强计划技术领域基金项目(2019-JCJQ-JJ-042)。
文摘
针对在线深度强化学习算法训练过程中的探索-利用难题,在对其概要介绍基础上,从探索策略与任务策略的关系角度入手,对单智能体在线深度强化学习算法中的探索策略生成方法进行分类综述。首先重点介绍了基于任务策略奖励空间与参数空间的探索策略生成方法,对在奖励空间中引入内在激励的探索方法进行了分类介绍并结合优缺点分析给出了相关研究进展;结合任务性能和多样性需求,对参数空间神经进化算法中的个体适应度函数表征方法进行了详细分析。随后,对动作空间探索和参数空间探索相结合的思路与方法进行了综述分析,并对高层任务目标空间和任务无关探索策略生成方法进行了介绍。最后,对探索策略安全约束处理方法进行了分类讨论,并给出了探索策略生成面临的难题与下一步研究方向。
关键词
在线
深度
强化
学习
探索
策略
任务
策略
内在激励
参数空间
安全探索
Keywords
on-line deep reinforcement learning
exploratory policy
task policy
intrinsic reward
parametric space
safe exploration
分类号
G63 [文化科学—教育学]
原文传递
题名
多伺服电机智能化协调容错轨迹跟踪控制系统设计
被引量:
3
16
作者
朱俊威
顾曹源
王鼎
张文安
王鑫
机构
浙江工业大学信息工程学院
浙江省嵌入式系统联合重点实验室
北京工业大学信息学部
黑龙江大学数学科学学院
出处
《控制理论与应用》
EI
CAS
CSCD
北大核心
2021年第7期1023-1032,共10页
基金
国家自然科学基金项目(61803334,61822311,61703148)
浙江省自然科学基金项目(LQ18F030012)
+3 种基金
黑龙江省自然科学基金项目(F2017023)
中国国家留学基金项目(201908330040)
黑龙江大学优秀青年基金项目(JCL201903)
NFSC-浙江两化融合联合基金项目(U1709213)资助。
文摘
针对一类具有执行器、传感器故障的多伺服电机控制系统,设计了相应的多伺服电机智能化协调容错轨迹跟踪控制系统.首先,提出了一种新结构的分布式中间估计器,修改了其设计结构,提高了估计方案的可行性.其次,通过在线强化学习估计策略,可以显著提高估计性能,其核心是自适应切换机制与源故障模式定位功能块的集成,并根据估计值设计了协调容错轨迹跟踪控制器.同时,设计了可视化人机交互操作界面,可将伺服电机的实时位置、速度、相应的位置、速度估计值及控制性能等信息反馈至监控中心.操作人员可随时调节伺服输入,完成任务调整,可有效提升系统实用性.多伺服电机控制系统的实验结果验证了所提方法的有效性及优越性.
关键词
多伺服电机
协调容错轨迹跟踪控制
智能化
在线
强化
学习
估计
策略
人机交互
Keywords
multi-servo motors
cooperative fault-tolerant trajectory tracking control
intelligence
online reinforcement learning estimation strategy
man-machine interaction
分类号
TM383.4 [电气工程—电机]
TP273 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
网络服务DDoS攻击主动防御框架
被引量:
4
17
作者
柴新忠
李凯
龚梦瑶
赵原
机构
上海中船船舶设计技术国家工程研究中心有限公司基础设施部
中国船舶及海洋工程设计研究院军船二部
出处
《计算机工程与设计》
北大核心
2021年第10期2770-2775,共6页
文摘
为高效保护在线网络服务,提出一种基于动目标防御的主动防御框架,其通过周期性地重组网络服务系统中接入用户和反向代理服务器之间的网络连接来保证系统的安全性,这就是所谓的“洗牌”。通过这种方式,恶意用户难以对系统进行分布式拒绝服务(DDoS)攻击,但动目标防御也带来了巨大的资源消耗,阻碍了其大规模的应用与推广。为解决上述问题,提出一种面向在线网络服务DDoS攻击的智能化主动防御框架DQ-MOTAG,将深度强化学习与动目标防御进行结合。设计一个算法生成每个洗牌周期的最优持续时间,指导后续的洗牌过程。进行一系列实验验证DQ-MOTAG与现有方法相比,在防御性能、误封率和网络源消耗等方面具有明显的优越性。
关键词
动目标防御
深度
强化
学习
自适应
策略
DDOS攻击
在线
网络服务
Keywords
moving target defense(MTD)
deep reinforcement learning
adaptive strategy
DDoS attacks
online network service
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于长短期记忆近端策略优化强化学习的等效并行机在线调度方法
贺俊杰
张洁
张朋
汪俊亮
郑鹏
王明
《中国机械工程》
EI
CAS
CSCD
北大核心
2022
8
下载PDF
职称材料
2
基于Sarsa算法的城轨列车节能控制策略研究
孟建军
蒋小一
陈晓强
胥如迅
《铁道标准设计》
北大核心
2024
0
下载PDF
职称材料
3
《在线学习——强化企业优势的知识策略》
马克·J·罗森伯格
《科技智囊》
2003
0
下载PDF
职称材料
4
基于强化学习的改进三维A^(*)算法在线航迹规划
任智
张栋
唐硕
《系统工程与电子技术》
EI
CSCD
北大核心
2023
4
下载PDF
职称材料
5
求解部分可观测马氏决策过程的强化学习算法
王学宁
贺汉根
徐昕
《控制与决策》
EI
CSCD
北大核心
2004
5
下载PDF
职称材料
6
基于强化学习的多智能体协作实现
陈雪江
杨东勇
《浙江工业大学学报》
CAS
2004
2
下载PDF
职称材料
7
一种基于核的在线策略梯度算法
唐丽丽
朱海军
朱斐
《新疆大学学报(自然科学版)》
CAS
2018
0
下载PDF
职称材料
8
强化学习算法在雷达智能抗干扰中的应用
汪浩
王峰
《现代雷达》
CSCD
北大核心
2020
12
下载PDF
职称材料
9
基于机器学习的地铁行人流在线优化控制研究
史佳洁
杨鹏
皮雁南
《系统仿真学报》
CAS
CSCD
北大核心
2023
0
下载PDF
职称材料
10
基于改进SARSA算法的航空器滑行路径规划
张云景
王昊
王帅
孟斌
《郑州航空工业管理学院学报》
2024
0
下载PDF
职称材料
11
基于改进Sarsa算法的拖轮动态调度方法
李佳琛
段兴锋
《重庆科技学院学报(自然科学版)》
CAS
2024
0
下载PDF
职称材料
12
动态电源管理超时策略自适应优化算法
江琦
奚宏生
殷保群
《控制与决策》
EI
CSCD
北大核心
2008
3
下载PDF
职称材料
13
策略极限理论与策略统计学习
严晓东
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2024
1
原文传递
14
水面无人艇自适应危险规避决策过程收敛性分析
张汝波
唐平鹏
杨歌
李雪耀
史长亭
《计算机研究与发展》
EI
CSCD
北大核心
2014
6
下载PDF
职称材料
15
在线深度强化学习探索策略生成方法综述
李石磊
叶清
袁志民
陈云
何涛
付钰
《机器人》
EI
2024
原文传递
16
多伺服电机智能化协调容错轨迹跟踪控制系统设计
朱俊威
顾曹源
王鼎
张文安
王鑫
《控制理论与应用》
EI
CAS
CSCD
北大核心
2021
3
下载PDF
职称材料
17
网络服务DDoS攻击主动防御框架
柴新忠
李凯
龚梦瑶
赵原
《计算机工程与设计》
北大核心
2021
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部