期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于长短期记忆近端策略优化强化学习的等效并行机在线调度方法 被引量:8
1
作者 贺俊杰 张洁 +3 位作者 张朋 汪俊亮 郑鹏 王明 《中国机械工程》 EI CAS CSCD 北大核心 2022年第3期329-338,共10页
针对等效并行机在线调度问题,以加权完工时间和为目标,提出了一种基于长短期记忆近端策略优化(LSTM-PPO)强化学习的在线调度方法。通过设计融合LSTM的智能体记录车间的历史状态变化和调度策略,进而根据状态信息进行在线调度。设计了车... 针对等效并行机在线调度问题,以加权完工时间和为目标,提出了一种基于长短期记忆近端策略优化(LSTM-PPO)强化学习的在线调度方法。通过设计融合LSTM的智能体记录车间的历史状态变化和调度策略,进而根据状态信息进行在线调度。设计了车间状态矩阵对问题约束和优化目标进行描述,在调度决策中引入额外的设备等待指令来扩大解空间,并设计奖励函数将优化目标分解为分步奖励值实现调度决策评价。最后基于PPO算法进行模型更新和参数全局优化。实验结果表明所提方法优于现有的几种启发式规则,并将所提算法应用于实际车间的生产调度,有效减小了加权完工时间和。 展开更多
关键词 等效并行机 在线调度 强化学习 长短期记忆近端策略优化
下载PDF
基于Sarsa算法的城轨列车节能控制策略研究
2
作者 孟建军 蒋小一 +1 位作者 陈晓强 胥如迅 《铁道标准设计》 北大核心 2024年第8期8-14,共7页
针对城市轨道交通节能运行问题,提出一种基于Sarsa强化学习算法的城轨列车节能控制策略,实现了城轨列车在自动驾驶状态下,面对不同路况,执行减少能源消耗驾驶策略的同时兼顾准时性和舒适性。根据线路条件将列车状态进行离散化处理,将连... 针对城市轨道交通节能运行问题,提出一种基于Sarsa强化学习算法的城轨列车节能控制策略,实现了城轨列车在自动驾驶状态下,面对不同路况,执行减少能源消耗驾驶策略的同时兼顾准时性和舒适性。根据线路条件将列车状态进行离散化处理,将连续的驾驶过程分为若干个子区间进行分段求解。结合区间限速、初始状态、终末状态等限制条件,基于能耗及运行时间分别构造适当的奖励函数。同时,用当前状态下可达的最大速度与最小速度对可选速度集合进行限制,缩小探索空间,加快算法收敛。最后,通过对北京铁路亦庄线小红门站至肖村站的实例进行仿真。实验结果表明,与传统的动态规划方法相比,Sarsa算法在满足舒适性和准时性要求的情况下节能9.32%。相比于强化学习中的Q学习算法,在速度的选取过程中,超速次数也有明显下降。仿真结果证明Sarsa算法具有更好的节能效果和安全性。在算法参数不变的情况下,调整限速条件,与传统动态规划算法进行二次对比,依旧节能4.21%,验证了算法的鲁棒性。 展开更多
关键词 城市轨道交通 节能 强化学习 sarsa算法 控制策略
下载PDF
《在线学习——强化企业优势的知识策略》
3
作者 马克·J·罗森伯格 《科技智囊》 2003年第1期109-109,共1页
关键词 书评 在线学习--强化企业优势的知识策略 终身学习 因特网 企业 学习型组织
下载PDF
基于强化学习的改进三维A^(*)算法在线航迹规划 被引量:4
4
作者 任智 张栋 唐硕 《系统工程与电子技术》 EI CSCD 北大核心 2023年第1期193-201,共9页
针对飞行器在线航迹规划对算法实时性与结果最优性要求高的问题,基于强化学习方法改进三维A^(*)算法。首先,引入收缩因子改进代价函数的启发信息加权方法提升算法时间性能;其次,建立算法实时性与结果最优性的性能变化度量模型,结合深度... 针对飞行器在线航迹规划对算法实时性与结果最优性要求高的问题,基于强化学习方法改进三维A^(*)算法。首先,引入收缩因子改进代价函数的启发信息加权方法提升算法时间性能;其次,建立算法实时性与结果最优性的性能变化度量模型,结合深度确定性策略梯度方法设计动作-状态与奖励函数,对收缩因子进行优化训练;最后,在多场景下对改进后的三维A^(*)算法进行仿真验证。仿真结果表明,改进算法能够在保证航迹结果最优性的同时有效提升算法时间性能。 展开更多
关键词 改进A^(*)算法 收缩因子 强化学习 深度确定性策略梯度 在线航迹规划
下载PDF
求解部分可观测马氏决策过程的强化学习算法 被引量:5
5
作者 王学宁 贺汉根 徐昕 《控制与决策》 EI CSCD 北大核心 2004年第11期1263-1266,共4页
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来... 针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高. 展开更多
关键词 强化学习 部分可观测Markov决策过程 sarsa学习 无记忆策略
下载PDF
基于强化学习的多智能体协作实现 被引量:2
6
作者 陈雪江 杨东勇 《浙江工业大学学报》 CAS 2004年第5期516-519,572,共5页
基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中。但是由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此强化学习不能直接用于多智能体的协作学习问题。本文提出了多智能体协... 基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中。但是由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此强化学习不能直接用于多智能体的协作学习问题。本文提出了多智能体协作的两层强化学习方法。该方法主要通过在单个智能体中构筑两层强化学习单元来实现。第一层强化学习单元负责学习智能体的联合任务协作策略,第二层强化学习单元负责学习在本智能体看来是最有效的行动策略。所提出的方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明所提出的方法比采用传统强化学习方法的智能体协作得更好。 展开更多
关键词 强化学习 多智能体系统 协作策略 马尔科夫过程 单元 在线学习 模型 习作 协作学习 物体
下载PDF
一种基于核的在线策略梯度算法
7
作者 唐丽丽 朱海军 朱斐 《新疆大学学报(自然科学版)》 CAS 2018年第2期209-216,共8页
策略梯度算法是一种广义的策略迭代方法,由于其高效性得到了广泛的关注和研究.策略梯度算法包括策略评估与策略改进两个部分.传统的在线策略梯度方法在处理大规模问题时,表现不佳.为此,提出一种基于核的在线策略梯度算法,在强化学习经... 策略梯度算法是一种广义的策略迭代方法,由于其高效性得到了广泛的关注和研究.策略梯度算法包括策略评估与策略改进两个部分.传统的在线策略梯度方法在处理大规模问题时,表现不佳.为此,提出一种基于核的在线策略梯度算法,在强化学习经典算法评论家行动者的框架下,采用核方法近似表示值函数与策略函数,采用真在线时间差分算法评估策略的值函数,并根据真在线思想改进策略参数的更新方式.最后通过平衡杆问题和爬山小车实验验证算法的有效性. 展开更多
关键词 策略梯度 在线学习 核方法 强化学习 时间差分
下载PDF
强化学习算法在雷达智能抗干扰中的应用 被引量:12
8
作者 汪浩 王峰 《现代雷达》 CSCD 北大核心 2020年第3期40-44,48,共6页
雷达在工作过程中所应对的干扰场景复杂且多变,所具有的反干扰措施难以穷举。人工设计的反干扰流程与抑制策略在面对这些对抗场景时,由于受限于专家的经验知识,其反干扰性能难以保证。对此,文中从雷达抗干扰的应用需求出发,通过引入强... 雷达在工作过程中所应对的干扰场景复杂且多变,所具有的反干扰措施难以穷举。人工设计的反干扰流程与抑制策略在面对这些对抗场景时,由于受限于专家的经验知识,其反干扰性能难以保证。对此,文中从雷达抗干扰的应用需求出发,通过引入强化学习方法,提出一种基于强化学习模型的智能抗干扰方法。分别利用Q学习与Sarsa两种典型的强化学习算法对反干扰模型中的值函数进行了计算并迭代,使得反干扰策略具备了自主更新与优化功能。仿真结果表明,强化学习算法在训练过程中能够收敛并实现反干扰策略的优化。相比于传统的反干扰设计手段,雷达反干扰的智能化程度得到了有效提升。 展开更多
关键词 智能雷达 强化学习 干扰抑制 策略优化 Q学习 sarsa算法
下载PDF
基于机器学习的地铁行人流在线优化控制研究
9
作者 史佳洁 杨鹏 皮雁南 《系统仿真学报》 CAS CSCD 北大核心 2023年第2期386-395,共10页
为了实现高峰期地铁站行人流管控的在线优化,设计了基于机器学习的地铁站行人流管控算法框架。以某地铁车站早高峰的行人流管控流程为研究对象,利用Agent技术搭建地铁站行人流管控仿真模型。多次运行仿真模型可以获得深度学习网络的训... 为了实现高峰期地铁站行人流管控的在线优化,设计了基于机器学习的地铁站行人流管控算法框架。以某地铁车站早高峰的行人流管控流程为研究对象,利用Agent技术搭建地铁站行人流管控仿真模型。多次运行仿真模型可以获得深度学习网络的训练数据。通过对网络进行充分训练,得到优化调度策略。将网络接入地铁站行人流实时运行数据,实现实时优化管控。仿真实验表明:引入的深度强化学习框架可以实现在线优化,调度结果优于传统方法。 展开更多
关键词 深度强化学习 行人流管控 地铁站调度策略 在线仿真 实时优化
下载PDF
基于改进SARSA算法的航空器滑行路径规划
10
作者 张云景 王昊 +1 位作者 王帅 孟斌 《郑州航空工业管理学院学报》 2024年第1期43-48,共6页
航空器滑行是机场运行中最重要的一环,缩短滑行时间也是提高机场运行效率的主要手段。为了改变仅依靠人工进行机坪管制的现状,文章针对航空器滑行的特殊环境,利用改进SARSA算法对航空器的滑行路径进行规划,并通过仿真验证了该算法在规... 航空器滑行是机场运行中最重要的一环,缩短滑行时间也是提高机场运行效率的主要手段。为了改变仅依靠人工进行机坪管制的现状,文章针对航空器滑行的特殊环境,利用改进SARSA算法对航空器的滑行路径进行规划,并通过仿真验证了该算法在规划路径长度和迭代次数方面优于传统SARSA算法,进而更好地为管制员决策提供辅助参考。 展开更多
关键词 强化学习 路径规划 模拟退火策略 sarsa算法
下载PDF
基于改进Sarsa算法的拖轮动态调度方法
11
作者 李佳琛 段兴锋 《重庆科技学院学报(自然科学版)》 CAS 2024年第3期42-48,共7页
从优化Sarsa算法的角度展开拖轮动态调度方法研究。采用强化学习框架并结合拖轮的状态和环境信息,建立状态-动作函数,进而搜索拖轮调度最佳策略。改进Sarsa算法中Q函数的更新方式,以克服收敛速度慢的问题。同时,根据学习率选择模式和动... 从优化Sarsa算法的角度展开拖轮动态调度方法研究。采用强化学习框架并结合拖轮的状态和环境信息,建立状态-动作函数,进而搜索拖轮调度最佳策略。改进Sarsa算法中Q函数的更新方式,以克服收敛速度慢的问题。同时,根据学习率选择模式和动作选择方式,对探索策略与利用策略加以平衡,以提高算法的收敛速度和性能。算例仿真实验结果表明,采用该算法可有效缩短船舶等待时间,进而提升拖轮资源的利用效率。 展开更多
关键词 sarsa算法 拖轮 自适应调度 强化学习 算法策略
下载PDF
动态电源管理超时策略自适应优化算法 被引量:3
12
作者 江琦 奚宏生 殷保群 《控制与决策》 EI CSCD 北大核心 2008年第4期372-377,共6页
基于强化学习的方法,提出一种动态电源管理超时策略自适应在线优化算法.构建基于超时策略动态电源管理系统的半Markov控制过程模型,将动态电源管理问题转化为一个带约束的优化问题.利用此模型的动态结构特性,结合在线梯度估计与随机逼... 基于强化学习的方法,提出一种动态电源管理超时策略自适应在线优化算法.构建基于超时策略动态电源管理系统的半Markov控制过程模型,将动态电源管理问题转化为一个带约束的优化问题.利用此模型的动态结构特性,结合在线梯度估计与随机逼近推导超时策略的在线优化算法.该算法自适应性强,计算量小,具有全局收敛性.通过无线网络通信节点动态电源管理的应用仿真验证了算法的有效性. 展开更多
关键词 动态电源管理 超时策略 半Markov控制过程 强化学习 在线优化
下载PDF
策略极限理论与策略统计学习 被引量:1
13
作者 严晓东 《山东大学学报(理学版)》 CAS CSCD 北大核心 2024年第1期1-10,45,共11页
非线性期望是山东大学彭实戈院士开辟的原创性研究方向之一,对各个领域的科学研究越来越重要,而大数据和人工智能的兴起,为非线性期望创新理论与应用研究提供了更强劲的动力。最近,山东大学“非线性期望”团队基于多臂老虎机的策略博弈... 非线性期望是山东大学彭实戈院士开辟的原创性研究方向之一,对各个领域的科学研究越来越重要,而大数据和人工智能的兴起,为非线性期望创新理论与应用研究提供了更强劲的动力。最近,山东大学“非线性期望”团队基于多臂老虎机的策略博弈过程开创了“策略极限理论”,是非线性概率理论与强化学习交叉的重大突破性科研成果,变革了传统统计方法研究范式。本文结合徐宗本院士提出的人工智能的10个重大数理基础问题,国家自然科学基金委员会发布的2022年度重大研究计划项目中关于可解释、可通用的人工智能方法的申报指南,以及科技部发布的数学和应用研究重点专项2021、2022年度项目中“数据科学与人工智能的数学基础”理论研究的申报指南,采用“策略”这一概念探寻和揭示人工智能本质和规律,尝试启发、促动人工智能技术变革的激发源和理论依据。不同于传统的大数定律和中心极限定理在独立同分布假设下开展统计学习的研究,策略极限理论打破了数据可交换这一局限,在更大的概率空间中探求最优分布,并提出获得最优分布的最优策略路径,与之对应的统计学习过程被命名为策略统计学习,为复杂机器学习的可解释和可信赖的统计方法研究提供理论支撑。本文介绍策略极限理论的应用包括但不限于:(1)大规模数据的策略抽样;(2)数据流的在线学习;(3)强化学习的中心极限定理;(4)数据的差分隐私保护;(5)联邦学习的策略融合;(6)迁移学习和元学习的信息重构;(7)知识推理与数据驱动的融合。 展开更多
关键词 人工智能 策略极限理论 数理基础 大数据分析 强化学习 在线学习 迁移学习 联邦学习 数据隐私保护 知识推理与数据驱动
原文传递
水面无人艇自适应危险规避决策过程收敛性分析 被引量:6
14
作者 张汝波 唐平鹏 +2 位作者 杨歌 李雪耀 史长亭 《计算机研究与发展》 EI CSCD 北大核心 2014年第12期2644-2652,共9页
水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法... 水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法为基础,提出了USV在复杂海况下的自适应危险规避决策模型,并以渐进贪心策略作为行为探索策略,证明了USV自适应危险规避决策过程能够以概率1收敛到最优行为策略.论证结果表明,采用在线策略强化学习算法提升USV在复杂海况下的危险规避性能是可行的. 展开更多
关键词 水面无人艇 复杂海况 sarsa在线策略强化学习 自适应危险规避决策过程 渐进贪心策略
下载PDF
在线深度强化学习探索策略生成方法综述
15
作者 李石磊 叶清 +3 位作者 袁志民 陈云 何涛 付钰 《机器人》 EI 2024年第6期753-768,共16页
针对在线深度强化学习算法训练过程中的探索-利用难题,在对其概要介绍基础上,从探索策略与任务策略的关系角度入手,对单智能体在线深度强化学习算法中的探索策略生成方法进行分类综述。首先重点介绍了基于任务策略奖励空间与参数空间的... 针对在线深度强化学习算法训练过程中的探索-利用难题,在对其概要介绍基础上,从探索策略与任务策略的关系角度入手,对单智能体在线深度强化学习算法中的探索策略生成方法进行分类综述。首先重点介绍了基于任务策略奖励空间与参数空间的探索策略生成方法,对在奖励空间中引入内在激励的探索方法进行了分类介绍并结合优缺点分析给出了相关研究进展;结合任务性能和多样性需求,对参数空间神经进化算法中的个体适应度函数表征方法进行了详细分析。随后,对动作空间探索和参数空间探索相结合的思路与方法进行了综述分析,并对高层任务目标空间和任务无关探索策略生成方法进行了介绍。最后,对探索策略安全约束处理方法进行了分类讨论,并给出了探索策略生成面临的难题与下一步研究方向。 展开更多
关键词 在线深度强化学习 探索策略 任务策略 内在激励 参数空间 安全探索
原文传递
多伺服电机智能化协调容错轨迹跟踪控制系统设计 被引量:3
16
作者 朱俊威 顾曹源 +2 位作者 王鼎 张文安 王鑫 《控制理论与应用》 EI CAS CSCD 北大核心 2021年第7期1023-1032,共10页
针对一类具有执行器、传感器故障的多伺服电机控制系统,设计了相应的多伺服电机智能化协调容错轨迹跟踪控制系统.首先,提出了一种新结构的分布式中间估计器,修改了其设计结构,提高了估计方案的可行性.其次,通过在线强化学习估计策略,可... 针对一类具有执行器、传感器故障的多伺服电机控制系统,设计了相应的多伺服电机智能化协调容错轨迹跟踪控制系统.首先,提出了一种新结构的分布式中间估计器,修改了其设计结构,提高了估计方案的可行性.其次,通过在线强化学习估计策略,可以显著提高估计性能,其核心是自适应切换机制与源故障模式定位功能块的集成,并根据估计值设计了协调容错轨迹跟踪控制器.同时,设计了可视化人机交互操作界面,可将伺服电机的实时位置、速度、相应的位置、速度估计值及控制性能等信息反馈至监控中心.操作人员可随时调节伺服输入,完成任务调整,可有效提升系统实用性.多伺服电机控制系统的实验结果验证了所提方法的有效性及优越性. 展开更多
关键词 多伺服电机 协调容错轨迹跟踪控制 智能化 在线强化学习估计策略 人机交互
下载PDF
网络服务DDoS攻击主动防御框架 被引量:4
17
作者 柴新忠 李凯 +1 位作者 龚梦瑶 赵原 《计算机工程与设计》 北大核心 2021年第10期2770-2775,共6页
为高效保护在线网络服务,提出一种基于动目标防御的主动防御框架,其通过周期性地重组网络服务系统中接入用户和反向代理服务器之间的网络连接来保证系统的安全性,这就是所谓的“洗牌”。通过这种方式,恶意用户难以对系统进行分布式拒绝... 为高效保护在线网络服务,提出一种基于动目标防御的主动防御框架,其通过周期性地重组网络服务系统中接入用户和反向代理服务器之间的网络连接来保证系统的安全性,这就是所谓的“洗牌”。通过这种方式,恶意用户难以对系统进行分布式拒绝服务(DDoS)攻击,但动目标防御也带来了巨大的资源消耗,阻碍了其大规模的应用与推广。为解决上述问题,提出一种面向在线网络服务DDoS攻击的智能化主动防御框架DQ-MOTAG,将深度强化学习与动目标防御进行结合。设计一个算法生成每个洗牌周期的最优持续时间,指导后续的洗牌过程。进行一系列实验验证DQ-MOTAG与现有方法相比,在防御性能、误封率和网络源消耗等方面具有明显的优越性。 展开更多
关键词 动目标防御 深度强化学习 自适应策略 DDOS攻击 在线网络服务
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部