期刊文献+
共找到107篇文章
< 1 2 6 >
每页显示 20 50 100
以学生为中心强化分层教学的多元化规培带教模式探索 被引量:1
1
作者 田哲菁 王蕊 +8 位作者 刘兰英 李娇艳 高伟华 徐书 彭世桥 李伟 赵盈坤 姚雯静 蔡瑞怡 《中国中医药现代远程教育》 2023年第16期38-40,共3页
目的探索以学生为中心的强化分层教学的多元化规培带教模式在肾病科的构建及其效果评价。方法选取2019年—2020年北京中医药大学第三附属医院肾病科轮转规培生40名,随机分为2组,其中对照组采用填鸭式传统教学模式授课,实验组在传统教学... 目的探索以学生为中心的强化分层教学的多元化规培带教模式在肾病科的构建及其效果评价。方法选取2019年—2020年北京中医药大学第三附属医院肾病科轮转规培生40名,随机分为2组,其中对照组采用填鸭式传统教学模式授课,实验组在传统教学模式基础上采用专家组导师制强化分层多元化教学模式。出科时给予出科考试及问卷调查,多角度对教学效果进行评估。结果实验组的问诊能力、肾内科知识点掌握情况及临床思辨能力较对照组均有显著提高(P<0.05);且实验组教学满意度、学习主动性及学习兴趣较对照组也有显著提高(P<0.05)。结论本研究所应用的,以学生为中心强化分层教学的多元化规培带教模式,能调动学生轮转过程中的学习主动性和学习兴趣,帮助学生掌握与巩固肾病科中西医专业知识,加深学生对疑难问题的思考与理解,从而获得更好的教学效果。 展开更多
关键词 以学生为中心 强化分层教学 规培 教学改革
下载PDF
基于分层约束强化学习的综合能源多微网系统优化调度 被引量:4
2
作者 董雷 杨子民 +3 位作者 乔骥 陈盛 王新迎 蒲天骄 《电工技术学报》 EI CSCD 北大核心 2024年第5期1436-1453,共18页
构建多微网系统是消纳可再生能源、提升电网稳定性的有效方式。通过各微网的协调调度,可有效提升微网的运行效益以及可再生能源的消纳水平。现有多微网优化问题场景多元,变量众多,再加上源荷不确定性及多微网主体的数据隐私保护等问题,... 构建多微网系统是消纳可再生能源、提升电网稳定性的有效方式。通过各微网的协调调度,可有效提升微网的运行效益以及可再生能源的消纳水平。现有多微网优化问题场景多元,变量众多,再加上源荷不确定性及多微网主体的数据隐私保护等问题,为模型的高效求解带来了巨大挑战。为此,该文提出了一种分层约束强化学习优化方法。首先,构建了多微网分层强化学习优化框架,上层由智能体给出各微网储能优化策略和微网间功率交互策略;下层各微网以上层策略为约束,基于自身状态信息采用数学规划法对各微网内部的分布式电源出力进行自治优化。通过分层架构,减小通信压力,保护微网内部数据隐私,充分发挥强化学习对源荷不确定性的自适应能力,大幅提升了模型求解速度,并有效兼顾了数学规划法的求解精度。此外,将拉格朗日乘子法与传统强化学习方法相结合,提出一种约束强化学习求解方法,有效地解决了传统强化学习方法难以处理的约束越限问题。最后通过算例验证了该方法的有效性和优势。 展开更多
关键词 多微网系统 分层约束强化学习 不确定性 数据隐私保护
下载PDF
基于分层强化学习的低过载比拦截制导律
3
作者 王旭 蔡远利 +2 位作者 张学成 张荣良 韩成龙 《空天防御》 2024年第1期40-47,共8页
为解决低过载比和纯角度量测等约束下的三维机动目标拦截制导问题,提出了一种基于分层强化学习的拦截制导律。首先将问题建模为马尔科夫决策过程模型,并考虑拦截能量消耗与弹目视线角速率,设计了一种启发式奖赏函数。其次通过构建具有... 为解决低过载比和纯角度量测等约束下的三维机动目标拦截制导问题,提出了一种基于分层强化学习的拦截制导律。首先将问题建模为马尔科夫决策过程模型,并考虑拦截能量消耗与弹目视线角速率,设计了一种启发式奖赏函数。其次通过构建具有双层结构的策略网络,并利用上层策略规划阶段性子目标来指导下层策略生成所需的制导指令,实现了拦截交战过程中的视线角速率收敛,以保证能成功拦截机动目标。仿真结果验证了所提出的方法较增强比例导引具有更高的拦截精度和拦截概率,且拦截过程的需用过载更低。 展开更多
关键词 末制导 机动目标拦截 低过载比 分层强化学习
下载PDF
一种分层强化学习的知识推理方法
4
作者 孙崇 王海荣 +1 位作者 荆博祥 马赫 《计算机应用研究》 CSCD 北大核心 2024年第3期805-810,共6页
针对知识推理过程中,随着推理路径长度的增加,节点的动作空间急剧增长,使得推理难度不断提升的问题,提出一种分层强化学习的知识推理方法(knowledge reasoning method of hierarchical reinforcement learning,MutiAg-HRL),降低推理过... 针对知识推理过程中,随着推理路径长度的增加,节点的动作空间急剧增长,使得推理难度不断提升的问题,提出一种分层强化学习的知识推理方法(knowledge reasoning method of hierarchical reinforcement learning,MutiAg-HRL),降低推理过程中的动作空间大小。MutiAg-HRL调用高级智能体对知识图谱中的关系进行粗略推理,通过计算下一步关系及给定查询关系之间的相似度,确定目标实体大致位置,依据高级智能体给出的关系,指导低级智能体进行细致推理,选择下一步动作;模型还构造交互奖励机制,对两个智能体的关系和动作选择及时给予奖励,防止模型出现奖励稀疏问题。为验证该方法的有效性,在FB15K-237和NELL-995数据集上进行实验,将实验结果与TransE、MINERVA、HRL等11种主流方法进行对比分析,MutiAg-HRL方法在链接预测任务上的hits@k平均提升了1.85%,MRR平均提升了2%。 展开更多
关键词 知识推理 分层强化学习 交互奖励 链接预测
下载PDF
基于分层强化学习的多智能体博弈策略生成方法
5
作者 畅鑫 李艳斌 刘东辉 《无线电工程》 2024年第6期1361-1367,共7页
典型基于深度强化学习的多智能体对抗策略生成方法采用“分总”框架,各智能体基于部分可观测信息生成策略并进行决策,缺乏从整体角度生成对抗策略的能力,大大限制了决策能力。为了解决该问题,基于分层强化学习提出改进的多智能体博弈策... 典型基于深度强化学习的多智能体对抗策略生成方法采用“分总”框架,各智能体基于部分可观测信息生成策略并进行决策,缺乏从整体角度生成对抗策略的能力,大大限制了决策能力。为了解决该问题,基于分层强化学习提出改进的多智能体博弈策略生成方法。基于分层强化学习构建观测信息到整体价值的决策映射,以最大化整体价值作为目标构建优化问题,并推导了策略优化过程,为后续框架结构和方法实现的设计提供了理论依据;基于决策映射与优化问题构建,采用神经网络设计了模型框架,详细阐述了顶层策略控制模型和个体策略执行模型;基于策略优化方法,给出详细训练流程和算法流程;采用星际争霸多智能体对抗(StarCraft Multi-Agent Challenge,SMAC)环境,与典型多智能体方法进行性能对比。实验结果表明,该方法能够有效生成对抗策略,控制异构多智能体战胜预设对手策略,相比典型多智能体强化学习方法性能提升明显。 展开更多
关键词 分层强化学习 多智能体博弈 深度神经网络
下载PDF
基于分层强化学习的机器人自主避障算法仿真
6
作者 安燕霞 郑晓霞 《计算机仿真》 2024年第4期397-401,共5页
智能机器人可以实时感知周围环境信息,通过绘制环境地图控制行动轨迹,但是如何自主导航起点到终点的同时避开障碍物,获取最优路径的问题仍然需要进一步解决。为提高机器人路径规划能力,减少机器人与障碍物的碰撞概率,提出基于分层强化... 智能机器人可以实时感知周围环境信息,通过绘制环境地图控制行动轨迹,但是如何自主导航起点到终点的同时避开障碍物,获取最优路径的问题仍然需要进一步解决。为提高机器人路径规划能力,减少机器人与障碍物的碰撞概率,提出基于分层强化学习算法的机器人自主避障方法。结合机器人的移动速度、角速度等相关信息,建立运动学模型,分别确立局部和全局坐标系。通过坐标转换,采集机器人和障碍物信息,构建分层强化学习整体架构,分为环境信息交互、子任务选择和根任务协作三个层次。将Q学习方法作为强化学习策略,设定Q函数值更新规则。通过笛卡尔乘积形式表示环境状态信息,选取合理的奖赏函数,提高学习效率,通过赋予Q值最大化的方式控制机器人最佳动作,实现自主避障。实验测试结果验证了上述方法能够精准躲避静态和动态障碍物,计算复杂度较低,可避免陷入局部最优。 展开更多
关键词 机器人 分层强化学习 自主避障 学习策略 奖赏函数
下载PDF
分层强化学习在无人机领域应用综述
7
作者 杨永祥 王念杰 胡涵川 《人工智能与机器人研究》 2024年第1期66-71,共6页
分层强化学习是强化学习领域的一个重要分支。基于分而治之的思想,将一个复杂问题分解成多个子问题,最终解决整个问题。近年来,由于传感器能力的提高和人工智能算法的进步,基于分层强化学习的无人机自主导航成为研究热点。本篇文章对国... 分层强化学习是强化学习领域的一个重要分支。基于分而治之的思想,将一个复杂问题分解成多个子问题,最终解决整个问题。近年来,由于传感器能力的提高和人工智能算法的进步,基于分层强化学习的无人机自主导航成为研究热点。本篇文章对国内外发表的具有代表性的文章进行概述,首先分析无人机和分层强化学习的含义,其次重点研究了分层强化学习在无人机轨迹规划和资源分配的优化问题上的应用。 展开更多
关键词 分层强化学习 无人机 人工智能
下载PDF
基于分层强化学习的无人机空战多维决策 被引量:9
8
作者 张建东 王鼎涵 +3 位作者 杨啟明 史国庆 陆屹 张耀中 《兵工学报》 EI CAS CSCD 北大核心 2023年第6期1547-1563,共17页
针对无人机空战过程中面临的智能决策问题,基于分层强化学习架构建立无人机智能空战的多维决策模型。将空战自主决策由单一维度的机动决策扩展到雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择等多个维度,实现... 针对无人机空战过程中面临的智能决策问题,基于分层强化学习架构建立无人机智能空战的多维决策模型。将空战自主决策由单一维度的机动决策扩展到雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择等多个维度,实现空战主要环节的自主决策;为解决维度扩展后决策模型状态空间复杂度、学习效率低的问题,结合Soft Actor-Critic算法和专家经验训练和建立元策略组,并改进传统的Option-Critic算法,设计优化策略终止函数,提高策略的切换的灵活性,实现空战中多个维度决策的无缝切换。实验结果表明,该模型在无人机空战全流程的多维度决策问题中具有较好的对抗效果,能够控制智能体根据不同的战场态势灵活切换干扰、搜索、打击、规避等策略,达到提升传统算法性能和提高解决复杂决策效率的目的。 展开更多
关键词 无人机空战 多维决策 分层强化学习 Soft Actor-Critic算法 Option-Critic算法
下载PDF
基于加权值函数分解的多智能体分层强化学习技能发现方法 被引量:1
9
作者 邹启杰 李文雪 +2 位作者 高兵 赵锡玲 张汝波 《计算机应用研究》 CSCD 北大核心 2023年第9期2743-2748,2754,共7页
针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化... 针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化学习相结合,在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题;其次,在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务;最后,在底层独立Q学习的基础上引入技能发现策略,使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比,实验表明,该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高,提升了整个多智能体系统的决策能力和收敛速度,验证了算法的可行性。 展开更多
关键词 多智能体强化学习 分层强化学习 集中训练分散执行 值函数分解 技能发现
下载PDF
复杂可交互场景下基于异策略分层强化学习的搜救机器人自主决策
10
作者 殷辰堃 纪宏萱 张严心 《北京工业大学学报》 CAS CSCD 北大核心 2023年第4期403-414,共12页
机器人在搜救任务中的自主决策能力对降低救援人员的风险具有重大意义.为了使机器人在面对复杂多解的搜救任务时能自主形成决策和合理的路径规划,设计了一种异策略分层强化学习算法.该算法由两层Soft Actor-Critic(SAC)智能体组成,高层... 机器人在搜救任务中的自主决策能力对降低救援人员的风险具有重大意义.为了使机器人在面对复杂多解的搜救任务时能自主形成决策和合理的路径规划,设计了一种异策略分层强化学习算法.该算法由两层Soft Actor-Critic(SAC)智能体组成,高层智能体可以自动生成低层智能体所需的目标并提供内在奖励指导其直接与环境进行交互.在分层强化学习的框架下,首先将复杂可交互场景下的机器人搜救任务描述为高层半马尔可夫决策过程与低层马尔可夫决策过程的双层结构,并针对不同层级设计不同的状态空间、动作空间与奖励函数等.其次,针对传统强化学习算法中目标与奖励函数需要人工设计且缺乏通用性的问题,应用基于SAC的异策略分层强化学习算法训练双足移动机器人与复杂场景交互,通过数据的高效利用和目标空间的调整实现救援机器人的自主决策.仿真结果验证了所设计的算法在解决复杂多路径搜救任务中的有效性和通用性. 展开更多
关键词 分层强化学习 Soft Actor-Critic算法 搜索救援任务 双足移动机器人 自主决策 交互场景
下载PDF
深度分层强化学习研究与发展 被引量:5
11
作者 黄志刚 刘全 +2 位作者 张立华 曹家庆 朱斐 《软件学报》 EI CSCD 北大核心 2023年第2期733-760,共28页
深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒... 深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简单问题进行求解.近年来,随着研究的深入,深度分层强化学习方法已经取得了实质性的突破,且被应用于视觉导航、自然语言处理、推荐系统和视频描述生成等生活领域.首先介绍了分层强化学习的理论基础;然后描述了深度分层强化学习的核心技术,包括分层抽象技术和常用实验环境;详细分析了基于技能的深度分层强化学习框架和基于子目标的深度分层强化学习框架,对比了各类算法的研究现状和发展趋势;接下来介绍了深度分层强化学习在多个现实生活领域中的应用;最后,对深度分层强化学习进行了展望和总结. 展开更多
关键词 人工智能 强化学习 深度强化学习 半马尔可夫决策过程 深度分层强化学习
下载PDF
优势加权互信息最大化的最大熵分层强化学习 被引量:2
12
作者 乌兰 刘全 +2 位作者 黄志刚 朱斐 张立华 《计算机学报》 EI CAS CSCD 北大核心 2023年第10期2066-2083,共18页
近年来,深度强化学习在控制任务中取得了显著的效果.但受限于探索能力,难以快速且稳定地求解复杂任务.分层强化学习作为深度强化学习的重要分支,主要解决大规模问题.但是仍存在先验知识设定的不合理和无法有效平衡探索与利用等难题.针... 近年来,深度强化学习在控制任务中取得了显著的效果.但受限于探索能力,难以快速且稳定地求解复杂任务.分层强化学习作为深度强化学习的重要分支,主要解决大规模问题.但是仍存在先验知识设定的不合理和无法有效平衡探索与利用等难题.针对以上问题,提出优势加权互信息最大化的最大熵分层强化学习(Maximum Entropy Hierarchical Reinforcement Learning with Advantage-weighted Mutual Information Maximization,HRLAMIM)算法.该算法通过优势函数加权重要性采样与互信息最大化,解决由策略引起的样本聚类问题,增加内部奖励来强调Option的多样性.同时,将奖励引入最大熵强化学习目标,使策略具有了更强的探索性和更好的稳定性.此外,采用Option数量退火方法,不仅减少了先验知识对性能的影响,还平衡了算法的探索与利用,并获得了更高的样本效率和更快的学习速度.将HRL-AMIM算法应用于Mujoco任务中,实验表明,与传统深度强化学习算法和同类型的分层强化学习算法相比,HRL-AMIM算法在性能和稳定性方面均具有较大的优势.进一步通过消融实验和超参数敏感性实验,验证了算法的鲁棒性和有效性. 展开更多
关键词 深度强化学习 分层强化学习 优势加权 互信息 最大熵
下载PDF
基于分层强化学习的机械臂复杂操作技能学习方法 被引量:1
13
作者 孟子晗 高翔 +1 位作者 刘元归 马陈昊 《现代电子技术》 2023年第19期116-124,共9页
在面对复杂任务时,传统强化学习方法存在状态空间庞大、奖励函数稀疏等问题,导致机械臂不能学习到复杂的操作技能。针对上述问题,提出一种基于分层强化学习的机械臂复杂操作技能学习方法。首先,底层运用基于Beta过程的自回归隐马尔可夫... 在面对复杂任务时,传统强化学习方法存在状态空间庞大、奖励函数稀疏等问题,导致机械臂不能学习到复杂的操作技能。针对上述问题,提出一种基于分层强化学习的机械臂复杂操作技能学习方法。首先,底层运用基于Beta过程的自回归隐马尔可夫模型,将复杂操作任务分解为多个简单的子任务;其次,对每个子任务运用SAC算法进行技能学习,得到每个子任务的最优策略;最后,根据底层得到的子任务最优策略,上层通过基于最大熵目标的改进强化学习算法学习复杂操作技能。实验结果表明,所提方法能有效实现机械臂复杂操作技能的学习、再现与泛化,并在性能上优于其他传统强化学习算法。 展开更多
关键词 机械臂 复杂操作任务 分层强化学习 子目标 自回归隐马尔可夫模型 SAC算法
下载PDF
基于分层强化学习的智能化攻击路径发现方法 被引量:2
14
作者 曾庆伟 张国敏 +1 位作者 邢长友 宋丽华 《计算机科学》 CSCD 北大核心 2023年第7期308-316,共9页
智能化攻击路径发现是开展自动化渗透测试的一项关键技术,但现有方法面临着状态、动作空间呈指数型增长和奖励稀疏等问题,导致算法难以收敛。为此,提出了一种基于分层强化学习的智能化攻击路径发现方法iPathD(Intelligent Path Discove... 智能化攻击路径发现是开展自动化渗透测试的一项关键技术,但现有方法面临着状态、动作空间呈指数型增长和奖励稀疏等问题,导致算法难以收敛。为此,提出了一种基于分层强化学习的智能化攻击路径发现方法iPathD(Intelligent Path Discovery)。iPathD将攻击路径发现过程构建为一个分层的马尔可夫决策过程,以分别描述上层的主机间渗透路径发现和下层的单主机内部攻击路径发现,并在此基础上提出并实现了一种基于分层强化学习的攻击路径发现算法。实验结果表明,与传统基于DQN(Deep Q Learning)及其改进算法的方法相比,iPathD路径发现方法更加快速有效,并且随着主机中漏洞数目的增加,iPathD的效果更好,且适用于大规模的网络场景。 展开更多
关键词 渗透测试 马尔可夫决策过程 分层强化学习 攻击路径发现 DQN算法
下载PDF
基于轨迹信息量的分层强化学习方法
15
作者 徐亚鹏 刘全 栗军伟 《计算机科学》 CSCD 北大核心 2023年第12期314-321,共8页
基于option的分层强化学习(The Option-Based Hierarchical Reinforcement Learning,O-HRL)算法具有时序抽象的特点,可以有效处理强化学习中难以解决的长时序、稀疏奖励等复杂问题。目前O-HRL方法的研究主要集中在数据效率提升方面,通... 基于option的分层强化学习(The Option-Based Hierarchical Reinforcement Learning,O-HRL)算法具有时序抽象的特点,可以有效处理强化学习中难以解决的长时序、稀疏奖励等复杂问题。目前O-HRL方法的研究主要集中在数据效率提升方面,通过提高智能体的采样效率以及探索能力,来最大化其获得优秀经验的概率。然而,在策略稳定性方面,由于在上层策略引导下层动作的过程中仅仅考虑了状态信息,造成了option信息的利用不充分,进而导致下层策略的不稳定。针对这一问题,提出了一种基于轨迹信息量的分层强化学习(Hierarchical Reinforcement Learning Method Based on Trajectory Information,THRL)方法。该方法利用option轨迹的不同类型信息指导下层动作选择,通过得到的扩展轨迹信息生成推断option。同时引入鉴别器将推断option与原始option作为输入,以获得内部奖励,使得下层动作的选择更符合当前option策略,从而解决下层策略不稳定的问题。将THRL算法以及目前优秀的深度强化学习算法应用于MuJoCo环境问题中,实验结果表明,THRL算法具有更好的稳定性以及性能表现,验证了算法的有效性。 展开更多
关键词 OPTION 分层强化学习 轨迹信息 鉴别器 深度强化学习
下载PDF
基于分层强化学习的空战集群控制策略
16
作者 乔天润 崔鹏 张亚 《指挥信息系统与技术》 2023年第6期54-60,共7页
针对多智能体集群控制中智能体的行为难解释和训练难收敛的问题,研究了强化学习分层框架下的多智能体集群控制方法,提出了一种新的上层宏观决策、下层微观执行的多智能体强化学习分层框架,并利用双重深度Q网络(DDQN)与Q值混合器(QMIX)... 针对多智能体集群控制中智能体的行为难解释和训练难收敛的问题,研究了强化学习分层框架下的多智能体集群控制方法,提出了一种新的上层宏观决策、下层微观执行的多智能体强化学习分层框架,并利用双重深度Q网络(DDQN)与Q值混合器(QMIX)算法实现了该框架。最后,构建了歼击机8v8空战博弈对抗的场景,用于多智能体强化学习算法的训练。试验结果表明,该框架算法与传统多智能体强化学习方法相比,弥补了多智能体在行为解释性上的缺陷,并在训练收敛速度上得到了一定提升。 展开更多
关键词 分层强化学习 多智能体集群控制 空战场景
下载PDF
基于强化学习的离场飞行程序航迹生成方法
17
作者 宋歌 韩鹏飞 罗钰翔 《计算机应用》 CSCD 北大核心 2024年第S01期355-362,共8页
现代飞行程序设计受地形、障碍物、空域和飞行性能等多种因素的影响,设计过程中需进行大量针对设计细节有效性的评估工作;设计完毕的飞行程序还需专业的飞行试飞人员进行模拟机和真机试飞,耗费大量的人力、经济成本。如果试飞前缺少针... 现代飞行程序设计受地形、障碍物、空域和飞行性能等多种因素的影响,设计过程中需进行大量针对设计细节有效性的评估工作;设计完毕的飞行程序还需专业的飞行试飞人员进行模拟机和真机试飞,耗费大量的人力、经济成本。如果试飞前缺少针对性的分析评估,一方面会增加试飞成本的支出,另一方面也会导致真机试飞环节存在安全隐患。针对上述问题,利用深度强化学习技术,提出一种在满足飞行程序设计规范条件下,面向飞行程序有效性和可行性验证的离场航迹自动生成方法。首先,利用空气动力学原理,建立考虑飞行性能和障碍物超障因素的基本飞行动力学模型,并借助Unity3D引擎构建三维可视化的训练平台;其次,在PyTorch深度学习框架中,利用Mlagents强化学习平台构建航空器在飞行时各个阶段的试飞训练模型,设计包括起飞、转弯、巡航和降落这4个目标的场景和奖励函数。以离场飞行程序试飞为例,采用厦门高崎机场某PBN(Performance Based Navigation)离场程序进行实例训练验证,并利用动态时间规整(DTW)距离量化实际生成航迹与标称航迹之间的偏离度。实验结果显示,偏差度满足飞行程序超障保护区的限制要求。上述训练模型在其他离场程序的实验结果也验证了模型具有较好的泛化能力。 展开更多
关键词 现代飞行程序设计 深度强化学习 航迹生成 分层强化学习 多维度动态时间规整
下载PDF
动态环境中的分层强化学习 被引量:5
18
作者 沈晶 程晓北 +2 位作者 刘海波 顾国昌 张国印 《控制理论与应用》 EI CAS CSCD 北大核心 2008年第1期71-74,共4页
现有的强化学习方法都不能很好地处理动态环境中的学习问题,当环境变化时需要重新学习最优策略,若环境变化的时间间隔小于策略收敛时间,学习算法则不能收敛.本文在Option分层强化学习方法的基础上提出一种适应动态环境的分层强化学习方... 现有的强化学习方法都不能很好地处理动态环境中的学习问题,当环境变化时需要重新学习最优策略,若环境变化的时间间隔小于策略收敛时间,学习算法则不能收敛.本文在Option分层强化学习方法的基础上提出一种适应动态环境的分层强化学习方法,该方法利用学习的分层特性,仅关注分层任务子目标状态及当前Option内部环境状态的变化,将策略更新过程限制在规模较小的局部空间或维数较低的高层空间上,从而加快学习速度.以二维动态栅格空间内两点间最短路径规划为背景进行了仿真实验,实验结果表明,该方法策略学习速度明显高于以往的方法,且学习算法收敛性对环境变化频率的依赖性有所降低. 展开更多
关键词 分层强化学习 动态环境 OPTION 策略更新
下载PDF
基于分层强化学习及人工势场的多Agent路径规划方法 被引量:14
19
作者 郑延斌 李波 +1 位作者 安德宇 李娜 《计算机应用》 CSCD 北大核心 2015年第12期3491-3496,共6页
针对路径规划算法收敛速度慢及效率低的问题,提出了一种基于分层强化学习及人工势场的多Agent路径规划算法。首先,将多Agent的运行环境虚拟为一个人工势能场,根据先验知识确定每点的势能值,它代表最优策略可获得的最大回报;其次,利用分... 针对路径规划算法收敛速度慢及效率低的问题,提出了一种基于分层强化学习及人工势场的多Agent路径规划算法。首先,将多Agent的运行环境虚拟为一个人工势能场,根据先验知识确定每点的势能值,它代表最优策略可获得的最大回报;其次,利用分层强化学习方法的无环境模型学习以及局部更新能力将策略更新过程限制在规模较小的局部空间或维度较低的高层空间上,提高学习算法的性能;最后,针对出租车问题在栅格环境中对所提算法进行了仿真实验。为了使算法贴近真实环境,增加算法的可移植性,在三维仿真环境中对该算法进行验证,实验结果表明该算法收敛速度快,收敛过程稳定。 展开更多
关键词 路径规划 多智能体系统 分层强化学习 人工势场 先验知识
下载PDF
一种基于启发式奖赏函数的分层强化学习方法 被引量:11
20
作者 刘全 闫其粹 +2 位作者 伏玉琛 胡道京 龚声蓉 《计算机研究与发展》 EI CSCD 北大核心 2011年第12期2352-2358,共7页
针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还... 针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还能加快学习的收敛速度.将此算法应用到俄罗斯方块的仿真平台中,通过对实验中的参数进行设置及对算法性能进行分析,结果表明:采用启发式奖赏函数的分层强化学习方法能在一定程度上解决"维数灾"问题,并具有很好的收敛速度. 展开更多
关键词 分层强化学习 试错 启发式奖赏函数 俄罗斯方块 “维数灾”
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部