期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
GACS:Generative Adversarial Imitation Learning Based on Control Sharing 被引量:1
1
作者 Huaiwei SI Guozhen TAN +1 位作者 Dongyu LI Yanfei PENG 《Journal of Systems Science and Information》 CSCD 2023年第1期78-93,共16页
Generative adversarial imitation learning(GAIL)directly imitates the behavior of experts from human demonstration instead of designing explicit reward signals like reinforcement learning.Meanwhile,GAIL overcomes the d... Generative adversarial imitation learning(GAIL)directly imitates the behavior of experts from human demonstration instead of designing explicit reward signals like reinforcement learning.Meanwhile,GAIL overcomes the defects of traditional imitation learning by using a generative adversary network framework and shows excellent performance in many fields.However,GAIL directly acts on immediate rewards,a feature that is reflected in the value function after a period of accumulation.Thus,when faced with complex practical problems,the learning efficiency of GAIL is often extremely low and the policy may be slow to learn.One way to solve this problem is to directly guide the action(policy)in the agents'learning process,such as the control sharing(CS)method.This paper combines reinforcement learning and imitation learning and proposes a novel GAIL framework called generative adversarial imitation learning based on control sharing policy(GACS).GACS learns model constraints from expert samples and uses adversarial networks to guide learning directly.The actions are produced by adversarial networks and are used to optimize the policy and effectively improve learning efficiency.Experiments in the autonomous driving environment and the real-time strategy game breakout show that GACS has better generalization capabilities,more efficient imitation of the behavior of experts,and can learn better policies relative to other frameworks. 展开更多
关键词 generative adversarial imitation learning reinforcement learning control sharing deep reinforcement learning
原文传递
基于生成对抗模仿学习的路段非机动车行为仿真
2
作者 魏书樵 倪颖 +1 位作者 孙剑 邱红桐 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第4期105-115,共11页
为精准复现路段非机动车干扰行为,满足自动驾驶仿真测试需求,本文提出一种位置奖励增强的生成对抗模仿学习(Position Reward Augmented Generative Adversarial Imitation Learning,PRA-GAIL)方法训练仿真模型。城市道路中,干扰行为主... 为精准复现路段非机动车干扰行为,满足自动驾驶仿真测试需求,本文提出一种位置奖励增强的生成对抗模仿学习(Position Reward Augmented Generative Adversarial Imitation Learning,PRA-GAIL)方法训练仿真模型。城市道路中,干扰行为主要由电动自行车产生,故以电动自行车作为研究对象。在构建的仿真环境中,使用生成对抗模仿学习(GAIL)更新仿真模型使仿真轨迹逐步逼近真实轨迹,同时加入位置奖励与Lagrangian约束方法以解决现有仿真方法中的均质化和行为不可控的问题。结果表明:在测试集表现上,GAIL和PRA-GAIL方法平均每步长距离误差相比于常用的行为克隆方法下降了61.7%和65.8%。在行为层仿真精度上,与GAIL相比,PRAGAIL的加速度分布与真实分布间的KL散度显著降低,越线、超车数量的百分比误差下降了7.2%和20.2%。使用Lagrangian方法添加安全约束使有危险行为的智能体数量相比于常用的奖励增强方法下降了75.8%。在轨迹层仿真精度上,整体仿真环境下,PRA-GAIL的平均每步长距离误差相比于GAIL下降了17.5%。本文模型真实再现了非机动车超车时的操作空间,说明PRAGAIL方法对非机动车行为仿真有良好的适用性。本文提出的改动有效提升了仿真效果,最终所得的仿真模型能够真实地再现路段非机动车的干扰行为,能够应用于自动驾驶仿真测试。 展开更多
关键词 交通工程 非机动车行为 强化学习 生成对抗模仿学习 自动驾驶测试 微观交通仿真
下载PDF
一种基于生成对抗模仿学习的作战决策方法
3
作者 李东 许霄 吴琳 《指挥控制与仿真》 2024年第2期18-23,共6页
为研究有限作战指挥样本下的智能决策方法,针对作战决策经验难以表达和智能决策学习训练样本稀缺等问题,基于联合战役仿真推演环境,提出了一种基于生成对抗模仿学习的作战决策方法。该方法整合了作战决策经验表示与学习过程,在上层决策... 为研究有限作战指挥样本下的智能决策方法,针对作战决策经验难以表达和智能决策学习训练样本稀缺等问题,基于联合战役仿真推演环境,提出了一种基于生成对抗模仿学习的作战决策方法。该方法整合了作战决策经验表示与学习过程,在上层决策和底层动作分层的基础上,采用规则定义特定任务执行逻辑,并利用生成对抗模仿学习算法提升智能体场景泛化能力。在构设的典型对抗场景中,该方法达到了预期效果,算法训练收敛,智能体输出决策合理。实验结果初步表明,生成对抗模仿学习作为一种智能作战决策方法,具有进一步研究价值。 展开更多
关键词 智能决策 作战决策 基于规则的方法 生成对抗模仿学习
下载PDF
Joint Entity and Event Extraction with Generative Adversarial Imitation Learning 被引量:11
4
作者 Tongtao Zhang Heng Ji Avirup Sil 《Data Intelligence》 2019年第2期99-120,共22页
We propose a new framework for entity and event extraction based on generative adversarial imitation learning-an inverse reinforcement learning method using a generative adversarial network(GAN).We assume that instanc... We propose a new framework for entity and event extraction based on generative adversarial imitation learning-an inverse reinforcement learning method using a generative adversarial network(GAN).We assume that instances and labels yield to various extents of difficulty and the gains and penalties(rewards)are expected to be diverse.We utilize discriminators to estimate proper rewards according to the difference between the labels committed by the ground-truth(expert)and the extractor(agent).Our experiments demonstrate that the proposed framework outperforms state-of-the-art methods. 展开更多
关键词 Information extraction Event extraction imitation learning generative adversarial network
原文传递
逆向强化学习研究综述 被引量:2
5
作者 张立华 刘全 +1 位作者 黄志刚 朱斐 《软件学报》 EI CSCD 北大核心 2023年第10期4772-4803,共32页
逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家... 逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向. 展开更多
关键词 逆向强化学习 模仿学习 生成对抗模仿学习 逆向最优控制 强化学习
下载PDF
基于余弦相似度的多模态模仿学习方法 被引量:7
6
作者 郝少璞 刘全 +2 位作者 徐平安 张立华 黄志刚 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1358-1372,共15页
生成对抗模仿学习(generative adversarial imitation learning,GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning,IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而... 生成对抗模仿学习(generative adversarial imitation learning,GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning,IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而,现有的GAIL方法大部分假设专家样本产自于单一模态策略,导致生成对抗模仿学习只能学习到部分模态策略,即出现模式塌缩问题,这极大地限制了模仿学习方法在多模态任务中的应用.针对模式塌缩问题,提出了基于余弦相似度的多模态模仿学习方法(multi-modal imitation learning method with cosine similarity,MCS-GAIL).该方法引入编码器和策略组,通过编码器提取专家样本的模态特征,计算采样样本与专家样本之间特征的余弦相似度,并将其加入策略组的损失函数中,引导策略组学习对应模态的专家策略.此外,MCS-GAIL使用新的极小极大博弈公式指导策略组以互补的方式学习不同模态策略.在假设条件成立的情况下,通过理论分析证明了MCS-GAIL的收敛性.为了验证方法的有效性,将MCS-GAIL用于格子世界和MuJoCo平台上,并与现有模式塌缩方法进行比较.实验结果表明,MCS-GAIL在所有环境中均能有效学习到多个模态策略,且具有较高的准确性和稳定性. 展开更多
关键词 逆向强化学习 生成对抗模仿学习 多模态 模式塌缩 余弦相似度
下载PDF
结合模仿对抗策略的深度强化学习鲁棒性增强方法
7
作者 王雪柯 陈晋音 +1 位作者 陆小松 张旭鸿 《小型微型计算机系统》 CSCD 北大核心 2023年第5期930-938,共9页
随着深度强化学习的广泛应用,其安全性问题日益凸显.本文面向深度强化学习的安全问题探索模型防御方法,提出了基于模仿对抗策略的鲁棒性增强方法,搭建对抗状态生成器并优化生成最优对抗策略,同时与深度强化学习智能体联合训练提高模型... 随着深度强化学习的广泛应用,其安全性问题日益凸显.本文面向深度强化学习的安全问题探索模型防御方法,提出了基于模仿对抗策略的鲁棒性增强方法,搭建对抗状态生成器并优化生成最优对抗策略,同时与深度强化学习智能体联合训练提高模型鲁棒性.具体地,创新性的搭建基于模仿学习的对抗状态生成器,旨在生成具有泛化性的对抗样本,同时结合深度强化学习模型的反馈来增强对抗状态的攻击能力,以此间接性增强干净模型对异常干扰的适应能力,然后动态生成对抗样本参与深度强化学习模型的训练从而增强模型的鲁棒性.进一步,通过大量实验对比了多种防御方法以及不同扰动样本比例的防御效果,同时验证面对白盒和黑盒对抗攻击的性能,最后分析了不同对抗样本比例对模型鲁棒性的影响. 展开更多
关键词 深度强化学习 模仿学习 对抗攻击 生成器网络 鲁棒性
下载PDF
基于生成对抗近端策略优化的机动策略优化算法
8
作者 付宇鹏 邓向阳 +2 位作者 朱子强 高阳 张立民 《海军航空大学学报》 2023年第3期257-261,300,共6页
针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,研究了基于生成对抗-近端策略优化的策略生成算法。算法采用判别器-策略-价值(DAC)网络框架,在近端策略优化(PPO)算法基础上,利用专家数据和环境交互... 针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,研究了基于生成对抗-近端策略优化的策略生成算法。算法采用判别器-策略-价值(DAC)网络框架,在近端策略优化(PPO)算法基础上,利用专家数据和环境交互数据训练判别器网络,并反馈调节策略网络,实现了约束策略向专家策略方向优化,提高了算法收敛效率和专家经验利用率。仿真环境为基于JSBSim开源平台的F-16飞机空气动力学模型。仿真结果表明,本文算法收敛效率高于PPO算法,生成的策略模型具备较好的智能性。 展开更多
关键词 生成对抗模仿学习 近端策略优化 机动决策 强化学习 模仿学习
下载PDF
基于生成对抗模仿学习的电力系统动态经济调度 被引量:9
9
作者 陈海东 蒙飞 +5 位作者 张越 孙阳 张静忠 单连飞 吕晓茜 张沛 《电网技术》 EI CSCD 北大核心 2022年第11期4373-4380,共8页
新能源自身所固有的波动性、间歇性与随机性使电网的调度运行面临更加严峻的挑战。如何安排适应新能源出力不确定性的调度方案是调度部门亟待解决的问题。该文提出基于生成对抗模仿学习的动态经济调度模型。首先构建生成器网络,使其通... 新能源自身所固有的波动性、间歇性与随机性使电网的调度运行面临更加严峻的挑战。如何安排适应新能源出力不确定性的调度方案是调度部门亟待解决的问题。该文提出基于生成对抗模仿学习的动态经济调度模型。首先构建生成器网络,使其通过观测系统状态生成调度策略。受强化学习近端策略优化算法目标函数的启发,创新地构造出生成器网络的损失函数,反向传递更新网络参数以优化调度策略。其次,该文借鉴美国电力市场的完美调度思想,可离线计算理想调度方案,并将其作为专家策略指导生成器网络的学习。进一步,该文构建判别器网络,令其识别生成策略与完美调度策略,输出辨别结果,辅助生成器网络更新。在离线训练中,生成器与判别器在博弈对抗中达到纳什均衡状态;投入在线应用时,可根据新能源与负荷预测数据,安排兼顾经济性并考虑不确定性的火电机组出力计划。最后,利用算例分析验证该模型的有效性。该文建立的模型无需对新能源出力不确定性建模,在完美调度策略的指导下,即可实现端到端的策略学习。该文算法离线训练时收敛迅速,在线应用时决策效率高,可为调度部门提供客观、有效的调度决策依据。 展开更多
关键词 动态经济调度 生成对抗网络 模仿学习 强化学习
下载PDF
基于生成对抗网络的模仿学习综述 被引量:22
10
作者 林嘉豪 章宗长 +1 位作者 姜冲 郝建业 《计算机学报》 EI CSCD 北大核心 2020年第2期326-351,共26页
模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化... 模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化学习的模仿学习两类方法.基于逆向强化学习的模仿学习把模仿学习的过程分解成逆向强化学习和强化学习两个子过程,并反复迭代.逆向强化学习用于推导符合专家决策数据的奖赏函数,而强化学习基于该奖赏函数来学习策略.基于生成对抗网络的模仿学习方法从基于逆向强化学习的模仿学习发展而来,其中最早出现且最具代表性的是生成对抗模仿学习方法(Generative Adversarial Imitation Learning,简称GAIL).生成对抗网络由两个相对抗的神经网络构成,分别为判别器和生成器.GAIL的特点是用生成对抗网络框架求解模仿学习问题,其中,判别器的训练过程可类比奖赏函数的学习过程,生成器的训练过程可类比策略的学习过程.与传统模仿学习方法相比,GAIL具有更好的鲁棒性、表征能力和计算效率.因此,它能够处理复杂的大规模问题,并可拓展到实际应用中.然而,GAIL存在着模态崩塌、环境交互样本利用效率低等问题.最近,新的研究工作利用生成对抗网络技术和强化学习技术等分别对这些问题进行改进,并在观察机制、多智能体系统等方面对GAIL进行了拓展.本文先介绍了GAIL的主要思想及其优缺点,然后对GAIL的改进算法进行了归类、分析和对比,最后总结全文并探讨了可能的未来趋势. 展开更多
关键词 模仿学习 基于生成对抗网络的模仿学习 生成对抗模仿学习 模态崩塌 样本利用效率
下载PDF
基于模仿学习的机场停机位再分配决策算法
11
作者 邢志伟 张前前 +1 位作者 罗谦 陈肇欣 《计算机应用研究》 CSCD 北大核心 2022年第9期2665-2670,共6页
针对机位再分配算法结果难以满足不同操作人员操作习惯的问题,提出一种符合实际业务人员操作习惯的机位再分配推荐算法。首先以航班特征属性和停机位的资源占用状态构建决策环境空间模型,将人工操作数据转换为多通道时空矩阵,再以卷积... 针对机位再分配算法结果难以满足不同操作人员操作习惯的问题,提出一种符合实际业务人员操作习惯的机位再分配推荐算法。首先以航班特征属性和停机位的资源占用状态构建决策环境空间模型,将人工操作数据转换为多通道时空矩阵,再以卷积神经网络构建的生成对抗网络(generative adversarial network,GAN)拟合其序贯决策操作策略。仿真结果表明,可靠度在90%以上的调整动作占比最高达到84.4%。经过在三个数据集上的测试,模型对不同来源的操作数据具有较好的区分能力。对比不同扰动下的动态调整结果,算法能够得到航班—机位属性特征与原有人工操作属性特征接近的调整方案。 展开更多
关键词 航空运输 停机位分配 模仿学习 马尔可夫决策过程 生成对抗网络
下载PDF
基于生成对抗模仿学习的人机辅助决策系统
12
作者 杨高光 《微型电脑应用》 2021年第3期106-107,120,共3页
在核电人机界面操作环境中,主要依赖专家操作。将专家在人机界面上的操作过程看作马尔可夫决策过程,针对操作过程经验难以准确描述以及奖励函数难以确定的特点,提出了利用模仿学习方法学习专家操作构建辅助决策系统。从而利用模仿学得... 在核电人机界面操作环境中,主要依赖专家操作。将专家在人机界面上的操作过程看作马尔可夫决策过程,针对操作过程经验难以准确描述以及奖励函数难以确定的特点,提出了利用模仿学习方法学习专家操作构建辅助决策系统。从而利用模仿学得的专家策略来为界面操作提供参考,以降低人为因素失误发生概率。用神经网络生成专家策略,以专家策略和生成策略之间的信息熵为损失函数来解决神经网络的收敛问题。最后,在Mujoco仿真环境中验证了该方法的可行性。 展开更多
关键词 人机界面 专家操作 生成对抗模仿学习 决策支持系统
下载PDF
基于逆强化学习的航天器交会对接方法
13
作者 岳承磊 汪雪川 +1 位作者 岳晓奎 宋婷 《航空学报》 EI CAS CSCD 北大核心 2023年第19期252-263,共12页
针对使用神经网络解决追踪航天器接近静止目标问题,提出一种使用模型预测控制提供数据集,基于生成对抗逆强化学习训练神经网络的方法。首先在考虑追踪航天器最大速度约束,控制输入饱和约束和空间锥约束下,建立追踪航天器接近静止目标的... 针对使用神经网络解决追踪航天器接近静止目标问题,提出一种使用模型预测控制提供数据集,基于生成对抗逆强化学习训练神经网络的方法。首先在考虑追踪航天器最大速度约束,控制输入饱和约束和空间锥约束下,建立追踪航天器接近静止目标的动力学,并通过模型预测控制驱动航天器到达指定位置。其次为标称轨迹添加扰动,通过前述方法计算从各起始位置到目标点的轨迹,收集各轨迹各控制时刻的状态与控制信息,形成包含状态与对应控制的训练集。最后通过设置网络结构与参数和训练超参数,在训练集驱动下,采用生成对抗逆强化学习方法进行网络训练。仿真结果表明生成对抗逆强化学习可模仿专家轨迹行为,并成功训练神经网络,驱动航天器从起始点向目标位置运动。 展开更多
关键词 模型预测控制 生成对抗逆强化学习 模仿学习 网络训练 神经网络
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部