期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
Deep Imitation Learning for Autonomous Vehicles Based on Convolutional Neural Networks 被引量:10
1
作者 Parham M.Kebria Abbas Khosravi +1 位作者 Syed Moshfeq Salaken Saeid Nahavandi 《IEEE/CAA Journal of Automatica Sinica》 EI CSCD 2020年第1期82-95,共14页
Providing autonomous systems with an effective quantity and quality of information from a desired task is challenging. In particular, autonomous vehicles, must have a reliable vision of their workspace to robustly acc... Providing autonomous systems with an effective quantity and quality of information from a desired task is challenging. In particular, autonomous vehicles, must have a reliable vision of their workspace to robustly accomplish driving functions. Speaking of machine vision, deep learning techniques, and specifically convolutional neural networks, have been proven to be the state of the art technology in the field. As these networks typically involve millions of parameters and elements, designing an optimal architecture for deep learning structures is a difficult task which is globally under investigation by researchers. This study experimentally evaluates the impact of three major architectural properties of convolutional networks, including the number of layers, filters, and filter size on their performance. In this study, several models with different properties are developed,equally trained, and then applied to an autonomous car in a realistic simulation environment. A new ensemble approach is also proposed to calculate and update weights for the models regarding their mean squared error values. Based on design properties,performance results are reported and compared for further investigations. Surprisingly, the number of filters itself does not largely affect the performance efficiency. As a result, proper allocation of filters with different kernel sizes through the layers introduces a considerable improvement in the performance.Achievements of this study will provide the researchers with a clear clue and direction in designing optimal network architectures for deep learning purposes. 展开更多
关键词 Autonomous vehicles convolutional neural networks deep learning imitation learning
下载PDF
Learning to Branch in Combinatorial Optimization With Graph Pointer Networks
2
作者 Rui Wang Zhiming Zhou +4 位作者 Kaiwen Li Tao Zhang Ling Wang Xin Xu Xiangke Liao 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2024年第1期157-169,共13页
Traditional expert-designed branching rules in branch-and-bound(B&B) are static, often failing to adapt to diverse and evolving problem instances. Crafting these rules is labor-intensive, and may not scale well wi... Traditional expert-designed branching rules in branch-and-bound(B&B) are static, often failing to adapt to diverse and evolving problem instances. Crafting these rules is labor-intensive, and may not scale well with complex problems.Given the frequent need to solve varied combinatorial optimization problems, leveraging statistical learning to auto-tune B&B algorithms for specific problem classes becomes attractive. This paper proposes a graph pointer network model to learn the branch rules. Graph features, global features and historical features are designated to represent the solver state. The graph neural network processes graph features, while the pointer mechanism assimilates the global and historical features to finally determine the variable on which to branch. The model is trained to imitate the expert strong branching rule by a tailored top-k Kullback-Leibler divergence loss function. Experiments on a series of benchmark problems demonstrate that the proposed approach significantly outperforms the widely used expert-designed branching rules. It also outperforms state-of-the-art machine-learning-based branch-and-bound methods in terms of solving speed and search tree size on all the test instances. In addition, the model can generalize to unseen instances and scale to larger instances. 展开更多
关键词 Branch-and-bound(B&B) combinatorial optimization deep learning graph neural network imitation learning
下载PDF
考虑行为克隆的深度强化学习股票交易策略 被引量:1
3
作者 杨兴雨 陈亮威 +1 位作者 郑萧腾 张永 《系统管理学报》 CSCD 北大核心 2024年第1期150-161,共12页
为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择... 为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择不同行业的股票进行数值实验,说明了所设计的交易策略在年化收益率、夏普比率和卡玛比率等收益与风险指标上优于对比策略。研究结果表明:将模仿学习与深度强化学习相结合可以使智能体同时具有探索和模仿能力,从而提高模型的泛化能力和策略的适用性。 展开更多
关键词 股票交易策略 深度强化学习 模仿学习 行为克隆 对决深度Q学习网络
下载PDF
作战方案驱动的可学习兵棋推演智能体研究
4
作者 孙怡峰 李智 +1 位作者 吴疆 王玉宾 《系统仿真学报》 CAS CSCD 北大核心 2024年第7期1525-1535,共11页
为了使智能体能够应对兵棋推演中的复杂作战场景和作战目的,提出作战方案驱动的可学习兵棋推演智能体架构。剖析智能体对兵棋系统的“依附特性”和“松耦合特性”,得到智能体的可学习要求;在智能体框架设计中,使用作战方案压减智能体学... 为了使智能体能够应对兵棋推演中的复杂作战场景和作战目的,提出作战方案驱动的可学习兵棋推演智能体架构。剖析智能体对兵棋系统的“依附特性”和“松耦合特性”,得到智能体的可学习要求;在智能体框架设计中,使用作战方案压减智能体学习范围。通过有限状态机对应作战方案中的作战阶段知识,依据作战方案框架确定智能体决策空间,设计可学习的深层神经网络实施关键决策空间探索,神经网络采用先验知识模仿学习模式和深度强化学习模式。该架构能迭代探索人类难以充分梳理清楚的多棋子最优部署和协作问题。 展开更多
关键词 兵棋推演 智能体 作战方案 深层神经网络 强化学习 模仿学习
下载PDF
基于深度强化学习的无信号灯路口决策研究
5
作者 傅明建 郭福强 《计算机工程》 CAS CSCD 北大核心 2024年第5期91-99,共9页
无信号灯左转路口是自动驾驶场景中最为危险的场景之一,如何实现高效安全的左转决策是自动驾驶领域的重大难题。深度强化学习(DRL)算法在自动驾驶决策领域具有广阔应用前景。但是,深度强化学习在自动驾驶场景中存在样本效率低、奖励函... 无信号灯左转路口是自动驾驶场景中最为危险的场景之一,如何实现高效安全的左转决策是自动驾驶领域的重大难题。深度强化学习(DRL)算法在自动驾驶决策领域具有广阔应用前景。但是,深度强化学习在自动驾驶场景中存在样本效率低、奖励函数设计困难等问题。提出一种基于专家先验的深度强化学习算法(CBAMBC SAC)来解决上述问题。首先,利用SMARTS仿真平台获得专家先验知识;然后,使用通道-空间注意力机制(CBAM)改进行为克隆(BC)方法,在专家先验知识的基础上预训练模仿专家策略;最后,使用模仿专家策略指导深度强化学习算法的学习过程,并在无信号灯路口左转决策中进行验证。实验结果表明,基于专家先验的DRL算法比传统的DRL算法更具优势,不仅可以免去人为设置奖励函数的工作量,而且可以显著提高样本效率从而获得更优性能。在无信号灯路口左转场景下,CBAM-BC SAC算法与传统DRL算法(SAC)、基于传统行为克隆的DRL算法(BC SAC)相比,平均通行成功率分别提高了14.2和2.2个百分点。 展开更多
关键词 深度强化学习 自动驾驶 模仿学习 行为克隆 驾驶决策
下载PDF
基于内在好奇心与自模仿学习的探索算法
6
作者 吕相霖 臧兆祥 +1 位作者 李思博 邹耀斌 《现代电子技术》 北大核心 2024年第16期137-144,共8页
针对深度强化学习算法在部分可观测环境中面临的稀疏奖励、信息缺失等问题,提出一种结合好奇心模块与自模仿学习的近端策略优化算法。该算法利用随机网络来生成探索过程中的经验样本数据,然后利用优先经验回放技术选取高质量样本,通过... 针对深度强化学习算法在部分可观测环境中面临的稀疏奖励、信息缺失等问题,提出一种结合好奇心模块与自模仿学习的近端策略优化算法。该算法利用随机网络来生成探索过程中的经验样本数据,然后利用优先经验回放技术选取高质量样本,通过自模仿学习对优秀的序列轨迹进行模仿,并更新一个新的策略网络用于指导探索行为。在Minigrid环境中设置了消融与对比实验,实验结果表明,所提算法在收敛速度上具有明显优势,并且能够完成更为复杂的部分可观测环境探索任务。 展开更多
关键词 好奇心模块 自模仿学习 深度强化学习 近端策略优化 随机网络 优先经验回放
下载PDF
深度Q网络在月球着陆任务中的性能评估与改进
7
作者 岳颀 石伊凡 +1 位作者 褚晶 黄勇 《西北工业大学学报》 EI CAS CSCD 北大核心 2024年第3期396-405,共10页
基于深度Q网络(DQN)技术的强化学习方法得到越来越广泛的应用,但该类算法的性能深受多因素影响。文中以月球登陆器为例,探讨不同超参数对DQN性能的影响,在此基础上训练得到性能较优的模型。目前已知DQN模型在100个测试回合下平均奖励为2... 基于深度Q网络(DQN)技术的强化学习方法得到越来越广泛的应用,但该类算法的性能深受多因素影响。文中以月球登陆器为例,探讨不同超参数对DQN性能的影响,在此基础上训练得到性能较优的模型。目前已知DQN模型在100个测试回合下平均奖励为280+,文中模型奖励值可达到290+,并且通过在原始问题中引入额外的不确定性测试验证了文中模型的鲁棒性。另外,引入模仿学习的思想,基于启发式函数的模型指导方法获取演示数据,加快训练速度并提升性能,仿真结果证明了该方法的有效性。 展开更多
关键词 深度强化学习 深度Q网络 模仿学习
下载PDF
基于深度学习与仿人眼视觉成像的图像融合技术研究
8
作者 尚福洲 庄新港 +3 位作者 刘长明 刘红波 沈荣仁 赵耀 《科技创新与应用》 2024年第21期32-35,共4页
近年来,针对导航避障、勘探救援等领域的需求,城市环境下遮蔽目标的成像技术成为研究热点。该文首先分析目前三维成像的技术现状,之后针对城市环境的特殊性,重点研究基于深度学习与仿人眼视觉成像的图像融合技术,并对该方法进行测试验证... 近年来,针对导航避障、勘探救援等领域的需求,城市环境下遮蔽目标的成像技术成为研究热点。该文首先分析目前三维成像的技术现状,之后针对城市环境的特殊性,重点研究基于深度学习与仿人眼视觉成像的图像融合技术,并对该方法进行测试验证,实验结果表明,该方法明显提高对目标图像的识别效率。 展开更多
关键词 深度学习 三维成像 仿人眼 视觉成像 图像融合技术
下载PDF
指向深度学习的高中英语以读促写教学策略探究 被引量:1
9
作者 马惠玲 《成才之路》 2024年第8期93-96,共4页
阅读教学与写作教学是高中英语教学的重要内容,而指向深度学习的以读促写教学有利于夯实学生的语言知识基础,锻炼其语句书写、文本创作能力。文章在分析深度学习的概念、高中英语以读促写的内涵及其理论基础的同时,探究指向深度学习的... 阅读教学与写作教学是高中英语教学的重要内容,而指向深度学习的以读促写教学有利于夯实学生的语言知识基础,锻炼其语句书写、文本创作能力。文章在分析深度学习的概念、高中英语以读促写的内涵及其理论基础的同时,探究指向深度学习的高中英语以读促写教学策略:以读后仿写培养学生的基本写作技能,以读后改写发展学生的英语写作思维,以读后主题写作提升学生的综合素养。 展开更多
关键词 深度学习 高中英语 以读促写 读后仿写 读后改写 主题写作
下载PDF
一种深度强化学习与模仿学习结合的突防策略 被引量:2
10
作者 王晓芳 顾焜仁 《宇航学报》 EI CAS CSCD 北大核心 2023年第6期914-925,共12页
针对战斗机在攻击目标过程中遭遇防御弹拦截,需同时考虑突防和突防后打击的要求,提出一种基于深度强化学习与模仿学习理论的战斗机智能机动突防算法。首先建立了战斗机突防问题的马尔可夫决策模型,考虑战斗机与防御弹的相对距离以及突... 针对战斗机在攻击目标过程中遭遇防御弹拦截,需同时考虑突防和突防后打击的要求,提出一种基于深度强化学习与模仿学习理论的战斗机智能机动突防算法。首先建立了战斗机突防问题的马尔可夫决策模型,考虑战斗机与防御弹的相对距离以及突防后与目标的距离、战斗机相对战斗机-目标视线的速度前置角,设计了综合考虑突防和打击的奖励函数。接着将近端策略优化(PPO)算法与模仿学习理论相结合,构建了由判别网络、演员网络和评论家网络构成的生成对抗模仿学习-近端策略优化(GAIL-PPO)智能突防网络。最后,结合专家策略对智能突防网络进行了训练。仿真结果表明:GAIL-PPO突防策略在前期充分借鉴专家策略的经验,能够快速收敛,在后期又能在复杂环境中充分探索,得到比专家策略更优的性能。 展开更多
关键词 战斗机 机动突防 智能突防 深度强化学习 模仿学习
下载PDF
基于接触状态感知的羊胴体后腿自适应分割控制方法
11
作者 谢斌 矫伟鹏 +3 位作者 刘楷东 吴竞 温昌凯 陈仲举 《农业机械学报》 EI CAS CSCD 北大核心 2023年第9期306-315,共10页
针对羊胴体后腿骨肉边界未知、尺寸多变和可见性约束限制造成的机器人自主分割精确度低与易受阻卡住的问题,提出一种羊胴体后腿自适应分割控制方法,并开展羊胴体后腿分割试验进行验证。该方法以接触状态感知为核心,有效提取接触类型特... 针对羊胴体后腿骨肉边界未知、尺寸多变和可见性约束限制造成的机器人自主分割精确度低与易受阻卡住的问题,提出一种羊胴体后腿自适应分割控制方法,并开展羊胴体后腿分割试验进行验证。该方法以接触状态感知为核心,有效提取接触类型特征、接触异常度特征和接触方向特征,通过构建深度时空神经网络识别接触类型,构建深度自编码网络估计接触异常度,采用主成分分析方法检测主要接触方向,实现接触状态多模态感知,机器人通过动态运动基元模仿学习人类操作技能,并结合接触状态感知信息实现关节运动的自适应调节。试验结果表明:深度时空网络模型在羊胴体后腿分割验证集上的识别准确率为98.44%;深度自编码网络模型能够较好地估计验证集样本的接触异常度,区分不同的接触状态。机器人基于自适应分割控制方法开展实际分割试验,与对照组相比,最大分割力下降幅度为29 N,最大力矩下降幅度为7 N·m,证明该方法的有效性;平均最大残留肉厚度为3.6 mm,平均分割残留率为4.9%,分割残留率与羊胴体质量呈现负相关,证明该方法具有良好的泛化性和准确性,并且整体分割效果较好,满足羊胴体后腿分割要求。 展开更多
关键词 羊后腿 分割机器人 接触状态感知 深度学习 模仿学习 自适应控制
下载PDF
基于深度强化学习的电力系统安全校正控制 被引量:3
12
作者 王一迪 李立新 +3 位作者 於益军 杨楠 刘蒙 李桐 《电力系统自动化》 EI CSCD 北大核心 2023年第12期121-129,共9页
新型电力系统中,源荷双侧的不确定性使得电网潮流波动大幅增加。电力系统安全校正控制能够消除系统潮流越限,保证电网安全运行。然而,传统安全校正控制方法约束众多、计算复杂,且面对大规模电网时难以进行实时多步决策。因此,提出一种... 新型电力系统中,源荷双侧的不确定性使得电网潮流波动大幅增加。电力系统安全校正控制能够消除系统潮流越限,保证电网安全运行。然而,传统安全校正控制方法约束众多、计算复杂,且面对大规模电网时难以进行实时多步决策。因此,提出一种基于深度确定性策略梯度(DDPG)的两阶段训练方法来确定安全校正控制策略。首先,将安全校正控制问题与深度强化学习联系起来,通过设计强化学习的状态、动作和奖励函数,构建了安全校正的马尔可夫决策过程模型。然后,提出了两阶段训练框架来求得最优校正策略。在模仿学习预训练阶段,基于专家策略,利用模仿学习为智能体提供初始神经网络,提高训练速度;在强化学习训练阶段,通过DDPG智能体与环境的不断交互进一步训练智能体。训练好的智能体可以实时应用,获得最优决策。最后,基于中国某省级电网的仿真算例验证了所提方法的有效性。 展开更多
关键词 深度强化学习 安全校正控制 模仿学习 潮流越限
下载PDF
GACS:Generative Adversarial Imitation Learning Based on Control Sharing 被引量:1
13
作者 Huaiwei SI Guozhen TAN +1 位作者 Dongyu LI Yanfei PENG 《Journal of Systems Science and Information》 CSCD 2023年第1期78-93,共16页
Generative adversarial imitation learning(GAIL)directly imitates the behavior of experts from human demonstration instead of designing explicit reward signals like reinforcement learning.Meanwhile,GAIL overcomes the d... Generative adversarial imitation learning(GAIL)directly imitates the behavior of experts from human demonstration instead of designing explicit reward signals like reinforcement learning.Meanwhile,GAIL overcomes the defects of traditional imitation learning by using a generative adversary network framework and shows excellent performance in many fields.However,GAIL directly acts on immediate rewards,a feature that is reflected in the value function after a period of accumulation.Thus,when faced with complex practical problems,the learning efficiency of GAIL is often extremely low and the policy may be slow to learn.One way to solve this problem is to directly guide the action(policy)in the agents'learning process,such as the control sharing(CS)method.This paper combines reinforcement learning and imitation learning and proposes a novel GAIL framework called generative adversarial imitation learning based on control sharing policy(GACS).GACS learns model constraints from expert samples and uses adversarial networks to guide learning directly.The actions are produced by adversarial networks and are used to optimize the policy and effectively improve learning efficiency.Experiments in the autonomous driving environment and the real-time strategy game breakout show that GACS has better generalization capabilities,more efficient imitation of the behavior of experts,and can learn better policies relative to other frameworks. 展开更多
关键词 generative adversarial imitation learning reinforcement learning control sharing deep reinforcement learning
原文传递
带Q网络过滤的两阶段TD3深度强化学习方法 被引量:3
14
作者 周娴玮 包明豪 +1 位作者 叶鑫 余松森 《计算机技术与发展》 2023年第10期101-108,共8页
常规的深度强化学习模型训练方式从“零”开始,其起始策略为随机初始化,这将导致智能体在训练前期阶段探索效率低、样本学习率低,网络难以收敛,该阶段也被称为冷启动过程。为解决冷启动问题,目前大多数工作使用两阶段深度强化学习训练方... 常规的深度强化学习模型训练方式从“零”开始,其起始策略为随机初始化,这将导致智能体在训练前期阶段探索效率低、样本学习率低,网络难以收敛,该阶段也被称为冷启动过程。为解决冷启动问题,目前大多数工作使用两阶段深度强化学习训练方式;但是使用这种方式的智能体由模仿学习过渡至深度强化学习阶段后可能会出现遗忘演示动作的情况,表现为性能和回报突然性回落。因此,该文提出一种带Q网络过滤的两阶段TD3深度强化学习方法。首先,通过收集专家演示数据,使用模仿学习-行为克隆以及TD3模型Q网络更新公式分别对Actor网络与Critic网络进行预训练工作;进一步地,为避免预训练后的Actor网络在策略梯度更新时误选择估值过高的演示数据集之外动作,从而遗忘演示动作,提出Q网络过滤算法,过滤掉预训练Critic网络中过高估值的演示数据集之外的动作估值,保持演示动作为最高估值动作,有效缓解遗忘现象。在Deep Mind提供的Mujoco机器人仿真平台中进行实验,验证了所提算法的有效性。 展开更多
关键词 两阶段深度强化学习 冷启动问题 模仿学习 预训练网络 TD3
下载PDF
结合模仿对抗策略的深度强化学习鲁棒性增强方法
15
作者 王雪柯 陈晋音 +1 位作者 陆小松 张旭鸿 《小型微型计算机系统》 CSCD 北大核心 2023年第5期930-938,共9页
随着深度强化学习的广泛应用,其安全性问题日益凸显.本文面向深度强化学习的安全问题探索模型防御方法,提出了基于模仿对抗策略的鲁棒性增强方法,搭建对抗状态生成器并优化生成最优对抗策略,同时与深度强化学习智能体联合训练提高模型... 随着深度强化学习的广泛应用,其安全性问题日益凸显.本文面向深度强化学习的安全问题探索模型防御方法,提出了基于模仿对抗策略的鲁棒性增强方法,搭建对抗状态生成器并优化生成最优对抗策略,同时与深度强化学习智能体联合训练提高模型鲁棒性.具体地,创新性的搭建基于模仿学习的对抗状态生成器,旨在生成具有泛化性的对抗样本,同时结合深度强化学习模型的反馈来增强对抗状态的攻击能力,以此间接性增强干净模型对异常干扰的适应能力,然后动态生成对抗样本参与深度强化学习模型的训练从而增强模型的鲁棒性.进一步,通过大量实验对比了多种防御方法以及不同扰动样本比例的防御效果,同时验证面对白盒和黑盒对抗攻击的性能,最后分析了不同对抗样本比例对模型鲁棒性的影响. 展开更多
关键词 深度强化学习 模仿学习 对抗攻击 生成器网络 鲁棒性
下载PDF
基于深度强化学习的多智能体动态寻路算法 被引量:2
16
作者 段伟浩 赵瑾 +1 位作者 梁家瑞 曹锐 《计算机仿真》 北大核心 2023年第1期441-446,473,共7页
针对目前多智能体寻路领域中存在的路线单一、易拥堵、易碰撞等问题,提出了一种基于全连接神经网络的近端策略优化算法。智能体利用射线作为其观测值,将收集到的观测值传入全连接神经网络中提取特征,近端策略优化算法根据所提取特征决... 针对目前多智能体寻路领域中存在的路线单一、易拥堵、易碰撞等问题,提出了一种基于全连接神经网络的近端策略优化算法。智能体利用射线作为其观测值,将收集到的观测值传入全连接神经网络中提取特征,近端策略优化算法根据所提取特征决定智能体下一个动作,通过不断训练,从而达到寻路目的。针对稀疏奖励问题,使用好奇心驱动和生成对抗性模仿学习完成训练。在Unity引擎进行仿真的结果证明,所提算法与Unity提供的NavMesh(导航网格)相比,在简单与复杂场景中均可实现更智能、更合理的多智能体动态寻路。 展开更多
关键词 深度强化学习 多智能体 动态寻路 近端策略优化 好奇心驱动 模仿学习
下载PDF
机器人智能化研究的关键技术与发展展望 被引量:13
17
作者 张小俊 刘欢欢 +1 位作者 赵少魁 丁国帅 《机械设计》 CSCD 北大核心 2016年第8期1-7,共7页
智能机器人集成了运动学与动力学、计算机学、神经学与人工智能等学科领域的先进理论与技术,其智能化程度是国家科技水平与综合国力的重要体现。文中回顾了机器人智能化研究的发展历史,探讨了对机器人智能化研究的重要性,论述了机器人... 智能机器人集成了运动学与动力学、计算机学、神经学与人工智能等学科领域的先进理论与技术,其智能化程度是国家科技水平与综合国力的重要体现。文中回顾了机器人智能化研究的发展历史,探讨了对机器人智能化研究的重要性,论述了机器人智能化研究的新进展,并进一步介绍了目前机器人智能化研究应用的关键技术。最后,结合机器人的发展趋势,提出了机器人智能化研究未来的发展方向与展望。 展开更多
关键词 智能机器人 智能发育 仿脑技术 大数据 深度学习
下载PDF
基于3D卷积神经网络的IR-BCI脑电视频解码研究 被引量:4
18
作者 官金安 汪鹭汐 +2 位作者 赵瑞娟 李东阁 吴欢 《中南民族大学学报(自然科学版)》 CAS 2019年第4期538-546,共9页
采用3D卷积神经网络模型,对脑电信号进行解码研究,旨在挖掘其深层的特征表达,以提高脑-机接口系统的性能.实验在获取“模拟阅读”脑-机接口系统的多维脑电信号后,将原始的通道特征构建成“脑电视频”的格式.其构造方法为:将通道按实际... 采用3D卷积神经网络模型,对脑电信号进行解码研究,旨在挖掘其深层的特征表达,以提高脑-机接口系统的性能.实验在获取“模拟阅读”脑-机接口系统的多维脑电信号后,将原始的通道特征构建成“脑电视频”的格式.其构造方法为:将通道按实际空间排布为二维矩阵,这样某时刻的多通道采样点在空间上形成一个“视频帧”,这些空间信息在连续时间帧上的堆叠,形成“脑电视频”.这种自然表达信息的方法,不仅包含大脑的空间分布信息,还反映了时间信息的关联,丰富了数据所包含的事件相关信息.借鉴图像领域特征学习的“局部感受野”和“权值共享”思想,搭建了自主学习脑电信号特征的3D卷积神经网络模型,将已打标签的脑电视频数据对模型进行训练,之后对测试集进行测试.与经典的卷积神经网络和传统的最佳单通道算法相比,分类正确率有了进一步的提高.实验表明,基于脑电视频的3D卷积神经网络能够更有效地学习脑电特征,改善了模拟阅读脑-机接口系统的性能. 展开更多
关键词 脑-机接口 深度学习 模拟阅读 脑电视频 3D卷积神经网络
下载PDF
基于WGAIL-DDPG(λ)的车辆自动驾驶决策模型 被引量:3
19
作者 张明恒 吕新飞 +1 位作者 万星 吴增文 《大连理工大学学报》 CAS CSCD 北大核心 2022年第1期77-84,共8页
优良的可靠性、学习效率和模型泛化能力是车辆自动驾驶系统研究的基本要求.基于深度强化学习理论框架提出了一种用于车辆自动驾驶决策的WGAIL-DDPG(λ)(Wasserstein generative adversarial nets-deep deterministic policy gradient(... 优良的可靠性、学习效率和模型泛化能力是车辆自动驾驶系统研究的基本要求.基于深度强化学习理论框架提出了一种用于车辆自动驾驶决策的WGAIL-DDPG(λ)(Wasserstein generative adversarial nets-deep deterministic policy gradient(λ))模型.其中,基于驾驶安全性、稳定性的车辆行驶性能要求,对强化学习模型中的奖励函数进行了针对性设计;通过引入模仿学习有效提升了强化学习过程中的学习效率;通过合理的增益调度器设计,保证了从模仿学习到强化学习的平稳过渡.实验结果表明,在稳定性上,智能体偏离道路中线的程度一直在30%内波动;在安全性上,智能体与周边其他车辆的安全距离基本保持在10 m以上;在模型泛化性方面,智能体在许多未训练过的复杂弯道也能很好地完成安全、平稳的驾驶任务;与原始DDPG(deep deterministic policy gradient)算法相比,该模型在学习速度上提升了约3.4倍,说明所提出的模型在保证自动驾驶系统可靠决策的同时有效提升了强化学习的效率,进一步实验证明其适用于不同的驾驶条件. 展开更多
关键词 自动驾驶决策 深度强化学习 模仿学习 深度确定性策略梯度算法
下载PDF
机械臂抓取行为规划研究综述 被引量:6
20
作者 韩丽丽 王奇志 杨永刚 《计算机与现代化》 2018年第9期11-16,共6页
随着机器人工作环境越来越复杂,通过对其示范性的教学,可以使机器人更快地适应所处的环境,更好地完成人类所给的任务。在机器人行为中,机械臂在机器人工作中是不可缺少的。近年来,对机械臂抓取行为的建模控制成为科研工作的一个热点。... 随着机器人工作环境越来越复杂,通过对其示范性的教学,可以使机器人更快地适应所处的环境,更好地完成人类所给的任务。在机器人行为中,机械臂在机器人工作中是不可缺少的。近年来,对机械臂抓取行为的建模控制成为科研工作的一个热点。最前沿的方法多从行为获取和行为表征2个方面着手,在行为获取方面大致有2种方法,一种是真人示教法,另一种是虚拟平台示教法;行为表征方面多采用深度学习的方法。本文从数据获取的角度对近几年机械臂建模和控制的研究发展进行综述。 展开更多
关键词 机械臂 建模 控制 模仿 深度学习 真人示教
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部