期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
Self-Play and Using an Expert to Learn to Play Backgammon with Temporal Difference Learning
1
作者 Marco A. Wiering 《Journal of Intelligent Learning Systems and Applications》 2010年第2期57-68,共12页
A promising approach to learn to play board games is to use reinforcement learning algorithms that can learn a game position evaluation function. In this paper we examine and compare three different methods for genera... A promising approach to learn to play board games is to use reinforcement learning algorithms that can learn a game position evaluation function. In this paper we examine and compare three different methods for generating training games: 1) Learning by self-play, 2) Learning by playing against an expert program, and 3) Learning from viewing ex-perts play against each other. Although the third possibility generates high-quality games from the start compared to initial random games generated by self-play, the drawback is that the learning program is never allowed to test moves which it prefers. Since our expert program uses a similar evaluation function as the learning program, we also examine whether it is helpful to learn directly from the board evaluations given by the expert. We compared these methods using temporal difference methods with neural networks to learn the game of backgammon. 展开更多
关键词 Board GAMES reinforcement learning TD(λ) Self-Play learning from demonstration
下载PDF
An Experience Based Learning Controller
2
作者 Debadutt Goswami Ping Jiang 《Journal of Intelligent Learning Systems and Applications》 2010年第2期80-85,共6页
The autonomous mobile robots must be flexible to learn the new complex control behaviours in order to adapt effectively to a dynamic and varying environment. The proposed approach of this paper is to create a controll... The autonomous mobile robots must be flexible to learn the new complex control behaviours in order to adapt effectively to a dynamic and varying environment. The proposed approach of this paper is to create a controller that learns the complex behaviours incorporating the learning from demonstration to reduce the search space and to improve the demonstrated task geometry by trial and corrections. The task faced by the robot has uncertainty that must be learned. Simulation results indicate that after the handful of trials, robot has learned the right policies and avoided the obstacles and reached the goal. 展开更多
关键词 Mobile ROBOTS learning from demonstration Neural Network Control reinforcement learning
下载PDF
Skill Learning for Robotic Insertion Based on One-shot Demonstration and Reinforcement Learning 被引量:4
3
作者 Ying Li De Xu 《International Journal of Automation and computing》 EI CSCD 2021年第3期457-467,共11页
In this paper,an efficient skill learning framework is proposed for robotic insertion,based on one-shot demonstration and reinforcement learning.First,the robot action is composed of two parts:expert action and refine... In this paper,an efficient skill learning framework is proposed for robotic insertion,based on one-shot demonstration and reinforcement learning.First,the robot action is composed of two parts:expert action and refinement action.A force Jacobian matrix is calibrated with only one demonstration,based on which stable and safe expert action can be generated.The deep deterministic policy gradients(DDPG)method is employed to learn the refinement action,which aims to improve the assembly efficiency.Second,an episode-step exploration strategy is developed,which uses the expert action as a benchmark and adjusts the exploration intensity dynamically.A safety-efficiency reward function is designed for the compliant insertion.Third,to improve the adaptability with different components,a skill saving and selection mechanism is proposed.Several typical components are used to train the skill models.And the trained models and force Jacobian matrices are saved in a skill pool.Given a new component,the most appropriate model is selected from the skill pool according to the force Jacobian matrix and directly used to accomplish insertion tasks.Fourth,a simulation environment is established under the guidance of the force Jacobian matrix,which avoids tedious training process on real robotic systems.Simulation and experiments are conducted to validate the effectiveness of the proposed methods. 展开更多
关键词 Force Jacobian matrix one-shot demonstration dynamic exploration strategy insertion skill learning reinforcement learning
原文传递
Robot learning from demonstration for path planning: A review 被引量:7
4
作者 XIE ZongWu ZHANG Qi +1 位作者 JIANG ZaiNan LIU Hong 《Science China(Technological Sciences)》 SCIE EI CAS CSCD 2020年第8期1325-1334,共10页
Learning from demonstration(LfD)is an appealing method of helping robots learn new skills.Numerous papers have presented methods of LfD with good performance in robotics.However,complicated robot tasks that need to ca... Learning from demonstration(LfD)is an appealing method of helping robots learn new skills.Numerous papers have presented methods of LfD with good performance in robotics.However,complicated robot tasks that need to carefully regulate path planning strategies remain unanswered.Contact or non-contact constraints in specific robot tasks make the path planning problem more difficult,as the interaction between the robot and the environment is time-varying.In this paper,we focus on the path planning of complex robot tasks in the domain of LfD and give a novel perspective for classifying imitation learning and inverse reinforcement learning.This classification is based on constraints and obstacle avoidance.Finally,we summarize these methods and present promising directions for robot application and LfD theory. 展开更多
关键词 learning from demonstration path planning imitation learning inverse reinforcement learning obstacle avoidance
原文传递
LIDAR:learning from imperfect demonstrations with advantage rectification
5
作者 Xiaoqin ZHANG Huimin MA +1 位作者 Xiong LUO Jian YUAN 《Frontiers of Computer Science》 SCIE EI CSCD 2022年第1期57-66,共10页
In actor-critic reinforcement learning(RL)algorithms,function estimation errors are known to cause ineffective random exploration at the beginning of training,and lead to overestimated value estimates and suboptimal p... In actor-critic reinforcement learning(RL)algorithms,function estimation errors are known to cause ineffective random exploration at the beginning of training,and lead to overestimated value estimates and suboptimal policies.In this paper,we address the problem by executing advantage rectification with imperfect demonstrations,thus reducing the function estimation errors.Pretraining with expert demonstrations has been widely adopted to accelerate the learning process of deep reinforcement learning when simulations are expensive to obtain.However,existing methods,such as behavior cloning,often assume the demonstrations contain other information or labels with regard to performances,such as optimal assumption,which is usually incorrect and useless in the real world.In this paper,we explicitly handle imperfect demonstrations within the actor-critic RL frameworks,and propose a new method called learning from imperfect demonstrations with advantage rectification(LIDAR).LIDAR utilizes a rectified loss function to merely learn from selective demonstrations,which is derived from a minimal assumption that the demonstrating policies have better performances than our current policy.LIDAR learns from contradictions caused by estimation errors,and in turn reduces estimation errors.We apply LIDAR to three popular actor-critic algorithms,DDPG,TD3 and SAC,and experiments show that our method can observably reduce the function estimation errors,effectively leverage demonstrations far from the optimal,and outperform state-of-the-art baselines consistently in all the scenarios. 展开更多
关键词 learning from demonstrations actor-critic reinforcement learning advantage rectification
原文传递
A New Reward System Based on Human Demonstrations for Hard Exploration Games
6
作者 Wadhah Zeyad Tareq Mehmet Fatih Amasyali 《Computers, Materials & Continua》 SCIE EI 2022年第2期2401-2414,共14页
The main idea of reinforcement learning is evaluating the chosen action depending on the current reward.According to this concept,many algorithms achieved proper performance on classic Atari 2600 games.The main challe... The main idea of reinforcement learning is evaluating the chosen action depending on the current reward.According to this concept,many algorithms achieved proper performance on classic Atari 2600 games.The main challenge is when the reward is sparse or missing.Such environments are complex exploration environments likeMontezuma’s Revenge,Pitfall,and Private Eye games.Approaches built to deal with such challenges were very demanding.This work introduced a different reward system that enables the simple classical algorithm to learn fast and achieve high performance in hard exploration environments.Moreover,we added some simple enhancements to several hyperparameters,such as the number of actions and the sampling ratio that helped improve performance.We include the extra reward within the human demonstrations.After that,we used Prioritized Double Deep Q-Networks(Prioritized DDQN)to learning from these demonstrations.Our approach enabled the Prioritized DDQNwith a short learning time to finish the first level of Montezuma’s Revenge game and to perform well in both Pitfall and Private Eye.We used the same games to compare our results with several baselines,such as the Rainbow and Deep Q-learning from demonstrations(DQfD)algorithm.The results showed that the new rewards system enabled Prioritized DDQN to out-perform the baselines in the hard exploration games with short learning time. 展开更多
关键词 Deep reinforcement learning human demonstrations prioritized double deep q-networks atari
下载PDF
电力系统调度决策:一种示教学习辅助加速的安全强化学习方法
7
作者 仪忠凯 梁寿愚 +3 位作者 王伟 蒋蔚 杨程 辛焱 《中国电机工程学报》 EI CSCD 北大核心 2024年第13期5084-5096,I0006,共14页
随着可再生能源占比攀升和电网运行环境愈加复杂,亟需构建知识-数据融合的新型电力系统调度模式。鉴于此,首先采用模仿学习的方法对专家知识库中的案例进行拟合,构建示教学习模型,为电力系统调度运行提供示教调度引导指令。在此基础上,... 随着可再生能源占比攀升和电网运行环境愈加复杂,亟需构建知识-数据融合的新型电力系统调度模式。鉴于此,首先采用模仿学习的方法对专家知识库中的案例进行拟合,构建示教学习模型,为电力系统调度运行提供示教调度引导指令。在此基础上,提出一种基于示教学习辅助加速的安全强化学习方法,能用于支撑电力系统实时快速决策。通过引入示教学习辅助加速机制,所提方法的收敛速度显著加快,调度策略迅速趋优,降低系统运行成本,缓解潮流越限风险。案例分析验证所提方法在提升强化学习收敛效率和促进电力系统安全经济运行方面的优势。 展开更多
关键词 电力系统 经济调度 安全强化学习 示教学习
下载PDF
基于深度强化学习的智能电网在线学习及自主优化控制演示系统
8
作者 韩吉安 马海鑫 +2 位作者 余杰文 侯剑 蔡新雷 《微型电脑应用》 2024年第11期66-68,74,共4页
为了推广智能电网在人工智能背景下的建设经验和成果,提出一种基于深度强化学习的智能电网在线学习及自主优化控制演示系统。在高度动态复杂环境中,构建一个结合经验和实践的电网运行状态经验库;通过持续地与高度动态且复杂的环境进行... 为了推广智能电网在人工智能背景下的建设经验和成果,提出一种基于深度强化学习的智能电网在线学习及自主优化控制演示系统。在高度动态复杂环境中,构建一个结合经验和实践的电网运行状态经验库;通过持续地与高度动态且复杂的环境进行耦合与互动,实现在时间正序下对电网运行状况的在线学习;实现高度动态复杂环境下电网运行最优协同控制。针对演示系统开展应用实践验证分析,结果表明,较长周期内电网运行态势预测准确率达93.57%,动态环境下电网运行最优协同控制有效率达92.81%,具备电网运行态势在线学习功能,可实现高度动态复杂应用场景下的电网运行方案最优控制。 展开更多
关键词 深度强化学习 智能电网 态势在线学习 自主优化控制 可视演示系统
下载PDF
基于多智能体强化学习的乳腺癌致病基因预测 被引量:6
9
作者 刘健 顾扬 +1 位作者 程玉虎 王雪松 《自动化学报》 EI CAS CSCD 北大核心 2022年第5期1246-1258,共13页
通过分析基因突变过程,提出利用强化学习对癌症患者由正常状态至患病状态的过程进行推断,发现导致患者死亡的关键基因突变.首先,将基因视为智能体,基于乳腺癌突变数据设计多智能体强化学习环境;其次,为保证智能体探索到与专家策略相同... 通过分析基因突变过程,提出利用强化学习对癌症患者由正常状态至患病状态的过程进行推断,发现导致患者死亡的关键基因突变.首先,将基因视为智能体,基于乳腺癌突变数据设计多智能体强化学习环境;其次,为保证智能体探索到与专家策略相同的策略和满足更多智能体快速学习,根据演示学习理论,分别提出两种多智能体深度Q网络:基于行为克隆的多智能体深度Q网络和基于预训练记忆的多智能体深度Q网络;最后,根据训练得到的多智能体深度Q网络进行基因排序,实现致病基因预测.实验结果表明,提出的多智能体强化学习方法能够挖掘出与乳腺癌发生、发展过程密切相关的致病基因. 展开更多
关键词 乳腺癌 致病基因 基因排序 多智能体强化学习 演示学习
下载PDF
基于深度强化学习的虚拟手自适应抓取研究 被引量:3
10
作者 伍一鹤 张振宁 +2 位作者 仇栋 李蔚清 苏智勇 《图学学报》 CSCD 北大核心 2021年第3期462-469,共8页
在计算机角色动画的抓取研究中,生成动作序列的自然性、稳定性及自适应能力三者难以同时得到保证,即自然又稳定的抓取控制器往往泛化能力有限,无法适用于其他类型、尺寸物体的抓取任务。通过引入和抓取类型相对应的手部示教数据、设计... 在计算机角色动画的抓取研究中,生成动作序列的自然性、稳定性及自适应能力三者难以同时得到保证,即自然又稳定的抓取控制器往往泛化能力有限,无法适用于其他类型、尺寸物体的抓取任务。通过引入和抓取类型相对应的手部示教数据、设计回报函数,构建了一种基于深度强化学习的虚拟手自适应抓取控制器。实验结果表明,该控制器能够生成兼具自然性和稳定性的抓取运动序列,同时对素材库中不同尺寸、不同类型的基元物体也具备较好的自适应能力。 展开更多
关键词 深度强化学习 示教学习 运动生成 虚拟手 动作捕捉数据
下载PDF
基于示教融合的深度强化学习机器人化齿轮装配算法 被引量:1
11
作者 刘行 黄庭安 +1 位作者 董云龙 沈檀 《控制工程》 CSCD 北大核心 2023年第7期1308-1316,共9页
工业生产中装配工艺直接关系到产品的产能和质量。当前机器人化装配算法需要根据具体的装配任务进行示教,难以适应工业场景下迭代迅速、工艺多变等特点。针对上述难题,提出一种基于强化学习的机器人装配算法。首先,使用机器人末端执行器... 工业生产中装配工艺直接关系到产品的产能和质量。当前机器人化装配算法需要根据具体的装配任务进行示教,难以适应工业场景下迭代迅速、工艺多变等特点。针对上述难题,提出一种基于强化学习的机器人装配算法。首先,使用机器人末端执行器力-力矩传感器和视觉传感器的多模态数据,提升模型的感知能力。然后,针对机器人试错成本高的问题,提出了一种融合人工示例先验的强化学习训练算法,通过专家经验池对策略模型和价值模型的参数进行初始化以减少低效探索。最后,在机器人齿轮装配任务中对所提算法进行验证。实验结果表明,加入多模态感知数据的模型具有更强的鲁棒性,人工示例先验的融合能够显著提升算法的训练效率。 展开更多
关键词 智能装配 强化学习 示例先验 机器人
下载PDF
一种基于示例轨迹的抽象动作树构造方法 被引量:1
12
作者 王蕾 《计算机与现代化》 2016年第6期85-90,共6页
自动构造抽象动作一直是分层强化学习研究中的关键技术之一。抽象动作链接算法是目前连续任务中自主发现抽象动作的典型算法,但是抽象动作链接算法需要进行很多次的迭代计算,收敛速度较慢。本文提出一种基于示例轨迹的抽象动作树构造算... 自动构造抽象动作一直是分层强化学习研究中的关键技术之一。抽象动作链接算法是目前连续任务中自主发现抽象动作的典型算法,但是抽象动作链接算法需要进行很多次的迭代计算,收敛速度较慢。本文提出一种基于示例轨迹的抽象动作树构造算法(ACADT),通过使用一种变点侦测方法,ACADT把每一个轨迹分割成一个抽象动作链。这些从轨迹中分割得到的抽象动作链随后被合并成一棵抽象动作树。实验表明ACADT可以构造成一棵抽象动作树并能够更快收敛。 展开更多
关键词 分层强化学习 示例轨迹 抽象动作 自动构造 机器学习
下载PDF
基于人类先验知识的强化学习综述 被引量:2
13
作者 国子婧 冯旸赫 +1 位作者 姚晨蝶 许乃夫 《计算机应用》 CSCD 北大核心 2021年第S02期1-4,共4页
强化学习通过智能体与环境互动以实现预期目标最大化,通常被用于解决关于连续决策的任务规划问题。当前任务规划主要使用规则或者运筹方法进行求解。这类方法的时间复杂度和空间复杂度随问题规模增长呈指数级增长,难以求解大规模问题;... 强化学习通过智能体与环境互动以实现预期目标最大化,通常被用于解决关于连续决策的任务规划问题。当前任务规划主要使用规则或者运筹方法进行求解。这类方法的时间复杂度和空间复杂度随问题规模增长呈指数级增长,难以求解大规模问题;并且对于动态任务规划问题也束手无策,只能求解静态的确定性问题。强化学习中的值函数近似等近似算法解决了这类方法的"维度灾难"问题,同时强化学习在智能体与环境的交互过程中加入随机因素,使其广泛应用于解决动态与随机性问题。然而强化学习需要智能体不断与环境交互来得到最优策略,当状态空间较大时,需要更多的采样和探索对策略进行梯度更新,收敛速度较慢,难以在实际中应用。人类在学习时利用先验知识保证了学习的快速开始,并减少了问题的探索时间,因此研究人类先验知识和强化学习的意义重大,可有效减少智能体对环境的采样和探索,帮助智能体更快地找到最优策略。基于人类先验知识与智能体交互的时间节点进行分类,对整合人类先验知识到强化学习的方法进行综述,最后对其发展方向进行展望。 展开更多
关键词 强化学习 人类先验知识 人类反馈 人类建议 人类示范
下载PDF
示教知识辅助的无人机强化学习控制算法 被引量:1
14
作者 孙丹 高东 +1 位作者 郑建华 韩鹏 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第6期1424-1433,共10页
针对强化学习(RL)应用于无人机自主控制中学习效率低的问题,结合示教学习利用专家经验对其进行改进,提出基于示教知识辅助的无人机RL控制算法。通过设立示教目标函数、修正值函数,将专家经验作为监督信号引入到策略更新中,实现专家经验... 针对强化学习(RL)应用于无人机自主控制中学习效率低的问题,结合示教学习利用专家经验对其进行改进,提出基于示教知识辅助的无人机RL控制算法。通过设立示教目标函数、修正值函数,将专家经验作为监督信号引入到策略更新中,实现专家经验对基于RL的无人机自主控制系统优化过程的引导,同时,设置专家经验样本缓存库,利用经验优先回放机制赋予经验样本不同的利用率,提高数据的使用效率。仿真结果表明:与普通的无人机RL控制器相比,所提算法能够在训练初期快速获得奖励值,整个学习过程中获得的奖励值更高,学习到的控制策略的响应速度更快、准确性更高。示教知识的加入有效引导了算法的学习,提高了无人机自主控制系统的学习效率,同时,能够提高算法的性能,有利于学习到更好的控制策略。此外,示教知识的加入扩大了经验数据的种类,有利于促进算法的稳定性,使无人机自主控制系统对奖励函数的设置具有鲁棒性。 展开更多
关键词 强化学习 专家示教 无人机 自主控制 学习系统
下载PDF
一种结合演示数据和演化优化的强化学习方法
15
作者 宋拴 俞扬 《计算机工程与应用》 CSCD 2014年第11期115-119,129,共6页
强化学习研究智能体如何从与环境的交互中学习最优的策略,以最大化长期奖赏。由于环境反馈的滞后性,强化学习问题面临巨大的决策空间,进行有效的搜索是获得成功学习的关键。以往的研究从多个角度对策略的搜索进行了探索,在搜索算法方面... 强化学习研究智能体如何从与环境的交互中学习最优的策略,以最大化长期奖赏。由于环境反馈的滞后性,强化学习问题面临巨大的决策空间,进行有效的搜索是获得成功学习的关键。以往的研究从多个角度对策略的搜索进行了探索,在搜索算法方面,研究结果表明基于演化优化的直接策略搜索方法能够获得优于传统方法的性能;在引入外部信息方面,通过加入用户提供的演示,可以有效帮助强化学习提高性能。然而,这两种有效方法的结合却鲜有研究。对用户演示与演化优化的结合进行研究,提出iNEAT+Q算法,尝试将演示数据通过预训练神经网络和引导演化优化的适应值函数的方式与演化强化学习方法结合。初步实验表明,iNEAT+Q较不使用演示数据的演化强化学习方法NEAT+Q有明显的性能改善。 展开更多
关键词 强化学习 演化算法 从演示中学习 神经网络
下载PDF
基于符号知识的选项发现方法
16
作者 王麒迪 沈立炜 吴天一 《计算机科学》 2025年第1期277-288,共12页
基于选项(Option)的层次化策略学习是分层强化学习领域的一种主要实现方式。其中,选项表示特定动作的时序抽象,一组选项以多层次组合的方式可解决复杂的强化学习任务。针对选项发现这一目标,已有的研究工作使用监督或无监督方式从非结... 基于选项(Option)的层次化策略学习是分层强化学习领域的一种主要实现方式。其中,选项表示特定动作的时序抽象,一组选项以多层次组合的方式可解决复杂的强化学习任务。针对选项发现这一目标,已有的研究工作使用监督或无监督方式从非结构化演示轨迹中自动发现有意义的选项。然而,基于监督的选项发现过程需要人为分解任务问题并定义选项策略,带来了大量的额外负担;无监督方式发现的选项则难以包含丰富语义,限制了后续选项的重用。为此,提出一种基于符号知识的选项发现方法,只需对环境符号建模,所得知识可指导环境中多种任务的选项发现,并为发现的选项赋予符号语义,从而在新任务执行时被重复使用。将选项发现过程分解为轨迹切割和行为克隆两阶段步骤:轨迹切割旨在从演示轨迹提取具备语义的轨迹片段,为此训练一个面向演示轨迹的切割模型,引入符号知识定义强化学习奖励评价切割的准确性;行为克隆根据切割得到的数据监督训练选项,旨在使选项模仿轨迹行为。使用所提方法在多个包括离散和连续空间的领域环境中分别进行了选项发现和选项重用实验。选项发现中轨迹切割部分的实验结果显示,所提方法在离散和连续空间环境中的切割准确率均高出基线方法数个百分点,并在复杂环境任务的切割中提高到20%。另外,选项重用实验的结果证明,相较于基线方法,赋予符号语义增强的选项在新任务重用上拥有更快的训练速度,并在基线方法无法完成的复杂任务中仍然得到良好收敛。 展开更多
关键词 分层强化学习 演示学习 选项发现 马尔可夫决策过程
下载PDF
融合KCCA推断强化学习的机器人智能轨迹规划 被引量:3
17
作者 傅剑 滕翔 +1 位作者 曹策 娄平 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第11期96-102,共7页
针对当前模仿强化学习(LfDRL)框架面向新任务时并未考虑机器人各关节之间的联系,从而影响学习效果的不足,利用伪协方差矩阵的思想,基于再生核空间(RKHS)和广义瑞丽熵构建面向泛函指标的关节间摄动相关局部坐标系,进而设计出一种集成核... 针对当前模仿强化学习(LfDRL)框架面向新任务时并未考虑机器人各关节之间的联系,从而影响学习效果的不足,利用伪协方差矩阵的思想,基于再生核空间(RKHS)和广义瑞丽熵构建面向泛函指标的关节间摄动相关局部坐标系,进而设计出一种集成核典型相关分析(KCCA)与路径积分策略提升(PI^2)的强化学习方法.利用学习经验数据基于KCCA推断出机器人各关节间面向轨迹规划任务的隐含非线性启发式信息,引导PI^2搜索到最优/次优策略,使得机器人实现从示范轨迹规划任务到新轨迹规划任务的快速迁移学习,并高质量完成.选择顺应性装配机械手臂(SCARA)和优傲5(UR5)机器人的过单点、过两点迁移学习智能轨迹规划实验,结果表明:融合KCCA推断启发式信息的强化学习的平均代价下降率明显优于经典的PI^2算法,其机器人智能轨迹规划在提升学习收敛速度的同时也提高了机器人完成新任务的精度. 展开更多
关键词 轨迹规划 模仿强化学习(lfdrl) 核典型相关分析(KCCA) 路径积分策略提升(PI^2) 伪协方差矩阵
原文传递
基于多源信息融合的协作机器人演示编程及优化方法 被引量:17
18
作者 王斐 齐欢 +1 位作者 周星群 王建辉 《机器人》 EI CSCD 北大核心 2018年第4期551-559,共9页
为解决现有机器人装配学习过程复杂且对编程技术要求高等问题,提出一种基于前臂表面肌电信号和惯性多源信息融合的隐式交互方式来实现机器人演示编程.在通过演示学习获得演示人的装配经验的基础上,为提高对装配对象和环境变化的自适应能... 为解决现有机器人装配学习过程复杂且对编程技术要求高等问题,提出一种基于前臂表面肌电信号和惯性多源信息融合的隐式交互方式来实现机器人演示编程.在通过演示学习获得演示人的装配经验的基础上,为提高对装配对象和环境变化的自适应能力,提出了一种多工深度确定性策略梯度算法(M-DDPG)来修正装配参数,在演示编程的基础上,进行强化学习确保机器人稳定执行任务.在演示编程实验中,提出一种改进的PCNN(并行卷积神经网络),称作1维PCNN(1D-PCNN),即通过1维的卷积与池化过程自动提取惯性信息与肌电信息特征,增强了手势识别的泛化性和准确率;在演示再现实验中,采用高斯混合模型(GMM)对演示数据进行统计编码,利用高斯混合回归(GMR)方法实现机器人轨迹动作再现,消除噪声点.最后,基于Primesense Carmine摄像机采用帧差法与多特征图核相关滤波算法(MKCF)的融合跟踪算法分别获取X轴与Y轴方向的环境变化,采用2个相同的网络结构并行进行连续过程的深度强化学习,在轴孔相对位置变化的情况下,机械臂能根据强化学习得到的泛化策略模型自动对机械臂末端位置进行调整,实现轴孔装配的演示学习. 展开更多
关键词 演示编程 多源信息融合 隐式人机交互 深度学习 强化学习
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部