-
题名基于模型的强化学习中可学习的样本加权机制
- 1
-
-
作者
黄文振
尹奇跃
张俊格
黄凯奇
-
机构
中国科学院大学人工智能学院
中国科学院自动化研究所智能系统与工程研究中心
中国科学院脑科学与智能技术卓越创新中心
-
出处
《软件学报》
EI
CSCD
北大核心
2023年第6期2765-2775,共11页
-
基金
国家自然科学基金(61876181,61673375)
北京市科技创新计划(Z19110000119043)
+1 种基金
中国科学院青年创新促进会项目
中国科学院项目(QYZDB-SSW-JSC006)。
-
文摘
基于模型的强化学习方法利用已收集的样本对环境进行建模并使用构建的环境模型生成虚拟样本以辅助训练,因而有望提高样本效率.但由于训练样本不足等问题,构建的环境模型往往是不精确的,其生成的样本也会因携带的预测误差而对训练过程产生干扰.针对这一问题,提出了一种可学习的样本加权机制,通过对生成样本重加权以减少它们对训练过程的负面影响.该影响的量化方法为,先使用待评估样本更新价值和策略网络,再在真实样本上计算更新前后的损失值,使用损失值的变化量来衡量待评估样本对训练过程的影响.实验结果表明,按照该加权机制设计的强化学习算法在多个任务上均优于现有的基于模型和无模型的算法.
-
关键词
基于模型的强化学习
模型误差
元学习
强化学习
深度学习
-
Keywords
model-based reinforcement learning
model-bias
meta-learning
reinforcement learning
deep learning
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于模型的机器人强化学习研究综述
被引量:5
- 2
-
-
作者
孙世光
兰旭光
张翰博
郑南宁
-
机构
西安交通大学人工智能与机器人研究所
-
出处
《模式识别与人工智能》
CSCD
北大核心
2022年第1期1-16,共16页
-
基金
国家重点研发计划项目(No.2021ZD0112700)
国家自然科学基金面上项目(No.62125305,62088102,61973246)
教育部规划项目资助。
-
文摘
基于模型的强化学习通过学习一个环境模型和基于此模型的策略优化或规划,实现机器人更接近于人类的学习和交互方式.文中简述机器人学习问题的定义,介绍机器人学习中基于模型的强化学习方法,包括主流的模型学习及模型利用的方法.主流的模型学习方法具体介绍前向动力学模型、逆向动力学模型和隐式模型.模型利用的方法具体介绍基于模型的规划、基于模型的策略学习和隐式规划,并对其中存在的问题进行探讨.最后,结合现实中机器人学习任务面临的问题,介绍基于模型的强化学习在其中的应用,并展望未来的研究方向.
-
关键词
人工智能
机器人学习
强化学习
基于模型的强化学习
-
Keywords
Artificial Intelligence
Robot Learning
Reinforcement Learning
Model-Based Reinforcement Learning
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于平均场内生奖励的多智能体强化学习算法
- 3
-
-
作者
孙文绮
李大鹏
田峰
丁良辉
-
机构
南京邮电大学通信与信息工程学院
上海交通大学电子工程系
-
出处
《无线电通信技术》
2023年第3期556-565,共10页
-
基金
国家重点研发计划(2021ZD0140405)。
-
文摘
针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题,提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3IR-UCRL)算法。该算法在奖励函数中增加了内生奖励模块,用生成的内生奖励与定义任务的外部奖励一起帮助代表智能体在用平均场控制(Mean-Field Control, MFC)化简的多智能体系统中学习策略。智能体学习时首先按照期望累积内外奖励加权和的梯度方向更新策略参数,然后按照期望累积外部奖励的梯度方向更新内生奖励参数。仿真结果表明,相比于只用简单外部奖励引导智能体学习的(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3-UCRL)算法,所提算法可以有效提高智能体在复杂的多智能体场景中的任务完成率,降低与周围环境的碰撞率,从而使算法的整体性能得到提升。
-
关键词
多智能体系统
平均场控制
基于模型的强化学习
内生奖励
-
Keywords
multiagent system
MFC
model-based reinforcement learning
intrinsic reward
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名强化学习及其在机器人任务规划中的进展与分析
- 4
-
-
作者
张晓明
高士杰
姚昌瑀
褚誉
彭硕
-
机构
安徽大学物质科学与信息技术研究院
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2023年第10期902-917,共16页
-
基金
安徽省自然科学基金项目(No.2208085MF174)
教育部中国高校产学研创新基金项目(No.2021ZYA06004)资助。
-
文摘
强化学习可以让机器人通过与环境的交互,学习最优的行动策略,是目前机器人领域关注的重要前沿方向之一.文中简述机器人任务规划问题的形式化建模,分析强化学习的主要方法,分别介绍无模型强化学习、基于模型的强化学习和分层强化学习的研究进展,着重探讨基于强化学习的机器人任务规划的研究进展,并讨论各种强化学习及其应用情况.最后总结强化学习在机器人应用中面临的问题与挑战,展望未来的研究方向.
-
关键词
机器人
任务规划
强化学习
无模型强化学习
基于模型的强化学习
分层强化学习
-
Keywords
Robotics
Task Planning
Reinforcement Learning
Model-Free Reinforcement Learning
Model-Based Reinforcement Learning
Hierarchical Reinforcement Learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于高斯回归的连续空间多智能体跟踪学习
被引量:2
- 5
-
-
作者
陈鑫
魏海军
吴敏
曹卫华
-
机构
中南大学信息科学与工程学院
先进控制与智能自动化湖南省工程实验室
-
出处
《自动化学报》
EI
CSCD
北大核心
2013年第12期2021-2031,共11页
-
基金
国家自然科学基金(61074058)资助~~
-
文摘
提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟踪式学习机制和算法(MAS MBRL-CPT).以学习智能体适应同伴策略为出发点,通过定义个体期望即时回报,将智能体对同伴策略的观测融入环境交互效果中,并运用随机逼近实现个体期望即时回报的在线学习.定义降维的Q函数,在降低学习空间维度的同时,建立MAS环境下智能体跟踪式学习的Markov决策过程(Markov decision process,MDP).在运用高斯回归建立状态转移概率模型的基础上,实现泛化样本集Q值函数的在线动态规划求解.基于离散样本集Q函数运用高斯回归建立值函数和策略的泛化模型.MAS MBRL-CPT在连续空间Multi-cart-pole控制系统的仿真实验表明,算法能够使学习智能体在系统动力学模型和同伴策略未知的条件下,实现适应性协作策略的学习,具有学习效率高、泛化能力强等特点.
-
关键词
连续状态空间
多智能体系统
基于模型的强化学习
高斯回归
-
Keywords
Continuous state space, multi-agent systems (MAS), model-based reinforcement learning (MBRL), Gaussianregression (GR)
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-