贝叶斯学习与强化学习结合技术的研究被引量：2

Research on the Combihation of Bayesian Learning and Reinforcement Learning

下载PDF

导出

摘要强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝叶斯在强化学习中进一步需要解决的问题。 A central problem in reinforcement learning is balancing exploration of untested actions against exploitation of actions that are known to be good. Bayesian learning is a probability method that makes optimal decision based on known probability distribution and recently observed data. So combination of Bayesian learning and reinforcement learning the agent can choose the strategy of exploration or exploitation based on its own experience and newly incoming knowledge. In this paper, we introduce single-agent Bayesian reinforcement learning and multi-agent Bayesian reinforcement learning. Single-agent Bayesian reinforcement learning includes Bayesian Q-learning, model-based Bayesian learning and Bayesian DP, and multi-agent Bayesian reinforcement learning includes Bayesian imitation, Bayesian coordination and Bayesian reinforcement learning for coalition formation under uncertainty. At last, some unsolved problems in Bayesian reinforcement learning are discussed.

作者陈飞王本年高阳陈兆乾陈世福

机构地区南京大学计算机软件新技术国家重点实验室

出处《计算机科学》 CSCD 北大核心 2006年第2期173-177,共5页 Computer Science

基金本课题得到国家自然科学基金(60475026) 国家"973"重点基础研究发展计划基金项目(2002CB312002) 江苏省自然科学基金(BK2004079)的资助。

关键词贝叶斯学习强化学习单Agent 多AGENT Bayesian learning, Reinforcement learning, Single-agent, Multi agent

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：269

二级参考文献4

1蒋国飞,吴沧浦.Q学习算法在库存控制中的应用[J].自动化学报,1999,25(2):236-241. 被引量：20
2高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30
3李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26
4杨煜普,欧海涛.基于再励学习与遗传算法的交通信号自组织控制[J].自动化学报,2002,28(4):564-568. 被引量：12

共引文献268

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
9魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
10沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7

同被引文献11

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2张会娥.RSS的应用研究[J].图书馆杂志,2005,24(2):53-58. 被引量：30
3夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
4郑顾平,曹锦纲.基于贝叶斯方法的多Agent强化学习[J].河北理工学院学报,2005,27(4):65-68. 被引量：2
5周亚同,张太镒,卢照敢.基于贝叶斯推理的决策树模型[J].西安交通大学学报,2006,40(8):888-891. 被引量：3
6邓维斌,王国胤,王燕.基于Rough Set的加权朴素贝叶斯分类算法[J].计算机科学,2007,34(2):204-206. 被引量：43
7秦锋,任诗流,程泽凯,罗慧.基于ICA方法的朴素贝叶斯分类器[J].计算机工程与设计,2007,28(20):4873-4874. 被引量：7
8王双成,忻瑞婵.广义朴素贝叶斯分类器[J].计算机应用与软件,2007,24(11):12-13. 被引量：2
9宋勇,李贻斌,李彩虹.移动机器人路径规划强化学习的初始化[J].控制理论与应用,2012,29(12):1623-1628. 被引量：27
10姚毅,陈光建,贾金玲.基于模糊神经网络算法的机器人路径规划研究[J].四川理工学院学报（自然科学版）,2014,27(6):30-33. 被引量：10

引证文献2

1谢枫平.一个基于朴素贝叶斯方法的RSS分类器[J].闽西职业技术学院学报,2008,10(4):113-117.
2宋莉,李彩虹,王小宇,张宁.移动机器人局部避障路径规划仿真研究[J].计算机仿真,2018,35(7):279-284. 被引量：12

二级引证文献12

1商迎美,张晓玲.家用扫地机器人全区域路径规划与避障方法研究[J].长春工程学院学报（自然科学版）,2019,0(3):100-103. 被引量：1
2侯远韶.移动机器人避障运动关键技术分析[J].科技资讯,2019,17(24):4-5. 被引量：3
3庄园,滕昊,徐天奇,李琰.基于降级模糊算法的爬壁机器人避障控制[J].科学技术与工程,2020,20(19):7729-7736. 被引量：9
4谢龙光,王磊,杨芳,纪明汝.基于模糊算法的带电作业机器人路径跟踪方法研究[J].电子设计工程,2020,28(17):33-36. 被引量：11
5孙培豪.陆军弹药转运路径多目标动态规划方法仿真[J].计算机仿真,2020,37(11):1-4.
6陈银燕,高安邦.机器人导航路径的多种群博弈蚁群规划策略[J].机械设计与制造,2021(1):272-276. 被引量：9
7张瑾琪,闫茂德,杨盼盼,张博宇.基于选择性交互的群集机器人协同避险方法[J].计算机仿真,2021,38(2):335-338. 被引量：1
8黄劲松,黄馨莹.基于软件定义网络的智能辅助推车避障系统设计[J].现代电子技术,2021,44(11):168-171. 被引量：1
9常新新,胡为,姬书得,岳玉梅.基于改进动态窗口法的移动机器人避障研究[J].组合机床与自动化加工技术,2021(7):33-36. 被引量：33
10许伦辉,曾豫豪.基于改进ACO和三次B样条曲线的路径规划[J].计算机仿真,2022,39(7):407-411. 被引量：8

1小新之母.小新学电脑[J].电脑爱好者,2003(16):64-64.
2侯宇青阳,全吉成,王宏伟.深度学习发展综述[J].舰船电子工程,2017,37(4):5-9. 被引量：39
3田野.把你所“想”变成所“享”[J].中国计算机用户,2005(21):47-47.
4科技界声音[J].科技导报,2013,31(24):10-10.
5万开慧.课改:与学生共享语文之美[J].吉林教育,2008(8):44-44.
6李利国,郝志杰.大学生C语言程序设计学习之引导篇[J].成才之路,2007,0(17):49-50.
7xiaobo.本地电脑解除限制总动员[J].个人电脑,2005,11(3):210-212.
8网络时代[J].大众软件,2010(16):30-30.
9徐菁睛.指上乾坤 DIY车载GPS[J].多媒体世界,2006(9):114-115.
10刀刀棋.菜鸟学堂明明白白硬件信息[J].计算机应用文摘,2005,21(4):102-105.

计算机科学

2006年第2期

浏览历史

内容加载中请稍等...

贝叶斯学习与强化学习结合技术的研究被引量：2

参考文献1

二级参考文献4

共引文献268

同被引文献11

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

贝叶斯学习与强化学习结合技术的研究 被引量：2

参考文献1

二级参考文献4

共引文献268

同被引文献11

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

贝叶斯学习与强化学习结合技术的研究被引量：2