基于互信息最大化的意图强化学习方法的研究被引量：2

Intention based reinforcement learning by information maximization

下载PDF

导出

摘要强化学习主要研究智能体如何根据环境作出较好的决策,其核心是学习策略。基于传统策略模型的动作选择主要依赖于状态感知、历史记忆及模型参数等,其智能体行为很难受到控制。然而,当人类智能体完成任务时,通常会根据自身的意愿或动机选择相应的行为。受人类决策机制的启发,为了让强化学习中的行为选择可控,使智能体能够根据意图选择动作,将意图变量加入到策略模型中,提出了一种基于意图控制的强化学习策略学习方法。具体地,通过意图变量与动作的互信息最大化使两者产生高相关性,使得策略能够根据给定意图变量选择相关动作,从而达到对智能体的控制。最终,通过复杂的机器人控制仿真任务Mujoco验证了所提方法能够有效地通过意图变量控制机器人的移动速度和移动角度。 Reinforcement learning studies how an agent makes decisions through the interaction with the unknown environment,its core is to learn the policy.The action selection of traditional policy model mainly depends on state perception,historical memory and model parameters,which are difficult to control.However,when human fulfill a task,they usually make decisions according to their own intention or motivation.Inspired by the human decision-making mechanism,in order to make the behavior selection mechanism controllable and enable the agent to choose the action according to the intention,this paper proposed to incorporate the intention variable to the policy model and obtain an intention motivated reinforcement learning method.More specifically,the proposed method maximized the mutual information between the intention variables and the actions,so that the policy could select the action related to the intention variable.Finally,the effectiveness of the proposed intention-motivated control was demonstrated through the complex Mujoco environment in simulated robot control task.

作者赵婷婷吴帅杨梦楠陈亚瑞王嫄杨巨成 Zhao Tingting;Wu Shuai;Yang Mengnan;Chen Yarui;Wang Yuan;Yang Jucheng(College of Artificial Intelligence,Tianjin University of Science&Technology,Tianjin 300457,China)

机构地区天津科技大学人工智能学院

出处《计算机应用研究》 CSCD 北大核心 2022年第11期3327-3332,3364,共7页 Application Research of Computers

基金国家自然科学基金资助项目(61976156) 天津市企业科技特派员项目(20YDTPJC00560)。

关键词强化学习互信息意图控制近端策略优化算法 reinforcement learning(RL) mutual information intentional control proximal policy optimization

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1何立,沈亮,李辉,王壮,唐文泉.强化学习中的策略重用:研究进展[J].系统工程与电子技术,2022,44(3):884-899. 被引量：4
2孔松涛,刘池池,史勇,谢义,王堃.深度强化学习在智能制造中的应用展望综述[J].计算机工程与应用,2021,57(2):49-59. 被引量：14
3刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：446
4刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：124
5刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：37

二级参考文献19

1孙波,陈卫东,席裕庚.基于粒子群优化算法的移动机器人全局路径规划[J].控制与决策,2005,20(9):1052-1055. 被引量：79
2魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
3高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
4王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：26
5孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：602
6余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：599
7傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：25
8黎亚雄,张坚强,潘登,胡惮.基于RNN-RBM语言模型的语音识别研究[J].计算机研究与发展,2014,51(9):1936-1944. 被引量：27
9杨钊,陶大鹏,张树业,金连文.大数据下的基于深度神经网的相似汉字识别[J].通信学报,2014,35(9):184-189. 被引量：28
10李学俊,陈士洋,张以文,李龙澍.Keepaway抢球任务中基于策略重用的迁移学习算法[J].计算机科学,2015,42(4):190-193. 被引量：1

共引文献560

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：2
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：37
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：39
5周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：5
6李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
7王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
8刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：1
9蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42.
10甘惟,吴志强,王元楷,徐浩文,严娟,何珍,赵紫辰.AIGC辅助城市设计的理论模型建构[J].城市规划学刊,2023(2):12-18. 被引量：10

同被引文献15

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：39
2WANGShouyang,YULean,K.K.LAI.CRUDE OIL PRICE FORECASTING WITH TEI@I METHODOLOGY[J].Journal of Systems Science & Complexity,2005,18(2):145-166. 被引量：73
3段江娇,刘红忠,曾剑平.中国股票网络论坛的信息含量分析[J].金融研究,2017(10):178-192. 被引量：84
4刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：446
5刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：124
6孔松涛,刘池池,史勇,谢义,王堃.深度强化学习在智能制造中的应用展望综述[J].计算机工程与应用,2021,57(2):49-59. 被引量：14
7王红斌,王健雄,张亚飞,杨恒.主题不平衡新闻文本数据集的主题识别方法研究[J].数据分析与知识发现,2021,5(3):109-120. 被引量：5
8张驰,郭媛,黎明.人工神经网络模型发展及应用综述[J].计算机工程与应用,2021,57(11):57-69. 被引量：174
9Xiao DING,Jihao SHI,Junwen DUAN,Bing QIN,Ting LIU.Quantifying the effects of long-term news on stock markets on the basis of the multikernel Hawkes process[J].Science China(Information Sciences),2021,64(9):40-52. 被引量：4
10杨思明,单征,丁煜,李刚伟.深度强化学习研究综述[J].计算机工程,2021,47(12):19-29. 被引量：46

引证文献2

1赵婷婷,杨梦楠,陈亚瑞,王嫄,杨巨成.基于值函数估计的参数探索策略梯度算法[J].计算机应用研究,2023,40(8):2404-2410.
2张大斌,黄均杰,凌立文,胡焕玲.融合新闻影响力衰减的碳价格多元分解集成预测[J].河南科技大学学报（自然科学版）,2024,45(1):51-61.

1冯源.婚姻关系存续期间单方举债适用规则再检讨[J].法治研究,2022(6):92-100. 被引量：1
2徐逸群,张邦宁,张晓凯,郭道省.基于变换核高斯回归模型的无线环境地图构建方法[J].无线电工程,2022,52(11):1908-1921.

计算机应用研究

2022年第11期

浏览历史

内容加载中请稍等...

基于互信息最大化的意图强化学习方法的研究被引量：2

参考文献5

二级参考文献19

共引文献560

同被引文献15

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于互信息最大化的意图强化学习方法的研究 被引量：2

参考文献5

二级参考文献19

共引文献560

同被引文献15

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于互信息最大化的意图强化学习方法的研究被引量：2