远离旧区域和避免回路的强化探索方法被引量：1

Reinforcement Exploration Method to Keep Away from Old Areas and Avoid Loops

下载PDF

导出

摘要以内在动机为导向的探索类强化学习中,通常根据智能体对状态的熟悉程度产生内在奖励,难以获得较合适的近似度量方法,且这种长期累计度量的方式没有重视状态在其所处episode中的作用。Anchor方法使用锚代替分层强化学习中的子目标,鼓励智能体以远离锚的方式进行探索。受Anchor方法的启发,根据转移状态与同一个episode中历史状态之间的距离设计内在奖励函数,进而提出远离旧区域和避免回路的强化探索方法。将当前episode中部分历史状态组成的集合作为区域,周期性更新区域为最近访问的状态集合,根据转移状态与区域的最小距离给予智能体内在奖励,使智能体远离当前最近访问过的旧区域。将转移状态的连续前驱状态作为窗口并规定窗口大小,根据窗口范围内以转移状态为终点的最短回路长度给予内在奖励,防止智能体走回路。在经典的奖励稀疏环境MiniGrid中的实验结果表明,该方法避免了对状态熟悉程度的度量,同时以一个episode为周期对环境进行探索,有效提升了智能体的探索能力。 In intrinsic motivation-oriented exploratory reinforcement learning,intrinsic rewards are typically generated based on an agent's familiarity with the states.An appropriate approximate measure is difficult to obtain,and this long-term cumulative measure does not consider the role of the state in an episode.The Anchor method replaces subgoals in hierarchical reinforcement learning with anchors,thus encouraging the agent to explore in areas distant from the anchors.Inspired by this,an intrinsic reward function is designed based on the distance between the next state and the historical states in the same episode,and a reinforcement exploration method to keep Away from old Areas and Avoid Loops(AAAL)is proposed.Considering the set of partial historical states in this episode as a area and periodically treating the most recently visited state set as a new area,an intrinsic reward is allocated to the agent based on the shortest distance between the next state and area such that the agent is distant from the currently visited old area.Treating the successive precursor states of the next state as a window and specifying the window size,an intrinsic reward is allocated based on the shortest loop length of the window,with the next state regarded as the end point such that the agent can avoid walking the circuit.The experimental results in the classic reward sparse MiniGrid environment show that the AAAL method no longer requires measurements of familiarity with the states;in fact,it can explore the environment with an episode as a cycle and effectively improve the exploration ability of the agent.

作者蔡丽娇秦进陈双 CAI Lijiao;QIN Jin;CHEN Shuang(State Key Laboratory of Public Big Data,College of Computer Science and Technology,Guizhou University,Guiyang 550025,China;Guizhou Door To Time Science and Technology Co.,Ltd.,Guiyang 550025,China)

机构地区贵州大学计算机科学与技术学院公共大数据国家重点实验室贵州道坦坦科技股份有限公司

出处《计算机工程》 CAS CSCD 北大核心 2023年第7期118-124,134,共8页 Computer Engineering

基金贵州省科技计划项目(黔科合基础[2020]1Y275,黔科合支撑[2020]3Y004)。

关键词深度强化学习奖励稀疏任务内在奖励旧区域回路 deep reinforcement learning reward sparse task intrinsic reward old area loop

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：487

二级参考文献8

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
4孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：631
5余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：616
6傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：26
7黎亚雄,张坚强,潘登,胡惮.基于RNN-RBM语言模型的语音识别研究[J].计算机研究与发展,2014,51(9):1936-1944. 被引量：27
8杨钊,陶大鹏,张树业,金连文.大数据下的基于深度神经网的相似汉字识别[J].通信学报,2014,35(9):184-189. 被引量：29

共引文献486

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：51
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：1
5李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：47
6周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：8
7李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
8王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
9刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2
10蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42. 被引量：1

同被引文献3

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：487
2陈希亮,曹雷,李晨溪,徐志雄,何明.基于重抽样优选缓存经验回放机制的深度强化学习方法[J].控制与决策,2018,33(4):600-606. 被引量：24
3刘树栋,张可,陈旭.基于多维度兴趣注意力和用户长短期偏好的新闻推荐[J].中文信息学报,2022,36(9):102-111. 被引量：5

引证文献1

1董相宏,安俊秀.基于动态动作覆盖的深度强化学习新闻推荐[J].大数据,2024,10(3):109-118. 被引量：1

二级引证文献1

1文艺.基于强化学习的智能推荐方法在电子商务中的应用研究[J].电子商务评论,2024,13(4):4885-4892.

1吴培良,渠有源,李瑶,陈雯柏,高国伟.基于元生成内在奖励的机器人操作技能学习方法[J].计量学报,2023,44(6):923-930. 被引量：1
2张利军.初中英语教学中情感教育的应用策略分析[J].小小说月刊（下半月）,2022(8):230-232.
3曾庆伟,张国敏,邢长友,宋丽华.基于分层强化学习的智能化攻击路径发现方法[J].计算机科学,2023,50(7):308-316. 被引量：3
4周纯祎,覃四琪,邹婧杰,张艾琳,王云翠.实习护生工作沉浸体验的潜在类别与生涯适应力的关系[J].护理学杂志,2023,38(13):47-51. 被引量：2
5韦齐齐.塑料制品在高校创新创业教学中的应用[J].塑料工业,2023,51(6):200-201.
6孙爱雯.利用数字绘本对幼儿健康饮食教育的研究[J].儿童绘本,2023(23):66-68.
7李霄,陈理宣.区域活动中促进幼儿深度学习的策略研究[J].基础教育研究,2023(6):79-81. 被引量：1
8章志龙,洪莲莲,俞鹏飞,凌志强.组蛋白赖氨酸甲基转移酶2D在胃癌中的表达及临床意义[J].中华实验外科杂志,2023,40(5):928-931. 被引量：1
9李俊,薛胜,王伟杰,陶润,张家俊.TPX2在肾透明细胞癌中的表达及其临床意义[J].国际肿瘤学杂志,2023,50(4):214-219.
10陈都,刁旭炀,陈伟,高璞,葛鲁亲.基于AI-RRT^(*)算法的无人机在线滚动航迹规划[J].飞行力学,2023,41(3):54-60. 被引量：2

计算机工程

2023年第7期

浏览历史

内容加载中请稍等...

远离旧区域和避免回路的强化探索方法被引量：1

参考文献1

二级参考文献8

共引文献486

同被引文献3

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

远离旧区域和避免回路的强化探索方法 被引量：1

参考文献1

二级参考文献8

共引文献486

同被引文献3

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

远离旧区域和避免回路的强化探索方法被引量：1