基于状态-动作联合掩码的自监督学习算法

State-action Joint Mask-based Self-supervised Learning Algorithm

下载PDF

导出

摘要视觉强化学习以原始图像作为输入,面临着观测空间维度高、冗余信息多、采样效率低等挑战。现有研究大多通过构建一个自监督辅助任务来获取高维观测中的有效表征,然而这类方法仅关注状态特征,却忽略了动作空间中丰富的语义信息。针对这一问题,提出一种基于状态-动作联合掩码的自监督学习算法,通过对状态和动作进行联合掩码重构,从而学习到真正与任务相关的表征信息,提高采样效率。此外,为提高模型的鲁棒性,引入测试时自适应方法,在环境变化时冻结强化学习策略网络,仅对状态-动作联合掩码模块进行少量更新,利用自监督信号帮助智能体快速适应新环境。实验结果表明,该方法相比现有算法,在DMControl环境上的平均回报奖励提升了4.5%,在DMControl-GB环境上的平均回报奖励提升了20.2%,有效提升了模型的性能。 Visual reinforcement learning,which takes raw images as input,faces challenges such as high-dimensional observation spaces,abundant redundant information,and low sampling efficiency.Most existing studies construct a self-supervised auxiliary task to obtain effective representations from high-dimensional observations.However,these methods only focus on state features and neglect the rich semantic information present in the action space.To address this issue,we propose a state-action joint mask-based self-supervised learning algorithm.By jointly masking and reconstructing the state and action,the algorithm learns representations that are genuinely relevant to the task,thereby improving sampling efficiency.Furthermore,to enhance the robustness of the model,we introduce an test time adaptation method.The policy network is frozen when the environment changes,with only a few update to the joint state-action mask module.This approach utilizes self-supervised signals to help the agent quickly adapt to new environments.Experimental results demonstrate that compared to existing algorithms,the proposed method achieves a 4.5% increase in average reward on the DMControl environment and a 20.2% increase in average reward on the DMControl-GB environment,effectively enhancing the performance of the model.

作者刘宇昕项刘宇何召锋魏运吴惠甲王永钢 LIU Yu-xin;XIANG Liu-yu;HE Zhao-feng;WEI Yun;WU Hui-jia;WANG Yong-gang(School of Science,Beijing University of Posts and Telecommunications,Beijing 100876,China;School of Artificial Intelligence,Beijing University of Posts and Telecommunications,Beijing 100876,China;Beijing Subway Operation Co.,Limited,Beijing 100044,China)

机构地区北京邮电大学理学院北京邮电大学人工智能学院北京市地铁运营有限公司

出处《计算机技术与发展》 2024年第11期125-132,共8页 Computer Technology and Development

基金国家重点研发计划(2022YFB4501600) 国家自然科学基金(62176025) 北京市科技新星计划(20220484161)。

关键词视觉强化学习自监督学习掩码模型测试时自适应鲁棒性 visual reinforcement learning self-supervision learning mask model test time adaptation robustness

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1朱少凯,孟庆浩,金晟,戴旭阳.基于深度强化学习的室内视觉局部路径规划[J].智能系统学报,2022,17(5):908-918. 被引量：5
2郑振华,刘其朋.基于视觉特征提取的强化学习自动驾驶系统[J].复杂系统与复杂性科学,2020,17(4):30-37. 被引量：8

二级参考文献12

1王殿君.基于改进A＊算法的室内移动机器人路径规划[J].清华大学学报（自然科学版）,2012,52(8):1085-1089. 被引量：188
2张福海,李宁,袁儒鹏,付宜利.基于强化学习的机器人路径规划算法[J].华中科技大学学报（自然科学版）,2018,46(12):65-70. 被引量：49
3张毅,陈起,罗元.室内环境下移动机器人三维视觉SLAM[J].智能系统学报,2015,10(4):615-619. 被引量：13
4夏伟,李慧云.基于深度强化学习的自动驾驶策略学习方法[J].集成技术,2017,6(3):29-40. 被引量：19
5林志林,张国良,王蜂,姚二亮,贾枭.一种基于VSLAM的室内导航地图制备方法[J].电光与控制,2018,25(1):98-103. 被引量：7
6马跃龙,曹雪峰,万刚,李登峰.一种基于深度相机的机器人室内导航点云地图生成方法[J].测绘工程,2018,27(3):6-10. 被引量：4
7张斌,何明,陈希亮,吴春晓,刘斌,周波.改进DDPG算法在自动驾驶中的应用[J].计算机工程与应用,2019,55(10):264-270. 被引量：26
8张飞,白伟,乔耀华,邢伯阳,周鹏程.基于改进D*算法的无人机室内路径规划[J].智能系统学报,2019,14(4):662-669. 被引量：32
9李志航.基于深度递归强化学习的无人自主驾驶策略研究[J].工业控制计算机,2020,33(4):61-63. 被引量：2
10刘偲.基于深度强化学习的自动驾驶研究[J].自动化应用,2020(5):57-59. 被引量：2

共引文献11

1郭泉成.智能车避障路径规划建模方法概述[J].电子元器件与信息技术,2022,6(8):101-105.
2韩笑,张梦真,吴易,崔孝凯,邱长滨,王庆芝,刘其朋.无人驾驶系统中执行器攻击检测算法设计[J].复杂系统与复杂性科学,2022,19(3):88-93.
3刘向东,王晓光,邹密.面向强化学习决策的自动驾驶仿真平台[J].科学技术创新,2022(35):95-99. 被引量：1
4吕恩胜.改进的混沌反控制设计及在图像加密中的应用[J].复杂系统与复杂性科学,2022,19(4):91-98.
5韦永龙.VR技术在ASDS汽车自动驾驶辅助系统培训课程方面的应用[J].电子元器件与信息技术,2023,7(6):215-217.
6李鹏,徐珞.一种面向城市战场的智能车自主导航方法[J].计算机与现代化,2024(1):92-98. 被引量：1
7赵浩源,刘金来,禹梓浩,武涛,孙天骏.先进的自动驾驶数据采集与存储技术研究综述[J].汽车技术,2024(2):1-16. 被引量：1
8高宇,霍静,李文斌,伍静,来煜坤,高阳.基于路径规划特点的语义目标导航方法[J].智能系统学报,2024,19(1):217-227. 被引量：2
9于军琪,陈易圣,冯春勇,苏煜聪,郭聚刚.智能建造机器人局部路径规划研究综述[J].计算机工程与应用,2024,60(10):16-29.
10朱威,洪力栋,施海东,何德峰.结合优势结构和最小目标Q值的深度强化学习导航算法[J].控制理论与应用,2024,41(4):716-728.

1胡晨骁.一种婴儿床辅助睡眠装置[J].科技风,2024(32):12-15.
2顾霖.家庭结构变化视角下老年人价值困境研究[J].老龄化研究,2024,11(5):1936-1941.

计算机技术与发展

2024年第11期

浏览历史

内容加载中请稍等...

基于状态-动作联合掩码的自监督学习算法

参考文献2

二级参考文献12

共引文献11

相关作者

相关机构

相关主题

浏览历史