期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于状态-动作联合掩码的自监督学习算法
1
作者 刘宇昕 项刘宇 +3 位作者 何召锋 魏运 吴惠甲 王永钢 《计算机技术与发展》 2024年第11期125-132,共8页
视觉强化学习以原始图像作为输入,面临着观测空间维度高、冗余信息多、采样效率低等挑战。现有研究大多通过构建一个自监督辅助任务来获取高维观测中的有效表征,然而这类方法仅关注状态特征,却忽略了动作空间中丰富的语义信息。针对这... 视觉强化学习以原始图像作为输入,面临着观测空间维度高、冗余信息多、采样效率低等挑战。现有研究大多通过构建一个自监督辅助任务来获取高维观测中的有效表征,然而这类方法仅关注状态特征,却忽略了动作空间中丰富的语义信息。针对这一问题,提出一种基于状态-动作联合掩码的自监督学习算法,通过对状态和动作进行联合掩码重构,从而学习到真正与任务相关的表征信息,提高采样效率。此外,为提高模型的鲁棒性,引入测试时自适应方法,在环境变化时冻结强化学习策略网络,仅对状态-动作联合掩码模块进行少量更新,利用自监督信号帮助智能体快速适应新环境。实验结果表明,该方法相比现有算法,在DMControl环境上的平均回报奖励提升了4.5%,在DMControl-GB环境上的平均回报奖励提升了20.2%,有效提升了模型的性能。 展开更多
关键词 视觉强化学习 自监督学习 掩码模型 测试时自适应 鲁棒性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部