-
题名基于状态-动作联合掩码的自监督学习算法
- 1
-
-
作者
刘宇昕
项刘宇
何召锋
魏运
吴惠甲
王永钢
-
机构
北京邮电大学理学院
北京邮电大学人工智能学院
北京市地铁运营有限公司
-
出处
《计算机技术与发展》
2024年第11期125-132,共8页
-
基金
国家重点研发计划(2022YFB4501600)
国家自然科学基金(62176025)
北京市科技新星计划(20220484161)。
-
文摘
视觉强化学习以原始图像作为输入,面临着观测空间维度高、冗余信息多、采样效率低等挑战。现有研究大多通过构建一个自监督辅助任务来获取高维观测中的有效表征,然而这类方法仅关注状态特征,却忽略了动作空间中丰富的语义信息。针对这一问题,提出一种基于状态-动作联合掩码的自监督学习算法,通过对状态和动作进行联合掩码重构,从而学习到真正与任务相关的表征信息,提高采样效率。此外,为提高模型的鲁棒性,引入测试时自适应方法,在环境变化时冻结强化学习策略网络,仅对状态-动作联合掩码模块进行少量更新,利用自监督信号帮助智能体快速适应新环境。实验结果表明,该方法相比现有算法,在DMControl环境上的平均回报奖励提升了4.5%,在DMControl-GB环境上的平均回报奖励提升了20.2%,有效提升了模型的性能。
-
关键词
视觉强化学习
自监督学习
掩码模型
测试时自适应
鲁棒性
-
Keywords
visual reinforcement learning
self-supervision learning
mask model
test time adaptation
robustness
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种神经范畴标注模型
- 2
-
-
作者
吴惠甲
张家俊
宗成庆
-
机构
模式识别国家重点实验室(中国科学院自动化研究所)
中国科学院大学
中国科学院脑科学与智能技术卓越创新中心
-
出处
《软件学报》
EI
CSCD
北大核心
2016年第11期2691-2700,共10页
-
基金
国家自然科学基金(61333018)
中国科学院战略性先导科技专项(XDB02070007)~~
-
文摘
范畴标注是组合范畴语法解析中的子任务之一,可用于提高解析器的效率和性能.传统的最大熵模型需要手工定义特征模板,神经网络则通过隐含层学习到离散特征的分布式表示,从而自动提取分类需要的特征.引入该模型来解决该问题,在原有神经语言模型的基础上加入了向量化的词性表示层和范畴表示层,并通过反向传播自动更新词向量、词性向量和范畴向量,学习到它们的分布式表示.此外,在预测时采用束搜索的序列解码方式来引入标签之间的依赖信息.实验结果表明,这两种改进都能提升模型的性能,使其在范畴标注任务上比传统的最大熵模型效果要好(提升1%).
-
关键词
范畴标注
分布式表示
神经语言模型
束搜索
-
Keywords
categorical tagging
distributed representation
neural language model
beam search
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-