-
题名基于视觉-语言预训练模型的零样本迁移学习方法综述
- 1
-
-
作者
孙仁科
许靖昊
皇甫志宇
李仲年
许新征
-
机构
中国矿业大学计算机科学与技术学院
矿山数字化教育部工程研究中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第10期1-15,共15页
-
基金
国家自然科学基金(61976217,62306320)
江苏省自然科学基金(BK20231063)。
-
文摘
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。
-
关键词
零样本学习
视觉-语言预训练模型
零样本迁移
多模态
计算机视觉
-
Keywords
Zero-Shot Learning(ZSL)
vision-language pre-trained model
Zero-Shot Transfer(ZST)
multi-modal
computer vision
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合自监督和多层交叉注意力的多模态情感分析网络
- 2
-
-
作者
薛凯鹏
徐涛
廖春节
-
机构
西北民族大学中国民族信息技术研究院
语言与文化计算教育部重点实验室(西北民族大学)
-
出处
《计算机应用》
CSCD
北大核心
2024年第8期2387-2392,共6页
-
基金
甘肃省高等学校青年博士基金资助项目(2022QB-016)
中央高校基本科研业务费专项(31920230069)
+1 种基金
甘肃省青年科技计划项目(21JR1RA21)
国家档案局科技项目(2021-X-56)。
-
文摘
针对多模态情感分析任务中模态内信息不完整、模态间交互能力差和难以训练的问题,将视觉语言预训练(VLP)模型应用于多模态情感分析领域,提出一种融合自监督和多层交叉注意力的多模态情感分析网络(MSSM)。通过自监督学习强化视觉编码器模块,并加入多层交叉注意力以更好地建模文本和视觉特征,使模态内部信息更丰富完整,同时使模态间的信息交互更充分。此外,通过具有感知意识的快速、内存效率高的精确注意力FlashAttention解决Transformer中注意力计算高复杂度的问题。实验结果表明,与目前主流的基于对比文本-图像对的模型(CLIP)相比,MSSM在处理后的MVSA-S数据集上的准确率提高3.6个百分点,在MVSA-M数据集上的准确率提高2.2个百分点,验证所提网络能在降低运算成本的同时有效提高多模态信息融合的完整性。
-
关键词
多模态
情感分析
自监督
注意力机制
视觉语言预训练模型
-
Keywords
multimodal
sentiment analysis
self-supervision
attention mechanism
Visual-and-Language Pre-training(VLP)model
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-