-
题名基于视觉-语言预训练模型的零样本迁移学习方法综述
- 1
-
-
作者
孙仁科
许靖昊
皇甫志宇
李仲年
许新征
-
机构
中国矿业大学计算机科学与技术学院
矿山数字化教育部工程研究中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第10期1-15,共15页
-
基金
国家自然科学基金(61976217,62306320)
江苏省自然科学基金(BK20231063)。
-
文摘
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。
-
关键词
零样本学习
视觉-语言预训练模型
零样本迁移
多模态
计算机视觉
-
Keywords
Zero-Shot Learning(ZSL)
vision-language pre-trained model
Zero-Shot Transfer(ZST)
multi-modal
computer vision
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名语义增强的零样本甲骨文字符识别
- 2
-
-
作者
刘宗昊
彭文杰
代港
黄双萍
刘永革
-
机构
华南理工大学电子与信息学院
安阳师范学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2024年第10期3347-3358,共12页
-
基金
国家重点研发计划(No.2023YFC3502900)
国家自然科学基金(No.62176093,No.61673182)
+1 种基金
广州市重点领域研发计划(No.202206030001)
粤港澳联合创新领域项目(No.2023A0505030016)。
-
文摘
甲骨文识别对于了解中国历史和传承中华文化都有重要的价值.目前,人工识别甲骨文需要具备丰富的专家经验并耗费大量的时间,而自动识别甲骨文的方法绝大部分受制于闭集假设,在甲骨文这种陆续发现新字符的现实场景下适用范围受限.为此,有研究者提出零样本甲骨文字符识别,其从视觉匹配的角度出发,将字模图像作为字符类别参考,通过拓片图像与字模图像的相似度匹配实现拓片图像的字符识别,然而其忽略了甲骨文拓片图像样本类内方差大的难点,仍存在因字形多变而容易匹配错误的不足.本文提出了一种两阶段的语义增强零样本甲骨文字符识别方法.第一阶段为域无关的字符语义学习阶段,通过提示学习从甲骨文拓片和字模图像中提取字符语义,解决甲骨文字符缺乏语义的问题.为应对拓片与字模之间的域差异,我们分别设置可学习的域提示信息和字符类别提示信息,通过解耦两者的语义实现更准确的特征提取.第二阶段为语义增强的字符图像视觉匹配阶段,模型通过两个分支分别提取类内共享特征和类间差异特征.第一个分支使用对比学习,将同一字符类别的不同字形视觉特征对齐到字符语义,引导模型关注类内共享特征;第二个分支使用损失函数N-Pair,增强模型对不同字符类别间差异特征的学习.在测试阶段,模型无须语义特征,通过训练中学到的类内相似性和类间差异性特征,实现更准确的拓片与字模匹配,提升零样本识别性能.我们在拓片数据集OBC306和字模数据集SOC5519上进行实验验证,实验结果表明,本文提出的方法在零样本甲骨文识别准确率比基准方法性能提升超过25%.
-
关键词
甲骨文字识别
零样本识别
视觉匹配
语义增强
视觉-语言模型
对比学习
-
Keywords
oracle character recognition
zero-shot recognition
visual matching
semantic-enhanced
vision language model
contrastive learning
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种基于动态时序划分的视频理解方法
- 3
-
-
作者
董淑慧
-
机构
合肥科技职业学院信息工程系
-
出处
《电脑知识与技术》
2023年第36期19-21,共3页
-
基金
2022年度合肥科技职业学院校级质量工程项目:网络安全技术。
-
文摘
近年来,随着语言-视觉模型的快速发展,结合视觉编码器和大语言模型进行视频理解的方法极大超越了传统的视频行为分类模型。由于大语言模型可以很好地进行信息的归纳和推理,因此可以将视频帧的特征输入大语言模型,从而得到每一帧的场景描述,最终整理成一个视频的详细信息。尽管上述方法可以得到一个视频非常详尽的描述,但是却忽略了视频中不同场景的重要性,从而无法准确理解视频中的关键信息。文章提出了一种基于动态时序划分的视频理解方法,首先根据场景对视频进行切片,然后通过一个自适应的重要性评估网络计算每个视频切片的重要性得分,最后基于重要性得分将每个视频切片的特征进行加权平均得到最终的视频特征。相较于直接提取视频特征的方法,该方法所获取的视频特征结合了不同视频片段的重要性,更容易理解视频中的关键信息。该方法在多个视频理解基准上进行实验,均获得5%~10%的提升,充分证明了该方法在视频理解中的有效性。
-
关键词
语言-视觉模型
动态时序划分
视频切片
视频理解
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-