期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
视觉语言模型引导的文本知识嵌入的小样本增量学习
1
作者 姚涵涛 余璐 徐常胜 《软件学报》 EI CSCD 北大核心 2024年第5期2101-2119,共19页
真实场景往往面临数据稀缺和数据动态变化的问题,小样本增量学习的目的是利用少量数据推理数据知识并减缓模型对于旧知识的灾难性遗忘.已有的小样本增量学习的算法(CEC和FACT等)主要是利用视觉特征来调整特征编码器或者分类器,实现模型... 真实场景往往面临数据稀缺和数据动态变化的问题,小样本增量学习的目的是利用少量数据推理数据知识并减缓模型对于旧知识的灾难性遗忘.已有的小样本增量学习的算法(CEC和FACT等)主要是利用视觉特征来调整特征编码器或者分类器,实现模型对于新数据的迁移和旧数据的抗遗忘.但是少量数据的视觉特征往往难以建模一个类别的完整特征分布,导致上述算法的泛化能力较弱.相比于视觉特征,图像类别描述的文本特征具有较好的泛化性和抗遗忘性.因此,在视觉语言模型的基础上,研究基于文本知识嵌入的小样本增量学习,通过在视觉特征中嵌入具有抗遗忘能力的文本特征,实现小样本增量学习中新旧类别数据的有效学习.具体而言,在基础学习阶段,利用视觉语言模型抽取图像的预训练视觉特征和类别的文本描述,并通过文本编码器实现预训练视觉特征到文本空间的映射.进一步利用视觉编码器融合学习到的文本特征和预训练视觉特征抽象具有高辨别能力的视觉特征.在增量学习阶段,提出类别空间引导的抗遗忘学习,利用旧数据的类别空间编码和新数据特征微调视觉编码器和文本编码器,实现新数据知识学习的同时复习旧知识.在4个数据集(CIFAR-100,CUB-200,Car-196和mini Image Net)上验证算法的有效性,证明基于视觉语言模型文本知识嵌入可以在视觉特征的基础上进一步提升小样本增量学习的鲁棒性. 展开更多
关键词 小样本增量学习 视觉语言模型 文本知识嵌入 类别空间引导的抗遗忘学习
下载PDF
基于视觉语言模型的跨模态多级融合情感分析方法
2
作者 谢润锋 张博超 杜永萍 《模式识别与人工智能》 EI CSCD 北大核心 2024年第5期459-468,共10页
图文多模态情感分析旨在通过融合视觉模态和文本模态预测情感极性,获取高质量的视觉模态表征和文本模态表征并进行高效融合,这是解决图文多模态情感分析任务的关键环节之一.因此,文中提出基于视觉语言模型的跨模态多级融合情感分析方法... 图文多模态情感分析旨在通过融合视觉模态和文本模态预测情感极性,获取高质量的视觉模态表征和文本模态表征并进行高效融合,这是解决图文多模态情感分析任务的关键环节之一.因此,文中提出基于视觉语言模型的跨模态多级融合情感分析方法.首先,基于预训练的视觉语言模型,通过冻结参数,采用低阶自适应方法微调语言模型的方式,生成高质量的模态表征和模态桥梁表征.然后,设计跨模态多头互注意力融合模块,分别对视觉模态表征和文本模态表征进行交互加权融合.最后,设计混合专家网络融合模块,将视觉、文本的模态表征和模态桥梁表征结合后进行深度融合,实现多模态情感分析.实验表明,文中方法在公开评测数据集MVSA-Single和HFM上达到SOTA. 展开更多
关键词 视觉语言模型 多模态融合 多头注意力 混合专家网络 情感分析
下载PDF
基于显著图加权视觉语言模型的图像分类方法
3
作者 王挺进 赵永威 李弼程 《计算机工程》 CAS CSCD 北大核心 2015年第3期204-210,共7页
传统基于视觉语言模型(VLM)的图像分类方法在参数估计阶段,通常采用最大似然估计的方式统计视觉单词的分布,忽略了图像背景噪声对该模型参数估计的影响。为此,提出一种新的图像分类方法。利用基于视觉注意的显著性检测算法提取图像中的... 传统基于视觉语言模型(VLM)的图像分类方法在参数估计阶段,通常采用最大似然估计的方式统计视觉单词的分布,忽略了图像背景噪声对该模型参数估计的影响。为此,提出一种新的图像分类方法。利用基于视觉注意的显著性检测算法提取图像中的显著区域和背景区域,构建的图像带有显著图标识的视觉文档,训练视觉单词的显著度权重和条件概率,并使用显著图加权视觉语言模型进行图像分类。实验结果表明,与传统VLM等方法相比,该方法能有效克服图像背景噪声的影响,增强视觉单词的区分性,提高分类准确率。 展开更多
关键词 图像信息 视觉语言模型 图像分类 背景区域 显著图
下载PDF
N步长距离视觉语言模型的图像分类方法
4
作者 王挺进 赵永威 李弼程 《信息工程大学学报》 2014年第4期453-458,465,共7页
传统的视觉语言模型(visual language model,VLM)只考虑了相邻视觉单词之间的空间位置关系,不考虑不相邻视觉单词之间的贡献。针对传统视觉语言模型的不足,提出了一种N步长距离视觉语言模型,并将其用于图像分类。该方法首先给出了相隔N... 传统的视觉语言模型(visual language model,VLM)只考虑了相邻视觉单词之间的空间位置关系,不考虑不相邻视觉单词之间的贡献。针对传统视觉语言模型的不足,提出了一种N步长距离视觉语言模型,并将其用于图像分类。该方法首先给出了相隔N个视觉单词的二元依赖关系,然后训练长距离视觉语言模型,最后通过不同的权重分配方式进行融合,得到3种不同的图像分类方法。实验比较了不同参数和分类方法对图像分类的影响,结果表明,文章方法能在一定程度上改善视觉语言模型对图像表达的准确度,进而提高图像分类的准确率。 展开更多
关键词 视觉语言模型 图像分类 空间位置信息 长距离
下载PDF
基于视觉语言的文字识别方法综述
5
作者 陈曦 陆利坤 +1 位作者 王彤 曾庆涛 《北京印刷学院学报》 2024年第6期35-43,共9页
从光学字符识别(OCR)的基础到自然语言处理在文字识别中的应用,再到视觉语言模型在文字识别领域的最新进展,详细介绍了文字识别的各个步骤,包括图像预处理、特征提取、字符分割和识别,并讨论了多种先进技术和模型如对比学习、多模态融合... 从光学字符识别(OCR)的基础到自然语言处理在文字识别中的应用,再到视觉语言模型在文字识别领域的最新进展,详细介绍了文字识别的各个步骤,包括图像预处理、特征提取、字符分割和识别,并讨论了多种先进技术和模型如对比学习、多模态融合,以及其他视觉语言模型结合的文字识别方法。此外,还比较了不同方法在多个数据集上的性能,并讨论了文字识别领域面临的挑战和限制。 展开更多
关键词 光学字符识别 自然语言处理 对比学习 多模态融合 视觉语言模型
下载PDF
基于视觉语言模型的图像语义挖掘研究 被引量:3
6
作者 金聪 刘金安 金枢炜 《图书情报工作》 CSSCI 北大核心 2013年第5期120-123,共4页
针对图像的特性,给出一种图像的二元视觉语言模型,在此基础上提出一种新的图像语义挖掘方法。该方法将每幅图像表示成一个由视觉单词构成的矩阵,通过计算每个视觉单词的权重,按照权重的大小对视觉单词进行选择,利用选择后的视觉单词集合... 针对图像的特性,给出一种图像的二元视觉语言模型,在此基础上提出一种新的图像语义挖掘方法。该方法将每幅图像表示成一个由视觉单词构成的矩阵,通过计算每个视觉单词的权重,按照权重的大小对视觉单词进行选择,利用选择后的视觉单词集合,构建图像的视觉语言模型;之后,按照贝叶斯公式,建立基于视觉语言模型的图像语义挖掘方法。实验结果表明,该方法在图像语义描述能力和区分性方面是有效的,能充分反映人对图像内容的理解,具有很好的应用价值。 展开更多
关键词 视觉语言模型 图像语义 语义挖掘 性能优化
原文传递
生成式AI的大模型提示工程:方法、现状与展望
7
作者 黄峻 林飞 +6 位作者 杨静 王兴霞 倪清桦 王雨桐 田永林 李娟娟 王飞跃 《智能科学与技术学报》 CSCD 2024年第2期115-133,共19页
大语言模型和视觉语言模型在各领域的应用中展示出巨大潜力,成为研究热点。然而,幻觉、知识迁移、与人类意图对齐等问题仍然影响着大模型的性能。首先,探讨了提示工程与对齐技术基本原理,提出基于提示优化、专家反馈机制及实时调整机制... 大语言模型和视觉语言模型在各领域的应用中展示出巨大潜力,成为研究热点。然而,幻觉、知识迁移、与人类意图对齐等问题仍然影响着大模型的性能。首先,探讨了提示工程与对齐技术基本原理,提出基于提示优化、专家反馈机制及实时调整机制的引导概念,提升了大语言模型在跨领域应用中的性能;其次,深入分析提示工程的核心技术,如多步推理处理复杂任务的原理;然后,针对各领域的实际应用,讨论提示工程的发展现状;最后,总结提示工程面临的挑战并展望其未来发展方向。提示工程在理论与应用方面的发展,为提升大模型在实际应用中的性能提供了全面的解决方案。 展开更多
关键词 提示工程 对齐技术 生成式AI 语言模型 视觉语言模型
下载PDF
基于视觉语言提示学习的少样本图像分类方法
8
作者 李宝安 王欣宇 +1 位作者 滕尚志 吕学强 《北京邮电大学学报》 EI CAS CSCD 北大核心 2024年第2期11-17,共7页
为了提高少样本图像分类的性能和泛化能力,充分利用大规模视觉语言预训练模型,提出了一种高效处理少样本图像分类问题的方法。首先,在文本编码部分,整合多个可学习的文本提示,充分挖掘图像类别标签在提示语句中不同位置对模型泛化性能... 为了提高少样本图像分类的性能和泛化能力,充分利用大规模视觉语言预训练模型,提出了一种高效处理少样本图像分类问题的方法。首先,在文本编码部分,整合多个可学习的文本提示,充分挖掘图像类别标签在提示语句中不同位置对模型泛化性能的影响;其次,在图像编码部分,引入可学习的视觉提示,使图像预训练参数能更好地表征少样本图像;最后,在图像和文本特征编码器后添加特征适配器,并在图像分类数据集上微调网络,以提升网络在少样本图像分类数据集上的性能。在10个公开数据集上进行了大量实验,结果表明,相较于现有方法,所提方法在单样本分类的平均准确度上提高了2.9%。 展开更多
关键词 提示学习 视觉语言模型 少样本学习 图像分类 预训练模型
原文传递
一种结合相关性和多样性的图像标签推荐方法 被引量:12
9
作者 崔超然 马军 《计算机学报》 EI CSCD 北大核心 2013年第3期654-663,共10页
为了帮助用户高效地组织和检索图像资源,多数图像分享站点允许用户为图像添加标签.图像标签推荐系统旨在提供一组标签候选项来方便用户完成添加标签的过程.以往的图像标签推荐方法往往利用标签间的共现信息进行标签推荐.但是,由于忽略... 为了帮助用户高效地组织和检索图像资源,多数图像分享站点允许用户为图像添加标签.图像标签推荐系统旨在提供一组标签候选项来方便用户完成添加标签的过程.以往的图像标签推荐方法往往利用标签间的共现信息进行标签推荐.但是,由于忽略了图像的视觉内容信息和被推荐标签之间的多样性,以往方法的推荐结果常存在标签歧义和标签冗余的问题.为了解决上述问题,文中提出了一种新的图像标签推荐方法,该方法综合考虑了被推荐标签的相关性和多样性.首先,利用视觉语言模型,该方法分别计算标签与图像的相关性和标签之间的视觉距离.然后,基于上述计算,给出一个贪心搜索算法来找到能合理地平衡相关性和多样性的标签集合,将该集合作为最终的推荐.在Flickr数据集上的实验结果表明,该方法在准确率、主题覆盖率和F1测度上均优于目前的代表性方法. 展开更多
关键词 社会性标注 推荐算法 多样性 视觉语言模型
下载PDF
LDA单词图像表示的蒙古文古籍图像关键词检索方法 被引量:7
10
作者 白淑霞 鲍玉来 《现代情报》 CSSCI 北大核心 2017年第7期51-54,88,共5页
[目的 ]为了克服传统视觉词袋方法(Bag-of-Visual-Words)中忽略视觉单词间的空间关系和语义信息等问题。[方法 ]本文提出一种与视觉语言模型相结合的基于LDA主题模型,并采用查询似然模型实现检索。[结果 ]实验数据表明,本文所提出的基于... [目的 ]为了克服传统视觉词袋方法(Bag-of-Visual-Words)中忽略视觉单词间的空间关系和语义信息等问题。[方法 ]本文提出一种与视觉语言模型相结合的基于LDA主题模型,并采用查询似然模型实现检索。[结果 ]实验数据表明,本文所提出的基于LDA的表示方法可以高效、准确地解决蒙古文古籍的关键词检索问题。[结论 ]同时,该方法的性能比Bo VW方法有显著提高。 展开更多
关键词 隐含狄利克雷分配(LDA) 主题模型 视觉语言模型 蒙古文古籍 关键词检索 查询似然模型
下载PDF
基于弱监督E2LSH和显著图加权的目标分类方法 被引量:2
11
作者 赵永威 李弼程 柯圣财 《电子与信息学报》 EI CSCD 北大核心 2016年第1期38-46,共9页
在目标分类领域,当前主流的目标分类方法是基于视觉词典模型,而时间效率低、视觉单词同义性和歧义性及单词空间信息的缺失等问题严重制约了其分类性能。针对这些问题,该文提出一种基于弱监督的精确位置敏感哈希(E2LSH)和显著图加权的目... 在目标分类领域,当前主流的目标分类方法是基于视觉词典模型,而时间效率低、视觉单词同义性和歧义性及单词空间信息的缺失等问题严重制约了其分类性能。针对这些问题,该文提出一种基于弱监督的精确位置敏感哈希(E2LSH)和显著图加权的目标分类方法。首先,引入E2LSH算法对训练图像集的特征点聚类生成一组视觉词典,并提出一种弱监督策略对E2LSH中哈希函数的选取进行监督,以降低其随机性,提高视觉词典的区分性。然后,利用GBVS(Graph-Based Visual Saliency)显著度检测算法对图像进行显著度检测,并依据单词所处区域的显著度值为其分配权重;最后,利用显著图加权的视觉语言模型完成目标分类。在数据集Caltech-256和Pascal VOC2007上的实验结果表明,所提方法能够较好地提高词典生成效率,提高目标表达的分辨能力,其目标分类性能优于当前主流方法。 展开更多
关键词 目标分类 视觉词典模型 精确位置敏感哈希 视觉显著图 视觉语言模型
下载PDF
一种基于动态时序划分的视频理解方法
12
作者 董淑慧 《电脑知识与技术》 2023年第36期19-21,共3页
近年来,随着语言-视觉模型的快速发展,结合视觉编码器和大语言模型进行视频理解的方法极大超越了传统的视频行为分类模型。由于大语言模型可以很好地进行信息的归纳和推理,因此可以将视频帧的特征输入大语言模型,从而得到每一帧的场景描... 近年来,随着语言-视觉模型的快速发展,结合视觉编码器和大语言模型进行视频理解的方法极大超越了传统的视频行为分类模型。由于大语言模型可以很好地进行信息的归纳和推理,因此可以将视频帧的特征输入大语言模型,从而得到每一帧的场景描述,最终整理成一个视频的详细信息。尽管上述方法可以得到一个视频非常详尽的描述,但是却忽略了视频中不同场景的重要性,从而无法准确理解视频中的关键信息。文章提出了一种基于动态时序划分的视频理解方法,首先根据场景对视频进行切片,然后通过一个自适应的重要性评估网络计算每个视频切片的重要性得分,最后基于重要性得分将每个视频切片的特征进行加权平均得到最终的视频特征。相较于直接提取视频特征的方法,该方法所获取的视频特征结合了不同视频片段的重要性,更容易理解视频中的关键信息。该方法在多个视频理解基准上进行实验,均获得5%~10%的提升,充分证明了该方法在视频理解中的有效性。 展开更多
关键词 语言-视觉模型 动态时序划分 视频切片 视频理解
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部