期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
面向多模态模型训练的高效样本检索技术
1
作者 唐秀 伍赛 +1 位作者 侯捷 陈刚 《软件学报》 EI CSCD 北大核心 2024年第3期1125-1139,共15页
深度学习中,多模态模型的训练通常需要大量高质量不同类型的标注数据,如图像、文本、音频等.然而,获取大规模的多模态标注数据是一项具有挑战性和昂贵的任务.为了解决这一问题,主动学习作为一种有效的学习范式被广泛应用,能够通过有针... 深度学习中,多模态模型的训练通常需要大量高质量不同类型的标注数据,如图像、文本、音频等.然而,获取大规模的多模态标注数据是一项具有挑战性和昂贵的任务.为了解决这一问题,主动学习作为一种有效的学习范式被广泛应用,能够通过有针对性地选择最有信息价值的样本进行标注,从而降低标注成本并提高模型性能.现有的主动学习方法往往面临着低效的数据扫描和数据位置调整问题,当索引需要进行大范围的更新时,会带来巨大的维护代价.为解决这些问题,提出了一种面向多模态模型训练的高效样本检索技术So-CBI.该方法通过感知模型训练类间边界点,精确评估样本对模型的价值;设计了半有序的高效样本索引,通过结合数据排序信息和部分有序性,降低了索引维护代价和时间开销.在多组多模态数据集上通过与传统主动学习训练方法实验对比,验证了So-CBI方法在主动学习下的训练样本检索问题上的有效性. 展开更多
关键词 多模态模型训练 主动学习 样本检索
下载PDF
基于多模态预训练模型的水稻病虫害图像描述生成研究 被引量:2
2
作者 薛悦平 胡彦蓉 +2 位作者 刘洪久 童莉珍 葛万钊 《南京农业大学学报》 CAS CSCD 北大核心 2024年第4期782-791,共10页
[目的]针对水稻病虫害图像分类技术缺少对病症描述的问题,本文提出一种轻量化的水稻病虫害图像描述模型,对水稻病虫害图像进行更为具体的描述。[方法]以白叶枯病、细菌性条斑病、恶苗病、三化螟虫、稻瘟病、稻曲病、纹枯病、飞虱、稻蓟... [目的]针对水稻病虫害图像分类技术缺少对病症描述的问题,本文提出一种轻量化的水稻病虫害图像描述模型,对水稻病虫害图像进行更为具体的描述。[方法]以白叶枯病、细菌性条斑病、恶苗病、三化螟虫、稻瘟病、稻曲病、纹枯病、飞虱、稻蓟马、胡麻斑病这十类常见的水稻病虫害开展研究,构建了水稻病虫害图像中文描述数据集。首先采用多模态预训练模型CLIP生成图像向量,其中包含基本的图像信息以及丰富的语义信息,采用映射网络将图像向量映射到文本空间里生成文本提示向量,语言模型GPT-2根据文本提示向量生成图像描述。[结果]在水稻病虫害图像描述数据集上,本文模型的指标总体明显优于其他模型,本文算法的BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE、METEOR指标较传统的CNN_LSTM模型分别提升0.26、0.27、0.24、0.22、0.22、0.14。生成的图像描述具有准确、详细、语义丰富等优点。另外使用实际稻田图片对模型进行测试,实际田间的场景更为复杂多样,生成的图像描述指标与数据集指标对比总体仅有轻微下降,仍高于其他对比模型。本文模型对水稻病虫害的总体识别准确率达97.28%。[结论]基于多模态预训练模型的水稻病虫害图像描述方法能够准确识别水稻病虫害病症并形成相应的病症描述,为水稻病虫害检测提供一种新思路。 展开更多
关键词 多模态训练模型 水稻病虫害 图像描述生成 诊断
下载PDF
ChatGPT给语言大模型带来的启示和多模态大模型新的发展思路 被引量:81
3
作者 赵朝阳 朱贵波 王金桥 《数据分析与知识发现》 CSSCI CSCD 北大核心 2023年第3期26-35,共10页
【目的】剖析ChatGPT的基础技术原理,探讨其对大语言模型发展产生的影响,以及对多模态大模型发展思路产生的影响。【方法】通过分析ChatGPT的发展过程和技术原理,探讨指令微调、数据采集与标注、基于人类反馈的强化学习等模型构建方法... 【目的】剖析ChatGPT的基础技术原理,探讨其对大语言模型发展产生的影响,以及对多模态大模型发展思路产生的影响。【方法】通过分析ChatGPT的发展过程和技术原理,探讨指令微调、数据采集与标注、基于人类反馈的强化学习等模型构建方法对大语言模型产生的影响。分析当前多模态大模型构建过程中遇到的关键科学问题,并借鉴ChatGPT的技术方案,探讨多模态大模型未来的发展发展思路。【结论】ChatGPT为预训练大模型向下游任务的发展提供了良好的参考技术路径,未来的多模态大模型构建以及下游任务实现过程中,可以充分利用高质量的指令微调等技术来显著提升多模态大模型的下游任务性能。 展开更多
关键词 语言大模型 训练模型 多模态训练模型 ChatGPT
原文传递
基于深度学习的图像-文本匹配研究综述 被引量:6
4
作者 刘萌 齐孟津 +3 位作者 詹圳宇 曲磊钢 聂秀山 聂礼强 《计算机学报》 EI CAS CSCD 北大核心 2023年第11期2370-2399,共30页
图像-文本匹配任务旨在衡量图像和文本描述之间的相似性,其在桥接视觉和语言中起着至关重要的作用.近年来,图像与句子的全局对齐以及区域与单词的局部对齐研究方面取得了很大的进展.本文对当前先进的研究方法进行分类和描述.具体地,本... 图像-文本匹配任务旨在衡量图像和文本描述之间的相似性,其在桥接视觉和语言中起着至关重要的作用.近年来,图像与句子的全局对齐以及区域与单词的局部对齐研究方面取得了很大的进展.本文对当前先进的研究方法进行分类和描述.具体地,本文将现有方法划分为基于全局特征的图像-文本匹配方法、基于局部特征的图像-文本匹配方法、基于外部知识的图像-文本匹配方法、基于度量学习的图像-文本匹配方法以及多模态预训练模型,对于基于全局特征的图像-文本匹配方法,本文依据流程类型划分为两类:基于嵌入的方法和基于交互的方法;而对于基于局部特征的图像-文本匹配方法,依据其交互模式的不同,则被细分为三类:基于模态内关系建模的方法、基于模态间关系建模的方法以及基于混合交互建模的方法.随后,本文对当前图像-文本匹配任务的相关数据集进行了整理,并对现有方法的实验结果进行分析与总结.最后,对未来研究可能面临的挑战进行了展望. 展开更多
关键词 图像-文本匹配 模态图像检索 多模态训练模型 综述 深度学习 人工智能
下载PDF
基于外部知识的视觉问答研究
5
作者 贾少杰 王雷 《电脑知识与技术》 2023年第13期15-18,共4页
视觉问答(Visual Question Answering, VQA)是当前融合计算机视觉领域和自然语言处理领域的典型多模态问题之一,而基于知识的视觉问题回答任务要求模型具有关联外部知识的能力,文章采用多模态数据集当作外部知识源,相比从文本知识库中... 视觉问答(Visual Question Answering, VQA)是当前融合计算机视觉领域和自然语言处理领域的典型多模态问题之一,而基于知识的视觉问题回答任务要求模型具有关联外部知识的能力,文章采用多模态数据集当作外部知识源,相比从文本知识库中提取单模态的文本语义,多模态数据集能够提供视觉问答所需要的多模态知识,能够更好地利用图像中所蕴含的知识,并将其应用到针对图像中问题的回答中。同时,为了能够更轻量级地进行学习,在问题文本中添加并训练了一个前缀prompt,并且冻结了部分的预训练模型参数,通过采用预训练和微调指定未冻结参数的学习策略,逐步积累了基础的多模态知识,用于进行答案的推理。最后,经实验结果证明,文章模型在冻结预训练模型中的大部分参数后,在VQA-V2实验数据集中也具有较好的表现,同时在获取到VQA-V2中的多模态外部知识后,在需要进行推理的数据集OK-VQA数据集上也取得了令人满意的结果,拥有较高的准确率。 展开更多
关键词 视觉问答 prompt tuning 多模态训练模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部