期刊文献+
共找到44篇文章
< 1 2 3 >
每页显示 20 50 100
A Sentence Retrieval Generation Network Guided Video Captioning
1
作者 Ou Ye Mimi Wang +3 位作者 Zhenhua Yu Yan Fu Shun Yi Jun Deng 《Computers, Materials & Continua》 SCIE EI 2023年第6期5675-5696,共22页
Currently,the video captioning models based on an encoder-decoder mainly rely on a single video input source.The contents of video captioning are limited since few studies employed external corpus information to guide... Currently,the video captioning models based on an encoder-decoder mainly rely on a single video input source.The contents of video captioning are limited since few studies employed external corpus information to guide the generation of video captioning,which is not conducive to the accurate descrip-tion and understanding of video content.To address this issue,a novel video captioning method guided by a sentence retrieval generation network(ED-SRG)is proposed in this paper.First,a ResNeXt network model,an efficient convolutional network for online video understanding(ECO)model,and a long short-term memory(LSTM)network model are integrated to construct an encoder-decoder,which is utilized to extract the 2D features,3D features,and object features of video data respectively.These features are decoded to generate textual sentences that conform to video content for sentence retrieval.Then,a sentence-transformer network model is employed to retrieve different sentences in an external corpus that are semantically similar to the above textual sentences.The candidate sentences are screened out through similarity measurement.Finally,a novel GPT-2 network model is constructed based on GPT-2 network structure.The model introduces a designed random selector to randomly select predicted words with a high probability in the corpus,which is used to guide and generate textual sentences that are more in line with human natural language expressions.The proposed method in this paper is compared with several existing works by experiments.The results show that the indicators BLEU-4,CIDEr,ROUGE_L,and METEOR are improved by 3.1%,1.3%,0.3%,and 1.5%on a public dataset MSVD and 1.3%,0.5%,0.2%,1.9%on a public dataset MSR-VTT respectively.It can be seen that the proposed method in this paper can generate video captioning with richer semantics than several state-of-the-art approaches. 展开更多
关键词 Video captioning encoder-decoder sentence retrieval external corpus RS GPT-2 network model
下载PDF
基于全局与序列混合变分Transformer的多样化图像描述生成方法 被引量:3
2
作者 刘兵 李穗 +1 位作者 刘明明 刘浩 《电子学报》 EI CAS CSCD 北大核心 2024年第4期1305-1314,共10页
多样化图像描述生成已成为图像描述领域研究热点.然而,现有方法忽视了全局和序列隐向量之间的依赖关系,严重限制了图像描述性能的提升.针对该问题,本文提出了基于混合变分Transformer的多样化图像描述生成框架.具体地,首先构建全局与序... 多样化图像描述生成已成为图像描述领域研究热点.然而,现有方法忽视了全局和序列隐向量之间的依赖关系,严重限制了图像描述性能的提升.针对该问题,本文提出了基于混合变分Transformer的多样化图像描述生成框架.具体地,首先构建全局与序列混合条件变分自编码模型,解决全局与序列隐向量之间依赖关系表示的问题.其次,通过最大化条件似然推导混合模型的变分证据下界,解决多样化图像描述目标函数设计问题.最后,无缝融合Transformer和混合变分自编码模型,通过联合优化提升多样化图像描述的泛化性能.在MSCOCO数据集上实验结果表明,与当前最优基准方法相比,在随机生成20和100个描述语句时,多样性指标m-BLEU(mutual overlap-BiLingual Evaluation Understudy)分别提升了4.2%和4.7%,同时准确性指标CIDEr(Consensus-based Image Description Evaluation)分别提升了4.4%和15.2%. 展开更多
关键词 图像理解 图像描述 变分自编码 隐嵌入 多模态学习 生成模型
下载PDF
基于条件变分推断与内省对抗学习的多样化图像描述生成
3
作者 刘兵 李穗 +1 位作者 刘明明 刘浩 《电子学报》 EI CAS CSCD 北大核心 2024年第7期2219-2227,共9页
现有多样化图像描述生成方法受到隐空间表示能力和评价指标制约,很难同时兼顾描述生成的多样性和准确性.为此,本文提出了一种新的多样化图像描述生成模型,该模型由一个条件变分推断编码器和一个生成器组成.编码器利用全局注意力学习每... 现有多样化图像描述生成方法受到隐空间表示能力和评价指标制约,很难同时兼顾描述生成的多样性和准确性.为此,本文提出了一种新的多样化图像描述生成模型,该模型由一个条件变分推断编码器和一个生成器组成.编码器利用全局注意力学习每个单词的隐向量空间,以提升模型对描述多样化的建模能力.生成器根据给定图像和序列隐向量生成多样化的描述语句.同时,引入内省对抗学习的思想,条件变分推断编码器同时作为鉴别器来区分真实描述和生成的描述,赋予模型自我评价生成的描述语句的能力,克服预定义评价指标的局限性.在MSCOCO数据集上的实验表明,与传统方法相比,在随机生成100个描述语句时,多样性指标mBLEU(mutual overlap-BiLingual Evaluation Understudy)提升了1.9%,同时准确性指标CIDEr(Consensus-based Image Description Evaluation)显著提升了7.5%.与典型多模态大模型相比,所提出方法在较小参数量的条件下更适用于生成多样化的陈述性描述语句. 展开更多
关键词 图像描述 变分推断 对抗学习 隐嵌入 多模态学习 生成模型
下载PDF
基于Transformer视觉特征融合的图像描述方法
4
作者 白雪冰 车进 +1 位作者 吴金蔓 陈玉敏 《计算机工程》 CAS CSCD 北大核心 2024年第8期229-238,共10页
现有图像描述方法只利用区域型视觉特征生成描述语句,忽略了网格型视觉特征的重要性,并且均为两阶段方法,从而影响了图像描述的质量。针对该问题,提出一种基于Transformer视觉特征融合的端到端图像描述方法。首先,在特征提取阶段,利用... 现有图像描述方法只利用区域型视觉特征生成描述语句,忽略了网格型视觉特征的重要性,并且均为两阶段方法,从而影响了图像描述的质量。针对该问题,提出一种基于Transformer视觉特征融合的端到端图像描述方法。首先,在特征提取阶段,利用视觉特征提取器提取出区域型视觉特征和网格型视觉特征;其次,在特征融合阶段,通过视觉特征融合模块对区域型视觉特征和网格型视觉特征进行拼接;最后,将所有的视觉特征送入语言生成器中以生成图像描述。该方法各部分均基于Transformer模型实现,实现了一阶段方法。在MS-COCO数据集上的实验结果表明,所提方法能够充分利用区域型视觉特征与网格型视觉特征的优势,BLEU-1、BLEU-4、METEOR、ROUGE-L、CIDEr、SPICE指标分别达到83.1%、41.5%、30.2%、60.1%、140.3%、23.9%,优于目前主流的图像描述方法,能够生成更加准确和丰富的描述语句。 展开更多
关键词 图像描述 区域型视觉特征 网格型视觉特征 Transformer模型 端到端训练
下载PDF
长视频的超级帧切割视觉内容解释方法
5
作者 魏英姿 刘王杰 《北京工业大学学报》 CAS CSCD 北大核心 2024年第7期805-813,共9页
针对现有基于编码解码的视频描述方法存在的对视频较长、在视频场景切换频繁情况下视觉特征提取能力不足或关键性片段捕获能力不足等视频描述不佳的问题,提出一种基于超级帧切割长视频的视频字幕方法。首先,提出超级帧提取算法,计算关... 针对现有基于编码解码的视频描述方法存在的对视频较长、在视频场景切换频繁情况下视觉特征提取能力不足或关键性片段捕获能力不足等视频描述不佳的问题,提出一种基于超级帧切割长视频的视频字幕方法。首先,提出超级帧提取算法,计算关键视频时间占比率以满足视频浏览时长限制,缩短视频检索时间。然后,构建两层筛选模型以自适应提取超级帧,过滤冗余关键帧,执行多场景语义描述。将保留的关键帧嵌入周围帧,利用深层网络模型以及小卷积核池化采样域获取更多的视频特征,克服了经典视频标题方法不能直接用于处理长视频的困难。最后,通过用长短时记忆模型代替循环神经网络解码生成视频标题,给出视频内容的分段解释信息。在YouTube数据集视频、合成视频和监控长视频上进行测试,采用多种机器翻译评价指标评估了该方法的性能,均获得了不同程度的提升。实验结果表明,该方法在应对视频场景切换频繁、视频较长等挑战时,能够获得较好的片段描述。 展开更多
关键词 超级帧切割 时间占比率 多场景语义 视觉特征 长短时记忆模型 视频标题
下载PDF
基于事件最大边界的密集视频描述方法
6
作者 陈劭武 胡慧君 刘茂福 《中国科技论文》 CAS 2024年第2期169-177,共9页
针对基于集合预测的密集视频描述方法由于缺乏显式的事件间特征交互且未针对事件间差异训练模型而导致的模型重复预测事件或生成语句雷同问题,提出一种基于事件最大边界的密集视频描述(dense video captioning based on event maximal m... 针对基于集合预测的密集视频描述方法由于缺乏显式的事件间特征交互且未针对事件间差异训练模型而导致的模型重复预测事件或生成语句雷同问题,提出一种基于事件最大边界的密集视频描述(dense video captioning based on event maximal margin,EMM-DVC)方法。事件边界是包含事件间特征相似度、事件在视频中时间位置的距离、生成描述多样性的评分。EMM-DVC通过最大化事件边界,使相似预测结果的距离远且预测结果和实际事件的距离近。另外,EMM-DVC引入事件边界距离损失函数,通过扩大事件边界距离,引导模型关注不同事件。在ActivityNet Captions数据集上的实验证明,EMM-DVC与同类密集视频描述模型相比能生成更具多样性的描述文本,并且与主流密集视频描述模型相比,EMM-DVC在多个指标上达到最优水平。 展开更多
关键词 密集视频描述 多任务学习 端到端模型 集合预测
下载PDF
基于差异化和空间约束的自动图像描述模型
7
作者 姜文晖 陈志亮 +2 位作者 程一波 方玉明 左一帆 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期456-465,共10页
多头注意力机制是图像描述模型的常用方法,该机制通过多分支结构构建关于输入特征的独特属性,以提高特征模型的区分性。然而,不同分支的独立性导致建模存在冗余性。同时,注意力机制会关注于不重要的图像区域,导致描述的文本不够准确。... 多头注意力机制是图像描述模型的常用方法,该机制通过多分支结构构建关于输入特征的独特属性,以提高特征模型的区分性。然而,不同分支的独立性导致建模存在冗余性。同时,注意力机制会关注于不重要的图像区域,导致描述的文本不够准确。针对上述问题,提出一种损失函数作为训练目标的正则化项,以提高多头注意力机制的多样性和准确性。在多样性方面,提出一种多头注意力的差异化正则,鼓励多头注意力机制的不同分支关注于所描述目标的不同部件,使不同分支的建模目标变得简单。同时,不同分支相互融合,最后形成完整且更有区分性的视觉描述。在准确性方面,设计一种空间一致性正则。通过建模多头注意力机制的空间关联,鼓励注意力机制关注的图像区域尽可能集中,从而抑制背景区域的影响,提高注意力机制的准确性。提出差异化正则和空间一致性正则共同作用的方法,最终提升自动图像描述模型的准确性。所提方法在MS COCO数据集上对模型进行验证,并与多种代表性工作进行对比。实验结果表明:所提方法显著地提高了图像描述的准确性。 展开更多
关键词 多头注意力机制 图像描述 差异性 空间约束 模态融合
下载PDF
融合全局语义的CLIP-GPT图像描述模型
8
作者 陶锐 任洪娥 曹海燕 《哈尔滨理工大学学报》 CAS 北大核心 2024年第2期16-24,共9页
图像描述是指为图像自动生成与其内容相符的语言描述。桥接计算机视觉和自然语言处理两个领域的预训练模型构建图像描述模型时,跨模态语义一致性是共享子空间嵌入的核心问题。本文将图像拆分成若干片作为视觉语义单元与语言特征进行自... 图像描述是指为图像自动生成与其内容相符的语言描述。桥接计算机视觉和自然语言处理两个领域的预训练模型构建图像描述模型时,跨模态语义一致性是共享子空间嵌入的核心问题。本文将图像拆分成若干片作为视觉语义单元与语言特征进行自由的跨模态关联,突破了有限视觉特征分类的限制;联合运用掩码学习和图文特征匹配两个损失函数,挑选高难度负样本训练跨模态跳接网络提取一致性全局语义,提高了子空间邻域内高相似度图文特征点匹配的准确度。在MS COCO和Flickr30k两个数据集上的实验结果表明,与同样采用CLIP+GPT生成图像描述的模型及其他主流模型相比,性能均有提升,证明了所提出模型的有效性。 展开更多
关键词 跨模态 图像描述 预训练模型 共享子空间 语义对齐
下载PDF
基于知识蒸馏的视频描述轻量化模型及性能优化
9
作者 陈凯 唐振华 +1 位作者 崔振雷 李健泽 《无线电工程》 2024年第11期2547-2557,共11页
视频描述生成是利用计算机视觉和自然语言处理技术将视频内容转化为文字描述的过程,具有广泛的应用场景,包括信号识别与解码、网络视频会议、视频监控和安防、视频翻译和内容检索等。基于深度学习的视频描述生成模型在性能方面取得了显... 视频描述生成是利用计算机视觉和自然语言处理技术将视频内容转化为文字描述的过程,具有广泛的应用场景,包括信号识别与解码、网络视频会议、视频监控和安防、视频翻译和内容检索等。基于深度学习的视频描述生成模型在性能方面取得了显著突破。这些模型的计算量和复杂度往往较高,难以在计算资源有限的移动通信终端上部署和应用。为了解决这一问题,提出了2种轻量化模型,分别用于通用视频描述生成和密集视频描述生成任务。以UniVL模型为基准,通过实验确定了满足视频描述任务的最小模型架构。为进一步减小模型的大小,提出了自适应嵌入的压缩策略,根据不同视频数据集类型进行模型压缩。采用了不同层信息的知识蒸馏技术对所提出的轻量化模型进行优化训练,与教师模型进行充分的信息交互,提高轻量化模型的性能。实验结果表明,与基准模型相比,所提出的轻量化模型的参数量能够降低75%,性能指标下降不超过10%。 展开更多
关键词 视频描述生成 模型压缩 轻量化 知识蒸馏 预训练模型
下载PDF
CIC-CGT:基于多模态大模型的漫画图像标题与描述生成
10
作者 李嘉鑫 汤鹏杰 +1 位作者 谭云兰 张丽 《井冈山大学学报(自然科学版)》 2024年第6期77-86,共10页
不同于传统的图像描述任务,漫画图像描述不仅涉及图像识别与自然语言处理,同时还要求模型能够深入理解漫画所特有的幽默、文化和情感属性。针对上述挑战,本研究提出了漫画图像标题与描述生成任务,基于多模态大模型,设计了一种新的漫画... 不同于传统的图像描述任务,漫画图像描述不仅涉及图像识别与自然语言处理,同时还要求模型能够深入理解漫画所特有的幽默、文化和情感属性。针对上述挑战,本研究提出了漫画图像标题与描述生成任务,基于多模态大模型,设计了一种新的漫画标题与描述生成框架(CIC-CGT)。首先,通过CLIP大模型提取漫画图像特征,将获取的特征信息送入前缀嵌入映射模块,获得视觉语言对齐语义表达。然后将其送入GPT2模型,再合CLIP视觉特征,生成粗糙语言描述。最后,将粗糙描述送入T5模型进行语言特征编码,并解码为最终的漫画标题描述。在漫画图像描述数据集NYCCB上结果显示,本研究所提模型能够生成不同风格的漫画标题与描述,能够准确捕捉并表达漫画独有的幽默感和情感深度。 展开更多
关键词 大模型 漫画图像 标题生成与描述 跨模态学习 自然语言处理
下载PDF
基于改进Transformer的多尺度图像描述生成
11
作者 崔衡 张海涛 +1 位作者 杨剑 杜宝昌 《软件导刊》 2024年第7期160-166,共7页
Transformer模型被广泛应用于图像描述生成任务中,但存在以下问题:(1)依赖复杂神经网络对图像进行预处理;(2)自注意力具有二次计算复杂度;(3)Masked Self-Attention缺少图像引导信息。为此,提出改进Transformer的多尺度图像描述生成模... Transformer模型被广泛应用于图像描述生成任务中,但存在以下问题:(1)依赖复杂神经网络对图像进行预处理;(2)自注意力具有二次计算复杂度;(3)Masked Self-Attention缺少图像引导信息。为此,提出改进Transformer的多尺度图像描述生成模型。首先,将图像划分为多尺度图像块以获取多层次图像特征,并将其通过线性映射作为Transformer的输入,避免了复杂神经网络预处理的步骤,从而提升了模型训练与推理速度;其次,在编码器中使用线性复杂度的记忆注意力,通过可学习的共享记忆单元学习整个数据集的先验知识,挖掘样本间潜在的相关性;最后,在解码器中引入视觉引导注意力,将视觉特征作为辅助信息指导解码器生成与图像内容更为匹配的语义描述。在COCO2014数据集上的测试结果表明,与基础模型相比,改进模型在CIDEr、METEOR、ROUGE和SPICE指标分数方面分别提高了2.6、0.7、0.4、0.7。基于改进Transformer的多尺度图像描述生成模型能生成更加准确的语言描述。 展开更多
关键词 图像描述 Transformer模型 记忆注意力 多尺度图像 自注意力
下载PDF
基于支持向量机的视频字幕自动定位与提取 被引量:38
12
作者 庄越挺 刘骏伟 +2 位作者 吴飞 潘云鹤 张引 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2002年第8期750-753,771,共5页
视频字幕蕴含了丰富语义 ,可用于对相应视频流进行高级语义标注 .文中首先将原始图像帧分割为 N× N的子块 ,提取每个子块的灰度特征 ;然后使用预先训练好的 SVM分类机进行字幕子块和非字幕子块的分类 ;最后结合金字塔模型和后期处... 视频字幕蕴含了丰富语义 ,可用于对相应视频流进行高级语义标注 .文中首先将原始图像帧分割为 N× N的子块 ,提取每个子块的灰度特征 ;然后使用预先训练好的 SVM分类机进行字幕子块和非字幕子块的分类 ;最后结合金字塔模型和后期处理过程 ,实现视频图像字幕区域的自动定位提取 . 展开更多
关键词 支持向量机 视频字幕 自动定位 金字塔模型 自动提取 视频处理
下载PDF
基于SVM和ICA的视频帧字幕自动定位与提取 被引量:8
13
作者 刘骏伟 庄越挺 吴飞 《中国图象图形学报(A辑)》 CSCD 北大核心 2003年第11期1334-1340,共7页
视频字幕蕴涵了丰富语义,可以用来对相应视频流进行高级语义标注,但由于先前视频字幕提取考虑的只是如何尽可能定义好字幕特征,而忽视了分类学习机自身的学习推广能力.针对这一局限性,提出了一种基于支持向量机和独立分量分析的视频帧... 视频字幕蕴涵了丰富语义,可以用来对相应视频流进行高级语义标注,但由于先前视频字幕提取考虑的只是如何尽可能定义好字幕特征,而忽视了分类学习机自身的学习推广能力.针对这一局限性,提出了一种基于支持向量机和独立分量分析的视频帧字幕定位与提取算法.该算法是首先将原始图象帧分割成N×N大小子块,同时将每个子块标注为字幕块和非字幕块两类;然后从每个子块提取能够保持相互高阶独立的独立分量特征去训练支持向量机分类器;最后结合金字塔模型和去噪方法,用训练好的支持向量机来实现对视频字幕区域自动定位提取.由于支持向量机能够在样本不是很多的情况下,具有良好的分类推广能力以及能使独立成分特征之间彼此保持高阶独立性,与其他视频帧字幕定位提取算法比较的结果表明,该算法具有明显的优点. 展开更多
关键词 SVM ICA 视频帧 字幕自动定位 支持向量机 金字塔模型
下载PDF
利用时空特性的字幕检测与定位算法 被引量:2
14
作者 郭戈 平西建 +1 位作者 张涛 徐长勇 《小型微型计算机系统》 CSCD 北大核心 2009年第10期2054-2058,共5页
提出一种视频字幕的检测与定位算法.利用视频字幕在时间上的冗余特性,以镜头为基本处理单元,采用监视-跟踪模型和扩展QSDD(PQSDD)度量来定位字幕的起始帧和终止帧,利用起始帧和终止帧确定起始字幕转换帧对和终止字幕转换帧对;对各帧对... 提出一种视频字幕的检测与定位算法.利用视频字幕在时间上的冗余特性,以镜头为基本处理单元,采用监视-跟踪模型和扩展QSDD(PQSDD)度量来定位字幕的起始帧和终止帧,利用起始帧和终止帧确定起始字幕转换帧对和终止字幕转换帧对;对各帧对的差值图像利用边缘特性分别进行字幕定位,并提出一种基于背景复杂度的自适应阈值选取算法实现对边缘图像的二值化;最后对两幅差值图像定位出的字幕区域做逻辑与运算和连通区域分析得到最终的字幕区域.实验结果表明本文算法具有较高的检测速度和定位精度. 展开更多
关键词 时空特性 字幕监视-跟踪模型 字幕转换帧对 扩展QSDD(PQSDD) 动态阈值选取
下载PDF
基于双注意模型的图像描述生成方法研究 被引量:6
15
作者 卓亚琦 魏家辉 李志欣 《电子学报》 EI CAS CSCD 北大核心 2022年第5期1123-1130,共8页
现有图像描述生成方法的注意模型通常采用单词级注意,从图像中提取局部特征作为生成当前单词的视觉信息输入,缺乏准确的图像全局信息指导.针对这个问题,提出基于语句级注意的图像描述生成方法,通过自注意机制从图像中提取语句级的注意信... 现有图像描述生成方法的注意模型通常采用单词级注意,从图像中提取局部特征作为生成当前单词的视觉信息输入,缺乏准确的图像全局信息指导.针对这个问题,提出基于语句级注意的图像描述生成方法,通过自注意机制从图像中提取语句级的注意信息,来表示生成语句所需的图像全局信息.在此基础上,结合语句级注意和单词级注意进一步提出了双注意模型,以此来生成更准确的图像描述.通过在模型的中间阶段实施监督和优化,以解决信息间的干扰问题.此外,将强化学习应用于两阶段的训练来优化模型的评估度量.通过在MSCOCO和Flickr30K两个基准数据集上的实验评估,结果表明本文提出的方法能够生成更加准确和丰富的描述语句,并且在各项评价指标上优于现有的多种基于注意机制的方法. 展开更多
关键词 图像描述生成 编码器-解码器架构 单词级注意 语句级注意 双注意模型 强化学习
下载PDF
基于融合门网络的图像理解算法设计与应用 被引量:4
16
作者 周自维 王朝阳 徐亮 《光学精密工程》 EI CAS CSCD 北大核心 2021年第4期906-915,共10页
为了提高图像理解(Image Captioning)的预测性能,设计了一种基于"融合门"的深度神经网络模型。该"融合门"网络模型基于编码器-解码器结构设计,是卷积神经网络与循环神经网络的融合。算法首先将输入图像通过VGGNet-1... 为了提高图像理解(Image Captioning)的预测性能,设计了一种基于"融合门"的深度神经网络模型。该"融合门"网络模型基于编码器-解码器结构设计,是卷积神经网络与循环神经网络的融合。算法首先将输入图像通过VGGNet-16网络进行卷积,得到对应的4096维输出向量,然后将卷积后的输出向量与标注语句向量合并,作为输入向量进入改进后的"融合门"网络,最后获得新的网络输出结果。上述过程按照时间步逐次迭代,最终完成网络训练。使用权威的CIDEr评价指标来评估该"融合门"网络的预测结果,实验结果表明,该网络的CIDEr值比"Neural Talk"网络的CIDEr值提高10.56%,其他相关的评价指标也有较大幅度提高。该网络结构不但预测指标高,而且其网络参数个数比"注意力机制"网络参数少21.1%,所需要的计算机资源更少,这使得将该网络应用在边缘计算中成为可能,对图像理解成果的推广起到关键作用。 展开更多
关键词 图像理解 长短时记忆网络 卷积神经网络 注意力机制
下载PDF
基于图神经网络和引导向量的图像字幕生成模型 被引量:2
17
作者 佟国香 李乐阳 《数据采集与处理》 CSCD 北大核心 2023年第1期209-219,共11页
近年来,深度学习已在图像字幕技术研究中展现其优势。在深度学习模型中,图像中对象之间的关系在图像表示中起着重要作用。为了更好地检测图像中的视觉关系,本文基于图神经网络和引导向量构建了图像字幕生成模型(YOLOv4-GCN-GRU,YGG)。... 近年来,深度学习已在图像字幕技术研究中展现其优势。在深度学习模型中,图像中对象之间的关系在图像表示中起着重要作用。为了更好地检测图像中的视觉关系,本文基于图神经网络和引导向量构建了图像字幕生成模型(YOLOv4-GCN-GRU,YGG)。该模型利用图像中被检测到的对象的空间和语义信息建立成图,利用图卷积神经网络(Graph convolutional network,GCN)作为编码器对图的每个区域进行表示。在字幕生成阶段,额外训练一个引导神经网络来产生引导向量,从而辅助生成模型自动生成语句。基于MSCOCO图像数据集的对比实验表明,YGG模型具有更好的性能,将CIDEr-D的性能从138.9%提高到了142.1%。 展开更多
关键词 图像字幕 空间语义图 图卷积神经网络 引导向量 生成模型
下载PDF
基于场景表示中对象特征语法分析的视频描述 被引量:1
18
作者 付燕 王咪咪 叶鸥 《计算机工程与设计》 北大核心 2023年第2期488-493,共6页
为解决基于编码器-解码器的视频描述方法中存在忽略特征语法分析,造成描述语句语法结构不清晰的问题,提出一种基于场景表示中对象特征语法分析的视频描述方法。编码阶段将视频的2D、C3D特征、对象特征和自注意力机制相结合,构建视觉场... 为解决基于编码器-解码器的视频描述方法中存在忽略特征语法分析,造成描述语句语法结构不清晰的问题,提出一种基于场景表示中对象特征语法分析的视频描述方法。编码阶段将视频的2D、C3D特征、对象特征和自注意力机制相结合,构建视觉场景表示模型,描述视觉特征间的依赖关系;构建视觉对象特征语法分析模型,分析对象特征在描述语句中的语法成分;解码阶段结合语法分析结果和LSTM网络模型,输出视频描述语句。所提方法在MSVD和MSR-VTT数据集进行实验,结果表明,该方法在不同评价指标方面性能较好,视频描述语句的语法结构清晰。 展开更多
关键词 视频描述 编码器-解码器模型 特征提取 自注意力机制 对象特征 视觉场景表示 语法分析
下载PDF
基于ViT与语义引导的视频内容描述生成 被引量:1
19
作者 赵宏 陈志文 +1 位作者 郭岚 安冬 《计算机工程》 CAS CSCD 北大核心 2023年第5期247-254,共8页
现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(S... 现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(SDN)。在此基础上,通过ViT模型对静态和动态视觉特征进行全局编码,并与SDN提取的语义特征进行注意力融合,采用语义长短期记忆网络对融合特征进行解码,生成视频对应的描述文本。通过引入视频中的语义特征能够引导模型生成更符合人类习惯的描述,使生成的描述更具可读性。在MSR-VTT数据集上的测试结果表明,该模型的BLEU-4、METEOR、ROUGE-L和CIDEr指标分别为44.8、28.9、62.8和51.1,相比于当前主流的视频内容描述模型ADL和SBAT,提升的得分总和达到16.6和16.8。 展开更多
关键词 视频内容描述 视频理解 ViT模型 语义引导 长短期记忆网络 注意力机制
下载PDF
视频中的字幕提取 被引量:6
20
作者 王琦 陈临强 梁旭 《计算机工程与应用》 CSCD 2012年第5期177-178,216,共3页
提出一种综合运用文字边缘特征、颜色信息以及视频时空特性的字幕提取方法。通过边缘检测获取字幕位置进而得到文字颜色,采用全局混合高斯模型对颜色建模,建模完成后直接利用模型从视频文字变化帧中提取文字颜色层。在判断字幕是否变化... 提出一种综合运用文字边缘特征、颜色信息以及视频时空特性的字幕提取方法。通过边缘检测获取字幕位置进而得到文字颜色,采用全局混合高斯模型对颜色建模,建模完成后直接利用模型从视频文字变化帧中提取文字颜色层。在判断字幕是否变化时,提出了"与"掩码图的方法。实验结果表明,对于复杂背景下包含1~2种颜色字幕颜色的视频,该方法具有良好的提取效果。 展开更多
关键词 视频字幕提取 边缘检测 颜色建模 文字掩码图
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部