期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
融合多标签和双注意力机制的图像语义理解模型 被引量:1
1
作者 吴倩 应捷 +2 位作者 黄影平 杨海马 胡文凯 《智能计算机与应用》 2020年第1期12-21,共10页
针对现有图像语义理解模型存在描述不充分以及视觉属性冗余的问题,提出了一种带有视觉三元组标签且能够挖掘潜在信息的图像语义理解模型VT-BLSTM。首先,使用卷积神经网络提取图像的全局特征和视觉三元组标签;其次,构建双向长短期神经网... 针对现有图像语义理解模型存在描述不充分以及视觉属性冗余的问题,提出了一种带有视觉三元组标签且能够挖掘潜在信息的图像语义理解模型VT-BLSTM。首先,使用卷积神经网络提取图像的全局特征和视觉三元组标签;其次,构建双向长短期神经网络,并利用改进的双注意力模型分别获得动态视觉特征和动态文本特征,融合该两者特征得到视觉语义上下文;最后,融合视觉语义上下文、视觉三元组和神经网络隐含层特征,比较前向和后向长短期神经网络的输出结果,得到对应时刻的单词。在Flickr8K和Flickr30K数据集上的实验结果表明,本文提出的双注意力模型VT-BLSTM能够自主地选择文本特征和视觉特征参与生成单词的比例,并且结合历史时刻和未来时刻获得更丰富的视觉信息,在少量视觉属性的前提下也能生成质量较高的句子,并在多个统计指标上超过同类其他方法。 展开更多
关键词 图像语义理解 双向长短期记忆网络 视觉属性 注意力机制
下载PDF
基于文本感知和非重复单词生成的图像语义理解 被引量:1
2
作者 杨晨露 万旺根 +2 位作者 王旭智 孙学涛 张振 《工业控制计算机》 2023年第11期105-106,109,共3页
在描述图像时,阅读视觉场景中的文本对于理解关键信息至关重要。传统的视觉语言预训练任务都无法指导模型关注图像中的文本信息,以及图像中的文本信息和图像内容的关系。针对此问题,提出基于图像文本信息的预训练任务,包括掩模语言建模(... 在描述图像时,阅读视觉场景中的文本对于理解关键信息至关重要。传统的视觉语言预训练任务都无法指导模型关注图像中的文本信息,以及图像中的文本信息和图像内容的关系。针对此问题,提出基于图像文本信息的预训练任务,包括掩模语言建模(MLM)、图像-文本匹配(ITM)以及相对空间位置预测(RPP)。在解码过程中,为解决生成语句冗余问题,提出重复掩码模块,以避免预测语句中出现重复的单词。最后在Textcaps数据集上的实验结果表明,所提的方法可以有效地提高生成描述语句的准确率。 展开更多
关键词 图像语义理解 自然语言处理 视觉-语言预训练任务 TRANSFORMER
下载PDF
引入词向量和双注意力机制的图像语义理解 被引量:1
3
作者 董冰 王玉德 《通信技术》 2020年第12期2947-2953,共7页
针对图像语义理解任务中如何在单词生成的不同阶段有效地利用图像局部信息和语义信息,提出了一种引入词向量和双注意力机制的图像语义理解算法。该算法采用编码器-解码器结构,利用Resnet-50网络模型提取图像的底层特征,应用输入阶段和... 针对图像语义理解任务中如何在单词生成的不同阶段有效地利用图像局部信息和语义信息,提出了一种引入词向量和双注意力机制的图像语义理解算法。该算法采用编码器-解码器结构,利用Resnet-50网络模型提取图像的底层特征,应用输入阶段和输出阶段分别引入了注意力机制的长短期记忆网络实现,图像特征到图像语义的变换,同时在每个解码阶段都引入了表征语义信息的词向量。在MS COCO2014数据库上进行训练和测试,从实验结果可知,提出的算法能更高效地利用图像的局部特征信息和语义信息,生成的图像语义表达更加准确,且BLEU、ROUGE-L等评价指标均有提升。 展开更多
关键词 图像语义理解 双注意力机制 长短期记忆网络 词向量
下载PDF
基于图像搜索与合成的图像语义理解
4
作者 龚学尧 赵逢禹 《计算机技术与发展》 2022年第6期57-62,共6页
图像语义理解是计算机视觉的重要研究领域,对于人工智能的发展具有重大的现实意义,当前大部分的方法在生成多样化的图像语义方面还存在着不足,因此提出了一种基于图像搜索的图像语义合成方法。该方法首先将图像输入搜索引擎以获得相似... 图像语义理解是计算机视觉的重要研究领域,对于人工智能的发展具有重大的现实意义,当前大部分的方法在生成多样化的图像语义方面还存在着不足,因此提出了一种基于图像搜索的图像语义合成方法。该方法首先将图像输入搜索引擎以获得相似图像及其携带的描述;其次通过目标检测算法对图像中的目标进行识别以获得图像内目标词及目标框图像;然后计算图像相似度并比较描述文本中的目标词,利用相似度与共有目标词形成度量指标,提取搜索获得的描述文本中最符合原图像语义的文本作为基础文本;最后利用基础文本中缺失的目标词对应的文本与基础文本合成从而获得图像语义。在MSCOCO数据集上的实验结果表明,该方法借助搜索引擎与语义合成可以有效地反映图像语义,相较于其他图像语义理解算法能够更准确地识别图像中的物体,输出更全面的图像语义;对于图像中的内容能够进行更加多样化的描述。 展开更多
关键词 图像语义理解 图像识别 搜索引擎 图相似计算 语义合成
下载PDF
基于自适应注意力机制的图像语义理解算法研究
5
作者 高玥 万旺根 《工业控制计算机》 2020年第7期78-79,83,共3页
提出了一种基于自适应注意力机制的图像语义理解算法。图像语义理解是对图像内容在文字上进行有意义的解释和描述,但是使用逻辑通顺并且语义正确的语句来描述图像极具挑战性。传统的图像语义理解模型更加关注于图像内容和语义的正确对应... 提出了一种基于自适应注意力机制的图像语义理解算法。图像语义理解是对图像内容在文字上进行有意义的解释和描述,但是使用逻辑通顺并且语义正确的语句来描述图像极具挑战性。传统的图像语义理解模型更加关注于图像内容和语义的正确对应,而忽略了图像中的空间信息在语义中的体现。为了学习到图像中物体之间的空间信息,在算法中加入自适应注意力机制。实验证明,改进的图像语义理解算法能够更好地表达出图像中有什么物体、物体之间的相互关系等内容。 展开更多
关键词 图像语义理解 自适应算法 注意力机制 深度学习
下载PDF
基于全局交互的图像语义理解方法 被引量:3
6
作者 库涛 熊艳彬 +2 位作者 杨楠 林乐新 朱珠 《控制与决策》 EI CSCD 北大核心 2020年第9期2103-2111,共9页
针对图像语义生成过程中图像信息易模糊的问题,提出基于双向门控循环单元(GRU)和图像信息全局交互相结合的图像语义生成模型,通过图像和文本数据进行正则化处理和文本向量映射方法,实现模型驱动的图像语义生成.实验结果表明,所提出模型... 针对图像语义生成过程中图像信息易模糊的问题,提出基于双向门控循环单元(GRU)和图像信息全局交互相结合的图像语义生成模型,通过图像和文本数据进行正则化处理和文本向量映射方法,实现模型驱动的图像语义生成.实验结果表明,所提出模型能较好地解决数据稀疏和偏态问题,采用GUR单元可以进一步降低模型参数规模,加快算法收敛速度,有效抑制模型过拟合,提高图像内容的丰富度、准确性和逻辑性. 展开更多
关键词 卷积神经网络 循环神经网络 图像语义理解 全局交互机制 数据正则化 门控循环单元
原文传递
目标检测中的尺度变换应用综述 被引量:5
7
作者 申奉璨 张萍 +2 位作者 罗金 刘松阳 冯世杰 《中国图象图形学报》 CSCD 北大核心 2020年第9期1754-1772,共19页
目标检测试图用给定的标签标记自然图像中出现的对象实例,已经广泛用于自动驾驶、监控安防等领域。随着深度学习技术的普及,基于卷积神经网络的通用目标检测框架获得了远好于其他方法的目标检测结果。然而,由于卷积神经网络的特性限制,... 目标检测试图用给定的标签标记自然图像中出现的对象实例,已经广泛用于自动驾驶、监控安防等领域。随着深度学习技术的普及,基于卷积神经网络的通用目标检测框架获得了远好于其他方法的目标检测结果。然而,由于卷积神经网络的特性限制,通用目标检测依然面临尺度、光照和遮挡等许多问题的挑战。本文的目的是对卷积神经网络架构中针对尺度的目标检测策略进行全面综述。首先,介绍通用目标检测的发展概况及使用的主要数据集,包括通用目标检测框架的两种类别及发展,详述基于候选区域的两阶段目标检测算法的沿革和结构层面的创新,以及基于一次回归的目标检测算法的3个不同的流派。其次,对针对检测问题中影响效果的尺度问题的优化思路进行简单分类,包括多特征融合策略、针对感受野的卷积变形和训练策略的设计等。最后,给出了各个不同检测框架在通用数据集上对不同尺寸目标的检测准确度,以及未来可能的针对尺度变换的发展方向。 展开更多
关键词 图像语义理解 通用目标检测 卷积神经网络 尺度变换 小目标检测
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部