-
题名融合多标签和双注意力机制的图像语义理解模型
被引量:1
- 1
-
-
作者
吴倩
应捷
黄影平
杨海马
胡文凯
-
机构
上海理工大学光电信息与计算机工程学院
上海理工大学测试技术与信息工程研究所
上海市现代光学系统重点实验室(上海理工大学)
-
出处
《智能计算机与应用》
2020年第1期12-21,共10页
-
基金
国家自然科学基金(61701296)
上海市自然科学基金(17ZR1443500).
-
文摘
针对现有图像语义理解模型存在描述不充分以及视觉属性冗余的问题,提出了一种带有视觉三元组标签且能够挖掘潜在信息的图像语义理解模型VT-BLSTM。首先,使用卷积神经网络提取图像的全局特征和视觉三元组标签;其次,构建双向长短期神经网络,并利用改进的双注意力模型分别获得动态视觉特征和动态文本特征,融合该两者特征得到视觉语义上下文;最后,融合视觉语义上下文、视觉三元组和神经网络隐含层特征,比较前向和后向长短期神经网络的输出结果,得到对应时刻的单词。在Flickr8K和Flickr30K数据集上的实验结果表明,本文提出的双注意力模型VT-BLSTM能够自主地选择文本特征和视觉特征参与生成单词的比例,并且结合历史时刻和未来时刻获得更丰富的视觉信息,在少量视觉属性的前提下也能生成质量较高的句子,并在多个统计指标上超过同类其他方法。
-
关键词
图像语义理解
双向长短期记忆网络
视觉属性
注意力机制
-
Keywords
image captioning
bi-directional long short-term memory model
visual attributes
attention mechanism
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于文本感知和非重复单词生成的图像语义理解
被引量:1
- 2
-
-
作者
杨晨露
万旺根
王旭智
孙学涛
张振
-
机构
上海大学通信与信息工程学院
上海大学智慧城市研究院
上海交通大学医学院附属仁济医院宝山分院
-
出处
《工业控制计算机》
2023年第11期105-106,109,共3页
-
文摘
在描述图像时,阅读视觉场景中的文本对于理解关键信息至关重要。传统的视觉语言预训练任务都无法指导模型关注图像中的文本信息,以及图像中的文本信息和图像内容的关系。针对此问题,提出基于图像文本信息的预训练任务,包括掩模语言建模(MLM)、图像-文本匹配(ITM)以及相对空间位置预测(RPP)。在解码过程中,为解决生成语句冗余问题,提出重复掩码模块,以避免预测语句中出现重复的单词。最后在Textcaps数据集上的实验结果表明,所提的方法可以有效地提高生成描述语句的准确率。
-
关键词
图像语义理解
自然语言处理
视觉-语言预训练任务
TRANSFORMER
-
Keywords
image description
natural language processing
vision-language pre-training
Transformer
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名引入词向量和双注意力机制的图像语义理解
被引量:1
- 3
-
-
作者
董冰
王玉德
-
机构
曲阜师范大学
-
出处
《通信技术》
2020年第12期2947-2953,共7页
-
文摘
针对图像语义理解任务中如何在单词生成的不同阶段有效地利用图像局部信息和语义信息,提出了一种引入词向量和双注意力机制的图像语义理解算法。该算法采用编码器-解码器结构,利用Resnet-50网络模型提取图像的底层特征,应用输入阶段和输出阶段分别引入了注意力机制的长短期记忆网络实现,图像特征到图像语义的变换,同时在每个解码阶段都引入了表征语义信息的词向量。在MS COCO2014数据库上进行训练和测试,从实验结果可知,提出的算法能更高效地利用图像的局部特征信息和语义信息,生成的图像语义表达更加准确,且BLEU、ROUGE-L等评价指标均有提升。
-
关键词
图像语义理解
双注意力机制
长短期记忆网络
词向量
-
Keywords
image semantic understanding
biattention mechanism
long and short-term memory network
word vector
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于图像搜索与合成的图像语义理解
- 4
-
-
作者
龚学尧
赵逢禹
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《计算机技术与发展》
2022年第6期57-62,共6页
-
基金
“十三五”密码发展基金理论课题(MMJJ20180202)。
-
文摘
图像语义理解是计算机视觉的重要研究领域,对于人工智能的发展具有重大的现实意义,当前大部分的方法在生成多样化的图像语义方面还存在着不足,因此提出了一种基于图像搜索的图像语义合成方法。该方法首先将图像输入搜索引擎以获得相似图像及其携带的描述;其次通过目标检测算法对图像中的目标进行识别以获得图像内目标词及目标框图像;然后计算图像相似度并比较描述文本中的目标词,利用相似度与共有目标词形成度量指标,提取搜索获得的描述文本中最符合原图像语义的文本作为基础文本;最后利用基础文本中缺失的目标词对应的文本与基础文本合成从而获得图像语义。在MSCOCO数据集上的实验结果表明,该方法借助搜索引擎与语义合成可以有效地反映图像语义,相较于其他图像语义理解算法能够更准确地识别图像中的物体,输出更全面的图像语义;对于图像中的内容能够进行更加多样化的描述。
-
关键词
图像语义理解
图像识别
搜索引擎
图相似计算
语义合成
-
Keywords
image semantic understanding
image recognition
search engines
graph similarity algorithm
semantic synthesis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于自适应注意力机制的图像语义理解算法研究
- 5
-
-
作者
高玥
万旺根
-
机构
上海大学通信与信息工程学院上海大学智慧城市研究院
-
出处
《工业控制计算机》
2020年第7期78-79,83,共3页
-
基金
上海市科委港澳台科技合作项目(18510760300)
安徽省自然科学基金项目(1908085MF178)
安徽省优秀青年人才支持计划项目(gxyqZD2019069)资助。
-
文摘
提出了一种基于自适应注意力机制的图像语义理解算法。图像语义理解是对图像内容在文字上进行有意义的解释和描述,但是使用逻辑通顺并且语义正确的语句来描述图像极具挑战性。传统的图像语义理解模型更加关注于图像内容和语义的正确对应,而忽略了图像中的空间信息在语义中的体现。为了学习到图像中物体之间的空间信息,在算法中加入自适应注意力机制。实验证明,改进的图像语义理解算法能够更好地表达出图像中有什么物体、物体之间的相互关系等内容。
-
关键词
图像语义理解
自适应算法
注意力机制
深度学习
-
Keywords
image semantic understanding
adaptive algorithm
attention mechanism
deep learning
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于全局交互的图像语义理解方法
被引量:3
- 6
-
-
作者
库涛
熊艳彬
杨楠
林乐新
朱珠
-
机构
中国科学院沈阳自动化研究所
中国科学院机器人与智能制造创新研究院
中国科学院大学
辽宁大学信息学院
-
出处
《控制与决策》
EI
CSCD
北大核心
2020年第9期2103-2111,共9页
-
基金
国家重点研发计划项目(2017YFB0306401)
国家自然科学基金项目(61803367)。
-
文摘
针对图像语义生成过程中图像信息易模糊的问题,提出基于双向门控循环单元(GRU)和图像信息全局交互相结合的图像语义生成模型,通过图像和文本数据进行正则化处理和文本向量映射方法,实现模型驱动的图像语义生成.实验结果表明,所提出模型能较好地解决数据稀疏和偏态问题,采用GUR单元可以进一步降低模型参数规模,加快算法收敛速度,有效抑制模型过拟合,提高图像内容的丰富度、准确性和逻辑性.
-
关键词
卷积神经网络
循环神经网络
图像语义理解
全局交互机制
数据正则化
门控循环单元
-
Keywords
convonlution neural network
recurrent neural network
image semantic understanding
global interaction mechanism
data regularization
gated recurrent unit
-
分类号
TP273
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名目标检测中的尺度变换应用综述
被引量:5
- 7
-
-
作者
申奉璨
张萍
罗金
刘松阳
冯世杰
-
机构
电子科技大学光电科学与工程学院
-
出处
《中国图象图形学报》
CSCD
北大核心
2020年第9期1754-1772,共19页
-
基金
四川省科技计划项目(2018GZ0166,2019YFG0307)。
-
文摘
目标检测试图用给定的标签标记自然图像中出现的对象实例,已经广泛用于自动驾驶、监控安防等领域。随着深度学习技术的普及,基于卷积神经网络的通用目标检测框架获得了远好于其他方法的目标检测结果。然而,由于卷积神经网络的特性限制,通用目标检测依然面临尺度、光照和遮挡等许多问题的挑战。本文的目的是对卷积神经网络架构中针对尺度的目标检测策略进行全面综述。首先,介绍通用目标检测的发展概况及使用的主要数据集,包括通用目标检测框架的两种类别及发展,详述基于候选区域的两阶段目标检测算法的沿革和结构层面的创新,以及基于一次回归的目标检测算法的3个不同的流派。其次,对针对检测问题中影响效果的尺度问题的优化思路进行简单分类,包括多特征融合策略、针对感受野的卷积变形和训练策略的设计等。最后,给出了各个不同检测框架在通用数据集上对不同尺寸目标的检测准确度,以及未来可能的针对尺度变换的发展方向。
-
关键词
图像语义理解
通用目标检测
卷积神经网络
尺度变换
小目标检测
-
Keywords
image semantic understanding
general object detection
convolutional neural network(CNN)
scale changing
small target detection
-
分类号
TP751.1
[自动化与计算机技术—检测技术与自动化装置]
-