期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
一种基于深度学习的中文图像描述模型 被引量:4
1
作者 郭淑涛 赵德新 《天津理工大学学报》 2020年第3期30-35,共6页
近年来编码器和解码器组成的深度神经网络在图像描述任务中取得了很好的表现,一般编码器采用深度卷积神经网络,解码器采用循环神经网络.针对循环神经网络存在的梯度消失问题,在图像描述任务中表现为循环神经网络后续时间片生成的单词缺... 近年来编码器和解码器组成的深度神经网络在图像描述任务中取得了很好的表现,一般编码器采用深度卷积神经网络,解码器采用循环神经网络.针对循环神经网络存在的梯度消失问题,在图像描述任务中表现为循环神经网络后续时间片生成的单词缺乏先前的信息引导,提出了记忆助手的方法,并给出了一种面向大规模中文数据集的多模态神经网络模型.该模型采用深度卷积神经网络(Inception-v4、Inception-ResNet-v2)和注意力机制提取图像视觉特征,在循环神经网络中引入记忆助手来引导句子的生成.实验证明,在AI CHALLENGER测试集中,这种模型显著地提高了各项评价指标. 展开更多
关键词 中文图像描述 深度学习 卷积神经网络 递归神经网络
下载PDF
联合视觉分组的图像中文描述
2
作者 郝子娴 汪兴建 杨有 《微电子学与计算机》 2024年第8期73-80,共8页
针对图像描述任务中使用的编码器提取图像细粒度语义特征不充分,导致模型生成的描述内容粗糙而文本细腻度不足的问题,提出了一种联合视觉分组的图像中文描述模型。模型采用编解码结构,编码阶段,使用两种方式实现图像全局语义和局部细节... 针对图像描述任务中使用的编码器提取图像细粒度语义特征不充分,导致模型生成的描述内容粗糙而文本细腻度不足的问题,提出了一种联合视觉分组的图像中文描述模型。模型采用编解码结构,编码阶段,使用两种方式实现图像全局语义和局部细节两类特征的提取。首先,使用对比语言图像预训练编码器提取图像的潜在语义信息;其次,结合视觉分组的思想将图像中各物体类别划分为不同规则大小的视觉片段,以此提取图像细节特征。最后。对编码器得到的两类特征进行融合,并通过映射网络转换为描述文本的前缀信息,再嵌入到语言模型中。解码阶段,使用语言模型GPT-2生成图像描述。与相关文献的模型相比,所提模型在BLEU-1到BLEU-4评价指标上分别获得了0.815、0.711、0.616和0.532,达到了最佳性能。在AIC-ICC数据集上进行仿真实验,结果表明所提出模型生成的描述文本更准确、更流畅。 展开更多
关键词 图像中文描述 视觉分组 特征融合 图像语义 编解码器
下载PDF
融合双注意力与多标签的图像中文描述生成方法 被引量:3
3
作者 田枫 孙小强 +3 位作者 刘芳 李婷玉 张蕾 刘志刚 《计算机系统应用》 2021年第7期32-40,共9页
图像描述是目前图像理解领域的研究热点.针对图像中文描述句子质量不高的问题,本文提出融合双注意力与多标签的图像中文描述生成方法.本文方法首先提取输入图像的视觉特征与多标签文本,然后利用多标签文本增强解码器的隐藏状态与视觉特... 图像描述是目前图像理解领域的研究热点.针对图像中文描述句子质量不高的问题,本文提出融合双注意力与多标签的图像中文描述生成方法.本文方法首先提取输入图像的视觉特征与多标签文本,然后利用多标签文本增强解码器的隐藏状态与视觉特征的关联度,根据解码器的隐藏状态对视觉特征分配注意力权重,并将加权后的视觉特征解码为词语,最后将词语按时序输出得到中文描述句子.在图像中文描述数据集Flickr8k-CN、COCOCN上的实验表明,本文提出的模型有效地提升了描述句子质量. 展开更多
关键词 图像描述 图像理解 图像中文描述 注意力机制 图像多标签
下载PDF
图像特征注意力与自适应注意力融合的图像内容中文描述 被引量:6
4
作者 赵宏 孔东一 《计算机应用》 CSCD 北大核心 2021年第9期2496-2503,共8页
针对现有基于注意力机制的图像内容中文描述模型无法在关注信息不减弱和无缺失的条件下对重点内容进行注意力加强关注的问题,提出一种图像特征注意力与自适应注意力融合的图像内容中文描述模型。模型使用编解码结构,首先在编码器网络中... 针对现有基于注意力机制的图像内容中文描述模型无法在关注信息不减弱和无缺失的条件下对重点内容进行注意力加强关注的问题,提出一种图像特征注意力与自适应注意力融合的图像内容中文描述模型。模型使用编解码结构,首先在编码器网络中提取图像特征,并通过图像特征注意力提取图像全部特征区域的注意力信息;然后使用解码器网络将带有注意力权重的图像特征解码生成隐藏信息,以保证关注信息不减弱、无缺失;最后利用自适应注意力的视觉哨兵模块对图像特征中的重点内容进行再次加强关注,从而更加精准地提取图像的主体内容。使用多种评价指标(BLEU、METEOR、ROUGEL和CIDEr)进行模型验证,将所提模型与单一基于自适应注意力和基于图像特征注意力的图像描述模型进行对比实验,该模型的CIDEr评价指标值分别提高了10.1%和7.8%;同时与基线模型NIC(Neural Image Caption)以及基于自底向上和自顶向下(BUTD)注意力的图像描述模型相比,该模型的CIDEr评价指标值分别提高了10.9%和12.1%。实验结果表明,所提模型的图像理解能力得到了有效提升,其各项评价指标得分均优于对比模型。 展开更多
关键词 图像内容中文描述 注意力机制 深度学习 卷积神经网络 循环神经网络
下载PDF
基于视觉-语义中间综合属性特征的图像中文描述生成算法 被引量:3
5
作者 肖雨寒 江爱文 +1 位作者 王明文 揭安全 《中文信息学报》 CSCD 北大核心 2021年第4期129-138,共10页
图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息。由于异构语义鸿沟的存在,该任务具有较大的挑战性。目前主流的研究仍集中在基于英文的图像描述任务... 图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息。由于异构语义鸿沟的存在,该任务具有较大的挑战性。目前主流的研究仍集中在基于英文的图像描述任务,对图像中文描述的研究相对较少。图像视觉信息在图像描述算法中没有得到足够的重视,算法模型的性能更多地取决于语言模型。针对以上两个方面的研究不足,该文提出了基于多层次选择性视觉语义属性特征的图像中文描述生成算法。该算法结合目标检测和注意力机制,充分考虑了图像高层视觉语义所对应的中文属性信息,抽取不同尺度和层次的属性上下文表示。为了验证该文算法的有效性,在目前规模最大的AI Challenger 2017图像中文描述数据集以及Flick8k-CN图像中文描述数据集上进行了测试。实验结果表明,该算法能够有效地实现视觉-语义关联,生成文字表述较为准确、内容丰富的描述语句。较现阶段主流图像描述算法在中文语句上的性能表现,该文算法在各项评价指标上均有约3%~30%的较大幅度提升。为了便于后续研究复现,该文的相关源代码和模型已在开源网站Github上公开。 展开更多
关键词 图像中文描述 目标检测 注意力机制
下载PDF
基于Transformer的细粒度图像中文描述 被引量:3
6
作者 肖雄 徐伟峰 +2 位作者 王洪涛 苏攀 高思华 《吉林大学学报(理学版)》 CAS 北大核心 2022年第5期1103-1112,共10页
针对图像中文描述中传统循环神经网络(RNN)结构不利于生成长句、缺乏细节语义信息的问题,提出一种用Transformer多头注意力(multi-head attention, MHA)网络,融合粗粒度的全局特征和细粒度的区域目标实体特征方法.该方法通过多尺度特征... 针对图像中文描述中传统循环神经网络(RNN)结构不利于生成长句、缺乏细节语义信息的问题,提出一种用Transformer多头注意力(multi-head attention, MHA)网络,融合粗粒度的全局特征和细粒度的区域目标实体特征方法.该方法通过多尺度特征的融合,使图像注意力更易聚焦于细粒度的目标区域,得到更具细粒度语义特征的图像表示,从而有效改善了图像描述.在数据集ICC上使用多种评价指标进行验证,结果表明,该模型在各项指标上均取得了更好的图像描述效果. 展开更多
关键词 图像中文描述 细粒度特征 多头注意力
下载PDF
基于多模态神经网络生成图像中文描述 被引量:2
7
作者 陈兴 《计算机系统应用》 2020年第9期191-197,共7页
自动生成图片描述是自然语言处理和计算机视觉的热点研究话题,要求计算机理解图像语义信息并用人类自然语言的形式进行文字表述.针对当前生成中文图像描述整体质量不高的问题,提出首先利用FastText生成词向量,利用卷积神经网络提取图像... 自动生成图片描述是自然语言处理和计算机视觉的热点研究话题,要求计算机理解图像语义信息并用人类自然语言的形式进行文字表述.针对当前生成中文图像描述整体质量不高的问题,提出首先利用FastText生成词向量,利用卷积神经网络提取图像全局特征;然后将成对的语句和图像〈S,I〉进行编码,并融合为两者的多模态特征矩阵;最后模型采用多层的长短时记忆网络对多模态特征矩阵进行解码,并通过计算余弦相似度得到解码的结果.通过对比发现所提模型在双语评估研究(BLEU)指标上优于其他模型,生成的中文描述可以准确概括图像的语义信息. 展开更多
关键词 图像中文描述 FastText语言模型 卷积神经网络 长短时记忆网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部