期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于视觉关系推理与上下文门控机制的图像描述 被引量:1
1
作者 陈巧红 裴皓磊 孙麒 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第3期542-549,共8页
为了探索图像场景理解所需要的视觉区域间关系的建模与推理,提出视觉关系推理模块.该模块基于图像中不同的语义和空间上下文信息,对相关视觉对象间的关系模式进行动态编码,并推断出与当前生成的关系词最相关的语义特征输出.通过引入上... 为了探索图像场景理解所需要的视觉区域间关系的建模与推理,提出视觉关系推理模块.该模块基于图像中不同的语义和空间上下文信息,对相关视觉对象间的关系模式进行动态编码,并推断出与当前生成的关系词最相关的语义特征输出.通过引入上下文门控机制,以根据不同类型的单词动态地权衡视觉注意力模块和视觉关系推理模块的贡献.实验结果表明,对比以往基于注意力机制的图像描述方法,基于视觉关系推理与上下文门控机制的图像描述方法更好;所提模块可以动态建模和推理不同类型生成单词的最相关特征,对输入图像中物体关系的描述更加准确. 展开更多
关键词 图像语义描述 视觉关系推理 多模态编码 上下文门控机制 注意力机制
下载PDF
基于门控机制多模态信息融合的图像描述翻译
2
作者 李志峰 徐旻涵 +2 位作者 洪宇 姚建民 周国栋 《中文信息学报》 CSCD 北大核心 2024年第8期55-67,共13页
图像描述翻译是给定图像和图像对应某一语言的描述,采用神经网络以端到端方式融合图像和文本两种模态信息,利用翻译技术为图像描述生成目标语言的任务。传统图像描述翻译,在将源语言翻译成目标语言时,借助图像中的重要特征优化翻译过程... 图像描述翻译是给定图像和图像对应某一语言的描述,采用神经网络以端到端方式融合图像和文本两种模态信息,利用翻译技术为图像描述生成目标语言的任务。传统图像描述翻译,在将源语言翻译成目标语言时,借助图像中的重要特征优化翻译过程。翻译过程中,目标词的生成依赖于源语言上下文和目标语言上下文信息。通过观察发现,源语言上下文偏于影响翻译结果的充分性和忠实度,而目标语言上下文偏于影响翻译结果的流畅性和衔接度。由于缺少有效机制来调节两种上下文信息的贡献度,翻译模型会生成流畅但不充分或者充分但不流畅的句子。针对以上问题,该文提出一种基于门控机制多模态信息融合的解码方法,用于优化现有图像描述翻译模型。该文模型通过源上下文门控调整图像特征和每个源语言词的重要度,过滤掉图像中不相关的特征;通过目标上下文门控动态调整源语言上下文和目标语言上下文对翻译结果的贡献度,从而有效提高翻译结果的充分性和流畅性。在Multi30k数据集上进行实验,验证了上述方法的有效性,在Multi30k-16英德和英法以及Multi30k-17英德和英法测试集上,BLEU-4值对比基准系统分别提升了1.3、1.0、1.5和1.4个百分点。 展开更多
关键词 图像描述翻译 多模态机器翻译 上下文门控 忠实度及流畅度
下载PDF
基于灰度世界和门控聚合网络的水下图像增强
3
作者 刘真 高秀晶 洪汉池 《厦门理工学院学报》 2024年第1期67-75,共9页
针对水下机器人在非限制环境中水下作业时,获取的水下图像存在整体色调偏蓝、偏绿、边缘细节较模糊及对比度较低等问题,提出一种基于灰度世界算法和端到端门控上下文聚合网络的水下图像增强算法。该算法通过图像R、G、B等3个通道分量调... 针对水下机器人在非限制环境中水下作业时,获取的水下图像存在整体色调偏蓝、偏绿、边缘细节较模糊及对比度较低等问题,提出一种基于灰度世界算法和端到端门控上下文聚合网络的水下图像增强算法。该算法通过图像R、G、B等3个通道分量调整的灰度世界算法,获取颜色校正后的水下图像;将校正后的水下图像输入到门控上下文聚合网络中,利用门控网络来融合图像中不同层次的特征,并引入平滑空洞技术和特征注意力模块,消除空洞卷积所出现的网格伪影现象,提高通道信息的灵活性,达到图像增强的效果。最后选取1 000幅参考图像,与6种经典增强算法进行主客观评价。结果表明,该算法在主观质量上提高了图像的对比度和清晰度,修正了水下图像的色偏;在客观评价指标上,测试集A中的峰值信噪比、结构相似性、信息熵和水下图像质量评估的平均值分别达到25.176 0 dB、0.950 9、8.057 9和0.618 2,测试集B的分别达到21.576 1 dB、0.933 1、8.119 4和0.591 4,评价结果都优于6种经典增强算法。 展开更多
关键词 水下图像增强 灰度世界 颜色校正 门控上下文聚合网络 特征注意力
下载PDF
基于注意力门控卷积循环神经网络的通用音频标记
4
作者 王金甲 崔琳 +1 位作者 杨倩 纪绍男 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2020年第3期360-367,共8页
研究了注意力门控卷积循环神经网络的通用音频标记问题.DCASE 2018挑战任务2的音频样本的数据集过少,容易造成过拟合问题.为了减少过拟合问题,采用数据增强方法,dropout策略.采用可学习的上下文门控模块以帮助选择与音频类最相关的特征... 研究了注意力门控卷积循环神经网络的通用音频标记问题.DCASE 2018挑战任务2的音频样本的数据集过少,容易造成过拟合问题.为了减少过拟合问题,采用数据增强方法,dropout策略.采用可学习的上下文门控模块以帮助选择与音频类最相关的特征.采用时间注意力机制关注音频事件的相关帧并且忽略不相关帧.在DCASE2018任务2的数据集上评估了提出的模型,开发集和测试集的平均准确率(MAP@3得分)分别为96.1%和92.4%,远高于此次竞赛的基线系统的平均准确率. 展开更多
关键词 DCASE 2018挑战 音频标记 门控卷积循环网络 上下文门控 注意力模块
下载PDF
基于时空多图卷积网络的交通站点流量预测 被引量:8
5
作者 荣斌 武志昊 +3 位作者 刘晓辉 赵苡积 林友芳 景一真 《计算机工程》 CAS CSCD 北大核心 2020年第5期26-33,共8页
交通流量预测是智能交通系统中的重要组成部分,但由于交通流量受交通状况、地理位置、时间等多种因素影响,使其具有高度非线性与复杂性,实现精准预测的难度较大。针对交通站点的出入流量预测问题,提出一种基于上下文门控的时空多图卷积... 交通流量预测是智能交通系统中的重要组成部分,但由于交通流量受交通状况、地理位置、时间等多种因素影响,使其具有高度非线性与复杂性,实现精准预测的难度较大。针对交通站点的出入流量预测问题,提出一种基于上下文门控的时空多图卷积网络(CG-STMGCN)模型。根据站点间的相邻关系与流通流量关系构造邻居图与流通流量图表示站点流量之间的邻近相关性与流量依赖性,在两图上分别建立基于上下文门控的时空卷积模块捕获站点流量的时空特征,并使用哈达玛乘积融合两图的输出作为最终预测结果。在真实交通站点数据集上的实验结果表明,CG-STMGCN模型的预测准确性优于同类预测方法,且稳定性更强。 展开更多
关键词 智能交通 流量预测 交通站点 时空多图卷积 上下文门控单元
下载PDF
结合目标检测的室内场景识别方法 被引量:3
6
作者 徐江浪 李林燕 +1 位作者 万新军 胡伏原 《计算机应用》 CSCD 北大核心 2021年第9期2720-2725,共6页
在目标检测网络(ObjectNet)和场景识别网络相结合的方法中,由于ObjectNet提取的目标特征和场景网络提取的场景特征的维度和性质不一致,且目标特征中存在影响场景判断的冗余信息,导致场景识别的准确率低。针对这个问题,提出一种改进的结... 在目标检测网络(ObjectNet)和场景识别网络相结合的方法中,由于ObjectNet提取的目标特征和场景网络提取的场景特征的维度和性质不一致,且目标特征中存在影响场景判断的冗余信息,导致场景识别的准确率低。针对这个问题,提出一种改进的结合目标检测的室内场景识别方法。首先,在ObjectNet中引入类转换矩阵(CCM),将ObjectNet输出的目标特征进行转化,使得目标特征的维度与场景特征的维度相一致,以此减少特征维度不一致带来的信息丢失;然后采用上下文门控(CG)机制对特征中的冗余信息进行抑制,从而降低不相关信息的权重,提高了目标特征在场景识别中的作用。该方法在MIT Indoor67数据集上的识别准确率达到90.28%,与维护空间布局的对象语义特征(SOSF)方法相比识别准确率提高了0.77个百分点;其在SUN397数据集上识别准确率达到81.15%,与交替专家层次结构(HoAS)方法相比识别准确率提高了1.49个百分点。实验结果表明,所提方法提高了室内场景识别的准确率。 展开更多
关键词 深度学习 卷积神经网络 室内场景识别 目标检测 类转换矩阵 上下文门控
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部