-
题名一致性协议匹配的跨模态图像文本检索方法
被引量:2
- 1
-
-
作者
宫大汉
陈辉
陈仕江
包勇军
丁贵广
-
机构
清华大学软件学院
清华大学北京信息科学与技术国家研究中心
清华大学自动化系
涿溪脑与智能研究所
京东集团
-
出处
《智能系统学报》
CSCD
北大核心
2021年第6期1143-1150,共8页
-
基金
国家自然科学基金项目(61925107,U1936202)
中国博士后科学基金创新人才支持计划项目(BX2021161)。
-
文摘
跨模态图像文本检索的任务对于理解视觉和语言之间的对应关系很重要,大多数现有方法利用不同的注意力模块挖掘区域到词和词到区域的对齐来探索细粒度的跨模态关联。然而,现有的方法没有考虑到基于双重注意力会导致对齐不一致的问题。为此,本文提出了一种一致性协议匹配方法,旨在利用一致性对齐来增强跨模态检索的性能。本文采用注意力实现跨模态关联对齐,并基于跨模态对齐结果设计了基于竞争性投票的跨模态协议,该协议衡量了跨模态对齐的一致性,可以有效提升跨模态图像文本检索的性能。在Flickr30K和MS COCO两个基准数据集上,本文通过大量的实验证明了所提出的方法的有效性。
-
关键词
人工智能
计算机视觉
视觉和语言
跨模态检索
一致性协议匹配
注意力
卷积神经网络
循环神经网络
门控循环单元
-
Keywords
artificial intelligence
computer vision
vision and language
cross-modal retrieval
matching with agreement
attention
convolutional neural network
recurrent neural network
gated recurrent unit
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向车规级芯片的对象检测模型优化方法
被引量:1
- 2
-
-
作者
宫大汉
于龙龙
陈辉
杨帆
骆沛
丁贵广
-
机构
清华大学软件学院
清华大学北京信息科学与技术国家研究中心
涿溪脑与智能研究所
清华大学自动化系
禾多科技(北京)有限公司
-
出处
《智能系统学报》
CSCD
北大核心
2021年第5期899-907,共9页
-
基金
国家自然科学基金项目(U1936202,61925107)
中国博士后科学基金创新人才计划项目(BX2021161).
-
文摘
卷积神经网络复杂的网络结构使得模型计算复杂度高,限制了其在自动驾驶等实际终端场景中的应用。针对终端场景下的计算资源受限的问题,本文从轻量化深度模型设计和车规级芯片模型部署验证两方面进行研究。针对深度模型计算效率和检测精度的矛盾,本文设计了基于中心卷积的轻量化对象检测模型,实现功耗低且精度高的模型性能。进一步,本文基于量化感知训练的模型加速部署方法在车规级芯片上开展了系统级部署验证,在车规级芯片tda4上成功实现了高效的对象检测模型,在自动驾驶场景中取得了良好的性能。
-
关键词
人工智能
计算机视觉
对象检测
终端设备
车规级芯片
卷积神经网络
模型加速
模型量化
-
Keywords
artificial intelligence
computer vision
object detection
terminal equipment
car-level chip
convolutional neural network
model acceleration
model quantization
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-