-
题名基于细粒度特征融合的部分多模态哈希
- 1
-
-
作者
殷崭祚
李博涵
王萌
黄瑞龙
吴文隆
王昊奋
-
机构
南京航空航天大学计算机科学与技术学院
软件新技术与产业化协同创新中心
空天地海一体化大数据应用技术国家工程实验室(西北工业大学)
同济大学设计创意学院
-
出处
《软件学报》
EI
CSCD
北大核心
2024年第3期1074-1089,共16页
-
基金
国家重点研发计划(2020YFB1708100)
“十四五”民用航天技术预先研究项目(D020101)
+2 种基金
国家自然科学基金(62172351)
高安全系统的软件开发与验证技术工业和信息化部重点实验室资助项目(NJ2018014)
河北省软件工程重点实验室项目。
-
文摘
多模态数据的指数级增长使得传统数据库在存储和检索方面遇到挑战,而多模态哈希通过融合多模态特征并映射成二进制哈希码,能够有效地降低数据库的存储开销并提高其检索效率.虽然目前已经有许多针对多模态哈希的工作取得了较好的效果,但是仍然存在着3个重要问题:(1)已有方法偏向于考虑所有样本都是模态完整的,然而在实际检索场景中,样本缺失部分模态的情况依然存在;(2)大多数方法都是基于浅层学习模型,这不可避免地限制了模型的学习能力,从而影响最终的检索效果;(3)针对模型学习能力弱的问题已提出了基于深度学习框架的方法,但是它们在提取各个模态的特征后直接采用了向量拼接等粗粒度特征融合方法,未能有效地捕获深层语义信息,从而弱化了哈希码的表示能力并影响最终的检索效果.针对以上问题,提出了PMH-F^(3)模型.该模型针对样本缺失部分模态的情况,实现了部分多模态哈希.同时,基于深层网络架构,利用Transformer编码器,以自注意力方式捕获深层语义信息,并实现细粒度的多模态特征融合.基于MIRFlickr和MSCOCO数据集进行了充分实验并取得了最优的检索效果.实验结果表明:所提出的PMH-F^(3)模型能够有效地实现部分多模态哈希,并可应用于大规模多模态数据检索.
-
关键词
部分多模态哈希
多模态数据检索
细粒度特征融合
-
Keywords
partial multimodal hashing
multimodal data retrieval
fine-grained feature fusion
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名局部与全局双重特征融合的自然场景文本检测
被引量:2
- 2
-
-
作者
李云洪
闫君宏
胡蕾
-
机构
江西师范大学计算机信息工程学院
-
出处
《数据采集与处理》
CSCD
北大核心
2022年第2期415-425,共11页
-
基金
国家自然科学基金(61662033)
江西省教育厅科学技术研究(GJJ210326)。
-
文摘
自然场景中文本的形状、方向和类别等变化丰富,场景文本检测仍然面临挑战。为了能够更好地将文本与非文本分隔并准确定位自然场景图像中的文本区域,本文提出一种局部与全局双重特征融合的文本检测网络,通过跳跃连接的方式实现多尺度全局特征融合,对恒等残差块进行改进实现局部细粒度特征融合,从而减少特征信息丢失,增强对文本区域特征提取力度,并采用多边形偏移文本域与文本边缘信息相结合的方式准确定位文本区域。为了评估本文方法的有效性,在现有经典数据集ICDAR2015和CTW1500上进行了多组对比实验,实验结果表明在复杂场景下该方法文本检测的性能更加卓越。
-
关键词
文本检测
跳跃连接
细粒度特征融合
全局特征融合
多边形偏移文本域
-
Keywords
text detection
jump connection
fine-grained feature fusion
global feature fusion
polygon offset text field
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于LFN的自然场景文本检测
被引量:1
- 3
-
-
作者
李垚
张健欣
王林
-
机构
内蒙古工业大学电力学院
-
出处
《微电子学与计算机》
2023年第6期17-24,共8页
-
基金
国家自然科学基金项目(NSFC21868019)。
-
文摘
在自然场景文本检测领域,现有的深度学习网络仍存在文本误检、漏检、定位不准确的情况.针对这一问题,本文设计出一种基于大感受野特征网络(Large Receptive Field Feature Network,LFN)的文本检测算法.首先选取速度和准确度更好的轻量级主干网络ShuffleNet V2,并加入细粒度特征融合模块以获取更多隐藏的文本特征信息;再通过分析不同尺度的特征图感受野不同,并对比不同尺度的特征图进行归一化后得到的特征图尺寸对结果的影响,构造了双融合特征提取模块,对输入图像提取多尺度特征以减少文本特征丢失,增大感受野;最后为处理正负样本失衡的问题,在可微二值化模块中引入Dice Loss,增加文本定位的准确度.在ICDAR2015和CTW1500数据集上的实验表明,该网络无论是在性能还是速度上对文本检测效果都有显著提升.其中在ICDAR2015数据集上F1为86.1%,较性能最优的PSENet网络提升了0.4%,速度达到了50 fps,较速度最快的DBNet网络提升了约1.92倍,在CTW1500数据集上F1为83.2%,较PSENet网络提升了1%,速度达到了35 fps,较EAST网络提升了约1.65倍.
-
关键词
文本检测
细粒度特征融合
双融合
可微二值化
感受野
-
Keywords
text detection
fine-grained feature fusion
double fusion
differentiable binarization
receptive field
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-