基于排序的监督离散跨模态哈希被引量：2

Ranking-Based Supervised Discrete Cross-Modal Hashing

下载PDF

导出

摘要近年来,随着信息技术的发展,图像、文本、视频、音频等多媒体数据呈现出快速增长的趋势。当处理大量数据时,某些传统检索方法的效率可能会受到影响,并且无法在可接受的时间内获得令人满意的准确性。此外,海量的数据还导致了巨大的存储消耗问题。为了解决上述问题,哈希学习被提出。现有的哈希学习方法首先为数据生成二进制哈希码,并且在学习中让原本相似的数据有相似的哈希码,让不相似的数据有不同的哈希码。然后,在学到的哈希码空间中,通过异或操作进行快速的相似性比较。通过用二进制哈希码代替数据原始的高维特征,可以达到显著降低存储成本的目的。基于哈希学习高效索引和快速查询的特点,其在跨模态检索领域受到了广泛的关注。但是目前的跨模态哈希方法面临着以下几个问题:(1)大多数方法都尝试保持样本间的成对相似性,而忽视了样本间的相对相似性,即样本的排序信息,但排序信息对检索有很重要的作用,因而导致这些方法效果并非最优;(2)许多基于成对相似性的哈希检索方法的时间复杂度为O(n2),无法直接扩展到大规模数据集上,具有一定的局限性;(3)为了简化离散求解问题,目前很多方法采用松弛策略来学习哈希码的近似解,但这种策略会引入较大的量化误差。为了解决以上问题,我们提出了一种基于排序的监督离散跨模态哈希方法(简称为RSDCH)。该方法由排序信息学习和哈希学习两步骤组成。在排序信息学习阶段,我们通过嵌入数据的流形结构和语义标签来学习一个具有排序信息的得分矩阵。在哈希学习阶段,我们通过保持学到的排序信息来生成训练样本的哈希码并学出对应的哈希函数。为了让模型能够更好地扩展到大规模数据集,我们使用了锚点采样策略,以获得可接受的且与训练样本数成线性关系的时间复杂度。为了学到高质量的哈希码表示,我们设计了两种有效的相似性保持策略。除此之外,为了避免松弛求解策略引入的量化误差,我们设计了一种交替迭代的优化算法来离散地学习哈希码。我们在MIRFlickr-25K及NUS-WIDE这两种广泛使用的多标签数据集上进行了对比实验。结果表明,本文提出的方法在平均精确率均值(MAP)、归一化折损累计增益(NDCG)、精确率-召回率曲线(Precision-Recall Curve)等方面均优于现有的几种跨模态哈希方法。通过消融实验,我们验证了RSDCH模型中各个模块的必要性和有效性。此外,我们还通过额外的实验测试了模型的收敛性、参数敏感性和训练效率,进一步验证了RSDCH模型的有效性。 In recent years,with the development of information technology,the explosion of multimedia data such as images,texts,videos,audios,has occurred.When dealing with a huge amount of data,the efficiency of some traditional retrieval methods may be affected and cannot obtain satisfactory accuracy within an acceptable time.In addition,the massive amount of data has also caused huge storage consumption problems.In order to solve the above problems,hashing is proposed.It first transforms data from original representations into binary codes,minimizing the Hamming distance of similar data points and maximizing that of dissimilar ones.Then,pairwise comparisons can be carried out extremely efficiently in the learned Hamming space,using XOR operations.Moreover,by representing data with binary codes rather than original high-dimensional features,the storage cost can be dramatically reduced.Due to the efficient indexing and quick query,hashing has received extensive attention in the field of cross-modal retrieval,and many cross-modal hashing methods have been proposed.However,there still exist some issues worthy of investigation for existing cross-modal hashing methods.(1)For example,most methods only consider the pairwise similarity between samples and ignore the ranking information.However,lack of ranking information may lead to sub-optimal performance since it is also important.(2)A lot of hashing methods employ a pairwise similarity matrix to preserve similarity,which makes the algorithm complexity O(n 2)and cannot extend to large-scale datasets.(3)Besides,most methods relax the discrete constraint to solve the discrete optimization problem,which may introduce serious quantization error.To overcome the aforementioned issues,in this paper,we propose a new method named Ranking-based Supervised Discrete Cross-modal Hashing(RSDCH for short).RSDCH consists of ranking learning step and hashing learning step.In the first step,the proposed method learns ranking information from the manifold structure and semantic labels of data and generates a ranking score matrix.In the second step,RSDCH jointly learns hash codes and hash functions while preserving the learned ranking information.To make our method scalable to large-scale datasets,anchor sampling is leveraged and the time complexity of our method is linear to the number of training samples.To learn high-quality hash codes,two effective similarity-preserving strategies are proposed.To avoid large quantization error,an alternative optimization algorithm,which discretely solves the binary codes learning problem,is designed.We conducted comparative experiments on two widely-used multi-label datasets,i.e.,MIRFlickr-25K and NUS-WIDE.To comprehensively evaluate our proposed method RSDCH,we adopted three evaluation metrics,i.e.,Mean Average Precision(MAP),Normalized Discounted Cumulative Gain(NDCG)and Precision-Recall Curve.The experimental results have shown that the proposed RSDCH is superior to several state-of-the-art methods,including both non-deep and deep cross-modal hashing methods.To further evaluate the effectiveness of our method,we also carried out ablation experiments in order to test the necessity and effectiveness of each module in the RSDCH model.Finally,the effectiveness of the model convergence,parameter sensitivity,and training efficiency were tested by additional experiments,and the results further demonstrate that the proposed method is effective.

作者李慧琼王永欣陈振铎罗昕许信顺 LI Hui-Qiong;WANG Yong-Xin;CHEN Zhen-Duo;LUO Xin;XU Xin-Shun(School of Software,Shandong University,Jinan 250101)

机构地区山东大学软件学院

出处《计算机学报》 EI CAS CSCD 北大核心 2021年第8期1620-1635,共16页 Chinese Journal of Computers

基金国家自然科学基金(61991411,61872428) 山东省重点研发项目(2019JZZY010127) 山东省自然科学基金项目(ZR2019ZD06,ZR2020QF036) 山东大学基本科研业务费专项资金(2019GN075)资助

关键词跨模态检索哈希学习排序哈希离散优化相似性保持 cross-modal retrieval learning to hash ranking-based hashing discrete optimization similarity preserving

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献13

1王智圣,李琪,汪静,印鉴.基于隐式用户反馈数据流的实时个性化推荐[J].计算机学报,2016,39(1):52-64. 被引量：31
2吴泽斌,于俊清,何云峰,管涛.一种用于图像检索的多层语义二值描述符[J].计算机学报,2020,43(9):1641-1655. 被引量：5
3陈文杰.一种融合主题特征的自适应知识表示方法[J].计算机工程,2021,47(1):87-93. 被引量：3
4黄川林,鲁艳霞.基于协同过滤和标签的混合音乐推荐算法研究[J].软件工程,2021,24(4):10-14. 被引量：9
5尹奇跃,黄岩,张俊格,吴书,王亮.基于深度学习的跨模态检索综述[J].中国图象图形学报,2021,26(6):1368-1388. 被引量：18
6张桂梅,龙邦耀,曾接贤,黄军阳.基于去冗余特征和语义关系约束的零样本属性识别[J].模式识别与人工智能,2021,34(9):809-823. 被引量：3
7邹傲,郝文宁,靳大尉,陈刚,田媛.基于预训练和深度哈希的大规模文本检索研究[J].计算机科学,2021,48(11):300-306. 被引量：2
8郭奉琦,孟凡荣,王志晓.基于变分自编码器的谣言立场分类算法[J].计算机工程,2022,48(2):99-105. 被引量：4
9刘颖,郭莹莹,房杰,范九伦,郝羽,刘继明.深度学习跨模态图文检索研究综述[J].计算机科学与探索,2022,16(3):489-511. 被引量：22
10王红斌,张志亮,李华锋.基于堆叠交叉注意力的图像文本跨模态匹配方法[J].信号处理,2022,38(2):285-299. 被引量：4

引证文献2

1曾素佳,庞善民,郝问裕.基于深度监督学习的零样本跨模态检索方法[J].西安交通大学学报,2022,56(11):156-166. 被引量：1
2董家玮,孙福振,吴相帅,吴田慧,王绍卿.基于差异性汉明距离的变分推荐算法[J].计算机科学,2022,49(12):178-184. 被引量：2

二级引证文献3

1肖佳涛,徐远纯,赵杨坤,欧阳鼎,覃文辉.中文文本生成国画图案方法研究[J].福建电脑,2023,39(6):28-34.
2宫昀.基于Transformer模型的神经机器翻译改进方法研究[J].自动化与仪器仪表,2023(8):257-261. 被引量：3
3袁亮,程娟,何伟军,徐沙沙.长江经济带“水-能-碳”系统适应性评价及空间关联特征[J].中国人口·资源与环境,2024,34(6):187-199.

1胡章芳,曾念文,罗元,肖雨婷,钟征源.基于原图-光照不变图视觉词典改进的闭环检测方法[J].电子科技大学学报,2021,50(4):586-591.
2王天炀.基于音视频的自动化低成本VR视频生成方法分析[J].电子技术与软件工程,2021(13):140-141.
3王文娟.农业生产中的水土保持策略[J].南方农业,2021,15(15):195-196.
4阮海涛,曾焕强,朱建清,温廷羲,蔡灿辉.基于特征金字塔融合表征网络的跨模态哈希方法[J].信号处理,2021,37(7):1252-1259. 被引量：1
5李优,穆林平.基于迁移学习的垃圾图像分类模型研究[J].电脑与信息技术,2021,29(4):17-21. 被引量：7
6曾召军.梁拱体系结构设计参数敏感性分析[J].公路与汽运,2021(4):117-121.
7鹿祥志,孙福振,王绍卿,徐上上.融合用户会话数据的上下文感知推荐算法[J].计算机工程与应用,2021,57(15):118-123. 被引量：2
8杨树亭.农村流域水非点源污染时空规律量化分析模型研究[J].环境科学与管理,2021,46(7):71-75.
9王兆奇,李孟山,胡海涛,魏文建.双排对折型微通道换热器仿真模型开发[J].化工学报,2021,72(S01):113-119. 被引量：2
10曹馥源,刘杨,霍宗亮.NAND闪存错误缓解技术综述[J].微电子学,2021,51(3):374-381. 被引量：1

计算机学报

2021年第8期

浏览历史

内容加载中请稍等...

基于排序的监督离散跨模态哈希被引量：2

同被引文献13

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于排序的监督离散跨模态哈希 被引量：2

同被引文献13

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于排序的监督离散跨模态哈希被引量：2