面向数字文旅的图像文本跨模态检索方法被引量：1

Digital Cultural Travel-oriented Image and Text Cross-modal Retrieval Method

导出

摘要 [目的/意义]图像文本跨模态检索应用对最大化利用数字文旅资源具有重要意义。然而,数字文旅领域的图像文本跨模态检索方法面临长文本挑战、数据缺失、内存资源有限等问题。为此,我们提出了一种新的基于Transformers和MobileNet V3模型的数字文旅图像文本跨模态方法。[方法/过程]首先,提出了基于自注意力机制的双层多组Transformers模型从标题、正文和评论等文本中学习具有互补性的文本特征;其次,设计了FastR-CNN和MobileNet V3模型学习图像局部细粒度特征;最后,提出了多元线性回归方法在共享子空间补全缺失数据。构建以图搜文和以文搜图的双向三元损失函数学习模型参数。[结果/结论]在标准数据集Flickr30k、自建数据集CulTour-Sha和有数据缺失的数据集Flickr30k-1与CulTour-Sha-1上的大量实验结果表明,我们的方法在召回率、内存需求和计算速度等方面优于当前几种先进的跨模态检索方法。 [Purpose/significance]It is important for us to maximize use of digital culture and tourism resources by Image-TextCross Modal Retrieval(IT-CMR).Related methods used in the field of digital culture and tourism resources have the challenges of long text, limited memory and some missed data. In order to address those problems, we proposed a new method ofIT-CMR using Transformer and MobileNet V3 models for digital culture and tourism resources.[Method/process]Two Layer Multi-group Transformers(TLMT) model based on attention network is proposed to learn the complemental text features from the title, main text and comments. Local fine-grained image features are learned using Fast R-CNN and MobileNet V3 models. Multiple linear regression model is proposed to synthesize the missed data in the shared sub-space. Bi-directional triplet loss function for searching images by text and searching text by image is constructed to learn the parameters of network.[Result/conclusion] Extensive experimental results on standard benchmark Flickr30 k,our own dataset CulTour-Sha, and two datasets Flickr30 k-1 and CulTour-Sha-1 including some missed data demonstrate that: our method has better recall, need less memory space and has faster computing speed than several state-of-art methods of ITCMR.

作者高蕴梅 Gao Yunmei(Library of Changshu Institute of Technology,Jiangsu,215500)

机构地区常熟理工学院图书馆

出处《情报资料工作》 CSSCI 北大核心 2022年第1期71-80,共10页 Information and Documentation Services

基金教育部人文社会科学研究青年基金项目“学术信息网络中的核心边缘结构测度研究”(项目编号:18YJC870011) 江苏高校哲学社会科学研究项目“视频内容分析的360度教学评价研究”(项目编号:2020SJA1425) 苏州市图书馆学会2021年重点项目“视频资源跨模态智慧检索研究”(项目编号:21-A-02) 常熟理工学院高等教育研究项目“视频内容分析的360度教学评价”(项目编号:GJ1905)的研究成果之一。

关键词数字文旅跨模态检索深度学习特征双向三元组损失函数精细特征 digital culture and tourism cross modal retrieval deep learning feature bi-directional triplet loss function fine-grained features

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] TP391.3 [自动化与计算机技术—计算机应用技术] F592 [经济管理—旅游管理]

引文网络
相关文献

参考文献6

1张玥,余姝,朱庆华.基于移动视觉搜索的图书馆文旅融合发展策略研究[J].图书与情报,2021(2):91-98. 被引量：10
2曾子明,孙守强.面向敦煌壁画的移动视觉搜索模型研究[J].情报资料工作,2021,42(2):104-112. 被引量：6
3韩玺,何秀美,张玥,朱庆华.基于情景感知的图书馆移动视觉搜索服务设计研究[J].图书馆学研究,2017(16):63-68. 被引量：27
4李志欣,凌锋,张灿龙,马慧芳.融合两级相似度的跨媒体图像文本检索[J].电子学报,2021,49(2):268-274. 被引量：11
5林阳,初旭,王亚沙,毛维嘉,赵俊峰.融合自注意力机制的跨模态食谱检索方法[J].计算机科学与探索,2020,14(9):1471-1481. 被引量：4
6杨旭,朱振峰,徐美香,张幸幸.多视角数据缺失补全[J].软件学报,2018,29(4):945-956. 被引量：6

二级参考文献49

1胡同庆.敦煌石窟艺术概述[J].敦煌研究,1993(3):16-34. 被引量：12
2焦玉英,袁静.基于情景模型的数字图书馆个性化服务研究[J].中国图书馆学报,2008(6):58-63. 被引量：32
3顾君忠.情景感知计算[J].华东师范大学学报（自然科学版）,2009(5):1-20. 被引量：76
4钟志鹏,王涌天,陈靖,刘越.一个基于移动视觉搜索技术的博物馆导览系统[J].计算机辅助设计与图形学学报,2012,24(4):555-562. 被引量：31
5袁静.情景感知自适应:图书馆个性化服务新方向[J].图书情报工作,2012,56(7):79-82. 被引量：28
6马骏涛,黄文,宋欣,苏叶.用户情景感知——移动图书馆发展新方向[J].中华医学图书情报杂志,2013,22(5):20-24. 被引量：11
7王晓光,徐雷,李纲.敦煌壁画数字图像语义描述方法研究[J].中国图书馆学报,2014,40(1):50-59. 被引量：50
8穆向阳.基于NGN和本体的情景推理应用于手机图书馆个性化服务研究[J].情报科学,2014,32(3):138-143. 被引量：6
9张兴旺,黄晓斌.国外移动视觉搜索研究述评[J].中国图书馆学报,2014,40(3):114-128. 被引量：38
10杜琳琳,朱振峰,段红帅,赵耀.LSPSA:基于局部结构保持的共享子空间分析[J].计算机科学,2014,41(10):67-71. 被引量：1

共引文献56

1韩会珍,刘立波.基于注意力和视觉语义推理的枸杞虫害检索[J].计算机科学,2022,49(S02):431-436.
2于宏.倍他乐克治疗左室舒张功能障碍性心力衰竭疗效观察[J].天津医科大学学报,2000,6(1):116-117. 被引量：2
3于崇兰.MEDLINE光盘文献的局限及其对策[J].医学情报工作,2000,21(2):20-20. 被引量：2
4李淑华,李建东.Powerbuilder中利用Windows API实现图片的动画特效[J].电脑编程技巧与维护,2000(4):78-81.
5韩玺,何秀美,张玥,朱庆华.基于语义关联的图书馆移动视觉搜索资源与服务聚合研究[J].现代情报,2017,37(10):3-7. 被引量：22
6韩玺,张玥,朱庆华.基于移动视觉搜索的图书馆、档案馆、博物馆资源融合服务模式研究[J].情报资料工作,2018,39(2):63-70. 被引量：21
7聂应高.基于情景感知融合的图书馆微服务框架构建[J].图书馆学研究,2018,0(20):14-19. 被引量：15
8袁静.图书馆情景敏感服务模式的实现机理及关键支撑技术[J].图书馆学研究,2018,0(21):13-18. 被引量：4
9董晶,吴丹.基于移动视觉搜索技术的智慧公共文化服务模型研究[J].图书与情报,2018(2):16-23. 被引量：14
10韩玺,孙霄凌,张玥,朱庆华.图书馆移动视觉搜索服务现状、障碍与对策研究[J].图书馆,2018(7):91-96. 被引量：2

同被引文献14

1胡艳霞,王成,李弼程,李海林,吴以茵.基于多头注意力机制Tree-LSTM的句子语义相似度计算[J].中文信息学报,2020,34(3):23-33. 被引量：17
2徐胜蓝,司曹明哲,万灿,于建成,曹照静.考虑双尺度相似性的负荷曲线集成谱聚类算法[J].电力系统自动化,2020,44(22):152-160. 被引量：20
3王阳阳,郑西川.基于自注意力机制的CNN-LSTM模型在ICD智能编码系统中的应用研究[J].中国数字医学,2020,15(11):20-24. 被引量：3
4吴若有,王德兴,袁红春,宫鹏,秦恩倩.基于特征编码和卷积神经网络的注意力状态检测[J].中国生物医学工程学报,2020,39(6):759-763. 被引量：3
5王宏志,燕钰.深度学习驱动的跨模态数据检索[J].哈尔滨理工大学学报,2021,26(1):9-16. 被引量：8
6尹奇跃,黄岩,张俊格,吴书,王亮.基于深度学习的跨模态检索综述[J].中国图象图形学报,2021,26(6):1368-1388. 被引量：17
7陈宁,段友祥,孙歧峰.跨模态检索研究文献综述[J].计算机科学与探索,2021,15(8):1390-1404. 被引量：7
8黄冬梅,葛书阳,胡安铎,孙锦中,时帅,孙园.采用中心优化和双尺度相似性度量的改进K-means负荷聚类方法[J].电力系统及其自动化学报,2021,33(12):93-100. 被引量：12
9朱路,邓芳,刘坤,贺婷婷,刘媛媛.基于语义自编码哈希学习的跨模态检索方法[J].数据分析与知识发现,2021,5(12):110-122. 被引量：5
10刘颖,郭莹莹,房杰,范九伦,郝羽,刘继明.深度学习跨模态图文检索研究综述[J].计算机科学与探索,2022,16(3):489-511. 被引量：17

引证文献1

1杜鹏举.多模态数据融合与检索技术研究[J].自动化与仪器仪表,2023(10):23-26.

1安立宝,彭立晓.印制板模态测试方法研究[J].现代制造技术与装备,2021,57(12):58-60.
2陈广福,王海波.基于聚类信息和对称非负矩阵分解的链路预测模型研究[J].计算机应用研究,2021,38(12):3733-3738. 被引量：4
3黄阳雪,武曼丽,赵舷宏,陈浩,曹立幸.穴位贴敷促进妇科腹腔镜术后胃肠功能恢复的Meta分析[J].世界中医药,2021,16(23):3523-3531. 被引量：12
4汪涛.闪电通道重构的时间反转和多重信号分类技术[J].安全与电磁兼容,2022(1):68-76.
5独凌子,肖桂荣.地理信息服务领域的实体自动化识别[J].海南大学学报（自然科学版）,2021,39(4):331-339. 被引量：1
6岳刘杰,齐庆杰.基于多元回归分析的瓦斯浓度预测[J].陕西煤炭,2022,41(1):1-4. 被引量：1
7郑伟伟,邓隽.CPC分类体系在H01M技术领域的检索应用[J].电子世界,2021(22):110-115.
8梁子晗,魏占玉,庄其天,孙稳,何宏林.基于高分辨率地形数据的富蕴M8.0地震地表破裂带精细特征[J].地震地质,2021,43(6):1507-1523. 被引量：2
9王红,吴燕婷.基于多跳注意力的实体关系联合抽取方法及应用研究[J].太原理工大学学报,2022,53(1):63-70. 被引量：3

情报资料工作

2022年第1期

浏览历史

内容加载中请稍等...

面向数字文旅的图像文本跨模态检索方法被引量：1

参考文献6

二级参考文献49

共引文献56

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向数字文旅的图像文本跨模态检索方法 被引量：1

参考文献6

二级参考文献49

共引文献56

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向数字文旅的图像文本跨模态检索方法被引量：1