基于多模态交互网络的图像描述被引量：1

Multimodal Interaction Network for Image Captioning

下载PDF

导出

摘要在各类的图像描述方法中,多模态方法主要将视觉和文本两种模态的信息作为输入,以获得有效的多级信息。然而,其中的多数方法未考虑两种模态数据之间的关系,仅孤立地使用这两种模态的数据。为了在不同模态之间建立复杂的交互,充分利用模态之间的关系提升图像描述效果,首先,引入双向注意流模块(Bi-Directional Attention Flow,BiDAF),将自注意力机制升级为双向方式;然后,通过一个只需一个遗忘门就可以实现与长短期记忆网络(Long Short-Term Memory,LSTM)相同的功能的门控线性记忆模块(Gated Linear Memory,GLM)有效降低解码器的复杂度,并捕获多模态的交互信息;最后,将BiDAF和GLM分别应用为图像描述模型的编码器和解码器,形成多模态交互网络(Multimodal Interactive Network,MINet)。在公共数据集MS COCO上的实验结果表明,MINet与现有的多模态方法相比不仅具有更简洁的解码器、更好的图像描述效果、更高的评价分数,且无需进行预训练,图像描述更高效。 In image captioning,multimodal approaches are widely exploited by simultaneously providing visual inputs and semantic attributes to capture multi-level information.However,most approaches still utilize the two modalities in isolation,without considering the correlation between them.With the aim of filling this gap,we first introduce a Bi-Directional Attention Flow(BiDAF)module that extends the self attention mechanism as a bi-directional manner to model complex interactions between different modalities.Then,through a Gated Linear Memory(GLM)module that can realize the same function as a Long Short-Term Memory(LSTM)with only one forget gate,the decoder complexity is effectively reduced and multi-modal interaction information is captured.Finally,we apply BiDAF and GLM as the encoder and the decoder of the image captioning model respectively,forming a Multimodal Interactive Network(MINet).When tested on COCO,experimental results show that MINet not only has a more concise decoder,better image description,and higher evaluation scores than that of existing multimodal methods,but also more efficient in image description without pre-training.

作者段毛毛魏燚伟 DUAN Mao-mao;WEI Yi-wei(School of Petroleum,China University of Petroleum-Beijing at Karamay,Karamay 834000,China)

机构地区中国石油大学(北京)克拉玛依校区石油学院

出处《计算机技术与发展》 2024年第5期44-51,共8页 Computer Technology and Development

基金中国石油大学(北京)克拉玛依校区人才引进项目(XQZX20200021)。

关键词多模态图像描述自注意力长短期记忆网络视觉文本 multimodal image captioning self attention long short-term memory visual semantic

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1杜鹏飞,李小勇,高雅丽.多模态视觉语言表征学习研究综述[J].软件学报,2021,32(2):327-348. 被引量：26
2杨晨露,万旺根,张振,孙学涛,王旭智.基于多模态特征融合的图像描述算法研究[J].工业控制计算机,2023,36(1):87-88. 被引量：3
3佟国香,李乐阳.基于图神经网络和引导向量的图像字幕生成模型[J].数据采集与处理,2023,38(1):209-219. 被引量：1
4衡红军,范昱辰,王家亮.基于Transformer的多方面特征编码图像描述生成算法[J].计算机工程,2023,49(2):199-205. 被引量：4
5姜文晖,占锟,程一波,夏雪,方玉明.结合多层级解码器和动态融合机制的图像描述[J].中国图象图形学报,2022,27(9):2775-2787. 被引量：3

二级参考文献7

1叶继华,万叶晶,刘长红,李汉曦,王仕民.基于多子空间直和特征融合的人脸识别算法[J].数据采集与处理,2016,31(1):102-107. 被引量：6
2汤鹏杰,谭云兰,李金忠.融合图像场景及物体先验知识的图像描述生成模型[J].中国图象图形学报,2017,22(9):1251-1260. 被引量：16
3郑昌艳,张雄伟,曹铁勇,杨吉斌,孙蒙,邢益搏.一种基于LSTM-RNN的喉振传声器语音盲增强算法[J].数据采集与处理,2019,34(4):615-624. 被引量：6
4韦人予,蒙祖强.基于注意力特征自适应校正的图像描述模型[J].计算机应用,2020,40(S01):45-50. 被引量：4
5罗会兰,岳亮亮.跨层多模型特征融合与因果卷积解码的图像描述[J].中国图象图形学报,2020,25(8):1604-1617. 被引量：3
6谭云兰,汤鹏杰,张丽,罗玉盘.从图像到语言:图像标题生成与描述[J].中国图象图形学报,2021,26(4):727-750. 被引量：2
7李家宁,田永鸿.神经形态视觉传感器的研究进展及应用综述[J].计算机学报,2021,44(6):1258-1286. 被引量：20

共引文献31

1朱鹏飞,张琬迎,王煜,胡清华.考虑多粒度类相关性的对比式开放集识别方法[J].软件学报,2022,33(4):1156-1169. 被引量：4
2曾志贤,曹建军,翁年凤,蒋国权,范强.结合关键帧提取的视频-文本跨模态实体分辨双重编码方法[J].兵工学报,2022,43(5):1107-1116. 被引量：3
3王锦荟,金露,李泽超,唐金辉.基于知识蒸馏的跨模态哈希[J].中国科学：技术科学,2022,52(5):713-726. 被引量：4
4李良福,陈卫东,高强,许开銮,刘轩,何曦,钱钧.基于深度学习的光电系统智能目标识别[J].兵工学报,2022,43(S01):162-168. 被引量：5
5丁国辉,张琦,房士超,李青,孙小宇,张路霞,孔桂兰.多模态检索在医学领域的研究综述[J].计算机工程与应用,2023,59(1):26-36.
6殷炯,张哲东,高宇涵,杨智文,李亮,肖芒,孙垚棋,颜成钢.视觉语言预训练综述[J].软件学报,2023,34(5):2000-2023. 被引量：6
7李宗霖,张盛平,刘杨,张兆心,张维刚,黄庆明.基于多级残差映射器的文本驱动人脸图像生成和编辑[J].软件学报,2023,34(5):2101-2115. 被引量：4
8刘慧,李珊珊,高珊珊,邓凯,徐岗,张彩明.预训练模型特征提取的双对抗磁共振图像融合网络研究[J].软件学报,2023,34(5):2134-2151. 被引量：1
9丁静,舒祥波,黄捧,姚亚洲,宋砚.基于多模态多粒度图卷积网络的老年人日常行为识别[J].软件学报,2023,34(5):2350-2364. 被引量：3
10王丽安,缪佩翰,苏伟,李玺,吉娜烨,姜燕冰.图像-文本多模态指代表达理解研究综述[J].中国图象图形学报,2023,28(5):1308-1325. 被引量：2

同被引文献9

1徐琦,赵子忠.中国智能媒体生态结构、应用创新与关键趋势[J].新闻与写作,2020(8):51-58. 被引量：14
2魏丹阳.生成式人工智能在新闻采编工作中的应用与挑战[J].新闻文化建设,2024(3):94-96. 被引量：1
3刘晓倩,张英俊,秦家虎,李卓凡,梁伟玲,李宗溪.模糊认知图学习算法及应用综述[J].自动化学报,2024,50(3):450-474. 被引量：2
4胡新华.虚拟数字人技术在新闻传播中的应用研究[J].科技传播,2024,16(3):1-3. 被引量：3
5许娜.人工智能技术在新闻制作过程的应用[J].电视技术,2024,48(3):103-105. 被引量：1
6刁生富,陈惠.元宇宙背景下虚拟数字人对人类的影响探究[J].佛山科学技术学院学报（社会科学版）,2024,42(3):31-37. 被引量：1
7郑文锋.全媒体传播时代新闻策划理念变迁与创新路径[J].传播与版权,2024(10):1-4. 被引量：1
8孙立峰,宋新航,蒋树强,王莉莉,申恒涛.多模态协同感知与融合技术专题前言[J].软件学报,2024,35(5):2099-2100. 被引量：1
9闵媛春,杨明义.我国AI主播研究的可视化图谱分析[J].传媒论坛,2024,7(9):71-74. 被引量：1

引证文献1

1李满江,鞠传森,任鹏.智能多语种新闻采编系统的多模态数据融合研究[J].信息技术与信息化,2024(8):202-206.

1无.做深产改文章强化“两堂”成效用心用情守护职工的“心”和“胃”[J].中国工运,2024(2):70-71.
2郝明然.扬州“职工大讲堂”“职工好食堂”抓住职工的心和胃[J].工会信息,2024(1):39-39.
3及昕浩,彭玉青.基于深度注意力的融合全局和语义特征的图像描述模型[J].网络安全与数据治理,2024,43(2):49-53.
4崔夏雨,邓珍荣.基于生成对抗方法的无监督图像描述模型[J].桂林电子科技大学学报,2023,43(5):413-421.
5姜文晖,陈志亮,程一波,方玉明,左一帆.基于差异化和空间约束的自动图像描述模型[J].北京航空航天大学学报,2024,50(2):456-465.
6黄俊霖,张鹏超,张家俊.基于YOLOv7的朱鹮目标检测算法的研究[J].电子元器件与信息技术,2024,8(2):142-147. 被引量：1
7吴鹏,江勇,李莎,吴文玉,纪丽纯,洪海都,张高,黄慧婷,刘小虹,詹少锋,赖艳妮.基于病毒-宿主交互网络的加味芦根方治疗流行性感冒的生物信息学分析[J].中药新药与临床药理,2024,35(3):358-367.
8姜丽梅,李秉龙.面向图像文本的多模态处理方法综述[J].计算机应用研究,2024,41(5):1281-1290.
9张艳艳.多模态理论在中职英语词汇教学中的运用策略研究[J].英语教师,2024,24(6):53-56.
10ZHANG Qi,CHEN Dexuan,ZHU Guixiang,ZHANG Shihu,FENG Xiao,MA Chaoqun,ZHANG Yi.Efficacy of Tounongsan decoction(透脓散方)on pyogenic liver abscess:network pharmacology and clinical trial validation[J].Journal of Traditional Chinese Medicine,2024,44(1):145-155.

计算机技术与发展

2024年第5期

浏览历史

内容加载中请稍等...

基于多模态交互网络的图像描述被引量：1

参考文献5

二级参考文献7

共引文献31

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多模态交互网络的图像描述 被引量：1

参考文献5

二级参考文献7

共引文献31

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多模态交互网络的图像描述被引量：1