基于多模态特征融合的图像描述算法研究被引量：3

Research on Image Description Algorithm Based on Multimodal Feature Fusion

下载PDF

导出

摘要针对图像描述任务,传统算法更加关注图像中的视觉物体,而忽略了文本信息对其描述也起到了不可或缺的作用。为增强对图像中文本信息的提取,提出了一种基于多模态特征融合的图像描述算法。在视觉特征提取的基础上,增加文本识别和检测算法,并使用多模态Transformer来融合两种模态。在解码阶段,采用中心图作为指导模块,使用动态指针网络实现迭代解码,使模型生成更加丰富的自然描述语句。最后在Textcaps数据集上的实验结果表明,该方法可以有效提高文本区域中OCR令牌的提取精度。 For the image description task,traditional algorithms focus more on the visual objects in the image and ignore the fact that textual information also plays an indispensable role in its description.To enhance the extraction of text information in images,this paper proposes an image description algorithm based on multimodal feature fusion.Based on visual feature extraction,text recognition and detection algorithms are added,and a multimodal Transformer is used to fuse the two modalities.In the decoding stage,a central graph is used as a guiding module and a dynamic pointer network is used to achieve iterative decoding so that the model generates richer natural descriptive statements.Finally,the experimental results on Textcaps dataset show that the proposed method can effectively improve the extraction accuracy of OCR tokens in text regions.

作者杨晨露万旺根张振孙学涛王旭智

机构地区上海大学通信与信息工程学院上海大学智慧城市研究院上海交通大学医学院附属仁济医院宝山分院

出处《工业控制计算机》 2023年第1期87-88,91,共3页 Industrial Control Computer

关键词图像描述自然语言处理文本检测 TRANSFORMER image description natural language processing text detection Transformer

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献19

1王超.传送带超声无损检测系统设计及其研究[J].机械管理开发,2018,33(1):98-100. 被引量：2
2杜鹏飞,李小勇,高雅丽.多模态视觉语言表征学习研究综述[J].软件学报,2021,32(2):327-348. 被引量：26
3成凌飞,李俊,史亚军,李飞腾,杨蒙.带有传送带的矩形巷道中电磁波传播特性研究[J].测控技术,2021,40(6):90-94. 被引量：3
4张梦超,周满山,张媛,于岩,李虎.基于深度学习的矿用输送带损伤检测方法[J].工矿自动化,2021,47(6):51-56. 被引量：14
5石永恒,杨超宇.基于深度学习的矿井下作业人员安全帽佩戴检测[J].绥化学院学报,2021,41(9):148-152. 被引量：8
6高燚,高丽婷,杨宇夏.基于卷积神经网络ResNeXt结构的入侵检测研究[J].电脑知识与技术,2021,17(28):85-87. 被引量：3
7苗长云,邵琦.基于声音的带式输送机输送带纵向撕裂检测方法[J].天津工业大学学报,2021,40(6):71-76. 被引量：12
8钟维良,曾祥福,陈海钦,郑阳超.基于短时傅里叶能量分段的扬声器故障检测[J].工业控制计算机,2022,35(9):78-79. 被引量：1
9姜文晖,占锟,程一波,夏雪,方玉明.结合多层级解码器和动态融合机制的图像描述[J].中国图象图形学报,2022,27(9):2775-2787. 被引量：3
10刘丁源,冯锋.矿井下人员安全检测技术分析[J].信息与电脑,2022,34(15):41-43. 被引量：1

引证文献3

1王学立,赵辰燃,李青,何显能,甘梅.基于多模态的输送带撕裂大模型算法设计[J].煤矿安全,2023,54(9):202-207.
2徐珺.基于深度学习的计算机视觉图像描述研究[J].信息与电脑,2023,35(19):155-157. 被引量：1
3段毛毛,魏燚伟.基于多模态交互网络的图像描述[J].计算机技术与发展,2024,34(5):44-51. 被引量：1

二级引证文献2

1尚炳万,王策,党晨曦.深度学习图像处理系统设计[J].信息与电脑,2024,36(9):134-136.
2李满江,鞠传森,任鹏.智能多语种新闻采编系统的多模态数据融合研究[J].信息技术与信息化,2024(8):202-206.

1王瑞平,吴士泓,张美航,王小平.知识型视觉问答研究综述[J].计算机科学,2023,50(1):166-175.
2曹晓敏.以二分法为例谈小学编程中的"算法"教学[J].实验教学与仪器,2022,39(12):68-69.

工业控制计算机

2023年第1期

浏览历史

内容加载中请稍等...

基于多模态特征融合的图像描述算法研究被引量：3

同被引文献19

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于多模态特征融合的图像描述算法研究 被引量：3

同被引文献19

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于多模态特征融合的图像描述算法研究被引量：3