基于Se-ResNet50特征编码器的公共环境图像描述生成被引量：4

Public environment image caption generation based on Se-ResNet-50 feature encoder

下载PDF

导出

摘要针对传统公共环境图像描述模型中编码器—解码器结构在编码过程中特征提取能力不足以及解码过程中上下文信息丢失严重的问题,提出了一种基于Se-ResNet50与M-LSTM的公共环境图像描述模型。将SeNet模块添加到ResNet-50的残差路径中得到改进残差网络提取图像特征,SeNet对特征的各个部分赋予权重生成不同的注意力特征图,再融合文本特征向量输入具有额外门控运算的改进长短期记忆网络(M-LSTM)训练。模型训练结束后,输入公共环境图像就能得到描述图像内容的自然语句。该模型在多种数据集上进行了评估,实验结果表明,提出的模型在MSCOCO数据集上相较传统模型,在BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、CIDEr等评价指标上分别提高了3.2%、2.1%、1.7%、1.7%、1.3%、8.2%,证明了提出的方法在评价指标、语义多样性上具有一定的优越性。 Aiming at the problem that the encoder-decoder structure in the traditional public environment image description model has insufficient feature extraction ability in the encoding process and the serious loss of context information in the decoding process,this paper proposed a public environment image caption model based on Se-ResNet-50 and M-LSTM.It added the SeNet module to the residual path of ResNet-50 to obtain the improved residual network to extract image features,and weighted each part of the feature to generate different attention feature maps.It input the fused text feature vector to the improved and long short-term memory network(M-LSTM)training with additional gating operations.After the model training,input the public environment image to get the natural sentence describing the image content.It evaluated the model on a variety of datasets.The expe-rimental results show that the proposed model has improved by 3.2%,2.1%,1.7%,1.7%,1.3%,8.2%on BLEU-1,BLEU-2,BLEU-3,BLEU-4,METER,CIDEr and other evaluation indicators respectively compared with the traditional model on MSCOCO datasets,which proves that the method has certain advantages in evaluation indicators and semantic diversity.

作者唐渔何志琴周宇辉吴钦木王霄 Tang Yu;He Zhiqin;Zhou Yuhui;Wu Qinmu;Wang Xiao(Electrical Engineering College,Guizhou University,Guiyang 550025,China)

机构地区贵州大学电气工程学院

出处《计算机应用研究》 CSCD 北大核心 2023年第6期1864-1869,共6页 Application Research of Computers

基金贵州省科学技术基金资助项目(黔科合支撑[2021]一般264) 贵州省科学技术基金资助项目(黔科合支撑[2021]一般442)。

关键词公共环境图像描述 SeNet ResNet-50 长短期记忆网络 image caption of public environment SeNet ResNet-50 long short-term memory network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1许昊,张凯,田英杰,种法广,王子超.深度神经网络图像描述综述[J].计算机工程与应用,2021,57(9):9-22. 被引量：11
2周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1726
3张荣,李伟平,莫同.深度学习研究综述[J].信息与控制,2018,47(4):385-397. 被引量：138
4熊炜,熊子婕,杨荻椿,童磊,刘敏,曾春艳.基于深层特征融合的行人重识别方法[J].计算机工程与科学,2020,42(2):358-364. 被引量：5

二级参考文献20

1李睿凡,梁昊雨,冯方向,张光卫,王小捷.全卷积神经结构的段落式图像描述算法[J].北京邮电大学学报,2019,42(6):155-161. 被引量：2
2韩红桂,甄博然,乔俊飞.动态结构优化神经网络及其在溶解氧控制中的应用[J].信息与控制,2010,39(3):354-360. 被引量：13
3余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：610
4刘建伟,刘媛,罗雄麟.玻尔兹曼机研究进展[J].计算机研究与发展,2014,51(1):1-16. 被引量：71
5沈媛媛,严严,王菡子.有监督的距离度量学习算法研究进展[J].自动化学报,2014,40(12):2673-2686. 被引量：23
6金林鹏,董军.面向临床心电图分析的深层学习算法[J].中国科学：信息科学,2015,45(3):398-416. 被引量：37
7Yi ZHENG,QiLIU,Enhong CHEN,Yong GE,J. Leon ZHAO.Exploiting multi-channels deep convolutional neural networks for multivariate time series classification[J].Frontiers of Computer Science,2016,10(1):96-112. 被引量：22
8高君宇,杨小汕,张天柱,徐常胜.基于深度学习的鲁棒性视觉跟踪方法[J].计算机学报,2016,39(7):1419-1434. 被引量：30
9李红,刘芳,杨淑媛,张凯.基于深度支撑值学习网络的遥感图像融合[J].计算机学报,2016,39(8):1583-1596. 被引量：39
10常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安.图像理解中的卷积神经网络[J].自动化学报,2016,42(9):1300-1312. 被引量：425

共引文献1864

1陆文超,崔海朋.一种基于融合自编码与神经网络的协同过滤算法[J].中国水运（下半月）,2022,22(3):18-20.
2杜佳峰,王景松,杨宝军,薛勇新,郑春华.基于卷积神经网络的船舶水尺字符识别方法研究[J].中国水运（下半月）,2020(3):1-3. 被引量：1
3陆天和,刘莉,贺云涛,杨盾.多无人机航迹规划算法及关键技术[J].战术导弹技术,2020(1):85-90. 被引量：7
4林桢哲,王桂棠,陈建强,符秦沈.基于残差网络深度学习的肺部CT图像结节良恶性分类模型[J].仪器仪表学报,2020,41(3):248-256. 被引量：22
5陈仁祥,张勇,杨黎霞,陈才,徐向阳.基于整周期数据和卷积神经网络的谐波减速器健康状态评估[J].仪器仪表学报,2020,41(2):245-252. 被引量：20
6鲍光海,林善银,徐林森.基于改进型卷积网络的汽车高度调节器缺陷检测方法[J].仪器仪表学报,2020,41(2):157-165. 被引量：13
7王飞,汪鹏,周琳,陈蜀虎,吴昊.基于深度学习的影像智能诊断平台建设与应用[J].中国数字医学,2020,15(1):11-13. 被引量：8
8陈绎冰,李天依,李欣艳,赵文川,范荣峰,陈凤娇,杨元建.基于随机森林和遥感的台风降水云光谱与降水关系研究[J].遥感技术与应用,2022,37(5):1277-1288. 被引量：1
9丁名都,李琳.基于CNN和HOG双路特征融合的人脸表情识别[J].信息与控制,2020,49(1):47-54. 被引量：17
10牛一凡,邵景峰.基于非线性数据融合的设备多阶段寿命预测[J].信息与控制,2019,48(6):729-737. 被引量：9

同被引文献44

1张永宏,袁永.基于小波包分解和形态学融合的地基云图边缘检测[J].南京信息工程大学学报（自然科学版）,2011,3(2):150-153. 被引量：1
2李靖华,郭耀煌.主成分分析用于多指标评价的方法研究——主成分评价[J].管理工程学报,2002,16(1):39-43. 被引量：245
3高林,杨贵军,于海洋,徐波,赵晓庆,董锦绘,马亚斌.基于无人机高光谱遥感的冬小麦叶面积指数反演[J].农业工程学报,2016,32(22):113-120. 被引量：80
4辛超,刘扬.基于概率霍夫变换的车道线识别算法[J].测绘通报,2019(S2):52-55. 被引量：19
5缪希仁,刘志颖,鄢齐晨.无人机输电线路智能巡检技术综述[J].福州大学学报（自然科学版）,2020,48(2):198-209. 被引量：91
6袁静文,武辰,杜博,张良培,王树根.高分五号高光谱遥感影像的城市土地利用景观格局分析[J].遥感学报,2020,24(4):465-478. 被引量：39
7罗仕华,胡维昊,黄琦,韩晓言,陈哲.市场机制下光伏/小水电/抽水蓄能电站系统容量优化配置[J].电工技术学报,2020,35(13):2792-2804. 被引量：39
8铁路专家解答如何守好高铁的“安全红线”[J].城市轨道交通研究,2021,24(5):191-191. 被引量：1
9丁国绅,乔延利,易维宁,李俊,杜丽丽.基于光谱图像空间的F-SIFT特征提取与匹配[J].光学精密工程,2021,29(5):1180-1189. 被引量：9
10矫健,张磊,李晶.基于空洞空间金字塔池化的雾天图像语义分割[J].计算机应用研究,2021,38(7):2200-2202. 被引量：2

引证文献4

1张婷婷,王斌,王坤,相里宇锡,陈飞,陈帝伊.基于增强层次对称点图像分析和深度残差网络的水电机组故障诊断[J].水利学报,2023,54(11):1380-1391. 被引量：2
2王勇达,王硕禾,朱钰,常宇健,蔡承才,赵瑞康.基于优化DeepLabv3+的智能化高速铁路安全区域划分算法研究[J].南京信息工程大学学报（自然科学版）,2024,16(1):20-29.
3熊尧卿.与注意力机制相结合的HybridSN高光谱地物分类模型[J].能源与环境,2024(4):144-148.
4张镭赋,高家骥.多模态图像局部极值点特征生成方法仿真[J].计算机仿真,2024,41(8):481-485.

二级引证文献2

1田波,张广生,马泽宁,陈启卷.基于EMD-DRSN和ILSO-SVM的水电机组故障诊断[J].中国农村水利水电,2024(8):235-240.
2张兼博,李想,曾云,唐跨纪.TSMSE结合IOOA-BiLSTM的水电机组轴系故障诊断方法[J].水利学报,2024,55(7):862-873.

1彭姣丽.基于深度学习的自动生成图像描述技术研究[J].中国新技术新产品,2023(7):12-14.
2俞艺文,施水才,王洪俊.基于Bert词向量与有序记忆网络的图像描述[J].软件导刊,2023,22(3):125-133. 被引量：1
3彭姣丽,李凌云,孙兴,骆又麟,肖柏元.基于CNN-LSTM的自动生成图像描述方法研究[J].中国新技术新产品,2023(6):14-17.
4刘静,陈金广.基于通道注意力和Transformer的图像标题生成方法[J].计算机与现代化,2023(5):8-12.
5张静,郭丹,宋培培,李坤,汪萌.引入语义匹配和语言评价的跨语言图像描述[J].中国图象图形学报,2022,27(11):3343-3355.
6刘欢,窦全胜.嵌入不同邻域表征的方面级情感分析模型[J].计算机应用,2023,43(1):37-44. 被引量：2
7俞勇.起点?终点?转折点?人生到底该赢在哪里——写在ACM班创办20周年之际[J].计算机教育,2023(2):1-5.
8钟瑞,蒋斌,李南星,崔晓梅.嵌入注意力机制残差网络的人脸表情识别方法[J].计算机工程与应用,2023,59(11):88-97. 被引量：1
9熊超,周海峰,郑东强,林忠华,张兴杰,关天敏.结合空洞编码器和特征金字塔的中心点船舶检测[J].船舶工程,2023,45(2):154-161. 被引量：1
10沈秀轩,吴春雷,冯叶棋,程铭,张俊三,朱杰.基于双分支特征融合的医学报告生成方法[J].计算机工程,2023,49(6):274-283. 被引量：2

计算机应用研究

2023年第6期

浏览历史

内容加载中请稍等...

基于Se-ResNet50特征编码器的公共环境图像描述生成被引量：4

参考文献4

二级参考文献20

共引文献1864

同被引文献44

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Se-ResNet50特征编码器的公共环境图像描述生成 被引量：4

参考文献4

二级参考文献20

共引文献1864

同被引文献44

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Se-ResNet50特征编码器的公共环境图像描述生成被引量：4