基于演化深度学习的图像描述自动生成技术研究被引量：3

Evolutionary deep learning for image captioning

下载PDF

导出

摘要针对现有基于视觉注意力和基于文本注意力的图像描述自动生成模型无法同时兼顾描述图像细节和整体图像的问题,提出了一种基于演化深度学习的图像描述生成模型(evolutionary deep learning model for image captioning, EDLMIC),该模型是一种包含图像编码器、演化神经网络和自适应融合解码器三个子模块的图像描述自动生成模型,能够有效地融合视觉信息和文本信息,自动计算这两种信息在每个时间步所占的比例,从而基于融合的视觉文本信息更好地生成给定图像的相关描述。在Flickr30K和COCO2014两个公开数据集的实验结果表明,EDLMIC模型在METEOR、ROUGE-L、CIDEr和SPICE四个指标均优于其他基线模型,并且在多种不同的生活场景中具有较好的性能。 Aiming at the problem that the existing automatic image description generation models based on visual attention and text attention cannot describe the image details and the whole image at the same time, this paper proposed a model for image captioning which included three sub-modules, i.e.,an image encoder, an evolutionary neural network, and an adaptive merging decoder.The proposed model could effectively integrate both the visual information and text information, and automatically calculated the proportion of these two information at each time step.The experimental results on two public data sets, Flickr30 k and COCO2014,show that the proposed EDLMIC model is superior to other baseline models in four indicators such as METEOR,ROUGE-L,CIDEr and SPICE,and has good performance in a variety of different life scenes.

作者高欣孙茂圣朱俊武 Gao Xin;Sun Maosheng;Zhu Junwu(School of Information Engineering,Jiangsu College of Tourism,Yangzhou Jiangsu 225131,China;College of Information Enginee-ring,Yangzhou University,Yangzhou Jiangsu 225127,China;Office of Informationization Construction&Administration,Yangzhou University,Yangzhou Jiangsu 225127,China)

机构地区江苏旅游职业学院信息工程学院扬州大学信息工程学院扬州大学信息化建设与管理处

出处《计算机应用研究》 CSCD 北大核心 2022年第3期911-918,共8页 Application Research of Computers

基金江苏省高职院校教师专业带头人高端研修项目国家自然科学基金资助项目(61872313) 江苏省教育信息化研究重点课题(20180012) 扬州市科技计划资助项目(YZ2019133,YZ2020174)。

关键词演化深度学习图像描述生成注意力机制计算机视觉自然语言处理 evolutionary deep learning image captioning attention mechanism computer version national language processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献33

1刘春妹,高洪民,王学田,韩聪蓉,刘栖,沈婕.基于深度学习的水果图像识别系统[J].微波学报,2020,36(S01):427-430. 被引量：4
2严明,曹国,夏梦.基于水平集演化和支持向量机分类的高分辨率遥感图像自动变化检测[J].哈尔滨理工大学学报,2019,24(1):78-84. 被引量：11
3谢晓蔚,史健芳.弱监督卷积神经网络的多目标图像检测研究[J].电子测量与仪器学报,2019,31(6):31-37. 被引量：15
4苗海委,周慧玲.基于深度学习的粘虫板储粮害虫图像检测算法的研究[J].中国粮油学报,2019,34(12):93-99. 被引量：19
5尤洪峰,田生伟,禹龙,吕亚龙.基于Word Embedding的遥感影像检测分割[J].电子学报,2020,48(1):75-83. 被引量：6
6陈小帮,左亚尧,王铭锋,马铎.面向深度学习识别高空农作物的方法[J].计算机工程与设计,2020,41(2):580-586. 被引量：4
7李颀,强华.基于双目视觉与深度学习的番茄本体特征检测系统[J].南方农业学报,2020,51(1):237-244. 被引量：10
8赵红伟,陈仲新,刘佳.深度学习方法在作物遥感分类中的应用和挑战[J].中国农业资源与区划,2020,41(2):35-49. 被引量：10
9李梓瑞,王慧琴,胡燕,卢英.基于深度学习和最大相关最小冗余的火焰图像检测方法[J].激光与光电子学进展,2020,57(10):152-162. 被引量：14
10贾鹤鸣,彭晓旭,邢致恺,李金夺,康立飞.改进萤火虫优化算法的Renyi熵污油图像分割[J].智能系统学报,2020,15(2):367-373. 被引量：5

引证文献3

1杨俊成,李淑霞.交通事故现场语义描述分析[J].信息与电脑,2023,35(5):73-76.
2白维维,李俊杰,陈烽.基于双目图像深度学习的农作物择优采摘仿真[J].计算机仿真,2024,41(2):187-191.
3李默寒.地下水动力场演化图像奇异点检测方法研究[J].自动化仪表,2024,45(3):108-112. 被引量：1

二级引证文献1

1刘智慧,林荣智.基于图像处理技术的纸张质量检测方案[J].造纸科学与技术,2024,43(4):70-72.

1李沛卓,万雪,李盛阳.基于多模态学习的空间科学实验图像描述[J].光学精密工程,2021,29(12):2944-2955. 被引量：2
2王禹.国内留守儿童心理健康领域研究热点分析——基于CNKI数据库文献的可视化分析[J].中小学心理健康教育,2022(3):22-25.
3Liao Liao,Weihan Zhang,Bo Zhang,Ting Fang,Xiao-Fei Wang,Yarning Cai,Collins Ogutu,Lei Gao,Gang Chen,Xiaoqing Nie,Jinsheng Xu,Quanyan Zhang,Yiran Ren,Jianqiang Yu,Chukun Wang,Cecilia H.Deng,Baiquan Ma,Beibei Zheng,Chun-Xiang You,Da-Gang Hu,Richard Espley,Kui Lin-Wang,Jia-Long Yao,Andrew C.Allan,Awais Khan,Schuyler S.Korban,Zhangjun Fei,Ray Ming,Yu-Jin Hao,Li Li,Yuepeng Han.Unraveling a genetic roadmap for improved taste in the domesticated apple[J].Molecular Plant,2021,14(9):1454-1471. 被引量：6
4Wenming CAO,Canta ZHENG,Zhiyue YAN,Weixin XIE.Geometric deep learning:progress,applications and challenges[J].Science China(Information Sciences),2022,65(2):234-236. 被引量：2
5李坤.初中物理教材内容的补充建议———以《显微镜和望远镜》为例[J].今天,2021(13):260-260.
6龚树凤,龙伟军,贲德,潘明海.组网雷达自适应模糊CFAR检测融合算法[J].系统工程与电子技术,2022,44(1):100-107. 被引量：2
7郑方舟.基于复制和覆盖率机制的生成式文本摘要方法研究[J].长江信息通信,2022,35(2):154-156.
8黄鹤,吴琨,李昕芮,王珺,王会峰,茹锋.自适应插值飞蛾扑火优化的多特征粒子滤波车辆跟踪算法[J].上海交通大学学报,2022,56(2):143-155. 被引量：3
9王宗辉,李宝安,吕学强,游新冬.BETES:一种中文长文档抽取式摘要方法[J].小型微型计算机系统,2022,43(1):42-49. 被引量：3
10丘春娴,黄静,刘燕珠.儿童保健门诊中语音障碍患儿的初诊情况及监护人自觉状况分析[J].中国妇幼卫生杂志,2021,12(5):65-67.

计算机应用研究

2022年第3期

浏览历史

内容加载中请稍等...

基于演化深度学习的图像描述自动生成技术研究被引量：3

同被引文献33

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于演化深度学习的图像描述自动生成技术研究 被引量：3

同被引文献33

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于演化深度学习的图像描述自动生成技术研究被引量：3