基于全局-局部特征和自适应注意力机制的图像语义描述算法被引量：6

Image captioning based on global-local feature and adaptive-attention

下载PDF

导出

摘要为了探究图像底层视觉特征与高层语义概念存在的差异,提出可以确定图像关注重点、挖掘更高层语义信息以及完善描述句子的细节信息的图像语义描述算法.在图像视觉特征提取时提取输入图像的全局-局部特征作为视觉信息输入,确定不同时刻对图像的关注点,对图像细节的描述更加完善;在解码时加入注意力机制对图像特征加权输入,可以自适应选择当前时刻输出的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能.实验结果表明,该方法相对于其他语义描述算法效果更有竞争力,可以更准确、更细致地识别图片中的物体,对输入图像进行更全面地描述;对于微小的物体的识别准确率更高. The image captioning algorithm was proposed in order to explore the difference of the image visual features and the upper layer semantic concept.The algorithm can determine the image focus,mine higher-level semantic information,and improve the description details.Local features were added for the image visual feature extraction,and the global-local feature of the input image was combined with the global features and local features for visual information.Then the focus of the image at different time was determined,and more details of the image were caught.The attention mechanism was added to weight the image feature during decoding,so that the dependence of the text words on the visual information and the semantic information at the current moment could be adaptively adjusted,and the performance of image captioning was effectively improved.The experimental results show that the proposed method can acquire competitive captioning results than other image captioning algorithms.The method can describe the image more accurately and more comprehensively,and the recognition accuracy of tiny objects is higher than others.

作者赵小虎尹良飞赵成龙 ZHAO Xiao-hu;YIN Liang-fei;ZHAO Cheng-long(National and Local Joint Engineering Laboratory of Internet Application Technology on Mine,China University of Mining and Technology,Xuzhou 221008,China;School of Information and Control Engineering,China University of Mining and Technology,Xuzhou 221116,China)

机构地区中国矿业大学矿山互联网应用技术国家地方联合工程实验室中国矿业大学信息与控制工程学院

出处《浙江大学学报（工学版）》 EI CAS CSCD 北大核心 2020年第1期126-134,共9页 Journal of Zhejiang University：Engineering Science

基金国家重点研发计划资助项目（2017YFC0804400)

关键词图像语义描述图像关注点高层语义信息描述句子细节全局-局部特征提取自适应注意力机制 image captioning image focus higher-level semantic information description detail global-local feature extraction adaptive-attention mechanism

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献34

1郭肇强,周慧聪,刘释然,李言辉,陈林,周毓明,徐宝文.基于信息检索的缺陷定位:问题、进展与挑战[J].软件学报,2020(9):2826-2854. 被引量：14
2李睿凡,梁昊雨,冯方向,张光卫,王小捷.全卷积神经结构的段落式图像描述算法[J].北京邮电大学学报,2019,42(6):155-161. 被引量：2
3吴双,胡伟,张林,刘欣宇.基于AI技术的电网关键稳定特征智能选择方法[J].中国电机工程学报,2019,39(1):14-21. 被引量：29
4汤鹏杰,谭云兰,李金忠.融合图像场景及物体先验知识的图像描述生成模型[J].中国图象图形学报,2017,22(9):1251-1260. 被引量：16
5宋婉茹,赵晴晴,陈昌红,干宗良,刘峰.行人重识别研究综述[J].智能系统学报,2017,12(6):770-780. 被引量：43
6石红姣.基于RFID技术的设备信息化管理系统设计分析[J].电子设计工程,2018,26(14):77-81. 被引量：7
7魏晨,龚龑,鲁啸,马燃.基于语义Web的多功能情报信息自适应检索技术[J].科学技术与工程,2019,19(5):211-216. 被引量：8
8姚拓中,左文辉,安鹏,宋加涛.基于多重语义交互的递归式场景理解框架[J].计算机科学,2019,46(5):228-234. 被引量：2
9夏小强,邵堃.基于语义关系约束和词语关系信息的句向量研究[J].计算机应用研究,2019,36(7):2023-2026. 被引量：4
10李金轩,杜军平,周南.基于注意力特征提取网络的图像描述生成算法[J].南京信息工程大学学报（自然科学版）,2019,11(3):295-301. 被引量：4

引证文献6

1董冰,王玉德.引入词向量和双注意力机制的图像语义理解[J].通信技术,2020,53(12):2947-2953. 被引量：1
2郭列,张团善,孙威振,郭杰龙.融合空间注意力机制的图像语义描述算法[J].激光与光电子学进展,2021,58(12):313-322. 被引量：10
3盛豪,易尧华,汤梓伟.融合图像场景与目标显著性特征的图像描述生成方法[J].计算机应用研究,2021,38(12):3776-3780. 被引量：5
4陈巧红,裴皓磊,孙麒.基于视觉关系推理与上下文门控机制的图像描述[J].浙江大学学报（工学版）,2022,56(3):542-549. 被引量：1
5佘俊,罗勇,余少锋,廖崇阳.基于语义理解和AI的电力设备信息检索方法[J].电子设计工程,2022,30(22):89-92. 被引量：3
6邬心怡,邓志良,刘云平,董娟,李嘉琦.基于交叉注意力机制的多特征行人重识别[J].南京信息工程大学学报,2024,16(4):461-471.

二级引证文献20

1曹洋,张莉,孟俊熙,宋倩,张乐天.针对X光安检场景的多目标违禁品识别算法[J].激光与光电子学进展,2022,59(10):314-322. 被引量：2
2孟俊熙,张莉,曹洋,张乐天,宋倩.基于Deeplab v3+的图像语义分割算法优化研究[J].激光与光电子学进展,2022,59(16):151-160. 被引量：14
3李志欣,苏强.基于知识辅助的图像描述生成[J].广西师范大学学报（自然科学版）,2022,40(5):418-432.
4朱家松,马天柱,杨昊坤,方旭,李庆.基于视觉注意力机制的下水管病害识别方法[J].激光与光电子学进展,2022,59(18):226-231. 被引量：1
5冯掬琳,王彦裕.基于虚拟技术和深度学习英语教学训练系统设计[J].自动化与仪器仪表,2022(12):126-131.
6庄文华,唐晓刚,张斌权,原光明.基于生成对抗网络的高照度可见光图像生成[J].计算机与现代化,2023(1):1-6.
7唐璐,万良,王婷婷,李树胜.DECANet:基于改进DeepLabv3+的图像语义分割方法[J].激光与光电子学进展,2023,60(4):82-90. 被引量：7
8张红良,李广明.基于空间关联性注意力的图像描述生成方法[J].计算机应用研究,2023,40(4):1275-1280.
9宋亮,谷玉海,石文天.基于改进BiSeNet的非结构化道路分割算法研究[J].应用光学,2023,44(3):556-564. 被引量：2
10朱蕊.基于人工智能的图书馆文献自动检索机器人设计[J].自动化与仪器仪表,2023(6):192-194.

1胡小燕.巧用微课助力低年级识字教学[J].甘肃教育,2019,0(22):155-155. 被引量：2
2徐珊.基于案例的视觉传达设计研究——评《视觉传达设计》[J].中国科技论文,2019,14(10).
3肖雪梅,袁丽.神经网络算法和蚁群算法在医学图像检索中的应用研究[J].医学信息（医学与计算机应用）,2014,0(13):4-5.
4江紫豪.一只茶杯的调解密码——调解中的“视觉化效应”[J].人民调解,2019,0(12):16-17.
5罗映辉.SDR节目上变换到HDR的创新实践[J].广播与电视技术,2019,46(7):50-54. 被引量：4
6张亚男,尹昊,李芳.基于CNN-Bayesian模型的冬小麦识别研究[J].科学技术创新,2019(33):66-67.
7林元凯,程涛.基于CGAN的交通环境运动模糊图像恢复及检测应用研究[J].中国计量,2019,0(10):80-85.
8郭羽含,于俊宇.考虑时空热度的共乘匹配问题建模及求解[J].交通运输系统工程与信息,2019,19(6):112-122. 被引量：3
9罗会兰,张云.结合上下文特征与CNN多层特征融合的语义分割[J].中国图象图形学报,2019,24(12):2200-2209. 被引量：4
10张桂梅,潘国峰.基于自适应对抗学习的半监督图像语义分割[J].南昌航空大学学报（自然科学版）,2019,33(3):32-40. 被引量：2

浙江大学学报（工学版）

2020年第1期

浏览历史

内容加载中请稍等...

基于全局-局部特征和自适应注意力机制的图像语义描述算法被引量：6

同被引文献34

引证文献6

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于全局-局部特征和自适应注意力机制的图像语义描述算法 被引量：6

同被引文献34

引证文献6

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于全局-局部特征和自适应注意力机制的图像语义描述算法被引量：6