基于语义分割的全卷积图像描述模型被引量：2

Fully convolutional image description model based on semantic segmentation

下载PDF

导出

摘要为快速生成准确描述图片内容的语句,提出语义分割和卷积神经网络(convolutional neural network,CNN)相结合的图像描述方法。将图像分类模型和语义分割模型结合为编码器,增强对图像语义信息的利用,采用CNN代替长短时记忆网络(long short term memory,LSTM)作为解码器生成完整描述性语句。通过在MSCOCO数据集上与5种主流算法的对比实验可知,以CNN作为解码器能够大幅提高解码速度,语义信息的增强能够有效提高实验精度,验证了该方法的有效性和可行性。 To quickly generate sentences that accurately describe the content of a picture,an image description method combining semantic segmentation and convolutional neural network(CNN)was proposed.The image classification model and semantic segmentation model were combined into an encoder to enhance the use of image semantic information,and CNN was used instead of long short term memory(LSTM)as a decoder to generate complete descriptive sentences.By comparing experiments with five mainstream algorithms on the MSCOCO data set,it can be seen that using CNN as a decoder can greatly increase the decoding speed,and the enhancement of semantic information can also effectively improve the experimental accuracy,which verifies the effectiveness and feasibility of the method.

作者李永生颜秉勇周家乐 LI Yong-sheng;YAN Bing-yong;ZHOU Jia-le(College of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China)

机构地区华东理工大学信息科学与工程学院

出处《计算机工程与设计》北大核心 2023年第1期210-217,共8页 Computer Engineering and Design

基金国家自然科学基金青年基金项目(61906068)。

关键词图像描述语义分割卷积神经网络编码器语义信息长短时记忆网络解码速度 image description semantic segmentation convolutional neural network encoder semantic information long and short-term memory network decoding speed

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1易军凯,何潇然,姜大光.图像内容理解的深度学习方法[J].计算机工程与设计,2017,38(3):756-760. 被引量：8
2汤鹏杰,王瀚漓,许恺晟.LSTM逐层多目标优化及多层概率融合的图像描述[J].自动化学报,2018,44(7):1237-1249. 被引量：27

二级参考文献7

1蒋树强,闵巍庆,王树徽.面向智能交互的图像识别技术综述与展望[J].计算机研究与发展,2016,53(1):113-122. 被引量：92
2段艳杰,吕宜生,张杰,赵学亮,王飞跃.深度学习在控制领域的研究现状与展望[J].自动化学报,2016,42(5):643-654. 被引量：147
3郭潇逍,李程,梅俏竹.深度学习在游戏中的应用[J].自动化学报,2016,42(5):676-684. 被引量：22
4张红斌,姬东鸿,尹兰,任亚峰.基于梯度核特征及N-gram模型的商品图像句子标注[J].计算机科学,2016,43(5):269-273. 被引量：5
5王伟凝,王励,赵明权,蔡成加,师婷婷,徐向民.基于并行深度卷积神经网络的图像美感分类[J].自动化学报,2016,42(6):904-914. 被引量：53
6奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465. 被引量：225
7石俊飞,刘芳,林耀海,刘璐.基于深度学习和层次语义模型的极化SAR分类[J].自动化学报,2017,43(2):215-226. 被引量：13

共引文献33

1李卉,何晶,程富强,王晓薇,詹炳光.基于LSTM模型的卫星电源系统异常检测方法[J].装甲兵工程学院学报,2019,33(3):90-96. 被引量：3
2姜少波,甘彤,商国军.基于深度学习的以图搜图架构及在公安图侦中的应用[J].电子技术与软件工程,2018(9):62-63. 被引量：1
3罗勇.公安基层应用视频侦查技术的现状及展望[J].湖北警官学院学报,2018,31(3):107-114. 被引量：4
4高大鹏,朱建刚.滑动窗口时空深度置信网络行为识别[J].计算机工程与设计,2018,39(8):2654-2659. 被引量：1
5罗梓月,余小清,万旺根.一种新的基于人脸表情识别的图像理解模型[J].工业控制计算机,2018,31(3):34-36. 被引量：1
6陈威,祁伟彦,袁福香,李哲敏.基于时间序列与横截面数据的吉林省水稻产量预测对比分析[J].中国农业信息,2018,30(5):91-101. 被引量：5
7王星峰.基于CNN和LSTM的智能文本分类[J].辽东学院学报（自然科学版）,2019,26(2):126-132. 被引量：2
8巫红霞,谢强.基于加权社区检测与增强人工蚁群算法的高维数据特征选择[J].计算机应用与软件,2019,36(9):285-292. 被引量：8
9刘昊俣,贺诗波,陈积明.数据驱动的高速铁路强风报警自适应解除策略[J].自动化学报,2019,45(12):2242-2250. 被引量：4
10黄友文,游亚东,赵朋.融合卷积注意力机制的图像描述生成模型[J].计算机应用,2020,40(1):23-27. 被引量：13

同被引文献23

1邓志军,田秋红.改进Inception-v3网络的手势图像识别[J].计算机系统应用,2022,31(11):157-166. 被引量：1
2岳涵.基于学龄前儿童特征的电子绘本交互设计要素及趋势探究[J].编辑之友,2020(8):85-90. 被引量：15
3李志欣,魏海洋,黄飞成,张灿龙,马慧芳,史忠植.结合视觉特征和场景语义的图像描述生成[J].计算机学报,2020,43(9):1624-1640. 被引量：25
4张凯,李军辉,周国栋.双语图像标题联合生成研究[J].计算机科学,2020,47(12):183-189. 被引量：2
5方睿,张莎莎,魏雪琪.儿童阅读差异视角下电子绘本的互动设计[J].装饰,2020(9):128-129. 被引量：6
6李聪,毛剑琳,李大焱,马昭,罗楦皓.一种面向轻量型卷积神经网络的嵌入式图像识别系统[J].自动化与仪器仪表,2021(1):152-155. 被引量：6
7胡璇.幼儿电子绘本阅读策略探析[J].教育观察,2021,10(20):51-53. 被引量：4
8石义乐,杨文忠,杜慧祥,王丽花,王婷,理珊珊.基于深度学习的图像描述综述[J].电子学报,2021,49(10):2048-2060. 被引量：14
9宋丹,陆奎,戴旭凡.基于改进的卷积神经网络邮件分类算法研究[J].重庆工商大学学报（自然科学版）,2022,39(3):20-25. 被引量：8
10陈章辉,熊贇.基于解耦-检索-生成的图像风格化描述生成模型[J].计算机科学,2022,49(6):180-186. 被引量：2

引证文献2

1周子懿,熊海灵.基于深度学习的图像描述优化策略[J].计算机科学,2023,50(8):99-110. 被引量：1
2王亚杰.基于卷积神经网络的电子绘本信息采集设计[J].自动化与仪器仪表,2023(9):120-123.

二级引证文献1

1段一凡,刘然,刘小杰,李欣,袁雪涛,吕庆.图像识别技术在高炉风口识别与监测中的应用前景探索[J].钢铁,2024,59(5):56-70. 被引量：1

1张清,张文川,冉兴程.基于CNN-BiLSTM和注意力机制的恶意域名检测[J].中国电子科学研究院学报,2022,17(9):848-855. 被引量：4
2罗钟琳.晶态高聚物模量-温度曲线的教学探讨[J].高分子通报,2023,36(3):380-384. 被引量：1
3沈海,王黎光.基于贝叶斯网络的诊治前列腺疾病研究[J].现代计算机,2022,28(20):14-19. 被引量：1
4郑扬飞,张青龙.基于GARCH和LSTM神经网络混合模型的人民币汇率预测研究[J].管理科学与研究（中英文版）,2022,11(9):121-127.
5赵万祥,张远进,李晓荣.基于LSTM神经网络的缺失数据随机功率谱估计[J].武汉理工大学学报（信息与管理工程版）,2022,44(6):993-998. 被引量：2
6任进,李文邦,郭昱汝.基于无人机平台的多目标跟踪算法[J].无线电工程,2023,53(1):34-39. 被引量：7
7李文礼,张祎楠,王梦昕.基于视野域机制的行人轨迹预测[J].计算机应用研究,2023,40(1):80-85.
8陈秀明,储天启,王先传.基于LSTM-CNN-Attention的新闻分类研究[J].阜阳师范大学学报（自然科学版）,2022,39(4):62-69. 被引量：1
9银鹰,周志洪,姚立红.基于LSTM的CAN入侵检测模型研究[J].信息网络安全,2022(12):57-66. 被引量：7
10李小丽,杨倩.Open GLAM文化遗产开放数据实践解析及对我国的启示[J].图书情报导刊,2022,7(10):59-65.

计算机工程与设计

2023年第1期

浏览历史

内容加载中请稍等...

基于语义分割的全卷积图像描述模型被引量：2

参考文献2

二级参考文献7

共引文献33

同被引文献23

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于语义分割的全卷积图像描述模型 被引量：2

参考文献2

二级参考文献7

共引文献33

同被引文献23

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于语义分割的全卷积图像描述模型被引量：2