基于多模态神经网络生成图像中文描述被引量：2

Generation of Chinese Image Description by Multimodal Neural Network

下载PDF

导出

摘要自动生成图片描述是自然语言处理和计算机视觉的热点研究话题,要求计算机理解图像语义信息并用人类自然语言的形式进行文字表述.针对当前生成中文图像描述整体质量不高的问题,提出首先利用FastText生成词向量,利用卷积神经网络提取图像全局特征;然后将成对的语句和图像〈S,I〉进行编码,并融合为两者的多模态特征矩阵;最后模型采用多层的长短时记忆网络对多模态特征矩阵进行解码,并通过计算余弦相似度得到解码的结果.通过对比发现所提模型在双语评估研究(BLEU)指标上优于其他模型,生成的中文描述可以准确概括图像的语义信息. Automatic image captioning is a hot topic which connects natural language processing and computer vision.It mainly completes the task of understanding image semantic information and expressing it in the form of human natural language.For the overall quality of Chinese image captioning is not very high,this study uses FastText to generate word vector,uses convolution neural network to extract the global features of the image,then encodes the pairs of sentences and images〈S,I〉,and finally merges them into a feature matrix containing both Chinese description and image information.Decoder uses LSTM model to decode the feature matrix,and obtains the decoding result by calculating cosine similarity.Through comparison,we find that the model proposed in this study is better than other models in BiLingual Evaluation Understudy(BLEU).The Chinese description generated by the model can accurately summarize the semantic information of the image.

作者陈兴 CHEN Xing(College of Computer and Information,Hohai University,Nanjing 211100,China)

机构地区河海大学计算机与信息学院

出处《计算机系统应用》 2020年第9期191-197,共7页 Computer Systems & Applications

关键词图像中文描述 FastText语言模型卷积神经网络长短时记忆网络 Chinese image captioning FastText Convolutional Neural Network(CNN) Long and Short Term Memory network(LSTM)

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1刘泽宇,马龙龙,吴健,孙乐.基于多模态神经网络的图像中文摘要生成方法[J].中文信息学报,2017,31(6):162-171. 被引量：6
2邓珍荣,张宝军,蒋周琴,黄文明.融合word2vec和注意力机制的图像描述模型[J].计算机科学,2019,46(4):268-273. 被引量：7

共引文献11

1魏强.债转股运作过程中应当注意的问题[J].金融理论与实践,2000(3):30-32. 被引量：3
2郭淑涛,赵德新.一种基于深度学习的中文图像描述模型[J].天津理工大学学报,2020,36(3):30-35. 被引量：4
3莫宏伟,田朋.基于注意力融合的图像描述生成方法[J].智能系统学报,2020,15(4):740-749. 被引量：1
4高逸凡,王勇.一种基于目标检测与词性分析的图像描述算法[J].计算机与现代化,2021(3):108-114.
5王礼云,辛月兰.基于卷积神经网络和层次标签集扩展的文本分类方法[J].西北师范大学学报（自然科学版）,2021,57(2):48-54. 被引量：2
6李怡,刘丽君.基于大数据图像处理的产品造型智能设计探索[J].包装工程,2021,42(14):179-184. 被引量：7
7王宇航,张灿龙,李志欣,王智文.体现用户意图和风格的图像描述生成[J].广西师范大学学报（自然科学版）,2022,40(4):91-103.
8朱晨豪,叶霞,陆琪多.多模态图像描述任务综述[J].计算机仿真,2023,40(6):1-8.
9罗予东,李振坤.结合深度神经网络的网络监控系统微表情识别[J].计算机应用与软件,2023,40(7):172-179.
10全安坤,李红莲,张乐,吕学强.融合内容和图片特征的中文摘要生成方法研究[J].数据分析与知识发现,2024,8(3):110-119. 被引量：1

同被引文献13

1刘泽宇,马龙龙,吴健,孙乐.基于多模态神经网络的图像中文摘要生成方法[J].中文信息学报,2017,31(6):162-171. 被引量：6
2刘永平,郭小波.基于新阈值函数和小波分析的数字图像去噪方法[J].电脑与信息技术,2020,28(2):5-7. 被引量：4
3刘建明,张捷,雷婕,廖周宇.基于Adaboost的孪生支持向量机人脸识别方法[J].传感器与微系统,2020,39(7):51-53. 被引量：9
4解令楠.基于几种新阈值函数的去噪方法比较研究[J].现代计算机,2020,26(17):55-57. 被引量：2
5李春萌,曹艳华,杨晓忠.基于改进阈值函数的分数阶小波图像去噪[J].测控技术,2020,39(8):97-101. 被引量：7
6李纪鑫,任高明,赫磊,孙瑜.基于BP神经网络的人脸检测AdaBoost算法[J].计算机测量与控制,2020,28(8):187-192. 被引量：3
7庞崇高,陆玉发.基于迁移学习的并行化大数据流传输系统设计[J].现代电子技术,2020,43(18):40-42. 被引量：4
8尹文枫,梁玲燕,彭慧民,曹其春,赵健,董刚,赵雅倩,赵坤.卷积神经网络压缩与加速技术研究进展[J].计算机系统应用,2020,29(9):16-25. 被引量：9
9张子昊,王蓉.基于MobileFaceNet网络改进的人脸识别方法[J].北京航空航天大学学报,2020,46(9):1756-1762. 被引量：11
10邓珍荣,张永林,杨睿,蓝如师,黄文明,罗笑南.结合全局和局部特征的BiGRU-RA图像中文描述模型[J].计算机辅助设计与图形学学报,2021,33(1):49-58. 被引量：2

引证文献2

1田佳鹭,邓立国.基于改进VGG-16神经网络的图像分类方法[J].计算技术与自动化,2021,40(2):131-135. 被引量：10
2郝子娴,汪兴建,杨有.联合视觉分组的图像中文描述[J].微电子学与计算机,2024,41(8):73-80.

二级引证文献10

1邓志平,王冬霞,马晓冬,曹玉东.基于注意力机制的NewVGG16-BiGRU鼾声分类[J].计算机应用,2023,43(S01):276-280.
2黄淼,李韬,文旭,钟浩.电磁暂态仿真模型敏捷生成方法研究[J].重庆理工大学学报（自然科学）,2022,36(2):191-196. 被引量：1
3王程丽,赵静,杨攀攀,李姗.基于迁移学习的小样本SAR船只目标识别[J].移动通信,2022,46(4):22-27. 被引量：4
4黄乾峰,董琴.基于卷积神经网络的农作物病害图像分类研究[J].信息与电脑,2022,34(5):138-142. 被引量：1
5王芳,郑圣勇.基于改进的VGG-16模型的花卉识别小程序设计[J].信息与电脑,2022,34(11):157-159.
6王昱琪,熊绍托,齐岩松,韦隆圣,张紫轩.物流分拣机器人设计[J].科技风,2022(36):1-3. 被引量：6
7沈琦,胡玉萍.基于深度学习的钢铁产品表面缺陷分类[J].宝钢技术,2022(6):62-69. 被引量：2
8魏鑫,李晓婷,赵世慧,贾婧.基于卷积神经网络和随机森林的毁伤效果评估方法[J].火力与指挥控制,2023,48(3):185-190. 被引量：1
9胡裕峰,张自远,金涛,盛敏超,李中龙.基于特高频和CNN-LSTM-Attention算法的高压电缆故障诊断方法[J].计算技术与自动化,2023,42(2):31-38. 被引量：1
10李彬,邓力凡,彭丽.基于CNN-LSTM-Attention神经网络的高压电缆局部放电预测方法研究[J].湖南城市学院学报（自然科学版）,2023,32(4):67-72. 被引量：1

1赵文娴.《人类的聚居地——聚落》教学设计[J].试题与研究（教学论坛）,2020(22):82-83.
2王洋河,冉雯.“此言得之”释义兼论音节助词“之”[J].阿坝师范学院学报,2020,37(3):118-122.
3王海燕.如何培养学生识字的兴趣[J].国家通用语言文字教学与研究,2020(7):76-76.
4叶蓉.谈化学实验开展的困境及解决措施[J].南北桥,2020(13):79-79.

计算机系统应用

2020年第9期

浏览历史

内容加载中请稍等...

基于多模态神经网络生成图像中文描述被引量：2

参考文献2

共引文献11

同被引文献13

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于多模态神经网络生成图像中文描述 被引量：2

参考文献2

共引文献11

同被引文献13

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于多模态神经网络生成图像中文描述被引量：2