多模态深度学习综述被引量：27

Survey of Multimodal Deep Learning

下载PDF

导出

摘要模态是指人接收信息的方式,包括听觉、视觉、嗅觉、触觉等多种方式。多模态学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。多模态学习的目的是建立能够处理和关联来自多种模式信息的模型,它是一个充满活力的多学科领域,具有日益重要和巨大的潜力。目前比较热门的研究方向是图像、视频、音频、文本之间的多模态学习。着重介绍了多模态在视听语音识别、图文情感分析、协同标注等实际层面的应用,以及在匹配和分类、对齐表示学习等核心层面的应用,并针对多模态学习的核心问题:匹配和分类、对齐表示学习方面给出了说明。对多模态学习中常用的数据集进行了介绍,并展望了未来多模态学习的发展趋势。 Modal refers to the way people receive information,including hearing,vision,smell,touch and other ways.Multimodal learning refers to learning better feature representation by using the complementarity between multimodes and eliminating the redundancy between them.The purpose of multimodal learning is to build a model that can deal with and correlate information from multiple modes.It is a dynamic multidisciplinary field,with increasing importance and great potential.At present,the popular research direction is multimodal learning among image,video,audio and text.This paper focuses on the application of multimodality in audio-visual speech recognition,image and text emotion analysis,collaborative annotation and other practical levels,as well as the application in the core level of matching and classification,alignment representation learning,and gives an explanation for the core issues of multimodal learning:matching and classification,alignment representation learning.Finally,the common data sets in multimodal learning are introduced,and the development trend of multimodal learning in the future is prospected.

作者孙影影贾振堂朱昊宇 SUN Yingying;JIA Zhentang;ZHU Haoyu(College of Electronics and Information Engineering,Shanghai University of Electric Power,Shanghai 200090,China)

机构地区上海电力大学电子与信息工程学院

出处《计算机工程与应用》 CSCD 北大核心 2020年第21期1-10,共10页 Computer Engineering and Applications

基金国家自然科学基金青年科学基金(No.61401269)。

关键词多模态学习多模态应用多模态融合共享表示空间 multimodal learning multimodal application multimodal fusion shared representation space

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1刘建伟,丁熙浩,罗雄麟.多模态深度学习综述[J].计算机应用研究,2020,37(6):1601-1614. 被引量：34
2刘宇鹏,马春光,张亚楠.深度递归的层次化机器翻译模型[J].计算机学报,2017,40(4):861-871. 被引量：28
3邓智方,袁家政,刘宏哲,原春锋,张宏源.基于浅三维稠密网的多模态手势识别算法[J].计算机工程与应用,2019,55(19):166-172. 被引量：3
4Zheng Li,Xiaobing Du,Cuixia Ma,Yanfeng Li,Hongan Wang.Interactive System for Video Summarization Based on Multimodal Fusion[J].Journal of Beijing Institute of Technology,2019,28(1):27-34. 被引量：1
5梁斌,刘全,徐进,周倩,章鹏.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展,2017,54(8):1724-1735. 被引量：131
6闫河,王鹏,董莺艳,罗成,李焕.改进的卷积神经网络图片分类识别方法[J].计算机应用与软件,2018,35(12):193-198. 被引量：16
7闫利,胡修兵,陈长军,马振玲.多模态图像配准的梯度一致性算子[J].武汉大学学报（信息科学版）,2013,38(8):969-972. 被引量：7
8童靖然,毛力,孙俊.特征金字塔融合的多模态行人检测算法[J].计算机工程与应用,2019,55(19):214-222. 被引量：10
9邓佩,谭长庚.基于转移变量的图文融合微博情感分析[J].计算机应用研究,2018,35(7):2038-2041. 被引量：7
10王景中,胡贝贝.归一化算法在文字识别系统中的应用研究[J].计算机应用与软件,2011,28(3):95-97. 被引量：8

二级参考文献28

1肖国强,陆枫,王多强.二值点阵图像的放大与缩小方法研究[J].华中理工大学学报,1994,22(12):19-22. 被引量：4
2王建平,蔺菲.基于笔划宽度提取的手写体汉字归一化方法[J].计算机技术与发展,2006,16(10):29-31. 被引量：2
3Kelman A, Sofka M, Stewart C V. Keypoint De- scriptors for Matching Across Multiple Image Mo- dalities and Non-linear Intensity Variations [C]. 2007 IEEE Conference on Computer Vision and Pat- tern Recognition, Minneapolis, Minnesota, 2007.
4Myronenko A, Song X. Point Set Registration: Co- herent Point Drift[J]. IEEE Transactions on Pat- tern Analysis and Machine Intelligence, 2010, 32 (12):2 262-2 275.
5Collignon A. Automated Multi-modality Image Registration Based on Information Theory[J]. In- formation Processing in Medical Imaging Collignon, 1995(3) :264-274.
6Wang F, Vemuri B C. Non-rigid Multi-modal Im- age Registration Using Cross-cumulative Residual Entropy[J]. International Journal of Computer Vi- sion,2007,74(2) :201-215.
7Haber E, Modersitzki J. Intensity Gradient Based Registration and Fusion of Multi-modal Images[J]. Methods of Information in Medicine, 2007,46 (3) : 292-299.
8李永江,潘保昌,郑胜林.细化算法在手写体字符识别中的应用[J].现代电子技术,2008,31(12):91-92. 被引量：1
9王森,杨克俭.基于双线性插值的图像缩放算法的研究与实现[J].自动化技术与应用,2008,27(7):44-45. 被引量：77
10霍宇翔,丁宇,陈耘,金龙,周兆英.细化畸变节点形态分析及修正策略研究[J].计算机辅助设计与图形学学报,1997,9(6):500-505. 被引量：11

共引文献245

1张克,张文俊,朱蕴文,邢毅雪.基于内联关系的方面级情感分析方法[J].上海大学学报（自然科学版）,2022,28(1):157-169.
2许凯秋,龚龑,方圣辉,汪韬阳.高分数据辅助下的热红外遥感影像几何校正[J].武汉大学学报（信息科学版）,2020,45(3):426-431. 被引量：1
3王光,李鸿宇,邱云飞,郁博文,柳厅文.基于图卷积记忆网络的方面级情感分类[J].中文信息学报,2021,35(8):98-106. 被引量：15
4王忆锋.2013年的中国红外技术(中)[J].红外技术,2014,36(2):89-101. 被引量：5
5郭磊.行文工整的甲骨拓片文字特征提取算法研究[J].计算机应用与软件,2014,31(6):147-150. 被引量：2
6杜慧,俞晓明,刘悦,余智华,程学旗.融合词性和注意力的卷积神经网络对象级情感分类方法[J].模式识别与人工智能,2018,31(12):1120-1126. 被引量：10
7岳建杰,赵旦峰.基于K-means的图像文字识别与提取研究[J].应用科技,2015,42(2):17-20. 被引量：3
8涂岩恺,鄢煜尘.Hopfield网络的蚁群优化及其对笔迹图像的预处理[J].厦门理工学院学报,2015,23(3):80-84.
9咸艳霞,胡修兵,郑莉.多模态图像匹配的FFT梯度相关算法[J].华中师范大学学报（自然科学版）,2015,49(6):838-842.
10周岚.浅析基于C语言的单片机技术[J].软件工程,2016,19(5):30-31. 被引量：3

同被引文献298

1邢强,陈中,冷钊莹,陆舆,刘艺.基于实时交通信息的电动汽车路径规划和充电导航策略[J].中国电机工程学报,2020,40(2):534-550. 被引量：65
2张梦樵,戴惠新,郑云昊,方振卫,张湘菊,罗瑞,史天意,王春明.基于色彩转换的列车油漆涂层激光清洗检测研究[J].应用激光,2020,40(4):644-648. 被引量：7
3何正友,向悦萍,杨健维,王玘,廖凯.电力与交通系统协同运行控制的研究综述及展望[J].全球能源互联网,2020,3(6):569-581. 被引量：12
4张海瑜,陈庆龙,张斯静,张子怡,杨帆,李鑫星.基于语义知识图谱的农业知识智能检索方法[J].农业机械学报,2021,52(S01):156-163. 被引量：11
5胡新荣,陈志恒,刘军平,彭涛,叶鹏,朱强.基于多模态表示学习的情感分析框架[J].计算机科学,2022,49(S02):631-636. 被引量：2
6吴怡君,陈丽.疫情期间我国中小学在线教学模式与创新特征研究——基于教学交互视角的挖掘与分析[J].中国远程教育,2021(2):17-26. 被引量：15
7庹国柱,段家喜.保险欺诈的博弈分析[J].首都经济贸易大学学报,1999,1(3):51-54. 被引量：4
8董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：56
9章国英,胡继岳.网络教学环境中情感交流的缺失及解决策略[J].现代教育技术,2005,15(1):15-20. 被引量：45
10彭锋.身体美学的理论进展[J].中州学刊,2005(3):243-244. 被引量：25

引证文献27

1查思雨.基于交互层次理论的远程学习情感化设计研究[J].工业工程设计,2021,3(2):21-30. 被引量：6
2刘继明,张培翔,刘颖,张伟东,房杰.多模态的情感分析技术综述[J].计算机科学与探索,2021,15(7):1165-1182. 被引量：28
3杨涛,朱学芳.中医辨证智能化研究现状及发展趋势[J].南京中医药大学学报,2021,37(4):597-601. 被引量：16
4何正友,向悦萍,廖凯,杨健维.能源-交通-信息三网融合发展的需求、形态及关键技术[J].电力系统自动化,2021,45(16):73-86. 被引量：31
5陈烨,周刚,卢记仓.多模态知识图谱构建与应用研究综述[J].计算机应用研究,2021,38(12):3535-3543. 被引量：31
6朱南希,杨柳,谌绍林,王刚,王靖茜,邓仁丽.多模态数据融合评估新生儿疼痛的研究进展[J].护理学杂志,2022,37(4):98-101. 被引量：6
7卢冰洁,李炜卓,那崇宁,牛作尧,陈奎.机器学习模型在车险欺诈检测的研究进展[J].计算机工程与应用,2022,58(5):34-49. 被引量：10
8李珂,彭璐,周冰洁.情感化交互设计在展览馆中的应用[J].湖南包装,2022,37(1):114-117. 被引量：6
9张随雨,俞定国,马小雨,钱永江.基于多模态融合的全媒体新闻智能编目系统设计[J].广播与电视技术,2022,49(2):62-65. 被引量：2
10晁睿,张坤丽,王佳佳,胡斌,张维聪,韩英杰,昝红英.中文多模态知识库构建[J].广西师范大学学报（自然科学版）,2022,40(3):31-39. 被引量：1

二级引证文献162

1张欣琦,段丽莎.以食物为材:CMF设计教学中的材料创新实践与思考[J].装饰,2023(12):136-138.
2李华昱,付亚凤,闫阳,李家瑞.基于LEBERT的多模态领域知识图谱构建[J].计算机系统应用,2022,31(11):79-90. 被引量：2
3张超义.能源网、交通网、信息网:作为媒介的网络型基础设施与三网融合[J].全球传媒学刊,2023,10(5):56-70.
4刘轶,董敏.区块链赋能下保险欺诈规制的路径优化[J].江淮论坛,2022(4):69-74. 被引量：5
5徐成伟.基于贝叶斯优化Xgboost的车险欺诈识别研究[J].新一代信息技术,2022,5(5):49-52.
6陈然,赵晶,郝慧超,王凯伦.基于多模态深度学习的审美认知规律大规模测度方法[J].装饰,2021(7):106-111. 被引量：5
7江冰.构建面向30·60的新型电力系统——中国电力4.0的思考[J].全球能源互联网,2021,4(6):534-541. 被引量：21
8张祖耀,王碧凌,摇若楷.面向群智共创的用户多模态信息设计[J].包装工程,2021,42(24):29-35. 被引量：7
9李军燕.设计人工智能视野下人机交互情感化设计的应用[J].软件,2021,42(12):34-37. 被引量：7
10王小根,陈瑶瑶.多模态数据下混合协作学习者情感投入分析[J].电化教育研究,2022,43(2):42-48. 被引量：21

1王一鸣,陈恳,萨阿卜杜萨拉木·艾海提拉木.基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别[J].电信科学,2019,35(12):79-89. 被引量：2
2史秀聪.基于关键词指导的图像中文描述生成[J].计算机科学与应用,2020,10(6):1087-1097.
3卜骁骏,张继元.专访时境建筑:世间万物都隐含着时间和空间[J].建筑创作,2020(3):194-203.
4穆大强,李腾.基于多模态融合的人脸反欺骗技术[J].图学学报,2020,41(5):750-756.
5杨勇,曾祥星.群体性事件现场各层群人员心理行为分析[J].广州市公安管理干部学院学报,2020,30(3):24-27. 被引量：3
6蔚雪争.关于一种风电厂厂区无线网络覆盖方案的研究[J].数码设计,2020,9(14):25-25.
7成永坤,朱菊芳,牟向前.滑雪游客的产品认知、情感表达及满意度——基于网络评价文本分析[J].体育成人教育学刊,2020,36(4):15-21. 被引量：5

计算机工程与应用

2020年第21期

浏览历史

内容加载中请稍等...

多模态深度学习综述被引量：27

参考文献11

二级参考文献28

共引文献245

同被引文献298

引证文献27

二级引证文献162

相关作者

相关机构

相关主题

浏览历史

多模态深度学习综述 被引量：27

参考文献11

二级参考文献28

共引文献245

同被引文献298

引证文献27

二级引证文献162

相关作者

相关机构

相关主题

浏览历史

多模态深度学习综述被引量：27