多媒体内容理解的研究现状与展望被引量：32

Current Research Status and Prospects on Multimedia Content Understanding

下载PDF

导出

摘要随着多媒体和网络技术的迅猛发展,海量的图像、视频、文本、音频等多媒体数据快速涌现.这些不同媒体的数据在形式上多源异构,语义上相互关联.认知科学研究表明,人脑生理组织结构决定了其对外界的感知和认知过程是跨越多种感官信息的融合处理.如何对不同媒体的数据进行语义分析和关联建模以实现多媒体内容理解,成为了一个研究和应用的关键问题,受到了学术界和工业界的广泛关注.选取了多媒体内容理解的5个最新热点研究方向:图像细分类与检索、视频分类与目标检测、跨媒体检索、视觉描述与生成、视觉问答,分别阐述了它们的基本概念、代表性方法、研究现状等,并进一步阐述了多媒体内容理解面临的重要挑战,同时给出未来的发展趋势,旨在帮助读者全面了解多媒体内容理解的研究现状,吸引更多研究人员投身相关研究并为他们提供技术参考,推动该领域的进一步发展. With the rapid development of multimedia and Internet technologies,a large amount of multimedia data has been rapidly emerging,such as image,video,text and audio.Data of different media types from multi-source is heterogeneous in the form but relevant in the semantic.As indicated in the research of cognitive science,the perception and cognition of the environment is through the fusion across different sensory organs of human,which is decided by the human brain s organization structure.Therefore,it has been a key challenge to perform data semantic analysis and correlation modeling across different media types,for achieving comprehensive multimedia content understanding,which has drawn wide interests of both academic and industrial areas.In this paper,the basic concepts,representative methods and research status of 5 latest highlighting research topics of multimedia content understanding are referred,including fine-grained image classification and retrieval,video classification and object detection,cross-media retrieval,visual description and generation,and visual question answering.This paper further presents the major challenges of multimedia content understanding,as well as gives the development trend in the future.The goal of this paper is to help readers get a comprehensive understanding on the research status of multimedia content understanding,draw more attention of researchers to relevant research topics,and provide the technical insights to promote further development of this area.

作者彭宇新綦金玮黄鑫 Peng Yuxin;Qi Jinwei;and Huang Xin(Institute of Computer Science and Technology,Peking University,Beijing 100871)

机构地区北京大学计算机科学技术研究所

出处《计算机研究与发展》 EI CSCD 北大核心 2019年第1期183-208,共26页 Journal of Computer Research and Development

基金国家自然科学基金项目(61771025 61532005)~~

关键词多媒体内容理解图像细分类与检索视频分类与目标检测跨媒体检索视觉描述与生成视觉问答 multimedia content understanding fine-grained image classification and retrieval video classification and object detection cross-media retrieval visual description and generation visual question answering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1Yu-xin PENG,Wen-wu ZHU,Yao ZHAO,Chang-sheng XU,Qing-ming HUANG,Han-qing LU,Qing-hua ZHENG,Tie-jun HUANG,Wen GAO.跨媒体分析与推理:研究进展与发展方向（英文）[J].Frontiers of Information Technology & Electronic Engineering,2017,18(1):44-57. 被引量：27
2张琳波,王春恒,肖柏华,邵允学.基于Bag-of-phrases的图像表示方法[J].自动化学报,2012,38(1):46-54. 被引量：25

二级参考文献26

1Shotton J, Blake A, Cipolla R. Multiscale categorical object recognition using contour fragments. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 30(7): 1270-1281.
2Serre T, Wolf L, Bileschi S, Riesenhuber M, Poggio T. Ro- bust object recognition with cortex-like mechanisms. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(3): 411-426.
3Torralba A, Murphy K P, Freeman W T. Contextual mod- els for object detection using boosted random fields. In: Proceedings of the Neural Information Processing Systems. Vancouver. Canada: NIPS. 2004. 1401-1408.
4Zhu L, Rao A B, Zhang A D. Theory of keyblock-based im- age retrieval. ACM Transactions on Information Systems, 2002, 20(2): 224-257.
5Comaniciu D, Meer P. Mean shift: a robust approach to- ward feature space analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002,24(5): 603-619.
6Gemert J C, Geusebroek J M, Veenman C J, Smeulders A W M. Kernel codebooks for scene categorization. In: Pro- ceedings of the European Conference on Computer Vision. Berlin, Germany: Springer, 2008. 696-709.
7Lazebnik S, Schmid C, Ponce J. Beyond bags of features: spatial pyramid matching for recognizing natural scene cat- egories. In: Proceedings of the IEEE Computer Vision and Pattern Recognition. New York, USA: IEEE, 2006. 2169-2178.
8Belongie S, Malik J, Puzicha J. Shape matching and ob- ject recognition using shape contexts. IEEE Transactions on Pattern AnMysis and Machine Intelligence, 2002, 24(4): 509-522.
9Loupias E, Sebe N, Bres S, Jolion J M. Wavelet-based salient points for image retrieval. In: Proceedings of the Interna- tional Conference on Image Processing. Vancouver, Canada: IEEE, 2000. 518-521.
10Lowe D G. Distinctive image features from scale-invariant keypoints. International Journal oF Computer Vision, 2004, 60(2): 91-110.

共引文献50

1Jian CAO,Dian-hui MAO,Qiang CAI,Hai-sheng LI,Jun-ping DU.A review of object representation based on local features[J].Journal of Zhejiang University-Science C(Computers and Electronics),2013,14(7):495-504. 被引量：4
2张琳波,肖柏华,王枫,石磊.图像内容表示模型综述[J].计算机科学,2013,40(7):1-8. 被引量：2
3丁锴,陈伟海,吴星明,刘中.基于规范割的空间金字塔图像分类算法[J].北京航空航天大学学报,2013,39(10):1342-1347. 被引量：3
4齐美彬,朱俊俊,纪平,蒋建国.大规模图像集中的代表性图像选取[J].自动化学报,2014,40(4):706-712. 被引量：2
5梁建青,胡清华.基于半监督距离学习和多模态信息的图像聚类[J].计算机科学,2014,41(3):41-45. 被引量：3
6许喆,陈福才,李邵梅,李星.基于多探寻局部敏感哈希和单词映射链投票的图像检索方法[J].计算机科学,2014,41(5):82-85. 被引量：2
7杨赛,赵春霞.基于空间概率乘积核函数的图像分类算法[J].南京理工大学学报,2014,38(3):325-331. 被引量：5
8王挺进,赵永威,李弼程.N步长距离视觉语言模型的图像分类方法[J].信息工程大学学报,2014,15(4):453-458.
9王挺进,赵永威,李弼程.基于显著图加权视觉语言模型的图像分类方法[J].计算机工程,2015,41(3):204-210.
10生海迪,段会川,孔超.基于语义短语的空间金字塔词袋模型图像分类方法[J].小型微型计算机系统,2015,36(4):877-881. 被引量：8

同被引文献197

1冯秋燕,朱学芳.基于科学计量的信息技术融合分析[J].情报科学,2020,0(2):142-150. 被引量：4
2Shuang Yang,Yan Tang.News Topic Detection Based on Capsule Semantic Graph[J].Big Data Mining and Analytics,2022,5(2):98-109. 被引量：2
3王卓,郭鸿.面向远程教育的混凝土结构课程多媒体学习资源设计[J].东南大学学报（哲学社会科学版）,2012,14(S2):155-157. 被引量：1
4熊回香,薛姣,李青维,夏佩.视频信息的对象关联交叉检索研究[J].图书情报工作,2011,55(S2):295-299. 被引量：1
5聂鑫.我国书目信息标准化工作发展述略[J].情报科学,2004,22(8):982-984. 被引量：3
6杨育彬,林珲,朱庆.基于内容的三维模型检索综述[J].计算机学报,2004,27(10):1297-1310. 被引量：95
7钱刚,曾贵华.典型视频镜头分割方法的比较[J].计算机工程与应用,2004,40(32):51-55. 被引量：29
8朱学芳.计算机图像信息资源管理研究[J].现代图书情报技术,2004(12):21-24. 被引量：6
9江慧英,朱学芳.电子商务中的多媒体信息技术应用分析[J].情报杂志,2005,24(2):21-23. 被引量：6
10宋璞,朱学芳,常艳丽.新闻图像网络传播现状的研究及建议[J].情报杂志,2005,24(10):122-124. 被引量：3

引证文献32

1郭聃,崔中良.具身智能何以可能?——从意象图式视角分析[J].科学技术哲学研究,2023,40(5):51-57. 被引量：1
2周燕,曾凡智,吴臣,罗粤,刘紫琴.基于深度学习的三维形状特征提取方法[J].计算机科学,2019,46(9):47-58. 被引量：1
3刘欢,郑庆华,罗敏楠,赵洪科,肖阳,吕彦章.基于跨域对抗学习的零样本分类[J].计算机研究与发展,2019,56(12):2521-2535. 被引量：9
4常致富,周风余,王玉刚,沈冬冬,赵阳.基于深度学习的图像自动标注方法综述[J].山东大学学报（工学版）,2019,49(6):25-35. 被引量：3
5黄樱,牛保宁,关虎,张树武.基于图像纹理的自适应水印算法[J].北京航空航天大学学报,2019,45(12):2403-2414. 被引量：9
6吕国俊,曹建军,郑奇斌,常宸,翁年凤.基于结构保持对抗网络的跨模态实体分辨[J].南京大学学报（自然科学版）,2020,56(2):197-205. 被引量：1
7张宇,闫幸.智能化普适多媒体服务模式与支持技术研究[J].新媒体研究,2020,6(13):25-28.
8张彩虹,刘慧敏,龚玉枝,黄红艳,魏婷,夏明,刘娟,曾永孝,郑晓丹.视频微课健康教育模式在压力性损伤患者居家照顾者中的应用[J].护理学杂志,2020,35(21):12-15. 被引量：15
9代瑾,陈莹.联合线性判别和图正则的任务导向型跨模态检索[J].计算机辅助设计与图形学学报,2021,33(1):106-115. 被引量：4
10王正,吴斌,王文哲,滕一阳,帅杰,肖云鹏,白婷.基于图像和视频信息的社交关系理解研究综述[J].计算机学报,2021,44(6):1168-1199. 被引量：5

二级引证文献87

1郝雪丽,李会宾,段玉林,尚国琲,余强毅.基于SAM的田块提取方法在田块平整成效评价中的应用研究[J].中国农业信息,2023,35(5):1-10.
2武夫波,刘飏.生成式人工智能技术应用下短视频创作的法律规制[J].西南法律评论,2023(1):199-211.
3赵久影,王洪君.基于像素不扩展视觉密码的可逆水印[J].智能计算机与应用,2020,0(1):80-83. 被引量：1
4汪黄美,胡玉英.微课健康教育结合循序渐进式康复护理在经皮椎间孔镜下腰椎间盘突出症髓核摘除术后的应用效果[J].反射疗法与康复医学,2021(3):161-164. 被引量：2
5处方药与非处方药流通管理暂行规定[J].中国医药情报,2000,6(2):27-28.
6李刚.一种照片档案的人物自动标注的方法[J].电子技术与软件工程,2020(15):137-138. 被引量：2
7冯耀功,于剑,桑基韬,杨朋波.基于知识的零样本视觉识别综述[J].软件学报,2021,32(2):370-405. 被引量：10
8赵一粟.基于局部多特征的低分辨率图像纹理增强技术研究[J].电子设计工程,2021,29(5):185-189. 被引量：2
9王乐.互联网背景下数字媒体版权保护的系统设计[J].现代电子技术,2021,44(10):143-147. 被引量：1
10陈明瑶,徐琨,李晓旋.基于风格迁移的手势分割方法[J].计算机与现代化,2021(5):20-25.

1幸福是一种态度[J].语数外学习（高中版）（中）,2017,0(9):92-93.
2智洪欣,于洪涛,李邵梅,高超,王艳川.一种基于深度度量学习的视频分类方法[J].电子与信息学报,2018,40(11):2562-2569. 被引量：5
3李超,孙守迁,闵歆,王卫星,唐智川.深度卷积特征在素描作品分类与评价中的应用[J].计算机辅助设计与图形学学报,2017,29(10):1898-1904. 被引量：5
4罗瑛.视觉描述与族群边界:历史书写中的景颇族认同考察[J].民族文学研究,2018,36(5):101-109. 被引量：1
5曾庆洪.浅谈小学数学教学与信息技术的整合[J].明日,2017(45):0234-0234.
6李丹锦.基于人脸多模态的视频分类算法的设计与实现[J].电子设计工程,2018,26(24):150-153. 被引量：1
7段望春,高佳佳,董兵斌,李研,刘少伟,楚珑晟.3D打印技术在金属铸造领域的研究现状与展望[J].铸造技术,2018,39(12):2895-2900. 被引量：21
8孙永友,蔡文湘.基于新课改整合信息技术与音乐学科资源的探究[J].电子乐园,2018(11):147-147.
9柳梦苏,刘虹,赵平,刘庆华,覃瑞,王靖.双蛋白应用于营养供给的研究现状与展望[J].现代食品,2018,3(21):60-64. 被引量：7
10周昌乐,李绍滋,郭躬德,郭文忠,陈毅东,曹冬林,徐素霞.福建省人工智能学科发展研究报告[J].海峡科学,2018(10):40-46. 被引量：1

计算机研究与发展

2019年第1期

浏览历史

内容加载中请稍等...

多媒体内容理解的研究现状与展望被引量：32

参考文献2

二级参考文献26

共引文献50

同被引文献197

引证文献32

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

多媒体内容理解的研究现状与展望 被引量：32

参考文献2

二级参考文献26

共引文献50

同被引文献197

引证文献32

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

多媒体内容理解的研究现状与展望被引量：32