视觉场景理解综述被引量：3

Overview on image caption

下载PDF

导出

摘要视觉场景理解是机器视觉与自然语言处理相融合的热点问题,实现场景理解将有助于盲人辅助系统、智能机器人交互、以及无人驾驶等领域研究的发展。从视觉场景理解的基本概念出发,介绍了视觉场景理解技术的相关理论及最新研究成果,并对基于搜索的模型、基于模板匹配的模型和基于编码-解码框架的模型、以及基于注意力模型的模型进行详细描述与分析。讨论视觉场景理解的最新技术动态,分析视觉场景理解的发展趋势并指出未来研究方向。 Image caption is a hot topic in the fusion of machine vision and Natural Language Processing . The realization of image caption will help the development of blind people auxiliary system, intelligent robot interaction, and unmanned driving. Some basic concepts of image caption are introduced, the search-based model, template matching-based model, coding-decoding framework-based model and attention mechanism-based model are described and analyzed in detail . The latest technology trends of visual image captioning, the development trend of visual image captioning and several future research directions are also discussed.

作者王忠民王星李刚张福涛 WANG Zhongmin;WANG Xing;LI Gang;ZHANG Futao(School of Computer Science and Technology, Xi'an University of Posts and Telecommunications,Xi'an 710121,China;Shaanxi Key Laboratory of Network Data Intelligent Processing, Xi'an University of Posts and Telecommunications, Xi'an 710121,China)

机构地区西安邮电大学计算机学院西安邮电大学陕西省网络数据智能处理重点实验室

出处《西安邮电大学学报》 2019年第1期1-15,共15页 Journal of Xi’an University of Posts and Telecommunications

基金国家自然科学基金资助项目(61373116 61702414) 陕西省工业科技攻关资助项目(2016GY-092) 陕西省科技统筹创新工程计划资助项目(2016KTZDGY04-01) 陕西省教育厅专项科学研究计划资助项目(17JK0711)

关键词视觉场景理解机器视觉注意力模型 image caption machine vision attention model

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘颖,范九伦.基于内容的图像检索技术综述[J].西安邮电学院学报,2012,17(2):1-8. 被引量：20
2卢建军,李杰,卫晨,刘志鹏.KAZE算法在图像检索中的应用[J].西安邮电大学学报,2017,22(3):109-114. 被引量：1
3胡明娣,孔波.基于矩形区域重叠分块加权的图像检索[J].西安邮电大学学报,2017,22(5):56-61. 被引量：4

二级参考文献16

1郝红卫,黄芳益,周静.基于ROI与MCS的图像检索方法[J].模式识别与人工智能,2008,21(2):240-245. 被引量：2
2陈星星,张荣.基于多尺度相位特征的图像检索方法[J].电子与信息学报,2009,31(5):1193-1196. 被引量：3
3王守觉,孙华,柳培忠,廖英豪,丁兴号,郭东辉.基于仿生形象思维方法的图像检索算法[J].电子学报,2010,38(5):993-997. 被引量：8
4王黎,帅建梅.图像重排序中与查询相关的图像相似性度量[J].计算机系统应用,2010,19(11):66-70. 被引量：2
5曾接贤,赵永刚,符祥.基于改进距离聚合向量的图像检索算法[J].模式识别与人工智能,2010,23(5):715-719. 被引量：3
6董小丽,张立和,米晓莉.基于颜色索引相关统计的彩色图像特征提取[J].光电子．激光,2011,22(4):623-628. 被引量：3
7冯松鹤,郎丛妍,须德.一种融合图学习与区域显著性分析的图像检索算法[J].电子学报,2011,39(10):2288-2294. 被引量：17
8何云峰,周玲,于俊清,徐涛,管涛.基于局部特征聚合的图像检索方法[J].计算机学报,2011,34(11):2224-2233. 被引量：16
9张鑫,温显斌,孟庆霞.基于颜色特征的图像检索方法研究[J].计算机科学,2012,39(11):243-245. 被引量：29
10海林鹏,文运平.基于图像分块目标区域的检索技术研究[J].河南理工大学学报（自然科学版）,2013,32(1):73-75. 被引量：4

共引文献22

1姚琪,蒋达央.电子商务中基于内容的商品图像检索技术研究[J].信息网络安全,2013(7):74-76. 被引量：5
2陈鹏.一种使用图像融合的图像检索新方法[J].计算机应用与软件,2013,30(11):73-75. 被引量：1
3韩立华,王晓芬,王玉梅.剪纸艺术多媒体交互平台中的图像检索技术研究[J].石家庄铁道大学学报（社会科学版）,2013,7(4):71-75. 被引量：2
4邱芹军,谭家政,蔡大伟,刘勇.基于多特征融合的图像检索方法[J].三峡大学学报（自然科学版）,2014,36(1):94-98. 被引量：2
5夏召强,冯晓毅,彭进业.丰富图像标签的正则化非负矩阵分解方法[J].中国图象图形学报,2014,19(7):1112-1117. 被引量：3
6王华秋,王斌.优化的邻近支持向量机在图像检索中的应用[J].重庆理工大学学报（自然科学）,2014,28(9):66-71. 被引量：9
7刘颖,范九伦,李宗,黄源,燕皓阳.现勘图像数据库检索技术实例探讨[J].西安邮电大学学报,2015,20(3):11-20. 被引量：24
8张彤,王倩,范九伦,刘颖.基于时空局部二值模式的火灾视频识别[J].西安邮电大学学报,2015,20(3):76-80. 被引量：1
9高凌宇,刘宏路.基于内容的Web图片搜索技术研究[J].数字技术与应用,2015,33(5):105-105.
10木拉提.哈米提,孙静,严传波,阿布都艾尼.库吐鲁克.基于内容的医学图像检索技术在维吾尔药材图像检索中的应用前景[J].新疆医科大学学报,2015,38(7):819-822. 被引量：1

同被引文献19

1苏伟.从“传声筒”到“医患关系的协调者”——一项针对医疗译员角色的实证研究[J].外语研究,2010,27(5):84-88. 被引量：31
2张海荣,陈云虹.基于虚拟现实技术的医学教学系统设计[J].西安邮电大学学报,2015,20(3):120-124. 被引量：24
3刘剑,胡开宝.多模态口译语料库的建设与应用研究[J].中国外语,2015,12(5):77-85. 被引量：49
4任文.戈夫曼社会语言学视阈下口译员话语角色的解构与重构[J].中国翻译,2017,38(4):18-25. 被引量：10
5杨柳燕.数字技术辅助下的交传笔记研究[J].外语教学理论与实践,2017(3):91-97. 被引量：9
6包震洲,俞鸿飞,金文德,李伟达.未知环境下机器人导航算法与避障算法研究[J].机械设计与制造,2020(5):257-260. 被引量：9
7刘剑,陈水平.基于多模态语料库的同声传译语音拖长现象研究[J].中国外语,2020,17(4):104-111. 被引量：11
8孙环.视觉导航下新型车辆避障路径智能规划方法[J].自动化与仪器仪表,2020(10):39-42. 被引量：3
9李乾,钱恒健,方永毅,邢昆,刘保安.电缆隧道智能巡检机器人在电网智能化中的应用研究[J].粘接,2021,45(1):85-89. 被引量：8
10董诗绘,牛彩雯,戴琨.基于深度强化学习的变电站巡检机器人自动化控制方法研究[J].高压电器,2021,57(2):172-177. 被引量：44

引证文献3

1张继飞,袁小陆.信息技术辅助下医疗对话口译中的注视分析[J].西安邮电大学学报,2021,26(4):79-85.
2王志辉,陈息坤.融合场景理解与A^(*)算法的巡检机器人避障设计[J].无线电工程,2022,52(11):2000-2008. 被引量：5
3王丽安,缪佩翰,苏伟,李玺,吉娜烨,姜燕冰.图像-文本多模态指代表达理解研究综述[J].中国图象图形学报,2023,28(5):1308-1325. 被引量：2

二级引证文献7

1马宏伟,孙思雅,王川伟,毛清华,薛旭升,王鹏,夏晶,贾泽林,郭逸风,崔闻达.多机械臂多钻机协作的煤矿巷道钻锚机器人关键技术[J].煤炭学报,2023,48(1):497-509. 被引量：12
2孙玉龙,钱增志,曾帅康,康伟德,李胤,姜佳岐,朱炳科.基于大型卷积核模型和自监督预训练的路面质量分析方法[J].无线电工程,2023,53(3):527-533. 被引量：2
3赵涛,张翼,赵贤文,张远鸿.基于视觉的巡检机器人环境感知和导航避障研究[J].无线电工程,2023,53(8):1883-1890. 被引量：3
4赵晓东,曹梦颖,宿景芳.TEB算法中机器人平稳避障策略研究[J].无线电工程,2024,54(1):223-229. 被引量：2
5袁琨鹏,米金鹏,陈智谦.基于模态预融合的三维指称表达理解[J].计算机应用研究,2023,40(12):3666-3671.
6姜丽梅,李秉龙.面向图像文本的多模态处理方法综述[J].计算机应用研究,2024,41(5):1281-1290. 被引量：1
7周小青,童一飞,周开俊.基于ISO-TW算法的多仓储机器人路径规划研究[J].现代制造工程,2024(9):54-59.

1谭凯,吴庆波,孟凡满,许林峰.基于镜头分割与空域注意力模型的视频广告分类方法[J].计算机科学,2019,46(3):131-136. 被引量：2
2李美,丁满,袁梦娟.基于无意识行为的智慧养老型服务机器人交互设计研究[J].艺术科技,2018,31(11):74-74. 被引量：1
3王茂森,蒋小森,牛少彰.一种新的场景文本识别模型[J].北京理工大学学报,2019,39(3):269-275. 被引量：4
4史承灼,魏大付.践行“四个理解” 落实核心素养——以“反比例函数的图像和性质”教学为例[J].安徽教育科研,2019,0(2):13-15.
5苗强强.基于图像质量和注意力的宫腔镜视频关键帧提取[J].激光与光电子学进展,2019,56(6):122-128. 被引量：1
6杨俊锋.互联网时代教师知识的发展路径[J].课程．教材．教法,2019,39(2):120-125. 被引量：6
7葛亚特,叶露.面向自适应机器人交互的类人反应研究[J].工业设计研究,2018(1):326-331. 被引量：2
8魏杰鸿,杨立.营销者如何做到与时俱进[J].销售与管理,2019,0(2):54-59.
9杜梦豪,黄文明,孙晓洁,邓珍荣.基于动态池化和注意力的文本情感极性分类[J].计算机工程与设计,2019,40(4):1126-1132. 被引量：1
10刘巨文.技术与思想——诗歌写作教学探索[J].智库时代,2019(22):222-222.

西安邮电大学学报

2019年第1期

浏览历史

内容加载中请稍等...

视觉场景理解综述被引量：3

参考文献3

二级参考文献16

共引文献22

同被引文献19

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

视觉场景理解综述 被引量：3

参考文献3

二级参考文献16

共引文献22

同被引文献19

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

视觉场景理解综述被引量：3