融合语义知识的深度表达学习及在视觉理解中的应用被引量：4

The Semantic Knowledge Embedded Deep Representation Learning and Its Applications on Visual Understanding

下载PDF

导出

摘要近几年来,随着深度学习技术的日趋完善,传统的计算机视觉任务得到了前所未有的发展.如何将传统视觉研究中的领域知识融入到深度模型中提升深度模型的视觉表达能力,从而应对更为复杂的视觉任务,成为了学术界广泛关注的问题.鉴于此,以融合了语义知识的深度表达学习为主线展开了一系列研究.取得的主要创新成果包括3个方面:1)研究了将单类型的语义信息(类别相似性)融入到深度特征的学习中,提出了嵌入正则化语义关联的深度Hash学习方法,并将其应用于图像的相似性比对与检索问题中,取得了较大的性能提升;2)研究了将多类型信息(多重上下文信息)融入到深度特征的学习中,提出了基于长短期记忆神经网络的场景上下文学习方法,并将其应用于复杂场景的几何属性分析问题中;3)研究了将视觉数据的结构化语义配置融入到深度表达的学习中,提出了融合语法知识的表达学习方法,并将其应用到复杂场景下的通用内容解析问题中.相关的实验结果表明:该方法能有效地对场景的结构化配置进行预测. With the rapid development of deep learning technique and large scale visual datasets,thetraditional computer vision tasks have achieved unprecedented i m p r o v e m e n t.In order to handle m o r eand m o r e complex vision tasks,h o w to integrate the d o main knowl e d g e into the deep neural networkand enhance the ability of deep mod e l to represent the visual pattern,has b e c o m e a widely discussedtopic in both academia and industry.This thesis engages in exploring effective deep models to combinethe semantic k n o w ledge and feature learning.T h e m a i n contributions can be s ummarized as follows:1)W e integrate the semantic similarity of visual data into the deep feature learning process,andpropose a deep similarity comparison mod e l n a m e d bit-scalable deep hashing to address the issue ofvisual similarity comparison.T h e m odel in this thesis has achieved great performance on imagesearching and people’s identification.2)W e also propose a high-order graph L S T M(H G-L S T M)networks to solve the problem of geometric attribute analysis,which realizes the process ofintegrating the multi semantic context into the feature learning process.O u r extensive experimentss h o w that our m odel is capable of predicting rich scene geometric attributes and outperforming severalstate-of-the-art m e t h o d s by large margins.3)W e integrate the structured semantic information ofvisual data into the feature learning process,and propose a novel deep architecture to investigate afundamental problem of scene understanding:h o w to parse a scene image into a structuredconfiguration.Extensive experiments s h o w that our m odel is capable of producing meaningful andstructured scene configurations?and achieving m o r e favorable scene labeling result on t w o challengingdatasets compa r e d with other state-of-the-art weakly-supervised deep learning m e t h o d s.

作者张瑞茂彭杰锋吴恙林倞 Zhang Ruimao;Peng Jiefeng;Wu Yang;Lin Liang(School of Data and Computer Science,Sun Yat-sen University,Guangzhou 510006)

机构地区中山大学数据科学与计算机学院

出处《计算机研究与发展》 EI CSCD 北大核心 2017年第6期1251-1266,共16页 Journal of Computer Research and Development

基金国家自然科学基金优秀青年科学基金项目(6162200366)

关键词深度学习神经网络语义嵌入场景解析相似性检索 deep learning neural networks seman embedding scene parsingsimilarity search

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1朱蓉.基于语义信息的图像理解关键问题研究[J].计算机应用研究,2009,26(4):1234-1240. 被引量：6
2张磊,林福宗,张钹.基于前向神经网络的图像检索相关反馈算法设计[J].计算机学报,2002,25(7):673-680. 被引量：12
3李清勇,胡宏,施智平,史忠植.基于纹理语义特征的图像检索研究[J].计算机学报,2006,29(1):116-123. 被引量：25
4彭天强,栗芳.基于深度卷积神经网络和二进制哈希学习的图像检索方法[J].电子与信息学报,2016,38(8):2068-2075. 被引量：34
5罗希平,田捷,诸葛婴,王靖,戴汝为.图像分割方法综述[J].模式识别与人工智能,1999,12(3):300-312. 被引量：231
6汪西莉,刘芳,焦李成.融合上下文信息的多尺度贝叶斯图像分割[J].计算机学报,2005,28(3):386-391. 被引量：6
7何宁,张朋.基于边缘和区域信息相结合的变分水平集图像分割方法[J].电子学报,2009,37(10):2215-2219. 被引量：24
8郭雷,侯一民,伦向敏.一种基于图像上下文信息的无监督彩色图像分割算法[J].模式识别与人工智能,2008,21(1):82-87. 被引量：5
9邱泽宇,方全,桑基韬,徐常胜.基于区域上下文感知的图像标注[J].计算机学报,2014,37(6):1390-1397. 被引量：12

二级参考文献163

1史忠植.高级人工智能[M].北京:科学出版社,1997.60-100.
2Marr D.视觉计算理论[M].北京:科学出版社,1988.51-80.
3Amoid W. M. , Marce W. , Simone S. et al.. Content-based image retrieval at the end of the early years. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(12): 1349-1379.
4Buxton H. , Mukerjee A.. Conceptualizing images. Image and Vision Computing, 2000, 18(2): 79.
5Hermes T, et al.. Image retrieval for information systems in storage and retrieval for image and videoDatabases Ⅲ. In:Proceedings of SPIE 2420, San Jose, CA, 1995.
6Mojsilovic A. et al.. Matching and retrieval based on the vocabulary and grammar of color patterns. IEEE Transactions on Image Processing, 2000, 9(1):189-194.
7Zhuang Y. , Mehrotra S. , Huang T. S.. A multimedia information retrieval model based on semantic and visual content.In: Proceedings of the 5th International ICYCS Conference,Nanjing, China, 1999, 468-475.
8Colombo C. et al.. Semantics in visual information retrieval.IEEE Multimedia, 1999, 6(3):38-53.
9Cavazza M. , Green R. J. , Palmer I.J.. Multimedia semantic features and image content description. In: Proceedings of the 1998 Multimedia Modeling, Lausanne, Switzerland, 1998,39-46.
10Biederman I.. Aspects and extensions of a theory of human image understanding. In: Pylyshyn Z. W. ed. Computational Processes in Human Vision: An Interdisciplinary Perspective.Norwood, NJ:Ablex, 1988, 370-428.

共引文献345

1金玉,郭新宇,张颖,李大壮,王璟璐.玉米叶片气孔表型鉴定及研究进展[J].作物杂志,2023(6):1-10.
2顾广华,曹宇尧,李刚,赵耀.基于语义标签生成和偏序结构的图像层级分类[J].软件学报,2020,31(2):531-543. 被引量：7
3黄扬林,胡凯,郭建强,彭诚.基于多尺度特征融合和双重注意力机制的肝脏CT图像分割[J].计算机科学,2022,49(S02):549-557.
4张彩霞.图像理解技术现状[J].文存阅刊,2018,0(22):14-14.
5舒添慧,胥布工,胡战虎.基于小波变换的医学图像分割[J].石油化工高等学校学报,2007,20(z1):16-18.
6范永法,姚俊.有复杂背景的条码图像实时处理的研究[J].仪器仪表学报,2004,25(z1):1042-1044. 被引量：4
7陈梅,武玉强.模糊聚类分割在医学图像处理中的应用[J].厦门大学学报（自然科学版）,2001,40(z1):223-227. 被引量：1
8杨潇.语义图像检索中人工智能的应用[J].硅谷,2008,1(4).
9苏菡,黄凤岗,贾迪野.基于DIS边缘检测和自适应边缘生长的图像分割方法[J].哈尔滨工程大学学报,2004,25(3):345-348. 被引量：3
10刁智华,宋寅卯,王欢,王云鹏.基于植物病斑的图像分割研究综述[J].农机化研究,2012,34(10):1-5. 被引量：7

同被引文献16

1孙霞,董乐红.基于监督学习的同义关系自动抽取方法[J].西北大学学报（自然科学版）,2008,38(1):35-39. 被引量：8
2张亮,黄曙光,石昭祥,胡荣贵.基于LSTM型RNN的CAPTCHA识别方法[J].模式识别与人工智能,2011,24(1):40-47. 被引量：25
3杨思洛,韩瑞珍.知识图谱研究现状及趋势的可视化分析[J].情报资料工作,2012,33(4):22-28. 被引量：62
4王晓慧,贾珈,蔡莲红.基于小波图像融合的表情细节合成[J].计算机研究与发展,2013,50(2):387-393. 被引量：7
5蔺素珍,朱小红,王栋娟,王肖霞.基于嵌入式多尺度变换的多波段图像融合[J].计算机研究与发展,2015,52(4):952-959. 被引量：26
6曹倩,赵一鸣.知识图谱的技术实现流程及相关应用[J].情报理论与实践,2015,38(12):127-132. 被引量：79
7李跃鹏,金翠,及俊川.基于word2vec的关键词提取算法[J].科研信息化技术与应用,2015,6(4):54-59. 被引量：45
8庄严,李国良,冯建华.知识库实体对齐技术综述[J].计算机研究与发展,2016,53(1):165-192. 被引量：84
9阳珊,樊博,谢磊,王丽娟,宋謌平.基于BLSTM-RNN的语音驱动逼真面部动画合成[J].清华大学学报（自然科学版）,2017,57(3):250-256. 被引量：4
10刘加,张卫强.低资源语音识别若干关键技术研究进展[J].数据采集与处理,2017,32(2):205-220. 被引量：8

引证文献4

1周虎,张承明,张仁堂,杨晓霞,陈岩.红枣黑变过程中主要成分连续变化模拟方法[J].科教导刊（电子版）,2018,0(15):284-285.
2周华兵,侯积磊,吴伟,张彦铎,吴云韬,马佳义.基于语义分割的红外和可见光图像融合[J].计算机研究与发展,2021,58(2):436-443. 被引量：12
3黄宏展,蒙祖强.基于双向注意力机制的多模态情感分类方法[J].计算机工程与应用,2021,57(11):119-127. 被引量：1
4邓莉琼,张贵新,郝向宁.基于知识图谱的图像语义分析技术及应用研究[J].计算机科学与应用,2018,8(9):1364-1371. 被引量：4

二级引证文献17

1郑凯,李建胜.基于深度神经网络的图像语义分割综述[J].测绘与空间地理信息,2020,43(10):119-125. 被引量：15
2汪玉,王鑫,张淑娟,郑国强,赵龙,郑高峰.异构大数据环境中高效率知识融合方法的研究[J].计算机工程与应用,2022,58(6):142-148. 被引量：2
3王鑫,赵龙,张淑娟,汪玉,秦丹丹,孙伟.面向配电网大数据的自组织映射知识融合算法[J].合肥工业大学学报（自然科学版）,2022,45(5):620-624. 被引量：2
4许云英,杨瑞,贺天福,刘尚为,范太然,徐晨晨.基于双分支卷积神经网络的红外与可见光图像局部融合算法[J].红外技术,2022,44(5):521-528. 被引量：2
5刘砚菊,崔洁,宋建辉,刘晓阳,池云.GAN网络的红外与可见光图像融合方法研究[J].沈阳理工大学学报,2022,41(3):14-19.
6安晓东,李亚丽,王芳.汽车驾驶辅助系统红外与可见光融合算法综述[J].计算机工程与应用,2022,58(19):64-75. 被引量：3
7徐圣滨,李立华,何小海,卿粼波,陈洪刚.基于拉普拉斯金字塔融合的岩心图像拼接算法[J].计算机系统应用,2023,32(2):316-321. 被引量：1
8罗文彬,刘敏,李琳,王成德.基于视觉检测的红外与可见光图像区域匹配研究[J].激光杂志,2023,44(2):186-190.
9徐涵,梅晓光,樊凡,马泳,马佳义.信息分离和质量引导的红外与可见光图像融合[J].中国图象图形学报,2022,27(11):3316-3330. 被引量：2
10张浩,马佳义,樊凡,黄珺,马泳.基于特征空间多分类对抗机制的红外与可见光图像融合[J].计算机研究与发展,2023,60(3):690-704. 被引量：1

1李莉,森干,木拉提.哈米提,严传波.基于医学图像内容的挖掘技术研究[J].电脑知识与技术,2011,7(7X):5229-5230.
2柯圣财,赵永威,李弼程,彭天强.基于卷积神经网络和监督核哈希的图像检索方法[J].电子学报,2017,45(1):157-163. 被引量：36
3刘波.信息化教学模式应用于高职教学中的价值评价[J].教学管理与教育研究,2017,2(10):21-22.
4王健,李虹磊,林鸿飞,杨志豪,张绍武.基于神经网络的微生物生长环境关系抽取方法[J].华南理工大学学报（自然科学版）,2017,45(3):76-81. 被引量：1
5何欢,谭思明,肖强,王春莉.“人工智能”发展现状及对青岛的建议[J].办公自动化,2017,22(6):18-20.
6俞毓锋,赵卉菁,崔锦实,査红彬.基于道路结构特征的智能车单目视觉定位[J].自动化学报,2017,43(5):725-734. 被引量：14
7杨明川,胡婕,杨哲超.基于自然语言处理和图计算的情报分析研究[J].电信技术,2017(6):6-8. 被引量：1
8张坤,孙全建,张云霞,赵刚.“互联网+”与烟草行业跨界融合的探索[J].科技传播,2017,9(2):24-25. 被引量：2
9黄岚,周娟.基于关键人物的分布式视频检索系统设计与实现[J].电脑编程技巧与维护,2017(16):87-89.
10袁江琛.基于课程链ASP.NET校本教材开发的实践研究[J].电脑知识与技术（过刊）,2016,22(8X):131-132. 被引量：1

计算机研究与发展

2017年第6期

浏览历史

内容加载中请稍等...

融合语义知识的深度表达学习及在视觉理解中的应用被引量：4

参考文献9

二级参考文献163

共引文献345

同被引文献16

引证文献4

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

融合语义知识的深度表达学习及在视觉理解中的应用 被引量：4

参考文献9

二级参考文献163

共引文献345

同被引文献16

引证文献4

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

融合语义知识的深度表达学习及在视觉理解中的应用被引量：4