基于拓扑稀疏编码预训练CNN的视频语义分析被引量：1

Video Semantic Analysis Based on Topographic Sparse Pre-Training CNN

下载PDF

导出

摘要视频特征的深度学习已成为视频对象检测、动作识别、视频事件检测等视频语义分析方面的研究热点.视频图像的拓扑信息对描述图像内容的关联关系有着重要的作用,同时综合视频序列特性考虑以有标签的视频进行优化学习,将有利于提高视频特征表达的可鉴别性.基于上述考虑,提出一种基于拓扑稀疏编码预训练CNN的视频特征学习方法并用于视频语义分析,该方法将视频特征学习分为2个阶段:半监督视频图像特征学习和有监督的视频序列特征的优化学习.1)在半监督视频图像特征学习中,构建了一个新的拓扑稀疏编码器用之于预训练各层神经网络参数,使视频图像的特征表达能反映图像的拓扑信息,并在图像特征学习的全连接层以有标签的视频概念类别进行逻辑回归微调网络参数.2)在有监督的视频序列特征的优化学习中,构建了视频特征学习的全连接层,综合有标签的视频序列关键帧特征,建立逻辑回归约束,微调网络参数,以实现类别更具可鉴别的视频特征的优化.在典型的视频数据集上进行了相关方法的视频语义概念检测实验,实验结果表明:所提出的方法对视频特征的表达更具可鉴别性,能有效提高视频语义概念检测率. Video feature learning by deep neural network has become a hot research topic in video semantic analysis such as video object detection,motion recognition and video event detection.The topographic information of the video image plays an important role in describing the relationship between image and content.At the same time,it is helpful to improve the discriminability of the video feature expression by considering the characteristics of the video sequence with optimization.In this paper,an approach based on pre-training convolutional neural network with new topographic sparse encoder is proposed for video feature learning.This method has two stages:semi-supervised video image feature learning and supervised video sequence features optimization learning.In the semi-supervised video image feature learning stage,a new topographic sparse encoder is presented and used to pre-train neural networks,so that the characteristic expression of the video image can reflect the topographic information of the image,and a logistic regression is used to fine-tune the networks parameters using video concept label for video image feature learning.In the supervised video sequence feature optimization learning stage,a fully connected layer for feature learning of video sequence is constructed in order to express the feature of video sequence reasonably.A logistic regression constraint is established to adjust the network parameters in order that the discriminative feature of video sequence can be obtained.The experiments for relative methods are carried out on typical video datasets.The results show that the proposed method has better discriminability for the expression of video features,and can improve the accuracy of video semantic concept detection effectively.

作者程晓阳詹永照毛启容詹智财 Cheng Xiaoyang;Zhan Yongzhao;Mao Qirong;Zhan Zhicai(School of Computer Science and Telecommunication Engineering, Jiangsu University, Zhenjiang, Jiangsu 212013)

机构地区江苏大学计算机科学与通信工程学院

出处《计算机研究与发展》 EI CSCD 北大核心 2018年第12期2703-2714,共12页 Journal of Computer Research and Development

基金国家自然科学基金项目(61672268) 江苏省重点研发计划基金项目(BE2015137)~~

关键词视频语义卷积神经网络深度学习拓扑稀疏编码预训练 video semantic convolutional neural network (CNN) deep learning topographic sparse encoder pre-training

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1汪淼,张方略,胡事民.数据驱动的图像智能分析和处理综述[J].计算机辅助设计与图形学学报,2015,27(11):2015-2024. 被引量：11
2余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：611
3詹永照,田华锋,毛启容.核可鉴别的特征分块稀疏表示的视频语义分析[J].计算机辅助设计与图形学学报,2014,26(8):1290-1296. 被引量：1

二级参考文献98

1MarkoffJ. How many computers to identify a cat?[NJ The New York Times, 2012-06-25.
2MarkoffJ. Scientists see promise in deep-learning programs[NJ. The New York Times, 2012-11-23.
3李彦宏.2012百度年会主题报告:相信技术的力量[R].北京:百度,2013.
410 Breakthrough Technologies 2013[N]. MIT Technology Review, 2013-04-23.
5Rumelhart D, Hinton G, Williams R. Learning representations by back-propagating errors[J]. Nature. 1986, 323(6088): 533-536.
6Hinton G, Salakhutdinov R. Reducing the dimensionality of data with neural networks[J]. Science. 2006, 313(504). Doi: 10. 1l26/science. 1127647.
7Dahl G. Yu Dong, Deng u, et a1. Context-dependent pre?trained deep neural networks for large vocabulary speech recognition[J]. IEEE Trans on Audio, Speech, and Language Processing. 2012, 20 (1): 30-42.
8Jaitly N. Nguyen P, Nguyen A, et a1. Application of pretrained deep neural networks to large vocabulary speech recognition[CJ //Proc of Interspeech , Grenoble, France: International Speech Communication Association, 2012.
9LeCun y, Boser B, DenkerJ S. et a1. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, I: 541-551.
10Large Scale Visual Recognition Challenge 2012 (ILSVRC2012)[OLJ.[2013-08-01J. http://www. image?net.org/challenges/LSVRC/2012/.

共引文献620

1贾彦哲.论人工智能研发者过失犯的注意义务[J].华中师范大学研究生学报,2020(2):40-46.
2毕思文,Henri Jaffrès,Chandra Sekhar Roychoudhuri.量子遥感发展新态势——世界首次量子遥感国际会议评述[J].全球变化数据学报（中英文）,2019,3(4):317-325. 被引量：1
3范敏,胥小波,聂小明.基于字符级扩张卷积网络的Web攻击检测方法[J].计算机应用研究,2020,37(S02):234-237. 被引量：4
4孟威,尉永清,刘文锋.基于CRT机制混合神经网络的特定目标情感分析[J].计算机应用研究,2020,37(2):360-364. 被引量：1
5华夏,王新晴,马昭烨,王东,邵发明.基于递归神经网络的视频多目标检测技术[J].计算机应用研究,2020,37(2):615-620. 被引量：8
6刘树霄,衣立,张苏平,时晓曚,薛允传.基于全卷积神经网络方法的日间黄海海雾卫星反演研究[J].海洋湖沼通报,2019(6):13-22. 被引量：12
7王海涛.自主无人系统——概念、体系架构和设计要素[J].电信快报,2021(5):6-9.
8郭龙银,扎西多吉,尚慧杰,旦增.基于LSTM的藏语语音识别[J].电脑知识与技术,2020,0(4):154-155. 被引量：2
9李佳意,董万鹏,任梦,张吉超,弓成美琪.新时代计算机智能制造模式的研究进展[J].智能计算机与应用,2021,11(3):98-105. 被引量：1
10唐公田.杏砧杏快速育苗新技术[J].科技致富向导,2000(4):26-26.

同被引文献2

1钟志权,袁进,唐晓颖.基于卷积神经网络的左右眼识别[J].计算机研究与发展,2018,55(8):1667-1673. 被引量：15
2彭宇新,綦金玮,黄鑫.多媒体内容理解的研究现状与展望[J].计算机研究与发展,2019,56(1):183-208. 被引量：34

引证文献1

1刘欢,郑庆华,罗敏楠,赵洪科,肖阳,吕彦章.基于跨域对抗学习的零样本分类[J].计算机研究与发展,2019,56(12):2521-2535. 被引量：10

二级引证文献10

1冯耀功,于剑,桑基韬,杨朋波.基于知识的零样本视觉识别综述[J].软件学报,2021,32(2):370-405. 被引量：13
2陈明瑶,徐琨,李晓旋.基于风格迁移的手势分割方法[J].计算机与现代化,2021(5):20-25.
3贾霄,郭顺心,赵红.基于图像属性的零样本分类方法综述[J].南京大学学报（自然科学版）,2021,57(4):531-543. 被引量：2
4王泽深,杨云,向鸿鑫,柳青.零样本学习综述[J].计算机工程与应用,2021,57(19):1-17. 被引量：4
5张玲玲,陈一苇,吴文俊,魏笔凡,罗炫,常晓军,刘均.基于对比约束的可解释小样本学习[J].计算机研究与发展,2021,58(12):2573-2584. 被引量：7
6李鑫,李哲民,魏居辉,杨雅婷,王红霞.基于特征分离的跨域自适应学习模型[J].计算机研究与发展,2022,59(1):105-117. 被引量：4
7张伟.双向监督的生成式对抗网络实现零样本分类[J].南京工程学院学报（自然科学版）,2022,20(3):33-37.
8倪伟,王展旭,卞悦旭.基于卷积神经网络的零样本细粒度特征识别[J].信息技术,2023,47(2):86-90.
9吴志远,董育宁,李涛.基于置信度与级联结构的未知网络流量检测[J].智能计算机与应用,2024,14(3):181-186. 被引量：1
10孙仁科,许靖昊,皇甫志宇,李仲年,许新征.基于视觉-语言预训练模型的零样本迁移学习方法综述[J].计算机工程,2024,50(10):1-15.

1寇利伟.链球菌病的诊断与防治[J].山东畜牧兽医,2018,39(5):25-26. 被引量：1
2周教生.基于隐含语义分析的视频语义概念检测方法[J].信息通信,2018,31(2):141-143. 被引量：1
3苗军,李凯,许少武.基于卷积神经网络多层特征融合的目标跟踪[J].现代电子技术,2018,41(24):114-116. 被引量：2
4王舒怀.短视频发展的四大趋势[J].青年记者,2018,0(33):4-5.
5杨丽娜,李明忠.2017年我国高等教育研究热点及其特征——基于14种CSSCI期刊高等教育类文献关键词共现知识图谱的分析[J].长春教育学院学报,2018,34(7):6-15. 被引量：3
6王培育,王丛巧,张舒婷,王雪晶,叶炜,赖钟雄,林玉玲.文心兰25条miRNA前体序列特性及其表达分析[J].西北植物学报,2018,38(9):1587-1597. 被引量：4
7邓海生.视频特征下的电视广告单元分割技术研究[J].电视技术,2018,42(12):75-78.
8Chao-chao BAI,Wei-qiang WANG,Tong ZHAO,Ru-xin WANG,Ming-qiang LI.Deep learning compact binary codes for fingerprint indexing[J].Frontiers of Information Technology & Electronic Engineering,2018,19(9):1112-1123. 被引量：1
9孙雷,卞雄飞,何大祥,宗文明,黄欣,曾振,张健,苏飞.松辽盆地西南部金D1井九佛堂组烃源岩地球化学特征[J].地质与资源,2018,27(5):445-453. 被引量：1
10李佳,盛业华(指导).基于视频影像的地理场景全景立体图生成方法研究[J].测绘学报,2018,47(12):1695-1695. 被引量：2

计算机研究与发展

2018年第12期

浏览历史

内容加载中请稍等...

基于拓扑稀疏编码预训练CNN的视频语义分析被引量：1

参考文献3

二级参考文献98

共引文献620

同被引文献2

引证文献1

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于拓扑稀疏编码预训练CNN的视频语义分析 被引量：1

参考文献3

二级参考文献98

共引文献620

同被引文献2

引证文献1

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于拓扑稀疏编码预训练CNN的视频语义分析被引量：1