基于语义嵌入学习的特类视频识别

Special Video Recognition Based on Semantic Embedding Learning

下载PDF

导出

摘要暴力视频传播已经成为网络环境治理面临的隐患之一,暴力视频这类特类视频的智能识别技术对维护互联网内容安全具有重要意义.由于采集来源的多样性,暴力视频分布通常呈现较大的类内方差和较小的类间方差,常见的暴力视频识别模型难以适应复杂多变的暴力场景.同时,暴力一词本身具有高度抽象的语义,如何从有限数据中学习通用的暴力语义表示成为一大难点.针对这些问题,本文基于语义嵌入学习的思想,构建了一种新颖的多模态暴力视频识别模型,主要由三部分构成.(1)多模态特征提取.考虑到视频具有多模态属性,采用了三种不同的深度神经网络分别提取表观、运动、音频三种模态的特征表示.(2)多模态特征融合.为获得鲁棒的通用视频表示,设计了一种轻量级的多模态特征融合模块(Multimodal Efficient Fusion Module,MEFM),该模块包括共享空间映射与多模态特征交互两部分,在对多模态特征进行充分交互的同时,又能够有效抑制不同模态信息之间的干扰.(3)语义嵌入学习.为适应不同数据分布的暴力数据集,提出了一种基于语义嵌入的多任务学习方法,通过引入中心损失构建暴力语义中心,并采用余弦嵌入损失将暴力样本向中心聚合、非暴力样本进行离散,形成具有语义判别性的特征表示,从而增强了模型的泛化能力,减少了数据噪声的干扰.在VSD2015,Violent Flows和RWF-2000三个公开数据集上的实验表明,本文提出的暴力视频识别模型较已有方法分别提升了4.79%,0.81%和1.5%,取得了具有竞争力的结果. semantics,and it becomes a major difficulty to learn a generic semantic representation of violence from limited data.In response to these problems,we present a novel multimodal violent video recognition model based on semantic embedding learning.The model mainly consists of the following three parts.(1)Multimodal feature extraction.Considering that videos have multimodal properties,we use three different deep neural networks to extract feature representations of three modalities,i.e.,appearance,motion,and audio.(2)Multimodal feature fusion.To obtain a robust universal video representation,a lightweight multimodal feature fusion module,referred to as MEFM(Multimodal Efficient Fusion Module),is designed in this paper.The module includes two parts:common space mapping and multimodal feature interaction,which can effectively suppress the interference between different modal information while fully interacting with multimodal features.(3)Semantic embedding learning.To accommodate violence datasets from different sources,we propose a multi-task learning method based on semantic embedding,which computes the semantic center of violence by introducing a center loss and uses cosine embedding loss to aggregate violent samples toward the center while discrete with non-violent samples to form a semantic discriminative feature representation,thus enhancing the generalization ability of the model and reducing the noise interference.Experiments on three publicly available datasets,VSD2015,Violent Flows,and RWF-2000,demonstrate that the violence video recognition framework proposed in this paper achieves competitive results by improving 4.79%,0.81%,and 1.5%respectively,over the state of the arts.

作者吴晓雨蒲禹江王生进刘子豪 WU Xiao-yu;PU Yu-jiang;WANG Sheng-jin;LIU Zi-hao(School of Information and Communication,Communication University of China,Beijing 100024,China;State Key Laboratory of Media Convergence and Communication,Communication University of China,Beijing 100024,China;Department of Electronic Engineering,Tsinghua University,Beijing 100084,China)

机构地区中国传媒大学信息与通信工程学院媒体融合与传播国家重点实验室(中国传媒大学) 清华大学电子工程系

出处《电子学报》 EI CAS CSCD 北大核心 2023年第11期3225-3237,共13页 Acta Electronica Sinica

基金国家自然科学基金(No.61801441)。

关键词暴力视频识别多模态特征融合语义嵌入多任务学习 violent video recognition multimodal feature fusion semantic embedding multi-task learning

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1闻佳,王宏君,邓佳,刘鹏飞.基于深度学习的异常事件检测[J].电子学报,2020,48(2):308-313. 被引量：14
2吴晓雨,顾超男,王生进.多模态特征融合与多任务学习的特种视频分类[J].光学精密工程,2020,28(5):1177-1186. 被引量：5

二级参考文献5

1黄荷,俞亚萍,张之江.基于神经网络的密集人群视频异常检测[J].电子测量技术,2017,40(11):103-107. 被引量：8
2孙慧.HMM监控视频下的异常事件检测分析[J].信息与电脑,2017,29(20):52-54. 被引量：1
3马晓晨,韦世奎,蒋翔,李晓飞.基于相机溯源的潜在不良视频通话预警[J].光学精密工程,2018,26(11):2785-2794. 被引量：2
4潘仙张,张石清,郭文平.多模深度卷积神经网络应用于视频表情识别[J].光学精密工程,2019,27(4):963-970. 被引量：19
5崔鑫,彭宗举,陈芬.联合多特征的未来视频快速编码[J].光学精密工程,2019,27(4):990-999. 被引量：2

共引文献17

1周传华,徐文倩,朱俊杰.基于代价敏感卷积神经网络的集成分类算法[J].应用科学学报,2022,40(1):69-79. 被引量：6
2LYU Yanxia,LI Wenjie,WANG Yue,SUN Siqi,WANG Cuirong.RMHSForest:Relative Mass and Half-Space Tree Based Forest for Anomaly Detection[J].Chinese Journal of Electronics,2020,29(6):1093-1101. 被引量：1
3蒋伟进,王扬,刘晓亮,吕斯健.基于词相关性特征的多归属谱聚类突发事件检测[J].通信学报,2020,41(12):193-204. 被引量：2
4陈莹,朱宇.模态自适应权值学习机制下的多光谱行人检测网络[J].光学精密工程,2020,28(12):2700-2709. 被引量：4
5席亮,刘涵,樊好义,张凤斌.基于深度对抗学习潜在表示分布的异常检测模型[J].电子学报,2021,49(7):1257-1265. 被引量：12
6肖硕,黄珍珍,张国鹏,杨树松,江海峰,李天旭.基于SAC的多智能体深度强化学习算法[J].电子学报,2021,49(9):1675-1681. 被引量：12
7郁滨,熊俊.基于平衡迭代规约层次聚类的无线传感器网络流量异常检测方案[J].电子与信息学报,2022,44(1):305-313. 被引量：18
8王宏刚,纪鑫,武同心,杨智伟,何禹德.基于预训练语言模型的电力领域设备缺陷检测[J].电测与仪表,2022,59(5):180-186. 被引量：5
9彭闯,王伦文,胡炜林.融合深度特征的电磁频谱异常检测算法[J].电子学报,2022,50(6):1359-1369. 被引量：4
10韩笑,张梦真,吴易,崔孝凯,邱长滨,王庆芝,刘其朋.无人驾驶系统中执行器攻击检测算法设计[J].复杂系统与复杂性科学,2022,19(3):88-93.

1莫祖英,盘大清.信息茧房效应对用户虚假信息识别能力的影响关系探析[J].图书馆学研究,2023(3):50-57. 被引量：15
2刘玲玲,彭敏,谢亚宏.多国持续加强网络环境治理[J].中国信用,2023(6):122-124.
3强子珊,顾益军.基于多模态异质图的社交媒体谣言检测模型[J].数据分析与知识发现,2023,7(11):68-78. 被引量：5
4李昂,杜军平,寇菲菲,薛哲,徐欣,许明英,姜阳.面向科技资讯的基于语义对抗和媒体对抗的跨媒体检索方法[J].计算机研究与发展,2023,60(11):2660-2670.
5童有晨.经济新常态下企业工商管理创新路径[J].中文科技期刊数据库（全文版）经济管理,2024(1):0187-0190.
6王珍,王倩.网络环境下高中思想政治教育路径探究[J].中小学电教（综合）,2023(7):112-114. 被引量：1
7张灵,李荣臻,郑苏.融合标签语义嵌入和图卷积的短文本特征扩展及分类方法[J].广东工业大学学报,2024,41(1):69-78.
8李冠,庞玉琳,田坤.基于YOLO和ConvLSTM混合神经网络的暴力视频检测[J].计算机应用与软件,2023,40(11):233-240. 被引量：1
9宋谦益,游俊杰,杨成,刘宜丰.玄武岩纤维-木纤维复合碱式硫酸镁水泥性能的改性机理[J].土木与环境工程学报（中英文）,2023,45(5):202-211. 被引量：1
10黄福鸿,李高翔,卓采标,叶宇中.基于Ethereum全链构建的大数据测量分析与研究[J].广东通信技术,2024,44(1):51-55.

电子学报

2023年第11期

浏览历史

内容加载中请稍等...

基于语义嵌入学习的特类视频识别

参考文献2

二级参考文献5

共引文献17

相关作者

相关机构

相关主题

浏览历史