摘要
从视觉和声音两方面对视频语义内容的表征技术进行研究。采用能反映时间语义约束、语义变化的帧切片策略选取关键帧,用时空注意力模型选择空域的内容,用分类器对这些区域进行基本语义分类识别,建立不同时间声音段的随机模型,进行声音语义内容表示和基本声音语义提取。实验表明,视频内容表征方式能简洁地表示视频的语义内容,有效提取视频基本语义。
Video content representation is important for video semantic understanding. Visual and audio content representation methods are presented. Frame-segment key-frame strategy and attention selection model are used to concisely represent spatio-temporal visual content. The basic visual semantics are recognized by classifier. Audio semantics are represented by stochastic model. Experiment results show that the representation methods can represent video semantic content effectively and concisely.
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第13期218-220,229,共4页
Computer Engineering
基金
成都信息工程学院发展基金资助项目(KYTZ20060904)
关键词
视频内容表示
特征表示
特征抽取
视频语义分析
video content representation
feature representation
feature extraction
video semantic analysis