摘要
视频数据中的音频流包含了丰富的语义信息.在基于内容的视频检索中,对音频信息的分析是不可分割的一部分.本文主要讨论基于内容的音频场景分割,分析各种音频特征及提取方法,并在此基础上提出一种新的音频流分割方法,根据六种音频类型(语音、音乐、静音、环境音、纯语音、音乐背景下的语音和环境音背景下的语音)的音频特征对视频数据中的音频流分割音频场景.实验证明该方法是有效的,在保证一定的分割精度的同时,准确率和查全率都得到了较大的提高.
Audio streams in video contain a lot of semantic information. In content-based video retrieval, it is indivisible to analyze audio signals. Having discussed various audio features and their extracting methods, we bring forward a new method for audio scene segmentation, according to the features of six kinds of audio signal types (silence, music, environmental sound, pure speech, speech with music and speech with environmental sound) to segment audio stream. Experimental results show that this proposed approach not only ensures segmented precision, but also improves greatly the recall and precision.
出处
《小型微型计算机系统》
CSCD
北大核心
2008年第3期557-562,共6页
Journal of Chinese Computer Systems
基金
国家自然科学基金项目(60673122)资助
广东省自然科学基金项目(5301029)资助
深圳大学科研启动基金项目(200515)资助
关键词
音频场景分割
基于内容的音频分析
音频特征
音频分类
audio scene segmentation
content-based audio analysis
audio features
audio classification