-
题名基于动态时间规整的语音样例快速检索算法
被引量:7
- 1
-
-
作者
张连海
冯志远
陈琦
李勃昊
-
机构
信息工程大学信息系统工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2014年第6期1688-1692,共5页
-
基金
国家自然科学基金资助项目(61175017)
-
文摘
为了提高基于DTW算法的语音检索系统的速度,提出了一种基于分段累积近似下界估计的动态时间规整算法,实现语音样例快速检索。该方法首先提取查询样例和测试集的音素后验概率作为特征参数,然后计算语音样例和测试集中所有候选分段实际动态规整得分的分段累积近似下界估计,最后采用K-最近邻算法与动态时间规整算法搜索与语音样例相似度最高的区域。实验结果表明,此算法的检索速度比直接运用DTW算法快6.32倍,而对其检索精度无任何影响。
-
关键词
语音样例检索
音素后验概率
分段累积近似下界估计
动态时间规整
内积距离
-
Keywords
query-by-example spoken term detection
phone posterior probability
piecewise aggregate approximation lower-bound estimate
dynamic time warping
inner-product distance
-
分类号
TP393.04
[自动化与计算机技术—计算机应用技术]
-
-
题名基于分段动态时间规整的语音样例快速检索
被引量:5
- 2
-
-
作者
冯志远
张连海
-
机构
解放军信息工程大学信息系统工程学院
-
出处
《数据采集与处理》
CSCD
北大核心
2014年第2期265-273,共9页
-
基金
国家自然科学基金(61175017)资助项目
-
文摘
提出了一种融合下界估计和分段动态时间规整的语音样例快速检索方法。该方法针对缺乏合适的训练数据等语音资源较为有限的语言进行快速检索所设计。此方法首先提取查询样例和测试集的音素后验概率;然后,根据限制条件在测试语句中选定候选分段,并计算查询样例和每个候选分段之间实际动态时间规整得分的下界估计,再运用K最近邻搜索算法搜索与查询样例相似度最高的分段;最后,使用虚拟相关反馈技术对检索结果进行修正。实验结果表明:尽管此方法的检索精度略低于直接运用动态时间规整进行检索的检索精度,但其检索速度优于后者,且检索结果经过虚拟相关反馈技术修正后,其检索精度也得到有效提升。
-
关键词
语音样例检索
音素后验概率
分段动态时间规整
下界估计
虚拟相关反馈
-
Keywords
query-by-example spoken term detection
phone posterior probability
segmental dynamic time warping
lower-bound estimate
pseudo relevance feedback
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于指纹权重的音频模板检索方法
被引量:3
- 3
-
-
作者
张学帅
邹学强
胡琪
张鹏远
-
机构
中国科学院声学研究所
中国科学院大学
国家计算机网络应急技术处理中心
-
出处
《中国科技论文》
CAS
北大核心
2018年第20期2295-2300,共6页
-
基金
全军共用信息系统装备预研项目(JZX2017-0994/Y306)
-
文摘
针对音频模板检索方法在噪音和频谱缺失等环境下鲁棒性不够强的问题,在原有Philips检索方法的基础上,提出了一种以帧能量差作为权重的检索方法,即充分利用原方法忽略的能量信息,通过对不同音频帧的DNA设置不同的匹配权重,有效提升了音频模板匹配方法的鲁棒性。实验结果表明,在受噪音影响和频谱缺失的数据集上,对于不同长度的音频模板,音频检索的查准率和查全率均有不同程度的提升,其中在2s的短模板上,查准率可比基线提高16%。
-
关键词
音频检索
音频指纹
索引
样例检索
近邻检索
-
Keywords
audio retrieval
audio DNA
indexing
audio sample retrieval
NN search
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-