-
题名基于特征空间轨迹信息的语音关键词检测方法
- 1
-
-
作者
田颖慧
贺前华
郑若伟
危卓
李艳雄
-
机构
华南理工大学
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2023年第10期2915-2924,共10页
-
基金
广东省自然科学基金(No.2022A1515011687)
国家自然科学基金(No.61571192)。
-
文摘
当前语音关键词检测的主流技术为深度学习,需要大规模标注样本进行训练,难以应用于更普遍的低资源场景.本文提出一种基于音频特征空间轨迹信息的低资源语音关键词检测方法,该方法基于“词是由更小语言单元(音节、音素)的结构化组成,以及语言单元声学特征具有稳定性(统计意义)”的事实,结合物理几何空间定位的原理,构建语音关键词的特征空间表达、时序信息表达和局部区分信息知识.语音关键词检测时,依据语音段的特征空间轨迹信息分层次进行判决,实现了模式信息与统计信息的综合应用.其中语音特征空间是利用丰富的无标注语音样本构建音频特征空间的标识子表达,而语音关键词的特征空间轨迹信息利用少量关键词语音样本构建.多个实验结果表明,本文算法在低资源时(100个样本以下),相比HMM和CRNN有显著优势,10个训练样本时,相比HMM,FRR绝对下降了20.5%,FAR绝对下降了8.7 FP/h;而在训练样本量较充分(300个样本及以上)时,与CRNN有大致相当的性能.
-
关键词
语音关键词检测
音频特征空间
特征空间轨迹信息
低资源
-
Keywords
spoken term detection
audio feature space
feature space trajectory information
limited-data source
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
TP391.9
[自动化与计算机技术—计算机应用技术]
-