期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
可变时长的短时广播语音多语种识别 被引量:2
1
作者 王瑶 龙华 +1 位作者 邵玉斌 杜庆治 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第3期490-496,共7页
针对短时语音时长过短以及训练语音和测试语音时长不等,导致语种识别性能大幅度下降的问题,提出了一种可变时长的短时广播语音多语种识别模型(Variable Duration-Language Identification,VD-LID).首先,对不同时长的语音进行时长规整;然... 针对短时语音时长过短以及训练语音和测试语音时长不等,导致语种识别性能大幅度下降的问题,提出了一种可变时长的短时广播语音多语种识别模型(Variable Duration-Language Identification,VD-LID).首先,对不同时长的语音进行时长规整;然后,对规整后的短时语音进行特征提取,提取其对数功率谱包络图作为语种特征;最后,将语种特征输入到残差神经网络中进行分类.实验结果表明,相比于传统特征输入,对数功率谱包络图特征将短时语音的语种识别准确率提高到了82.4%;相比于没有引入时长规整层的语种识别模型,VD-LID在测试语音时长为5 s和10 s的实验中,语种识别准确率分别提升了27.9%和37.7%. 展开更多
关键词 短时语种识别 对数功率谱包络图 残差神经网络 时长规整层
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部