期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于深度嵌入向量的说话人分割研究
1
作者 许铭洋 王华朋 +2 位作者 闫道申 杨海涛 楚宪腾 《刑事技术》 2023年第5期466-472,共7页
为提高多说话人混合语音分割的准确度,本文提出了采用广义端到端损失函数训练说话人深度嵌入向量提取模型用于多说话人分割。该方法首先训练基于长短时记忆的深度神经网络作为深度嵌入向量提取器;其次,在音频文件中截取每个说话人的参... 为提高多说话人混合语音分割的准确度,本文提出了采用广义端到端损失函数训练说话人深度嵌入向量提取模型用于多说话人分割。该方法首先训练基于长短时记忆的深度神经网络作为深度嵌入向量提取器;其次,在音频文件中截取每个说话人的参考语音段并训练其嵌入向量;最后,比较音频文件的连续嵌入与每个说话人嵌入之间的余弦相似度得分,实现说话人分割。该方法采用先识别后分割的原理,在能够预知说话人数量的场景中有较好的分割效果,可以为多说话人自动识别系统自动分割目标说话人语音,提高工作效率。 展开更多
关键词 说话人分割 长短时记忆 广义端到端 音频嵌入 余弦相似度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部