期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于深度嵌入向量的说话人分割研究
1
作者
许铭洋
王华朋
+2 位作者
闫道申
杨海涛
楚宪腾
《刑事技术》
2023年第5期466-472,共7页
为提高多说话人混合语音分割的准确度,本文提出了采用广义端到端损失函数训练说话人深度嵌入向量提取模型用于多说话人分割。该方法首先训练基于长短时记忆的深度神经网络作为深度嵌入向量提取器;其次,在音频文件中截取每个说话人的参...
为提高多说话人混合语音分割的准确度,本文提出了采用广义端到端损失函数训练说话人深度嵌入向量提取模型用于多说话人分割。该方法首先训练基于长短时记忆的深度神经网络作为深度嵌入向量提取器;其次,在音频文件中截取每个说话人的参考语音段并训练其嵌入向量;最后,比较音频文件的连续嵌入与每个说话人嵌入之间的余弦相似度得分,实现说话人分割。该方法采用先识别后分割的原理,在能够预知说话人数量的场景中有较好的分割效果,可以为多说话人自动识别系统自动分割目标说话人语音,提高工作效率。
展开更多
关键词
说话人分割
长短时记忆
广义端到端
音频嵌入
余弦相似度
下载PDF
职称材料
题名
基于深度嵌入向量的说话人分割研究
1
作者
许铭洋
王华朋
闫道申
杨海涛
楚宪腾
机构
中国刑事警察学院公安信息技术与情报学院
出处
《刑事技术》
2023年第5期466-472,共7页
基金
国家重点研发计划(2017YFC0821000)
司法部司法鉴定重点实验室项目(KF202117)
广州市科技计划项目(2019030004)。
文摘
为提高多说话人混合语音分割的准确度,本文提出了采用广义端到端损失函数训练说话人深度嵌入向量提取模型用于多说话人分割。该方法首先训练基于长短时记忆的深度神经网络作为深度嵌入向量提取器;其次,在音频文件中截取每个说话人的参考语音段并训练其嵌入向量;最后,比较音频文件的连续嵌入与每个说话人嵌入之间的余弦相似度得分,实现说话人分割。该方法采用先识别后分割的原理,在能够预知说话人数量的场景中有较好的分割效果,可以为多说话人自动识别系统自动分割目标说话人语音,提高工作效率。
关键词
说话人分割
长短时记忆
广义端到端
音频嵌入
余弦相似度
Keywords
speaker diarization
LSTM
ge2e
audio embedding
cosine similarity
分类号
TN912.3 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于深度嵌入向量的说话人分割研究
许铭洋
王华朋
闫道申
杨海涛
楚宪腾
《刑事技术》
2023
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部