-
题名基于声纹嵌入的语音增强算法
被引量:1
- 1
-
-
作者
高戈
曾邦
王霄
尹文兵
陈怡
-
机构
武汉大学国家多媒体软件工程技术研究中心
华中师范大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2022年第3期688-692,共5页
-
文摘
频域语音增强算法在高信噪比的条件下有明显的降噪效果,而在低信噪比条件下频域语音增强算法的性能会大幅下降。针对这个问题,将基于声纹的掩码应用到频域语音增强网络,利用声纹的先验信息,提升网络对说话人和噪声的区分度。另外,为了进一步改善频域语音算法在低信噪比条件下的性能,提出基于映射的声纹嵌入语音增强算法,避免了可能因采用掩模方案造成的语音失真问题。实验结果表明,在引入相同声纹信息时,基于映射的声纹嵌入语音增强网络在低信噪比条件下的增强性能表现更好,特别是在改善语音失真方面优势明显。相较于基于掩模的声纹掩码网络,基于映射的声纹嵌入网络在PESQ、STOI和SSNR这三项指标上分别实现了6.40%、1.46%和24.84%的相对提升。
-
关键词
语音增强
低信噪比
声纹嵌入
掩码
映射
-
Keywords
speech enhancement
low signal-to-noise ratio
speaker embedding
masking
mapping
-
分类号
TN912.35
[电子电信—通信与信息系统]
-
-
题名基于Conformer的实时多场景说话人识别模型
被引量:1
- 2
-
-
作者
宣茜
韩润萍
高静欣
-
机构
北京服装学院文理学院
北京服装学院服装艺术与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2024年第7期147-156,共10页
-
基金
北京市教委科技计划项目(KM202210012002)
北京服装学院2022年研究生科研创新项目(X2022-110)。
-
文摘
为解决在多场景(跨域、长时以及噪声干扰语音场景)下说话人确认系统性能较差的问题,提出了一种基于Conformer构建的、实时多场景鲁棒的说话人识别模型——PMS-Conformer。PMS-Conformer的设计灵感来自于先进的模型MFA-Conformer。PMS-Conformer对MFA-Conformer的声学特征提取器、网络组件和损失函数计算模块进行了改进,其具有新颖有效的声学特征提取器,以及鲁棒的、具有较强泛化能力的声纹嵌入码提取器。基于VoxCeleb1&2数据集实现了PMS-Conformer的训练;开展了PMS-Conformer与基线MFA-Conformer以及ECAPA-TDNN在说话人确认任务上的性能对比评估实验。实验结果表明在长语音SITW、跨域VoxMovies以及加噪处理的VoxCeleb-O测试集上,以PMS-Conformer构建的说话人确认系统的性能比用这两个基线构建的说话人确认系统更有竞争力;并且在声纹嵌入码提取器的可训练参数(Params)和推理速度(RTF)方面,PMS-Conformer明显优于ECAPA-TDNN。实验结果说明了PMS-Conformer在实时多场景下具有良好的性能。
-
关键词
说话人确认
MFA-Conformer
Sub-center
AAM-Softmax
声纹嵌入码
声学特征提取
-
Keywords
speaker verification
MFA-Conformer
Sub-center AAM-Softmax
speaker embedding
acoustic feature extraction
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名多模型融合的VoxSRC22说话人日志系统
- 3
-
-
作者
杜雨轩
周若华
-
机构
北京建筑大学电气与信息工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2024年第10期164-172,共9页
-
文摘
为有效解决“谁在什么时候说话”的问题,提出一种说话人日志方法。该方法由六个模块组成,包括语音活动检测(voice activity detection,VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(overlapping speech detection,OSD)和结果融合。利用语音增强技术可以改善语音活动检测的性能。有效地结合不同的说话人嵌入提取器和聚类算法可以进一步降低系统错误率。在系统融合后处理重叠语音展示了最佳结果。实验结果表明,最佳系统的性能相对基线提升了72%,并在VoxCeleb说话人识别挑战赛(VoxCeleb speaker recognition challenge,VoxSRC)2022评估集上分别实现了5.48%的说话人日志错误率(diarization error rate,DER)和32.10%的杰卡德错误率(Jaccard error rate,JER),排名第四。
-
关键词
说话人日志
语音活动检测
声纹嵌入
说话人聚类
结果融合
-
Keywords
speaker diarization
voice activity detection
speaker embedding
speaker cluster
result fusion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-