期刊文献+
共找到213篇文章
< 1 2 11 >
每页显示 20 50 100
Studies on Model Distance Normalization Approach in Text-independent Speaker Verification 被引量:1
1
作者 DONG Yuan LU Liang +1 位作者 ZHAO Xian-Yu ZHAO Jian 《自动化学报》 EI CSCD 北大核心 2009年第5期556-560,共5页
关键词 自动化 标准化 函数逼近 ASV
下载PDF
Cross similarity measurement for speaker adaptive test normalization in text-independent speaker verification
2
作者 ZHAO Jian DONG Yuan +2 位作者 ZHAO Xian-yu YANG Hao WANG Hai-la 《The Journal of China Universities of Posts and Telecommunications》 EI CSCD 2008年第2期130-134,共5页
Speaker adaptive test normalization (ATnorm) is the most effective approach of the widely used score normalization in text-flldependent speaker verification, which selects speaker adaptive impostor cohorts with an e... Speaker adaptive test normalization (ATnorm) is the most effective approach of the widely used score normalization in text-flldependent speaker verification, which selects speaker adaptive impostor cohorts with an extra development corpus in order to enhance the recognition performance. In this paper, an improved implementation of ATnorm that can offer overall significant advantages over the original ATnorm is presented. This method adopts a novel cross similarity measurement in speaker adaptive cohort model selection without an extra development corpus. It can achieve a comparable performance with the original ATnorm and reduce the computation complexity moderately. With the full use of the saved extra development corpus, the overall system performance can be improved significantly. The results are presented on NIST 2006 Speaker Recognition Evaluation data corpora where it is shown that this method provides significant improvements in system performance, with relatively 14.4% gain on equal error rate (EER) and 14.6% gain on decision cost function (DCF) obtained as a whole. 展开更多
关键词 speaker ATnorm score normalization cross similaritymeasurement speaker verification NIST speaker recognitionevaluation
原文传递
Advances in SVM-Based System Using GMM Super Vectors for Text-Independent Speaker Verification
3
作者 赵剑 董远 +3 位作者 赵贤宇 杨浩 陆亮 王海拉 《Tsinghua Science and Technology》 SCIE EI CAS 2008年第4期522-527,共6页
For text-independent speaker verification, the Gaussian mixture model (GMM) using a universal background model strategy and the GMM using support vector machines are the two most commonly used methodologies. Recentl... For text-independent speaker verification, the Gaussian mixture model (GMM) using a universal background model strategy and the GMM using support vector machines are the two most commonly used methodologies. Recently, a new SVM-based speaker verification method using GMM super vectors has been proposed. This paper describes the construction of a new speaker verification system and investigates the use of nuisance attribute projection and test normalization to further enhance performance. Experiments were conducted on the core test of the 2006 NIST speaker recognition evaluation corpus. The experimental results indicate that an SVM-based speaker verification system using GMM super vectors can achieve appealing performance. With the use of nuisance attribute projection and test normalization, the system performance can be significantly improved, with improvements in the equal error rate from 7.78% to 4.92% and detection cost function from 0.0376 to 0.0251. 展开更多
关键词 support vector machines Gaussian mixture model super vector nuisance attribute projection test normalization speaker verification NIST 06 speaker recognition evaluation
原文传递
Locality Preserving Discriminant Projection for Speaker Verification 被引量:1
4
作者 Chunyan Liang Wei Cao Shuxin Cao 《Journal of Computer and Communications》 2020年第11期14-22,共9页
In this paper, a manifold subspace learning algorithm based on locality preserving discriminant projection (LPDP) is used for speaker verification. LPDP can overcome the deficiency of the total variability factor anal... In this paper, a manifold subspace learning algorithm based on locality preserving discriminant projection (LPDP) is used for speaker verification. LPDP can overcome the deficiency of the total variability factor analysis and locality preserving projection (LPP). LPDP can effectively use the speaker label information of speech data. Through optimization, LPDP can maintain the inherent manifold local structure of the speech data samples of the same speaker by reducing the distance between them. At the same time, LPDP can enhance the discriminability of the embedding space by expanding the distance between the speech data samples of different speakers. The proposed method is compared with LPP and total variability factor analysis on the NIST SRE 2010 telephone-telephone core condition. The experimental results indicate that the proposed LPDP can overcome the deficiency of LPP and total variability factor analysis and can further improve the system performance. 展开更多
关键词 speaker verification Locality Preserving Discriminant Projection Locality Preserving Projection Manifold Learning Total Variability Factor Analysis
下载PDF
Feature Mapping and Recuperation by Using Elliptical Basis Function Networks for Robust Speaker Verification
5
作者 李昕 郑宇 江芳泽 《Journal of Shanghai University(English Edition)》 CAS 2002年第4期331-336,共6页
The performance of speaker verification systems is often compromised under real world environments. For example, variations in handset characteristics could cause severe performance degradation. This paper presents a... The performance of speaker verification systems is often compromised under real world environments. For example, variations in handset characteristics could cause severe performance degradation. This paper presents a novel method to overcome this problem by using a non linear handset mapper. Under this method, a mapper is constructed by training an elliptical basis function network using distorted speech features as inputs and the corresponding clean features as the desired outputs. During feature recuperation, clean features are recovered by feeding the distorted features to the feature mapper. The recovered features are then presented to a speaker model as if they were derived from clean speech. Experimental evaluations based on 258 speakers of the TIMIT and NTIMIT corpuses suggest that the feature mappers improve the verification performance remarkably. 展开更多
关键词 feature mapping and recurpuration elliptical basis function (EBF) networks speaker verification.
下载PDF
Speaker Verification Based on Log-Likelihood Score Normalization
6
作者 Wei Cao Chunyan Liang Shuxin Cao 《Journal of Computer and Communications》 2020年第11期80-87,共8页
Due to differences in the distribution of scores for different trials, the performance of a speaker verification system will be seriously diminished if raw scores are directly used for detection with a unified thresho... Due to differences in the distribution of scores for different trials, the performance of a speaker verification system will be seriously diminished if raw scores are directly used for detection with a unified threshold value. As such, the scores must be normalized. To tackle the shortcomings of score normalization methods, we propose a speaker verification system based on log-likelihood normalization (LLN). Without a priori knowledge, LLN increases the separation between scores of target and non-target speaker models, so as to improve score aliasing of “same-speaker” and “different-speaker” trials corresponding to the same test speech, enabling better discrimination and decision capability. The experiment shows that LLN is an effective method of scoring normalization. 展开更多
关键词 speaker verification Score Normalization Log-Likelihood Normalization Zero Normalization Test Normalization
下载PDF
面向中文短语音的文本无关说话人确认新框架
7
作者 毛海全 冯海泓 +3 位作者 洪峰 马皓天 徐楚林 郑立通 《声学技术》 CSCD 北大核心 2024年第4期503-510,共8页
相较于文本相关说话人确认,文本无关说话人确认由于验证文本内容不受限制,结合语音识别能够有效避免录音欺诈等常见攻击。然而,文本无关说话人确认系统在短语音验证上会出现严重的性能下降。为此,文章首先提出了一种改进的端到端模型,... 相较于文本相关说话人确认,文本无关说话人确认由于验证文本内容不受限制,结合语音识别能够有效避免录音欺诈等常见攻击。然而,文本无关说话人确认系统在短语音验证上会出现严重的性能下降。为此,文章首先提出了一种改进的端到端模型,通过长、短语音说话人分类损失增强网络对不同时长语音段的说话人分类识别能力;同时,在嵌入码空间中增大同一说话人的短语音和长语音之间的相似度,减小不同说话人的短语音之间的相似度,增强网络对短语音的特征提取能力。此外,还提出了一种基于注意力机制的验证词选择方法,选择具有高注意力权重的中文词作为系统验证提示词。实验结果表明,文章提出的改进的端到端模型结合softmax预训练使得模型在短测试语音上的等错误率相对降低29%,基于注意力机制的验证词选择方法也能筛选出具有更好识别结果的验证词,二者结合能够有效提升说话人确认系统对于短中文语音的识别性能。 展开更多
关键词 说话人确认 短语音 注意力机制 验证词选择
下载PDF
基于迁移学习和基频特征融合的文本相关说话人识别框架
8
作者 马皓天 洪峰 +5 位作者 毛海全 徐楚林 胡梦璐 牟宏宇 陈友元 许伟杰 《声学技术》 CSCD 北大核心 2024年第5期677-685,共9页
目前,面向我国金融支付的说话人识别技术在社会层面上没有大范围的推广,其原因在于数据集的缺乏以及识别技术未能满足安全性要求。针对上述问题,文章录制了用于中文数字串文本相关说话人识别的SHALCAS-WXSD22B数据集,用于金融支付场景... 目前,面向我国金融支付的说话人识别技术在社会层面上没有大范围的推广,其原因在于数据集的缺乏以及识别技术未能满足安全性要求。针对上述问题,文章录制了用于中文数字串文本相关说话人识别的SHALCAS-WXSD22B数据集,用于金融支付场景中的数字串声纹识别研究,并提出一种基于迁移学习和基频特征融合的文本相关说话人识别框架,提高了文本相关说话人识别技术的可靠性。在数字串SHALCAS-WXSD22B-d006和SHALCAS-WXSD22B-d007语料实验中,所提框架实现的最佳等错误率分别为0.88%和1.05%,与ECAPA-TDNN基线模型相比等错误率相对降低了17和20个百分点,且达到了支付场景下的声纹识别安全性指标。实验结果表明,文中所提框架不仅具有更好的识别准确率和安全性能,而且同样能提高框架中包括ResNet34在内的其他log-Mel识别模型的性能。 展开更多
关键词 文本相关说话人识别 迁移学习 基频特征 嵌入级融合 决策级融合
下载PDF
基于Group-Res2Block的智能合成语音说话人确认方法
9
作者 李菲 苏兆品 +2 位作者 王年松 杨波 张国富 《应用科学学报》 CAS CSCD 北大核心 2024年第4期709-722,共14页
针对现有说话人确认任务基于自然语音条件下并不适用于智能合成语音的问题,提出一种基于Group-Res2Block的智能合成语音说话人确认方法。首先,设计了Group-Res2Block结构,在Res2Block的基础上将当前分组与相邻前后分组进行合并形成新的... 针对现有说话人确认任务基于自然语音条件下并不适用于智能合成语音的问题,提出一种基于Group-Res2Block的智能合成语音说话人确认方法。首先,设计了Group-Res2Block结构,在Res2Block的基础上将当前分组与相邻前后分组进行合并形成新的分组,以增强说话人局部特征的上下文联系;其次,设计了并行结构的多尺度通道注意力特征融合机制,利用不同大小卷积核实现同一层级的特征在通道维度的特征选择,以获取更具表现力的说话人特征,避免信息冗余;最后,设计了串行结构的多尺度层注意力特征融合机制,构建层结构,将深浅层特征整体进行融合并赋予不同权重,以获取最优的特征表达。为验证所提出特征提取网络的有效性,构建了中英文两种智能合成语音数据集进行消融实验和对比实验。结果表明本文方法在该任务的评价指标精确度(accuracy,ACC)、等错误率(equal error rate,EER)和最小检测代价函数(minimum detection cost function,minDCF)上是最优的。此外,通过对模型泛化性能进行测试,验证了本文方法对未知智能语音算法的适用性。 展开更多
关键词 说话人确认 智能合成语音 Group-Res2Block深度神经网络 多尺度特征 注意力机制
下载PDF
基于深度学习的说话人确认方法研究现状及展望
10
作者 李建琛 韩纪庆 《数据采集与处理》 CSCD 北大核心 2024年第5期1062-1084,共23页
随着深度学习的不断发展,说话人确认(Speaker verification)技术已经取得了长足的进步。该技术相较于其他生物特征识别技术,具有可远程操作、成本低和易于人机交互等优势,在公安刑侦、金融服务等领域展现出广泛的应用前景。本文系统综... 随着深度学习的不断发展,说话人确认(Speaker verification)技术已经取得了长足的进步。该技术相较于其他生物特征识别技术,具有可远程操作、成本低和易于人机交互等优势,在公安刑侦、金融服务等领域展现出广泛的应用前景。本文系统综述了基于深度学习的说话人确认技术的发展脉络。首先,介绍了基于深度学习的说话人特征表示模型在模型输入与结构、池化层、有监督损失函数和自监督学习与预训练模型4个方面的发展历程和研究现状;其次,探讨了说话人确认技术在实际应用中面临的跨域不匹配问题,如噪声干扰、信道不匹配和远场语音等,并概述了相应的领域自适应和领域泛化方法;最后,指出了进一步的研究方向。 展开更多
关键词 说话人识别 说话人确认 深度学习 领域不匹配 自监督学习
下载PDF
基于多尺度卷积编码器的说话人验证网络
11
作者 刘小湖 陈德富 +3 位作者 李俊 周旭文 胡姗 周浩 《计算机科学》 CSCD 北大核心 2024年第S01期75-80,共6页
说话人验证是一种有效的生物身份验证方法,说话人嵌入特征的质量在很大程度上影响着说话人验证系统的性能。最近,Transformer模型在自动语音识别领域展现出了巨大的潜力,但由于Transformer中传统的自注意力机制对局部特征的提取能力较弱... 说话人验证是一种有效的生物身份验证方法,说话人嵌入特征的质量在很大程度上影响着说话人验证系统的性能。最近,Transformer模型在自动语音识别领域展现出了巨大的潜力,但由于Transformer中传统的自注意力机制对局部特征的提取能力较弱,难以提取有效的说话人嵌入特征,因此Transformer模型在说话人验证领域的性能难以超越以往的基于卷积网络的模型。为了提高Transformer对局部特征的提取能力,文中提出了一种新的自注意力机制用于Transformer编码器,称为多尺度卷积自注意力编码器(Multi-scale Convolutional Self-Attention Encoder,MCAE)。利用不同尺度的卷积操作来提取多时间尺度信息,并通过融合时域和频域的特征,使模型获得更丰富的局部特征表示,这样的编码器设计对于说话人验证是更有效的。通过实验表明,在3个公开的测试集上,所提方法的综合性能表现更佳。与传统的Transformer编码器相比,MCAE也是更轻量级的,这更有利于模型的应用部署。 展开更多
关键词 说话人验证 说话人嵌入 自注意力机制 Transformer编码器 多尺度卷积
下载PDF
基于Conformer的实时多场景说话人识别模型 被引量:1
12
作者 宣茜 韩润萍 高静欣 《计算机工程与应用》 CSCD 北大核心 2024年第7期147-156,共10页
为解决在多场景(跨域、长时以及噪声干扰语音场景)下说话人确认系统性能较差的问题,提出了一种基于Conformer构建的、实时多场景鲁棒的说话人识别模型——PMS-Conformer。PMS-Conformer的设计灵感来自于先进的模型MFA-Conformer。PMS-Co... 为解决在多场景(跨域、长时以及噪声干扰语音场景)下说话人确认系统性能较差的问题,提出了一种基于Conformer构建的、实时多场景鲁棒的说话人识别模型——PMS-Conformer。PMS-Conformer的设计灵感来自于先进的模型MFA-Conformer。PMS-Conformer对MFA-Conformer的声学特征提取器、网络组件和损失函数计算模块进行了改进,其具有新颖有效的声学特征提取器,以及鲁棒的、具有较强泛化能力的声纹嵌入码提取器。基于VoxCeleb1&2数据集实现了PMS-Conformer的训练;开展了PMS-Conformer与基线MFA-Conformer以及ECAPA-TDNN在说话人确认任务上的性能对比评估实验。实验结果表明在长语音SITW、跨域VoxMovies以及加噪处理的VoxCeleb-O测试集上,以PMS-Conformer构建的说话人确认系统的性能比用这两个基线构建的说话人确认系统更有竞争力;并且在声纹嵌入码提取器的可训练参数(Params)和推理速度(RTF)方面,PMS-Conformer明显优于ECAPA-TDNN。实验结果说明了PMS-Conformer在实时多场景下具有良好的性能。 展开更多
关键词 说话人确认 MFA-Conformer Sub-center AAM-Softmax 声纹嵌入码 声学特征提取
下载PDF
使用全局自注意Teager能量倒谱系数检测重放欺骗语音
13
作者 陈铭 陈雪勤 《声学学报》 EI CAS CSCD 北大核心 2024年第5期1122-1130,共9页
提出了一种基于能量的前端特征提取方法,旨在应对自动说话人验证系统中面临的重放攻击威胁。该方法实现了全频段上的可变分辨率,以充分利用重放语音与真实语音在子带能量上的高鉴别非线性信息。首先,通过采用F-ratio方法统计分析了多种... 提出了一种基于能量的前端特征提取方法,旨在应对自动说话人验证系统中面临的重放攻击威胁。该方法实现了全频段上的可变分辨率,以充分利用重放语音与真实语音在子带能量上的高鉴别非线性信息。首先,通过采用F-ratio方法统计分析了多种录音和播放设备。接着,根据统计结果在全频段上设计了一组滤波器,旨在捕获高鉴别能量信息。最后,利用Teager能量算子计算子带滤波信号的能量,提出了全局自注意Teager能量倒谱系数(GSTECC)。为了验证所提方法的有效性,采用高斯混合模型作为分类器,在ASVspoof 2017 V2和ASVspoof 2021 PA数据库上进行了一系列测试实验。实验结果表明,相对于其他先进特征提取方法,所提GSTECC特征在检测重放攻击方面表现出更优异的性能。 展开更多
关键词 说话人验证 重放攻击检测 全局自注意特征 Teager 能量倒谱系数 非线性滤波器组
下载PDF
基于参数差分的数据增强自适应前端方法
14
作者 刘伟 王占硕 刘晓锋 《中国电子科学研究院学报》 2024年第6期535-540,共6页
隐藏说话者真实身份的技术称为说话者匿名化。为了欺骗自动声纹验证(Automatic Speaker Verification,ASV)系统,说话者匿名化通常通过对原始语音的时间或频谱特性来进行修改,例如通过音高缩放、声道长度归一化或语音转换。然而,匿名语... 隐藏说话者真实身份的技术称为说话者匿名化。为了欺骗自动声纹验证(Automatic Speaker Verification,ASV)系统,说话者匿名化通常通过对原始语音的时间或频谱特性来进行修改,例如通过音高缩放、声道长度归一化或语音转换。然而,匿名语音可以通过对ASV进行再训练来恢复识别出匿名语音的真实身份,例如通过匿名化同一说话者的语音来增强数据实现对匿名语音真实身份的识别。为了评估说话人匿名化的有效性,文中提出了一种注册和测试数据的预恢复方法,该方法将音频特征提取的关键参数作为遍历变量,逐一检查其对后端分类网络特征的适配性,适配性高的参数将予以保留。并对匿名语音的反匿名化进行了研究和比较。实验结果表明,预恢复方法对说话者反匿名化是有效的。此外,还发现测试数据的预恢复比注册数据的预还原表现更好。 展开更多
关键词 自动声纹验证 预恢复 匿名化 反匿名化
下载PDF
基于深度学习的声纹识别身份验证系统设计
15
作者 张海龙 王利恒 吉昕冉 《自动化与仪表》 2024年第4期130-134,共5页
该文设计了一种将声纹识别技术部署于AI推理计算设备上的身份验证系统,主要包含待验证音频采集模块和音频特征向量提取模块等部分。基于RK3568高性能芯片的主控制单元通过音频采集模块进行待验证音频采集,之后将待验证音频进行预处理获... 该文设计了一种将声纹识别技术部署于AI推理计算设备上的身份验证系统,主要包含待验证音频采集模块和音频特征向量提取模块等部分。基于RK3568高性能芯片的主控制单元通过音频采集模块进行待验证音频采集,之后将待验证音频进行预处理获取FBank特征谱。预处理后的音频数据将通过ECAPA-TDNN声纹识别模型进行嵌入特征向量提取,从而获得具有辨识度的嵌入特征向量。嵌入特征向量经过在已注册特征数据库中搜寻并计算两者之间的余弦相似度,通过与阈值进行比较,从而获得待验证人员的身份信息。最后,根据预设的身份权限信息,执行相对应的操作。通过实验验证,当余弦相似度阈值设置为0.3时,能够获得很好的验证效果,因此证明了该系统在实际部署的可行性。 展开更多
关键词 声纹识别 RK3568芯片 深度学习 AI模型部署
下载PDF
多级特征融合的掩码自编码声纹识别方法
16
作者 林泽文 郑景元 +2 位作者 何允栋 余文敬 徐翀 《福建电脑》 2024年第10期23-27,共5页
基于AudioMAE的自监督声纹识别具有良好的泛化性且不需要大量标注数据,但在重构原始梅尔频谱图时,AudioMAE仅使用编码器最后一层的输出,而忽略了编码器浅层包含的特征信息。为了解决这个问题,本文提出一种多级特征融合策略,首先将浅层... 基于AudioMAE的自监督声纹识别具有良好的泛化性且不需要大量标注数据,但在重构原始梅尔频谱图时,AudioMAE仅使用编码器最后一层的输出,而忽略了编码器浅层包含的特征信息。为了解决这个问题,本文提出一种多级特征融合策略,首先将浅层的特征经过投影层与最后一层特征进行对齐,然后使用动态权重策略融合不同层级的特征,最后将融合后的特征送到解码器进行重构。实验的结果显示,本文方法在top1分类准确率上达到了95.95%,在top5分类准确率上达到了98.44%,较原始的AudioMAE分别提升了0.68%和0.24%。 展开更多
关键词 声纹识别 自监督学习 掩码自编码器 多级特征融合
下载PDF
采用局部相位量化的合成语音检测方法
17
作者 徐嘉 简志华 +1 位作者 金宏辉 杨曼 《电信科学》 北大核心 2024年第2期63-71,共9页
由于语音合成的便利性,合成伪装语音对说话人认证系统的安全构成了很大的威胁。为了进一步提升说话人认证系统的伪装语音检测能力,提出了一种利用语谱图频域信息的合成语音检测方法,它通过局部相位量化算法对语谱图频域信息进行描述。首... 由于语音合成的便利性,合成伪装语音对说话人认证系统的安全构成了很大的威胁。为了进一步提升说话人认证系统的伪装语音检测能力,提出了一种利用语谱图频域信息的合成语音检测方法,它通过局部相位量化算法对语谱图频域信息进行描述。首先,将语谱图分为若干子块,然后对每个子块进行局部相位量化,经直方图统计分析后获得局部相位量化特征向量并将该特征向量作为随机森林分类器的输入特征,实现合成语音检测。实验结果表明,该方法进一步降低了合成语音检测系统的串联检测代价数值,并且具有更强的泛化能力。 展开更多
关键词 说话人认证 伪装攻击 合成语音检测 局部相位量化
下载PDF
基于知识蒸馏的说话人验证模型轻量化方案
18
作者 钱建宇 《电声技术》 2024年第7期28-31,42,共5页
利用大规模无监督数据训练的预训练模型具有非常好的泛化性,只需在小规模标注数据上进行微调,就能在相应任务上有所提高。然而,预训练模型加上下游模型通常拥有较大的计算量和较慢的推理速度,不适合在低性能的边缘设备上部署,也难以满... 利用大规模无监督数据训练的预训练模型具有非常好的泛化性,只需在小规模标注数据上进行微调,就能在相应任务上有所提高。然而,预训练模型加上下游模型通常拥有较大的计算量和较慢的推理速度,不适合在低性能的边缘设备上部署,也难以满足需要实时化任务的场景。基于此,提出一种基于知识蒸馏的说话人验证模型轻量化方案,通过将预训练模型和下游模型蒸馏到一个学生网络上,实现整个任务流程的轻量化。 展开更多
关键词 说话人验证 模型轻量化 知识蒸馏
下载PDF
A New Speaker Verification Method with Global Speaker Model and Likelihood Score Normalization
19
作者 张怡颖 朱小燕 张钹 《Journal of Computer Science & Technology》 SCIE EI CSCD 2000年第2期184-193,共10页
In this paper a new text-independent speaker verification method GSMSV is proposed based on likelihood score normalization. In this novel method a global speaker model is established to represent the universal feature... In this paper a new text-independent speaker verification method GSMSV is proposed based on likelihood score normalization. In this novel method a global speaker model is established to represent the universal features of speech and normalize the likelihood score. Statistical analysis demonstrates that this normaliza- tion method can remove common factors of speech and bring the differences between speakers into prominence. As a result the equal error rate is decreased significantly, verification procedure is accelerated and system adaptability to speaking speed is improved. 展开更多
关键词 speaker verification likelihood score normalization statistical analysis
原文传递
Generalized End-to-End Loss for Forensic Speaker Verification
20
作者 Huapeng WANG Fangzhou HE Lianquan WU 《Journal of Systems Science and Information》 CSCD 2023年第2期264-276,共13页
In recent years,various speech embedding methods based on deep learning have been proposed and have shown better performance in speaker verification.Those new technologies will inevitably promote the development of fo... In recent years,various speech embedding methods based on deep learning have been proposed and have shown better performance in speaker verification.Those new technologies will inevitably promote the development of forensic speaker verification.We propose a new forensic speaker verification method based on embeddings trained with loss function called generalized end-to-end(GE2E)loss.First,a long short-term memory(LSTM)based deep neural network(DNN)is trained as the embedding extractor,then the cosine similarity scores between embeddings from same speaker comparison pairs and different speaker comparison pairs are trained to represent within-speaker model and between-speaker model respectively,and finally,the cosine similarity scores between the questioned embeddings and enrolled embeddings are evaluated in the above two models to get the likelihood ratio(LR)value.On the subset of LibriSpeech,test-other-500,we achieve a new state of the art.Both all the same speaker comparison pairs and different speaker comparison pairs get correct results and can provide considerable strong evidence strength for courts. 展开更多
关键词 speaker verification generalized end-to-end loss LSTM likelihood ratio cosine similarity
原文传递
上一页 1 2 11 下一页 到第
使用帮助 返回顶部