期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
796
篇文章
<
1
2
…
40
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于概率球面判别分析的说话人识别信道补偿算法
1
作者
景维鹏
肖庆欣
罗辉
《计算机应用》
CSCD
北大核心
2024年第2期556-562,共7页
在说话人识别任务中,概率线性判别分析(PLDA)模型是目前常用的分类后端,但由于高斯PLDA模型分布假设不能准确拟合真实说话人特征分布,导致基于高斯分布假设长度归一化的信道补偿方法会破坏说话人特征类内分布的独立性,使得高斯PLDA不能...
在说话人识别任务中,概率线性判别分析(PLDA)模型是目前常用的分类后端,但由于高斯PLDA模型分布假设不能准确拟合真实说话人特征分布,导致基于高斯分布假设长度归一化的信道补偿方法会破坏说话人特征类内分布的独立性,使得高斯PLDA不能充分利用上游任务提取特征所包含的说话人信息,从而影响识别结果。针对这一问题,提出基于概率球面判别分析的信道补偿算法(CC-PSDA),通过引入冯·米塞斯-费希尔(VMF)分布假设的概率球面判别分析模型(PSDA)和特征变换方法代替高斯分布假设的概率线性判别分析方法,以避免信道补偿对说话人特征类内分布独立性的影响。首先,为了使说话人特征符合VMF分布先验假设拟合后端分类模型,在特征级利用非线性转换对说话人特征进行分布变换。之后,利用基于VMF分布假设的PLDA模型不会破坏说话人特征的类内分布结构的特点,将变换后的说话人特征定义到特定维度的超球面,最大化特征类间距离。所提算法通过期望最大化(EM)算法进行求解,最终完成分类任务。实验结果表明,改进算法在三个测试集上的识别等错误率相较于对比模型PSDA、高斯PLDA均最低。由此可见,所提模型可以有效区分说话人特征,提高识别性能。
展开更多
关键词
说话人识别
i-vector
概率球面判别分析
信道补偿
冯·米塞斯-费希尔分布
长度归一化
下载PDF
职称材料
基于迁移学习和基频特征融合的文本相关说话人识别框架
2
作者
马皓天
洪峰
+5 位作者
毛海全
徐楚林
胡梦璐
牟宏宇
陈友元
许伟杰
《声学技术》
CSCD
北大核心
2024年第5期677-685,共9页
目前,面向我国金融支付的说话人识别技术在社会层面上没有大范围的推广,其原因在于数据集的缺乏以及识别技术未能满足安全性要求。针对上述问题,文章录制了用于中文数字串文本相关说话人识别的SHALCAS-WXSD22B数据集,用于金融支付场景...
目前,面向我国金融支付的说话人识别技术在社会层面上没有大范围的推广,其原因在于数据集的缺乏以及识别技术未能满足安全性要求。针对上述问题,文章录制了用于中文数字串文本相关说话人识别的SHALCAS-WXSD22B数据集,用于金融支付场景中的数字串声纹识别研究,并提出一种基于迁移学习和基频特征融合的文本相关说话人识别框架,提高了文本相关说话人识别技术的可靠性。在数字串SHALCAS-WXSD22B-d006和SHALCAS-WXSD22B-d007语料实验中,所提框架实现的最佳等错误率分别为0.88%和1.05%,与ECAPA-TDNN基线模型相比等错误率相对降低了17和20个百分点,且达到了支付场景下的声纹识别安全性指标。实验结果表明,文中所提框架不仅具有更好的识别准确率和安全性能,而且同样能提高框架中包括ResNet34在内的其他log-Mel识别模型的性能。
展开更多
关键词
文本相关
说话人识别
迁移学习
基频特征
嵌入级融合
决策级融合
下载PDF
职称材料
基于深度声纹特征转换网络的说话人识别攻击方法
3
作者
陶子钰
苏兆品
+2 位作者
廉晨思
王年松
张国富
《应用科学学报》
CAS
CSCD
北大核心
2024年第5期782-794,共13页
目前主流说话人识别(speaker identification,SID)系统的攻击方法主要基于快速梯度下降或映射式梯度下降算法,这些方法存在攻击效果不稳定、生成的攻击语音听觉质量不高等问题。为此提出一种基于深度声纹特征转换网络的自动说话人识别...
目前主流说话人识别(speaker identification,SID)系统的攻击方法主要基于快速梯度下降或映射式梯度下降算法,这些方法存在攻击效果不稳定、生成的攻击语音听觉质量不高等问题。为此提出一种基于深度声纹特征转换网络的自动说话人识别攻击方法,生成具有目标说话人音色的攻击语音。首先分析了SID系统的攻击流程,确定了攻击语音生成的过程;然后基于二维卷积神经网络设计攻击音频生成器,以有效融合源说话人的语音内容和目标说话人的声纹特征,并基于对抗学习设计了攻击音频的判别器,以提高语音攻击音频的质量。最后分别在基于广义端到端损失和基于AMSoftmax损失的两个自动说话人识别系统上进行对比实验。实验结果表明,所提方法不但提高了攻击效果的稳定性,提升了攻击音频的人耳感受质量,而且适用于短时长数据,满足了实际攻击场景的需求。
展开更多
关键词
说话人识别
攻击语音
声纹特征转换
卷积神经网络
下载PDF
职称材料
基于密集连接时延神经网络的说话人识别算法
4
作者
和椿皓
常铁原
+1 位作者
潘立冬
王珺
《应用声学》
CSCD
北大核心
2024年第2期378-384,共7页
说话人识别技术是一项重要的生物特征识别技术。近年来,使用时延神经网络提取发声特征的说话人识别算法取得了突出成果。为进一步增强时延神经网络对说话人特征的提取能力,在不过多消耗计算资源的前提下提升识别准确率,通过对现有的说...
说话人识别技术是一项重要的生物特征识别技术。近年来,使用时延神经网络提取发声特征的说话人识别算法取得了突出成果。为进一步增强时延神经网络对说话人特征的提取能力,在不过多消耗计算资源的前提下提升识别准确率,通过对现有的说话人识别算法进行研究,提出一种带有注意力机制的密集连接时延神经网络用于说话人识别。密集连接的网络结构在增强不同网络层之间的信息复用的同时能有效控制模型体积。通道注意力机制和帧注意力机制帮助网络聚焦于更关键的细节特征,使得通过统计池化提取出的说话人特征更具有代表性。实验结果表明,在VoxCeleb1测试数据集上取得了1.40%的等错误率和0.15的最小检测代价标准,证明了在说话人识别任务上的有效性。
展开更多
关键词
说话人识别
深度学习
神经网络
密集连接
注意力机制
下载PDF
职称材料
用于说话人识别的密集多分支时延神经网络
5
作者
和椿皓
常铁原
潘立冬
《应用声学》
CSCD
北大核心
2024年第5期949-955,共7页
时延神经网络是较早应用于说话人识别领域的一类神经网络。为实现更好的识别性能,近年来一些改进工作围绕加深或拓宽其网络结构进行。在对密集连接卷积网络以及多分支网络结构进行研究的基础上,提出一种密集多分支时延神经网络,用以进...
时延神经网络是较早应用于说话人识别领域的一类神经网络。为实现更好的识别性能,近年来一些改进工作围绕加深或拓宽其网络结构进行。在对密集连接卷积网络以及多分支网络结构进行研究的基础上,提出一种密集多分支时延神经网络,用以进一步提升小体积模型对说话人特征的提取能力。在使用密集连接实现特征重用的基础上,并行多分支结构能同时对同一输入在不同分辨率下进行特征提取。在VoxCeleb1测试集、VoxCeleb1-H、VoxCeleb1-E上进行测试表明,该网络能在模型参数量较小的前提下实现准确的说话人识别,以便应用在一些存储空间受限的本地说话人识别场景中。
展开更多
关键词
说话人识别
时延神经网络
多分支神经网络
密集连接
深度学习
下载PDF
职称材料
基于改进ECAPA-TDNN的法庭自动说话人识别
6
作者
万玫汐
王华朋
+2 位作者
闫道申
刘鹏展
许铭洋
《科学技术与工程》
北大核心
2024年第27期11763-11773,共11页
为提高法庭说话人识别的可靠性和准确性,促进法庭语音检验方法和过程的科学评价范式转化,提出了一种基于改进通道注意力机制融合时延神经网络(emphasized channel attention propagation aggregation time delay neural network,ECAPA-T...
为提高法庭说话人识别的可靠性和准确性,促进法庭语音检验方法和过程的科学评价范式转化,提出了一种基于改进通道注意力机制融合时延神经网络(emphasized channel attention propagation aggregation time delay neural network,ECAPA-TDNN)模型的法庭自动说话人识别方法。该方法为提高模型的准确率和泛化能力,融合空间注意力机制、通道注意力机制和多头注意力机制。首先,选择训练效果最佳的频谱图与伽马频率倒谱系数(gammatone frequency cepstral coefficients,GFCC)融合特征输入网络模型,把训练完成的神经网络作为深度特征提取器,然后,在法庭证据似然比量化评估体系中评估语音证据的强度。实验结果表明:在VoxCeleb1数据集上,Cllr值为0.156,优于之前发表文献中的法庭自动说话人识别系统结果;在中文zhaishell数据集上,误判率和漏判率均为零,并且支持同源假设的似然比最小值为1.72×10^(6),支持非同源假设的似然比最大值为5.83×10^(-21)。该方法进一步提高了识别系统的可靠性和准确性,可以为法庭语音证据评估结论提供强有力的支撑。
展开更多
关键词
说话人识别
似然比
ECAPA-TDNN
注意力机制
特征融合
下载PDF
职称材料
基于自适应GMM阶数与混合特征的说话人识别研究
7
作者
范涛
詹旭
《四川轻化工大学学报(自然科学版)》
CAS
2024年第4期75-83,共9页
针对高斯混合模型(GMM)阶数选取缺陷和说话人特征信息不足的问题,提出了基于自适应GMM阶数和多种语音特征融合的说话人识别算法。首先,通过提取梅尔频率倒谱系数(MFCC)和线性预测梅尔频率倒谱系数(LPMFCC),并根据Fisher准则得到一个17维...
针对高斯混合模型(GMM)阶数选取缺陷和说话人特征信息不足的问题,提出了基于自适应GMM阶数和多种语音特征融合的说话人识别算法。首先,通过提取梅尔频率倒谱系数(MFCC)和线性预测梅尔频率倒谱系数(LPMFCC),并根据Fisher准则得到一个17维的MFCC和LPMFCC参数组合的混合特征参数,以增强说话人的特征信息。然后,根据自适应思想,在K-means聚类算法中计算簇内误差平方和(SSE)。最后,通过肘部法则自适应调整K值,以获得一个最优GMM阶数,使得系统在已有的声纹特征下获得最优的识别效果。结果表明,该算法不仅完善了说话人的特征信息,并且克服了对GMM阶数选取的缺陷。最终结合LPCC和MFCC两种特征算法,融合得到的混合特征LPMFCC+MFCC的识别率相比于LPCC和MFCC提升了26.34%和12.34%。
展开更多
关键词
说话人识别
高斯混合模型
梅尔频率倒谱系数
线性预测梅尔系数
FISHER准则
自适应
下载PDF
职称材料
开放场景下短时语音说话人识别系统的优化设计
8
作者
郭新
邓爱文
+1 位作者
罗程方
邓飞其
《南京信息工程大学学报(自然科学版)》
CAS
北大核心
2023年第5期585-591,共7页
为适应开放场景下说话人识别短时语音的应用需要,本文对说话人识别模型进行优化,提升了模型的准确率和鲁棒性.为了实现对重要频率特征的筛选,提出基于重加权的特征增强层及网络,起到增强特征表达的作用.将人脸识别领域的误分类样本损失...
为适应开放场景下说话人识别短时语音的应用需要,本文对说话人识别模型进行优化,提升了模型的准确率和鲁棒性.为了实现对重要频率特征的筛选,提出基于重加权的特征增强层及网络,起到增强特征表达的作用.将人脸识别领域的误分类样本损失函数首次引入到说话人识别领域,提高对困难样本的挖掘能力.提出基于误分类样本挖掘的分类损失与基于小样本学习框架的余弦角度原型损失的组合损失函数,解决了分类损失函数与说话人识别实际评测需求不匹配和度量函数对采样策略依赖性强的问题.实验结果显示,与基准模型相比,性能指标等误率(EER)降低12.45%,最小检测代价函数(minDCF)降低14.09%,取得现有说话人识别领域的优异效果。
展开更多
关键词
说话人识别
重加权
特征增强层
分类损失函数
度量损失函数
下载PDF
职称材料
新范式下的法庭自动说话人识别实证研究
被引量:
1
9
作者
张翠玲
丁盼
《中国人民公安大学学报(自然科学版)》
2023年第3期87-94,共8页
通过对一起典型刑事案例的实证检验研究,示范性表明法庭语音证据评价新范式和法庭自动说话人识别技术在司法实践中应用的先进性、有效性和可行性。首先,明确控辩假设,并基于案件语音数据特点选择相关背景人群语音数据库。其次,在似然比...
通过对一起典型刑事案例的实证检验研究,示范性表明法庭语音证据评价新范式和法庭自动说话人识别技术在司法实践中应用的先进性、有效性和可行性。首先,明确控辩假设,并基于案件语音数据特点选择相关背景人群语音数据库。其次,在似然比框架内,利用相关背景人群的语音数据对基于深度神经网络的法庭自动说话人识别系统进行性能验证。最后,计算检材语音与样本语音比较的似然比值,评估二者的同源性,解释证据价值。基于典型案件现实条件开展法庭说话人识别的实证研究,对于法庭语音证据评价新范式和法庭自动说话人识别技术的推广应用具有重要意义。
展开更多
关键词
新范式
法庭自动
说话人识别
似然比
验证
实证
下载PDF
职称材料
基于改进语谱图的深度学习说话人识别
被引量:
1
10
作者
马志举
杜庆治
+1 位作者
龙华
邵玉斌
《现代电子技术》
2023年第21期32-38,共7页
为了提高说话人识别系统的性能,提出基于改进语谱图的深度学习说话人识别算法。语谱图当中包含了语音的内容、情绪、语种以及说话人身份等多种信息,在以往的说话人识别算法中,往往没有考虑到说话人身份特性,采用直接提取语音中的语谱图...
为了提高说话人识别系统的性能,提出基于改进语谱图的深度学习说话人识别算法。语谱图当中包含了语音的内容、情绪、语种以及说话人身份等多种信息,在以往的说话人识别算法中,往往没有考虑到说话人身份特性,采用直接提取语音中的语谱图作为网络输入,而说话人识别系统中需要提取语谱图中表征身份的信息,因此需要在原始语谱图的基础上进行改进。在语谱图中,基音频率以及共振峰等信息最能表现说话人的身份特征,从而提出根据语音信号中每一帧的基音频率进行自适应梳状滤波,得到改进后的语谱图,再通过卷积神经网络提取说话人特征,从而达到提升识别准确率的效果。网络模型采用MobileNetv2神经网络,该网络模型具有模型参数少、收敛速度快、识别速度快等优点,有利于实际应用。在对照实验结果中,该方法相对于原始语谱图的准确率分别提高了2.3%、5.2%、3%。
展开更多
关键词
语谱图
基音频率
梳状滤波器
深度学习
说话人识别
深度可分离卷积
下载PDF
职称材料
改进Res2Net的多尺度端到端说话人识别系统
被引量:
2
11
作者
邓力洪
邓飞
+1 位作者
张葛祥
杨强
《计算机工程与应用》
CSCD
北大核心
2023年第24期110-120,共11页
说话人识别系统中轻量卷积神经网络的特征提取能力弱、识别效果差。而为了提升特征提取能力,许多方法使用了更深、更宽、更复杂的网络结构,使得参数量和推理时间成倍增加。将目标检测任务中的轻量网络Res2Net引入到说话人识别任务中,验...
说话人识别系统中轻量卷积神经网络的特征提取能力弱、识别效果差。而为了提升特征提取能力,许多方法使用了更深、更宽、更复杂的网络结构,使得参数量和推理时间成倍增加。将目标检测任务中的轻量网络Res2Net引入到说话人识别任务中,验证了它在说话人识别任务中的有效性和鲁棒性。并改进提出了FullRes2Net,它拥有更多、更大的感受野组合。在几乎没有增加参数量的情况下,相比于Res2Net,性能提升了17%。同时,为了解决现有注意力方法存在的问题改善卷积本身的缺点,进一步提升卷积神经网络的特征提取能力,提出了混合时频通道注意力。它可以对音频特征的时间、频率、通道维度进行交互,捕捉特征间的依赖,从而有效增强卷积神经网络的特征提取能力。在Voxceleb数据集上进行了实验,结果表明提出的方法有效地提升了系统的特征提取能力和泛化能力,相较于Res2Net性能提升了34%,并优于使用复杂结构的先进说话人识别系统,是一种参数量更少、效率更高的端到端结构,适合在现实场景中的应用。
展开更多
关键词
说话人识别
端到端
注意力机制
下载PDF
职称材料
基于SincNet的短语音说话人识别算法
被引量:
1
12
作者
黄明浩
周欣
+2 位作者
何小海
王正勇
熊淑华
《现代计算机》
2023年第4期25-31,共7页
针对传统卷积神经网络(CNN)在测试语音短的情况下说话人识别准确率不高、特征提取方面表现不佳的问题,提出了SincNet与加入了注意力机制的ResNet网络相结合的说话人识别方法。首先,针对短语音条件下说话人信息不足的问题,用不同窗口大小...
针对传统卷积神经网络(CNN)在测试语音短的情况下说话人识别准确率不高、特征提取方面表现不佳的问题,提出了SincNet与加入了注意力机制的ResNet网络相结合的说话人识别方法。首先,针对短语音条件下说话人信息不足的问题,用不同窗口大小的Sinc卷积层提取多分辨率的特征,并结合通道注意力机制增强特征信息;其次,将多通道的特征输入到ResNet网络得到更高层的特征信息,然后通过空洞空间金字塔池化(ASPP)进行多尺度特征融合;最后通过Softmax层获得分类概率。在TIMIT语料库上进行了实验,在不同长度的测试语音条件下所提算法准确率均高于传统CNN等对比方法。基于以上实验结果,充分表明了本文算法在短语音说话人识别任务上的有效性。
展开更多
关键词
说话人识别
短语音
SincNet
注意力机制
多特征
下载PDF
职称材料
噪音环境下声音诱发脑电信号的说话人识别
被引量:
2
13
作者
胡朗
周俊佐
+2 位作者
颜伟鹏
莫佳洋
张建海
《杭州电子科技大学学报(自然科学版)》
2023年第1期62-68,共7页
环境噪音与说话人识别息息相关,文章主要研究环境噪音对说话人识别的影响。首先,在孪生神经网络的卷积层中添加注意力层,对说话人相关的特征赋予更大的权重,从而减小环境噪音带来的影响;其次,将说话人音频和不同类型噪音音频融合成双轨...
环境噪音与说话人识别息息相关,文章主要研究环境噪音对说话人识别的影响。首先,在孪生神经网络的卷积层中添加注意力层,对说话人相关的特征赋予更大的权重,从而减小环境噪音带来的影响;其次,将说话人音频和不同类型噪音音频融合成双轨音频,设置成不同的信噪比,记录被试的脑电信号,探究不同类型噪音和不同信噪比环境对说话人识别性能的影响。研究发现,在流水声噪音和人声噪音下,随着信噪比的降低,说话人识别准确率均下降,且人声噪音的影响力更大;使用注意力机制改进孪生神经网络后,噪音环境下的说话人识别准确率得到显著提高,Delta频段下的识别准确率提高了7%~12%,High Gamma频段下的识别准确率提高了5%~11%。
展开更多
关键词
说话人识别
脑电信号
注意力机制
孪生神经网络
下载PDF
职称材料
PCA-VQ融合降维的SMO-SVM说话人识别研究
14
作者
席青云
孙同日
+2 位作者
陶佰睿
杨文博
苗凤娟
《传感技术学报》
CAS
CSCD
北大核心
2023年第2期275-279,共5页
针对说话人语音原始梅尔频率倒谱系数(MFCC)特征参数维数较高造成的模型计算效率低以及不稳定的问题,基于序列最小优化(SMO)高效算法求解支持向量机(SVM)基本型的对偶问题,开展主成分分析-矢量量化(PCA-VQ)融合降维的SMO-SVM说话人识别...
针对说话人语音原始梅尔频率倒谱系数(MFCC)特征参数维数较高造成的模型计算效率低以及不稳定的问题,基于序列最小优化(SMO)高效算法求解支持向量机(SVM)基本型的对偶问题,开展主成分分析-矢量量化(PCA-VQ)融合降维的SMO-SVM说话人识别算法研究。改进后的算法在MATLAB平台上仿真通过。仿真结果表明:通过PCA-VQ融合算法对MFCC特征参数进行优化降维后,SMO-SVM说话人识别模型的正确率提高3.77%,训练时间节省1.24 s,具有较好推广应用价值。
展开更多
关键词
说话人识别
主成分分析
矢量量化
序列最小优化
支持向量机
下载PDF
职称材料
两级特征联合学习的情感说话人识别
15
作者
刘金琳
李冬冬
+1 位作者
王喆
蔡立志
《计算机工程与应用》
CSCD
北大核心
2023年第1期149-155,共7页
针对说话人识别的性能易受到情感因素影响的问题,提出利用片段级别特征和帧级别特征联合学习的方法。利用长短时记忆网络进行说话人识别任务,提取时序输出作为片段级别的情感说话人特征,保留了语音帧特征原本信息的同时加强了情感信息...
针对说话人识别的性能易受到情感因素影响的问题,提出利用片段级别特征和帧级别特征联合学习的方法。利用长短时记忆网络进行说话人识别任务,提取时序输出作为片段级别的情感说话人特征,保留了语音帧特征原本信息的同时加强了情感信息的表达,再利用全连接网络进一步学习片段级别特征中每一个特征帧的说话人信息来增强帧级别特征的说话人信息表示能力,最后拼接片段级别特征和帧级别特征得到最终的说话人特征以增强特征的表征能力。在普通话情感语音语料库(MASC)上进行实验,验证所提出方法有效性的同时,探究了片段级别特征中包含语音帧数量和不同情感状态对情感说话人识别的影响。
展开更多
关键词
情感
说话人识别
长短时记忆网络
深度神经网络
下载PDF
职称材料
基于高效注意力机制的说话人识别
被引量:
1
16
作者
闫道申
邵冬梅
+2 位作者
许铭洋
楚宪腾
王华朋
《警察技术》
2023年第4期47-51,共5页
注意力机制已被证明能够提升识别任务中的识别准确率。但是,大多数现有注意力机制致力于开发更复杂的模型以实现更好的性能,这不可避免地增加了模型的复杂性。针对这一问题,将高效通道注意力机制与改进的残差网络相结合,使用附加角裕度...
注意力机制已被证明能够提升识别任务中的识别准确率。但是,大多数现有注意力机制致力于开发更复杂的模型以实现更好的性能,这不可避免地增加了模型的复杂性。针对这一问题,将高效通道注意力机制与改进的残差网络相结合,使用附加角裕度损失作为损失函数,提出了一种基于高效通道注意力机制的说话人识别模型。通过消融实验比较跨通道信息交互范围,确定高效通道注意力机制的最佳卷积核。实验结果表明,该模型在中文语料库Zhaishell子集上取得了98.54%的识别准确率。相较于使用交叉熵损失函数的挤压激励残差网络模型和使用附加角裕度损失函数的挤压激励残差网络模型,模型准确率分别提高了3.73%和2.19%,模型的估计参数总量减少。因此,基于高效注意力机制的说话人识别更适用对参数总量有要求的轻量级任务。
展开更多
关键词
说话人识别
高效通道注意力机制
卷积神经网络
残差网络
下载PDF
职称材料
基于尺度相关-双向长短期记忆网络模型的说话人识别
17
作者
曹书鑫
冯藤藤
+1 位作者
葛凤培
梁春燕
《计算机工程》
CAS
CSCD
北大核心
2023年第4期289-296,共8页
说话人识别通过语音对说话人进行身份认证,然而大部分语音在时域与频域具有分布多样性,目前说话人识别中的卷积神经网络深度学习模型普遍使用单一的卷积核进行特征提取,无法提取尺度相关特征及时频域特征。针对这一问题,提出一种尺度相...
说话人识别通过语音对说话人进行身份认证,然而大部分语音在时域与频域具有分布多样性,目前说话人识别中的卷积神经网络深度学习模型普遍使用单一的卷积核进行特征提取,无法提取尺度相关特征及时频域特征。针对这一问题,提出一种尺度相关卷积神经网络-双向长短期记忆(SCCNN-BiLSTM)网络模型用于说话人识别。通过尺度相关卷积神经网络在每一层特征抽象过程中调整感受野大小,捕获由尺度相关块组成的尺度特征信息,同时引入双向长短期记忆网络保留与学习语音数据的多尺度特征信息,并在最大程度上提取时频域特征的上下文信息。实验结果表明,SCCNN-BiLSTM网络模型在LibriSpeech和AISHELL-1数据集上迭代50000次时的等错率为7.21%和6.55%,相比于ResCNN基线网络模型提升了25.3%和41.0%。
展开更多
关键词
说话人识别
深度学习
尺度相关卷积
感受野
长短期记忆网络
下载PDF
职称材料
基于模型聚类的说话人识别研究
18
作者
陈秉沃
张二华
唐振民
《计算机与数字工程》
2023年第8期1745-1749,1831,共6页
随着说话人识别技术的广泛应用,说话人规模不断增长,若采用传统的说话人辨别方式逐一比较,则计算量较大,难以实时响应,使说话人识别系统的性能与实用性大大降低。传统的K-L散度距离由于非对称性,并不是一种很好的聚类距离度量,聚类效果...
随着说话人识别技术的广泛应用,说话人规模不断增长,若采用传统的说话人辨别方式逐一比较,则计算量较大,难以实时响应,使说话人识别系统的性能与实用性大大降低。传统的K-L散度距离由于非对称性,并不是一种很好的聚类距离度量,聚类效果不佳。论文提出了一种基于Wasserstein distance聚类方法,相比于传统说话人识别方法,该方法的识别准确率提升了近4.7%,并且识别耗时仅为传统识别方法的25.5%,大大提升了说话人识别系统的性能与实用性。
展开更多
关键词
模型聚类
推土机距离
Wasserstein
distance
说话人识别
高斯混合模型
下载PDF
职称材料
双模态融合特征下的说话人识别
19
作者
谢娅利
庞炜千
+3 位作者
白静
薛珮芸
赵建星
师晨康
《计算机工程与设计》
北大核心
2023年第8期2454-2458,共5页
为提高说话人识别的准确率,提出一种双模态融合特征的算法。提取韵律特征和伽玛通滤波倒谱系数两种声学特征,计算其统计特性;提取舌、唇和下颌分别相对于鼻梁的发音动作参数,获得参考点发音动作特征;将声学特征和参考点发音动作特征进...
为提高说话人识别的准确率,提出一种双模态融合特征的算法。提取韵律特征和伽玛通滤波倒谱系数两种声学特征,计算其统计特性;提取舌、唇和下颌分别相对于鼻梁的发音动作参数,获得参考点发音动作特征;将声学特征和参考点发音动作特征进行融合,对其进行嵌入式特征选择,获得双模态融合特征;通过支持向量机、高斯混合模型-支持向量机进行分类。实验结果表明,参考点发音动作特征识别效果优于传统发音动作特征识别效果,双模态融合特征识别率明显高于单模态特征的识别率,验证了所提方法的有效性。
展开更多
关键词
韵律特征
伽玛通滤波倒谱系数
发音动作特征
特征融合
特征选择
高斯混合模型-支持向量机
说话人识别
下载PDF
职称材料
基于改进时延神经网络的说话人识别方法
20
作者
胡贵超
《计算机与数字工程》
2023年第12期2827-2830,共4页
提出了一种改进的时延神经网络(Time Delay Neural Network,TDNN)的说话人识别方法以提高说话人识别准确率。首先通过TDNN网络训练音频的特征获取部分说话人的特征表达,然后由加入的量化和计数算子(Quantization and Counting Operators...
提出了一种改进的时延神经网络(Time Delay Neural Network,TDNN)的说话人识别方法以提高说话人识别准确率。首先通过TDNN网络训练音频的特征获取部分说话人的特征表达,然后由加入的量化和计数算子(Quantization and Counting Operators,QCO)同时处理,QCO能够充分利用音频的低层纹理特征,得到特征的细节信息。实验结果表明,改进的时延神经网络在相对较少的数据量中即可由网络训练获取更多信息的特征表达,在小数量训练集网络中体现出明显优势。当数据量进一步增多时效果更为明显,训练加入了纹理统计方法的结构提取的细节特征使说话人识别表现更好。
展开更多
关键词
说话人识别
时延神经网络
量化和计数算子
qco-vector
下载PDF
职称材料
题名
基于概率球面判别分析的说话人识别信道补偿算法
1
作者
景维鹏
肖庆欣
罗辉
机构
东北林业大学信息与计算机工程学院
出处
《计算机应用》
CSCD
北大核心
2024年第2期556-562,共7页
基金
国家自然科学基金资助项目(62101114)。
文摘
在说话人识别任务中,概率线性判别分析(PLDA)模型是目前常用的分类后端,但由于高斯PLDA模型分布假设不能准确拟合真实说话人特征分布,导致基于高斯分布假设长度归一化的信道补偿方法会破坏说话人特征类内分布的独立性,使得高斯PLDA不能充分利用上游任务提取特征所包含的说话人信息,从而影响识别结果。针对这一问题,提出基于概率球面判别分析的信道补偿算法(CC-PSDA),通过引入冯·米塞斯-费希尔(VMF)分布假设的概率球面判别分析模型(PSDA)和特征变换方法代替高斯分布假设的概率线性判别分析方法,以避免信道补偿对说话人特征类内分布独立性的影响。首先,为了使说话人特征符合VMF分布先验假设拟合后端分类模型,在特征级利用非线性转换对说话人特征进行分布变换。之后,利用基于VMF分布假设的PLDA模型不会破坏说话人特征的类内分布结构的特点,将变换后的说话人特征定义到特定维度的超球面,最大化特征类间距离。所提算法通过期望最大化(EM)算法进行求解,最终完成分类任务。实验结果表明,改进算法在三个测试集上的识别等错误率相较于对比模型PSDA、高斯PLDA均最低。由此可见,所提模型可以有效区分说话人特征,提高识别性能。
关键词
说话人识别
i-vector
概率球面判别分析
信道补偿
冯·米塞斯-费希尔分布
长度归一化
Keywords
speaker recognition
i-vector
Probabilistic Spherical Discriminant Analysis(PSDA)
channel compensation
Von Mises-Fisher(VMF)distribution
length normalization
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于迁移学习和基频特征融合的文本相关说话人识别框架
2
作者
马皓天
洪峰
毛海全
徐楚林
胡梦璐
牟宏宇
陈友元
许伟杰
机构
中国科学院声学研究所东海研究站
中国科学院大学
出处
《声学技术》
CSCD
北大核心
2024年第5期677-685,共9页
基金
中国科学院声学研究所自主部署"前沿探索"项目(QYTS202114)
中国科学院青年创新促进会(2021022)项目
上海市自然科学基金项目(22ZR1475700)。
文摘
目前,面向我国金融支付的说话人识别技术在社会层面上没有大范围的推广,其原因在于数据集的缺乏以及识别技术未能满足安全性要求。针对上述问题,文章录制了用于中文数字串文本相关说话人识别的SHALCAS-WXSD22B数据集,用于金融支付场景中的数字串声纹识别研究,并提出一种基于迁移学习和基频特征融合的文本相关说话人识别框架,提高了文本相关说话人识别技术的可靠性。在数字串SHALCAS-WXSD22B-d006和SHALCAS-WXSD22B-d007语料实验中,所提框架实现的最佳等错误率分别为0.88%和1.05%,与ECAPA-TDNN基线模型相比等错误率相对降低了17和20个百分点,且达到了支付场景下的声纹识别安全性指标。实验结果表明,文中所提框架不仅具有更好的识别准确率和安全性能,而且同样能提高框架中包括ResNet34在内的其他log-Mel识别模型的性能。
关键词
文本相关
说话人识别
迁移学习
基频特征
嵌入级融合
决策级融合
Keywords
text-independent speaker verification
transfer learning
embedding-level fusion
decision-level fusion
分类号
H107 [语言文字—汉语]
下载PDF
职称材料
题名
基于深度声纹特征转换网络的说话人识别攻击方法
3
作者
陶子钰
苏兆品
廉晨思
王年松
张国富
机构
合肥工业大学计算机与信息学院
安徽省公安厅物证鉴定管理处
合肥工业大学智能互联系统安徽省实验室
音视频智能防识联合实验室
出处
《应用科学学报》
CAS
CSCD
北大核心
2024年第5期782-794,共13页
基金
安徽省重点研究与开发计划(No.202104d07020001)
安徽省自然科学基金(No.2208085MF166)资助。
文摘
目前主流说话人识别(speaker identification,SID)系统的攻击方法主要基于快速梯度下降或映射式梯度下降算法,这些方法存在攻击效果不稳定、生成的攻击语音听觉质量不高等问题。为此提出一种基于深度声纹特征转换网络的自动说话人识别攻击方法,生成具有目标说话人音色的攻击语音。首先分析了SID系统的攻击流程,确定了攻击语音生成的过程;然后基于二维卷积神经网络设计攻击音频生成器,以有效融合源说话人的语音内容和目标说话人的声纹特征,并基于对抗学习设计了攻击音频的判别器,以提高语音攻击音频的质量。最后分别在基于广义端到端损失和基于AMSoftmax损失的两个自动说话人识别系统上进行对比实验。实验结果表明,所提方法不但提高了攻击效果的稳定性,提升了攻击音频的人耳感受质量,而且适用于短时长数据,满足了实际攻击场景的需求。
关键词
说话人识别
攻击语音
声纹特征转换
卷积神经网络
Keywords
speaker identification
attack speeches
voiceprint feature conversion
convolutional neural network
分类号
TP389.1 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于密集连接时延神经网络的说话人识别算法
4
作者
和椿皓
常铁原
潘立冬
王珺
机构
河北大学电子信息工程学院
出处
《应用声学》
CSCD
北大核心
2024年第2期378-384,共7页
基金
河北省自然科学基金项目(F2022201013)。
文摘
说话人识别技术是一项重要的生物特征识别技术。近年来,使用时延神经网络提取发声特征的说话人识别算法取得了突出成果。为进一步增强时延神经网络对说话人特征的提取能力,在不过多消耗计算资源的前提下提升识别准确率,通过对现有的说话人识别算法进行研究,提出一种带有注意力机制的密集连接时延神经网络用于说话人识别。密集连接的网络结构在增强不同网络层之间的信息复用的同时能有效控制模型体积。通道注意力机制和帧注意力机制帮助网络聚焦于更关键的细节特征,使得通过统计池化提取出的说话人特征更具有代表性。实验结果表明,在VoxCeleb1测试数据集上取得了1.40%的等错误率和0.15的最小检测代价标准,证明了在说话人识别任务上的有效性。
关键词
说话人识别
深度学习
神经网络
密集连接
注意力机制
Keywords
Speaker recognition
Deep learning
Neural network
Dense connectivity
Attention mechanism
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
用于说话人识别的密集多分支时延神经网络
5
作者
和椿皓
常铁原
潘立冬
机构
河北大学电子信息工程学院
出处
《应用声学》
CSCD
北大核心
2024年第5期949-955,共7页
文摘
时延神经网络是较早应用于说话人识别领域的一类神经网络。为实现更好的识别性能,近年来一些改进工作围绕加深或拓宽其网络结构进行。在对密集连接卷积网络以及多分支网络结构进行研究的基础上,提出一种密集多分支时延神经网络,用以进一步提升小体积模型对说话人特征的提取能力。在使用密集连接实现特征重用的基础上,并行多分支结构能同时对同一输入在不同分辨率下进行特征提取。在VoxCeleb1测试集、VoxCeleb1-H、VoxCeleb1-E上进行测试表明,该网络能在模型参数量较小的前提下实现准确的说话人识别,以便应用在一些存储空间受限的本地说话人识别场景中。
关键词
说话人识别
时延神经网络
多分支神经网络
密集连接
深度学习
Keywords
Speaker recognition
Time delay neural networks
Multi-branch neural networks
Dense connectivity
Deep learning
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于改进ECAPA-TDNN的法庭自动说话人识别
6
作者
万玫汐
王华朋
闫道申
刘鹏展
许铭洋
机构
中国刑事警察学院公安信息技术与情报学院
出处
《科学技术与工程》
北大核心
2024年第27期11763-11773,共11页
基金
国家重点研发计划(2017YFC0821000)
司法部司法鉴定重点实验室(司法鉴定科学研究院)项目(KF202117)。
文摘
为提高法庭说话人识别的可靠性和准确性,促进法庭语音检验方法和过程的科学评价范式转化,提出了一种基于改进通道注意力机制融合时延神经网络(emphasized channel attention propagation aggregation time delay neural network,ECAPA-TDNN)模型的法庭自动说话人识别方法。该方法为提高模型的准确率和泛化能力,融合空间注意力机制、通道注意力机制和多头注意力机制。首先,选择训练效果最佳的频谱图与伽马频率倒谱系数(gammatone frequency cepstral coefficients,GFCC)融合特征输入网络模型,把训练完成的神经网络作为深度特征提取器,然后,在法庭证据似然比量化评估体系中评估语音证据的强度。实验结果表明:在VoxCeleb1数据集上,Cllr值为0.156,优于之前发表文献中的法庭自动说话人识别系统结果;在中文zhaishell数据集上,误判率和漏判率均为零,并且支持同源假设的似然比最小值为1.72×10^(6),支持非同源假设的似然比最大值为5.83×10^(-21)。该方法进一步提高了识别系统的可靠性和准确性,可以为法庭语音证据评估结论提供强有力的支撑。
关键词
说话人识别
似然比
ECAPA-TDNN
注意力机制
特征融合
Keywords
speaker recognition
likelihood ratio
ECAPA-TDNN
attention mechanism
feature fusion
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于自适应GMM阶数与混合特征的说话人识别研究
7
作者
范涛
詹旭
机构
四川轻化工大学自动化与信息工程学院
出处
《四川轻化工大学学报(自然科学版)》
CAS
2024年第4期75-83,共9页
基金
四川省科技厅重点研发项目(2022YFS0554)。
文摘
针对高斯混合模型(GMM)阶数选取缺陷和说话人特征信息不足的问题,提出了基于自适应GMM阶数和多种语音特征融合的说话人识别算法。首先,通过提取梅尔频率倒谱系数(MFCC)和线性预测梅尔频率倒谱系数(LPMFCC),并根据Fisher准则得到一个17维的MFCC和LPMFCC参数组合的混合特征参数,以增强说话人的特征信息。然后,根据自适应思想,在K-means聚类算法中计算簇内误差平方和(SSE)。最后,通过肘部法则自适应调整K值,以获得一个最优GMM阶数,使得系统在已有的声纹特征下获得最优的识别效果。结果表明,该算法不仅完善了说话人的特征信息,并且克服了对GMM阶数选取的缺陷。最终结合LPCC和MFCC两种特征算法,融合得到的混合特征LPMFCC+MFCC的识别率相比于LPCC和MFCC提升了26.34%和12.34%。
关键词
说话人识别
高斯混合模型
梅尔频率倒谱系数
线性预测梅尔系数
FISHER准则
自适应
Keywords
speaker recognition
Gaussian mixture model
Meier frequency cepstral coefficients
linear prediction of Meier parameters
Fisher criterion
self-adaption
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
开放场景下短时语音说话人识别系统的优化设计
8
作者
郭新
邓爱文
罗程方
邓飞其
机构
广东交通职业技术学院机电工程学院
华南理工大学自动化科学与工程学院
出处
《南京信息工程大学学报(自然科学版)》
CAS
北大核心
2023年第5期585-591,共7页
基金
广东省普通高校特色创新类项目(2022KTSCX258,2021KTSCX224)
广州市基础研究计划(202002030476)
广东交通职业技术学院项目(GDCP-ZX-2021-004-N1)。
文摘
为适应开放场景下说话人识别短时语音的应用需要,本文对说话人识别模型进行优化,提升了模型的准确率和鲁棒性.为了实现对重要频率特征的筛选,提出基于重加权的特征增强层及网络,起到增强特征表达的作用.将人脸识别领域的误分类样本损失函数首次引入到说话人识别领域,提高对困难样本的挖掘能力.提出基于误分类样本挖掘的分类损失与基于小样本学习框架的余弦角度原型损失的组合损失函数,解决了分类损失函数与说话人识别实际评测需求不匹配和度量函数对采样策略依赖性强的问题.实验结果显示,与基准模型相比,性能指标等误率(EER)降低12.45%,最小检测代价函数(minDCF)降低14.09%,取得现有说话人识别领域的优异效果。
关键词
说话人识别
重加权
特征增强层
分类损失函数
度量损失函数
Keywords
speaker recognition
reweighted
feature enhancement layer
classification loss function
metric loss function
分类号
TN912.3 [电子电信—通信与信息系统]
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
新范式下的法庭自动说话人识别实证研究
被引量:
1
9
作者
张翠玲
丁盼
机构
西南政法大学刑事侦查学院
重庆高校刑事科学技术重点实验室
出处
《中国人民公安大学学报(自然科学版)》
2023年第3期87-94,共8页
基金
2022年重庆市自然科学基金创新发展联合基金重点项目(CSTB2022NSCQ-LZX0007)
教育部科技部司法鉴定技术与应用社会治理学科创新引智基地2021年度青年项目(FSSGL2021D-03)。
文摘
通过对一起典型刑事案例的实证检验研究,示范性表明法庭语音证据评价新范式和法庭自动说话人识别技术在司法实践中应用的先进性、有效性和可行性。首先,明确控辩假设,并基于案件语音数据特点选择相关背景人群语音数据库。其次,在似然比框架内,利用相关背景人群的语音数据对基于深度神经网络的法庭自动说话人识别系统进行性能验证。最后,计算检材语音与样本语音比较的似然比值,评估二者的同源性,解释证据价值。基于典型案件现实条件开展法庭说话人识别的实证研究,对于法庭语音证据评价新范式和法庭自动说话人识别技术的推广应用具有重要意义。
关键词
新范式
法庭自动
说话人识别
似然比
验证
实证
Keywords
new paradigm
forensic automatic speaker recognition
likelihood ratio
validation
empirical study
分类号
D918.9 [政治法律—法学]
下载PDF
职称材料
题名
基于改进语谱图的深度学习说话人识别
被引量:
1
10
作者
马志举
杜庆治
龙华
邵玉斌
机构
昆明理工大学信息工程与自动化学院
出处
《现代电子技术》
2023年第21期32-38,共7页
文摘
为了提高说话人识别系统的性能,提出基于改进语谱图的深度学习说话人识别算法。语谱图当中包含了语音的内容、情绪、语种以及说话人身份等多种信息,在以往的说话人识别算法中,往往没有考虑到说话人身份特性,采用直接提取语音中的语谱图作为网络输入,而说话人识别系统中需要提取语谱图中表征身份的信息,因此需要在原始语谱图的基础上进行改进。在语谱图中,基音频率以及共振峰等信息最能表现说话人的身份特征,从而提出根据语音信号中每一帧的基音频率进行自适应梳状滤波,得到改进后的语谱图,再通过卷积神经网络提取说话人特征,从而达到提升识别准确率的效果。网络模型采用MobileNetv2神经网络,该网络模型具有模型参数少、收敛速度快、识别速度快等优点,有利于实际应用。在对照实验结果中,该方法相对于原始语谱图的准确率分别提高了2.3%、5.2%、3%。
关键词
语谱图
基音频率
梳状滤波器
深度学习
说话人识别
深度可分离卷积
Keywords
spectrogram
pitch frequency
comb filter
deep learning
speaker recognition
depth⁃separable convolution
分类号
TN912.34-34 [电子电信—通信与信息系统]
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
改进Res2Net的多尺度端到端说话人识别系统
被引量:
2
11
作者
邓力洪
邓飞
张葛祥
杨强
机构
成都理工大学计算机与网络安全学院(牛津布鲁克斯学院)
成都理工大学人工智能研究中心
成都信息工程大学控制工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2023年第24期110-120,共11页
基金
国家自然科学基金(61972324)
四川省科技计划(2021YFS0313,2021YFG0133)。
文摘
说话人识别系统中轻量卷积神经网络的特征提取能力弱、识别效果差。而为了提升特征提取能力,许多方法使用了更深、更宽、更复杂的网络结构,使得参数量和推理时间成倍增加。将目标检测任务中的轻量网络Res2Net引入到说话人识别任务中,验证了它在说话人识别任务中的有效性和鲁棒性。并改进提出了FullRes2Net,它拥有更多、更大的感受野组合。在几乎没有增加参数量的情况下,相比于Res2Net,性能提升了17%。同时,为了解决现有注意力方法存在的问题改善卷积本身的缺点,进一步提升卷积神经网络的特征提取能力,提出了混合时频通道注意力。它可以对音频特征的时间、频率、通道维度进行交互,捕捉特征间的依赖,从而有效增强卷积神经网络的特征提取能力。在Voxceleb数据集上进行了实验,结果表明提出的方法有效地提升了系统的特征提取能力和泛化能力,相较于Res2Net性能提升了34%,并优于使用复杂结构的先进说话人识别系统,是一种参数量更少、效率更高的端到端结构,适合在现实场景中的应用。
关键词
说话人识别
端到端
注意力机制
Keywords
speaker recognition
end-to-end
attention mechanisms
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于SincNet的短语音说话人识别算法
被引量:
1
12
作者
黄明浩
周欣
何小海
王正勇
熊淑华
机构
四川大学电子信息学院
出处
《现代计算机》
2023年第4期25-31,共7页
基金
成都市重大科技应用示范项目(2019⁃YF09⁃00120⁃SN):基于信息技术的老年痴呆全方位健康管理研究及应用示范。
文摘
针对传统卷积神经网络(CNN)在测试语音短的情况下说话人识别准确率不高、特征提取方面表现不佳的问题,提出了SincNet与加入了注意力机制的ResNet网络相结合的说话人识别方法。首先,针对短语音条件下说话人信息不足的问题,用不同窗口大小的Sinc卷积层提取多分辨率的特征,并结合通道注意力机制增强特征信息;其次,将多通道的特征输入到ResNet网络得到更高层的特征信息,然后通过空洞空间金字塔池化(ASPP)进行多尺度特征融合;最后通过Softmax层获得分类概率。在TIMIT语料库上进行了实验,在不同长度的测试语音条件下所提算法准确率均高于传统CNN等对比方法。基于以上实验结果,充分表明了本文算法在短语音说话人识别任务上的有效性。
关键词
说话人识别
短语音
SincNet
注意力机制
多特征
Keywords
speaker recognition
short utterance
SincNet
attention mechanism
multi‑feature
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
噪音环境下声音诱发脑电信号的说话人识别
被引量:
2
13
作者
胡朗
周俊佐
颜伟鹏
莫佳洋
张建海
机构
杭州电子科技大学计算机学院
出处
《杭州电子科技大学学报(自然科学版)》
2023年第1期62-68,共7页
基金
浙江省重点研发计划国际合作项目(2020C04009)
浙江省属高校业务基本经费资助项目(GK219909299001-026)。
文摘
环境噪音与说话人识别息息相关,文章主要研究环境噪音对说话人识别的影响。首先,在孪生神经网络的卷积层中添加注意力层,对说话人相关的特征赋予更大的权重,从而减小环境噪音带来的影响;其次,将说话人音频和不同类型噪音音频融合成双轨音频,设置成不同的信噪比,记录被试的脑电信号,探究不同类型噪音和不同信噪比环境对说话人识别性能的影响。研究发现,在流水声噪音和人声噪音下,随着信噪比的降低,说话人识别准确率均下降,且人声噪音的影响力更大;使用注意力机制改进孪生神经网络后,噪音环境下的说话人识别准确率得到显著提高,Delta频段下的识别准确率提高了7%~12%,High Gamma频段下的识别准确率提高了5%~11%。
关键词
说话人识别
脑电信号
注意力机制
孪生神经网络
Keywords
speaker recognition
EEG
attention mechanism
siamese neural network
分类号
TN911.7 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
PCA-VQ融合降维的SMO-SVM说话人识别研究
14
作者
席青云
孙同日
陶佰睿
杨文博
苗凤娟
机构
内蒙古广播电视大学兴安盟分校
黑河学院计算机与信息工程学院
齐齐哈尔大学通信与电子工程学院
出处
《传感技术学报》
CAS
CSCD
北大核心
2023年第2期275-279,共5页
基金
教育部“科教融创”职业教育改革创新课题(HBKC217107)
黑龙江省教育厅基本科研业务专项(145209804)。
文摘
针对说话人语音原始梅尔频率倒谱系数(MFCC)特征参数维数较高造成的模型计算效率低以及不稳定的问题,基于序列最小优化(SMO)高效算法求解支持向量机(SVM)基本型的对偶问题,开展主成分分析-矢量量化(PCA-VQ)融合降维的SMO-SVM说话人识别算法研究。改进后的算法在MATLAB平台上仿真通过。仿真结果表明:通过PCA-VQ融合算法对MFCC特征参数进行优化降维后,SMO-SVM说话人识别模型的正确率提高3.77%,训练时间节省1.24 s,具有较好推广应用价值。
关键词
说话人识别
主成分分析
矢量量化
序列最小优化
支持向量机
Keywords
speaker recognition
PCA
VQ
SMO
SVM
分类号
TN912.3 [电子电信—通信与信息系统]
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
两级特征联合学习的情感说话人识别
15
作者
刘金琳
李冬冬
王喆
蔡立志
机构
华东理工大学信息科学与工程学院
苏州大学江苏省计算机信息处理技术重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2023年第1期149-155,共7页
基金
国家自然科学基金(61806078)
国家重大新药开发科技专项(2019ZX09210004)
上海市教育发展基金会和上海市教育委员会“曙光计划”(61725301)。
文摘
针对说话人识别的性能易受到情感因素影响的问题,提出利用片段级别特征和帧级别特征联合学习的方法。利用长短时记忆网络进行说话人识别任务,提取时序输出作为片段级别的情感说话人特征,保留了语音帧特征原本信息的同时加强了情感信息的表达,再利用全连接网络进一步学习片段级别特征中每一个特征帧的说话人信息来增强帧级别特征的说话人信息表示能力,最后拼接片段级别特征和帧级别特征得到最终的说话人特征以增强特征的表征能力。在普通话情感语音语料库(MASC)上进行实验,验证所提出方法有效性的同时,探究了片段级别特征中包含语音帧数量和不同情感状态对情感说话人识别的影响。
关键词
情感
说话人识别
长短时记忆网络
深度神经网络
Keywords
emotional speaker recognition
long short-term memory
deep neutral network
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TP37 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于高效注意力机制的说话人识别
被引量:
1
16
作者
闫道申
邵冬梅
许铭洋
楚宪腾
王华朋
机构
中国刑事警察学院
出处
《警察技术》
2023年第4期47-51,共5页
基金
2017国家重点研发计划项目(编号:2017YFC0821000)
司法部司法鉴定重点实验室(司法鉴定科学研究院,编号:KF202117)
中国刑事警察学院研究生创新能力提升项目(编号:2022YCYB49)。
文摘
注意力机制已被证明能够提升识别任务中的识别准确率。但是,大多数现有注意力机制致力于开发更复杂的模型以实现更好的性能,这不可避免地增加了模型的复杂性。针对这一问题,将高效通道注意力机制与改进的残差网络相结合,使用附加角裕度损失作为损失函数,提出了一种基于高效通道注意力机制的说话人识别模型。通过消融实验比较跨通道信息交互范围,确定高效通道注意力机制的最佳卷积核。实验结果表明,该模型在中文语料库Zhaishell子集上取得了98.54%的识别准确率。相较于使用交叉熵损失函数的挤压激励残差网络模型和使用附加角裕度损失函数的挤压激励残差网络模型,模型准确率分别提高了3.73%和2.19%,模型的估计参数总量减少。因此,基于高效注意力机制的说话人识别更适用对参数总量有要求的轻量级任务。
关键词
说话人识别
高效通道注意力机制
卷积神经网络
残差网络
分类号
G63 [文化科学—教育学]
下载PDF
职称材料
题名
基于尺度相关-双向长短期记忆网络模型的说话人识别
17
作者
曹书鑫
冯藤藤
葛凤培
梁春燕
机构
山东理工大学计算机科学与技术学院
北京邮电大学图书馆
出处
《计算机工程》
CAS
CSCD
北大核心
2023年第4期289-296,共8页
基金
国家自然科学基金(11704229)。
文摘
说话人识别通过语音对说话人进行身份认证,然而大部分语音在时域与频域具有分布多样性,目前说话人识别中的卷积神经网络深度学习模型普遍使用单一的卷积核进行特征提取,无法提取尺度相关特征及时频域特征。针对这一问题,提出一种尺度相关卷积神经网络-双向长短期记忆(SCCNN-BiLSTM)网络模型用于说话人识别。通过尺度相关卷积神经网络在每一层特征抽象过程中调整感受野大小,捕获由尺度相关块组成的尺度特征信息,同时引入双向长短期记忆网络保留与学习语音数据的多尺度特征信息,并在最大程度上提取时频域特征的上下文信息。实验结果表明,SCCNN-BiLSTM网络模型在LibriSpeech和AISHELL-1数据集上迭代50000次时的等错率为7.21%和6.55%,相比于ResCNN基线网络模型提升了25.3%和41.0%。
关键词
说话人识别
深度学习
尺度相关卷积
感受野
长短期记忆网络
Keywords
speaker recognition
deep learning
scale correlation convolution
receptive field
Long Short-Term Memory(LSTM)network
分类号
TP391.42 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于模型聚类的说话人识别研究
18
作者
陈秉沃
张二华
唐振民
机构
南京理工大学计算机科学与工程学院
出处
《计算机与数字工程》
2023年第8期1745-1749,1831,共6页
文摘
随着说话人识别技术的广泛应用,说话人规模不断增长,若采用传统的说话人辨别方式逐一比较,则计算量较大,难以实时响应,使说话人识别系统的性能与实用性大大降低。传统的K-L散度距离由于非对称性,并不是一种很好的聚类距离度量,聚类效果不佳。论文提出了一种基于Wasserstein distance聚类方法,相比于传统说话人识别方法,该方法的识别准确率提升了近4.7%,并且识别耗时仅为传统识别方法的25.5%,大大提升了说话人识别系统的性能与实用性。
关键词
模型聚类
推土机距离
Wasserstein
distance
说话人识别
高斯混合模型
Keywords
model clustering
bulldozer distance
Wasserstein distance
speaker recognition
Gaussian mixture model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
双模态融合特征下的说话人识别
19
作者
谢娅利
庞炜千
白静
薛珮芸
赵建星
师晨康
机构
太原理工大学信息与计算机学院
出处
《计算机工程与设计》
北大核心
2023年第8期2454-2458,共5页
基金
山西省应用基础研究计划基金项目(201901D111094)
山西省留学回国人员科技活动择优基金项目(20200017)
山西省应用基础研究计划基金项目(青年基金20210302124544)。
文摘
为提高说话人识别的准确率,提出一种双模态融合特征的算法。提取韵律特征和伽玛通滤波倒谱系数两种声学特征,计算其统计特性;提取舌、唇和下颌分别相对于鼻梁的发音动作参数,获得参考点发音动作特征;将声学特征和参考点发音动作特征进行融合,对其进行嵌入式特征选择,获得双模态融合特征;通过支持向量机、高斯混合模型-支持向量机进行分类。实验结果表明,参考点发音动作特征识别效果优于传统发音动作特征识别效果,双模态融合特征识别率明显高于单模态特征的识别率,验证了所提方法的有效性。
关键词
韵律特征
伽玛通滤波倒谱系数
发音动作特征
特征融合
特征选择
高斯混合模型-支持向量机
说话人识别
Keywords
prosodic features
Gammatone filter cepstral coefficient
articulatory movement features
feature fusion
feature selection
Gaussian mixture model-support vector machine
speaker recognition
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于改进时延神经网络的说话人识别方法
20
作者
胡贵超
机构
南京理工大学计算机科学与工程学院
出处
《计算机与数字工程》
2023年第12期2827-2830,共4页
文摘
提出了一种改进的时延神经网络(Time Delay Neural Network,TDNN)的说话人识别方法以提高说话人识别准确率。首先通过TDNN网络训练音频的特征获取部分说话人的特征表达,然后由加入的量化和计数算子(Quantization and Counting Operators,QCO)同时处理,QCO能够充分利用音频的低层纹理特征,得到特征的细节信息。实验结果表明,改进的时延神经网络在相对较少的数据量中即可由网络训练获取更多信息的特征表达,在小数量训练集网络中体现出明显优势。当数据量进一步增多时效果更为明显,训练加入了纹理统计方法的结构提取的细节特征使说话人识别表现更好。
关键词
说话人识别
时延神经网络
量化和计数算子
qco-vector
Keywords
speaker recognition
delay neural networks
quantization and counting operators
qco-vector
分类号
O235 [理学—运筹学与控制论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于概率球面判别分析的说话人识别信道补偿算法
景维鹏
肖庆欣
罗辉
《计算机应用》
CSCD
北大核心
2024
0
下载PDF
职称材料
2
基于迁移学习和基频特征融合的文本相关说话人识别框架
马皓天
洪峰
毛海全
徐楚林
胡梦璐
牟宏宇
陈友元
许伟杰
《声学技术》
CSCD
北大核心
2024
0
下载PDF
职称材料
3
基于深度声纹特征转换网络的说话人识别攻击方法
陶子钰
苏兆品
廉晨思
王年松
张国富
《应用科学学报》
CAS
CSCD
北大核心
2024
0
下载PDF
职称材料
4
基于密集连接时延神经网络的说话人识别算法
和椿皓
常铁原
潘立冬
王珺
《应用声学》
CSCD
北大核心
2024
0
下载PDF
职称材料
5
用于说话人识别的密集多分支时延神经网络
和椿皓
常铁原
潘立冬
《应用声学》
CSCD
北大核心
2024
0
下载PDF
职称材料
6
基于改进ECAPA-TDNN的法庭自动说话人识别
万玫汐
王华朋
闫道申
刘鹏展
许铭洋
《科学技术与工程》
北大核心
2024
0
下载PDF
职称材料
7
基于自适应GMM阶数与混合特征的说话人识别研究
范涛
詹旭
《四川轻化工大学学报(自然科学版)》
CAS
2024
0
下载PDF
职称材料
8
开放场景下短时语音说话人识别系统的优化设计
郭新
邓爱文
罗程方
邓飞其
《南京信息工程大学学报(自然科学版)》
CAS
北大核心
2023
0
下载PDF
职称材料
9
新范式下的法庭自动说话人识别实证研究
张翠玲
丁盼
《中国人民公安大学学报(自然科学版)》
2023
1
下载PDF
职称材料
10
基于改进语谱图的深度学习说话人识别
马志举
杜庆治
龙华
邵玉斌
《现代电子技术》
2023
1
下载PDF
职称材料
11
改进Res2Net的多尺度端到端说话人识别系统
邓力洪
邓飞
张葛祥
杨强
《计算机工程与应用》
CSCD
北大核心
2023
2
下载PDF
职称材料
12
基于SincNet的短语音说话人识别算法
黄明浩
周欣
何小海
王正勇
熊淑华
《现代计算机》
2023
1
下载PDF
职称材料
13
噪音环境下声音诱发脑电信号的说话人识别
胡朗
周俊佐
颜伟鹏
莫佳洋
张建海
《杭州电子科技大学学报(自然科学版)》
2023
2
下载PDF
职称材料
14
PCA-VQ融合降维的SMO-SVM说话人识别研究
席青云
孙同日
陶佰睿
杨文博
苗凤娟
《传感技术学报》
CAS
CSCD
北大核心
2023
0
下载PDF
职称材料
15
两级特征联合学习的情感说话人识别
刘金琳
李冬冬
王喆
蔡立志
《计算机工程与应用》
CSCD
北大核心
2023
0
下载PDF
职称材料
16
基于高效注意力机制的说话人识别
闫道申
邵冬梅
许铭洋
楚宪腾
王华朋
《警察技术》
2023
1
下载PDF
职称材料
17
基于尺度相关-双向长短期记忆网络模型的说话人识别
曹书鑫
冯藤藤
葛凤培
梁春燕
《计算机工程》
CAS
CSCD
北大核心
2023
0
下载PDF
职称材料
18
基于模型聚类的说话人识别研究
陈秉沃
张二华
唐振民
《计算机与数字工程》
2023
0
下载PDF
职称材料
19
双模态融合特征下的说话人识别
谢娅利
庞炜千
白静
薛珮芸
赵建星
师晨康
《计算机工程与设计》
北大核心
2023
0
下载PDF
职称材料
20
基于改进时延神经网络的说话人识别方法
胡贵超
《计算机与数字工程》
2023
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
40
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部