期刊文献+
共找到20,783篇文章
< 1 2 250 >
每页显示 20 50 100
面向域外说话人适应场景的多层级解耦个性化语音合成
1
作者 高盛祥 杨元樟 +3 位作者 王琳钦 莫尚斌 余正涛 董凌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期11-21,共11页
个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不... 个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。 展开更多
关键词 语音合成 零资源 说话人表征 域外说话 特征解耦
下载PDF
多说话人分离与目标说话人提取的研究现状与展望
2
作者 鲍长春 杨雪 《数据采集与处理》 CSCD 北大核心 2024年第5期1044-1061,共18页
语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起... 语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起源于著名的鸡尾酒会问题,旨在从混合信号中分离出说话人的语音信号。近年来,研究人员提出了大量的语音分离方法,显著提升了分离性能。本文对这些语音分离方法进行了系统的归纳和总结。首先,根据目标说话人的辅助信息利用与否,将语音分离方法分为两大类,即多说话人分离与目标说话人提取;其次,从传统到基于深度学习的角度,分别对多说话人分离和目标说话人提取两类方法进行详细介绍;最后,讨论了当前语音分离领域面临的一些挑战,并对未来的研究方向进行展望。 展开更多
关键词 语音分离 鸡尾酒会问题 说话人分离 目标说话人提取 深度学习
下载PDF
Passy-Muir说话瓣膜对脑卒中气管切开患者吞咽生物力学的作用
3
作者 梁明 魏珍 +1 位作者 祖合热·肉孜 李金贤 《中国康复理论与实践》 CSCD 北大核心 2024年第3期326-332,共7页
目的 应用高分辨率固态测压技术(HRM)检测Passy-Muir说话瓣膜(PMV)对脑卒中气管切开患者吞咽生物力学的作用,探讨利用咽腔与食管上括约肌(UES)压力参数评估PMV治疗效果的应用价值。方法 2020年1月至2024年1月,新疆维吾尔自治区人民医院... 目的 应用高分辨率固态测压技术(HRM)检测Passy-Muir说话瓣膜(PMV)对脑卒中气管切开患者吞咽生物力学的作用,探讨利用咽腔与食管上括约肌(UES)压力参数评估PMV治疗效果的应用价值。方法 2020年1月至2024年1月,新疆维吾尔自治区人民医院100例脑卒中气管切开患者随机分为对照组(n=50)和PMV组(n=50),对照组给予常规吞咽康复,PMV组在此基础上佩戴PMV,共2周。治疗前后,采用改良曼恩吞咽能力评估量表(MMASA)进行临床吞咽功能评估;并进行HRM检查,收集腭咽收缩压力峰值、腭咽收缩时长、UES松弛残余压和UES松弛时间等数据。将PMV组治疗后的MMASA评分与HRM压力参数值进行相关性分析。结果 两组各脱落4例。治疗后,两组UES松弛残余压显著降低(t> 47.403, P <0.001),MMASA评分、腭咽收缩压力峰值、腭咽收缩时长和UES松弛时间均显著增加(t> 19.621, P <0.001);PMV组均优于对照组(t>2.050, P <0.05)。治疗后PMV组腭咽收缩压力峰值(r=0.924, P <0.001)、腭咽收缩时长(r=0.948, P <0.001)和UES松弛残余时间(r=0.954, P <0.001)与MMASA评分呈正相关,UES松弛残余压与MMASA评分呈负相关(r=-0.939, P <0.001)。结论 佩戴PMV治疗能增强脑卒中气管切开患者的吞咽功能,提高咽腔和UES区域的吞咽生物力学水平。利用咽腔和UES区域的压力参数可预测佩戴PMV治疗后患者吞咽功能的改善情况。 展开更多
关键词 脑卒中 气管切开 Passy-Muir说话瓣膜 生物力学
下载PDF
基于MLP的伪装语音说话人性别鉴定
4
作者 张晓 管林玉 《计算机科学》 CSCD 北大核心 2024年第S02期395-398,共4页
文中提出了一种基于神经网络的伪装语音说话人识别模型,用以实现从共振峰的中心频率、带宽、音强等参数识别伪装语音说话人的性别。该模型以多层感知机(Multi-Layer Perceptron,MLP)为框架,经全连接的非线性堆叠计算获取识别结果,并在... 文中提出了一种基于神经网络的伪装语音说话人识别模型,用以实现从共振峰的中心频率、带宽、音强等参数识别伪装语音说话人的性别。该模型以多层感知机(Multi-Layer Perceptron,MLP)为框架,经全连接的非线性堆叠计算获取识别结果,并在模型的训练阶段采用L-BFGS进行优化参数的求解。实验中采用SoundTouch对男性和女性的自然语音进行伪装,探讨了网络结构与激活函数对该模型的影响,以及该识别模型对不同电子伪装手段的适应能力。实验结果表明,基于MLP的识别模型能高效区分采用不同电子伪装手段伪装后的语音对应的说话人的性别。 展开更多
关键词 多层感知机 电子伪装语音 性别鉴定 共振峰 说话
下载PDF
说话人音频攻击与对抗技术研究综述
5
作者 孙知信 赵杰 +3 位作者 王恩良 刘晨磊 范连成 刘畅 《南京邮电大学学报(自然科学版)》 北大核心 2024年第4期17-29,共13页
文中概括了说话人音频攻击与对抗技术的最新进展。由于说话人音频攻击已经成为语音应用安全的严重威胁,以WaveNet、Transformer和GAN三种模型在音频攻击技术中的应用作为节点,分别介绍以其为基础的音频攻击技术。音频对抗技术则以涵盖... 文中概括了说话人音频攻击与对抗技术的最新进展。由于说话人音频攻击已经成为语音应用安全的严重威胁,以WaveNet、Transformer和GAN三种模型在音频攻击技术中的应用作为节点,分别介绍以其为基础的音频攻击技术。音频对抗技术则以涵盖的攻击技术分为3类,分别是基础音频攻击、重放攻击和深度伪造攻击。系统地阐述了音频攻击与对抗技术的最新研究成果,并分析比较了各算法在不同条件下的优劣,同时还介绍了音频技术常用的数据集。最后结合该领域目前的研究现状,提出了说话人音频攻防对抗技术研究中亟待关注与研究的问题。 展开更多
关键词 说话人音频 音频伪造 音频鉴伪 音频数据集 深度学习
下载PDF
读《这样说话最讨人喜欢》有感
6
作者 耿京娜 《少先队小干部(综合版)》 2009年第6期25-25,共1页
我以前是一个比较内向不爱说话的人,所以我表姐就给我买了一本书叫《这样说话最讨人喜欢》,这本书就像磁石一样深深地吸引了我。
关键词 小学 作文 语文教学 读后感 《这样说话最讨人喜欢》 耿京娜
原文传递
现代“小说话”与《红楼梦》文学经典的建构
7
作者 温庆新 《中州学刊》 CSSCI 北大核心 2024年第1期152-159,共8页
现代“小说话”不仅关注《红楼梦》的文化典范价值,而且将《红楼梦》当作重要的文学经典作品;不仅从小说类型归纳与小说史定位来强调《红楼梦》的文学经典性,而且基于现代文化语境发掘出《红楼梦》新的审美意义。这是现代“小说话”批... 现代“小说话”不仅关注《红楼梦》的文化典范价值,而且将《红楼梦》当作重要的文学经典作品;不仅从小说类型归纳与小说史定位来强调《红楼梦》的文学经典性,而且基于现代文化语境发掘出《红楼梦》新的审美意义。这是现代“小说话”批评者对《红楼梦》阅读“体验”后,意图与文本进行怡然自得交流的体现。作为一种批评与阅读媒介,现代“小说话”不仅对传统小说的现代接受有着重要的推进作用,而且能够揭示彼时小说批评的新原则与新意义导向的文化必然性。 展开更多
关键词 “小说话 《红楼梦》 阅读史 经典建构
下载PDF
副词化与话语标记化——文水方言动词短语“说话”的多重语法化
8
作者 吕佩 《汉语学报》 CSSCI 北大核心 2024年第3期96-106,共11页
由于所处语境不同,相关动因与机制也存在较大差异,导致山西文水方言中的动词短语“说话”发生了多重语法化:一是语法化为时间副词,在句法分布上存在诸多限制,表短时义具有强烈的主观性;二是语法化为话语标记,必须带有语气词,表达负面评... 由于所处语境不同,相关动因与机制也存在较大差异,导致山西文水方言中的动词短语“说话”发生了多重语法化:一是语法化为时间副词,在句法分布上存在诸多限制,表短时义具有强烈的主观性;二是语法化为话语标记,必须带有语气词,表达负面评价已经高度规约化。山西文水方言“说话”的多重语法化反映了语法化的两条基本轨迹:客观化与主观化。 展开更多
关键词 山西文水方言 说话 多重语法化 短时副词 话语标记
下载PDF
说话瓣膜结合赋能呼吸训练的拔管法在气管切开患者中的应用研究
9
作者 黄连欣 陈秋萍 +1 位作者 黄小珍 黄芳保 《中国科技期刊数据库 医药》 2024年第7期0153-0156,共4页
探究气管切开患者中,应用说话瓣膜结合赋能呼吸训练拔管法的价值。方法 研究目标共计40例,均选取于我院2023年1月份-2023年12月份期间,行气管切开的病例,分组原则上,基于乱数表法,将其分为研究组(n=20,说话瓣膜结合赋能呼吸训练的拔管法... 探究气管切开患者中,应用说话瓣膜结合赋能呼吸训练拔管法的价值。方法 研究目标共计40例,均选取于我院2023年1月份-2023年12月份期间,行气管切开的病例,分组原则上,基于乱数表法,将其分为研究组(n=20,说话瓣膜结合赋能呼吸训练的拔管法)、对照组(n=20,常规拔管法),分析其在拔管情况、满意度方面的区别。结果 拔管后具体情况方面,拔管后1/2/3天,血氧饱和度情况均优于对照组,而且气切套管留置时间情况较对照组而言更低(P<0.05);满意程度方面,拔管后,研究组较对照组而言更高(P<0.05);不良事件发生情况方面,研究组发生呼吸困难、重新置管情况均低于对照组(P<0.05)。结论 气管切开患者中,应用说话瓣膜结合赋能呼吸训练拔管法的价值符合研究预期,能够改善患者血氧饱和度、气切套管留置时间情况,进一步降低不良事件的发生,进而使患者满意度获得提升,具有较为理想的应用效果。 展开更多
关键词 护理 气管切开 说话瓣膜 呼吸训练 拔管 满意度
下载PDF
采用表示分离自编码器的任意说话人语音转换
10
作者 简志华 章子旭 《通信学报》 EI CSCD 北大核心 2024年第2期162-172,共11页
针对非平行语料库下任意说话人之间的语音转换存在语言内容信息和说话人个性特征难以分离,从而导致语音转换的性能不佳的问题,提出了一种采用表示分离自编码器的语音转换方法RSAE-VC。该方法将语音信号的说话人个性特征视为时不变,而将... 针对非平行语料库下任意说话人之间的语音转换存在语言内容信息和说话人个性特征难以分离,从而导致语音转换的性能不佳的问题,提出了一种采用表示分离自编码器的语音转换方法RSAE-VC。该方法将语音信号的说话人个性特征视为时不变,而将内容信息视为时变,利用编码器中的实例归一化和激活引导层将两者进行分离,再由解码器将源语音的内容信息与目标语音的个性特征进行合成,从而生成转换后的语音。实验结果表明,RSAE-VC在梅尔倒谱距离上比现有的AGAIN-VC转换方法平均降低了3.11%,在基音频率均方根误差上降低了2.41%,MOS分和ABX值分别提升了5.22%和8.45%。RSAE-VC方法通过自内容损失进行约束使语音更好地保留内容信息,通过自说话人损失将说话人个性特征更好地从语音中分离,可以确保说话人个性特征尽少地遗留在内容信息中,从而提高语音转换性能。 展开更多
关键词 语音转换 表示分离 自适应实例归一化 自内容损失 说话人损失
下载PDF
基于概率球面判别分析的说话人识别信道补偿算法
11
作者 景维鹏 肖庆欣 罗辉 《计算机应用》 CSCD 北大核心 2024年第2期556-562,共7页
在说话人识别任务中,概率线性判别分析(PLDA)模型是目前常用的分类后端,但由于高斯PLDA模型分布假设不能准确拟合真实说话人特征分布,导致基于高斯分布假设长度归一化的信道补偿方法会破坏说话人特征类内分布的独立性,使得高斯PLDA不能... 在说话人识别任务中,概率线性判别分析(PLDA)模型是目前常用的分类后端,但由于高斯PLDA模型分布假设不能准确拟合真实说话人特征分布,导致基于高斯分布假设长度归一化的信道补偿方法会破坏说话人特征类内分布的独立性,使得高斯PLDA不能充分利用上游任务提取特征所包含的说话人信息,从而影响识别结果。针对这一问题,提出基于概率球面判别分析的信道补偿算法(CC-PSDA),通过引入冯·米塞斯-费希尔(VMF)分布假设的概率球面判别分析模型(PSDA)和特征变换方法代替高斯分布假设的概率线性判别分析方法,以避免信道补偿对说话人特征类内分布独立性的影响。首先,为了使说话人特征符合VMF分布先验假设拟合后端分类模型,在特征级利用非线性转换对说话人特征进行分布变换。之后,利用基于VMF分布假设的PLDA模型不会破坏说话人特征的类内分布结构的特点,将变换后的说话人特征定义到特定维度的超球面,最大化特征类间距离。所提算法通过期望最大化(EM)算法进行求解,最终完成分类任务。实验结果表明,改进算法在三个测试集上的识别等错误率相较于对比模型PSDA、高斯PLDA均最低。由此可见,所提模型可以有效区分说话人特征,提高识别性能。 展开更多
关键词 说话人识别 i-vector 概率球面判别分析 信道补偿 冯·米塞斯-费希尔分布 长度归一化
下载PDF
爱打岔说话声音大,当心老年性耳聋
12
作者 杨登化 《中老年保健》 2024年第1期30-32,共3页
随着年龄的增长,许多老年朋友与别人讲话交流时,声音小听不见、声音大听不清,听得见声音但听不清内容,爱打岔,经常需要让别人放慢语速重复一下,自己不自觉地说话声音变大,看电视时声音也要放得很大。
关键词 老年性耳聋 声音 看电视 说话 放慢
下载PDF
基于分布式自适应UKF的说话人跟踪方法
13
作者 陈阳 蔡翔宇 王睿 《声学技术》 CSCD 北大核心 2024年第5期734-742,共9页
针布式无迹卡尔曼滤波(distributed unscented Kalman filter, DUKF)方法进行说话人跟踪时,因状态转移噪声协方差矩阵和测量噪声协方差矩阵偏离真实值而导致跟踪误差增大。文章采用塞琪-胡萨(Sage-Husa)自适应策略,在DUKF测量更新后迭... 针布式无迹卡尔曼滤波(distributed unscented Kalman filter, DUKF)方法进行说话人跟踪时,因状态转移噪声协方差矩阵和测量噪声协方差矩阵偏离真实值而导致跟踪误差增大。文章采用塞琪-胡萨(Sage-Husa)自适应策略,在DUKF测量更新后迭代估计局部状态转移噪声协方差矩阵和测量噪声协方差矩阵,然后利用一致性滤波融合得到全局的状态转移噪声协方差矩阵,随着卡尔曼滤波器的迭代,逐渐逼近状态转移噪声协方差矩阵和测量噪声协方差矩阵的真实值,从而提高DUKF说话人跟踪精度。实验结果表明,即使在较差的噪声和混响条件下,分布式自适应无迹卡尔曼滤波方法相较于常规的DUKF方法仍具有更好的跟踪性能,在节点损坏条件下的鲁棒性更强,能够获得更准确的说话人位置信息。 展开更多
关键词 分布式无迹卡尔曼滤波(DUKF) 说话人跟踪 分布式麦克风网络 自适应策略
下载PDF
基于语音驱动的说话人脸视频生成综述
14
作者 韩家伟 游锦 《电脑知识与技术》 2024年第24期123-126,共4页
随着人工智能的快速发展,语音驱动的说话人脸生成技术因其在公共安全、医疗、电影娱乐、虚拟数字人等领域的广泛应用而受到越来越多的关注。该技术旨在根据给定的目标人脸和音频,生成自然的说话人脸视频。在过去五年中,研究人员提出了... 随着人工智能的快速发展,语音驱动的说话人脸生成技术因其在公共安全、医疗、电影娱乐、虚拟数字人等领域的广泛应用而受到越来越多的关注。该技术旨在根据给定的目标人脸和音频,生成自然的说话人脸视频。在过去五年中,研究人员提出了许多创新方法,以解决该领域中的不同问题,推动了这一领域的发展。本文对当前说话人脸生成领域的发展进行了系统梳理和总结,以期为学术界提供有价值的资源。此外,详细介绍了常用的数据集及多项用于评估模型性能的评价指标,为该领域的研究提供了更全面的理解和认识。最后,我们总结了该领域未来的发展趋势,并鼓励更多研究者在这一领域进行持续创新,为技术进步贡献力量。 展开更多
关键词 计算机视觉 深度学习 说话人脸生成 音频驱动 数字人
下载PDF
说话人感知的交叉注意力说话人提取网络
15
作者 李卓璋 许柏炎 +1 位作者 蔡瑞初 郝志峰 《广东工业大学学报》 CAS 2024年第3期91-101,共11页
目标说话人提取任务的目标是在一段混合音频中提取特定说话人的语音,任务设置上一般会给一段目标说话人注册音频作为辅助信息。现有的研究工作主要有以下不足:(1)说话人识别的辅助网络无法捕获学习注册音频中的关键信息;(2)缺乏混合音... 目标说话人提取任务的目标是在一段混合音频中提取特定说话人的语音,任务设置上一般会给一段目标说话人注册音频作为辅助信息。现有的研究工作主要有以下不足:(1)说话人识别的辅助网络无法捕获学习注册音频中的关键信息;(2)缺乏混合音频嵌入和注册音频嵌入的交互学习机制。以上不足导致了现有研究工作在注册音频和目标音频之间存在较大差异时有说话人混淆问题。为了解决该问题,提出说话人感知的交叉注意力说话人提取网络(Speaker-aware Cross Attention Speaker Extraction Network,SACAN)。SACAN在说话人识别辅助网络引入基于注意力的说话人聚合模块,有效聚合目标说话人声音特性的关键信息和利用混合音频增强目标说话人嵌入。进一步地,SACAN通过交叉注意力构建交互学习机制促进说话人嵌入与混合音频嵌入融合学习,增强了模型的说话人感知能力。实验结果表明,SACAN相比基准方法在STOI和SI-SDRi分别提高了0.013 3、1.069 5 d B,并在说话人混淆相关评估和消融实验中验证了不同模块的有效性。 展开更多
关键词 语音分离 目标说话人提取 说话人嵌入 交叉注意力 多任务学习
下载PDF
面向中文短语音的文本无关说话人确认新框架
16
作者 毛海全 冯海泓 +3 位作者 洪峰 马皓天 徐楚林 郑立通 《声学技术》 CSCD 北大核心 2024年第4期503-510,共8页
相较于文本相关说话人确认,文本无关说话人确认由于验证文本内容不受限制,结合语音识别能够有效避免录音欺诈等常见攻击。然而,文本无关说话人确认系统在短语音验证上会出现严重的性能下降。为此,文章首先提出了一种改进的端到端模型,... 相较于文本相关说话人确认,文本无关说话人确认由于验证文本内容不受限制,结合语音识别能够有效避免录音欺诈等常见攻击。然而,文本无关说话人确认系统在短语音验证上会出现严重的性能下降。为此,文章首先提出了一种改进的端到端模型,通过长、短语音说话人分类损失增强网络对不同时长语音段的说话人分类识别能力;同时,在嵌入码空间中增大同一说话人的短语音和长语音之间的相似度,减小不同说话人的短语音之间的相似度,增强网络对短语音的特征提取能力。此外,还提出了一种基于注意力机制的验证词选择方法,选择具有高注意力权重的中文词作为系统验证提示词。实验结果表明,文章提出的改进的端到端模型结合softmax预训练使得模型在短测试语音上的等错误率相对降低29%,基于注意力机制的验证词选择方法也能筛选出具有更好识别结果的验证词,二者结合能够有效提升说话人确认系统对于短中文语音的识别性能。 展开更多
关键词 说话人确认 短语音 注意力机制 验证词选择
下载PDF
基于迁移学习和基频特征融合的文本相关说话人识别框架
17
作者 马皓天 洪峰 +5 位作者 毛海全 徐楚林 胡梦璐 牟宏宇 陈友元 许伟杰 《声学技术》 CSCD 北大核心 2024年第5期677-685,共9页
目前,面向我国金融支付的说话人识别技术在社会层面上没有大范围的推广,其原因在于数据集的缺乏以及识别技术未能满足安全性要求。针对上述问题,文章录制了用于中文数字串文本相关说话人识别的SHALCAS-WXSD22B数据集,用于金融支付场景... 目前,面向我国金融支付的说话人识别技术在社会层面上没有大范围的推广,其原因在于数据集的缺乏以及识别技术未能满足安全性要求。针对上述问题,文章录制了用于中文数字串文本相关说话人识别的SHALCAS-WXSD22B数据集,用于金融支付场景中的数字串声纹识别研究,并提出一种基于迁移学习和基频特征融合的文本相关说话人识别框架,提高了文本相关说话人识别技术的可靠性。在数字串SHALCAS-WXSD22B-d006和SHALCAS-WXSD22B-d007语料实验中,所提框架实现的最佳等错误率分别为0.88%和1.05%,与ECAPA-TDNN基线模型相比等错误率相对降低了17和20个百分点,且达到了支付场景下的声纹识别安全性指标。实验结果表明,文中所提框架不仅具有更好的识别准确率和安全性能,而且同样能提高框架中包括ResNet34在内的其他log-Mel识别模型的性能。 展开更多
关键词 文本相关说话人识别 迁移学习 基频特征 嵌入级融合 决策级融合
下载PDF
基于深度声纹特征转换网络的说话人识别攻击方法
18
作者 陶子钰 苏兆品 +2 位作者 廉晨思 王年松 张国富 《应用科学学报》 CAS CSCD 北大核心 2024年第5期782-794,共13页
目前主流说话人识别(speaker identification,SID)系统的攻击方法主要基于快速梯度下降或映射式梯度下降算法,这些方法存在攻击效果不稳定、生成的攻击语音听觉质量不高等问题。为此提出一种基于深度声纹特征转换网络的自动说话人识别... 目前主流说话人识别(speaker identification,SID)系统的攻击方法主要基于快速梯度下降或映射式梯度下降算法,这些方法存在攻击效果不稳定、生成的攻击语音听觉质量不高等问题。为此提出一种基于深度声纹特征转换网络的自动说话人识别攻击方法,生成具有目标说话人音色的攻击语音。首先分析了SID系统的攻击流程,确定了攻击语音生成的过程;然后基于二维卷积神经网络设计攻击音频生成器,以有效融合源说话人的语音内容和目标说话人的声纹特征,并基于对抗学习设计了攻击音频的判别器,以提高语音攻击音频的质量。最后分别在基于广义端到端损失和基于AMSoftmax损失的两个自动说话人识别系统上进行对比实验。实验结果表明,所提方法不但提高了攻击效果的稳定性,提升了攻击音频的人耳感受质量,而且适用于短时长数据,满足了实际攻击场景的需求。 展开更多
关键词 说话人识别 攻击语音 声纹特征转换 卷积神经网络
下载PDF
基于深度学习的说话人确认方法研究现状及展望
19
作者 李建琛 韩纪庆 《数据采集与处理》 CSCD 北大核心 2024年第5期1062-1084,共23页
随着深度学习的不断发展,说话人确认(Speaker verification)技术已经取得了长足的进步。该技术相较于其他生物特征识别技术,具有可远程操作、成本低和易于人机交互等优势,在公安刑侦、金融服务等领域展现出广泛的应用前景。本文系统综... 随着深度学习的不断发展,说话人确认(Speaker verification)技术已经取得了长足的进步。该技术相较于其他生物特征识别技术,具有可远程操作、成本低和易于人机交互等优势,在公安刑侦、金融服务等领域展现出广泛的应用前景。本文系统综述了基于深度学习的说话人确认技术的发展脉络。首先,介绍了基于深度学习的说话人特征表示模型在模型输入与结构、池化层、有监督损失函数和自监督学习与预训练模型4个方面的发展历程和研究现状;其次,探讨了说话人确认技术在实际应用中面临的跨域不匹配问题,如噪声干扰、信道不匹配和远场语音等,并概述了相应的领域自适应和领域泛化方法;最后,指出了进一步的研究方向。 展开更多
关键词 说话人识别 说话人确认 深度学习 领域不匹配 自监督学习
下载PDF
基于多尺度卷积编码器的说话人验证网络
20
作者 刘小湖 陈德富 +3 位作者 李俊 周旭文 胡姗 周浩 《计算机科学》 CSCD 北大核心 2024年第S01期75-80,共6页
说话人验证是一种有效的生物身份验证方法,说话人嵌入特征的质量在很大程度上影响着说话人验证系统的性能。最近,Transformer模型在自动语音识别领域展现出了巨大的潜力,但由于Transformer中传统的自注意力机制对局部特征的提取能力较弱... 说话人验证是一种有效的生物身份验证方法,说话人嵌入特征的质量在很大程度上影响着说话人验证系统的性能。最近,Transformer模型在自动语音识别领域展现出了巨大的潜力,但由于Transformer中传统的自注意力机制对局部特征的提取能力较弱,难以提取有效的说话人嵌入特征,因此Transformer模型在说话人验证领域的性能难以超越以往的基于卷积网络的模型。为了提高Transformer对局部特征的提取能力,文中提出了一种新的自注意力机制用于Transformer编码器,称为多尺度卷积自注意力编码器(Multi-scale Convolutional Self-Attention Encoder,MCAE)。利用不同尺度的卷积操作来提取多时间尺度信息,并通过融合时域和频域的特征,使模型获得更丰富的局部特征表示,这样的编码器设计对于说话人验证是更有效的。通过实验表明,在3个公开的测试集上,所提方法的综合性能表现更佳。与传统的Transformer编码器相比,MCAE也是更轻量级的,这更有利于模型的应用部署。 展开更多
关键词 说话人验证 说话人嵌入 自注意力机制 Transformer编码器 多尺度卷积
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部