期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
多说话人分离与目标说话人提取的研究现状与展望
1
作者 鲍长春 杨雪 《数据采集与处理》 CSCD 北大核心 2024年第5期1044-1061,共18页
语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起... 语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起源于著名的鸡尾酒会问题,旨在从混合信号中分离出说话人的语音信号。近年来,研究人员提出了大量的语音分离方法,显著提升了分离性能。本文对这些语音分离方法进行了系统的归纳和总结。首先,根据目标说话人的辅助信息利用与否,将语音分离方法分为两大类,即多说话人分离与目标说话人提取;其次,从传统到基于深度学习的角度,分别对多说话人分离和目标说话人提取两类方法进行详细介绍;最后,讨论了当前语音分离领域面临的一些挑战,并对未来的研究方向进行展望。 展开更多
关键词 语音分离 鸡尾酒会问题 多说话人分离 目标说话人提取 深度学习
下载PDF
多说话人语音环境下目标说话人声纹验证方法研究 被引量:2
2
作者 陈家峥 张斌 李雅明 《物联网技术》 2024年第2期3-7,10,共6页
声纹身份验证技术越来越多的应用于IoT智能设备中,针对多说话人语音环境,应用传统VAD模块的声纹验证系统错误拒绝率严重升高,甚至无法工作。本文从语音分离技术入手,设计实现了一种只对目标说话人触发的轻量化SD-VAD模型。首先,通过在... 声纹身份验证技术越来越多的应用于IoT智能设备中,针对多说话人语音环境,应用传统VAD模块的声纹验证系统错误拒绝率严重升高,甚至无法工作。本文从语音分离技术入手,设计实现了一种只对目标说话人触发的轻量化SD-VAD模型。首先,通过在基线模型中引入CNN和BiLSTM结构,使神经网络获得更强大的特征提取能力和上下文依赖性。其次,重新定义类内加权损失,对不同的分类混淆错误施加不同的惩罚,使模型重点关注目标说话人相关的分类,最大程度保留目标语音的完整性。最后,本文将SD-VAD应用于声纹验证模型的前端。实验结果表明,本文改进的结构相较于基线模型,mAP提升了1.5%,目标说话人类的AP提升了1.9%。相较于传统VAD模块,使基于ECAPA-TDNN的声纹验证系统错误拒绝率(FRR)降低了13.95%,较大提升了声纹验证系统的鲁棒性和使用灵活性。 展开更多
关键词 物联网 声纹验证 语音分离 多说话人环境 语音活动检测(VAD) ECAPA-TDNN
下载PDF
基于MFCC和运动强度聚类初始化的多说话人识别 被引量:10
3
作者 曹洁 余丽珍 《计算机应用研究》 CSCD 北大核心 2012年第9期3295-3298,共4页
针对常用基于音频特征的多说话人聚类初始化方法精度不高这一问题,提出了一种基于视频信号的新方法。该方法通过运用每一时间帧视频信号的运动强度特征对聚类初始化阶段的初始话者类进行选择,有效提升了说话人初始类纯度。最后将该方法... 针对常用基于音频特征的多说话人聚类初始化方法精度不高这一问题,提出了一种基于视频信号的新方法。该方法通过运用每一时间帧视频信号的运动强度特征对聚类初始化阶段的初始话者类进行选择,有效提升了说话人初始类纯度。最后将该方法应用到高斯混合模型(GMM)多说话人识别系统。实验结果表明,在整个会议集上该方法相比其他方法有了很大改善,较之线性初始化系统的错误识别率平均降低了19.436%,较之改进的线性初始化系统的错误识别率平均降低了16.618%。 展开更多
关键词 多说话人识别 聚类初始化 运动强度特征 运动强度初始化
下载PDF
改进的说话人聚类初始化和GMM的多说话人识别 被引量:6
4
作者 曹洁 余丽珍 《计算机应用研究》 CSCD 北大核心 2012年第2期590-593,共4页
针对多说话人聚类线性初始化方法精度较差的问题,提出了一种改进的聚类初始化方法。该方法引入BIC对由线性初始化产生的初始类进行检测分割,有效提升了说话人初始类纯度。最后将该方法应用到高斯混合模型(GMM)多说话人识别系统。实验结... 针对多说话人聚类线性初始化方法精度较差的问题,提出了一种改进的聚类初始化方法。该方法引入BIC对由线性初始化产生的初始类进行检测分割,有效提升了说话人初始类纯度。最后将该方法应用到高斯混合模型(GMM)多说话人识别系统。实验结果表明,所提方法使说话人平均类纯度(ACP)提高了48.51%,系统的错误识别率平均降低12.09%。 展开更多
关键词 多说话人识别 改进的聚类初始化 高斯混合模型 平均类纯度
下载PDF
基于数值积分卡尔曼-概率假设密度滤波的多说话人跟踪方法 被引量:1
5
作者 陈里铭 陈喆 +1 位作者 殷福亮 侯代文 《信号处理》 CSCD 北大核心 2012年第9期1209-1218,共10页
针对多说话人跟踪的非线性系统模型,提出了一种基于数值积分卡尔曼-概率假设密度滤波的多说话人跟踪方法。该方法采用麦克风阵列的时间延迟估计作为观测数据,利用具有三次代数精度的球面-径向数值积分准则计算非线性系统贝叶斯滤波器中... 针对多说话人跟踪的非线性系统模型,提出了一种基于数值积分卡尔曼-概率假设密度滤波的多说话人跟踪方法。该方法采用麦克风阵列的时间延迟估计作为观测数据,利用具有三次代数精度的球面-径向数值积分准则计算非线性系统贝叶斯滤波器中的多维积分,通过数值积分卡尔曼滤波和概率假设密度滤波对后验多说话人状态的一阶统计量进行估计,并通过递推更新得到说话人状态信息,实现非线性高斯系统的多说话人跟踪。该方法无需求解非线性系统函数的雅克比矩阵,且计算量较小。仿真实验分析了检测概率、虚警点数目、采样周期、信噪比以及混响时间变化时跟踪算法的性能。实验结果表明,该方法降低了系统模型非线性对滤波算法的影响,增强了跟踪算法的鲁棒性,提高了说话人状态和数目的估计精度。 展开更多
关键词 多说话人跟踪 概率假设密度滤波 卡尔曼滤波 非线性滤波
下载PDF
基于Fast ICA的多说话人识别系统
6
作者 周燕 《苏州市职业大学学报》 2011年第2期10-13,共4页
针对多人混合语音条件下说话人身份难以识别的问题,提出了一种使用快速独立分量分析(Fast ICA)方法分离各个说话人的语音信号,并采用RBF神经网络方法进行说话人识别的策略.由于不同语音源信号保持相对独立,利用盲信号分离的思想,使用Fas... 针对多人混合语音条件下说话人身份难以识别的问题,提出了一种使用快速独立分量分析(Fast ICA)方法分离各个说话人的语音信号,并采用RBF神经网络方法进行说话人识别的策略.由于不同语音源信号保持相对独立,利用盲信号分离的思想,使用Fast ICA方法用于信号的分离,从而对获得的独立语音数据分别提取说话人特征,采用RBF神经网络模型实现多说话人身份的识别.实验结果表明,该方法能有效地实现混合语音条件下的说话人识别. 展开更多
关键词 多说话人识别 快速独立分量分析 RBF神经网络
下载PDF
真实环境中基于子帧分析的多说话人定位算法
7
作者 蔡卫平 唐珺 《长江信息通信》 2021年第3期82-85,共4页
针对真实环境中的多说话人定位问题,提出一种基于子帧分析的多声源定位算法。该算法将一帧语音信号分为8个子帧,利用每个子帧信号计算相位变换加权的可控响应功率函数,分别搜索其最大值得到声源位置的子帧估计。由于语音信号在时域具有... 针对真实环境中的多说话人定位问题,提出一种基于子帧分析的多声源定位算法。该算法将一帧语音信号分为8个子帧,利用每个子帧信号计算相位变换加权的可控响应功率函数,分别搜索其最大值得到声源位置的子帧估计。由于语音信号在时域具有稀疏性,这些估计值对应多个声源的位置。利用会聚聚类算法将子帧估计值分为若干类,然后用平均子帧可控响应功率函数对估计值进行评价,得到最终的声源位置估计。实验表明,在2~3个说话人的情况下,该算法比传统算法的定位性能有较大幅度提高。 展开更多
关键词 真实环境 多说话人定位 子帧分析 会聚聚类
下载PDF
电话语音中基于多说话人的声纹识别系统
8
作者 郑燕琳 杨晓炯 许星宇 《电信科学》 北大核心 2010年第S2期105-108,共4页
电话语音声纹识别系统在实际应用中不可避免包含多说话人语音数据,由于不能有效地将对话双方的语音自动分离,从而使得输入语音含有多个说话人,直接影响到系统的识别性能。本文提出电话语音中基于多说话人的声纹识别系统,实际应用表明,... 电话语音声纹识别系统在实际应用中不可避免包含多说话人语音数据,由于不能有效地将对话双方的语音自动分离,从而使得输入语音含有多个说话人,直接影响到系统的识别性能。本文提出电话语音中基于多说话人的声纹识别系统,实际应用表明,该系统可得到较好声纹识别效果。本文的结果对探讨实际应用的多说话人电话语音声纹识别方法有重要意义。 展开更多
关键词 多说话人 语音分离 声纹识别
下载PDF
基于全局风格嵌入的多说话人印尼语语音合成
9
作者 杨益灵 杨鉴 王发亮 《计算机科学与应用》 2023年第1期126-135,共10页
由于印尼语高质量语料数据库的稀缺,该语种多说话人语音合成系统性能仍有待提升。因此以缓解低资源对多说话人语音合成性能的影响为目的,研究并实现了基于GST-Tacotron2模型框架的印尼语端到端语音合成系统。选用8.5小时的单说话人印尼... 由于印尼语高质量语料数据库的稀缺,该语种多说话人语音合成系统性能仍有待提升。因此以缓解低资源对多说话人语音合成性能的影响为目的,研究并实现了基于GST-Tacotron2模型框架的印尼语端到端语音合成系统。选用8.5小时的单说话人印尼语数据训练的合成系统,合成语音的MOS评分达4.11。在此基础上,设计多说话人印尼语语音合成系统,着重探索了在仅利用其他印尼语说话人少量语音数据进行混合训练时,采用说话人编码方法对多说话人合成自然度的影响。实验结果表明,利用合计14.5小时多说话人语音数据训练的合成模型,主位说话人合成语音的MOS评分到达了4.12,梅尔倒谱失真比单说话人最优模型降低了7.2%。其他说话人合成语音的MOS评分均大于3.60,验证了所提方法的有效性。 展开更多
关键词 语音合成 多说话人 风格迁移 低资源 印尼语
下载PDF
告别“独舞”的课堂 把精彩还给学生
10
作者 林国庆 《中国科教创新导刊》 2011年第30期203-203,共1页
走出传统的教学模式,实现"以学生为中心"的课改新理念,打造高效课堂,这是时代的要求,我们只有不断接受新的教学理念,并身体力行的践行这些理念,灵活运用各种形式让学生参与教学中去,才能使教学更加闪亮,实现真正的高效课堂。
关键词 以学生为中心 多思考 多说话 多练习
下载PDF
牵着学生的手往前走——浅谈小学生作文教学
11
作者 景素华 《学周刊(下旬)》 2013年第5期138-139,共2页
小学作文一直是小学教学中的一个难点,为了让学生顺利地渡过这个难关,笔者结合多年的教学经验做了一下总结。小学生写作文就像孩子学走路,我们不可能一直牵着他们的手,但可以适当地引导和帮忙。文章通过让学生多说话,多听学生说话;多让... 小学作文一直是小学教学中的一个难点,为了让学生顺利地渡过这个难关,笔者结合多年的教学经验做了一下总结。小学生写作文就像孩子学走路,我们不可能一直牵着他们的手,但可以适当地引导和帮忙。文章通过让学生多说话,多听学生说话;多让学生读书,积累优美的句子;多领着学生走近大自然,亲近大自然;多让学生观察生活,敢于表达等四个方面的论述,讲解了如何提高小学生的作文教学水平。 展开更多
关键词 小学生作文 多说话 多读书 多观察
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部