期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
Binaural Speech Separation Algorithm Based on Long and Short Time Memory Networks 被引量:1
1
作者 Lin Zhou Siyuan Lu +3 位作者 Qiuyue Zhong Ying Chen Yibin Tang Yan Zhou 《Computers, Materials & Continua》 SCIE EI 2020年第6期1373-1386,共14页
Speaker separation in complex acoustic environment is one of challenging tasks in speech separation.In practice,speakers are very often unmoving or moving slowly in normal communication.In this case,the spatial featur... Speaker separation in complex acoustic environment is one of challenging tasks in speech separation.In practice,speakers are very often unmoving or moving slowly in normal communication.In this case,the spatial features among the consecutive speech frames become highly correlated such that it is helpful for speaker separation by providing additional spatial information.To fully exploit this information,we design a separation system on Recurrent Neural Network(RNN)with long short-term memory(LSTM)which effectively learns the temporal dynamics of spatial features.In detail,a LSTM-based speaker separation algorithm is proposed to extract the spatial features in each time-frequency(TF)unit and form the corresponding feature vector.Then,we treat speaker separation as a supervised learning problem,where a modified ideal ratio mask(IRM)is defined as the training function during LSTM learning.Simulations show that the proposed system achieves attractive separation performance in noisy and reverberant environments.Specifically,during the untrained acoustic test with limited priors,e.g.,unmatched signal to noise ratio(SNR)and reverberation,the proposed LSTM based algorithm can still outperforms the existing DNN based method in the measures of PESQ and STOI.It indicates our method is more robust in untrained conditions. 展开更多
关键词 Binaural speech separation long and short time memory networks feature vectors ideal ratio mask
下载PDF
基于幅度和相位混合特征交叉的语音增强方法
2
作者 卿朝进 付小伟 唐书海 《计算机工程与设计》 北大核心 2024年第2期587-593,共7页
为充分利用含噪语音信号的相位特征信息及其与幅度信息的相关性,提出一种幅度和相位混合特征交叉的单通道语音增强方法。提取含噪信号的对数功率谱和相位特征,依次交叉排列;计算复数掩模,将复数掩模的实虚部依次交叉以保持对称输入特征... 为充分利用含噪语音信号的相位特征信息及其与幅度信息的相关性,提出一种幅度和相位混合特征交叉的单通道语音增强方法。提取含噪信号的对数功率谱和相位特征,依次交叉排列;计算复数掩模,将复数掩模的实虚部依次交叉以保持对称输入特征;在此基础上,构建深度编解码器网络(amplitude phase deep encoder decoder network,APDEDN)增强语音质量。实验结果表明,相较单一特征方法,提出方法获得了语音质量感知评估评分和短时目标可懂度上的改善。 展开更多
关键词 语音增强 特征交叉 特征提取 混合特征 复数掩模 编解码器 深度学习
下载PDF
基于深度学习的两阶段联合声学回波和混响抑制技术 被引量:1
3
作者 栾书明 程龙彪 +2 位作者 孙兴伟 李军锋 颜永红 《信号处理》 CSCD 北大核心 2020年第6期948-957,共10页
在现代通信系统中,回波与混响常损害通信语音的质量和可懂度。为克服回波与混响的负面影响,本文提出了一种基于深度学习的两阶段联合声学回波和混响抑制系统。系统先用基于理想比值掩蔽的模型去除与目标信号不相关的声学回波;然后用一... 在现代通信系统中,回波与混响常损害通信语音的质量和可懂度。为克服回波与混响的负面影响,本文提出了一种基于深度学习的两阶段联合声学回波和混响抑制系统。系统先用基于理想比值掩蔽的模型去除与目标信号不相关的声学回波;然后用一个基于"隐掩蔽"的谱映射模型去除与目标信号强相关的混响干扰;最后联合训练两阶段模型以获得更好的系统性能。一系列不同声学环境下的实验结果表明,本文所提出的系统可显著地消除回波与混响干扰,从而极大地增强了目标语音的语音质量与可懂度。 展开更多
关键词 回波消除 去混响 双向长短时记忆网络 理想比率掩蔽 联合训练 谱映射
下载PDF
基于神经网络和空域聚类的时频掩蔽值估计波束形成 被引量:1
4
作者 郭晓波 屈丹 +1 位作者 杨绪魁 刘诚然 《信息工程大学学报》 2021年第4期385-392,共8页
为进一步提升基于时频掩蔽值的波束形成的性能,提出集成基于神经网络的复值时频掩蔽值估计和基于空域聚类的实值时频掩蔽值估计的波束形成方法,旨在提高声源存在概率估计的准确性。该方法首先提取输入信号的时频特征和空域特征,将时频... 为进一步提升基于时频掩蔽值的波束形成的性能,提出集成基于神经网络的复值时频掩蔽值估计和基于空域聚类的实值时频掩蔽值估计的波束形成方法,旨在提高声源存在概率估计的准确性。该方法首先提取输入信号的时频特征和空域特征,将时频特征输入到神经网络得到复值时频掩蔽值。利用复值时频掩蔽值中信号的幅度和相位信息,提升存在概率估计的准确性。随后,将神经网络估计的声源存在概率作为空域聚类方法的初始时频掩蔽值,通过期望最大化算法迭代估计时频掩蔽值,从而缓解神经网络方法因数据不匹配带来的性能衰减问题。实验表明,所提集成方法相比基线系统的相对词错误率取得了7.6个百分点的性能提升。 展开更多
关键词 时频掩蔽值 波束形成 集成 复值时频掩蔽值
下载PDF
Gammatone域特征在IRM-DBN语音增强中的有效性研究 被引量:1
5
作者 王卫梅 王雁 贾海蓉 《内蒙古大学学报(自然科学版)》 CAS 北大核心 2019年第6期666-673,共8页
对于在噪声背景下的深度学习来说,好的特征提取能极大地提高语言增强的性能.研究在深度信念网络中,以目前性能最好的理想浮值掩蔽为学习目标,验证Gammatone域特征的语音增强效果优于其他域特征.首先,分别提取在不同噪声不同信噪比下的基... 对于在噪声背景下的深度学习来说,好的特征提取能极大地提高语言增强的性能.研究在深度信念网络中,以目前性能最好的理想浮值掩蔽为学习目标,验证Gammatone域特征的语音增强效果优于其他域特征.首先,分别提取在不同噪声不同信噪比下的基于Gammatone域的语音特征,根据纯净语音和噪声计算得到初始理想浮值掩蔽;其次,采用深度信念网络作为学习模型,从训练带噪语音特征中学习得到估计的理想浮值掩蔽;最后,利用测试语音特征和估计的理想浮值掩蔽合成增强语音,分析所用特征的有效性.实验结果表明:基于Gammatone域的语音特征比其他域特征的各种性能评价指标值更高,明显提高了语音质量,增强效果更佳. 展开更多
关键词 特征提取 深度信念网络 理想浮值掩蔽 Gammatone域 语音增强
下载PDF
利用概率混合模型的理想比率掩蔽多声源分离方法 被引量:1
6
作者 贾怡恬 杨淇善 +2 位作者 贾懋珅 许文杰 鲍长春 《信号处理》 CSCD 北大核心 2021年第10期1806-1815,共10页
针对基于时频掩蔽的分离方法在多声源场景下的分离效果不佳的问题,论文提出一种利用概率混合模型的理想比率掩蔽多声源分离方法。首先,利用冯·米塞斯分布对时频点处方位角估计进行拟合以及拉普拉斯分布对归一化声压梯度信号向量进... 针对基于时频掩蔽的分离方法在多声源场景下的分离效果不佳的问题,论文提出一种利用概率混合模型的理想比率掩蔽多声源分离方法。首先,利用冯·米塞斯分布对时频点处方位角估计进行拟合以及拉普拉斯分布对归一化声压梯度信号向量进行拟合,由此建立概率混合模型。其次,利用期望最大化算法对模型参数进行求解,估计各声源对应的理想比率掩蔽。最后,利用估计出的理想比率掩蔽,从麦克风采集信号中分离得到各声源信号。实验结果表明,与现有基于时频掩蔽的多声源分离方法相比,论文所提方法在欠定场景下具有更好的分离效果。 展开更多
关键词 理想比率掩蔽 多声源分离 概率混合模型
下载PDF
一种基于组合深层模型的语音增强方法
7
作者 李璐君 屈丹 《信息工程大学学报》 2018年第4期434-440,共7页
模型建立是语音增强系统的重要一环,对最终系统性能起着决定性的作用。针对语音增强系统在低信噪比和非平稳噪声环境中性能不佳的问题,提出一种基于组合深层模型的语音增强系统。首先,使用深度神经网络(deep neural network,DNN)从含噪... 模型建立是语音增强系统的重要一环,对最终系统性能起着决定性的作用。针对语音增强系统在低信噪比和非平稳噪声环境中性能不佳的问题,提出一种基于组合深层模型的语音增强系统。首先,使用深度神经网络(deep neural network,DNN)从含噪语料中估计掩蔽值;然后,将掩蔽值通过前后帧拼接转化为灰度图送入卷积神经网络(convolutional neural network,CNN)进行识别;最后,用识别出的掩蔽矩阵合成目标语音。实验证明,与单纯使用DNN进行掩蔽值估计的系统相比,联合DNN和CNN的语音增强系统在各项评价指标中均得到改进,尤其在低信噪比和非平稳噪声环境中提升更为明显。 展开更多
关键词 语音增强 深度神经网络 卷积神经网络 理想率值掩蔽
下载PDF
基于神经网络的语音增强算法研究
8
作者 王金超 《微型电脑应用》 2021年第3期108-110,共3页
利用神经网络提高语音增强模型的性能与泛化能力。对语音信号做短时傅立叶变换并提取对数能量谱特征,使用卷积循环网络(CRN)进行拟合,理想比例掩膜(IRM)作为回归目标。在方法上与全连接层网络、RNNoise对比,在目标上将理想比例掩膜与直... 利用神经网络提高语音增强模型的性能与泛化能力。对语音信号做短时傅立叶变换并提取对数能量谱特征,使用卷积循环网络(CRN)进行拟合,理想比例掩膜(IRM)作为回归目标。在方法上与全连接层网络、RNNoise对比,在目标上将理想比例掩膜与直接映射(DM)对比。在未训练过的噪声各个信噪比(SNR)上平均提高主观质量评分0.55分。 展开更多
关键词 神经网络 语音增强 卷积循环网络 理想比例掩膜
下载PDF
基于掩码迭代估计的多通道语音识别算法
9
作者 王智国 黄磊 王海坤 《信息技术与标准化》 2018年第8期65-69,72,共6页
提出一种基于多通道语音识别的用于波束形成的闭环掩码迭代估计算法,通过神经网络迭代和语音识别获得理想比例掩码估计和语音活动检测信息。结合输入特性数据和输出得分数据,在CHiME-4六通道语音识别实测数据上该算法优于基于复高斯混... 提出一种基于多通道语音识别的用于波束形成的闭环掩码迭代估计算法,通过神经网络迭代和语音识别获得理想比例掩码估计和语音活动检测信息。结合输入特性数据和输出得分数据,在CHiME-4六通道语音识别实测数据上该算法优于基于复高斯混合模型算法,字识别错误率指标下降了24.1%。 展开更多
关键词 CHiME-4挑战赛 深度学习 理想比例掩码 麦克风阵列 语音识别
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部