期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于多参考信号ICA的目标语音提取方法 被引量:1
1
作者 王青云 宗慧 《微计算机信息》 2012年第8期14-16,共3页
为了能够在强噪声、干扰声等复杂环境下提取干净的目标语音,提高输出信号的信噪比和信干比,本文提出了一种基于多参考信号ICA算法的语音提取方案。该方法利用声源定位、波束形成和小波分解等算法结果作为参考信号,应用基于负熵的FastIC... 为了能够在强噪声、干扰声等复杂环境下提取干净的目标语音,提高输出信号的信噪比和信干比,本文提出了一种基于多参考信号ICA算法的语音提取方案。该方法利用声源定位、波束形成和小波分解等算法结果作为参考信号,应用基于负熵的FastICA算法估计目标语音。使用麦克风阵实测语音信号的仿真实验证明,本文提出的算法能有效地抑制背景噪声和干扰声,恢复目标语音波形和语谱图。与常规波束形成和ICA算法相比较,本文的处理方法有更好的性能,输出信号的信噪比和信干比更高。 展开更多
关键词 目标语音提取 多参考信号ICA 波束形成 小波分解
下载PDF
基于跨模态注意力的目标语音提取
2
作者 杨明强 卢健 《计算机工程》 CAS 2024年第9期121-129,共9页
目标语音提取作为语音分离领域的一部分,旨在从混合语音数据中提取出目标语音。考虑到视听信息具有天然一致性,在进行模型训练时,可以融合视觉信息指导模型对目标语音的提取。对此,传统方法是将视觉特征和音频特征进行简单拼接,然后进... 目标语音提取作为语音分离领域的一部分,旨在从混合语音数据中提取出目标语音。考虑到视听信息具有天然一致性,在进行模型训练时,可以融合视觉信息指导模型对目标语音的提取。对此,传统方法是将视觉特征和音频特征进行简单拼接,然后进行卷积操作实现通道融合,这种方法无法有效挖掘到跨模态信息间的相关性。针对这个问题,设计一个基于两阶段的跨模态注意力特征融合模块。在第一阶段进行点积注意力计算来挖掘跨模态信息间存在的浅层相关性,在第二阶段进行自注意力计算来捕捉目标语音特征间的全局依赖关系,以增强目标语音的特征表示,2个融合阶段分别训练不同的可学习参数来调节注意力权重。此外还在时间卷积网络(TCN)中引入门控循环单元(GRU)来增强其捕捉序列数据间长期依赖关系的能力,从而改善视觉特征的提取,进一步提升视听特征的融合效果。在VoxCeleb2和LRS2-BBC两个数据集上进行测试,实验结果表明,相比于基线方法,提出的方法在2个数据集上都有较好的表现,在评估指标源失真比(SDR)上分别提升了1.05 dB和0.26 dB。 展开更多
关键词 目标语音提取 跨模态融合 自注意力 时间卷积网络 门控循环单元
下载PDF
基于深度学习的目标说话人语音提取
3
作者 王志雄 《电脑知识与技术》 2024年第10期37-40,共4页
人类能够在多人交谈的复杂环境中专注并识别目标说话人的语音,而现有机器技术尚未完全达到这一水平。针对这一实际应用场景,本文提出了一种时域目标说话人语音提取网络架构,该架构无需将混合语音分解为幅度谱和相位谱,而是直接将其转换... 人类能够在多人交谈的复杂环境中专注并识别目标说话人的语音,而现有机器技术尚未完全达到这一水平。针对这一实际应用场景,本文提出了一种时域目标说话人语音提取网络架构,该架构无需将混合语音分解为幅度谱和相位谱,而是直接将其转换为嵌入系数,从而规避了复杂的相位估计。该网络由四个关键部分构成,即说话人辅助网络、语音编码器、目标说话人语音提取器以及语音解码器。具体而言,语音编码器负责将混合语音转化为嵌入系数;说话人辅助网络则通过学习以说话人嵌入形式表示目标说话人特征;目标说话人语音提取器以嵌入系数与目标说话人嵌入作为输入,进而估计出一个接收掩模;最后,语音解码器根据处理过的嵌入系数重新构造出目标说话人的语音。实验结果显示,在开放评测环境下,相较于基准模型,所提方法在SDR(Signal-to-Distortion Ratio)和SI-SDR(Source-to-Interference Signal-to-Distortion Ratio)指标上分别取得了相对提升2.62dB和2.52dB的成绩。实验结果有力证明了该方法具有更好的抗干扰性和泛化性能。 展开更多
关键词 单通道 目标说话人语音提取 时域语音信号 泛化性 语音编码器 语音解码器
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部