期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于语音分离的人工设计特征、参数化特征和可学习特征的比较
1
作者 朱文博 王谋 +1 位作者 张晓雷 Susanto Rahardja 《中国传媒大学学报(自然科学版)》 2021年第3期52-57,共6页
声学特征可以大致分为三类:人工设计特征,参数化特征和可学习特征。其中,可学习特征是指将其与分离网络以端到端的方式进行联合训练,如时域卷积语音分离网络(convolutional time domain audio separation network,Conv‑Tasnet),这成为... 声学特征可以大致分为三类:人工设计特征,参数化特征和可学习特征。其中,可学习特征是指将其与分离网络以端到端的方式进行联合训练,如时域卷积语音分离网络(convolutional time domain audio separation network,Conv‑Tasnet),这成为了如今语音分离研究中的一种新的趋势。然而在最近的研究中证明了人工设计特征以及参数化特征也能产生具有竞争力的结果。但是,截止目前还没有工作对这三种声学特征进行系统的比较。本文通过设置不同声学特征作为编码器和解码器,在Conv‑Tasnet框架下对它们进行比较。我们还将人工设计的多相位gammatone滤波器组(multi‑phase gammatone filterbank,MPGTF)扩展为一种新的参数化多相位gammatone滤波器组(Parameterized MPGTF,ParaMPGTF)。在WSJ0‑2mix数据集上的实验结果表明:(i)如果解码器是可学习特征时,将编码器设置为STFT,MPGTF,ParaMPGTF以及可学习特征的性能相近;(ii)如果将STFT,MPGTF,ParaMPGTF的逆变换作为解码器时,所提出的ParaMPGTF相比于其他两种人工设计特征有更好的性能。 展开更多
关键词 语音分离 人工设计特征 参数化特征 可学习特征 多相位gammatone滤波器组
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部