为提高歌声识别准确率,提出一种基于Transformer并带有纠正模型的歌声识别方法TSC(transformer with spelling correction)。利用注意力机制,使网络学习对应的歌词发音。在模型输入模块,增加由卷积神经网络组成的特征提取层,提取歌声特...为提高歌声识别准确率,提出一种基于Transformer并带有纠正模型的歌声识别方法TSC(transformer with spelling correction)。利用注意力机制,使网络学习对应的歌词发音。在模型输入模块,增加由卷积神经网络组成的特征提取层,提取歌声特征。在输出模块后面,增加由卷积神经网络和双向循环神经网络组成的纠正模型,修正模型的输出结果。针对歌声样本量较少,模型训练困难的问题,提出了使用汉语语音数据集AISHELL-1进行预训练,并自制一组数据进行数据增强,对歌声识别模型参数进行微调。在增强的Opencpop歌声数据集上进行实验的结果表明,提出的歌声识别系统的字错率降低到了31.92%。展开更多
针对单一传统方法对歌声分离不彻底的问题,文章提出了一种基于鲁棒主成分分析(Robust Principal Component Analysis,RPCA)和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)反复结构的两步歌声伴奏分离模型。该模型有效...针对单一传统方法对歌声分离不彻底的问题,文章提出了一种基于鲁棒主成分分析(Robust Principal Component Analysis,RPCA)和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)反复结构的两步歌声伴奏分离模型。该模型有效地改善了鲁棒主成分分析对歌声分离不完全和梅尔频率倒谱系数反复结构歌声在低频处分离不佳的问题。首先使用鲁棒主成分分析将混合音乐信号分解为低秩矩阵和稀疏矩阵,然后分别对其提取梅尔频率倒谱系数特征参数并且对其进行相似运算,构建相似矩阵及建立梅尔频率倒谱系数反复结构模型并通过反复结构模型分别得到低秩矩阵和稀疏矩阵相关的掩蔽矩阵,最后根据构建的掩蔽矩阵模型以及傅里叶逆变换得到背景音乐和歌声。在公开数据集上进行了实验,实验结果表明本文算法在歌声分离性能上与比较算法相比,平均信号干扰比值最高有接近7 dB的提高。展开更多
文摘为提高歌声识别准确率,提出一种基于Transformer并带有纠正模型的歌声识别方法TSC(transformer with spelling correction)。利用注意力机制,使网络学习对应的歌词发音。在模型输入模块,增加由卷积神经网络组成的特征提取层,提取歌声特征。在输出模块后面,增加由卷积神经网络和双向循环神经网络组成的纠正模型,修正模型的输出结果。针对歌声样本量较少,模型训练困难的问题,提出了使用汉语语音数据集AISHELL-1进行预训练,并自制一组数据进行数据增强,对歌声识别模型参数进行微调。在增强的Opencpop歌声数据集上进行实验的结果表明,提出的歌声识别系统的字错率降低到了31.92%。
文摘针对单一传统方法对歌声分离不彻底的问题,文章提出了一种基于鲁棒主成分分析(Robust Principal Component Analysis,RPCA)和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)反复结构的两步歌声伴奏分离模型。该模型有效地改善了鲁棒主成分分析对歌声分离不完全和梅尔频率倒谱系数反复结构歌声在低频处分离不佳的问题。首先使用鲁棒主成分分析将混合音乐信号分解为低秩矩阵和稀疏矩阵,然后分别对其提取梅尔频率倒谱系数特征参数并且对其进行相似运算,构建相似矩阵及建立梅尔频率倒谱系数反复结构模型并通过反复结构模型分别得到低秩矩阵和稀疏矩阵相关的掩蔽矩阵,最后根据构建的掩蔽矩阵模型以及傅里叶逆变换得到背景音乐和歌声。在公开数据集上进行了实验,实验结果表明本文算法在歌声分离性能上与比较算法相比,平均信号干扰比值最高有接近7 dB的提高。