摘要
为进一步研究语音特征提取方法,分析了基于逆离散余弦变换倒谱系数(IDCT CC)的语音特征,利用频域语音信号间的余弦相似度(cosine similarity)特性将IDCT CC进行层次聚类,得到14维频域语音特征向量(feature vector),称之为C-vector。实验中,建立基于高斯混合模型(Gaussian mixture model,GMM)的说话人识别模型对C-vector进行识别精度和时间的讨论,并与经典的梅尔频率倒谱系数和等频域倒谱系数(histogram of DCT cepstrum coefficients,HDCC)进行对比实验。通过具体的实验结果比较,提出的C-vector在识别精度方面比MFCC和HDCC分别高出7%和5%。而且,C-vector在多人语音集下表现出的识别能力更为优异。
出处
《计算机应用研究》
CSCD
北大核心
2020年第S02期147-149,共3页
Application Research of Computers
基金
国家自然科学基金资助项目(61751202,61751205,U1813203,61803064,71831002,51939001,61976033)
辽宁省兴辽英才计划项目(XLYC1807046,XLYC1908018)
大连市科技创新基金资助项目(2018J11CY022)
辽宁省自然科学基金资助项目(3132019501,3132019502)
中央高校基本科研业务费资助项目(3132019345)