期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
融合LPC和MFCC特征的前馈神经网络短语音识别
1
作者 赵志宇 贺学剑 《长江信息通信》 2023年第11期171-174,共4页
文章针对短语音条件下声纹识别的鲁棒性问题,结合前馈神经网络对短语音特征表示进行了研究,采用LPC和MFCC特征融合对短语音进行识别。实验显示,通过前馈神经网络的训练,分类器在对通过录音设备获取的短语音说话人识别能达到较高的准确率... 文章针对短语音条件下声纹识别的鲁棒性问题,结合前馈神经网络对短语音特征表示进行了研究,采用LPC和MFCC特征融合对短语音进行识别。实验显示,通过前馈神经网络的训练,分类器在对通过录音设备获取的短语音说话人识别能达到较高的准确率,同时采用融合的LPC和MFCC在前馈神经网络中可以对短语音说话人识别达到87%的准确率。 展开更多
关键词 短语音识别 前馈神经网络 特征融合
下载PDF
基于多音素类模型的文本无关短语音说话人识别 被引量:1
2
作者 张陈昊 郑方 王琳琳 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第6期813-817,共5页
对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素... 对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。 展开更多
关键词 语音说话人识别 语音识别 音素类多模型
原文传递
Multi-head attention-based long short-term memory model for speech emotion recognition 被引量:1
3
作者 Zhao Yan Zhao Li +3 位作者 Lu Cheng Li Sunan Tang Chuangao Lian Hailun 《Journal of Southeast University(English Edition)》 EI CAS 2022年第2期103-109,共7页
To fully make use of information from different representation subspaces,a multi-head attention-based long short-term memory(LSTM)model is proposed in this study for speech emotion recognition(SER).The proposed model ... To fully make use of information from different representation subspaces,a multi-head attention-based long short-term memory(LSTM)model is proposed in this study for speech emotion recognition(SER).The proposed model uses frame-level features and takes the temporal information of emotion speech as the input of the LSTM layer.Here,a multi-head time-dimension attention(MHTA)layer was employed to linearly project the output of the LSTM layer into different subspaces for the reduced-dimension context vectors.To provide relative vital information from other dimensions,the output of MHTA,the output of feature-dimension attention,and the last time-step output of LSTM were utilized to form multiple context vectors as the input of the fully connected layer.To improve the performance of multiple vectors,feature-dimension attention was employed for the all-time output of the first LSTM layer.The proposed model was evaluated on the eNTERFACE and GEMEP corpora,respectively.The results indicate that the proposed model outperforms LSTM by 14.6%and 10.5%for eNTERFACE and GEMEP,respectively,proving the effectiveness of the proposed model in SER tasks. 展开更多
关键词 speech emotion recognition long short-term memory(LSTM) multi-head attention mechanism frame-level features self-attention
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部