期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于注意力机制的LSTM语音情感主要特征选择 被引量:10
1
作者 胡婷婷 冯亚琴 +1 位作者 沈凌洁 王蔚 《声学技术》 CSCD 北大核心 2019年第4期414-421,共8页
传统的语音情感识别方式采用的语音特征具有数据量大且无关特征多的特点,因此选择出与情感相关的语音特征具有重要意义。通过提出将注意力机制结合长短时记忆网络(LongShortTermMemory,LSTM),根据注意力权重进行特征选择,在两个数据集... 传统的语音情感识别方式采用的语音特征具有数据量大且无关特征多的特点,因此选择出与情感相关的语音特征具有重要意义。通过提出将注意力机制结合长短时记忆网络(LongShortTermMemory,LSTM),根据注意力权重进行特征选择,在两个数据集上进行了实验。结果发现:(1)基于注意力机制的LSTM相比于单独的LSTM模型,识别率提高了5.4%,可见此算法有效提高了模型的识别效果;(2)注意力机制是一种有效的特征选择方法。采用注意力机制选择出了具有实际物理意义的声学特征子集,此特征集相比于原有公用特征集在降低了维数的情况下,提高了识别准确率;(3)根据选择结果对声学特征进行分析,发现有声片段长度特征、无声片段长度特征、梅尔倒谱系数(Mel-FrequencyCepstralCoefficient,MFCC)、F0基频等特征与情感识别具有较大相关性。 展开更多
关键词 特征选择 语音情感识别 深度学习 注意力机制
下载PDF
语音与文本情感识别中愤怒与开心误判分析 被引量:5
2
作者 胡婷婷 沈凌洁 +1 位作者 冯亚琴 王蔚 《计算机技术与发展》 2018年第11期124-127,134,共5页
在语音情感识别的研究中发现,愤怒与开心之间通过语音信息较难区分,文中将结合文本信息对这两种情感进行区分,以提高其识别率。使用IEMOCAP与SAVEE数据集中语音数据提取声学特征,分别使用卷积神经网络与支持向量机训练分类器模型,对中... 在语音情感识别的研究中发现,愤怒与开心之间通过语音信息较难区分,文中将结合文本信息对这两种情感进行区分,以提高其识别率。使用IEMOCAP与SAVEE数据集中语音数据提取声学特征,分别使用卷积神经网络与支持向量机训练分类器模型,对中性、愤怒、开心、悲伤四类情感进行识别,对情感之间误判情况以及识别准确率进行分析,验证了语音通道信息对于愤怒与开心容易产生误判的结论。为解决此问题,加入文本信息,训练文本识别模型,有效解决了愤怒与开心的误判情况。同时发现两通道信息对情感识别的不同影响,在声音中包含更多利于识别愤怒和悲伤情感的信息;在文本中包含更多利于识别中性与开心情感的信息。声音情感识别中,愤怒/开心之间易误判,愤怒/悲伤之间易区分。文本情感识别中,愤怒/开心之间易区分,愤怒/悲伤之间易误判。声学与文本特征融合后,情感识别准确率相比单一通道明显提高,两通道信息对于情感识别具有互补作用。 展开更多
关键词 情感识别 声学特征 文本特征 混淆矩阵
下载PDF
基于融合特征的短语音汉语声调自动识别方法 被引量:3
3
作者 沈凌洁 王蔚 《声学技术》 CSCD 北大核心 2018年第2期167-174,共8页
提出一种基于韵律特征(基频、时长)和梅尔倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)特征的融合特征进行短语音汉语声调识别的方法,旨在利用两种特征的优势提高短语音汉语声调识别率。该融合特征包括7个根据不同模型得到的韵... 提出一种基于韵律特征(基频、时长)和梅尔倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)特征的融合特征进行短语音汉语声调识别的方法,旨在利用两种特征的优势提高短语音汉语声调识别率。该融合特征包括7个根据不同模型得到的韵律特征和统计参数以及4个从每个音段的梅尔倒谱系数计算得来的对数化后验概率,使用高斯混合模型表示4个声调的倒谱特征的分布。实验分两步:第一步,将基于韵律特征和倒谱特征的分类器在决策阶段混合起来进行声调分类,分别赋予两个分类器权重,计算倒谱特征和韵律特征在声调分类任务中的权重;第二步,将基于字的韵律特征和基于帧的倒谱特征结合起来生成融合特征的超向量,使用融合特征进行汉语声调识别,根据准确率、未加权平均召回率(Unweigted Average Recall,UAR)和科恩卡帕(Cohen’s Kappa)系数3个指标,比较并评估5种分类器(两种设置的高斯混合模型,后向传播神经网络,支持向量机和卷积神经网络(Convolutional Neural Network,CNN))在不平衡数据集上的分类效果。实验结果表明:(1)倒谱特征方法能够提高汉语声调的识别率,该特征在总体分类任务中的权重为0.11;(2)基于融合特征的深度学习(CNN)方法对声调的识别率最高,为87.6%,与高斯混合模型的基线系统相比,提高了5.87%。该研究证明了倒谱特征法能够提供与韵律特征法互补的信息,从而提高短语音汉语声调识别率;同时,该方法可以运用到韵律检测和副语言信息检测等相关研究中。 展开更多
关键词 韵律特征 倒谱特征 梅尔倒谱系数 短语音声调 声调分类 融合 卷积神经网络
下载PDF
利用语音与文本特征融合改善语音情感识别 被引量:3
4
作者 冯亚琴 沈凌洁 +1 位作者 胡婷婷 王蔚 《数据采集与处理》 CSCD 北大核心 2019年第4期625-631,共7页
情感识别在人机交互中具有重要意义,为了提高情感识别准确率,将语音与文本特征融合。语音特征采用了声学特征和韵律特征,文本特征采用了基于情感词典的词袋特征(Bag-of-words,BoW)和N-gram模型。将语音与文本特征分别进行特征层融合与... 情感识别在人机交互中具有重要意义,为了提高情感识别准确率,将语音与文本特征融合。语音特征采用了声学特征和韵律特征,文本特征采用了基于情感词典的词袋特征(Bag-of-words,BoW)和N-gram模型。将语音与文本特征分别进行特征层融合与决策层融合,比较它们在IEMOCAP四类情感识别的效果。实验表明,语音与文本特征融合比单一特征在情感识别中表现更好;决策层融合比在特征层融合识别效果好。且基于卷积神经网络(Convolutional neural network,CNN)分类器,语音与文本特征在决策层融合中不加权平均召回率(Unweighted average recall,UAR)达到了68.98%,超过了此前在IEMOCAP数据集上的最好结果。 展开更多
关键词 情感识别 声学特征 韵律特征 文本特征 特征融合
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部