期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
听觉注意模型的语谱图语音情感识别方法 被引量:1
1
作者 张昕然 查诚 +2 位作者 宋鹏 陶华伟 赵力 《信号处理》 CSCD 北大核心 2016年第9期1117-1125,共9页
在语音情感识别技术中,由于噪声环境、说话方式和说话人特质原因,造成特征向量空间分布不匹配的情况。从语音学上分析,该问题多存在于跨数据库情感识别实验。训练的声学模型和用于测试的语句样本之间的错位,会使语音情感识别性能剧烈下... 在语音情感识别技术中,由于噪声环境、说话方式和说话人特质原因,造成特征向量空间分布不匹配的情况。从语音学上分析,该问题多存在于跨数据库情感识别实验。训练的声学模型和用于测试的语句样本之间的错位,会使语音情感识别性能剧烈下降。语谱图的特征能从图像的角度对现有情感特征进行有效的补充。本文据此所研究的听觉选择性注意模型,模拟人耳听觉特性,能有效探测语谱图上变化的情感特征。同时,利用时频原子对模型进行改进,取得频率特性信号匹配的优势,从时域上提取情感信息。选择注意机制使模型能提取跨语音数据库中的显著性特征,提高语音情感识别系统的情感辨识能力。实验结果表明,利用文章所提方法在跨库情感样本上进行特征提取,再通过典型的分类器,识别性能提高了约9个百分点,从而验证了该方法对不同数据库具有更好的鲁棒性。 展开更多
关键词 音情感识别 跨数据库 语谱图特征 听觉注意机制 时频原子
下载PDF
基于特征语谱图和自适应聚类SOM的快速说话人识别 被引量:5
2
作者 贾艳洁 陈曦 +1 位作者 于洁琼 王连明 《科学技术与工程》 北大核心 2019年第15期211-218,共8页
为获得说话人发音特征,基于仿生思想,提出一种基于语谱图统计的方法,通过对说话人短时语谱图的线性叠加获得可表征说话人稳定发音特征的特征语谱图。为解决资源受限的设备中说话人识别系统网络训练速度慢、识别效率低的问题,基于传统自... 为获得说话人发音特征,基于仿生思想,提出一种基于语谱图统计的方法,通过对说话人短时语谱图的线性叠加获得可表征说话人稳定发音特征的特征语谱图。为解决资源受限的设备中说话人识别系统网络训练速度慢、识别效率低的问题,基于传统自组织映射(self-organizing feature map,SOM)神经网络提出了一种自适应聚类SOM (adaptive clustering-SOM,ACSOM)算法,随着待识别说话人数的增加,自动调节增加竞争层神经元个数,直至聚类数达到说话人个数。采用该AC-SOM模型对100人的自建特征语谱图样本库进行聚类识别,最大训练时间只需304 s,最大单张识别时间小于28 ms;在识别人数相同时,相对于所对比的其他识别方法,该方法大大提升了网络训练速度和识别速度,满足了边缘智能(edge intelligence)系统中对数据处理与执行的实时性的要求。 展开更多
关键词 说话人识别 特征 自适应聚类 神经网络 统计 深度学习
下载PDF
基于多任务深度特征提取及MKPCA特征融合的语音情感识别 被引量:1
3
作者 李宝芸 张雪英 +3 位作者 李娟 黄丽霞 陈桂军 孙颖 《太原理工大学学报》 CAS 北大核心 2023年第5期782-788,共7页
【目的】针对传统声学特征所含情感信息不足的问题,提出一种基于多任务学习的深度特征提取模型优化声学特征,所提声学深度特征既能更好表征自身又拥有更多情感信息。【方法】基于声学特征与语谱图特征之间的互补性,首先通过卷积神经网... 【目的】针对传统声学特征所含情感信息不足的问题,提出一种基于多任务学习的深度特征提取模型优化声学特征,所提声学深度特征既能更好表征自身又拥有更多情感信息。【方法】基于声学特征与语谱图特征之间的互补性,首先通过卷积神经网络提取语谱图特征,然后使用多核主成分分析方法对这两个特征进行特征融合降维,所得融合特征可有效提升系统识别性能。【结果】在EMODB语音库与CASIA语音库上进行实验验证,当采用DNN分类器时,声学深度特征与语谱图特征的多核融合特征取得最高识别率为92.71%、88.25%,相比直接拼接特征,识别率分别提升2.43%、2.83%. 展开更多
关键词 音情感识别 多任务学习 声学深度特征 语谱图特征 多核主成分分析
下载PDF
用于语音检索的三联体深度哈希方法
4
作者 张秋余 温永旺 《计算机应用》 CSCD 北大核心 2023年第9期2910-2918,共9页
现有基于内容的语音检索中深度哈希方法对监督信息利用不足,生成的哈希码是次优的,而且检索精度和检索效率不高。针对以上问题,提出一种用于语音检索的三联体深度哈希方法。首先,将语谱图图像特征以三联体方式作为模型的输入来提取语音... 现有基于内容的语音检索中深度哈希方法对监督信息利用不足,生成的哈希码是次优的,而且检索精度和检索效率不高。针对以上问题,提出一种用于语音检索的三联体深度哈希方法。首先,将语谱图图像特征以三联体方式作为模型的输入来提取语音特征的有效信息;然后,提出注意力机制-残差网络(ARN)模型,即在残差网络(ResNet)的基础上嵌入空间注意力力机制,并通过聚集整个语谱图能量显著区域信息来提高显著区域表示;最后,引入新三联体交叉熵损失,将语谱图图像特征之间的分类信息和相似性映射到所学习的哈希码中,可在模型训练的同时实现最大的类可分性和最大的哈希码可分性。实验结果表明,所提方法生成的高效紧凑的二值哈希码使语音检索的查全率、查准率、F1分数均超过了98.5%。与单标签检索等方法相比,使用Log-Mel谱图作为特征的所提方法的平均运行时间缩短了19.0%~55.5%,能在减小计算量的同时,显著提高检索效率和精度。 展开更多
关键词 音检索 三联体深度哈希 注意力机制 语谱图特征 三联体交叉熵损失
下载PDF
用于跨库语音情感识别的时频原子听觉注意模型(英文)
5
作者 张昕然 宋鹏 +2 位作者 查诚 陶华伟 赵力 《Journal of Southeast University(English Edition)》 EI CAS 2016年第4期402-407,共6页
为解决跨数据库语音情感识别领域中实验数据集特征不匹配的问题,提出一种基于时频原子的听觉注意特征提取模型.首先,为了提取频谱特征,引入听觉注意模型对多类情感特征进行有效的探测.然后,利用选择注意机制改进了提取的语谱图特征,其... 为解决跨数据库语音情感识别领域中实验数据集特征不匹配的问题,提出一种基于时频原子的听觉注意特征提取模型.首先,为了提取频谱特征,引入听觉注意模型对多类情感特征进行有效的探测.然后,利用选择注意机制改进了提取的语谱图特征,其中包含的显著性信息与跨库识别性能有紧密联系.再引入Chirplet时频原子,通过形成的过完备原子库提高语谱图特征的信息量.来自多个数据库的样本具有多成分分布的特征,据此所提模型中的Chirplet扩大了特征向量在时频域上的尺度.实验结果显示,相比传统特征模型,所提方法性能有显著提升.此外,该方法在训练集和测试集来源不一致情况下具有更好的鲁棒性. 展开更多
关键词 音情感识别 选择性注意机制 语谱图特征 跨数据库
下载PDF
基于输出的语音质量客观评价方法研究 被引量:1
6
作者 陈国 胡修林 +1 位作者 杨灵 朱耀庭 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2001年第5期86-88,共3页
在分析语谱图基础上提出了一种基于输出的语音质量客观评价方法———度量语谱图密度分布特征MDCSD (MeasuringDistributionCharacteristicsofSpectrogramDensity)方法 .该方法通过计算功率谱二维联合概率分布特征来描述不同质量语音信... 在分析语谱图基础上提出了一种基于输出的语音质量客观评价方法———度量语谱图密度分布特征MDCSD (MeasuringDistributionCharacteristicsofSpectrogramDensity)方法 .该方法通过计算功率谱二维联合概率分布特征来描述不同质量语音信号的语谱图特征 ,并以此来对语音质量进行客观评价 .实验结果表明该方法是一种性能良好的基于输出的客观评价方法 ,其评价结果与主观评价的相关度达到了 0 .8左右 . 展开更多
关键词 音质量 客观评价 质量密度分布特征 特征参量
下载PDF
基于改进VGG-16网络的交通声音事件分类方法研究
7
作者 徐科 姚凌云 +1 位作者 姚静怡 姚敦辉 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第12期145-156,共12页
交通声音事件分类是提升城市智慧交通系统环境感知能力的关键技术之一.针对传统交通系统的环境声音感知能力弱、效率低、鲁棒性低、可分类数量少等问题,研究了一种基于VGG卷积神经网络的交通声音事件分类方法,该方法使用语谱图(spectrog... 交通声音事件分类是提升城市智慧交通系统环境感知能力的关键技术之一.针对传统交通系统的环境声音感知能力弱、效率低、鲁棒性低、可分类数量少等问题,研究了一种基于VGG卷积神经网络的交通声音事件分类方法,该方法使用语谱图(spectrogram image features,SIF)作为交通声学特征,建立并优化了卷积神经网络(convolutional neural networks,CNN),从而实现交通声音的智能分类.首先,使用实验室采集的10种交通声音,构建了交通声音数据集.其次,利用语谱图方法对交通声音进行声学特征提取,搭建VGG-16分类算法主模型,通过双卷积层融合算法和块间直连通道对网络进行改进,得到了VGG-TSEC网络.该优化网络的交通声音事件分类准确率可达97.18%,与优化前相比准确率提升4.68%,其权重参数降低72.76%,占用空间降低384MB.同时,将该优化模型与K邻近(KNN)、支持向量机(SVM)等机器学习方法进行对比,其准确率分别提高了19.68%和4.41%.结果表明,VGG-TSEC交通声音分类方法可以实现警笛音、事故碰撞、行人尖叫、卡车等交通声音的高效分类,为交通声音事件分类提供参考. 展开更多
关键词 交通声音事件分类 卷积神经网络 交通声音 语谱图特征 深度学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部