期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
Dimensional emotion recognition in whispered speech signal based on cognitive performance evaluation
1
作者 吴晨健 黄程韦 陈虹 《Journal of Southeast University(English Edition)》 EI CAS 2015年第3期311-319,共9页
The cognitive performance-based dimensional emotion recognition in whispered speech is studied.First,the whispered speech emotion databases and data collection methods are compared, and the character of emotion expres... The cognitive performance-based dimensional emotion recognition in whispered speech is studied.First,the whispered speech emotion databases and data collection methods are compared, and the character of emotion expression in whispered speech is studied,especially the basic types of emotions.Secondly,the emotion features for whispered speech is analyzed,and by reviewing the latest references,the related valence features and the arousal features are provided. The effectiveness of valence and arousal features in whispered speech emotion classification is studied.Finally,the Gaussian mixture model is studied and applied to whispered speech emotion recognition. The cognitive performance is also considered in emotion recognition so that the recognition errors of whispered speech emotion can be corrected.Based on the cognitive scores,the emotion recognition results can be improved.The results show that the formant features are not significantly related to arousal dimension,while the short-term energy features are related to the emotion changes in arousal dimension.Using the cognitive scores,the recognition results can be improved. 展开更多
关键词 whispered speech emotion recognition emotion dimensional space
下载PDF
Speech Enhancement Algorithm Based on MMSE Short Time Spectral Amplitude in Whispered Speech 被引量:1
2
作者 Zhi-Heng Lu Huai-Zong Shao Tai-Liang Ju 《Journal of Electronic Science and Technology of China》 2009年第2期115-118,共4页
An improved method based on minimum mean square error-short time spectral amplitude (MMSE-STSA) is proposed to cancel background noise in whispered speech. Using the acoustic character of whispered speech, the algor... An improved method based on minimum mean square error-short time spectral amplitude (MMSE-STSA) is proposed to cancel background noise in whispered speech. Using the acoustic character of whispered speech, the algorithm can track the change of non-stationary background noise effectively. Compared with original MMSE-STSA algorithm and method in selectable mode Vo-coder (SMV), the improved algorithm can further suppress the residual noise for low signal-to-noise radio (SNR) and avoid the excessive suppression. Simulations show that under the non-stationary noisy environment, the proposed algorithm can not only get a better performance in enhancement, but also reduce the speech distortion. 展开更多
关键词 Index Terms-Minimum mean square error shorttime spectral amplitude (MMSE-STSA) speechenhancement whispered speech.
下载PDF
ARMA Modelling for Whispered Speech
3
作者 栗学丽 周卫东 《Journal of Measurement Science and Instrumentation》 CAS 2010年第3期300-303,共4页
The Autoregressive Moving Average (ARMA) model for whispered speech is proposed. with normal speech, whispered speech has no fundamental frequency because of the glottis being semi-opened and turbulent flow being cr... The Autoregressive Moving Average (ARMA) model for whispered speech is proposed. with normal speech, whispered speech has no fundamental frequency because of the glottis being semi-opened and turbulent flow being created, and formant shifting exists in the lower frequency region due to the narrowing of the tract in the false vocal fold regions and weak acoustic coupling with the aubglottal system. Analysis shows that the effect of the subglottal system is to introduce additional pole-zero pairs into the vocal tract transfer function. Theoretically, the method based on an ARMA process is superior to that based on an AR process in the spectral analysis of the whispered speech. Two methods, the least squared modified Yule-Walker likelihood estimate (LSMY) algorithm and the Frequency-Domain Steiglitz-Mcbide (FDSM) algorithm, are applied to the ARMA mfldel for the whispered speech. The performance evaluation shows that the ARMA model is much more appropriate for representing the whispered speech than the AR model, and the FDSM algorithm provides a name acorate estimation of the whispered speech spectral envelope than the LSMY algorithm with higher conputational complexity. 展开更多
关键词 ARMA model AR model whispered speech LSMY
下载PDF
Whisper intelligibility enhancement based on noise robust feature and SVM 被引量:2
4
作者 周健 赵力 +1 位作者 梁瑞宇 方贤勇 《Journal of Southeast University(English Edition)》 EI CAS 2012年第3期261-265,共5页
A machine learning based speech enhancement method is proposed to improve the intelligibility of whispered speech. A binary mask estimated by a two-class support vector machine (SVM) classifier is used to synthesize... A machine learning based speech enhancement method is proposed to improve the intelligibility of whispered speech. A binary mask estimated by a two-class support vector machine (SVM) classifier is used to synthesize the enhanced whisper. A novel noise robust feature called Gammatone feature cosine coefficients (GFCCs) extracted by an auditory periphery model is derived and used for the binary mask estimation. The intelligibility performance of the proposed method is evaluated and compared with the traditional speech enhancement methods. Objective and subjective evaluation results indicate that the proposed method can effectively improve the intelligibility of whispered speech which is contaminated by noise. Compared with the power subtract algorithm and the log-MMSE algorithm, both of which do not improve the intelligibility in lower signal-to-noise ratio (SNR) environments, the proposed method has good performance in improving the intelligibility of noisy whisper. Additionally, the intelligibility of the enhanced whispered speech using the proposed method also outperforms that of the corresponding unprocessed noisy whispered speech. 展开更多
关键词 whispered speech intelligibility enhancement noise robust feature machine learning
下载PDF
Intelligibility evaluation of enhanced whisper in joint time-frequency domain 被引量:1
5
作者 周健 魏昕 +1 位作者 梁瑞宇 赵力 《Journal of Southeast University(English Edition)》 EI CAS 2014年第3期261-266,共6页
Some factors influencing the intelligibility of the enhanced whisper in the joint time-frequency domain are evaluated. Specifically, both the spectrum density and different regions of the enhanced spectrum are analyze... Some factors influencing the intelligibility of the enhanced whisper in the joint time-frequency domain are evaluated. Specifically, both the spectrum density and different regions of the enhanced spectrum are analyzed. Experimental results show that for a spectrum of some density, the joint time-frequency gain-modification based speech enhancement algorithm achieves significant improvement in intelligibility. Additionally, the spectrum region where the estimated spectrum is smaller than the clean spectrum, is the most important region contributing to intelligibility improvement for the enhanced whisper. The spectrum region where the estimated spectrum is larger than twice the size of the clean spectrum is detrimental to speech intelligibility perception within the whisper context. 展开更多
关键词 whispered speech enhancement intelligibilityevaluation real-valued discrete Gabor transform joint time-frequency analysis
下载PDF
基于线性预测能量谱系数的自然语音和耳语音的分类研究 被引量:1
6
作者 姚真真 胡金瑶 艾斯卡尔·艾木都拉 《现代电子技术》 2023年第2期85-90,共6页
在进行语音识别之前对自然语音和耳语音进行预分类,再分别放入各自的识别系统,可以提高耳语语音识别系统的识别性能。基于此,文中提出一个新的特征线性预测能量谱系数(LPESC),在该特征的提取过程中,对提取到的频谱图进行切分,以便获取... 在进行语音识别之前对自然语音和耳语音进行预分类,再分别放入各自的识别系统,可以提高耳语语音识别系统的识别性能。基于此,文中提出一个新的特征线性预测能量谱系数(LPESC),在该特征的提取过程中,对提取到的频谱图进行切分,以便获取到更多的语音信息,并将其用于耳语音分类。此外,还特别设计4种不同的滤波器组,并将提取到的特征应用于7个分类器上。实验结果表明,密集的均匀三角滤波器组更加适合提取该特征,在7种传统分类器上均有较好的分类效果,其中SVM分类效果最好。最后,对比LPESC与传统特征(39维的LFCC和MFCC)在7种分类器上的分类效果,验证新特征的有效性。实验还发现,女生的耳语音有更好的分类效果。 展开更多
关键词 语音分类 语音识别 耳语音 线性预测能量谱系数 特征提取 频谱图切分 结果分析 效果验证
下载PDF
基于改进LPCC和MFCC的汉语耳语音识别 被引量:17
7
作者 荣薇 陶智 +1 位作者 顾济华 赵鹤鸣 《计算机工程与应用》 CSCD 北大核心 2007年第30期213-216,共4页
以提高汉语耳语的识别率为目的,提出了将MFCC、LPCC及它们各自的动态参数等多种特征有效结合进行耳语识别的方法。实验结果说明了LPCC、MFCC结合动态参数可作为汉语耳语音识别的特征参数,且它们的结合提高了系统的识别率,在小字库内得... 以提高汉语耳语的识别率为目的,提出了将MFCC、LPCC及它们各自的动态参数等多种特征有效结合进行耳语识别的方法。实验结果说明了LPCC、MFCC结合动态参数可作为汉语耳语音识别的特征参数,且它们的结合提高了系统的识别率,在小字库内得出的识别率为94.5%。 展开更多
关键词 耳语音 语音识别 LPCC参数 MFCC参数
下载PDF
基于修正MFCC参数汉语耳语音的话者识别 被引量:23
8
作者 林玮 杨莉莉 徐柏龄 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2006年第1期54-62,共9页
耳语音的话者识别是一个较新的研究课题,许多参数模型与正常音存在差异.例如话者识别中常见的M el倒谱系数(MFCC)应用于耳语音中就存在共振峰和听觉敏感区域定位的偏差.基于对耳语音共振峰位置、能量以及人耳对耳语音听觉模型的研究提... 耳语音的话者识别是一个较新的研究课题,许多参数模型与正常音存在差异.例如话者识别中常见的M el倒谱系数(MFCC)应用于耳语音中就存在共振峰和听觉敏感区域定位的偏差.基于对耳语音共振峰位置、能量以及人耳对耳语音听觉模型的研究提出了修正MFCC参数MFCCM和MFCCExp-Log,并结合两种参数的特点,改进了传统隐马尔可夫模型,建立了适用于耳语音的汉语话者识别系统.通过1 600个音的话者识别实验得出采用MFCCM的正确率为88.88%;MFCCExp-Log参数为91.38%;如果采用改进隐马尔可夫模型正确率可以提高到92.31%,均高于传统参数模型.实验表明,修正MFCC参数可以作为表征耳语音特点的参数,它提高了耳语音话者识别系统的识别率. 展开更多
关键词 耳语音 话者识别 MFCC参数 隐马尔可夫模型
下载PDF
耳语音情感数据库的设计与建立 被引量:8
9
作者 金赟 赵艳 +1 位作者 黄程韦 赵力 《声学技术》 CSCD 2010年第1期63-68,共6页
为了研究耳语音情感识别,制定了耳语音情感数据库的制作流程和制作规范,设计并建立了一个包含4000个单词、5000条语句和600个段落的耳语音情感数据库。利用模糊数学中的隶属度函数和层次分析法对语句的有效性进行了检验,得到一个满足研... 为了研究耳语音情感识别,制定了耳语音情感数据库的制作流程和制作规范,设计并建立了一个包含4000个单词、5000条语句和600个段落的耳语音情感数据库。利用模糊数学中的隶属度函数和层次分析法对语句的有效性进行了检验,得到一个满足研究要求的耳语音情感数据库。利用库中的语料进行初步的耳语音情感识别,得知正常音语音情感识别所用的音长、能量等参数,在耳语音中仍然可以使用;而正常音的其它涉及基音的一些参数,不适用于耳语音,需要进行改进或者提取新的特征参数。 展开更多
关键词 耳语音 情感识别 数据库 隶属度函数 层次分析法
下载PDF
基于听觉模型的耳语音的声韵切分 被引量:8
10
作者 丁慧 栗学丽 徐柏龄 《应用声学》 CSCD 北大核心 2004年第2期20-25,44,共7页
本文分析了耳语音的特点,并根据生理声学及心理声学的基本理论与实验资料,提出了一种利用听觉模型来进行耳语音声韵切分的方法。这种适用于耳语音声韵切分的听觉感知模型主要分为四个层次:耳蜗对声音频率的分解机理;听觉系统的时域和频... 本文分析了耳语音的特点,并根据生理声学及心理声学的基本理论与实验资料,提出了一种利用听觉模型来进行耳语音声韵切分的方法。这种适用于耳语音声韵切分的听觉感知模型主要分为四个层次:耳蜗对声音频率的分解机理;听觉系统的时域和频域非线性变化;中枢神经系统的侧抑制机理。这种模型能反映在噪声环境下人对低能量语音的听觉感知特性,因而适于耳语音识别,在耳语音声韵母切分实验中得到了满意的结果。 展开更多
关键词 耳语音识别 声韵切分 生理声学 心理声学 听觉模型
下载PDF
汉语耳语音孤立字识别研究 被引量:8
11
作者 杨莉莉 林玮 徐柏龄 《应用声学》 CSCD 北大核心 2006年第3期187-192,共6页
耳语音识别有着广泛的应用前景,是一个全新的课题。但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难。本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统。由于耳语音... 耳语音识别有着广泛的应用前景,是一个全新的课题。但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难。本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统。由于耳语音信噪比低,必须对其进行语音增强处理, 同时在识别系统中应用声调信息提高了识别性能。实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%。 展开更多
关键词 耳语音 语音识别 语音增强
下载PDF
基于概率神经网络的汉语耳语音识别系统 被引量:3
12
作者 荣薇 陶智 +1 位作者 顾济华 赵鹤鸣 《计算机工程与应用》 CSCD 北大核心 2008年第17期148-150,共3页
以提高汉语耳语的识别率为目的,提出了基于概率神经网(PNN)的语音识别系统。实验结果说明该方法提高了系统的识别率,大大缩短了识别时间,提高了整个系统的实时性。在小字库内得出的识别率为94.7%。
关键词 耳语音 语音识别 MFCC参数 神经网络
下载PDF
基于MD-CM-SFLA神经网络的耳语音情感识别 被引量:2
13
作者 张潇丹 包永强 +2 位作者 奚吉 赵力 邹采荣 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第5期848-853,共6页
提出了一种基于分子动力学模拟与云模型理论的改进混合蛙跳算法(MD-CM-SFLA).该算法将青蛙个体等效成分子,仅考虑最差个体和全局最优个体之间的吸引力,采用一种新的分子间作用力来代替两体间经典的Lennard-Jones作用力,并利用Velocity-V... 提出了一种基于分子动力学模拟与云模型理论的改进混合蛙跳算法(MD-CM-SFLA).该算法将青蛙个体等效成分子,仅考虑最差个体和全局最优个体之间的吸引力,采用一种新的分子间作用力来代替两体间经典的Lennard-Jones作用力,并利用Velocity-Verlet算法和正态云发生器代替混合蛙跳算法的更新策略,有效平衡了种群的多样性和搜索的高效性.然后,将MD-CM-SFLA算法与BP神经网络相结合,设计出一种MD-CM-SFLA神经网络,并将其应用于耳语音情感识别中.耳语音情感识别结果表明,MD-CM-SFLA神经网络相对于BP神经网络具有明显的优势,在相同的测试条件下,其平均识别率较BP神经网络提高5.2%.由此表明,利用MD-CM-SFLA算法优化BP神经网络的参数,可以实现BP神经网络的快速收敛,获得较好的学习能力,从而为耳语音情感识别提供一种新思路. 展开更多
关键词 混合蛙跳算法 分子动力学 云模型 Velocity—Verlet算法 BP神经网络 耳语音情感识别
下载PDF
基于HHT瞬时能频值的耳语音端点检测 被引量:2
14
作者 谈雪丹 顾济华 +3 位作者 赵鹤鸣 陶智 韩韬 吴俊 《计算机工程与应用》 CSCD 北大核心 2010年第29期147-150,188,共5页
由于耳语音信噪比较低,采用传统的算法进行耳语音端点检测存在正确率低、抗噪性能差等问题。提出了一种基于希尔伯特-黄变换瞬时能频值的耳语音端点检测的算法。运用希尔伯特-黄变换,分离出耳语音的瞬时幅值与频率,提取基于时间-能量-... 由于耳语音信噪比较低,采用传统的算法进行耳语音端点检测存在正确率低、抗噪性能差等问题。提出了一种基于希尔伯特-黄变换瞬时能频值的耳语音端点检测的算法。运用希尔伯特-黄变换,分离出耳语音的瞬时幅值与频率,提取基于时间-能量-频率的特征参数瞬时能频值,利用该特征值对耳语音和噪声进行区分,进行端点检测。对700个信噪比为2~10dB的耳语音测试样本进行仿真实验,该算法检测的起点正确率与终点正确率均高于零能积法、熵法以及拟和特征法。实验表明,该算法适应于多种非平稳噪声环境,能较好地检测耳语音的端点。由于耳语音信噪比较低,采用传统的算法进行耳语音端点检测存在正确率低、抗噪性能差等问题。提出了一种基于希尔伯特-黄变换瞬时能频值的耳语音端点检测的算法。运用希尔伯特-黄变换,分离出耳语音的瞬时幅值与频率,提取基于时间-能量-频率的特征参数瞬时能频值,利用该特征值对耳语音和噪声进行区分,进行端点检测。对700个信噪比为2~10dB的耳语音测试样本进行仿真实验,该算法检测的起点正确率与终点正确率均高于零能积法、熵法以及拟和特征法。实验表明,该算法适应于多种非平稳噪声环境,能较好地检测耳语音的端点。 展开更多
关键词 耳语音 希尔伯特-黄变换 瞬时能频值 端点检测
下载PDF
基于AD神经网络的耳语音增强的研究 被引量:2
15
作者 孙静 陶智 +1 位作者 顾济华 赵鹤鸣 《计算机工程与应用》 CSCD 北大核心 2007年第29期242-244,共3页
论文针对带噪的耳语音提出了一种利用ADALINE神经网络消除背景噪声的耳语音增强算法。首先利用传统的谱减法来取得较好的谱包络,在此基础上使用AD线性神经网络进行自适应预测以达到提高耳语音质量的目的。结果表明,即使在低信噪比的情况... 论文针对带噪的耳语音提出了一种利用ADALINE神经网络消除背景噪声的耳语音增强算法。首先利用传统的谱减法来取得较好的谱包络,在此基础上使用AD线性神经网络进行自适应预测以达到提高耳语音质量的目的。结果表明,即使在低信噪比的情况下,信噪比也能提高20dB左右,而且取得了良好的听觉效果。 展开更多
关键词 耳语音 语音增强 线性神经网络
下载PDF
基于谱熵的耳语音增强研究 被引量:3
16
作者 杜志然 周萍 +1 位作者 景新幸 李杰 《传感器与微系统》 CSCD 北大核心 2012年第6期69-72,共4页
建立了一个小型耳语音库,并分析了耳语音的特点。在此基础上引入基于子带功率谱熵的改进谱减法对耳语音进行增强处理。该方法通过分析耳语音信号的子带功率谱熵,检测出耳语音的噪音段和语音段,然后对噪音段和语音段分别进行改进谱减处理... 建立了一个小型耳语音库,并分析了耳语音的特点。在此基础上引入基于子带功率谱熵的改进谱减法对耳语音进行增强处理。该方法通过分析耳语音信号的子带功率谱熵,检测出耳语音的噪音段和语音段,然后对噪音段和语音段分别进行改进谱减处理,以达到良好的去噪效果。实验证明:此方法能有效分离出耳语音的噪声段和语音段,与传统谱减法相比,信噪比有了较大的提高。 展开更多
关键词 耳语音库 子带功率谱熵 改进谱减法 信噪比
下载PDF
基于改进GMM的耳语语音情感识别方法研究 被引量:3
17
作者 蒋庆斌 包永强 +1 位作者 王浩 赵力 《计算机应用与软件》 CSCD 北大核心 2012年第11期73-74,136,共3页
提出一种基于改进GMM模型的耳语情感语音识别方法。该方法在GMM的每个成员通过用矢量量化误差值取代传统GMM的输出概率值来计算模型的得分,使得建模时所需训练数据量减少,并且识别速度有所提高。实验结果表明当训练数据较少时,提出的新... 提出一种基于改进GMM模型的耳语情感语音识别方法。该方法在GMM的每个成员通过用矢量量化误差值取代传统GMM的输出概率值来计算模型的得分,使得建模时所需训练数据量减少,并且识别速度有所提高。实验结果表明当训练数据较少时,提出的新的识别方法的实验结果明显好于传统的GMM方法,证明了该方法的有效性。 展开更多
关键词 耳语语音 高斯混合模型 情感识别
下载PDF
汉语耳语音转换为正常音的研究 被引量:11
18
作者 樊星 卢晶 徐柏龄 《电声技术》 2005年第12期44-47,共4页
耳语音转换为正常音,可应用于公共场所的通信、失语者的语音恢复和司法工作的某些特殊需要等方 面。由于耳语发音和正常音在激励源和声道传递函数上存在差异,所以一般的语音合成方法不再适用。分析了耳语 音的发音及声学特点,初步建立... 耳语音转换为正常音,可应用于公共场所的通信、失语者的语音恢复和司法工作的某些特殊需要等方 面。由于耳语发音和正常音在激励源和声道传递函数上存在差异,所以一般的语音合成方法不再适用。分析了耳语 音的发音及声学特点,初步建立了一个基于同态信号处理方法并结合相对熵声韵分割的耳语音重建系统,人耳对 恢复出的正常音可以正确分辨。 展开更多
关键词 耳语音 同态信号处理 语音合成
下载PDF
语速和耳语对人工耳蜗植入者言语识别效果的影响 被引量:2
19
作者 张国平 刘婷 +4 位作者 王顺成 郭连生 孔颖 傅前杰 李永新 《中国耳鼻咽喉头颈外科》 2012年第1期1-4,共4页
目的研究不同语速和耳语式的言语是否会影响人工耳蜗植入者的言语识别效果。方法在本研究中,分别对一组人工耳蜗植入者和一组听力正常者进行以下4种不同说话方式的言语识别率测试:慢速言语、常速言语、快速言语和耳语。测试时,人工耳蜗... 目的研究不同语速和耳语式的言语是否会影响人工耳蜗植入者的言语识别效果。方法在本研究中,分别对一组人工耳蜗植入者和一组听力正常者进行以下4种不同说话方式的言语识别率测试:慢速言语、常速言语、快速言语和耳语。测试时,人工耳蜗植入者聆听由扬声器播放的未经处理的言语声,正常受试者聆听经4通道人工耳蜗处理的言语声,二者使用相同的原始测试材料。结果人工耳蜗植入组与正常对照组对4种不同说话方式的言语识别结果相似,当说话语速增加时言语识别率逐渐下降,耳语的识别率最差,对于人工耳蜗植入者来说快速言语的识别率显著低于慢速言语识别率。结论人工耳蜗植入者言语识别效果会随着所聆听言语的语速增加而降低,并且聆听耳语式的言语对人工耳蜗植入者来说是非常困难的。 展开更多
关键词 耳蜗植入物 言语知觉 耳语
下载PDF
基于耳语频谱比较的话者识别方法 被引量:1
20
作者 董桂官 沈勇 《电声技术》 2011年第4期51-52,66,共3页
通过分析由32人录制的143段汉语耳语语段的耳语频谱,发现同一人的耳语频谱之间的差异远小于不同人的耳语频谱之间的差异。基于此提出了一种通过比较耳语语段的耳语频谱差异,可用于话者识别的方法,并通过实验验证了该方法的可行性。
关键词 声纹识别 耳语频谱 汉语耳语
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部