期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于FSS与PLP的噪声鲁棒语音识别 被引量:4
1
作者 王振力 白志强 朱江 《南京邮电大学学报(自然科学版)》 EI 2008年第4期12-15,21,共5页
提出了一种基于分数阶谱相减(FSS)与感知线性预测(PLP)相结合的噪声鲁棒语音识别方法,记为FSS+PLPC。该方法首先通过FSS在分数阶Fourier域对带噪语音进行降噪处理,然后计算增强语音的均方误差和Itakura距离并进行比较,以获得FSS的近似... 提出了一种基于分数阶谱相减(FSS)与感知线性预测(PLP)相结合的噪声鲁棒语音识别方法,记为FSS+PLPC。该方法首先通过FSS在分数阶Fourier域对带噪语音进行降噪处理,然后计算增强语音的均方误差和Itakura距离并进行比较,以获得FSS的近似最优分数阶阶数。最后对根据此阶数得到的增强语音提取感知线性预测倒谱(PLPC)。实验结果表明,FSS+PLPC对于数字语音的识别性能优于传统的谱减法(SS+PLPC)和感知线性预测倒谱(PLPC)法,并且随着信噪比的降低FSS+PLPC表现出较好的噪声鲁棒性。 展开更多
关键词 噪声鲁棒语音识别 语音增强 谱减法 分数阶FOURIER变换 感知线性预测
下载PDF
噪声条件下的语音特征PLP参数的提取 被引量:6
2
作者 魏艳 张雪英 《太原理工大学学报》 CAS 北大核心 2009年第3期222-224,共3页
研究了噪声背景条件下的语音特征提取。使用特征补偿的方法,并运用听觉心理学的三个概念:临界带谱分析、等响度曲线、强度响度听觉幂率,实现了PLP语音特征参数的提取。在此基础上用RATSA技术和半升正弦函数倒谱提升技术来改进此参数,并... 研究了噪声背景条件下的语音特征提取。使用特征补偿的方法,并运用听觉心理学的三个概念:临界带谱分析、等响度曲线、强度响度听觉幂率,实现了PLP语音特征参数的提取。在此基础上用RATSA技术和半升正弦函数倒谱提升技术来改进此参数,并获得了良好的效果。 展开更多
关键词 特征提取 听觉模型 感觉加权线性预测 半升正弦函数
下载PDF
Robust Speech Recognition System Using Conventional and Hybrid Features of MFCC,LPCC,PLP,RASTA-PLP and Hidden Markov Model Classifier in Noisy Conditions 被引量:7
3
作者 Veton Z.Kepuska Hussien A.Elharati 《Journal of Computer and Communications》 2015年第6期1-9,共9页
In recent years, the accuracy of speech recognition (SR) has been one of the most active areas of research. Despite that SR systems are working reasonably well in quiet conditions, they still suffer severe performance... In recent years, the accuracy of speech recognition (SR) has been one of the most active areas of research. Despite that SR systems are working reasonably well in quiet conditions, they still suffer severe performance degradation in noisy conditions or distorted channels. It is necessary to search for more robust feature extraction methods to gain better performance in adverse conditions. This paper investigates the performance of conventional and new hybrid speech feature extraction algorithms of Mel Frequency Cepstrum Coefficient (MFCC), Linear Prediction Coding Coefficient (LPCC), perceptual linear production (PLP), and RASTA-PLP in noisy conditions through using multivariate Hidden Markov Model (HMM) classifier. The behavior of the proposal system is evaluated using TIDIGIT human voice dataset corpora, recorded from 208 different adult speakers in both training and testing process. The theoretical basis for speech processing and classifier procedures were presented, and the recognition results were obtained based on word recognition rate. 展开更多
关键词 Speech Recognition Noisy Conditions Feature Extraction Mel-Frequency Cepstral Coefficients linear predictive Coding Coefficients perceptual linear Production RASTA-plp Isolated Speech Hidden Markov Model
下载PDF
产品信息界面的用户感性预测模型 被引量:17
4
作者 周蕾 薛澄岐 +2 位作者 汤文成 李晶 牛亚峰 《计算机集成制造系统》 EI CSCD 北大核心 2014年第3期544-554,共11页
为了给产品的设计评价提供有效的辅助手段,围绕产品信息界面的用户感性预测,分析了影响用户感性的四个界面布局要素,提出12个界面布局特征的衡量指标;验证了界面布局指标体系的可靠性,结果表明布局指标体系符合4个潜在因子的基本设定,... 为了给产品的设计评价提供有效的辅助手段,围绕产品信息界面的用户感性预测,分析了影响用户感性的四个界面布局要素,提出12个界面布局特征的衡量指标;验证了界面布局指标体系的可靠性,结果表明布局指标体系符合4个潜在因子的基本设定,但布局指标与主观评价间存在多元相关性,从而改进了最初感性映射模型;运用神经网络和线性回归两类方法分别建立了预测模型,通过比对测试样本的预测偏差表明线性回归预测模型的数据拟合度更高,推导了感性预测模型的函数关系AM=g{f(M)},并结合实例对预测模型进行了验证。该研究成果为界面布局设计和方案评估提供了理论依据。 展开更多
关键词 界面布局 感性预测 验证性因子分析 神经网络 线性回归 产品设计
下载PDF
RASTA滤波在语音通信质量客观评价中应用的研究 被引量:4
5
作者 王炜 刘峰 吴淑珍 《北京大学学报(自然科学版)》 CAS CSCD 北大核心 2003年第5期697-702,共6页
介绍了在语音通信质量客观评价中使用RASTA(RelAtiveSpecTrA)滤波的研究结果。通过分别将RASTA滤波与感知线性预测 (PLP ,Perceptually Linear Prediction)方法和美倒谱 (MFCC ,Mel Frequency Cepstral Coefficient)方法相结合对通过短... 介绍了在语音通信质量客观评价中使用RASTA(RelAtiveSpecTrA)滤波的研究结果。通过分别将RASTA滤波与感知线性预测 (PLP ,Perceptually Linear Prediction)方法和美倒谱 (MFCC ,Mel Frequency Cepstral Coefficient)方法相结合对通过短波或超短波信道的男女生文件进行拟合研究 ,均取得了比较好的效果。与PLP方法结合关系数提高了 12 % ,与MFCC方法结合相关系数提高了4 %。说明RASTA滤波对信道噪声的低频成分中人耳听不到的部分进行过滤的方法在语音通信质量客观评价中是有效的。 展开更多
关键词 RASTA滤波 MFCC方法 plp方法 语音音质客观评价 MOS值
下载PDF
基于PLAR特征补偿的鲁棒性说话人识别仿真研究 被引量:2
6
作者 李燕萍 唐振民 +1 位作者 钱博 张燕 《系统仿真学报》 CAS CSCD 北大核心 2009年第2期409-412,共4页
针对MFCC特征补偿技术在低信噪比时性能不高的缺点,提出了基于PLAR鲁棒特征的模型补偿方法进行抗噪声说话人识别。PLAR特征从人类听觉感知机理出发,运用听觉心理学概念表征说话人个性特征,具有维数低,运算速度快,抗噪性能强等特点,是一... 针对MFCC特征补偿技术在低信噪比时性能不高的缺点,提出了基于PLAR鲁棒特征的模型补偿方法进行抗噪声说话人识别。PLAR特征从人类听觉感知机理出发,运用听觉心理学概念表征说话人个性特征,具有维数低,运算速度快,抗噪性能强等特点,是一种稳健的特征。模型补偿则通过分析被测语音帧的整体分布,对高斯混合模型似然概率进行某种程度的补偿,降低噪声的影响,改善系统的性能,进一步增强系统的鲁棒性。理论分析和实验结果表明,在平稳和非平稳背景噪声环境下,当信噪比大大降低时,此方法比MFCC-GMM方法的识别率平均提高了12.2和14.9个百分点。 展开更多
关键词 说话人识别 感知线性预测 高斯混合模型 鲁棒性
下载PDF
基于浊音语音谐波谱子带加权重建的抗噪声说话人识别 被引量:5
7
作者 曾毓敏 吴镇扬 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第6期935-941,共7页
提出了一个基于浊音语音谐波谱重建的说话人识别算法.该算法根据浊音语音短时频谱的结构特征和基音信息,对浊音语音谐波结构频谱进行子带加权重建,以补偿由噪声引起的训练与测试条件的失配.算法基于重建浊音频谱提取感知线性预测倒谱系... 提出了一个基于浊音语音谐波谱重建的说话人识别算法.该算法根据浊音语音短时频谱的结构特征和基音信息,对浊音语音谐波结构频谱进行子带加权重建,以补偿由噪声引起的训练与测试条件的失配.算法基于重建浊音频谱提取感知线性预测倒谱系数,与基音相组合作为说话人的语音特征参数矢量,采用高斯混合模型对说话人进行建模.仿真实验的结果表明:所提出的浊音谱重建方法对多种类型含噪语音的噪声补偿均具良好效果,可以明显提高在噪声环境下的与文本无关的说话人识别的识别率,特别是显著提高低信噪比环境下的识别率,而不会明显降低纯净语音和高信噪比环境下的识别率. 展开更多
关键词 说话人识别 频谱重建 感知线性预测倒谱系数 噪声补偿 谱平坦度测度
下载PDF
感觉加权滤波在安多藏语特征提取中的应用 被引量:2
8
作者 马英 陈超 +1 位作者 张凌飞 陈善继 《科技通报》 北大核心 2016年第8期207-209,共3页
语音信号的特征提取是语音识别中重要的环节之一,特征提取是否准确决定着语音识别的识别率,不同的语音信号有着不同的特征提取方法,本文针对安多藏语的语音特征,进行线性预测分析,对线性预测余量信号通过感觉加权滤波后重新提取特征,使... 语音信号的特征提取是语音识别中重要的环节之一,特征提取是否准确决定着语音识别的识别率,不同的语音信号有着不同的特征提取方法,本文针对安多藏语的语音特征,进行线性预测分析,对线性预测余量信号通过感觉加权滤波后重新提取特征,使之具有更高的精确度,更好的稳健性。 展开更多
关键词 安多藏语 特征提取 线性预测 感觉加权滤波
下载PDF
基于量化步长线性预测和BFOS算法的MPEG-4AAC量化 被引量:2
9
作者 舒若 吴乐南 《声学技术》 CSCD 2009年第6期757-762,共6页
MPEG-4 AAC的编码性能很大程度上依赖于量化模块的编码效率和收敛速度,但其常用的基于双循环搜索结构的率失真控制器引起编码器性能较差,尤其在低码率时更为突出。提出一种新的量化优化算法。新方案采取单循环结构,用前面数帧的量化信... MPEG-4 AAC的编码性能很大程度上依赖于量化模块的编码效率和收敛速度,但其常用的基于双循环搜索结构的率失真控制器引起编码器性能较差,尤其在低码率时更为突出。提出一种新的量化优化算法。新方案采取单循环结构,用前面数帧的量化信息对当前帧的初始量化步长做线性预测,再用接近最优比特分配的BFOS算法控制量化步长的调节。仿真证明新方案的编码性能明显优于MPEG-4 AAC VM,对比BOFS算法,运算量得到极大降低。 展开更多
关键词 感知音频编码 率失真控制器 量化步长 线性预测 BFOS算法
下载PDF
具有后向基音检测的8Kbit/s LD-aCELP语音编码 被引量:1
10
作者 武淑红 张刚 赵哲峰 《计算机工程与应用》 CSCD 北大核心 2009年第17期119-121,共3页
以降低码率为目的对G.728算法进行改进,提出了一个延迟为2.5ms的8Kbit/s的语音编码算法。算法引入了由最近的历史激励构成的自适应码书和归一化的固定码书的双码书结构。计算增益真值并量化,增益量化时对自适应码书用固定量化,固定码书... 以降低码率为目的对G.728算法进行改进,提出了一个延迟为2.5ms的8Kbit/s的语音编码算法。算法引入了由最近的历史激励构成的自适应码书和归一化的固定码书的双码书结构。计算增益真值并量化,增益量化时对自适应码书用固定量化,固定码书用自适应量化。码书搜索时先进行后向基音检测,在基音周期T附近对自适应码书进行精细搜索。搜索64个自适应码矢、256个固定码矢和各自8个增益值获得最佳激励,每帧耗费20bit。用平均分段信噪比和感知语音质量评价(PESQ)测试,改进算法编码质量接近于G.728。 展开更多
关键词 自适应码书 基音检测 低延时码激励线性预测 感知语音质量评价
下载PDF
汉语普通话易混淆音素的识别 被引量:4
11
作者 李晨冲 董滨 +2 位作者 潘复平 曾兴雯 颜永红 《计算机工程》 CAS CSCD 北大核心 2009年第23期201-203,共3页
针对汉语普通话语音识别中易混淆音素的声学特征,把小波包分解理论应用在感觉加权线性预测(PLP)特征中,提出一种新的特征参数提取算法,可以更精确地描述易混淆音素的频谱特征。使用高斯混合模型对新的声学特征进行分类,从而达到区分的... 针对汉语普通话语音识别中易混淆音素的声学特征,把小波包分解理论应用在感觉加权线性预测(PLP)特征中,提出一种新的特征参数提取算法,可以更精确地描述易混淆音素的频谱特征。使用高斯混合模型对新的声学特征进行分类,从而达到区分的目的。实验结果证明,新的特征参数识别结果优于使用传统PLP特征参数的识别结果,识别错误率下降30%以上。 展开更多
关键词 小波包分解 感觉加权线性预测 语音识别
下载PDF
基于模板子空间的快速固定音频检索方法 被引量:3
12
作者 谈会星 陈福才 李邵梅 《计算机工程》 CAS CSCD 2012年第20期260-263,共4页
针对大容量模板库条件下固定音频检索面临检索速度慢的问题,提出一种基于模板子空间的快速固定音频检索方法。利用相同或相似音频数据间存在一定相关性的特点,采用基于模板子空间的方法快速筛选出相似度较高的候选模板集,对候选集内的... 针对大容量模板库条件下固定音频检索面临检索速度慢的问题,提出一种基于模板子空间的快速固定音频检索方法。利用相同或相似音频数据间存在一定相关性的特点,采用基于模板子空间的方法快速筛选出相似度较高的候选模板集,对候选集内的所有模板进行精细检索以得到最终结果。实验结果表明,与已有方法相比,该方法可以在几乎不损失精度的情况下大幅提高检索速度。 展开更多
关键词 固定音频检索 矢量量化 子空间 两阶段法 部分距离 感觉加权线性预测
下载PDF
应用于军事指挥中的鲁棒性语音识别系统 被引量:5
13
作者 赵军辉 匡镜明 谢湘 《兵工学报》 EI CAS CSCD 北大核心 2004年第4期509-512,共4页
恶劣的军事环境为语音识别系统应用于军事指挥带来了巨大的困难 ,本文基于语音识别的基本原理 ,并根据军事指挥这一特殊的应用环境 ,提出了一种高鲁棒性的语音识别方案。经过战场仿真环境测试表明 ,该方案的语音识别率在高噪声环境中能... 恶劣的军事环境为语音识别系统应用于军事指挥带来了巨大的困难 ,本文基于语音识别的基本原理 ,并根据军事指挥这一特殊的应用环境 ,提出了一种高鲁棒性的语音识别方案。经过战场仿真环境测试表明 ,该方案的语音识别率在高噪声环境中能达到 90 %以上 。 展开更多
关键词 军事指挥 鲁棒性 语音识别系统 信息处理技术 感知线性预测 噪声抑制
下载PDF
短时谱特征的汉语重音检测方法研究 被引量:2
14
作者 赵云雪 张珑 郑世杰 《计算机科学与探索》 CSCD 2014年第9期1120-1128,共9页
重音是语言交流中不可或缺的部分,在语言交流中扮演着非常重要的角色。为了验证基于听觉模型的短时谱特征集在汉语重音检测方法中的应用效果,使用MFCC(Mel frequency cepstrum coefficient)和RASTAPLP(relative spectra perceptual line... 重音是语言交流中不可或缺的部分,在语言交流中扮演着非常重要的角色。为了验证基于听觉模型的短时谱特征集在汉语重音检测方法中的应用效果,使用MFCC(Mel frequency cepstrum coefficient)和RASTAPLP(relative spectra perceptual linear prediction)算法提取每个语音段的短时谱信息,分别构建了基于MFCC算法的短时谱特征集和基于RASTA-PLP算法的短时谱特征集;选用NaiveBayes分类器对这两类特征集进行建模,把具有最大后验概率的类作为该对象所属的类,这种分类方法充分利用了当前语音段的相关语音特性;基于MFCC的短时谱特征集和基于RASTA-PLP的短时谱特征集在ASCCD(annotated speech corpus of Chinese discourse)上能够分别得到82.1%和80.8%的汉语重音检测正确率。实验结果证明,基于MFCC的短时谱特征和基于RASTA-PLP的短时谱特征能用于汉语重音检测研究。 展开更多
关键词 重音检测 Mel频率倒谱系数(MFCC) 相关谱感知线性预测(RASTA-plp) 短时谱特征
下载PDF
一种基于G.729的CS-ACELP新算法 被引量:6
15
作者 杨国芳 高飞 《电声技术》 北大核心 2004年第1期56-59,共4页
在G.729的基本框架下,码本搜索采用次最优部分码本快速搜索法,知觉加权滤波器使用基于声学心理模型的知觉加权滤波器,使得8Kb/s共扼结构代数码激励线性预测语音编码在不降低语音质量的情况下降低计算复杂度。次最优部分码本快速搜索方... 在G.729的基本框架下,码本搜索采用次最优部分码本快速搜索法,知觉加权滤波器使用基于声学心理模型的知觉加权滤波器,使得8Kb/s共扼结构代数码激励线性预测语音编码在不降低语音质量的情况下降低计算复杂度。次最优部分码本快速搜索方法虽然降低搜索准确度,但是大大减小了搜索时的数据处理量;声学心理滤波器考虑人耳对不同频率信号的不同敏感度因而能获得更好的主观音质效果。仿真结果表明,该算法复杂度降低,并取得满意的合成语音质量。 展开更多
关键词 G.729编解码器 CS—ACELP算法 共扼结构代数码激励线性预测 语音编码 知觉加权滤波
下载PDF
基于状态异步DBN的语音驱动面部动画合成 被引量:1
16
作者 赵勇 蒋冬梅 Sahli Hichem 《计算机工程》 CAS CSCD 2014年第2期180-183,188,共5页
提出一种基于状态异步动态贝叶斯网络模型(SA-DBN)的语音驱动面部动画合成方法。提取音视频语音数据库中音频的感知线性预测特征和面部图像的主动外观模型(AAM)特征来训练模型参数,对于给定的输入语音,基于极大似然估计原理学习得到对... 提出一种基于状态异步动态贝叶斯网络模型(SA-DBN)的语音驱动面部动画合成方法。提取音视频语音数据库中音频的感知线性预测特征和面部图像的主动外观模型(AAM)特征来训练模型参数,对于给定的输入语音,基于极大似然估计原理学习得到对应的最优AAM特征序列,并由此合成面部图像序列和面部动画。对合成面部动画的主观评测结果表明,与听视觉状态同步的DBN模型相比,通过限制听觉语音状态和视觉语音状态间的最大异步程度,SA-DBN可以得到清晰自然并且嘴部运动与输入语音高度一致的面部动画。 展开更多
关键词 面部动画合成 状态异步动态贝叶斯网络模型 异步约束 主动外观模型 感知线性预测 极大似然估计
下载PDF
基于发声机理与人耳感知特性的说话人识别 被引量:3
17
作者 杜晓青 于凤芹 《计算机工程》 CAS CSCD 2013年第11期197-199,204,共4页
Mel频率倒谱系数(MFCC)与线性预测倒谱系数(LPCC)融合算法只能反映语音静态特征,且LPCC对语音低频局部特征描述不足。为此,提出将希尔伯特黄变换(HHT)倒谱系数与相对光谱-感知线性预测倒谱系数(RASTA-PLPCC)融合,得到一种既反映发声机... Mel频率倒谱系数(MFCC)与线性预测倒谱系数(LPCC)融合算法只能反映语音静态特征,且LPCC对语音低频局部特征描述不足。为此,提出将希尔伯特黄变换(HHT)倒谱系数与相对光谱-感知线性预测倒谱系数(RASTA-PLPCC)融合,得到一种既反映发声机理又体现人耳感知特性的说话人识别算法。HHT倒谱系数体现发声机理,能反映语音动态特性,并更好地描述信号低频局部特征,可改进LPCC的不足。PLPCC体现人耳感知特性,识别性能强于MFCC,用3种融合算法对两者进行融合,将融合特征用于高斯混合模型进行说话人识别。仿真实验结果表明,该融合算法较已有的MFCC与LPCC融合算法识别率提高了8.0%。 展开更多
关键词 说话人识别 发声机理 人耳感知特性 希尔伯特黄变换倒谱系数 感知线性预测倒谱系数 RELATIVE Spectra滤波
下载PDF
突发业务下共享存储区型ATM交换单元的仿真
18
作者 石扬 丁炜 蔡安妮 《北京邮电大学学报》 EI CAS CSCD 北大核心 1997年第3期69-75,共7页
通过建立共享存储区型ATM交换单元的仿真模型,研究了突发业务下吞吐量、平均突发长度、共享区长度与信元丢失及延迟的关系,发现不同输入循环方式将引起信元丢失在输入端的分布差异.还发现,吞吐量中等或端口流量特性不同时,部分... 通过建立共享存储区型ATM交换单元的仿真模型,研究了突发业务下吞吐量、平均突发长度、共享区长度与信元丢失及延迟的关系,发现不同输入循环方式将引起信元丢失在输入端的分布差异.还发现,吞吐量中等或端口流量特性不同时,部分共享方式可带来好的效果. 展开更多
关键词 异步转移模式 共享存储区 共享因子 B-ISDN
下载PDF
关于短延时码本激励线性预测编码方案的改进
19
作者 赵俊 温启荣 《重庆邮电学院学报(自然科学版)》 1997年第3期31-33,30,共4页
在短延时码本激励线性预测(LD-CELP)语音编码方案中,直接用G.728所提供的现成码本对加噪声后的语音信号进行编解码时,效果不好。作者利用LBG算法训练了自己的码本,并利用此码本对加噪声后的语音信号进行编解码,取... 在短延时码本激励线性预测(LD-CELP)语音编码方案中,直接用G.728所提供的现成码本对加噪声后的语音信号进行编解码时,效果不好。作者利用LBG算法训练了自己的码本,并利用此码本对加噪声后的语音信号进行编解码,取得了良好的效果,使主观感觉质量变好,信噪比提高了约3dB。 展开更多
关键词 短延时 码本激励 线性预测 语音编码
下载PDF
Comparison of Khasi Speech Representations with Different Spectral Features and Hidden Markov States
20
作者 Bronson Syiem Sushanta Kabir Dutta +1 位作者 Juwesh Binong Lairenlakpam Joyprakash Singh 《Journal of Electronic Science and Technology》 CAS CSCD 2021年第2期155-162,共8页
In this paper,we present a comparison of Khasi speech representations with four different spectral features and novel extension towards the development of Khasi speech corpora.These four features include linear predic... In this paper,we present a comparison of Khasi speech representations with four different spectral features and novel extension towards the development of Khasi speech corpora.These four features include linear predictive coding(LPC),linear prediction cepstrum coefficient(LPCC),perceptual linear prediction(PLP),and Mel frequency cepstral coefficient(MFCC).The 10-hour speech data were used for training and 3-hour data for testing.For each spectral feature,different hidden Markov model(HMM)based recognizers with variations in HMM states and different Gaussian mixture models(GMMs)were built.The performance was evaluated by using the word error rate(WER).The experimental results show that MFCC provides a better representation for Khasi speech compared with the other three spectral features. 展开更多
关键词 Acoustic model(AM) Gaussian mixture model(GMM) hidden Markov model(HMM) language model(LM) linear predictive coding(LPC) linear prediction cepstral coefficient(LPCC) Mel frequency cepstral coefficient(MFCC) perceptual linear prediction(plp)
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部