期刊文献+
共找到66篇文章
< 1 2 4 >
每页显示 20 50 100
Discriminative tone model training and optimal integration for Mandarin speech recognition
1
作者 黄浩 朱杰 《Journal of Southeast University(English Edition)》 EI CAS 2007年第2期174-178,共5页
Two discriminative methods for solving tone problems in Mandarin speech recognition are presented. First, discriminative training on the HMM (hidden Markov model) based tone models is proposed. Then an integration t... Two discriminative methods for solving tone problems in Mandarin speech recognition are presented. First, discriminative training on the HMM (hidden Markov model) based tone models is proposed. Then an integration technique of tone models into a large vocabulary continuous speech recognition system is presented. Discriminative model weight training based on minimum phone error criteria is adopted aiming at optimal integration of the tone models. The extended Baum Welch algorithm is applied to find the model-dependent weights to scale the acoustic scores and tone scores. Experimental results show that tone recognition rates and continuous speech recognition accuracy can be improved by the discriminatively trained tone model. Performance of a large vocabulary continuous Mandarin speech recognition system can be further enhanced by the discriminatively trained weight combinations due to a better interpolation of the given models. 展开更多
关键词 discriminative training minimum phone error tone modeling mandarin speech recognition
下载PDF
Automatic context induction for tone model integration in mandarin speech recognition 被引量:1
2
作者 HUANG Hao LI Bing-hu 《The Journal of China Universities of Posts and Telecommunications》 EI CSCD 2012年第1期94-100,共7页
Tone model (TM) integration is an important task for mandarin speech recognition. It has been proved to be effective to use discriminatively trained scaling factors when integrating TM scores into multi-pass speech ... Tone model (TM) integration is an important task for mandarin speech recognition. It has been proved to be effective to use discriminatively trained scaling factors when integrating TM scores into multi-pass speech recognition. Moreover, context-dependent (CD) scaling can be applied for better interpolation between the models. One limitation of this approach is a large number of parameters will be introduced, which makes the technique prone to overtraining. In this paper, we propose to induce context-dependent model weights by using automatically derived phonetic decision trees. Question at each tree node is chosen to minimize the expected recognition error on the training data. First order approximation of the minimum phone error (MPE) objective function is used for question pruning to make tree building efficient. Experimental results on continuous mandarin speech recognition show the method is capable of inducing the most crucial phonetic contexts and obtains significant error reduction with far fewer parameters, compared with that obtained by using manually designed context-dependent scaling parameters. 展开更多
关键词 TM integration MPE decision tree mandarin speech recognition context-dependent
原文传递
Discriminative tonal feature extraction method in mandarin speech recognition 被引量:1
3
作者 HUANG Hao ZHU Jie 《The Journal of China Universities of Posts and Telecommunications》 EI CSCD 2007年第4期126-130,共5页
To utilize the supra-segmental nature of Mandarin tones, this article proposes a feature extraction method for hidden markov model (HMM) based tone modeling. The method uses linear transforms to project Fo(fundamen... To utilize the supra-segmental nature of Mandarin tones, this article proposes a feature extraction method for hidden markov model (HMM) based tone modeling. The method uses linear transforms to project Fo(fundamental frequency) features of neighboring syllables as compensations, and adds them to the original Fo features of the current syUable. The transforms are discriminatively trained by using an objective function termed as "minimum tone error", which is a smooth approximation of tone recognition accuracy. Experiments show that the new tonal features achieve 3.82% tone recognition rate improvement, compared with the baseline, using maximum likelihood trained HMM on the normal F0 features. Further experiments show that discriminative HMM training on the new features is 8.78% better than the baseline. 展开更多
关键词 discriminative training tone recognition feature extraction mandarin speech recognition
原文传递
Peripheral Nonlinear Time Spectrum Features Algorithm for Large Vocabulary Mandarin Automatic Speech Recognition 被引量:1
4
作者 Fadhil H.T.Al-dulaimy 王作英 《Tsinghua Science and Technology》 SCIE EI CAS 2005年第2期174-182,共9页
This work describes an improved feature extractor algorithm to extract the peripheral features of point x(ti,fj) using a nonlinear algorithm to compute the nonlinear time spectrum (NL-TS) pattern. The algo- rithm ob... This work describes an improved feature extractor algorithm to extract the peripheral features of point x(ti,fj) using a nonlinear algorithm to compute the nonlinear time spectrum (NL-TS) pattern. The algo- rithm observes n×n neighborhoods of the point in all directions, and then incorporates the peripheral fea- tures using the Mel frequency cepstrum components (MFCCs)-based feature extractor of the Tsinghua elec- tronic engineering speech processing (THEESP) for Mandarin automatic speech recognition (MASR) sys- tem as replacements of the dynamic features with different feature combinations. In this algorithm, the or- thogonal bases are extracted directly from the speech data using discrite cosime transformation (DCT) with 3×3 blocks on an NL-TS pattern as the peripheral features. The new primal bases are then selected and simplified in the form of the ?dp- operator in the time direction and the ?dp- operator in the frequency di- t f rection. The algorithm has 23.29% improvements of the relative error rate in comparison with the standard MFCC feature-set and the dynamic features in tests using THEESP with the duration distribution-based hid- den Markov model (DDBHMM) based on MASR system. 展开更多
关键词 large vocabulary speech recognition mandarin automatic speech recognition (MASR) dura- tion distribution-based hidden Markov model (DDBHMM) feature identification
原文传递
普通话语音情感识别的特征选择技术 被引量:13
5
作者 谢波 陈岭 +1 位作者 陈根才 陈纯 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2007年第11期1816-1822,共7页
针对情感声学特征在语音情感识别中的重要性问题,运用优先选择、序列前向、序列后向和逐步判别分析进行了特征选择.对说话人和文本均无关、说话人相关2组普通话情感语音进行特征选择,然后利用线性判别分析和支持向量机进行实际识别效果... 针对情感声学特征在语音情感识别中的重要性问题,运用优先选择、序列前向、序列后向和逐步判别分析进行了特征选择.对说话人和文本均无关、说话人相关2组普通话情感语音进行特征选择,然后利用线性判别分析和支持向量机进行实际识别效果的分析比较.特征选择结果表明,基频、对数能量、语速和第一共振峰均值对普通话情感语音具有较强的判别能力,但情感声学特征的判别力随着说话人的不同而有所差异.特征选择方法比较实验表明,逐步判别分析比其他3种方法具有更高的平均准确率,当特征个数为9~12时分类器的平均准确率最高.效用分析表明,特征选择在小样本时更加有效. 展开更多
关键词 情感计算 语音情感识别 情感声学特征 特征选择 普通话
下载PDF
基于后验概率解码段模型的汉语语音数字串识别 被引量:12
6
作者 唐赟 刘文举 徐波 《计算机学报》 EI CSCD 北大核心 2006年第4期635-641,共7页
通过对语音解码的分析指出了基于似然概率解码的连续语音识别的局限性,并给出了三种基于后验概率段模型(Segment Model,SM)的语音解码方法.这三种方法成功地运用于随机段模型(Stochastic Segment Model,SSM),使误识率比基线系统下降了1... 通过对语音解码的分析指出了基于似然概率解码的连续语音识别的局限性,并给出了三种基于后验概率段模型(Segment Model,SM)的语音解码方法.这三种方法成功地运用于随机段模型(Stochastic Segment Model,SSM),使误识率比基线系统下降了11%;与此同时还给出了段模型的快速算法,使算法的计算复杂度降到了与隐马尔可夫模型(Hidden Markov Model,HMM)相同的数量级,满足了实用要求. 展开更多
关键词 后验概率 段模型 汉语数字串 语音识别 模式识别
下载PDF
高性能汉语数码串快速识别算法的研究 被引量:5
7
作者 朱璇 李虎生 +1 位作者 刘加 刘润生 《计算机研究与发展》 EI CSCD 北大核心 2001年第7期845-850,共6页
为了提高非特定人汉语数码串连续语音识别系统的识别速度 ,对系统进行了细致的研究 ,有针对性地提出了一种新的快速识别算法 .通过对隐含马尔可夫模型输出概率密度函数运算的简化 ,以及采用结合段长信息的束搜索剪枝算法 ,在保证识别精... 为了提高非特定人汉语数码串连续语音识别系统的识别速度 ,对系统进行了细致的研究 ,有针对性地提出了一种新的快速识别算法 .通过对隐含马尔可夫模型输出概率密度函数运算的简化 ,以及采用结合段长信息的束搜索剪枝算法 ,在保证识别精度的情况下 ,使识别系统对不定长数码串平均识别时间从 0 .92 s减少为 0 .11s,而串识别正确率仅从 94.3%下降到 94.0 % 。 展开更多
关键词 汉语数码串 语音识别 算法 语音库 隐含马尔可夫模型
下载PDF
汉语普通话人工耳蜗使用者对声调识别的分析研究 被引量:5
8
作者 亓贝尔 古鑫 +2 位作者 刘子夜 傅新星 刘博 《中国耳鼻咽喉头颈外科》 CSCD 2017年第4期175-179,共5页
目的初步确定人工耳蜗使用者声调感知的特点,并进行分析研究。方法利用自主开发的噪声下声调识别测试材料(tone identification in noise test,TINT)在Speech Performance测试平台的控制下对20例母语为汉语普通话人工耳蜗使用者声调识... 目的初步确定人工耳蜗使用者声调感知的特点,并进行分析研究。方法利用自主开发的噪声下声调识别测试材料(tone identification in noise test,TINT)在Speech Performance测试平台的控制下对20例母语为汉语普通话人工耳蜗使用者声调识别能力进行评估,获得各声调识别成绩以及声调识别混淆矩阵。采用x^2检验(chi-square test)对本组人工耳蜗使用者汉语声调识别成绩差异进行统计学分析。结果①本组人工耳蜗使用者的汉语普通话声调识别总成绩(百分制得分)分布48.75%~98.75%,平均成绩(76.38±17.29)%;②各声识别成绩平均值差异显著(x^2=2358.357,P<0.01),由高到低分别为T3(85.75%)>T4(85.25%)>T1(69.75%)>T2(64.75%),即本组人工耳蜗植入者感知T3、T4较为容易、感知T1、T2较为困难;③声调识别混淆矩阵提示T2(35.35%)、T1(30.25%)混淆度明显高于T4(14.75%)、T3(14.25%),并目各个声调之间的混淆趋势不同,T1易被混淆为T2(18.25%)、T2易被混淆为T3(24.00%)。结论时域特性明显的声调更易被人工耳蜗群体识别,因此应根据声调感知难易程度制定针对性的声调康复训练方案,综合利用听觉信息和视觉信息改善声调,特别是一声、二声的识别能力。 展开更多
关键词 测听法 言语 言语识别测验 汉语普通话 工耳蜗使用者 声调识别
下载PDF
小词汇量非特定人语音识别在嵌入式系统中的应用 被引量:5
9
作者 刘振安 孙捷 王晋军 《计算机工程》 CAS CSCD 北大核心 2006年第11期213-215,共3页
给出了一个嵌入式小词汇量非特定人语音识别系统的方案,它基于单片微控制器加数字信号处理器(MCU+DSP)架构,用离散隐马尔可夫模型方法实现语音识别系统。该系统适应性强,可扩展性好,具有一定的实时性和语言无关性。当在算法上针对汉语... 给出了一个嵌入式小词汇量非特定人语音识别系统的方案,它基于单片微控制器加数字信号处理器(MCU+DSP)架构,用离散隐马尔可夫模型方法实现语音识别系统。该系统适应性强,可扩展性好,具有一定的实时性和语言无关性。当在算法上针对汉语普通话进行优化后,则能进一步提高识别汉语的准确性和实时性。 展开更多
关键词 语音识别 非特定人 隐马尔可夫模型 MEL倒谱系数 汉语普通话识别
下载PDF
母语为汉语患者应用多道人工耳蜗的言语识别 被引量:6
10
作者 魏朝刚 曹克利 +1 位作者 王直中 曾凡钢 《听力学及言语疾病杂志》 CAS CSCD 1999年第4期169-172,共4页
目的 对母语为汉语的多通道人工耳蜗使用者进行言语评估及结果分析。方法 5 例语后聋成人中,应用MACC( 汉语最低听觉功能) 测试材料,分别进行了包括封闭项列( 机会水平0 .25) 和开放项列两大部分的言语识别测试。结果... 目的 对母语为汉语的多通道人工耳蜗使用者进行言语评估及结果分析。方法 5 例语后聋成人中,应用MACC( 汉语最低听觉功能) 测试材料,分别进行了包括封闭项列( 机会水平0 .25) 和开放项列两大部分的言语识别测试。结果 韵母平均正确识别率57 .71 % (25 .69 % ~88 .19 % ) ;声母72 .04 % (46 .23 % ~90 .48 % ) ;数词83 .26 % (48 .00 % ~100 .0 % ) ;声调61 .68 % (46 .40 % ~71 .40 % ) ;单字词38 .27 % (1 .71 % ~79 .55 % ) ;双字词44 .12 % (0 .00 % ~95 .94 % ) ;短句中关键字识别率47 .88 % (0 .53 % ~97 .34 % ) ;噪声中短句识别全部患者均为0 % ;环境声识别率50 .52 % (7 .14 % ~80 .95 % ) 。全部患者封闭项列的正确识别率均大于机会水平,而开放项列识别表现不一。结论 国人应用多导人工耳蜗装置后能获得较好的听觉能力和语言交流能力。 展开更多
关键词 普通话 汉族 人工耳蜗 言语识别率 多道人工耳蜗
下载PDF
汉语语音识别中的区分性声调建模方法 被引量:4
11
作者 黄浩 朱杰 哈力旦 《计算机工程与应用》 CSCD 北大核心 2009年第11期178-182,共5页
提出从特征提取参数、模型参数对隐马尔可夫声调模型进行区分型训练,来提高声调识别率;提出模型相关的权重对谱特征模型和声调模型的概率进行加权,并根据最小音子错误区分性目标函数对权重进行训练,来提高声调模型加入连续语音识别时的... 提出从特征提取参数、模型参数对隐马尔可夫声调模型进行区分型训练,来提高声调识别率;提出模型相关的权重对谱特征模型和声调模型的概率进行加权,并根据最小音子错误区分性目标函数对权重进行训练,来提高声调模型加入连续语音识别时的性能。声调识别实验表明区分性的声调模型训练以及特征提取方法显著提高了声调识别率。区分性模型权重训练能够在声调模型加入之后进一步连续语音识别系统的识别率。 展开更多
关键词 区分性训练 声调建模 汉语语音识别 特征提取
下载PDF
基于混合模型HMM/RBF的数字语音识别 被引量:7
12
作者 王朋 陈树中 《计算机工程》 CAS CSCD 北大核心 2002年第12期136-138,共3页
提出一种离散隐马尔科夫模型(hidden Markov model,HMM)和径向基函数(radial basis function,RBF)神经网络相结合应用于汉语数码语音识别(Mmandarin Ddigit Speech Recognition,MDSR)的方法。同时采用了一系列改进方法,使汉语数码语... 提出一种离散隐马尔科夫模型(hidden Markov model,HMM)和径向基函数(radial basis function,RBF)神经网络相结合应用于汉语数码语音识别(Mmandarin Ddigit Speech Recognition,MDSR)的方法。同时采用了一系列改进方法,使汉语数码语音的识别率达到了99.7%。 展开更多
关键词 混合模型 HMM RBF 数字语音识别 数码语音识别 隐马尔科夫模型 径向基函数 人工神经网络
下载PDF
汉语连续语音识别中经典HMM的实验评测 被引量:6
13
作者 郝杰 李星 《计算机工程与应用》 CSCD 北大核心 2001年第13期1-4,101,共5页
定量地分析与评价经典隐马尔可夫模型(Hidden Markov Model,HMM)的性能,是汉语连续语音识别研究中尚未解决并且亟需解决的问题。文章构造了基于经典HMM模型的汉语连续语音识别系统。针对语音单元和输出概率... 定量地分析与评价经典隐马尔可夫模型(Hidden Markov Model,HMM)的性能,是汉语连续语音识别研究中尚未解决并且亟需解决的问题。文章构造了基于经典HMM模型的汉语连续语音识别系统。针对语音单元和输出概率这两个自由度上的各种组合,研究了经典HMM模型的复杂度、稳健性、精确性与训练集合的数据量、训练时间、解码效率等特性之间的关系;并且通过实验分析了多候选的构造和剪枝的意义。该文构造的系统与具有国内最高水平的 THEESP系统的识别率相当,所得实验结果和结论为汉语语音识别的深入研究提供了必要的参考和依据。 展开更多
关键词 汉语连续语音识别 经典HMM模型 THEESP系统 语音信号处理
下载PDF
一种改进的线性区分分析方法及其在汉语数码语音识别上的应用 被引量:2
14
作者 史媛媛 刘加 刘润生 《电子学报》 EI CAS CSCD 北大核心 2002年第7期959-963,共5页
尽管汉语数码语音识别只涉及十个数字 ,但由于不同数字的发音存在相同或相似的声母或韵母 ,造成汉语数码语音之间的混淆性很大 .采用通常的隐含马尔科夫模型 (HMM)作为汉语数码语音识别模型难以得到很高的识别率 .为了解决汉语数码之间... 尽管汉语数码语音识别只涉及十个数字 ,但由于不同数字的发音存在相同或相似的声母或韵母 ,造成汉语数码语音之间的混淆性很大 .采用通常的隐含马尔科夫模型 (HMM)作为汉语数码语音识别模型难以得到很高的识别率 .为了解决汉语数码之间的混淆问题 ,提高汉语数码语音识别性能 ,本文在隐含马尔科夫模型的状态层次上采用线性区分分析方法 ,将不同状态之间容易混淆的特征样本构成混淆模式类 ,针对混淆模式类进行线性区分分析 .通过线性区分变换 ,在变换特征空间中仅保留那些能够有效区分该混淆类别的特征参数 .这种基于状态的线性区分分析有效地提高了模型对混淆数码的区分能力 .实验表明即使采用状态数很少的粗糙识别模型 ,也能很大幅度提高模型的识别性能 ;经过线性区分变换优化后的汉语数码识别模型 ,孤立汉语数码语音识别率可以达到 99 32 % . 展开更多
关键词 线性区分分析 LDA 汉语数码语音识别 区分变换 隐含马尔科夫模型 HMM
下载PDF
基于经典隐马尔可夫模型的汉语连续语音识别系统 被引量:3
15
作者 郝杰 李星 《电子与信息学报》 EI CSCD 北大核心 2002年第7期944-947,共4页
该文构造了基于经典隐马尔可夫模型(Hidden Markov Model,HMM)的汉语连续语音识别系统,定量地分析与评价了经典HMM的性能。
关键词 隐马尔可夫模型 汉语 语音识别系统
下载PDF
汉语数码语音识别中一种新的抗噪声特征参数 被引量:2
16
作者 张涛 郜彦华 《河南科技大学学报(自然科学版)》 CAS 2005年第3期46-48,共3页
为了提高中小词汇量语音识别系统在噪声环境下的识别性能,以10个汉语数码语音为对象,利用汉语数码语音信号区别于噪声信号的准周期特性,提出了一种汉语数码语音频谱包络峰值特性的提取方法,首先用基频对语音频谱采样得到由谐波值构成的... 为了提高中小词汇量语音识别系统在噪声环境下的识别性能,以10个汉语数码语音为对象,利用汉语数码语音信号区别于噪声信号的准周期特性,提出了一种汉语数码语音频谱包络峰值特性的提取方法,首先用基频对语音频谱采样得到由谐波值构成的包络以提高信噪比,然后再对所得包络进行峰值提取得到汉语数码语音的峰值特征。实验结果表明,在信噪比大于5dB时,用该方法得到的峰值特征具有一定的抗噪性。 展开更多
关键词 汉语数码语音识别 特征参数 抗噪声 语音识别系统 识别性能 噪声环境 周期特性 噪声信号 语音信号 提取方法 频谱包络 高信噪比 语音频谱 峰值提取 词汇量 抗噪性
下载PDF
汉语数码语音识别自适应算法 被引量:4
17
作者 李虎生 杨明杰 刘润生 《电路与系统学报》 CSCD 1999年第2期1-6,共6页
说话人自适应是提高非特定人语音识别性能的有效方法之一。本文将MAP算法应用于汉语数码语音识别中,并讨论了几种加快自适应速度的方法以及自适应对非自适应人的影响。实验表明,MAP算法可以有效地降低汉语数码语音识别对被适应人的误... 说话人自适应是提高非特定人语音识别性能的有效方法之一。本文将MAP算法应用于汉语数码语音识别中,并讨论了几种加快自适应速度的方法以及自适应对非自适应人的影响。实验表明,MAP算法可以有效地降低汉语数码语音识别对被适应人的误识率,而且对非自适应人性能影响很小。 展开更多
关键词 汉语 语音识别 自适应MAP算法 MDSR
下载PDF
听力图正常者的信噪比损失现象 被引量:3
18
作者 李刚 郑芸 +3 位作者 朱珍珍 陶勇 孟照莉 胥科 《听力学及言语疾病杂志》 CAS CSCD 北大核心 2013年第5期477-479,共3页
目的探讨听力图正常者是否存在信噪比损失(signal-to-noise ratio loss,SNR loss)现象。方法对2010年3月至2011年4月在四川大学华西医院听力及耳科门诊就诊,主诉为生活环境中聆听言语较困难,但纯音测听、声导抗和常规言语分辨率(word re... 目的探讨听力图正常者是否存在信噪比损失(signal-to-noise ratio loss,SNR loss)现象。方法对2010年3月至2011年4月在四川大学华西医院听力及耳科门诊就诊,主诉为生活环境中聆听言语较困难,但纯音测听、声导抗和常规言语分辨率(word recognition score,WRS)测试结果正常的10名患者进行普通话版噪声下言语测听(Mandarin hearing in noise test,M-HINT),并将结果与现有文献报道的M-HINT正常值进行比较(以结果高于正常值判断为出现了SNR loss现象),评估患者是否存在SNR loss现象。结果在噪声环境中,当噪声来自患者正前方时,10名患者均出现了SNR loss现象;当噪声来自患者右侧或左侧时,9名患者出现了SNR loss现象。结论听力图正常者也可能存在SNR loss现象,对于主诉为生活环境中聆听言语困难者,即使纯音听力图正常也应考虑进行噪声下言语测听(如M-HINT测试),以评估患者是否存在SNR loss现象。 展开更多
关键词 纯音听力图 言语接受阈 言语分辨率 普通话版噪声下言语测试 信噪比损失
下载PDF
听力正常人噪声下汉语普通话声调识别成绩-强度函数的研究 被引量:1
19
作者 亓贝尔 Andreas Krenmayr +2 位作者 董瑞娟 傅新星 刘博 《中国耳鼻咽喉头颈外科》 CSCD 2016年第1期4-7,共4页
目的获得噪声下声调识别测试(t o n e identification in noise test,TINT)材料的听力正常人识别成绩-强度(performance-intensity,PI)函数。方法利用已确立的TINT测试材料对16名年龄在21~28岁、以普通话作为日常交流语言的听力正... 目的获得噪声下声调识别测试(t o n e identification in noise test,TINT)材料的听力正常人识别成绩-强度(performance-intensity,PI)函数。方法利用已确立的TINT测试材料对16名年龄在21~28岁、以普通话作为日常交流语言的听力正常人进行声调识别测试,使用SPSS17.0统计软件对结果进行分析。结果听力正常成人PI斜率分别为8.6%/d B(男声)、7.3%/d B(女声)(P=0.11);听力正常成人PI函数信噪比50阈值分别为男声(-12.9±0.8)d B、女声(-13.6±1)d B(t=2.7,P=0.016);声调类型和播音者性别对PI曲线阈值的影响即存在交互作用(F=11.7,P〈0.001)、亦存在独立作用(声调类型:F=83.7,P〈0.001;播音员性别:F=31.0,P〈0.05),其中听力正常人一声和四声识别阈值明显低于二声和三声识别阈值。结论本研究初步建立基于TINT测试材料的听力正常人噪声下声调识别PI函数,以期为临床工作和科学研究提供一个可选择的测量工具。 展开更多
关键词 测听法 言语识别测验 汉语/普通话 声调识别
下载PDF
基于改进能量比值的普通话翘舌音与平舌音区分 被引量:1
20
作者 吴昊 鲁周迅 《计算机工程与设计》 CSCD 北大核心 2010年第15期3451-3454,共4页
针对普通话语音识别中翘舌音与平舌音的区分,主要研究了在基于子音音素语谱的能量比值作为新特征时,系统识别率的改善方法。在传统梅尔倒谱系数和对数能量的特征中,加入子音段高频部分与低频部分的能量比值作为新特征以提高识别的准确... 针对普通话语音识别中翘舌音与平舌音的区分,主要研究了在基于子音音素语谱的能量比值作为新特征时,系统识别率的改善方法。在传统梅尔倒谱系数和对数能量的特征中,加入子音段高频部分与低频部分的能量比值作为新特征以提高识别的准确性。以频带能量序列的差分为基础,提出一种基于距离聚类分析的最佳比例获取方法,使翘舌音与平舌音能量比值间的差异最大化。隐马尔可夫模型实验结果表明,该方法能直接获得最佳比例,有效地改善需通过反复训练测试才能获得最佳比例的不足。 展开更多
关键词 语音识别 翘舌音 能量比值 聚类分析 普通话
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部