期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于决策树的汉语三音子模型 被引量:20
1
作者 高升 徐波 黄泰翼 《声学学报》 EI CSCD 北大核心 2000年第6期504-509,共6页
基于决策树理论的上下文相关声学模型在英语语音识别中已经得到了比较深入的研究和应用,但在汉语语音识别中的应用则研究的比较少。本文基于决策树理论建立了汉语语境相关模型-三音于模型,讨论了决策构建模所要解决的几个重要问题:(... 基于决策树理论的上下文相关声学模型在英语语音识别中已经得到了比较深入的研究和应用,但在汉语语音识别中的应用则研究的比较少。本文基于决策树理论建立了汉语语境相关模型-三音于模型,讨论了决策构建模所要解决的几个重要问题:(1)基本建模单元集的选择,(2)音子类别集的设计,(3)评估函数的选择,(4)停止准则的选择,(5)决策树的建立和三音子模型的生成,本文着重分析了两种不同建模单元的性能:对音子类别集的设计提出了一些一般性的准则,并对我们设计的类别集进行了统计分析;分析了三音子模型在语音库的覆盖程度。实验结果表明,基于决策树的三音子声学模型建立的识别系统与双音子声学模型系统比较,误识率下降了24.7%。 展开更多
关键词 决策树 汉语 识别 音子模型
下载PDF
基于三音子模型的语料自动选择算法 被引量:12
2
作者 吴华 徐波 黄泰翼 《软件学报》 EI CSCD 北大核心 2000年第2期271-276,共6页
在语音识别中 ,如何经济地挑选语音训练语料 ,使其覆盖尽可能多的语音现象是一个非常重要的问题 .传统的语音训练语料采用手工挑选后再进行检验和补充的方法 ,此方法难以保证所选语料语音现象的覆盖率 .该文提出了一种自动地从大规模语... 在语音识别中 ,如何经济地挑选语音训练语料 ,使其覆盖尽可能多的语音现象是一个非常重要的问题 .传统的语音训练语料采用手工挑选后再进行检验和补充的方法 ,此方法难以保证所选语料语音现象的覆盖率 .该文提出了一种自动地从大规模语料库中挑选语料的搜索算法 ,此算法不但能使所选语料覆盖几乎所有语音现象 ,而且能保证训练语料中三音子和类三音子有足够的样本个数 ,使训练数据不过于稀疏 ,为训练正确而可靠的语音模型打下了坚实的基础 . 展开更多
关键词 识别 语料选择算法 音子模型
下载PDF
汉语连续语音识别系统中三音子模型的优化 被引量:4
3
作者 齐耀辉 潘复平 +1 位作者 葛凤培 颜永红 《计算机应用研究》 CSCD 北大核心 2013年第10期2920-2922,共3页
为了更准确地估计状态聚类前有调三音子的模型参数,从而提高聚类后捆绑状态的精度及系统的识别性能,针对汉语连续语音识别中,有些有调三音子的训练样本数非常少,而其对应的无调三音子的训练样本数相对较多的情况,提出用其对应的无调三... 为了更准确地估计状态聚类前有调三音子的模型参数,从而提高聚类后捆绑状态的精度及系统的识别性能,针对汉语连续语音识别中,有些有调三音子的训练样本数非常少,而其对应的无调三音子的训练样本数相对较多的情况,提出用其对应的无调三音子的模型参数进行初始化,并用最大后验概率准则训练模型。汉语大词汇量连续语音识别实验表明,该方法可以提高训练语料中稀疏三音子聚类前的模型精度,从而提高系统的识别性能。 展开更多
关键词 决策树聚类 音子模型 声韵母 最大后验概率
下载PDF
基于决策树的藏语拉萨话三音子模型 被引量:4
4
作者 李冠宇 于洪志 +1 位作者 李永宏 马宁 《计算机工程与科学》 CSCD 北大核心 2013年第9期146-150,共5页
对藏语拉萨话中单音子及三音子分布情况进行了统计,分析了在藏语大词表连续词表连续语音识别中建立上下文相关声学模型的必要性。选择音素为建模单元,根据藏语特点,建立以音节为单位的发音字典。讨论了利用决策树建立三音子模型的几个... 对藏语拉萨话中单音子及三音子分布情况进行了统计,分析了在藏语大词表连续词表连续语音识别中建立上下文相关声学模型的必要性。选择音素为建模单元,根据藏语特点,建立以音节为单位的发音字典。讨论了利用决策树建立三音子模型的几个关键问题和基本算法,结合国际音标分类和经验知识,确定了38个藏语拉萨话音子类别集及相应的决策树问题集。建立了共20个发音人8 170句的训练语料,在HTK平台上建立和训练得到了基于决策树的藏语拉萨话三音子模型,并分析了不同隐马尔可夫模型状态数及高斯混合度下的识别结果,确定了一套藏语大词表连续语音识别的完整方案。 展开更多
关键词 藏语 拉萨话 大词表连续语识别 隐马尔可夫模型 音子模型
下载PDF
基于先验知识的三音子模型聚类结构自适应策略
5
作者 董明 刘润生 《电子与信息学报》 EI CSCD 北大核心 2007年第9期2050-2053,共4页
该文提出了一种基于先验知识的三音子模型聚类结构自适应策略,可以在规模很小的自适应语音库条件下改善三音子声学模型的聚类结构使之更适合应用对象的协同发音特点。以基本声学模型训练过程中的三音子模型聚类结果作为先验知识的聚类中... 该文提出了一种基于先验知识的三音子模型聚类结构自适应策略,可以在规模很小的自适应语音库条件下改善三音子声学模型的聚类结构使之更适合应用对象的协同发音特点。以基本声学模型训练过程中的三音子模型聚类结果作为先验知识的聚类中心,依据基本声学模型对自适应语音库的分割,按照最大似然准则迭代地重估新的聚类中心和模型聚类结构。实验表明:基于先验知识的三音子模型聚类结构自适应策略可以在不足两小时的自适应语音库上实现三音子模型聚类结构重估,在针对汉语母语说话人的英语声学模型实验中,该文的模型聚类结构自适应策略可以将系统识别率从74.59%提高到83.63%。 展开更多
关键词 识别 音子模型 模型聚类
下载PDF
汉语三音子模型观测概率比较 被引量:2
6
作者 刘玉宇 吴及 王作英 《中文信息学报》 CSCD 北大核心 2003年第3期47-52,共6页
HMM的观测概率能否很好描述模型的实际分布对识别性能有很大的影响。为了比较汉语三音子模型在不同观测概率情况下的差异 ,本文构造了三种不同模型 ,及其训练和识别算法。通过从多方面对这三个模型进行比较 ,得出结论 ,为今后汉语三音... HMM的观测概率能否很好描述模型的实际分布对识别性能有很大的影响。为了比较汉语三音子模型在不同观测概率情况下的差异 ,本文构造了三种不同模型 ,及其训练和识别算法。通过从多方面对这三个模型进行比较 ,得出结论 ,为今后汉语三音子模型观测概率的选择提供依据。 展开更多
关键词 人工智能 机器翻译 识别 音子模型 观测概率
下载PDF
基于三音子模型连续语音声调识别方法 被引量:1
7
作者 魏瑞莹 梁维谦 《电声技术》 2011年第8期34-37,共4页
作为汉语语音识别的重要组成部分,声调识别具有关键的作用。提出了一种新的基于前后文相关的模型识别方法用以提高汉语连续语音中的识别率。首先介绍用于声调识别的基因轨迹的提取和处理,然后提出6种特征来描述基因轨迹的变化趋势并给... 作为汉语语音识别的重要组成部分,声调识别具有关键的作用。提出了一种新的基于前后文相关的模型识别方法用以提高汉语连续语音中的识别率。首先介绍用于声调识别的基因轨迹的提取和处理,然后提出6种特征来描述基因轨迹的变化趋势并给出具体的计算公式,利用这些特征并考虑连续语音中前后音节的相关性对基因轨迹造成的变化而建立细分的声调模型,最后基于这种声调模型采用决策树的分类方法进行声调的识别和测试。 展开更多
关键词 声调识别 基因轨迹 特征提取 音子模型 决策树
下载PDF
一种基于模糊聚类分析的异音混合共享模型
8
作者 徐向华 朱杰 郭强 《声学学报》 EI CSCD 北大核心 2005年第5期457-461,共5页
为减少语音识别中声学模型的参数量,提高参数训练的鲁棒性,提出了一种基于升值法模糊聚类的异音混合共享模型。在决策树结构的基础上,通过对初始三音子模型的高斯函数做模糊聚类得到该模型的高斯码本,并进一步通过对模型的方差做模糊聚... 为减少语音识别中声学模型的参数量,提高参数训练的鲁棒性,提出了一种基于升值法模糊聚类的异音混合共享模型。在决策树结构的基础上,通过对初始三音子模型的高斯函数做模糊聚类得到该模型的高斯码本,并进一步通过对模型的方差做模糊聚类完成对方差的共享。识别实验结果表明,与相近高斯数量的传统异音混合共享模型相比,提出的异音混合共享模型的高斯权值数减少77.59%时,识别率提高7.92%;与相近参数量的三音子模型相比,方差共享的异音混合模型误识率降低了3.01%。 展开更多
关键词 模糊聚类分析 声学模型 混合模型 共享 音子模型 高斯函数 识别 参数训练
下载PDF
语音识别的自适应束剪枝方法 被引量:4
9
作者 张东滨 杜利民 《电声技术》 北大核心 2004年第8期41-45,共5页
在语音识别的应用中,如何提高识别的效率性是一个重要的方向。尤其在大词汇表的识别中,庞大的搜索空间带来相应的计算代价,而传统剪枝方法在减少计算量的同时牺牲了识别率。为此引入自适应控制理论,自动调整束宽限定搜索空间在预定的规... 在语音识别的应用中,如何提高识别的效率性是一个重要的方向。尤其在大词汇表的识别中,庞大的搜索空间带来相应的计算代价,而传统剪枝方法在减少计算量的同时牺牲了识别率。为此引入自适应控制理论,自动调整束宽限定搜索空间在预定的规模。在此基础上,又提出了利用基线系统的平均激活模型音子模型实例作为自适应系统动态参考值的方法,实现启发式的束宽调节。应用此方法的解码器在不损失识别率情况下,计算时间和搜索空间比采用传统剪枝算法下降了55%和71%,显著地提高了解码器的效率。 展开更多
关键词 识别 自适应束剪枝 音子模型 束宽调节 搜索空间
下载PDF
汉语声调识别中的基音后处理方法
10
作者 周韡 梁维谦 刘润生 《桂林电子科技大学学报》 2008年第3期214-218,共5页
汉语是一种带有声调的语言,声调信息主要体现在韵母的基音轨迹中,但是由于提取的基音不够稳健,所以必须要对基音进行后处理。通过归纳以帧为单位和以韵母为单位的两类基音后处理方式,并在第一种方式中提出基于韵母平均值进行归一化算法... 汉语是一种带有声调的语言,声调信息主要体现在韵母的基音轨迹中,但是由于提取的基音不够稳健,所以必须要对基音进行后处理。通过归纳以帧为单位和以韵母为单位的两类基音后处理方式,并在第一种方式中提出基于韵母平均值进行归一化算法,在第二种方式中提出了帧叠靠前和帧叠靠后的韵母四等分长算法,经实验结果(以标准HTK为平台)得出后者更优的结论。考虑到前后声调的影响,采用声调三音子模型进行声调识别测试,可以比单音子模型识别效果提高10%左右。 展开更多
关键词 识别 声调识别 后处理 帧叠靠前/帧叠靠后四等分均值算法 声调三音子模型
下载PDF
Discriminative tone model training and optimal integration for Mandarin speech recognition
11
作者 黄浩 朱杰 《Journal of Southeast University(English Edition)》 EI CAS 2007年第2期174-178,共5页
Two discriminative methods for solving tone problems in Mandarin speech recognition are presented. First, discriminative training on the HMM (hidden Markov model) based tone models is proposed. Then an integration t... Two discriminative methods for solving tone problems in Mandarin speech recognition are presented. First, discriminative training on the HMM (hidden Markov model) based tone models is proposed. Then an integration technique of tone models into a large vocabulary continuous speech recognition system is presented. Discriminative model weight training based on minimum phone error criteria is adopted aiming at optimal integration of the tone models. The extended Baum Welch algorithm is applied to find the model-dependent weights to scale the acoustic scores and tone scores. Experimental results show that tone recognition rates and continuous speech recognition accuracy can be improved by the discriminatively trained tone model. Performance of a large vocabulary continuous Mandarin speech recognition system can be further enhanced by the discriminatively trained weight combinations due to a better interpolation of the given models. 展开更多
关键词 discriminative training minimum phone error tone modeling Mandarin speech recognition
下载PDF
A model of Korotkoff sounds method electronic sphygmomanometer equivalent to the mercury one 被引量:1
12
作者 Xin Xuegang 《Journal of Medical Colleges of PLA(China)》 CAS 2010年第1期19-23,共5页
Mercury sphygmomanometer (MSM) is reliable and widely used in clinics and hospitals. The principle of Korotkoff sounds method (KSM) applied in the MSM is also a gold standard to measure blood pressure. Many efforts ha... Mercury sphygmomanometer (MSM) is reliable and widely used in clinics and hospitals. The principle of Korotkoff sounds method (KSM) applied in the MSM is also a gold standard to measure blood pressure. Many efforts have been made attempting to replace MSM, which is criticized for being not healthy and safe. In this research, an electronic blood pressure monitor, named K-sounds electronic sphygmomanometer (KESM), was designed as a substitute to MSM. The three key elements of KSM were proposed for the first time. We used appropriate electronic components to build the KESM which can fulfill the functions related to the three key elements. The KESM, which was easy to operate and free of mercury, followed the same principle as MSM. The same principle guaranteed the comparable accuracy. We took equivalence test and the results showed that the designed KESM was as accurate as the calibrated standard MSM. The designed KESM passed the certifications of SFDA and is qualified in clinics or hospitals for diagnostic purposes. 展开更多
关键词 AUSCULTATION Blood pressure monitor Equipment design OSCILLOMETRY
下载PDF
A robust feature extraction approach based on an auditory model for classification of speech and expressiveness 被引量:5
13
作者 孙颖 V.Werner 张雪英 《Journal of Central South University》 SCIE EI CAS 2012年第2期504-510,共7页
Based on an auditory model, the zero-crossings with maximal Teager energy operator (ZCMT) feature extraction approach was described, and then applied to speech and emotion recognition. Three kinds of experiments were ... Based on an auditory model, the zero-crossings with maximal Teager energy operator (ZCMT) feature extraction approach was described, and then applied to speech and emotion recognition. Three kinds of experiments were carried out. The first kind consists of isolated word recognition experiments in neutral (non-emotional) speech. The results show that the ZCMT approach effectively improves the recognition accuracy by 3.47% in average compared with the Teager energy operator (TEO). Thus, ZCMT feature can be considered as a noise-robust feature for speech recognition. The second kind consists of mono-lingual emotion recognition experiments by using the Taiyuan University of Technology (TYUT) and the Berlin databases. As the average recognition rate of ZCMT approach is 82.19%, the results indicate that the ZCMT features can characterize speech emotions in an effective way. The third kind consists of cross-lingual experiments with three languages. As the accuracy of ZCMT approach only reduced by 1.45%, the results indicate that the ZCMT features can characterize emotions in a language independent way. 展开更多
关键词 speech recognition emotion recognition zero-crossings Teager energy operator speech database
下载PDF
基于网格的语音关键词检索算法改进 被引量:2
14
作者 肖熙 王竞千 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第5期508-513,共6页
针对多候选汉语音节网格语音关键词检索任务,在Gauss混合模型以及多候选识别算法方面进行了研究改进。首先探讨了Gauss混合模型的不同简化策略并用实验进行了验证,证明了全协方差矩阵在识别性能上的优越性;随后对经典的多候选令牌传递... 针对多候选汉语音节网格语音关键词检索任务,在Gauss混合模型以及多候选识别算法方面进行了研究改进。首先探讨了Gauss混合模型的不同简化策略并用实验进行了验证,证明了全协方差矩阵在识别性能上的优越性;随后对经典的多候选令牌传递算法做出了针对汉语特点的改进。实验表明这2方面的研究不仅提高了以音节作为输出的语音识别引擎的单候选识别效果,也大幅提高了多候选的识别性能。最后搭建了一个基于多候选网格的语音关键词检索系统,在该系统中验证了上述改进的效果。 展开更多
关键词 关键词检索 多候选网格 Gauss混合模型 CUDA 音子模型
原文传递
Tonal Noise Prediction of an Automotive Engine Cooling Fan: Comparison between Analytical Models and Acoustic Analogy Results
15
作者 Elias Tannoury Sofiane Khelladi +2 位作者 Bruno Demory Manuel Henner Farid Bakir 《Journal of Mechanics Engineering and Automation》 2012年第7期455-463,共9页
Valeo, involved in engine cooling fan system design for many years, is interested in noise prediction tools for axial fans. Thus, this paper describes a two-part study of tonal noise computation. The first part deals ... Valeo, involved in engine cooling fan system design for many years, is interested in noise prediction tools for axial fans. Thus, this paper describes a two-part study of tonal noise computation. The first part deals with the prediction of tonal noise using analytical models. As for the second part, it describes a hybrid approach for predicting tonal noise where the sources are extracted from an Unsteady Reynolds-Averaged Naviers-Stocks (URANS) simulation and then propagated into the far, free field using the Ffowcs Williams and Hawkings' acoustic analogy. The computational domain is meshed with 46 million polyhedral elements and the simulation takes into account the exact geometry of the rotor blades, the stator blades and the shroud. The results from the first part show that analytical models can be used for comparisons between different fan geometries, but are unable to provide accurate noise predictions compared to experimental results. The simulation shows non-periodic blade loading over a whole fan revolution, and different blade loading between the blades. This introduces some bias in the assessment of the acoustic performance of the fan. Overall, the results from the hybrid method are in accordance with the experimental results. 展开更多
关键词 Aeroacoustics axial fan tonal noise.
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部