期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
一般拓扑结构的非齐次隐含马尔科夫模型及其在中、英文语种辨识中的应用 被引量:1
1
作者 王作英 孙健 《电子与信息学报》 EI CSCD 北大核心 2007年第4期867-869,共3页
为了充分利用语音信号中的段长信息,该文提出了一种具有一般拓扑结构的非齐次隐含Markov模型(Hidden Markov Model,HMM),并将其应用于中、英文语种辨识(Language IDentification,LID)系统。非齐次HMM既很好地描述了语音信号的发生过程,... 为了充分利用语音信号中的段长信息,该文提出了一种具有一般拓扑结构的非齐次隐含Markov模型(Hidden Markov Model,HMM),并将其应用于中、英文语种辨识(Language IDentification,LID)系统。非齐次HMM既很好地描述了语音信号的发生过程,又准确地利用了状态的段长信息和语言中的上下文连接结构信息,对于中、英文语种辨识系统,非齐次的HMM系统辨识性能好于齐次的HMM模型。而在非齐次的HMM中,同段长为均匀分布相比,段长分布为正态分布时系统的辨识性能更好,表明段长确实是一种重要的语种区分信息之一,且正态分布较均匀分布更接近于真实的段长分布。 展开更多
关键词 语种辨识 非齐次隐含markov模型 段长分布
下载PDF
可训练文语转换系统的时长模型优化 被引量:2
2
作者 吕浩音 《计算机应用》 CSCD 北大核心 2010年第1期282-284,共3页
文语转换是人机交互的一项关键技术。当前的基于隐马尔可夫模型的语音合成系统已经能够合成出较高自然度和可懂度的声音,但与自然语音相比,韵律的节奏感不强,其主要原因是受时长的影响。提出在生成状态时长时同时优化状态、音子和音节... 文语转换是人机交互的一项关键技术。当前的基于隐马尔可夫模型的语音合成系统已经能够合成出较高自然度和可懂度的声音,但与自然语音相比,韵律的节奏感不强,其主要原因是受时长的影响。提出在生成状态时长时同时优化状态、音子和音节三层模型的似然值,并通过考虑状态和长时时长的信息,使在重估计的过程中减少状态时长的错误。在普通话语料库上的实验证明,优化后的时长模型能够产生更加准确的状态时长,与状态级的基线系统相比较,均方根误差由19.90提高到了17.45。主观评测也显示改进后的模型优于基线模型。 展开更多
关键词 隐马尔可夫模型 音节时长 高斯分布 最大似然值
下载PDF
集成语种辨识的中英文LVCSR系统
3
作者 孙健 王作英 《计算机工程与设计》 CSCD 北大核心 2007年第8期1931-1933,共3页
为了在未知一段语音所属语言种类的情况下将其转换为正确的字符序列,将语种辨识(language identification,LID)同语音识别集成在一起建立了中、英文大词汇量连续语音识别(large vocabulary continuous speech recognition,LVCSR)系统。... 为了在未知一段语音所属语言种类的情况下将其转换为正确的字符序列,将语种辨识(language identification,LID)同语音识别集成在一起建立了中、英文大词汇量连续语音识别(large vocabulary continuous speech recognition,LVCSR)系统。为了在中、英文连续语音识别系统中能够尽早的对语音所属的语言种类做出判决以便进行识别,从而降低解码的计算量,对语种辨识过程中的语种剪枝进行了研究,表明采用合理的语种剪枝门限在不降低系统性能的情况下,可以有效的降低系统的计算量及识别时间。 展开更多
关键词 连续语音识别 语种辨识 段长分布 非齐次隐含马尔科夫模型 语种剪枝
下载PDF
分布式语音识别系统的架构分析和具体实现
4
作者 孟建庭 吴及 王作英 《电声技术》 北大核心 2004年第8期51-53,共3页
研究了分布式语音识别系统(DSR)的架构,实现并测试了客户端/服务器架构的分布式语音识别系统。系统采用基于段长分布的隐含马尔可夫模型(DDBHMM)的识别算法,使用多服务器、多客户端的系统架构,采用负载平衡的方式分配识别资源,能够达到... 研究了分布式语音识别系统(DSR)的架构,实现并测试了客户端/服务器架构的分布式语音识别系统。系统采用基于段长分布的隐含马尔可夫模型(DDBHMM)的识别算法,使用多服务器、多客户端的系统架构,采用负载平衡的方式分配识别资源,能够达到稳定高效的性能。 展开更多
关键词 语音识别 分布式语音识别 段长分布的隐含弥可夫模型
下载PDF
Nonlinear Time-Frequency Distributions of Spectrum Energy Operator in Large Vocabulary Mandarin Speaker Independent Speech Recognition System 被引量:1
5
作者 FadhilH.T.Al-dulaimy 王作英 《Tsinghua Science and Technology》 SCIE EI CAS 2003年第6期667-671,共5页
This work demonstrates the use of the nonlinear time-frequency distribution (NLTFD) of a discrete time energy operator (DTEO) based on amplitude modulation-frequency modulation demodulation techniques as a feature i... This work demonstrates the use of the nonlinear time-frequency distribution (NLTFD) of a discrete time energy operator (DTEO) based on amplitude modulation-frequency modulation demodulation techniques as a feature in speech recognition. The duration distribution based hidden Markov module in a speaker independent large vocabulary mandarin speech recognition system was reconstructed from the feature vectors in the front-end detection stage. The goal was to improve the performance of the existing system by combining new features to the baseline feature vector. This paper also deals with errors associated with using a pre-emphasis filter in the front end processing of the present scheme, which causes an increase in the noise energy at high frequencies above 4 kHz and in some cases degrades the recognition accuracy. The experimental results show that eliminating the pre-emphasis filters from the pre-processing stage and using NLTFD with compensated DTEO combined with Mel frequency cepstrum components give a 21.95% reduction in the relative error rate compared to the conventional technique with 25 candidates used in the test. 展开更多
关键词 large vocabulary speech recognition duration distribution based hidden markov module robust feature energy operator
原文传递
非凸段长分布隐含Markov模型的搜索算法
6
作者 吴及 肖熙 +1 位作者 许琳 王作英 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第7期924-927,共4页
基于段长分布的隐含Markov模型(DDBHMM)可解决经典隐含Markov模型(HMM)的状态段长指数分布的问题,实现了基于凸性假设的搜索。为解决非齐次模型的搜索算法问题,提出采用混合Gauss分布来拟合非凸段长分布,用子状态拆分的方法来实现非凸... 基于段长分布的隐含Markov模型(DDBHMM)可解决经典隐含Markov模型(HMM)的状态段长指数分布的问题,实现了基于凸性假设的搜索。为解决非齐次模型的搜索算法问题,提出采用混合Gauss分布来拟合非凸段长分布,用子状态拆分的方法来实现非凸段长分布DDBHMM识别算法。在音乐信号识别上的实验表明:该方法在召回率提高1.1%的情况下,使准确率提高约10%。该方法实现了非凸段长分布HMM的识别算法,并且对于其他非凸段长信号具有推广价值。 展开更多
关键词 语音识别 隐含马尔可夫模型 非凸性段长分布
原文传递
基于自回归模型的加性噪声环境稳健语音识别 被引量:2
7
作者 刘敬伟 王作英 肖熙 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第1期50-53,共4页
为提高噪声不平稳或不可估的情况下语音识别的稳健性,提出了利用自回归模型和短时平稳性假设,估计干净与噪声环境的语音数据,建立相应的语音识别模型,以达到抗噪效果的稳健语音信号处理方法。在N o iseX-92的4种噪声环境(w h ite,babb l... 为提高噪声不平稳或不可估的情况下语音识别的稳健性,提出了利用自回归模型和短时平稳性假设,估计干净与噪声环境的语音数据,建立相应的语音识别模型,以达到抗噪效果的稳健语音信号处理方法。在N o iseX-92的4种噪声环境(w h ite,babb le,vo lvo,destroyer eng ine)从0到20 dB的不同信噪比下的“863”大词汇连续语音标准数据库的平均识别结果表明,该方法能够使得基于段长分布的隐M arkov模型的语音识别系统在25候选时声学层的音节相对错误率下降达到10.85%以下,同时相对正确识别率上升12.13%。 展开更多
关键词 语音识别 稳健性 自回归模型 段长分布 隐含markov模型
原文传递
融合段长信息的中、英文语种辨识
8
作者 孙健 王作英 《模式识别与人工智能》 EI CSCD 北大核心 2006年第5期567-571,共5页
状态的段长信息反映语言发音变化速率的信息.不同语言的发音速率也存在着差异,因此状态的段长信息可以作为区分语种的信息之一.本文在建立基于段长分布的隐含 Markov 模型(DDBHMM)的音素识别系统和大词汇量连续语音识别(LVCSR)系统的基... 状态的段长信息反映语言发音变化速率的信息.不同语言的发音速率也存在着差异,因此状态的段长信息可以作为区分语种的信息之一.本文在建立基于段长分布的隐含 Markov 模型(DDBHMM)的音素识别系统和大词汇量连续语音识别(LVCSR)系统的基础上进行中、英文语种辨识,表明DDBHMM可以准确描述状态的段长信息,改善中、英文语种的辨识性能. 展开更多
关键词 语种辨识 基于段长分布的隐含markov模型(DDBHMM) Gauss混合模型 连续音素识别 大词汇量连续语音识别(LVCSR)
原文传递
基于持续时间隐马尔可夫模型的心音分割算法 被引量:4
9
作者 奎皓然 潘家华 +3 位作者 宗容 杨宏波 粟炜 王威廉 《生物医学工程学杂志》 EI CAS CSCD 北大核心 2020年第5期765-774,共10页
心音分割指对所获取的心音信号按心动周期对收缩期、舒张期等进行分隔,是进行心音分类前的关键步骤。针对不依赖心电图对心音信号直接分割准确度有限的难题,提出了一种基于持续时间隐马尔可夫模型的心音分割算法。首先对心音样本进行位... 心音分割指对所获取的心音信号按心动周期对收缩期、舒张期等进行分隔,是进行心音分类前的关键步骤。针对不依赖心电图对心音信号直接分割准确度有限的难题,提出了一种基于持续时间隐马尔可夫模型的心音分割算法。首先对心音样本进行位置标注;然后采用自相关估计法对心音的心动周期持续时间进行估计,通过高斯混合分布对样本的状态持续时间进行建模;接着通过训练集信号对隐马尔可夫模型进行优化并建立基于持续时间的隐马尔可夫模型(DHMM);最后使用维特比算法对心音状态进行回溯得出S1、收缩期、S2、舒张期。使用500例心音样本对本文算法性能进行测试,平均评估精度分数(F1)为0.933,平均灵敏度为0.930,平均精确率为0.936。同其他算法相比,本文算法各项性能指标均有明显提升,证实了该算法具有较高的鲁棒性和抗噪声性能,为临床环境下所采集心音信号的特征提取与分析提供了一种新方法。 展开更多
关键词 心音分割 自相关估计 高斯混合分布 基于持续时间的隐马尔可夫模型 维特比算法
原文传递
Peripheral Nonlinear Time Spectrum Features Algorithm for Large Vocabulary Mandarin Automatic Speech Recognition 被引量:1
10
作者 Fadhil H.T.Al-dulaimy 王作英 《Tsinghua Science and Technology》 SCIE EI CAS 2005年第2期174-182,共9页
This work describes an improved feature extractor algorithm to extract the peripheral features of point x(ti,fj) using a nonlinear algorithm to compute the nonlinear time spectrum (NL-TS) pattern. The algo- rithm ob... This work describes an improved feature extractor algorithm to extract the peripheral features of point x(ti,fj) using a nonlinear algorithm to compute the nonlinear time spectrum (NL-TS) pattern. The algo- rithm observes n×n neighborhoods of the point in all directions, and then incorporates the peripheral fea- tures using the Mel frequency cepstrum components (MFCCs)-based feature extractor of the Tsinghua elec- tronic engineering speech processing (THEESP) for Mandarin automatic speech recognition (MASR) sys- tem as replacements of the dynamic features with different feature combinations. In this algorithm, the or- thogonal bases are extracted directly from the speech data using discrite cosime transformation (DCT) with 3×3 blocks on an NL-TS pattern as the peripheral features. The new primal bases are then selected and simplified in the form of the ?dp- operator in the time direction and the ?dp- operator in the frequency di- t f rection. The algorithm has 23.29% improvements of the relative error rate in comparison with the standard MFCC feature-set and the dynamic features in tests using THEESP with the duration distribution-based hid- den Markov model (DDBHMM) based on MASR system. 展开更多
关键词 large vocabulary speech recognition Mandarin automatic speech recognition (MASR) dura- tion distribution-based hidden markov model (DDBHMM) feature identification
原文传递
Adaptive Compensation Algorithm in Open Vocabulary Mandarin Speaker-Independent Speech Recognition
11
作者 FadhilH.T.Al-dulaimy 王作英 田野 《Tsinghua Science and Technology》 SCIE EI CAS 2002年第5期521-526,共6页
In speech recognition systems, the physiological characteristics of the speech production model cause the voiced sections of the speech signal to have an attenuation of approximately 20 dB per decade. Many speech rec... In speech recognition systems, the physiological characteristics of the speech production model cause the voiced sections of the speech signal to have an attenuation of approximately 20 dB per decade. Many speech recognition algorithms have been developed to solve this problem by filtering the input signal with a single-zero high pass filter. Unfortunately, this technique increases the noise energy at high frequencies above 4 kHz, which in some cases degrades the recognition accuracy. This paper solves the problem using a pre-emphasis filter in the front end of the recognizer. The aim is to develop a modified parameterization approach taking into account the whole energy zone in the spectrum to improve the performance of the existing baseline recognition system in the acoustic phase. The results show that a large vocabulary speaker-independent continuous speech recognition system using this approach has a greatly improved recognition rate. 展开更多
关键词 mel-frequency cepstrum coefficients speech recognition duration distribution based hidden markov model
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部