期刊文献+
共找到134篇文章
< 1 2 7 >
每页显示 20 50 100
HMM BASED RECOGNITION OF CHINESE TONES IN CONTINUOUS SPEECH
1
作者 Zhao Li (Department of Radio Engineering, Southeast University, Nanjing 210096) 《Journal of Electronics(China)》 2000年第1期9-14,共6页
This paper describes a method for recognizing Chinese tones in continuous speech. The first and second order differentials of the fundamental frequency logarithmically converted are used as feature parameters. A left-... This paper describes a method for recognizing Chinese tones in continuous speech. The first and second order differentials of the fundamental frequency logarithmically converted are used as feature parameters. A left-to-right hidden Markov modeling with five states, each of which is modeled by a single Gaussian distribution, expresses each of Chinese tones. Non-voiced portions are coded by random values normally distributed to uniformly deal with all the time frames in an utterance. Speaker dependent tone recognition was conducted for ten speakers. The average rate of 81.8% was obtained for these speakers. 展开更多
关键词 Chinese continuous speech TONE recognition FUNDAMENTAL frequency continuous HMM
下载PDF
Subspace Distribution Clustering HMM for Chinese Digit Speech Recognition
2
作者 秦伟 韦岗 《Journal of Electronic Science and Technology of China》 2006年第1期43-46,共4页
As a kind of statistical method, the technique of Hidden Markov Model (HMM) is widely used for speech recognition. In order to train the HMM to be more effective with much less amount of data, the Subspace Distribut... As a kind of statistical method, the technique of Hidden Markov Model (HMM) is widely used for speech recognition. In order to train the HMM to be more effective with much less amount of data, the Subspace Distribution Clustering Hidden Markov Model (SDCHMM), derived from the Continuous Density Hidden Markov Model (CDHMM), is introduced. With parameter tying, a new method to train SDCHMMs is described. Compared with the conventional training method, an SDCHMM recognizer trained by means of the new method achieves higher accuracy and speed. Experiment results show that the SDCHMM recognizer outperforms the CDHMM recognizer on speech recognition of Chinese digits. 展开更多
关键词 speech recognition Subspace Distribution Clustering Hidden Markov Model(SDCHMM) continuous Density Hidden Markov Model (CDHMM) parameter tying
下载PDF
Improving the Syllable-Synchronous Network SearchAlgorithm for Word Decoding in ContinuousChinese Speech Recognition 被引量:2
3
作者 郑方 武健 宋战江 《Journal of Computer Science & Technology》 SCIE EI CSCD 2000年第5期461-471,共11页
The previously proposed syllable-synchronous network search (SSNS) algorithm plays a very important role in the word decoding of the continuous Chinese speech recognition and achieves satisfying performance. Several r... The previously proposed syllable-synchronous network search (SSNS) algorithm plays a very important role in the word decoding of the continuous Chinese speech recognition and achieves satisfying performance. Several related key factors that may affect the overall word decoding effect are carefully studied in this paper, including the perfecting of the vocabulary, the big-discount Turing re-estimating of the N-Gram probabilities, and the managing of the searching path buffers. Based on these discussions, corresponding approaches to improving the SSNS algorithm are proposed. Compared with the previous version of SSNS algorithm, the new version decreases the Chinese character error rate (CCER) in the word decoding by 42.1% across a database consisting of a large number of testing sentences (syllable strings). 展开更多
关键词 large-vocabulary continuous Chinese speech recognition word decoding syllable- synchronous network search word segmentation
原文传递
LVCSR系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法 被引量:9
4
作者 陈雷 杨俊安 +1 位作者 王一 王龙 《信号处理》 CSCD 北大核心 2015年第3期290-298,共9页
大词汇量连续语音识别系统中,为了进一步增强网络的鲁棒性、提升瓶颈深度置信网络的识别准确率,本文提出一种基于区分性和自适应瓶颈深度置信网络的特征提取方法。该方法首先使用鲁棒性较强的瓶颈深度置信网络进行初步特征提取,进而进... 大词汇量连续语音识别系统中,为了进一步增强网络的鲁棒性、提升瓶颈深度置信网络的识别准确率,本文提出一种基于区分性和自适应瓶颈深度置信网络的特征提取方法。该方法首先使用鲁棒性较强的瓶颈深度置信网络进行初步特征提取,进而进行区分性训练,使网络的区分性更强、识别准确率更高,在此基础上引入说话人自适应技术对网络进行调整,提高系统的鲁棒性。本文利用提出的声学特征在多个噪声较强、主题风格较为随意的多个公共连续语音数据库上进行了测试,识别准确率取得了6.9!的提升。实验结果表明所提出的特征提取方法相对于传统方法的优越性。 展开更多
关键词 连续语音识别 瓶颈深度置信网络 区分性训练 说话人自适应
下载PDF
A study on continuous Chinese speech recognition based on stochastic trajectory models
5
作者 MA Xiaohui(Department of Radio Engineering Southeast University Nanjing 210096)GONG Yifan(CRIN/CNRS France)FU Yuqing LU Jiren(Department of Radio Engineering Southeast University Nanjing 210096) 《Chinese Journal of Acoustics》 1997年第4期350-355,共6页
After pointed the unreasonableness of the three basic assumptions contained in HMM, we introduce the theory and the advantage of Stochastic najectory Models (STMs) that possibly resolve these problems caused by HMM as... After pointed the unreasonableness of the three basic assumptions contained in HMM, we introduce the theory and the advantage of Stochastic najectory Models (STMs) that possibly resolve these problems caused by HMM assumptions. In STM, the acoustic observations of an acoustic unit are represented as clusters of trajectories in a parameter space.The trajectories are modelled by mixture of probability density functions of random sequence of states. After analyzing the characteristics of Chinese speech, the acoustic units for continuous Chinese speech recognition based on STM are discussed and phone-like units are suggested. The performance of continuous Chinese speech recognition based on STM is studied on VINICS system. The experimental results prove the efficiency of STM and the consistency of phone-like units. 展开更多
关键词 IEEE ACTA A study on continuous Chinese speech recognition based on stochastic trajectory models
原文传递
集成语种辨识的中英文LVCSR系统
6
作者 孙健 王作英 《计算机工程与设计》 CSCD 北大核心 2007年第8期1931-1933,共3页
为了在未知一段语音所属语言种类的情况下将其转换为正确的字符序列,将语种辨识(language identification,LID)同语音识别集成在一起建立了中、英文大词汇量连续语音识别(large vocabulary continuous speech recognition,LVCSR)系统。... 为了在未知一段语音所属语言种类的情况下将其转换为正确的字符序列,将语种辨识(language identification,LID)同语音识别集成在一起建立了中、英文大词汇量连续语音识别(large vocabulary continuous speech recognition,LVCSR)系统。为了在中、英文连续语音识别系统中能够尽早的对语音所属的语言种类做出判决以便进行识别,从而降低解码的计算量,对语种辨识过程中的语种剪枝进行了研究,表明采用合理的语种剪枝门限在不降低系统性能的情况下,可以有效的降低系统的计算量及识别时间。 展开更多
关键词 连续语音识别 语种辨识 段长分布 非齐次隐含马尔科夫模型 语种剪枝
下载PDF
用于噪声鲁棒性语音识别的子带能量规整感知线性预测系数 被引量:14
7
作者 蔡尚 金鑫 +2 位作者 高圣翔 潘接林 颜永红 《声学学报》 EI CSCD 北大核心 2012年第6期667-672,共6页
为了提高感知线性预测系数(PLP)在噪声环境下的识别性能,使用子带能量偏差减的方法,提出了一种基于子带能量规整的感知线性预测系数(SPNPLP)。PLP有效地集中了语音中的有用信息,在安静环境下自动语音识别系统使用PLP可以取得良好的识别... 为了提高感知线性预测系数(PLP)在噪声环境下的识别性能,使用子带能量偏差减的方法,提出了一种基于子带能量规整的感知线性预测系数(SPNPLP)。PLP有效地集中了语音中的有用信息,在安静环境下自动语音识别系统使用PLP可以取得良好的识别率;但是在噪声环境中其识别性能急剧下降。通过使用能量偏差减的方法对PLP的子带能量进行规整,抑制背景噪声激励,提出了SPNPLP,增强自动语音识别系统在噪声环境下的鲁棒性。在一个语法大小为501的孤立词识别任务和一个大词表连续语音识别任务上做了测试,SPNPLP在这两个任务上,与PLP相比,汉字识别精度分别绝对提升了11.26%和9.2%。实验结果表明SPNPLP比PLP具有更好的噪声鲁棒性。 展开更多
关键词 语音识别系统 线性预测系数 噪声鲁棒性 子带能量 感知 量规 噪声环境 连续语音识别
下载PDF
基于元音检测的汉语连续语音声韵母分割 被引量:7
8
作者 王艳 冯宏伟 +1 位作者 张利平 忽满利 《计算机工程与应用》 CSCD 北大核心 2011年第14期134-136,共3页
在基于声韵母的汉语连续语音识别中,声韵母基元的准确分割是非常重要的一步。当前的声韵母分割方法在非连续语音中分割准确度较高,但在连续语音中准确度大幅度降低。利用熵与汉语元音的共振峰能量设计了一种新的分割方法,并引入重叠分... 在基于声韵母的汉语连续语音识别中,声韵母基元的准确分割是非常重要的一步。当前的声韵母分割方法在非连续语音中分割准确度较高,但在连续语音中准确度大幅度降低。利用熵与汉语元音的共振峰能量设计了一种新的分割方法,并引入重叠分割策略,完整地分割出汉语连续语音中的声韵母基元。实验结果表明,这种分割方法在低信噪比下也有很高的分割正确率。 展开更多
关键词 连续语音识别 共振峰
下载PDF
一种基于高维空间覆盖动态搜索方法的非特定人连续数字语音识别的研究 被引量:7
9
作者 王守觉 潘晓霞 +3 位作者 徐春燕 陈旭 安冬 曹文明 《电子学报》 EI CAS CSCD 北大核心 2005年第10期1790-1793,共4页
本文使用高维空间点分布分析原理,在仿生模式识别高维空间点覆盖原理的基础上,提出了一种基于高维空间点覆盖动态搜索理论的非特定人连续数字语音识别的新算法,这种算法可以不经过端点检测和分割,通过对被识别连续数字语音直接进行动态... 本文使用高维空间点分布分析原理,在仿生模式识别高维空间点覆盖原理的基础上,提出了一种基于高维空间点覆盖动态搜索理论的非特定人连续数字语音识别的新算法,这种算法可以不经过端点检测和分割,通过对被识别连续数字语音直接进行动态搜索,得到被识别语音到各类高维空间覆盖范围的距离随时间变化曲线,通过距离曲线上的极小值点进行识别. 展开更多
关键词 连续语音识别 高维空间点覆盖 非特定人语音识别
下载PDF
利用背景知识提高web语音浏览中的识别精度的方法 被引量:8
10
作者 李红莲 袁保宗 王春花 《电子学报》 EI CAS CSCD 北大核心 2002年第12期1836-1839,共4页
语音识别的精度不够高一直是阻碍语音技术得以广泛应用的瓶颈,在具体的应用中充分利用背景知识是解决此问题的一种有效方法.在web语音浏览中,用户的语音输入为某个有限集的元素之一,本文利用这个特点,首先定义了一种文本字符串之间的相... 语音识别的精度不够高一直是阻碍语音技术得以广泛应用的瓶颈,在具体的应用中充分利用背景知识是解决此问题的一种有效方法.在web语音浏览中,用户的语音输入为某个有限集的元素之一,本文利用这个特点,首先定义了一种文本字符串之间的相似度,利用相似度对识别引擎的识别结果进行后处理,进而给出更准确的识别结果.实验结果表明,采用这种方法,语音识别的正确率能够达到95%以上,为真正实现语音上网提供了有力支持. 展开更多
关键词 背景知识 web语音浏览 识别精度 相似度 语音识别 语音理解
下载PDF
基于瓶颈特征的藏语拉萨话连续语音识别研究 被引量:9
11
作者 周楠 赵悦 +3 位作者 李要嫱 徐晓娜 才旺拉姆 吴立成 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第2期249-254,共6页
基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征... 基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征的复合特征取得比深度神经网络后验特征和单瓶颈特征更好的识别表现。 展开更多
关键词 藏语拉萨话 连续语音识别 高斯混合–隐马尔科夫模型 瓶颈特征 深度神经网络
下载PDF
基于深层神经网络的藏语识别 被引量:14
12
作者 袁胜龙 郭武 戴礼荣 《模式识别与人工智能》 EI CSCD 北大核心 2015年第3期209-213,共5页
文中首次涉及藏语的自然对话风格大词汇电话连续语音识别问题.作为一种少数民族语言,藏语识别面临的最大的困难是数据稀疏问题.文中在基于深层神经网络(DNN)的声学模型建模中,针对数据稀疏的问题,提出采用大语种数据训练好的DNN作为目... 文中首次涉及藏语的自然对话风格大词汇电话连续语音识别问题.作为一种少数民族语言,藏语识别面临的最大的困难是数据稀疏问题.文中在基于深层神经网络(DNN)的声学模型建模中,针对数据稀疏的问题,提出采用大语种数据训练好的DNN作为目标模型的初始网络进行模型优化的策略.另外,由于藏语语音学的研究很不完善,人工生成决策树问题集的方式并不可行.针对该问题,文中利用数据驱动的方式自动生成决策树问题集,对三音子隐马尔可夫模型(HMM)进行状态绑定,从而减少需要估计的模型参数.在测试集上,基于混合高斯模型(GMM)声学建模的藏字识别率为30.86%.在基于DNN的声学模型建模中,采用三种大语种数据训练好的DNN网络作为初始网络,并在测试集上验证该方法的有效性,藏字识别正确率达到43.26%. 展开更多
关键词 藏语 连续语音识别 数据驱动 深层神经网络(DNN)
下载PDF
基于归一化算法的噪音鲁棒性连续语音识别 被引量:5
13
作者 刘妍秀 孙一鸣 杨华民 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2015年第3期519-524,共6页
针对归一化方法在连续语音特征曲线调整时存在的问题,提出一种优化解决方案,解决了噪声的不稳定性及不可预测性对语音特征的影响.结果表明,基于该优化方法建立的鲁棒性连续语音识别模型可实现在实验室干净环境和现实噪音环境下同时得到... 针对归一化方法在连续语音特征曲线调整时存在的问题,提出一种优化解决方案,解决了噪声的不稳定性及不可预测性对语音特征的影响.结果表明,基于该优化方法建立的鲁棒性连续语音识别模型可实现在实验室干净环境和现实噪音环境下同时得到较好的识别结果. 展开更多
关键词 归一化 噪音鲁棒性 连续语音识别
下载PDF
基于最大似然可变子空间的快速说话人自适应方法 被引量:3
14
作者 张文林 牛铜 +1 位作者 张连海 李弼程 《电子与信息学报》 EI CSCD 北大核心 2012年第3期571-575,共5页
该文提出一种基于最大似然可变子空间的说话人自适应方法。在训练阶段,对训练集中的说话人相关模型参数进行主分量分析,得到一组说话人基矢量;在自适应阶段,通过最大似然准则选取与当前说话人相关性最大的基矢量子集,进而将新的说话人... 该文提出一种基于最大似然可变子空间的说话人自适应方法。在训练阶段,对训练集中的说话人相关模型参数进行主分量分析,得到一组说话人基矢量;在自适应阶段,通过最大似然准则选取与当前说话人相关性最大的基矢量子集,进而将新的说话人相关模型限制在这组基矢量所张成的说话人子空间中,通过求解每一个基矢量对应的系数从而进行说话人自适应。与经典的基于子空间的说话人自适应方法不同,该文中的说话人子空间是在自适应阶段动态选取的,所需要估计的参数更少,在少量自适应数据下可以得到更稳健的自适应结果。在基于微软语料库的连续语音识别自适应实验中,给定极少量自适应数据(小于5 s),在有监督和无监督条件下,该文方法均优于经典的本征音自适应方法和基于最大似然线性回归的方法。 展开更多
关键词 连续语音识别 说话人自适应 本征音 子空间方法
下载PDF
均衡化的改进K均值聚类法 被引量:13
15
作者 王红睿 赵黎明 裴剑 《吉林大学学报(信息科学版)》 CAS 2006年第2期172-176,共5页
为了进行连续马尔可夫模型的初值提取,提出一种各类在训练样本空间近似均衡分布的K均值聚类法。在聚类的过程中引入惩罚因子,从而限制过多的训练矢量集中于一个或几个类,使样本空间划分近似均匀。连续马尔可夫模型初值提取实验证明,该... 为了进行连续马尔可夫模型的初值提取,提出一种各类在训练样本空间近似均衡分布的K均值聚类法。在聚类的过程中引入惩罚因子,从而限制过多的训练矢量集中于一个或几个类,使样本空间划分近似均匀。连续马尔可夫模型初值提取实验证明,该方法与标准的K均值聚类法、LBG(L inde Buzo G ray)聚类法相比,降低了矢量量化产生的全局失真,各个类在样本空间的分布更加均匀,提高了矢量量化的性能。将该方法用于孤立词识别连续马尔可夫模型的初值提取,可使各个高斯概率密度函数的参数估计更逼近其无偏估计,从而提高了马尔可夫模型初值的可靠性。 展开更多
关键词 矢量量化 K均值聚类法 语音识别 连续马尔可夫模型初值
下载PDF
基于子字单元的维吾尔语语音识别研究 被引量:5
16
作者 薛化建 董兴华 +2 位作者 周喜 吐尔洪.吾司曼 李晓 《计算机工程》 CAS CSCD 北大核心 2011年第20期208-210,共3页
为提高维吾尔语语音识别的识别率,在分析维吾尔语特点的基础上,设计一种基于子字单元的维吾尔语语音识别总体结构,指出维吾尔语单词的发音模型,给出构建子字发音字典的方法,及其以子字单元为基础构建语言模型与声学模型的方法。在一个... 为提高维吾尔语语音识别的识别率,在分析维吾尔语特点的基础上,设计一种基于子字单元的维吾尔语语音识别总体结构,指出维吾尔语单词的发音模型,给出构建子字发音字典的方法,及其以子字单元为基础构建语言模型与声学模型的方法。在一个语音库上进行实验,采用一种非监督的词切分方法对维吾尔语单词进行词切分,生成子字。实验结果表明,基于子字单元的维吾尔语语音识别可以获得更好的识别结果。 展开更多
关键词 维吾尔语 词切分 子字单元 隐马尔科夫模型 连续语音识别
下载PDF
基于HMM/VQ的认人的中等词表连续语音识别 被引量:4
17
作者 林道发 罗万伯 杨家沅 《电子学报》 EI CAS CSCD 北大核心 1992年第7期59-65,共7页
本文讨论基于隐马尔可夫模型(HMM)和矢量量化(VQ)的连续语音识别方法。用这种方法,对每个单词作成一个HMM,对多个模型组合成的状态转移网络搜索其状态转移的最佳路径,从而实现不预先进行单词切分的连续语音的识别,使用有限态文法约束及... 本文讨论基于隐马尔可夫模型(HMM)和矢量量化(VQ)的连续语音识别方法。用这种方法,对每个单词作成一个HMM,对多个模型组合成的状态转移网络搜索其状态转移的最佳路径,从而实现不预先进行单词切分的连续语音的识别,使用有限态文法约束及其它一些改善识别性能的措施,演示系统能识别特定人的18种英语句式,150个单词,用312个话句(共有2710个单词)进行测试,识别延迟时间为发音时长的62%,发音速度平均为每秒2.32个单词,单词识准率为97.3%。 展开更多
关键词 连续语音 识别 文法分析 HMM
下载PDF
基于连续分布型HMM的汉语连续语音的声调识别方法 被引量:6
18
作者 赵力 邹采荣 吴镇扬 《信号处理》 CSCD 2000年第1期20-23,共4页
本文介绍了基于连续分布型HMM的汉语连续语音声调识别方法,提出了一个适合于汉语连续语音声调识别的特征参数提取和识别方案。通过对汉语连续语音声调特点的分析,选择了8个音节单位的连续分布型HMM作为声调识别用基元模型进行识别试... 本文介绍了基于连续分布型HMM的汉语连续语音声调识别方法,提出了一个适合于汉语连续语音声调识别的特征参数提取和识别方案。通过对汉语连续语音声调特点的分析,选择了8个音节单位的连续分布型HMM作为声调识别用基元模型进行识别试验,识别结果表明,10名话者1070个句子的连续语音声调识别的平均识别率是95.1%。 展开更多
关键词 汉语连续语音 声调识别 基频 语音识别
下载PDF
汉语连续语音识别中上下文相关的识别单元(三音子)的研究 被引量:4
19
作者 赵庆卫 王作英 陆大 《电子学报》 EI CAS CSCD 北大核心 1999年第6期79-82,117,共5页
本文详细研究了汉语语音识别中如何有效地建立上下文相关的识别单元,以解决连续语音之间的协同发音问题.本文首先利用信息论原理,研究了传统的聚类算法的距离测度,分别是模型分布的散度和模型合并或分裂前后熵的变化值.然后本文提... 本文详细研究了汉语语音识别中如何有效地建立上下文相关的识别单元,以解决连续语音之间的协同发音问题.本文首先利用信息论原理,研究了传统的聚类算法的距离测度,分别是模型分布的散度和模型合并或分裂前后熵的变化值.然后本文提出了基于决策树的聚类方法,它的主要优点是充分利用了语音学知识,聚类后得到的模型可推广性好,尤其适用于集外语料中出现大量的未在训练语料中出现的三音子单元的情况.接着介绍了模型聚类和训练的实验步骤最后,非特定人大词汇量连续语音识别的实验表明,基于决策树的聚类方法所得到的识别单元,当识别集外语料时使系统的误识率降低了7.95%,而基于合并的聚类方法所得到的识别单元只降低了2.63%. 展开更多
关键词 连续语音识别 上下文相关 决策树 聚类算法
下载PDF
一种新的基于子空间的说话人自适应方法 被引量:3
20
作者 张文林 张卫强 +2 位作者 刘加 李弼程 屈丹 《自动化学报》 EI CSCD 北大核心 2011年第12期1495-1502,共8页
提出了一种新的基于子空间的快速说话人自适应方法.该方法在本征音(Eigen-voice,EV)自适应方法基础上,进一步在音子空间寻找低维子空间,得到更为紧凑的"说话人–音子"联合子空间.该子空间不仅包含了说话人间的模型参数相关性... 提出了一种新的基于子空间的快速说话人自适应方法.该方法在本征音(Eigen-voice,EV)自适应方法基础上,进一步在音子空间寻找低维子空间,得到更为紧凑的"说话人–音子"联合子空间.该子空间不仅包含了说话人间的模型参数相关性信息,而且对音子间的模型参数相关性信息也进行了显式建模,在大大降低模型存储量的同时更为全面地反映模型参数的先验信息.在基于连续语音识别的无监督自适应实验中,在少量的自适应数据条件下,新方法取得了比最大似然线性回归和聚类最大似然线性基方法更好的效果. 展开更多
关键词 连续语音识别 说话人自适应 本征音 本征音子
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部