期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
基于CDD-SPM算法的语音识别电话的研制 被引量:2
1
作者 钟明 江太辉 余英林 《五邑大学学报(自然科学版)》 CAS 1999年第2期20-24,共5页
本文简要介绍了语音识别电话的识别算法CDD—SPM及其硬件结构,并详细介绍了CDD-SPM在语音识别电话上用ALEP2186的汇编语言实现的过程。
关键词 语音识别电话 cdd-spm算法 语音信号处理
全文增补中
Discriminative tone model training and optimal integration for Mandarin speech recognition
2
作者 黄浩 朱杰 《Journal of Southeast University(English Edition)》 EI CAS 2007年第2期174-178,共5页
Two discriminative methods for solving tone problems in Mandarin speech recognition are presented. First, discriminative training on the HMM (hidden Markov model) based tone models is proposed. Then an integration t... Two discriminative methods for solving tone problems in Mandarin speech recognition are presented. First, discriminative training on the HMM (hidden Markov model) based tone models is proposed. Then an integration technique of tone models into a large vocabulary continuous speech recognition system is presented. Discriminative model weight training based on minimum phone error criteria is adopted aiming at optimal integration of the tone models. The extended Baum Welch algorithm is applied to find the model-dependent weights to scale the acoustic scores and tone scores. Experimental results show that tone recognition rates and continuous speech recognition accuracy can be improved by the discriminatively trained tone model. Performance of a large vocabulary continuous Mandarin speech recognition system can be further enhanced by the discriminatively trained weight combinations due to a better interpolation of the given models. 展开更多
关键词 discriminative training minimum phone error tone modeling Mandarin speech recognition
下载PDF
Investigation of Automatic Speech Recognition Systems via the Multilingual Deep Neural Network Modeling Methods for a Very Low-Resource Language, Chaha 被引量:1
3
作者 Tessfu Geteye Fantaye Junqing Yu Tulu Tilahun Hailu 《Journal of Signal and Information Processing》 2020年第1期1-21,共21页
Automatic speech recognition (ASR) is vital for very low-resource languages for mitigating the extinction trouble. Chaha is one of the low-resource languages, which suffers from the problem of resource insufficiency a... Automatic speech recognition (ASR) is vital for very low-resource languages for mitigating the extinction trouble. Chaha is one of the low-resource languages, which suffers from the problem of resource insufficiency and some of its phonological, morphological, and orthographic features challenge the development and initiatives in the area of ASR. By considering these challenges, this study is the first endeavor, which analyzed the characteristics of the language, prepared speech corpus, and developed different ASR systems. A small 3-hour read speech corpus was prepared and transcribed. Different basic and rounded phone unit-based speech recognizers were explored using multilingual deep neural network (DNN) modeling methods. The experimental results demonstrated that all the basic phone and rounded phone unit-based multilingual models outperformed the corresponding unilingual models with the relative performance improvements of 5.47% to 19.87% and 5.74% to 16.77%, respectively. The rounded phone unit-based multilingual models outperformed the equivalent basic phone unit-based models with relative performance improvements of 0.95% to 4.98%. Overall, we discovered that multilingual DNN modeling methods are profoundly effective to develop Chaha speech recognizers. Both the basic and rounded phone acoustic units are convenient to build Chaha ASR system. However, the rounded phone unit-based models are superior in performance and faster in recognition speed over the corresponding basic phone unit-based models. Hence, the rounded phone units are the most suitable acoustic units to develop Chaha ASR systems. 展开更多
关键词 Automatic speech recognition MULTILINGUAL DNN Modeling Methods Basic phone ACOUSTIC UNITS Rounded phone ACOUSTIC UNITS Chaha
下载PDF
基于三音子模型的柯尔克孜最优语料选取算法
4
作者 买买提阿依甫 帕丽旦·木合塔尔 郭文强 《计算机仿真》 2024年第8期296-302,共7页
选择具有丰富语音现象的语料库是提高语音识别性能的关键。为了构建柯尔克孜语语音识别文本语料库,首先利用预处理技术去除文本中的噪声信息并用文本转换算法将柯尔克孜文转换为拉丁文形式。其次,根据柯尔克孜语的音节结构和规则,提出... 选择具有丰富语音现象的语料库是提高语音识别性能的关键。为了构建柯尔克孜语语音识别文本语料库,首先利用预处理技术去除文本中的噪声信息并用文本转换算法将柯尔克孜文转换为拉丁文形式。其次,根据柯尔克孜语的音节结构和规则,提出了启发函数和两种最优自动选择句子的算法。最后,为了验证算法的有效性,将两组包含不同数量的句子集作为实验语料,采用两种算法生成最优句子集,并对两种算法生成的语料库进行了统计,实验结果表明,利用算法2挑选出来的文本包含的三音子覆盖率达到了78.70%,能够满足语音识别系统的需要,验证了提出的算法的有效性。 展开更多
关键词 三音子 语音识别 语料库 柯尔克孜语
下载PDF
基于预训练与音素字节对编码的越南语识别 被引量:1
5
作者 沈之杰 郭武 《数据采集与处理》 CSCD 北大核心 2023年第1期101-110,共10页
基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC... 基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC)的声学建模中,选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度,采用字节对编码(Byte-pair encoding,BPE)算法生成音素子词,将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行,所提算法相对wav2vec 2.0基线系统有明显改进,识别词错误率由37.3%降低到29.4%。 展开更多
关键词 低资源语音识别 建模单元 字节对编码 音素子词 预训练 越南语识别
下载PDF
一种联合语种识别的新型大词汇量连续语音识别算法 被引量:10
6
作者 单煜翔 邓妍 刘加 《自动化学报》 EI CSCD 北大核心 2012年第3期366-374,共9页
提出了一种联合语种识别的新型大词汇量连续语音识别(Large vocabulary continuo us speech recognition,LVCSR)算法,并构建了实时处理系统.该算法能够充分利用语音解码过程中收集的音素识别假设,在识别语音内容的同时识别语种类别.该... 提出了一种联合语种识别的新型大词汇量连续语音识别(Large vocabulary continuo us speech recognition,LVCSR)算法,并构建了实时处理系统.该算法能够充分利用语音解码过程中收集的音素识别假设,在识别语音内容的同时识别语种类别.该系统可以应用于多语种环境,不仅可以以更小的系统整体计算开销替代独立的语种识别模块,更能有效应对在同一段语音中混有非目标语种的情况,极大地减少由非目标语种引入的无意义识别错误,避免错误积累对后续识别过程的误导.为将语音内容识别和语种识别紧密整合在一个统一语音识别解码过程中,本文提出了三种不同的算法对解码产生的音素格结构进行调整(重构):一方面去除语音识别中由发音字典和语言模型引入的特定目标语种偏置,另一方面在音素格中包含更加丰富的音素识别假设.实验证明,音素格重构算法可有效提高联合识别中语种识别的精度.在汉语为目标语种、汉英混杂的电话对话语音库上测试表明,本文提出的联合识别算法将集外语种引起的无意义识别错误减少了91.76%,纯汉字识别错误率为54.98%. 展开更多
关键词 语音识别 语种识别 集外语种问题 音素格重构
下载PDF
基于三音素动态贝叶斯网络模型的大词汇量连续语音识别 被引量:3
7
作者 吕国云 赵荣椿 +2 位作者 张艳宁 樊养余 Sahli Hichem 《数据采集与处理》 CSCD 北大核心 2009年第1期1-6,共6页
考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-D... 考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-DBN)模型。WTS-DBN模型是三音素模型,识别基元为三音素,以显式的方式模拟了基于三音素状态捆绑的隐马尔可夫模型(HMM)。大词汇量语音识别实验结果表明:在纯净语音环境下,WTS-DBN模型的识别率比HMM,WT-DBN,WP-DBN和WPS-DBN模型的识别率分别提高了20.53%,40.77%,42.72%和7.52%。 展开更多
关键词 语音识别 动态贝叶斯网络 三音素 音素
下载PDF
一种新的基于子空间的说话人自适应方法 被引量:3
8
作者 张文林 张卫强 +2 位作者 刘加 李弼程 屈丹 《自动化学报》 EI CSCD 北大核心 2011年第12期1495-1502,共8页
提出了一种新的基于子空间的快速说话人自适应方法.该方法在本征音(Eigen-voice,EV)自适应方法基础上,进一步在音子空间寻找低维子空间,得到更为紧凑的"说话人–音子"联合子空间.该子空间不仅包含了说话人间的模型参数相关性... 提出了一种新的基于子空间的快速说话人自适应方法.该方法在本征音(Eigen-voice,EV)自适应方法基础上,进一步在音子空间寻找低维子空间,得到更为紧凑的"说话人–音子"联合子空间.该子空间不仅包含了说话人间的模型参数相关性信息,而且对音子间的模型参数相关性信息也进行了显式建模,在大大降低模型存储量的同时更为全面地反映模型参数的先验信息.在基于连续语音识别的无监督自适应实验中,在少量的自适应数据条件下,新方法取得了比最大似然线性回归和聚类最大似然线性基方法更好的效果. 展开更多
关键词 连续语音识别 说话人自适应 本征音 本征音子
下载PDF
基于音位属性和边界信息的音素识别 被引量:6
9
作者 许友亮 张连海 牛铜 《数据采集与处理》 CSCD 北大核心 2013年第2期178-183,共6页
在检测出音位属性的基础上,提出了一种基于音位属性后验概率的音素边界检测算法,并将音位属性与边界信息应用于基于条件随机场的音素识别。该方法首先计算得出相邻帧音位属性后验概率向量间的夹角,然后将夹角的极大值点所在的帧选为侯... 在检测出音位属性的基础上,提出了一种基于音位属性后验概率的音素边界检测算法,并将音位属性与边界信息应用于基于条件随机场的音素识别。该方法首先计算得出相邻帧音位属性后验概率向量间的夹角,然后将夹角的极大值点所在的帧选为侯选边界,最后通过约束条件去除极值点中的错误边界。本文将音素边界与音位属性信息进行组合,作为基于条件随机场模型的识别系统的观测特征,实验结果表明,增加边界信息后,音素正确识别率有了显著提升。 展开更多
关键词 音位属性 音素边界检测 自动语音识别 条件随机场
下载PDF
基于动态贝叶斯网络的音视频连续语音识别和音素切分 被引量:2
10
作者 吕国云 蒋冬梅 +5 位作者 蒋晓悦 赵荣椿 侯云舒 孙阿利 H.Sahli W.Verhelst 《计算机应用》 CSCD 北大核心 2007年第7期1670-1673,共4页
构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的... 构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的识别率比HMM模型平均高12.79%;而纯净语音下,基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别,DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系,为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。 展开更多
关键词 动态贝叶斯网络 音视频 语音识别 音素切分
下载PDF
TONE MODELING BASED ON HIDDEN CONDITIONAL RANDOM FIELDS AND DISCRIMINATIVE MODEL WEIGHT TRAINING 被引量:1
11
作者 黄浩 朱杰 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI 2008年第1期43-50,共8页
The use of hidden conditional random fields (HCRFs) for tone modeling is explored. The tone recognition performance is improved using HCRFs by taking advantage of intra-syllable dynamic, inter-syllable dynamic and d... The use of hidden conditional random fields (HCRFs) for tone modeling is explored. The tone recognition performance is improved using HCRFs by taking advantage of intra-syllable dynamic, inter-syllable dynamic and duration features. When the tone model is integrated into continuous speech recognition, the discriminative model weight training (DMWT) is proposed. Acoustic and tone scores are scaled by model weights discriminatively trained by the minimum phone error (MPE) criterion. Two schemes of weight training are evaluated and a smoothing technique is used to make training robust to overtraining problem. Experiments show that the accuracies of tone recognition and large vocabulary continuous speech recognition (LVCSR) can be improved by the HCRFs based tone model. Compared with the global weight scheme, continuous speech recognition can be improved by the discriminative trained weight combinations. 展开更多
关键词 speech recognition MODELS hidden conditional random fields minimum phone error
下载PDF
区分性模型组合中基于决策树的声学上下文建模方法 被引量:1
12
作者 黄浩 李兵虎 吾守尔.斯拉木 《自动化学报》 EI CSCD 北大核心 2012年第9期1449-1458,共10页
上下文相关的区分性模型组合的局限在于引入大的模型权重参数集,在数据有限时容易导致区分性权重训练过拟合.针对该问题,本文提出利用决策树进行上下文建模,采用最小音子错误准则构建决策树以获得最优上下文相关权重参数集.决策树构造... 上下文相关的区分性模型组合的局限在于引入大的模型权重参数集,在数据有限时容易导致区分性权重训练过拟合.针对该问题,本文提出利用决策树进行上下文建模,采用最小音子错误准则构建决策树以获得最优上下文相关权重参数集.决策树构造过程中通过评估目标函数的一阶近似增量来加速最优问题集的选择,并利用精细问题集来获得更好的声学区分能力.基于多模型组合的语音识别实验表明,该方法能够增强权重训练对过拟合的鲁棒性,在大幅减小参数数量的情况下降低误识率,并优于在特征空间进行组合的方法. 展开更多
关键词 区分性模型组合 上下文建模 声学决策树 最小音子错误 语音识别
下载PDF
基于语音识别的手机点菜系统的研究与设计 被引量:2
13
作者 薛辉 《微型电脑应用》 2017年第7期59-61,共3页
为了实现语音点菜,研究了应用语音识别技术进行手机点菜的关键技术,包括语音识别技术的选取、语音点菜的流程、BNF语法的编写以及识别结果检测,并设计了一个手机点菜系统进行验证,测试结果表明该系统识别准确率高、使用方便。
关键词 语音识别 手机 点菜 系统
下载PDF
基于多流三音素DBN模型的音视频语音识别和音素切分
14
作者 吕国云 蒋冬梅 +3 位作者 樊养余 赵荣椿 H.Sahli W.Vlerhelst 《电子与信息学报》 EI CSCD 北大核心 2009年第2期297-301,共5页
为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基... 为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基元是三音素,描述了连续语音中的协同发音现象。实验结果表明:该模型在音视频语音识别和对音频视频流的音素切分方面,以及在确定音视频流的异步关系上,都具备较好的性能。 展开更多
关键词 语音识别 动态贝叶斯网络 音素切分 音视频
下载PDF
数字话机记录方案设计
15
作者 刘健波 周群彪 游志胜 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2005年第6期1128-1131,共4页
针对当前CTI领域数字话机记录的难点,提出一种直接记录数字话机数据的方案.截取并解码数字电话线上传输的2B+D通道数据,由B通道得到双向话音数据流,由D通道捕获Caller ID,DNIS,自动号码识别、中继号码、坐席按键等信息.采用简洁高效的... 针对当前CTI领域数字话机记录的难点,提出一种直接记录数字话机数据的方案.截取并解码数字电话线上传输的2B+D通道数据,由B通道得到双向话音数据流,由D通道捕获Caller ID,DNIS,自动号码识别、中继号码、坐席按键等信息.采用简洁高效的语音压缩与识别处理机制,让数字话机记录方案比起其它记录系统更具优势.该方案已在国内某机场指挥调度中心获得成功应用. 展开更多
关键词 数字话机记录 语音压缩 语音识别
下载PDF
基于上下文三音素DBN模型的连续语音识别
16
作者 吕国云 赵荣椿 +1 位作者 蒋冬梅 SAHLI H 《计算机工程与应用》 CSCD 北大核心 2007年第35期35-38,共4页
考虑连续语音中的协同发音问题,提出基于词内扩展的单流上下文相关三音素动态贝叶斯网络(SS-DBN-TRI)模型和词间扩展的单流上下文相关三音素DBN(SS-DBN-TRI-CON)模型。SS-DBN-TRI模型是Bilmes提出单流DBN(SS-DBN)模型的改进,采用词内上... 考虑连续语音中的协同发音问题,提出基于词内扩展的单流上下文相关三音素动态贝叶斯网络(SS-DBN-TRI)模型和词间扩展的单流上下文相关三音素DBN(SS-DBN-TRI-CON)模型。SS-DBN-TRI模型是Bilmes提出单流DBN(SS-DBN)模型的改进,采用词内上下文相关三音素节点替代单音素节点,每个词由它的对应三音素单元构成,而三音素单元和观测向量相联系;SS-DBN-TRI-CON模型基于SS-DBN模型,通过增加当前音素的前音素节点和后音素节点,构成一个新的词间扩展的三音素变量节点,新的三音素节点和观测向量相联系,采用高斯混合模型来描述,采用数字连续语音数据库的实验结果表明:SS-DBN-TRI-CON具备最好的语音识别性能。 展开更多
关键词 动态贝叶斯网络 语音识别 三音素 单音素 上下文相关
下载PDF
基于Android平台的智能英语发音训练系统的设计与研究 被引量:3
17
作者 郗德才 《电子测试》 2017年第10期56-56,55,共2页
随着计算机科学技术的发展,英语学习软件的研发和应用数量也逐渐增多。在英语的学习中,智能英语发音训练是练习英语口语的重要部分,目前在英语的发音训练研究中语音识别技术受到高度的关注。随着移动互联网技术的发展,基于Android平台... 随着计算机科学技术的发展,英语学习软件的研发和应用数量也逐渐增多。在英语的学习中,智能英语发音训练是练习英语口语的重要部分,目前在英语的发音训练研究中语音识别技术受到高度的关注。随着移动互联网技术的发展,基于Android平台的便携移动设备作为安装英语发音辅助学习系统的主要工具得到了广泛的应用。本文对Android应用程序和英语教学中的英语发音训练进行了分析和研究,在Android平台的基础之上提出了智能英语发音训练系统设计的方案。 展开更多
关键词 ANDROID平台 英语发音训练 语音识别 智能手机
下载PDF
汉语语音识别声调模型集成中基于决策树的上下文相关权重参数聚类方法
18
作者 黄浩 李兵虎 吾守尔.斯拉木 《新疆大学学报(自然科学版)》 CAS 2011年第3期260-266,共7页
声调集成是汉语语音识别的一个重要任务.在语音识别的二次解码过程中,使用区分性训练的权重因子进行声调模型集成已被证明是一个有效的方法,而且使用上下文相关的得分加权进行模型组合也得到了应用.上下文相关模型组合方法的一个不足是... 声调集成是汉语语音识别的一个重要任务.在语音识别的二次解码过程中,使用区分性训练的权重因子进行声调模型集成已被证明是一个有效的方法,而且使用上下文相关的得分加权进行模型组合也得到了应用.上下文相关模型组合方法的一个不足是将会带来大量的训练参数,从而导致权重训练受到过拟合的影响.针对该问题,提出利用声学决策树对上下文相关权重参数进行参数聚类,决策树节点问题集根据最小化训练数据的期望误识率进行选择.提出问题集剪枝来加快决策树的构建速度.汉语连续语音识别实验表明与人工选择上下文相关权重参数相比,该方法能够在大大减少参数数量的条件下明显降低误识率. 展开更多
关键词 声调集成 最小音子错误 决策树 汉语语音识别 区分性模型组合 上下文相关
下载PDF
基于语音识别技术的智能生活管理系统的设计
19
作者 杜颖 李晓会 《信息与电脑》 2019年第18期118-119,122,共3页
随着语音识别技术以及智能手机技术的迅猛发展,移动终端成为生活服务的新平台。从最初的只能识别10个英文数字的Audry,到将语音识别技术引入到移动终端的Siri,直至Google Assistant,无不在宣告语音识别技术的飞速发展和其在生活中的重... 随着语音识别技术以及智能手机技术的迅猛发展,移动终端成为生活服务的新平台。从最初的只能识别10个英文数字的Audry,到将语音识别技术引入到移动终端的Siri,直至Google Assistant,无不在宣告语音识别技术的飞速发展和其在生活中的重要地位。AI技术的进步让语音识别这项技术的应用走入平常百姓的生活,语音智能生活管理系统应运而生。语音智能生活管理系统通过语音输入代替手动输入,满足了一些特殊情况下的输入需求。笔者主要设计了手机端语音拨打电话、日程安排、生活用品信息管理和个人账目管理等功能。 展开更多
关键词 AI技术 语音识别技术 语音智能生活管理 智能手机
下载PDF
利用HMM嵌入训练方法建立汉语电话连续语音声学模型 被引量:3
20
作者 张宗红 陈愉 +2 位作者 冯哲 邵央 李宗葛 《计算机工程与应用》 CSCD 北大核心 2000年第6期36-38,共3页
文章介绍了用HMM嵌入训练方法来建立连续语音的声学模型,并对基于音素的HMM和基于音节的HMM进行了比较,并以此为基础建立了一个实用的银行电话语音服务系统。
关键词 嵌入训练 电话语音识别 连续语音 声学模型 HMM
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部