期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于深层神经网络的多特征关联声学建模方法 被引量:6
1
作者 范正光 屈丹 +1 位作者 闫红刚 张文林 《计算机研究与发展》 EI CSCD 北大核心 2017年第5期1036-1044,共9页
针对不同声学特征之间的信息互补性以及声学建模中各任务间的关联性,提出了一种多特征关联的深层神经网络声学建模方法,该方法首先借鉴深层神经网络(deep neural network,DNN)多模态以及多任务学习思想,通过共享DNN部分隐含层为不同特... 针对不同声学特征之间的信息互补性以及声学建模中各任务间的关联性,提出了一种多特征关联的深层神经网络声学建模方法,该方法首先借鉴深层神经网络(deep neural network,DNN)多模态以及多任务学习思想,通过共享DNN部分隐含层为不同特征声学模型间建立关联,从而挖掘不同学习任务间隐含的共同解释性因素,实现知识迁移以及性能的相互促进;其次利用低秩矩阵分解方法减少模型估计参数的数量,加快模型训练速度,并对不同特征的识别结果采用ROVER(recognizer output voting error reduction)融合算法进行融合,进一步提高系统识别性能.基于TIMIT的连续语音识别实验表明,采用关联声学建模方法,不同特征的识别性能均要优于独立建模时的识别性能.在音素错误率(phone error rates,PER)指标上,关联声学建模下的ROVER融合结果要比独立建模下的ROVER融合结果相对降低约4.6%. 展开更多
关键词 语音识别 深层神经网络 声学模型 低秩矩阵分解 融合
下载PDF
基于MTL-DNN系统融合的混合语言模型语音识别方法 被引量:2
2
作者 范正光 屈丹 +1 位作者 李华 张文林 《数据采集与处理》 CSCD 北大核心 2017年第5期1012-1021,共10页
基于混合语言模型的语音识别系统虽然具有可以识别集外词的优点,但是集外词识别准确率远低于集内词。为了进一步提升混合语音识别系统的识别性能,本文提出了一种基于互补声学模型的多系统融合方法。首先,通过采用不同的声学建模单元,构... 基于混合语言模型的语音识别系统虽然具有可以识别集外词的优点,但是集外词识别准确率远低于集内词。为了进一步提升混合语音识别系统的识别性能,本文提出了一种基于互补声学模型的多系统融合方法。首先,通过采用不同的声学建模单元,构建了两套基于隐马尔科夫模型和深层神经网络(Hidden Markov model and deep neural network,HMM-DNN)的混合语音识别系统;然后,针对这两种识别任务之间的关联性,采用多任务学习(Multi-task learning DNN,MTL-DNN)思想,实现DNN网络输入层和隐含层的共享,并通过联合训练提高建模精度。最后,采用ROVER(Recognizer output voting error reduction)方法对两套系统的输出结果进行融合。实验结果表明,相比于单任务学习DNN(Single-task learning DNN,STL-DNN)建模方式,MTL-DNN可以获得更好的识别性能;将两个系统的输出进行融合,能够进一步降低词错误率。 展开更多
关键词 集外词 混合模型 多任务学习结层神经网络 系统融合
下载PDF
借助音频数据的发音字典新词学习方法 被引量:1
3
作者 范正光 屈丹 +1 位作者 闫红刚 张文林 《西安交通大学学报》 EI CAS CSCD 北大核心 2016年第6期75-82,共8页
针对已有的发音字典扩展方法只能从文本数据中学习新词而无法学习到音频数据中新词的问题,提出了一种基于混合语音识别系统的发音字典新词学习方法。该方法首先分别采用音节和字母音素对混合识别系统对音频数据进行集外词识别,利用系统... 针对已有的发音字典扩展方法只能从文本数据中学习新词而无法学习到音频数据中新词的问题,提出了一种基于混合语音识别系统的发音字典新词学习方法。该方法首先分别采用音节和字母音素对混合识别系统对音频数据进行集外词识别,利用系统间的互补性得到尽可能多的新词及其发音候选,然后借助感知器与最大熵模型对得到的新词及发音进行优化,降低错误率,最后实现发音字典的扩展,并利用语法语义信息完成对语言模型参数更新。基于华尔街日报(WSJ)语料库的连续语音识别实验表明:该方法可以有效学习到音频数据中的未知新词,采取的数据优化策略极大地提高了所得新词及发音的精度;在词错误率指标下,字典扩展后系统的识别性能相对基线系统提高约13.4%。 展开更多
关键词 语音识别 发音字典 新词学习 集外词
下载PDF
基于互补子词单元词图融合的集外词识别
4
作者 范正光 屈丹 陈斌 《模式识别与人工智能》 EI CSCD 北大核心 2016年第4期350-358,共9页
混合模型在进行集外词识别时,采用不同类型的子词单元通常具有性能上的互补性.基于此种情况,文中提出互补子词单元词图融合的集外词识别方法.首先分别采用音节和字母音素对搭建2套具有性能差异性的混合模型系统.然后获得这2套系统的识... 混合模型在进行集外词识别时,采用不同类型的子词单元通常具有性能上的互补性.基于此种情况,文中提出互补子词单元词图融合的集外词识别方法.首先分别采用音节和字母音素对搭建2套具有性能差异性的混合模型系统.然后获得这2套系统的识别词图,并合并处理词图中的子词单元.最后分别采用基于词图并集和基于词图交集的融合策略融合处理后的词图,得到更好的集外词识别结果.实验表明文中方法性能优于单系统及ROVER方法. 展开更多
关键词 集外词检测 集外词恢复 混合模型 词图融合
下载PDF
基于LSTM RNNLM的N-best重打分算法 被引量:4
5
作者 李华 屈丹 +1 位作者 范正光 张文林 《信息工程大学学报》 2017年第4期419-425,共7页
首先采用长短时记忆单元替换递归神经网络隐含层中的神经元,避免梯度消失问题。其次将LSTM RNNLM应用在二次解码过程中。在语音解码时,递归神经网络语言模型使Lattice的扩展次数过多,导致搜索空间太大而影响搜索速度,因此Lattice不适宜... 首先采用长短时记忆单元替换递归神经网络隐含层中的神经元,避免梯度消失问题。其次将LSTM RNNLM应用在二次解码过程中。在语音解码时,递归神经网络语言模型使Lattice的扩展次数过多,导致搜索空间太大而影响搜索速度,因此Lattice不适宜引入高级语言模型进行重打分。相比之下,N-best的线性结构更适合引入包含长距离信息的模型,因此采用N-best进行LSTM RNNLM重打分,并对识别结果进行重排序。最后在Penn Treebank语料库和WSJ语料库上分别进行困惑度和连续语音识别实验。实验表明该方法有效降低语言模型的困惑度,提高连续语音识别系统的性能。 展开更多
关键词 LSTM 递归神经网络 语言模型 N-best重打分
下载PDF
一种新型的类语音调制方法 被引量:5
6
作者 梁丹 张连海 +1 位作者 杨绪魁 范正光 《电子设计工程》 2017年第4期5-10,共6页
类语音调制的目的是将输入数据比特流调制成具有类似语音的波形信号,以便于在话音通道上传输,实现数据抗声码器压缩传输。本文针对话音通道端到端的数据通信,提出了一种适用于多种声码器算法的类语音调制算法,该方法采用基于语料库的数... 类语音调制的目的是将输入数据比特流调制成具有类似语音的波形信号,以便于在话音通道上传输,实现数据抗声码器压缩传输。本文针对话音通道端到端的数据通信,提出了一种适用于多种声码器算法的类语音调制算法,该方法采用基于语料库的数据波形映射法,首先对TIMIT语料库进行预处理得到码本搜索空间,再利用增量搜索算法对其进行优化,最终生成最优码本。另外,对生成的最优码本进行了改进,使其能够更好地抗话音激活检测(Voice Activity Detector,VAD)。仿真结果表明,本文提出的方法在码本数目为16时,声码器AMR编码速率为12.2 kbps时符号错误率可达到0%,在声码器EFR、FR、G.729时符号错误率分别可达到0%、0%和0.0076%。 展开更多
关键词 类语音调制 话音通道 增量搜索算法 码本波形
下载PDF
基于互补FST的语音识别发音字典扩展 被引量:1
7
作者 舒帆 屈丹 +2 位作者 范正光 周利莉 张文林 《太赫兹科学与电子信息学报》 2017年第3期480-488,共9页
发音字典是语音识别系统的重要组成部分,字典词汇量不足将导致高集外词率,降低语音识别性能。提出一种自动扩展字典的新方法,该方法不需要大量文本数据来获取新词,而是利用单词发音恢复集外词。首先,利用字典有限状态转换器(FST)表示的... 发音字典是语音识别系统的重要组成部分,字典词汇量不足将导致高集外词率,降低语音识别性能。提出一种自动扩展字典的新方法,该方法不需要大量文本数据来获取新词,而是利用单词发音恢复集外词。首先,利用字典有限状态转换器(FST)表示的互补形式和P2G转换获取新的词-发音对。然后采用一种两步确认策略,即发音确认和单词确认,滤除错误词条。最后,采用语言模型线性内插将生成的新词添加进语言模型中。该方法在英语和捷克语的连续语音识别任务中进行了测试。实验表明,字典扩展有效降低系统集外词(OOV)率;英语大词汇量连续语音识别(LVCSR)系统的连续语音识别性能相对基线系统提升约9%,关键词检索性能约提升9.7%;捷克语系统性能分别提升了2.3%和10.0%。 展开更多
关键词 语音识别 字典扩展 有限状态转换器 集外词 关键词检索
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部