期刊文献+
共找到143篇文章
< 1 2 8 >
每页显示 20 50 100
低资源少样本连续语音识别最新进展 被引量:3
1
作者 屈丹 杨绪魁 +2 位作者 闫红刚 陈雅淇 牛铜 《郑州大学学报(工学版)》 CAS 北大核心 2023年第4期1-9,共9页
低资源少样本语音识别是目前语音识别行业面临的迫切技术需求。首先,总结了低资源连续语音识别技术的框架技术,重点介绍了低资源语音在特征提取、声学建模和资源扩展等方面的若干关键技术研究进展。其次,在连续语音识别框架技术发展的... 低资源少样本语音识别是目前语音识别行业面临的迫切技术需求。首先,总结了低资源连续语音识别技术的框架技术,重点介绍了低资源语音在特征提取、声学建模和资源扩展等方面的若干关键技术研究进展。其次,在连续语音识别框架技术发展的基础上,重点阐述了生成对抗网络、自监督表示学习、深度强化学习和元学习等高级深度学习技术在解决少样本语音识别方面的最新发展,如FGSM、wav2vec、AMS等代表性方法。在此基础上,分析了目前该技术面临的互补有限、数据和任务不均衡与模型轻量化部署问题。最后,对低资源少样本连续语音识别进行了总结,提出未来少样本训练识别的研究方向可以朝着先验信息引入、假设空间约束条件设定等方向进一步研究。 展开更多
关键词 低资源少样本 连续语音识别 生成对抗网络 自监督表示学习 深度强化学习 元学习
下载PDF
基于瓶颈特征的藏语拉萨话连续语音识别研究 被引量:9
2
作者 周楠 赵悦 +3 位作者 李要嫱 徐晓娜 才旺拉姆 吴立成 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第2期249-254,共6页
基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征... 基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征的复合特征取得比深度神经网络后验特征和单瓶颈特征更好的识别表现。 展开更多
关键词 藏语拉萨话 连续语音识别 高斯混合–隐马尔科夫模型 瓶颈特征 深度神经网络
下载PDF
汉语连续语音识别中语音处理和语言处理统合方法的研究 被引量:9
3
作者 赵力 邹采荣 吴镇扬 《声学学报》 EI CSCD 北大核心 2001年第1期73-78,共6页
提出了一种语音处理和语言处理按帧同步统合的汉语连续语音识别方法。该方法把基于 CFG语言模型和 Top Down型句法分析器的语言处理过程结合进基于有限状态自动机控制的 One Pass Viterbi语音识别算法中,实现... 提出了一种语音处理和语言处理按帧同步统合的汉语连续语音识别方法。该方法把基于 CFG语言模型和 Top Down型句法分析器的语言处理过程结合进基于有限状态自动机控制的 One Pass Viterbi语音识别算法中,实现了帧同步的语音语言处理的统合。为完成帧同步句法分析的单词预测和语音识别过程的结合,本文提出了一种类似于Earley法的 TopDown型句法分析方法以及 One Pass Viterbi算法中的有限状态自动机动态展开建立法. 60个音素单位和 8个声调单位的 HMM作为识别用基元模型被用于识别实验,识别结果表明,对于一个识别困难度(Perplexity)为27.3的任务(Task)的识别系统,利用本文提出的方法,10名话者发音的 1070句子的平均识别率达到 94.4%,比利用传统的基于单词确认(Word Spotting)以及从单词串(列)(lattice)进行句法分析的阶层性语音·语言统合方式的识别率提高约8%. 展开更多
关键词 汉语连续语音识别 语音处理 语言处理 统合
下载PDF
藏语拉萨话大词表连续语音识别声学模型研究 被引量:16
4
作者 李冠宇 孟猛 《计算机工程》 CAS CSCD 2012年第5期189-191,共3页
根据藏语的特点,提出藏语拉萨话大词表连续语音识别声学模型,利用高层次的藏语语言知识减少模式匹配的模糊性。以音素和声韵母为声学建模单元,在HTK平台上建立上下文相关的连续隐马尔可夫声学模型,以实现藏语拉萨话特定人大词表连续语... 根据藏语的特点,提出藏语拉萨话大词表连续语音识别声学模型,利用高层次的藏语语言知识减少模式匹配的模糊性。以音素和声韵母为声学建模单元,在HTK平台上建立上下文相关的连续隐马尔可夫声学模型,以实现藏语拉萨话特定人大词表连续语音识别。实验结果表明,在最优情况下,该模型词错误率只有7.8%。 展开更多
关键词 藏语 拉萨话 连续语音识别 隐马尔可夫模型 HTK工具 声学模型
下载PDF
连续语音识别中基于Dropout修正线性深度置信网络的声学模型 被引量:4
5
作者 陈雷 杨俊安 +1 位作者 王龙 李晋徽 《声学技术》 CSCD 北大核心 2016年第2期146-154,共9页
大词汇量连续语音识别系统中,为了增强现有声学模型的表征能力、防止模型过拟合,提出一种基于遗失策略(Dropout)修正线性深度置信网络的声学模型构建方法。该方法使用修正线性函数代替传统Logistic函数进行深度置信网络训练,修正线性函... 大词汇量连续语音识别系统中,为了增强现有声学模型的表征能力、防止模型过拟合,提出一种基于遗失策略(Dropout)修正线性深度置信网络的声学模型构建方法。该方法使用修正线性函数代替传统Logistic函数进行深度置信网络训练,修正线性函数更接近生物神经网络的工作方式,增强了模型的表征能力;同时引入Dropout策略对修正线性深度置信网络进行调整,避免节点之间的协同作用,防止网络出现过拟合。文章利用公开语音数据集进行了实验,实验结果证明了所提出的声学模型构建方法相对于传统方法的优越性。 展开更多
关键词 连续语音识别 深度置信网络 修正线性 过拟合 DROPOUT
下载PDF
段长信息在连续语音识别中的应用研究 被引量:5
6
作者 赵庆卫 肖熙 王作英 《声学学报》 EI CSCD 北大核心 2000年第2期175-181,共7页
基于段长分布的隐含马尔可夫模型(DDBHMM)有效地解决了经典HMM的缺陷.本文以DDBHMM模型为基础,详细研究了如何在连续语音识别中有效地利用段长信息。文中首先介绍了段长分布的统计方法,然后按照不同的说话速度对数... 基于段长分布的隐含马尔可夫模型(DDBHMM)有效地解决了经典HMM的缺陷.本文以DDBHMM模型为基础,详细研究了如何在连续语音识别中有效地利用段长信息。文中首先介绍了段长分布的统计方法,然后按照不同的说话速度对数据文件进行了分类,据此进行的识别实验表明,段长信息对于速度慢的文件效果最好,速度中等的次之,速度快的效果较小.作者认为,段长信息最大的作用在于能够得到更加精确的音节和状态分割点,并因而提高识别效果.同时,通过段长信息的有效利用,还能够提高识别系统对于说话速度的稳健性、作者又进行了细化研究,提出了利用分类段长和规整化的段长的研究方法,发现两者均可使识别效果有进一步的提高.为了研究如何利用段长之间的相关性,文中还提出了段长的Bigram的方法,并对之作了分析.最后,本文研究了采用后处理方法利用段长信息的效果,进一步说明了只有基于DDBHMM,在识别过程中同步利用段长信息,才能得到卓有成效的性能提高。 展开更多
关键词 段长信息 连续语音识别 DDBHMM模型
下载PDF
基于归一化算法的噪音鲁棒性连续语音识别 被引量:5
7
作者 刘妍秀 孙一鸣 杨华民 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2015年第3期519-524,共6页
针对归一化方法在连续语音特征曲线调整时存在的问题,提出一种优化解决方案,解决了噪声的不稳定性及不可预测性对语音特征的影响.结果表明,基于该优化方法建立的鲁棒性连续语音识别模型可实现在实验室干净环境和现实噪音环境下同时得到... 针对归一化方法在连续语音特征曲线调整时存在的问题,提出一种优化解决方案,解决了噪声的不稳定性及不可预测性对语音特征的影响.结果表明,基于该优化方法建立的鲁棒性连续语音识别模型可实现在实验室干净环境和现实噪音环境下同时得到较好的识别结果. 展开更多
关键词 归一化 噪音鲁棒性 连续语音识别
下载PDF
基于3维空间Viterbi算法的汉语连续语音识别方法 被引量:5
8
作者 赵力 邹采荣 吴镇扬 《电子学报》 EI CAS CSCD 北大核心 2000年第7期67-69,58,共4页
本文提出了基于 3维空间Viterbi算法的汉语连续语音识别方法 .本方法采用 6 0个音素单位的隐马尔可夫模型 (HMM)和 8个声调单位的HMM作为识别用基元模型 .音素基元模型和声调基元模型的识别结果的统合 ,采用音素单位的HMM状态、声调单位... 本文提出了基于 3维空间Viterbi算法的汉语连续语音识别方法 .本方法采用 6 0个音素单位的隐马尔可夫模型 (HMM)和 8个声调单位的HMM作为识别用基元模型 .音素基元模型和声调基元模型的识别结果的统合 ,采用音素单位的HMM状态、声调单位的HMM状态和时间的 3维空间Viterbi算法来实现 .语音声学处理和语音言语处理的结合 ,采用修改型Earley分析法的Top Done型文法分析器和OnePassDP为基础的帧同步识别算法来实现 .在由 10名话者发音的有关旅馆预约指南的识别困难度是 2 7 3的 10 70句子的识别实验中 ,总平均识别率达到 94 4% . 展开更多
关键词 汉语连续语音识别 三维空间 VITERBI算法
下载PDF
汉语连续语音识别中上下文相关的识别单元(三音子)的研究 被引量:4
9
作者 赵庆卫 王作英 陆大 《电子学报》 EI CAS CSCD 北大核心 1999年第6期79-82,117,共5页
本文详细研究了汉语语音识别中如何有效地建立上下文相关的识别单元,以解决连续语音之间的协同发音问题.本文首先利用信息论原理,研究了传统的聚类算法的距离测度,分别是模型分布的散度和模型合并或分裂前后熵的变化值.然后本文提... 本文详细研究了汉语语音识别中如何有效地建立上下文相关的识别单元,以解决连续语音之间的协同发音问题.本文首先利用信息论原理,研究了传统的聚类算法的距离测度,分别是模型分布的散度和模型合并或分裂前后熵的变化值.然后本文提出了基于决策树的聚类方法,它的主要优点是充分利用了语音学知识,聚类后得到的模型可推广性好,尤其适用于集外语料中出现大量的未在训练语料中出现的三音子单元的情况.接着介绍了模型聚类和训练的实验步骤最后,非特定人大词汇量连续语音识别的实验表明,基于决策树的聚类方法所得到的识别单元,当识别集外语料时使系统的误识率降低了7.95%,而基于合并的聚类方法所得到的识别单元只降低了2.63%. 展开更多
关键词 连续语音识别 上下文相关 决策树 聚类算法
下载PDF
汉语连续语音识别中关键词可信度的贝叶斯估计 被引量:8
10
作者 郝杰 李星 《声学学报》 EI CSCD 北大核心 2002年第5期393-397,共5页
在一个基于经典隐马尔可夫模型(Hidden Markov Model,HMM)的汉语全音节、非特定人、连续语音识别系统中,利用声学层分数和基于拼音的统计语言模型分数,对关键词的可信度进行贝叶斯估计。本文提出了最大后验(Maximum APosteriori,MAP... 在一个基于经典隐马尔可夫模型(Hidden Markov Model,HMM)的汉语全音节、非特定人、连续语音识别系统中,利用声学层分数和基于拼音的统计语言模型分数,对关键词的可信度进行贝叶斯估计。本文提出了最大后验(Maximum APosteriori,MAP)可信测度,给出了计算 MAP可信度分数的前向后向算法。并且在关键词捕捉应用中评价了 MAP可信测度的性能,实验表明MAP可信度分数对关键词候选具有很强的鉴别能力。此外,MAP可信测度可以广泛地应用于各种语音识别应用中。 展开更多
关键词 汉语 连续语音识别 关键词 可信度 贝叶斯估计 经典隐马尔可夫模型
下载PDF
汉语连续语音识别的语速自适应算法 被引量:7
11
作者 王作英 李健 《声学学报》 EI CSCD 北大核心 2003年第3期229-234,共6页
在连续语音中,不同的说话者在不同语境下说话的速度差异是很大的。偏离正常语速往往会造成识别错误,使识别性能下降。考虑到语速对于语音单元段长的影响是同步增长或同步下降的,相邻语音单元的段长之间存在很强的相关性,本文从利用段长... 在连续语音中,不同的说话者在不同语境下说话的速度差异是很大的。偏离正常语速往往会造成识别错误,使识别性能下降。考虑到语速对于语音单元段长的影响是同步增长或同步下降的,相邻语音单元的段长之间存在很强的相关性,本文从利用段长的相关信息出发,在基于段长分布的隐含马尔可夫模型(DDBHMM:Duration Distribution Based HMM)的框架上,提出了一种语速自适应算法。对数字串和大词汇量连续语音识别的试验表明这个算法是有效的。 展开更多
关键词 汉语 连续语音识别 语速 自适应算法 隐含马尔可夫模型 语音信号处理
下载PDF
基于小波分析的大词汇汉语连续语音识别系统鲁棒性的研究 被引量:6
12
作者 颜龙 刘刚 郭军 《中文信息学报》 CSCD 北大核心 2006年第2期60-65,共6页
本文提出一种基于小波分析的大词汇汉语连续语音识别的方法,即采用一维小波变换将原始语音信号进行五层小波分解,然后对各层小波系数进行重构,得到五层语音信号,分别对各层语音信号进行训练,得到各层的声学模型,然后结合语言模型对各层... 本文提出一种基于小波分析的大词汇汉语连续语音识别的方法,即采用一维小波变换将原始语音信号进行五层小波分解,然后对各层小波系数进行重构,得到五层语音信号,分别对各层语音信号进行训练,得到各层的声学模型,然后结合语言模型对各层声学模型的性能进行测试。通过对纯净语音和带噪语音的各层重构语音数据进行测试。结果表明对于含有高斯白噪声的带噪语音,该方法能使系统性能有所提高,但对于粉红噪声,该方法效果不明显。对于含有真实环境噪声的带噪语音,该方法能获得比基线系统更好的性能。 展开更多
关键词 计算机应用 中文信息处理 大词汇连续语音识别 小波分析 声学模型
下载PDF
汉语连续语音识别中经典HMM的实验评测 被引量:6
13
作者 郝杰 李星 《计算机工程与应用》 CSCD 北大核心 2001年第13期1-4,101,共5页
定量地分析与评价经典隐马尔可夫模型(Hidden Markov Model,HMM)的性能,是汉语连续语音识别研究中尚未解决并且亟需解决的问题。文章构造了基于经典HMM模型的汉语连续语音识别系统。针对语音单元和输出概率... 定量地分析与评价经典隐马尔可夫模型(Hidden Markov Model,HMM)的性能,是汉语连续语音识别研究中尚未解决并且亟需解决的问题。文章构造了基于经典HMM模型的汉语连续语音识别系统。针对语音单元和输出概率这两个自由度上的各种组合,研究了经典HMM模型的复杂度、稳健性、精确性与训练集合的数据量、训练时间、解码效率等特性之间的关系;并且通过实验分析了多候选的构造和剪枝的意义。该文构造的系统与具有国内最高水平的 THEESP系统的识别率相当,所得实验结果和结论为汉语语音识别的深入研究提供了必要的参考和依据。 展开更多
关键词 汉语连续语音识别 经典HMM模型 THEESP系统 语音信号处理
下载PDF
大词汇量连续语音识别中搜索空间的表示及相关搜索方法的研究进展 被引量:2
14
作者 杨凤芹 孙吉贵 +1 位作者 张长胜 张长海 《计算机科学》 CSCD 北大核心 2008年第2期191-195,共5页
本文综述了近年来大词汇量连续语音识别中搜索空间的表示及相关搜索方法的研究进展,分析了搜索空间的表示及相关搜索方法对语音识别性能产生的影响,并对本领域的研究中存在的问题和未来的发展动向进行了讨论。
关键词 大词汇量连续语音识别 搜索空间 搜索 声学模型 语言模型
下载PDF
基于Viseme的连续语音识别系统及Talking Head 被引量:2
15
作者 蒋冬梅 谢磊 +3 位作者 Ilse Ravyse 赵荣椿 Hichem Sahli Jan Cornelis 《电子与信息学报》 EI CSCD 北大核心 2004年第3期375-381,共7页
为实现听觉/视觉驱动的说话人头部动画,该文给出了一个基于viseme(说话时的基本嘴形单位)的连续语音识别系统。它训练viseme隐马尔可夫模型(HMM),识别语音为viseme图像序列。建模采用triseme的概念来考虑viseme的上下文相关性,但它需要... 为实现听觉/视觉驱动的说话人头部动画,该文给出了一个基于viseme(说话时的基本嘴形单位)的连续语音识别系统。它训练viseme隐马尔可夫模型(HMM),识别语音为viseme图像序列。建模采用triseme的概念来考虑viseme的上下文相关性,但它需要超大量的训练数据。该文根据viseme图像及其相似度权值(VSW)定义视觉问题集,用来建立triseme决策树,以实现triseme的状态捆绑及HMM参数共享。为比较系统性能,基于phoneme(听觉领域的语音基本单位)的语音识别结果也被映射为viseme序列。在评价准则上,定义viseme图像相似度加权识别精度,更全面地考虑输出和参考图像序列的差别,并用嘴形圆度和VSW曲线中的突变点来评估所得viseme序列的平滑性。结果表明,基于viseme的语音识别系统能给出更平滑和合理的嘴形图像序列。 展开更多
关键词 说话人头部动画 Viseme 连续语音识别 Triseme决策树 图像相似度加权 嘴形圆度
下载PDF
连续语音识别前端鲁棒性研究 被引量:2
16
作者 胡丹 曾庆宁 +1 位作者 龙超 黄桂敏 《电视技术》 北大核心 2015年第24期43-46,58,共5页
针对大词汇量连续语音识别中识别率不高的问题,提出了将语音增强级联在识别系统前端,在语音增强中将谱减法和对数最小均方误差算法(logmmse)与用于噪声估计的最小控制递归平均算法(imcra)相结合。识别系统使用Mel频率倒谱系数(MFCC)提... 针对大词汇量连续语音识别中识别率不高的问题,提出了将语音增强级联在识别系统前端,在语音增强中将谱减法和对数最小均方误差算法(logmmse)与用于噪声估计的最小控制递归平均算法(imcra)相结合。识别系统使用Mel频率倒谱系数(MFCC)提取特征,用隐马尔科夫模型(HMM)训练与识别。实验结果表明,该方法最高能使单词识别率提高38.9%,使句子正确率提高21.8%。该方法用于大词汇量连续语音识别是可行有效的。 展开更多
关键词 连续语音识别 语音增强 HMM imcra 句子正确率
下载PDF
汉语连续语音识别中的分级聚类算法的研究和应用 被引量:2
17
作者 徐向华 朱杰 郭强 《信号处理》 CSCD 2004年第5期497-500,共4页
针对汉语语音单音节结构的特点,考虑音节间协同发音的现象,本文提出了一种对三音子模型进行分级聚类的方法。与传统的基于决策树的状态聚类算法相比,该方法通过对稀少三音子模型聚类,更充分地利用训练数据,减少稀少三音子对状态聚类的影... 针对汉语语音单音节结构的特点,考虑音节间协同发音的现象,本文提出了一种对三音子模型进行分级聚类的方法。与传统的基于决策树的状态聚类算法相比,该方法通过对稀少三音子模型聚类,更充分地利用训练数据,减少稀少三音子对状态聚类的影响,从而提高声学模型的鲁棒性。实验结果表明:大词汇量连续语音识别器采用这种分级聚类方法,不仅可以大大减少模型及其参数的数量,还可使系统识别率有所提高,其中误识率相对于传统的决策树状态聚类系统降低了4.93%。 展开更多
关键词 状态聚类 决策树 训练数据 聚类算法 三音子 鲁棒性 聚类方法 汉语连续语音识别 协同发音 误识率
下载PDF
正反向隐马尔可夫模型及其在连续语音识别中的应用 被引量:3
18
作者 王仁华 江辉 《电子学报》 EI CAS CSCD 北大核心 1996年第10期63-68,共6页
本文针对语音信号中客观存在的正、反向依赖特性,明确提出了用条件概率的概念来定量表述语音信号的这种正、反向的马尔可大依赖关系,提出了描述语音信号这种正反向依赖关系的正反向隐马尔可夫模型(HMM),并用实验证明了仅仅利用... 本文针对语音信号中客观存在的正、反向依赖特性,明确提出了用条件概率的概念来定量表述语音信号的这种正、反向的马尔可大依赖关系,提出了描述语音信号这种正反向依赖关系的正反向隐马尔可夫模型(HMM),并用实验证明了仅仅利用语音反向依赖关系语音识别同样也能获得相当可观的识别性能。接着,本文针对孤立字和连续语音两种不同的识别任务,研究了在语音识别中同时利用这两种依赖信息的方法,并提出了一种连续语音识别中的新的搜索算法──正反向分半混合搜索。这种方法利用基于正向HMM的正向Viterbi搜索和基于反向HMM的反向Viterbi搜索的中间结果来有效地结合正反向依赖信息,实验证明正反向分半混合搜索方法确实一致地优于单用任何一种依赖信息的单向搜索识别方法。 展开更多
关键词 语音识别 连续语音识别 HMM模型
下载PDF
连续语音识别网格技术在新闻制播平台的应用 被引量:2
19
作者 张秋野 王力劭 丁鹏 《电视技术》 北大核心 2010年第2期58-60,87,共4页
简要分析连续语音识别技术原理,介绍了语音识别网格构建海量多媒体新闻素材检索系统,该技术显著提升了多媒体新闻制播体系的素材资产化水平,为视音频媒体的多媒体内容资源检索带来了革命性变化。以中国国际广播电台(China Radio Interna... 简要分析连续语音识别技术原理,介绍了语音识别网格构建海量多媒体新闻素材检索系统,该技术显著提升了多媒体新闻制播体系的素材资产化水平,为视音频媒体的多媒体内容资源检索带来了革命性变化。以中国国际广播电台(China Radio International,CRI)为例,描述了语音识别网格技术所带来的实际应用效果。 展开更多
关键词 连续语音识别 网格 多媒体 新闻 中国国际广播电台
下载PDF
一种基于数据筛的音频视频连续语音识别系统 被引量:1
20
作者 谢磊 I Ravyse +4 位作者 蒋冬梅 赵荣椿 H Sahli W Verhelst J Cornelis 《计算机应用》 CSCD 北大核心 2003年第7期1-3,共3页
文中考虑语音的音频和视频双模型特性,建立了一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种鲁棒性较好的数据筛特征提取方法;在音频和视频集成建模方面,使用多数据流HMM来反映语音的双... 文中考虑语音的音频和视频双模型特性,建立了一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种鲁棒性较好的数据筛特征提取方法;在音频和视频集成建模方面,使用多数据流HMM来反映语音的双模型特性。识别实验表明,文中建立的音频视频连续语音识别系统具有很好的抗噪性。 展开更多
关键词 语音识别 音频视频 连续语音识别 数据筛 多数据流HMM
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部