期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于声学统计建模的语音合成技术研究 被引量:9
1
作者 胡郁 凌震华 +1 位作者 王仁华 戴礼荣 《中文信息学报》 CSCD 北大核心 2011年第6期127-136,共10页
该文介绍基于声学统计建模的语音合成技术,重点回顾中国科学技术大学讯飞语音实验室在语音合成领域这一前沿发展方向的创新性工作成果。具体包括:融合发音动作参数与声学参数,提高声学参数生成的灵活性;以最小生成误差准则取代最大似然... 该文介绍基于声学统计建模的语音合成技术,重点回顾中国科学技术大学讯飞语音实验室在语音合成领域这一前沿发展方向的创新性工作成果。具体包括:融合发音动作参数与声学参数,提高声学参数生成的灵活性;以最小生成误差准则取代最大似然准则,提高合成语音的音质;使用单元挑选与波形拼接方法取代参数合成器重构,改善参数语音合成器在合成语音音质上的不足。以上技术创新使得语音合成系统在自然度、表现力、灵活性及多语种应用等方面的性能都有进一步的提升,并推动语音合成技术在呼叫中心信息服务、移动嵌入式设备人机语音交互、智能语音教学等领域的广泛引用。 展开更多
关键词 语音合成 隐马尔可夫模型 参数合成 单元挑选
下载PDF
基于声学统计建模的新一代语音合成技术 被引量:1
2
作者 王仁华 戴礼荣 +1 位作者 胡郁 凌震华 《中国科学技术大学学报》 CAS CSCD 北大核心 2008年第7期725-734,共10页
介绍基于声学统计建模的新一代语音合成技术.重点介绍中国科学技术大学讯飞语音实验室在发展新一代语音合成技术中的贡献,包括:融合发音器官参数与声学参数,提高声学参数生成的灵活性;以最小生成误差准则取代最大似然准则,提高合成语音... 介绍基于声学统计建模的新一代语音合成技术.重点介绍中国科学技术大学讯飞语音实验室在发展新一代语音合成技术中的贡献,包括:融合发音器官参数与声学参数,提高声学参数生成的灵活性;以最小生成误差准则取代最大似然准则,提高合成语音的音质;使用单元挑选与波形拼接方法取代参数合成器重构,从根本上改善HMM参数语音合成器在合成语音音质上的不足.这些技术创新使得新一代语音合成在自然度、表现力、灵活性及多语种实现等方面的性能都有进一步的提升. 展开更多
关键词 语音合成 隐马尔可夫模型 参数合成 单元挑选
下载PDF
VTS特征补偿算法在语音识别中的实用性研究 被引量:2
3
作者 杨钊 杜俊 +2 位作者 胡郁 刘庆峰 戴礼荣 《小型微型计算机系统》 CSCD 北大核心 2011年第4期782-786,共5页
在语音识别实际应用中,由于噪声的多样性,会造成训练和测试的失配,导致系统性能下降.特征补偿作为鲁棒性语音识别的一种重要方法,通过对训练和测试环境之间差异的研究,在特征空间中修正语音特征,使得修正后的测试语音特征能够更加接近... 在语音识别实际应用中,由于噪声的多样性,会造成训练和测试的失配,导致系统性能下降.特征补偿作为鲁棒性语音识别的一种重要方法,通过对训练和测试环境之间差异的研究,在特征空间中修正语音特征,使得修正后的测试语音特征能够更加接近训练语音特征.本文介绍一种实用的基于环境模型矢量泰勒级数(VTS)近似的特征补偿算法.首先验证传统的VTS离线算法在实际车载环境下的有效性;其次由于离线算法本身运算量很大,为了使其实用化,本文对算法进行改进,使其在提高效率的同时又能够保证与离线时相当的性能.通过实验结果验证,本文提出的实用化VTS算法在识别性能上相当接近离线时最好的性能. 展开更多
关键词 失配 矢量泰勒级数 实用化 特征补偿
下载PDF
一种基于Straight的语音焦点合成方法 被引量:3
4
作者 杨金辉 易中华 王煦法 《计算机工程》 CAS CSCD 北大核心 2005年第13期46-47,128,共3页
针对汉语焦点的特性,设计了接近自然语流风格的实验语料。通过对语料的分析,运用CART技术,建立了焦点的韵律模型。在语音合成阶段,使用韵律模型生成语音的韵律参数,结合Straight算法,实现了语音焦点的合成。对合成效果的评测表明,该方... 针对汉语焦点的特性,设计了接近自然语流风格的实验语料。通过对语料的分析,运用CART技术,建立了焦点的韵律模型。在语音合成阶段,使用韵律模型生成语音的韵律参数,结合Straight算法,实现了语音焦点的合成。对合成效果的评测表明,该方法能够合成自然度很高的语音焦点。 展开更多
关键词 焦点 分类回归树 STRAIGHT 基频曲线 语音合成
下载PDF
基于最大熵模型的韵律短语边界预测 被引量:20
5
作者 李剑锋 胡国平 王仁华 《中文信息学报》 CSCD 北大核心 2004年第5期56-63,共8页
语音合成系统中 ,由于韵律短语边界预测的水平不高 ,阻碍了合成语音自然度的进一步提高。本文根据韵律短语边界预测的特点 ,提出了基于最大熵模型的预测方法。为考察该方法的能力 ,在较大规模的数据集上 ,使用相同的属性集 ,对比了其与... 语音合成系统中 ,由于韵律短语边界预测的水平不高 ,阻碍了合成语音自然度的进一步提高。本文根据韵律短语边界预测的特点 ,提出了基于最大熵模型的预测方法。为考察该方法的能力 ,在较大规模的数据集上 ,使用相同的属性集 ,对比了其与主流的决策树方法的预测效果。还考察了词面信息的贡献 ,以及选择特征时的不同阈值对最大熵模型的影响。实验表明 ,使用相同的属性信息 ,最大熵方法比传统的决策树方法在F Score上有 5 5 %的提高 ,加入了词面信息的最大熵模型则有 9 4 %的提高。最后指出 ,最大熵模型相当于一个带权重的规则系统 。 展开更多
关键词 计算机应用 中文信息处理 韵律短语边界预测 最大熵 决策树
下载PDF
基于KLD差的统计错误模式生成算法 被引量:1
6
作者 刘庆升 魏思 +1 位作者 胡郁 王仁华 《数据采集与处理》 CSCD 北大核心 2009年第1期32-37,共6页
研究了用于指导计算机发音质量评价的错误模式的生成算法,它是普通话CALL系统研究工作中的一部分。传统的错误模式是根据语言学知识来生成的,只能得到那些最重要的常见错误模式。为了提高错误模式的覆盖面,本文提出了一种基于KLD差的统... 研究了用于指导计算机发音质量评价的错误模式的生成算法,它是普通话CALL系统研究工作中的一部分。传统的错误模式是根据语言学知识来生成的,只能得到那些最重要的常见错误模式。为了提高错误模式的覆盖面,本文提出了一种基于KLD差的统计错误模式生成算法,用模型间KLD作为模型间的距离,以标准模型间KLD与带方言口音模型间KLD的差代表两种模型间的差异,并以之为度量来生成错误模式。实验证明在引入了此算法生成的错误模式后,系统性能由0.809提升到0.826。 展开更多
关键词 语音识别 中文信息处理 发音质量评价 KLD
下载PDF
基于音素评分模型的发音标准度评测研究 被引量:3
7
作者 严可 戴礼荣 《中文信息学报》 CSCD 北大核心 2011年第5期101-108,共8页
在计算机辅助语言学习系统中,后验概率是普通话水平测试(PSC)电子化系统衡量考生发音标准程度的重要指标,但后验概率与人工的主观评分存在着显著差别。该文提出了"音素评分模型"的思想,对后验概率进行变换。该文研究了线性和非线性... 在计算机辅助语言学习系统中,后验概率是普通话水平测试(PSC)电子化系统衡量考生发音标准程度的重要指标,但后验概率与人工的主观评分存在着显著差别。该文提出了"音素评分模型"的思想,对后验概率进行变换。该文研究了线性和非线性的sigmoid音素评分模型,并发现线性音素评分模型有闭式全局最优解,非线性音素评分模型可用梯度下降法求解。在全国采集的498人的普通话考试现场数据集上的实验表明该策略能使系统评分性能有明显的提升:当后验概率在全音素概率空间中计算时,可使系统性能提升约42%;当后验概率在优化的概率空间中计算时,能使系统性能提升约23%~27%。 展开更多
关键词 语音评测 音素评分模型 后验概率 普通话水平测试
下载PDF
基于整句相似性计算的韵律短语预测模型 被引量:1
8
作者 李剑锋 胡国平 王仁华 《小型微型计算机系统》 CSCD 北大核心 2006年第10期1935-1938,共4页
语音合成系统中,韵律短语的预测对合成语音的自然度有重要影响.为了突破主流的基于决策树预测方法的若干缺陷,提出了基于整句相似性计算的韵律短语预测模型.通过对1000个句子的测试,该方法在可接受的语料手工标注工作量的范围内,超过了... 语音合成系统中,韵律短语的预测对合成语音的自然度有重要影响.为了突破主流的基于决策树预测方法的若干缺陷,提出了基于整句相似性计算的韵律短语预测模型.通过对1000个句子的测试,该方法在可接受的语料手工标注工作量的范围内,超过了传统决策树的方法. 展开更多
关键词 韵律短语预测 句子相似性 编辑距离
下载PDF
基于sigmoid函数的评分特征规整在计算机辅助学习中的应用
9
作者 严可 蒋海曦 《成都纺织高等专科学校学报》 CAS 2011年第3期40-46,共7页
计算机辅助语言学习是近十年来日益热门的研究课题,语音评分是其重要的组成部分。目前,国内大部分评分系统在运用机器评分特征预测人工分时,都是采用简单的线性回归模型。虽然该模型具有很好的集外推广性,但要求机器的评分特征与人的主... 计算机辅助语言学习是近十年来日益热门的研究课题,语音评分是其重要的组成部分。目前,国内大部分评分系统在运用机器评分特征预测人工分时,都是采用简单的线性回归模型。虽然该模型具有很好的集外推广性,但要求机器的评分特征与人的主观评分呈近似的线性关系,这一点在实际情况中往往难以满足。对此,本文引入sigmoid函数对评分特征进行规整,并采用数据驱动的方式得到其参数,使得提取的评分特征更符合评分员的主观评分准则。同时,在算法优化的问题上,本文将该方法完全地嵌入经典的线性回归模型中求解,大大提高了其收敛速度。实验表明,在普通话水平考试的单字、词语朗读及中学生考试翻译题自动评分方面,该算法使得评分的系统性能得到明显的优化。 展开更多
关键词 语音评测 SIGMOID函数 评分特征 计算机辅助语言学习 普通话水平测试
下载PDF
基于韵律信息的连续语流调型评测研究 被引量:4
10
作者 潘逸倩 魏思 王仁华 《中文信息学报》 CSCD 北大核心 2008年第4期88-93,共6页
汉语连续语流中的调型评测是汉语语音评测的一个重要环节,利用连续语流中韵律耦合效应和韵律结构紧密相关这一特性,以韵律词为基本建模单元,建立基于多空间概率分布的HMM调型模型(MSD-HMM),使得汉语普通话水平评测系统针对标准连续语流... 汉语连续语流中的调型评测是汉语语音评测的一个重要环节,利用连续语流中韵律耦合效应和韵律结构紧密相关这一特性,以韵律词为基本建模单元,建立基于多空间概率分布的HMM调型模型(MSD-HMM),使得汉语普通话水平评测系统针对标准连续语流的调型识别率从82.0%提升至84.6%;针对有方言背景的非标准发音,机器评分与专家评分的相关度绝对提升超过3.0%。 展开更多
关键词 计算机应用 中文信息处理 语音评测 调型评测 调型识别 韵律词 MSD-HMM
下载PDF
汉语字音转换中的多层面多音字读音消歧 被引量:1
11
作者 范明 胡国平 王仁华 《计算机工程与应用》 CSCD 北大核心 2006年第2期167-170,共4页
字音转换问题一直是中文语音合成系统中不可缺少的模块,而多音字消歧是字音转换的核心问题。多音字的词性对于读音消歧有着特殊重要的意义。该文利用词性到读音映射关系将多音字划分为a类和b类。针对不同类别,我们提出一种多层面多音字... 字音转换问题一直是中文语音合成系统中不可缺少的模块,而多音字消歧是字音转换的核心问题。多音字的词性对于读音消歧有着特殊重要的意义。该文利用词性到读音映射关系将多音字划分为a类和b类。针对不同类别,我们提出一种多层面多音字消歧方案,分别从词性和语义层面上进行消歧,使用决策树模型和手工规则体系对多音字进行处理,实验结果表明,从词性层面上消歧利用决策树模型更好,而手工规则体系在语义层面上消歧更加有效。对每类分别从相应层面进行多音字消歧,正确率从baseline的80.74%达到了96.58%。 展开更多
关键词 字音转换 多音字 多层面 决策树 规则
下载PDF
英语句子朗读发音中的音素自动检错系统 被引量:1
12
作者 丁晓飞 胡国平 戴礼荣 《计算机应用与软件》 CSCD 2009年第9期149-152,共4页
为探索智能语音技术在英语发音学习中的作用,开展了面向中国人朗读英语句子的音素发音自动检错技术研究。首先收集了45个人录制的900句英文朗读发音,并由两位专家对音素发音中的错误进行详细的标注,然后基于语音识别技术建立的句子朗读... 为探索智能语音技术在英语发音学习中的作用,开展了面向中国人朗读英语句子的音素发音自动检错技术研究。首先收集了45个人录制的900句英文朗读发音,并由两位专家对音素发音中的错误进行详细的标注,然后基于语音识别技术建立的句子朗读发音中音素自动检错系统,并针对中国人英语发音时最为常见的错读和漏读两大问题,分别提出音素独立检错阈值和限定音素对齐识别网络的方法,对音素检错系统进行了优化,显著地提高了系统的性能,最终系统的召回率和正确率分别达到49%和52%,接近人工专家间的69%召回率下59%的正确率的性能。 展开更多
关键词 语音识别 隐马尔可夫模型 音素检错 限定音素识别网络
下载PDF
区分性训练在声纹密码中的新应用
13
作者 潘逸倩 胡国平 +1 位作者 戴礼荣 刘庆峰 《数据采集与处理》 CSCD 北大核心 2012年第4期404-409,共6页
在声纹密码任务中由于数据稀疏的问题难以实现区分性训练,本文以一种表征距离度量的特征矢量为基础提出新的声纹密码区分性系统框架,对正反例样本的新特征矢量实现了基于最小分类错误准则的区分性训练,将声纹密码从确认问题转化为二类... 在声纹密码任务中由于数据稀疏的问题难以实现区分性训练,本文以一种表征距离度量的特征矢量为基础提出新的声纹密码区分性系统框架,对正反例样本的新特征矢量实现了基于最小分类错误准则的区分性训练,将声纹密码从确认问题转化为二类分类问题。在自由说话风格的60人数据集上,声纹密码区分性系统与混合高斯模型-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)系统融合后等错误率为4.48%,相对GMM-UBM,动态时间规划(Dynamic time warping,DTW)基线系统性能分别提升了17.95%和59.68%。 展开更多
关键词 声纹密码 说话人确认 区分性训练 GMM—UBM
下载PDF
基于决策树和条件概率的基频预测模型 被引量:1
14
作者 吴晓如 王仁华 胡郁 《模式识别与人工智能》 EI CSCD 北大核心 2004年第2期222-226,共5页
介绍了一种基于决策树和条件概率的基频预测模型(F0 Prediction with Integrated Decision Tree and Condi-tional Probability Model,IDBCPM).基频是一种重要的韵律特征参数,高精度的基频预测模型是高质量合成语音系统的必要保证.基频... 介绍了一种基于决策树和条件概率的基频预测模型(F0 Prediction with Integrated Decision Tree and Condi-tional Probability Model,IDBCPM).基频是一种重要的韵律特征参数,高精度的基频预测模型是高质量合成语音系统的必要保证.基频模型是根据从文本分析得到的信息预测相应于当前文本的合理基频曲线.IDBCM一定程度上避免了其它基频模型预测时,在相邻音节处的预测结果不匹配问题.这种不匹配产生于预测当前音节基频时不能有效考虑相邻音节的预测结果.IDBCPM充分利用决策树的输出信息,包含决策树的输出类别和类别相应的概率,另外IDBCPM可以有效应用从训练数据中得到的先验条件概率,消除决策树输出的不合理结果.实验证明这种方法的预测精度比单纯决策树预测精度有明显提高. 展开更多
关键词 基频预测 聚类 决策树 条件概率 韵律环境
原文传递
基于得分域多维特征分类器的声纹密码系统
15
作者 潘逸倩 魏思 +1 位作者 戴礼荣 刘庆峰 《模式识别与人工智能》 EI CSCD 北大核心 2012年第5期755-761,共7页
针对不同类型数据对目标发音人区分能力不同的现象,在传统系统基础上提出利用UBM模型对测试数据进行分类,使用分类后的似然比得分形成多维特征,在此基础上利用SVM分类器进行声纹密码确认.该方法把传统的似然比检验策略转换成多维特征空... 针对不同类型数据对目标发音人区分能力不同的现象,在传统系统基础上提出利用UBM模型对测试数据进行分类,使用分类后的似然比得分形成多维特征,在此基础上利用SVM分类器进行声纹密码确认.该方法把传统的似然比检验策略转换成多维特征空间上的二类分类问题.测试与注册数据同信道情况时,在4种手机数据集上,文中系统相对文本相关GMM-UBM声纹密码系统等错误率分别下降41.25%、33.33%、37.49%和26.03%,在交叉信道上系统性能也获得改善. 展开更多
关键词 声纹密码 混合高斯模型-统一背景模型(GMM—UBM) 平均似然比 二类分类器
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部