期刊文献+
共找到48篇文章
< 1 2 3 >
每页显示 20 50 100
基于DKU-JNU-EMA数据库发音特征的方言识别 被引量:1
1
作者 李海烽 张雪英 +2 位作者 段淑斐 贾海蓉 李良琦 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2023年第1期37-45,I0002,共10页
为研究广东话、客家话、潮州话和普通话的发音差异性,提出了一种基于发音特征的方言识别系统。本研究采用DKU-JNU-EMA数据库,以广东话、客家话、潮州话和普通话为研究对象,通过端点检测法实现对数据集的预处理,提取了数据集中发音器官... 为研究广东话、客家话、潮州话和普通话的发音差异性,提出了一种基于发音特征的方言识别系统。本研究采用DKU-JNU-EMA数据库,以广东话、客家话、潮州话和普通话为研究对象,通过端点检测法实现对数据集的预处理,提取了数据集中发音器官的位移、速度和加速度参数,并对发音运动器官进行了空间和速度的统计学分析,然后选用随机森林和支持向量机分类器对所取的提特征集进行识别分类。实验结果表明,本文提取的发音特征在机器学习分类器的识别分类中是有效的,选用支持向量机做分类器时,在齿龈位置的分类平均准确率达到83.1%。 展开更多
关键词 汉语方言 DKU-JNU-EMA数据库 发音特征 语音识别
下载PDF
基于发音特征的声效相关鲁棒语音识别算法 被引量:8
2
作者 晁浩 宋成 彭维平 《计算机应用》 CSCD 北大核心 2015年第1期257-261,共5页
针对声效(VE)相关的语音识别鲁棒性问题,提出了基于多模型框架的语音识别算法。首先,分析了不同声效模式下语音信号的声学特性以及声效变化对语音识别精度的影响;然后,提出了基于高斯混合模型(GMM)的声效模式检测方法;最后,根据声效检... 针对声效(VE)相关的语音识别鲁棒性问题,提出了基于多模型框架的语音识别算法。首先,分析了不同声效模式下语音信号的声学特性以及声效变化对语音识别精度的影响;然后,提出了基于高斯混合模型(GMM)的声效模式检测方法;最后,根据声效检测的结果,训练专门的声学模型用于耳语音识别,而将发音特征与传统的谱特征一起用于其余4种声效模式的语音识别。基于孤立词识别的实验结果显示,采用所提方法后语音识别准确率有了明显的提高:与基线系统相比,所提方法 5种声效的平均字错误率降低了26.69%;与声学模型混合语料训练方法相比,平均字错误率降低了14.51%;与最大似然线性回归(MLLR)自适应方法相比,平均字错误率降低了15.30%。实验结果表明:与传统谱特征相比发音特征对于声效变化更具鲁棒性,而多模型框架是解决声效相关的语音识别鲁棒性问题的有效方法。 展开更多
关键词 语音识别 声效 发音特征 多模型框架 孤立词
下载PDF
基于发音特征的音视频融合语音识别模型 被引量:2
3
作者 吴鹏 蒋冬梅 +2 位作者 王风娜 Hichem SAHLI Werner VERHELST 《计算机工程》 CAS CSCD 北大核心 2011年第22期268-269,272,共3页
构建一种基于发音特征的音视频双流动态贝叶斯网络(DBN)语音识别模型(AF_AV_DBN),定义节点的条件概率关系,使发音特征状态的变化可以异步。在音视频语音数据库上的语音识别实验表明,通过调整发音特征之间的异步约束,AF_AV_DBN模型能得... 构建一种基于发音特征的音视频双流动态贝叶斯网络(DBN)语音识别模型(AF_AV_DBN),定义节点的条件概率关系,使发音特征状态的变化可以异步。在音视频语音数据库上的语音识别实验表明,通过调整发音特征之间的异步约束,AF_AV_DBN模型能得到比基于状态的同步和异步DBN模型以及音频单流模型更高的识别率,对噪声也具有较好的鲁棒性。 展开更多
关键词 动态贝叶斯网络 发音特征 音视频融合 语音识别 异步
下载PDF
语音识别中基于发音特征的声调集成算法 被引量:2
4
作者 晁浩 宋成 刘志中 《计算机工程与应用》 CSCD 2014年第23期21-25,共5页
提出基于发音特征的声调建模改进方法,并将其用于随机段模型的一遍解码中。根据普通话的发音特点,确定了用于区别汉语元音、辅音信息的7种发音特征,并以此为目标值利用阶层式多层感知器计算语音信号属于发音特征的35个类别后验概率,将... 提出基于发音特征的声调建模改进方法,并将其用于随机段模型的一遍解码中。根据普通话的发音特点,确定了用于区别汉语元音、辅音信息的7种发音特征,并以此为目标值利用阶层式多层感知器计算语音信号属于发音特征的35个类别后验概率,将该概率作为发音特征与传统的韵律特征一起用于声调建模。根据随机段模型的解码特点,在两层剪枝后对保留下来的路径计算其声调模型概率得分,加权后加入路径总的概率得分中。在"863-test"测试集上进行的实验结果显示,使用了新的发音特征集合中声调模型的识别精度提高了3.11%;融入声调信息后随机段模型的字错误率从13.67%下降到12.74%。表明了将声调信息应用到随机段模型的可行性。 展开更多
关键词 语音识别 随机段模型 声调建模 发音特征 阶层式多层感知器
下载PDF
基于发音特征的汉语声调建模方法及其在汉语语音识别中的应用 被引量:2
5
作者 晁浩 杨占磊 刘文举 《计算机应用》 CSCD 北大核心 2013年第10期2939-2944,共6页
发音特征表征了语音的发音方式信息,能够辅助传统的韵律特征改善声调建模的精度。在分析汉语声韵母发音特点的基础上,将发音方式划分为19类,并提出利用阶层式多层感知器计算语音信号属于各类的后验概率,作为发音特征。之后,将发音特征... 发音特征表征了语音的发音方式信息,能够辅助传统的韵律特征改善声调建模的精度。在分析汉语声韵母发音特点的基础上,将发音方式划分为19类,并提出利用阶层式多层感知器计算语音信号属于各类的后验概率,作为发音特征。之后,将发音特征与传统的韵律特征一起用于声调建模。实验结果显示,加入发音特征后,在三种不同的建模方法下声调识别的准确率提升约5%。将声调模型融入大词表连续语音识别系统后,汉字错误率有了明显的下降。 展开更多
关键词 语音识别 声调建模 发音特征 阶层式多层感知机分类器
下载PDF
基于发音特征的音视频说话人识别鲁棒性的研究 被引量:2
6
作者 陈雁翔 刘鸣 《电子学报》 EI CAS CSCD 北大核心 2010年第12期2920-2924,共5页
人类对语音的感知是多模态的,会同时受到听觉和视觉的影响.以语音及其视觉特征的融合为研究核心,依据发音机理中揭示的音视频之间非同步关联的深层次成因,采用多个发音特征的非同步关联,去描述表面上观察到的音视频之间的非同步,提出了... 人类对语音的感知是多模态的,会同时受到听觉和视觉的影响.以语音及其视觉特征的融合为研究核心,依据发音机理中揭示的音视频之间非同步关联的深层次成因,采用多个发音特征的非同步关联,去描述表面上观察到的音视频之间的非同步,提出了一个基于动态贝叶斯网络的语音与唇动联合模型,并通过音视频双模态的多层次融合,实现了说话人识别系统鲁棒性的提高.音视频双模态数据库上的实验表明了,在不同语音信噪比的条件下多层次融合均达到了更好的性能. 展开更多
关键词 发音特征 音视频 说话人识别 动态贝叶斯网络
下载PDF
智障儿童韵母发音特征分析 被引量:1
7
作者 范佳露 魏婷婷 《绥化学院学报》 2016年第7期61-64,共4页
文章从普通话韵母的结构特征和口型特点两个维度对智障儿童韵母发音的特征进行统计和分析,结果发现:从结构特征看,智障儿童对单韵母的发音掌握最好,复韵母中前响韵母的发音显著好于中响韵母,后鼻韵母的发音正确率最低;从口型特点看,智... 文章从普通话韵母的结构特征和口型特点两个维度对智障儿童韵母发音的特征进行统计和分析,结果发现:从结构特征看,智障儿童对单韵母的发音掌握最好,复韵母中前响韵母的发音显著好于中响韵母,后鼻韵母的发音正确率最低;从口型特点看,智障儿童开口呼韵母发音最好,其次是撮口呼韵母和合口呼韵母,齐齿呼韵母的发音最差;智龄对智障被试韵母发音无明显影响。文章最后对智障儿童韵母训练顺序及相关的口部运动训练和声韵组合训练提出建议。 展开更多
关键词 智障儿童 韵母 发音特征
下载PDF
基于EPG信号的蒙古语复辅音的发音特征研究 被引量:1
8
作者 金雅声 格根塔娜 胡阿旭 《西北民族大学学报(自然科学版)》 2011年第3期8-12,53,共6页
在动态腭位研究方法的基础上,对蒙古语中以双唇音、舌尖音、舌面音为前置辅音的复辅音舌腭接触面积和舌位特征进行了探究,得出以下结论:①蒙古语复辅音中拥有共同持阻段的接触面积会相对大于没有共同的持阻段的接触面积.②前置音为舌尖... 在动态腭位研究方法的基础上,对蒙古语中以双唇音、舌尖音、舌面音为前置辅音的复辅音舌腭接触面积和舌位特征进行了探究,得出以下结论:①蒙古语复辅音中拥有共同持阻段的接触面积会相对大于没有共同的持阻段的接触面积.②前置音为舌尖音时在齿龈区舌腭接触越靠前其AC值将较大.③后置辅音为擦音或塞擦音的复辅音,在形成擦段时需舌体的抬起,因而PC和VC值为最高. 展开更多
关键词 蒙古语 复辅音 发音特征 EPG
下载PDF
基于老挝留学生发音特征的汉语语音评价体系研究 被引量:2
9
作者 陈展 《现代语文(下旬.语言研究)》 2015年第3期81-82,共2页
结合老挝留学生的发音特征及其汉语语音偏误,提出了"汉语发音习得等级"的定义,对基于老挝留学生发音特征的汉语语音评价体系做了详细设计和分析,同时引入联动和反馈机制以科学、高效地评价老挝留学生的汉语发音水平。
关键词 老挝留学生 发音特征 汉语语音评价体系 语音偏误
下载PDF
汉语介音的第二发音特征探讨
10
作者 高艳丽 《绵阳师范学院学报》 2012年第4期70-73,共4页
汉语介音归属的确定对于汉语音节结构的确立至关重要。由于介音本身的特殊性,其归属问题在汉语中却是一个很有争议的问题。关于介音归属,大致存在以下几种观点:位于音首、作为音韵的结构成分、模糊不定和介音独立说。介音位于音首又有... 汉语介音归属的确定对于汉语音节结构的确立至关重要。由于介音本身的特殊性,其归属问题在汉语中却是一个很有争议的问题。关于介音归属,大致存在以下几种观点:位于音首、作为音韵的结构成分、模糊不定和介音独立说。介音位于音首又有两种可能性:即介音作为音首辅音的第二发音特征或与音首辅音构成辅音丛。在音首-音韵理论框架下,本文从语音特征、不均衡分布、标记理论等几个方面论证介音并非音首辅音的第二发音特征而是一个独立音段从而为介音的其他相关研究提供参考和借鉴。 展开更多
关键词 介音 介音归属 第二发音特征
下载PDF
基于发音特征的发音偏误趋势检测研究 被引量:3
11
作者 屈乐园 解焱陆 张劲松 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第2期239-246,共8页
为了提升计算机辅助发音训练(CAPT)系统中发音偏误趋势(PET)的检测效果,确保反馈信息的准确性与有效性,提出一种基于对数似然比的发音特征方法。该方法将多个基于深度神经网络的发音特征提取器用于生成帧级别的对数似然比,然后将对数似... 为了提升计算机辅助发音训练(CAPT)系统中发音偏误趋势(PET)的检测效果,确保反馈信息的准确性与有效性,提出一种基于对数似然比的发音特征方法。该方法将多个基于深度神经网络的发音特征提取器用于生成帧级别的对数似然比,然后将对数似然比组成的发音特征用于PET的检测,为学习者提供发音位置和发音方法的正音信息。实验结果表明,发音特征对PET的检测效果优于常用声学特征(MFCC,PLP和f Bank),当发音特征与MFCC特征相结合时,可以进一步提升性能,达到错误接受率为5.0%,错误拒绝率为30.8%,诊断正确率为89.8%的检测效果。 展开更多
关键词 发音特征 发音偏误趋势 计算机辅助发音训练 对数似然比
下载PDF
基于发音特征的汉语发音偏误自动标注 被引量:2
12
作者 魏星 王玮 +2 位作者 陈静萍 解焱陆 张劲松 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第2期243-248,共6页
针对发音偏误检测系统语音标注费时、费力和标注不一致的问题,基于发音特征,构建偏误检测系统,给出Top-N的识别结果,通过praat软件呈现机器初步标注文本,在此基础上进行人工二次标注。实验结果表明,与单纯的人工标注相比,所提出的自动... 针对发音偏误检测系统语音标注费时、费力和标注不一致的问题,基于发音特征,构建偏误检测系统,给出Top-N的识别结果,通过praat软件呈现机器初步标注文本,在此基础上进行人工二次标注。实验结果表明,与单纯的人工标注相比,所提出的自动标注加人工二次标注方法在标注一致性上从80.7%提高到92.48%,平均每个句子的标注时间从10分钟减少到3分钟。所提方法有效地提高了人工标注的效率,可以在有限时间内为识别系统提供更多可靠的标注语料。 展开更多
关键词 发音特征 发音偏误趋势 自动标注
下载PDF
基于发音特征的音/视频双流语音识别模型 被引量:1
13
作者 宋培岩 蒋冬梅 王风娜 《计算机应用研究》 CSCD 北大核心 2009年第7期2481-2483,共3页
构建了一种基于发音特征的音/视频双流动态贝叶斯网络(dynamic Bayesian network,DBN)语音识别模型,定义了各节点的条件概率关系,以及发音特征之间的异步约束关系,最后在音/视频连接数字语音数据库上进行了语音识别实验,并与音频单流、... 构建了一种基于发音特征的音/视频双流动态贝叶斯网络(dynamic Bayesian network,DBN)语音识别模型,定义了各节点的条件概率关系,以及发音特征之间的异步约束关系,最后在音/视频连接数字语音数据库上进行了语音识别实验,并与音频单流、视频单流DBN模型比较了在不同信噪比情况下的识别效果。结果表明,在低信噪比情况下,基于发音特征的音/视频双流语音识别模型表现出最好的识别性能,而且随着噪声的增加,其识别率下降的趋势比较平缓,表明该模型对噪声具有很强的鲁棒性,更适用于低信噪比环境下的语音识别。 展开更多
关键词 动态贝叶斯网络 发音特征 音/视频 语音识别
下载PDF
现代湘语和吴语浊音声母发音特征的比较 被引量:1
14
作者 钟江华 陈立中 《湖北民族学院学报(哲学社会科学版)》 CSSCI 2012年第4期126-129,共4页
本文对保存在现代湘语和吴语中的浊音声母的发音特征进行了综合比较,主要从是否送气、清浊程度、浊音清化以及浊塞擦音和浊擦音的相互转化等四个方面进行讨论。
关键词 湘语 吴语 浊音声母 发音特征 比较
下载PDF
基于发音特征DBN模型的嘴部动画合成 被引量:2
15
作者 刘培桢 蒋冬梅 +1 位作者 RAVYSE Ilse SAHLI Hichem 《科学技术与工程》 2010年第14期3335-3339,共5页
具有真实感的面部动画合成是虚拟现实的重要研究内容,在传统的基于多流隐马尔可夫模型(MSHMM)的可视语音合成中,由于MSHMM不能为发音器官的运动关系建模,合成的嘴部图像模糊且缺乏细节变化。提出了结合发音特征的多流动态贝叶斯网络语... 具有真实感的面部动画合成是虚拟现实的重要研究内容,在传统的基于多流隐马尔可夫模型(MSHMM)的可视语音合成中,由于MSHMM不能为发音器官的运动关系建模,合成的嘴部图像模糊且缺乏细节变化。提出了结合发音特征的多流动态贝叶斯网络语音模型(AF_AVDBN),定义了各节点的条件概率分布,使得发音特征(如嘴唇、舌体和声门/软腭)之间可以异步,并在此基础上推导了基于极大似然估计原理的嘴部最优参数学习算法。嘴部动画合成实验结果表明,基于AF_AVDBN的合成方法能够得到非常逼真的嘴部图像,效果远远优于基于MSHMM的可视语音合成方法,能够更好地应用于人机交互等领域。 展开更多
关键词 发音特征 动态贝叶斯网络 嘴部动画合成
下载PDF
结合发音特征的动态贝叶斯网络语音识别模型
16
作者 王风娜 蒋冬梅 宋培岩 《计算机工程与应用》 CSCD 北大核心 2009年第8期178-181,共4页
构建了一种新的基于动态贝叶斯网络(Dynamic Bayesian Network,DBN)的异步整词-发音特征语音识别模型AWA-DBN(每个词由其发音特征的运动来描述),定义了各发音特征节点及异步检查节点的条件概率分布。在标准数字语音库Aurora5.0上的语音... 构建了一种新的基于动态贝叶斯网络(Dynamic Bayesian Network,DBN)的异步整词-发音特征语音识别模型AWA-DBN(每个词由其发音特征的运动来描述),定义了各发音特征节点及异步检查节点的条件概率分布。在标准数字语音库Aurora5.0上的语音识别实验表明,与整词-状态DBN(WS-DBN,每个词由固定个数的整词状态构成)和整词-音素DBN(WP-DBN,每个词由其对应的音素序列构成)模型相比,WS-DBN模型虽然具有最高的识别率,但其只适用于小词汇量孤立词语音识别,AWA-DBN和WP-DBN可以为大词汇量连续语音建模,而AWA-DBN模型比WP-DBN模型具有更高的语音识别率和系统鲁棒性。 展开更多
关键词 发音特征 动态贝叶斯网络 语音识别
下载PDF
基于级联预测的病理语音声学特征到发音动作特征转换研究
17
作者 师同同 薛珮芸 +1 位作者 白静 袁博 《电子设计工程》 2024年第16期33-38,共6页
针对传统仪器采集构音障碍患者发音动作特征存在时间长、舒适性差的问题,提出一种基于BLSTM的特征转换模型,将容易提取的声学特征经转换模型映射为发音动作特征。利用同步记录的声学特征和发音动作特征训练一个基于BLSTM的特征转换模型... 针对传统仪器采集构音障碍患者发音动作特征存在时间长、舒适性差的问题,提出一种基于BLSTM的特征转换模型,将容易提取的声学特征经转换模型映射为发音动作特征。利用同步记录的声学特征和发音动作特征训练一个基于BLSTM的特征转换模型;针对转换精度过低的问题,提出一种级联预测结构,将表征发音器官运动的信息添加到模型的输入端,弥补单一声学特征揭示发音器官内部联系时的局限性。在TORGO数据集上的实验结果表明,相比于基线模型,级联预测特征转换模型能将平均皮尔逊相关系数提升11.61%,平均均方根误差减小4.10%,验证了提出的级联预测特征转换模型的有效性。 展开更多
关键词 声学特征 发音动作特征 特征转换 级联预测
下载PDF
基于语音识别的英语口语发音校正系统
18
作者 何憬 《信息技术》 2023年第3期166-171,共6页
针对传统英语口语发音校正系统对学生发音错误不能及时校正、反馈等问题,设计一种基于语音识别的英语口语发音校正系统。该系统由口语发音特征提取与校正两部分构成。校正是整个系统核心部分,通过标注结果做灭错计算,识别出错误音频;根... 针对传统英语口语发音校正系统对学生发音错误不能及时校正、反馈等问题,设计一种基于语音识别的英语口语发音校正系统。该系统由口语发音特征提取与校正两部分构成。校正是整个系统核心部分,通过标注结果做灭错计算,识别出错误音频;根据反馈路径、序列方式得出音频对照结果,利用鲁化方式进阶控制对照结果,完成口语发音校正。实验结果表明,所提方法可以将错误发音识别并校正,同时该系统响应时长较短,证实系统性能良好,实现了英语口语发音校正系统的科学化、精准化。 展开更多
关键词 语音识别 英语口语发音 发音特征提取 发音识别校正 发音校正
下载PDF
基于发音空间特征的构音障碍患者的病情分级 被引量:4
19
作者 段淑斐 王俊芹 +2 位作者 DINGAM Camille 张雪英 孙颖 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2021年第3期288-296,共9页
现有的较多对运动性构音障碍病理语音的研究是以声学特征为条件来进行的,而对发音运动空间的研究较少,且数据库中普遍缺乏病患的发音及语音数据.本文基于多伦多大学开发的TORGO数据库,对比分析了构音障碍患者与正常人、不同病情程度的... 现有的较多对运动性构音障碍病理语音的研究是以声学特征为条件来进行的,而对发音运动空间的研究较少,且数据库中普遍缺乏病患的发音及语音数据.本文基于多伦多大学开发的TORGO数据库,对比分析了构音障碍患者与正常人、不同病情程度的构音障碍患者之间在发音运动空间上的差异,提取发音空间特征,对构音障碍患者进行病情分级,为医学上诊疗的自动分级检测提供理论依据.对单音素进行分析能够判断发音肌群的能力,却忽略了病患在连续发音时语音的流畅性.本文采用短语文本,首先对比分析了正常人与不同病情程度构音障碍患者的3维散点发音轨迹与空间位移,发现构音障碍患者的舌部发音运动更靠近口腔后方、左方、下方,且病情程度越严重,舌部抬起运动越困难.然后使用K-means算法计算发音运动空间的质心,进行显著性分析,发现不同病情程度的构音障碍患者之间的差异主要在上下方向,该方向的显著性水平均值只有0.078.最后选取质心与位移中值两个发音空间特征,作为分类器输入进行病情分级.实验结果显示随机森林分类器的分级识别性能在98%以上,且随机森林的分类准确率比J48决策树的最高提升了6.45%. 展开更多
关键词 构音障碍 发音空间特征 病情分级
下载PDF
融合发音动作特征和声学特征的病理语音检测 被引量:3
20
作者 王颇 白静 薛珮芸 《计算机工程与设计》 北大核心 2021年第3期776-781,共6页
为提高听障患者病理语音的检测效果,提出一种融合发音动作特征和声学特征的检测方法。分析病理语音和正常语音发音动作特征的差异,提取位移、速度两种发音动作特征,提取梅尔倒谱系数、基频、共振峰3种声学特征,对两类特征归一化处理,使... 为提高听障患者病理语音的检测效果,提出一种融合发音动作特征和声学特征的检测方法。分析病理语音和正常语音发音动作特征的差异,提取位移、速度两种发音动作特征,提取梅尔倒谱系数、基频、共振峰3种声学特征,对两类特征归一化处理,使用核主成分分析法进行降维,在支持向量机、随机森林、多层感知机中测试特征的检测性能。实验结果表明,发音动作特征和声学特征同样有效,两类特征构成的融合特征检测效果优于单一特征,验证该方法提高了病理语音的检测效果。 展开更多
关键词 病理语音检测 发音动作特征 声学特征 核主成分分析 多层感知机
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部