期刊文献+
共找到941篇文章
< 1 2 48 >
每页显示 20 50 100
融合音素的缅甸语语音识别文本纠错
1
作者 陈璐 董凌 +3 位作者 王文君 王剑 余正涛 高盛祥 《计算机工程与科学》 CSCD 北大核心 2024年第6期1121-1127,共7页
缅甸语语音识别文本中包含大量的同音和空格错误,使用通用的文本语义信息纠正错误字符,对缅甸语空格和同音错误定位和纠正不准确。考虑到缅甸语是一种声调语言,并且音素中包含了声调信息,因此提出融合音素的缅甸语语音识别文本纠错方法... 缅甸语语音识别文本中包含大量的同音和空格错误,使用通用的文本语义信息纠正错误字符,对缅甸语空格和同音错误定位和纠正不准确。考虑到缅甸语是一种声调语言,并且音素中包含了声调信息,因此提出融合音素的缅甸语语音识别文本纠错方法。通过参数共享策略对转录文本及其音素进行联合建模,利用音素信息辅助检测并纠正缅甸语同音和空格错误。实验结果表明,本文所提方法相比基线方法ConvSeq2Seq,在缅甸语语音识别纠错任务中的F1值提升了85.97%,达到了79.15%。 展开更多
关键词 缅甸语 语音识别文本纠错 音素 共享参数 BERT
下载PDF
基于多特征交互融合的老挝语无监督音素分割方法
2
作者 李新洁 王文君 +3 位作者 董凌 赖华 余正涛 高盛祥 《计算机工程与科学》 CSCD 北大核心 2024年第5期937-944,共8页
针对现有方法对老挝语声调变化以及音频多样性考虑不足导致音素分割不准确的问题,提出一种多特征交互融合的老挝语无监督音素分割方法。先对自监督特征、频谱特征以及音高特征进行独立编码,避免单一特征的不足;再基于注意力机制渐进融... 针对现有方法对老挝语声调变化以及音频多样性考虑不足导致音素分割不准确的问题,提出一种多特征交互融合的老挝语无监督音素分割方法。先对自监督特征、频谱特征以及音高特征进行独立编码,避免单一特征的不足;再基于注意力机制渐进融合多种独立特征,使模型更全面地捕捉老挝语的声调变化和音素边界的信息;最后采用可学习框架优化音素分割模型。实验结果表明,相比基线方法,在老挝语音素分割任务上所提方法的R-value值提升了27.88%。 展开更多
关键词 无监督学习 特征融合 老挝语 音素分割 语音表征
下载PDF
基于语言文化的中国现当代声乐创作研究:音节、音素与音色之关系
3
作者 刘涓涓 《黄钟(武汉音乐学院学报)》 北大核心 2023年第3期116-131,168,共17页
声母和韵母是汉语音节的组成部分,也是我国声乐创作重要的音色基础。当今的创作者从音乐表现出发,对声、韵的语音特质有所发挥。一些兼用汉语与兄弟少数民族语言的声乐作品,其音译词的音素具有突出的音色美感,经过作曲技术的结合处理之... 声母和韵母是汉语音节的组成部分,也是我国声乐创作重要的音色基础。当今的创作者从音乐表现出发,对声、韵的语音特质有所发挥。一些兼用汉语与兄弟少数民族语言的声乐作品,其音译词的音素具有突出的音色美感,经过作曲技术的结合处理之后,在作品中起到渲染情绪、塑造音响、传达语义、符号象征和完善曲式结构的作用。声乐作品中的衬词不仅多样而且富于包容性,但如何更加准确地进行记录也是创作中需要关注和解决的问题。 展开更多
关键词 声乐创作 音节 音素 音色 衬词
下载PDF
基于语音音素后验概率图关键特征提取的中文方言识别模型
4
作者 冯罡 陈宁 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期900-906,共7页
不同方言对相同字的发音往往有所不同,因此不同方言所包含音素的概率分布存在较大差异,这是方言差异性的重要体现。为了充分利用这一差异性,提出了基于音素后验概率图分析的方言识别模型,该模型引入Convolutional Block Attention Modul... 不同方言对相同字的发音往往有所不同,因此不同方言所包含音素的概率分布存在较大差异,这是方言差异性的重要体现。为了充分利用这一差异性,提出了基于音素后验概率图分析的方言识别模型,该模型引入Convolutional Block Attention Module(CBAM)的提取音素后验概率图关键特征,并利用Emphasized Channel Attention-Propagation and Aggregation in TDNN(ECAPA-TDNN)模型对其进行聚合和注意力池化得到句子级特征。为进一步提升类间距离,引入了Additive Angular Margin(AAM)损失。实验结果表明,该模型取得了比传统模型更高的分类准确率,并且以上改进均对准确率提升有所贡献。 展开更多
关键词 方言识别 音素特征 自注意力机制 ECAPA-TDNN 特征提取
下载PDF
基于预训练与音素字节对编码的越南语识别
5
作者 沈之杰 郭武 《数据采集与处理》 CSCD 北大核心 2023年第1期101-110,共10页
基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC... 基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC)的声学建模中,选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度,采用字节对编码(Byte-pair encoding,BPE)算法生成音素子词,将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行,所提算法相对wav2vec 2.0基线系统有明显改进,识别词错误率由37.3%降低到29.4%。 展开更多
关键词 低资源语音识别 建模单元 字节对编码 音素子词 预训练 越南语识别
下载PDF
汉语语音音素分割的一种新方法 被引量:10
6
作者 王宁 万旺根 余小清 《上海大学学报(自然科学版)》 CAS CSCD 2002年第2期116-118,共3页
音素分割在大词汇量连续语音识别的过程中起着重要的作用 .该文提出了一种简单实用的音素分割方法 ,比较好地解决了这个问题 ,并在大词汇量汉语语音识别中得到了应用 。
关键词 汉语语音 音素分割 大词汇量 语音识别 清音 浊音 音素长度 拆分
下载PDF
面向语音合成的藏语单音素与三音素自动切分算法研究 被引量:4
7
作者 张金溪 李永宏 +2 位作者 单广荣 李照耀 江静 《计算机应用研究》 CSCD 北大核心 2013年第11期3272-3275,共4页
在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别... 在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别为80.69%、88.74%。实验结果表明,三音素HMM模型的自动切分方法的准确率明显高于单音素HMM模型的切分率,提高了语音语料库标注信息的精确度和一致性。 展开更多
关键词 语音合成 藏语语料库 音素 音素 自动切分
下载PDF
音素关联的多文种语音融合编码方法 被引量:6
8
作者 孙广武 戴永 +1 位作者 喻世东 李璇 《计算机工程与应用》 CSCD 2013年第19期217-221,共5页
依据异类文种之间、同类文种不同语音之间存在音素数据关联的特性,提出多文种语音数据融合编码方法。将不同文种存在的相同音素数据段块按段块模板截取语音样本序列,小波变换,提取特征矢量,生成共享模板集;任意字音或语句音串均按共享... 依据异类文种之间、同类文种不同语音之间存在音素数据关联的特性,提出多文种语音数据融合编码方法。将不同文种存在的相同音素数据段块按段块模板截取语音样本序列,小波变换,提取特征矢量,生成共享模板集;任意字音或语句音串均按共享模板集提供的元素进行编码与解码;以模板音素串构成的语音记录库按(音节、音素)索引。实验结果表明,单字语音数据压缩比、语音数据存储量、语音还原分段信噪比、主观评价得分等参数均明显优于已有方法,语音还原质量良好。 展开更多
关键词 语音 音素 关联 多文种 融合编码
下载PDF
基于三音素动态贝叶斯网络模型的大词汇量连续语音识别 被引量:3
9
作者 吕国云 赵荣椿 +2 位作者 张艳宁 樊养余 Sahli Hichem 《数据采集与处理》 CSCD 北大核心 2009年第1期1-6,共6页
考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-D... 考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-DBN)模型。WTS-DBN模型是三音素模型,识别基元为三音素,以显式的方式模拟了基于三音素状态捆绑的隐马尔可夫模型(HMM)。大词汇量语音识别实验结果表明:在纯净语音环境下,WTS-DBN模型的识别率比HMM,WT-DBN,WP-DBN和WPS-DBN模型的识别率分别提高了20.53%,40.77%,42.72%和7.52%。 展开更多
关键词 语音识别 动态贝叶斯网络 音素 音素
下载PDF
基于音位属性和边界信息的音素识别 被引量:6
10
作者 许友亮 张连海 牛铜 《数据采集与处理》 CSCD 北大核心 2013年第2期178-183,共6页
在检测出音位属性的基础上,提出了一种基于音位属性后验概率的音素边界检测算法,并将音位属性与边界信息应用于基于条件随机场的音素识别。该方法首先计算得出相邻帧音位属性后验概率向量间的夹角,然后将夹角的极大值点所在的帧选为侯... 在检测出音位属性的基础上,提出了一种基于音位属性后验概率的音素边界检测算法,并将音位属性与边界信息应用于基于条件随机场的音素识别。该方法首先计算得出相邻帧音位属性后验概率向量间的夹角,然后将夹角的极大值点所在的帧选为侯选边界,最后通过约束条件去除极值点中的错误边界。本文将音素边界与音位属性信息进行组合,作为基于条件随机场模型的识别系统的观测特征,实验结果表明,增加边界信息后,音素正确识别率有了显著提升。 展开更多
关键词 音位属性 音素边界检测 自动语音识别 条件随机场
下载PDF
中文音素言语流畅性任务的近红外脑功能成像研究 被引量:3
11
作者 白学军 周菘 +2 位作者 刘颖 杨海波 王超 《心理科学》 CSSCI CSCD 北大核心 2016年第3期520-526,共7页
本文使用近红外脑功能成像技术探测正常被试在中文音素言语流畅性任务时的脑激活模式,34名右利手大学生被试参加了实验,实验任务为音素言语流畅性任务,采用近红外脑功能成像仪检测被试额颞区在任务时的激活情况,结果发现该任务激活了大... 本文使用近红外脑功能成像技术探测正常被试在中文音素言语流畅性任务时的脑激活模式,34名右利手大学生被试参加了实验,实验任务为音素言语流畅性任务,采用近红外脑功能成像仪检测被试额颞区在任务时的激活情况,结果发现该任务激活了大脑双侧的额颞区,双侧缘上回的激活可能为中文音素言语流畅性任务的语言特异性激活脑区,该研究为临床诊断提供了参考价值。 展开更多
关键词 音素流畅性任务 近红外脑功能成像技术(fNIRS) 双侧缘上回 时程分析
下载PDF
基于动态贝叶斯网络的音视频连续语音识别和音素切分 被引量:2
12
作者 吕国云 蒋冬梅 +5 位作者 蒋晓悦 赵荣椿 侯云舒 孙阿利 H.Sahli W.Verhelst 《计算机应用》 CSCD 北大核心 2007年第7期1670-1673,共4页
构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的... 构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的识别率比HMM模型平均高12.79%;而纯净语音下,基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别,DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系,为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。 展开更多
关键词 动态贝叶斯网络 音视频 语音识别 音素切分
下载PDF
音标-音素意识整合训练的重要价值——小学二年级干预组与三年级对照组的比较 被引量:1
13
作者 李庆安 许莹 +3 位作者 张萌 林崇德 姚峰 林依 《心理科学》 CSSCI CSCD 北大核心 2006年第6期1324-1330,共7页
采用前-后测对照组的准实验设计,通过小学二年级的两个干预组与小学三年级的一个对照组之间的比较研究,结果表明:音标知识、音素分解、合成、删除与替换技能相整合的训练方案,以及音标知识、音素分解与合成技能相整合的训练方案,都有利... 采用前-后测对照组的准实验设计,通过小学二年级的两个干预组与小学三年级的一个对照组之间的比较研究,结果表明:音标知识、音素分解、合成、删除与替换技能相整合的训练方案,以及音标知识、音素分解与合成技能相整合的训练方案,都有利于提高小学二年级学生的英语音素意识、准朗读和朗读技能;不过,训练内容相对多的前者,并没有显著地优于训练内容相对少的后者。 展开更多
关键词 音标 音素意识 整合 干预 准朗读
下载PDF
一种基于层次结构深度信念网络的音素识别方法 被引量:2
14
作者 王一 杨俊安 +2 位作者 刘辉 柳林 卢高 《应用科学学报》 CAS CSCD 北大核心 2014年第5期515-522,共8页
针对现有音素识别系统识别准确率不高、建模方法表征能力不强且易陷入局部最优解等问题,提出了一种基于层次结构深度信念网络(deep belief network,DBN)的音素识别新方法.该方法由基于层次结构DBN的瓶颈特征以及基于DBN的音素分类器两... 针对现有音素识别系统识别准确率不高、建模方法表征能力不强且易陷入局部最优解等问题,提出了一种基于层次结构深度信念网络(deep belief network,DBN)的音素识别新方法.该方法由基于层次结构DBN的瓶颈特征以及基于DBN的音素分类器两部分组成:其中的瓶颈特征能够充分利用DBN能够处理长时段语音、监督性的提取方法等特性;而基于DBN的音素分类器则具有更强的建模和表征能力.因此,将两者结合在一起能够在提取低维、监督性特征的同时,利用DBN更加有效地对音素后验概率进行识别.在TIMIT数据库上进行的实验结果表明,所提出的音素识别方法在识别正确率上相对于以往音素识别系统有较大提高. 展开更多
关键词 音素识别 层次结构 深度信念网络 瓶颈特征
下载PDF
基于ResCNN-BiGRU的四川方言语音识别
15
作者 谢金洪 魏霞 《现代电子技术》 北大核心 2024年第1期89-93,共5页
由于基于深度卷积神经网络的语音识别模型中缺乏对特定方言音素特征的提取能力,造成方言发音底层特征部分信息丢失,进而导致方言识别准确率不高、鲁棒性差等问题。针对上述问题,提出一种结合残差网络(RestNet)和双向门控循环网络(BiGRU... 由于基于深度卷积神经网络的语音识别模型中缺乏对特定方言音素特征的提取能力,造成方言发音底层特征部分信息丢失,进而导致方言识别准确率不高、鲁棒性差等问题。针对上述问题,提出一种结合残差网络(RestNet)和双向门控循环网络(BiGRU)的模型,该模型以GFCC特征图为输入,同时在残差网络中设计多尺度卷积模块,通过不同大小的卷积核提取特征,然后使用双向门控循环网络捕捉序列数据中的长期依赖关系,最后采用连接时序分类算法进行标签软对齐,实现四川方言语音识别模型。在四川方言语料库上的实验结果表明,提出的模型识别性能优于现有基准模型。 展开更多
关键词 四川方言 音素特征 双向门控循环网络 多尺度卷积 连接时序分类 标签软对齐
下载PDF
TTS系统中基于双音素的基元选择方法 被引量:1
16
作者 杨玉红 胡瑞敏 +1 位作者 徐正全 艾浩军 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2002年第1期94-97,共4页
为寻求能较好解决音节内和音节间的协同发音单元方案 ,提出了采用类似英文文语转换系统中使用的双音素作为合成单元方案 ,并根据普通话语音中只包含 410个全音节特点 ,进一步完善了双音素在汉语中的应用。试验结果表明 ,该方案包含了连... 为寻求能较好解决音节内和音节间的协同发音单元方案 ,提出了采用类似英文文语转换系统中使用的双音素作为合成单元方案 ,并根据普通话语音中只包含 410个全音节特点 ,进一步完善了双音素在汉语中的应用。试验结果表明 ,该方案包含了连续语流中的所有过渡音征 ,使合成语音转接流畅、自然。 展开更多
关键词 TTS系统 音素 基元选择 汉语语音合成 拼接单元 文语转换
下载PDF
“东干语”音素文字及其词式书写的启发——汉语语言规划在中国境外的成功范例 被引量:6
17
作者 彭泽润 曾宝芬 《北华大学学报(社会科学版)》 2006年第2期32-38,共7页
“东干语”是由于战争移民的原因在中亚独立发展了120多年的汉语西北方言,有10多万使用者,有50年使用音素文字的历史。目前,对东干语的研究主要是描写和比较语言系统事实。本文在事实的基础上探讨汉语音素文字和词式书写的语言规划理论... “东干语”是由于战争移民的原因在中亚独立发展了120多年的汉语西北方言,有10多万使用者,有50年使用音素文字的历史。目前,对东干语的研究主要是描写和比较语言系统事实。本文在事实的基础上探讨汉语音素文字和词式书写的语言规划理论与实践中的经验及教训。它给我们的主要经验是:(1)汉语可以使用表音文字中的音素文字。(2)汉语可以实行词式书写,汉语中可以找到词。(3)民族语言必须有文字才方便教育和扩大功能。(4)设计音素文字必须先选择一种主要方言做共同语。(5)汉语音素可以突破音素化汉字注音方案的整齐性。它给我们的主要教训是:(1)汉语是声调语言,设计汉语的音素文字不能忽视声调。(2)正词法在实践中肯定会出现分歧,但是要不断统一规则。(3)汉语和俄语等语言不同,特有的语气词、助词应该独立书写,不应该像俄语等语言那样当做词尾处理。 展开更多
关键词 东干语 音素文字 斯拉夫字母 文字创制 词式书写 语言规划
下载PDF
一种语料缺乏条件下的藏语音素自动切分方法 被引量:2
18
作者 李冠宇 于洪志 吴志强 《计算机工程与科学》 CSCD 北大核心 2014年第10期2009-2013,共5页
藏语语音合成及语音学研究中,经常需要切分音素。人工切分费时费力,但是由于藏语语料缺乏,训练的藏语声学模型不够精确和鲁棒,自动切分的音素边界不够准确。以藏语拉萨方言为研究对象,在确定拉萨方言音素集、建立拉萨方言发音词典的基础... 藏语语音合成及语音学研究中,经常需要切分音素。人工切分费时费力,但是由于藏语语料缺乏,训练的藏语声学模型不够精确和鲁棒,自动切分的音素边界不够准确。以藏语拉萨方言为研究对象,在确定拉萨方言音素集、建立拉萨方言发音词典的基础上,通过计算音素模型间的距离,确定了拉萨方言和英语的共同音素,融合拉萨方言和英语GMM-HMM模型,并自动判断语音中的静音和短时停顿,构造语音对应的词网络,查询发音词典,将词网络扩展为模型(音素)网络,使用Viterbi算法将每一帧特征参数对应到模型的每一个状态上,进而对音素进行切分。实验表明,切分效果要优于单纯的藏语模型方法。 展开更多
关键词 藏语 拉萨方言 自动音素切分 维特比算法 隐马尔可夫模型
下载PDF
基于音素解码的语种识别系统联合自适应算法研究 被引量:3
19
作者 邓妍 张卫强 刘加 《自动化学报》 EI CSCD 北大核心 2012年第4期652-658,共7页
针对真实环境下的语种识别,信道类型和通话内容等非语种方面因素的不同都会造成测试和训练条件的不匹配,从而影响系统的识别性能.本文以音素识别器后接向量空间模型(Phone recognizer followed by vectorspace model,PRVSM)为语种识别系... 针对真实环境下的语种识别,信道类型和通话内容等非语种方面因素的不同都会造成测试和训练条件的不匹配,从而影响系统的识别性能.本文以音素识别器后接向量空间模型(Phone recognizer followed by vectorspace model,PRVSM)为语种识别系统,引入联合自适应算法来解决系统中测试和训练条件的失配问题.研究了三种自适应方法用于系统的不同阶段:1)基于受约束的最大似然线性回归(Constr ained maximum likelihood linear regression,CMLLR)的声学模型自适应;2)基于全局N元文法的音位特征向量自适应;3)VSM模型中的支持向量机(Support vector machines,SVM)自适应.在综合采用多种自适应技术后,PRVSM系统的性能有了较大的提高,在NIST LRE 2009测试库上对于30s、10s和3s的测试段,基于不同音素识别器的PRVSM系统的等错误率(Equal errorrate,EER)分别相对降低了18%~23%、12%~20%以及5%~9%. 展开更多
关键词 语种识别 音素识别器后接向量空间模型 联合自适应 受约束的最大似然线性回归 支持向量机自适应
下载PDF
一种基于RBM的深层神经网络音素识别方法 被引量:3
20
作者 陈琦 张文林 +1 位作者 牛铜 李弼程 《信息工程大学学报》 2013年第5期569-574,共6页
为提高连续语音识别中的音素识别准确率,采用深可信网络提取语音音素后验概率进行音素识别。首先利用受限玻尔兹曼机的学习原理,对深可信网络进行逐层的预训练;然后通过增加一个"软最大化(softmax)"输出层,得到用于音素状态... 为提高连续语音识别中的音素识别准确率,采用深可信网络提取语音音素后验概率进行音素识别。首先利用受限玻尔兹曼机的学习原理,对深可信网络进行逐层的预训练;然后通过增加一个"软最大化(softmax)"输出层,得到用于音素状态后验概率检测的深层神经网络,并采用后向传播算法进行网络权值的精细调整;最后以后验概率为HMM发射概率,使用Viterbi解码器进行音素识别。针对TIMIT语料库的实验结果表明,该系统的音素识别率优于GMM/HMM,MLP/HMM和TANDEM系统性能。 展开更多
关键词 受限玻尔兹曼机 深可信网络 神经网络 音素识别
下载PDF
上一页 1 2 48 下一页 到第
使用帮助 返回顶部