期刊文献+
共找到942篇文章
< 1 2 48 >
每页显示 20 50 100
基于语言文化的中国现当代声乐创作研究:音节、音素与音色之关系
1
作者 刘涓涓 《黄钟(武汉音乐学院学报)》 北大核心 2023年第3期116-131,168,共17页
声母和韵母是汉语音节的组成部分,也是我国声乐创作重要的音色基础。当今的创作者从音乐表现出发,对声、韵的语音特质有所发挥。一些兼用汉语与兄弟少数民族语言的声乐作品,其音译词的音素具有突出的音色美感,经过作曲技术的结合处理之... 声母和韵母是汉语音节的组成部分,也是我国声乐创作重要的音色基础。当今的创作者从音乐表现出发,对声、韵的语音特质有所发挥。一些兼用汉语与兄弟少数民族语言的声乐作品,其音译词的音素具有突出的音色美感,经过作曲技术的结合处理之后,在作品中起到渲染情绪、塑造音响、传达语义、符号象征和完善曲式结构的作用。声乐作品中的衬词不仅多样而且富于包容性,但如何更加准确地进行记录也是创作中需要关注和解决的问题。 展开更多
关键词 声乐创作 音节 音素 音色 衬词
下载PDF
基于语音音素后验概率图关键特征提取的中文方言识别模型
2
作者 冯罡 陈宁 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期900-906,共7页
不同方言对相同字的发音往往有所不同,因此不同方言所包含音素的概率分布存在较大差异,这是方言差异性的重要体现。为了充分利用这一差异性,提出了基于音素后验概率图分析的方言识别模型,该模型引入Convolutional Block Attention Modul... 不同方言对相同字的发音往往有所不同,因此不同方言所包含音素的概率分布存在较大差异,这是方言差异性的重要体现。为了充分利用这一差异性,提出了基于音素后验概率图分析的方言识别模型,该模型引入Convolutional Block Attention Module(CBAM)的提取音素后验概率图关键特征,并利用Emphasized Channel Attention-Propagation and Aggregation in TDNN(ECAPA-TDNN)模型对其进行聚合和注意力池化得到句子级特征。为进一步提升类间距离,引入了Additive Angular Margin(AAM)损失。实验结果表明,该模型取得了比传统模型更高的分类准确率,并且以上改进均对准确率提升有所贡献。 展开更多
关键词 方言识别 音素特征 自注意力机制 ECAPA-TDNN 特征提取
下载PDF
基于预训练与音素字节对编码的越南语识别
3
作者 沈之杰 郭武 《数据采集与处理》 CSCD 北大核心 2023年第1期101-110,共10页
基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC... 基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC)的声学建模中,选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度,采用字节对编码(Byte-pair encoding,BPE)算法生成音素子词,将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行,所提算法相对wav2vec 2.0基线系统有明显改进,识别词错误率由37.3%降低到29.4%。 展开更多
关键词 低资源语音识别 建模单元 字节对编码 音素子词 预训练 越南语识别
下载PDF
汉语语音音素分割的一种新方法 被引量:10
4
作者 王宁 万旺根 余小清 《上海大学学报(自然科学版)》 CAS CSCD 2002年第2期116-118,共3页
音素分割在大词汇量连续语音识别的过程中起着重要的作用 .该文提出了一种简单实用的音素分割方法 ,比较好地解决了这个问题 ,并在大词汇量汉语语音识别中得到了应用 。
关键词 汉语语音 音素分割 大词汇量 语音识别 清音 浊音 音素长度 拆分
下载PDF
面向语音合成的藏语单音素与三音素自动切分算法研究 被引量:4
5
作者 张金溪 李永宏 +2 位作者 单广荣 李照耀 江静 《计算机应用研究》 CSCD 北大核心 2013年第11期3272-3275,共4页
在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别... 在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别为80.69%、88.74%。实验结果表明,三音素HMM模型的自动切分方法的准确率明显高于单音素HMM模型的切分率,提高了语音语料库标注信息的精确度和一致性。 展开更多
关键词 语音合成 藏语语料库 音素 音素 自动切分
下载PDF
基于三音素动态贝叶斯网络模型的大词汇量连续语音识别 被引量:3
6
作者 吕国云 赵荣椿 +2 位作者 张艳宁 樊养余 Sahli Hichem 《数据采集与处理》 CSCD 北大核心 2009年第1期1-6,共6页
考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-D... 考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-DBN)模型。WTS-DBN模型是三音素模型,识别基元为三音素,以显式的方式模拟了基于三音素状态捆绑的隐马尔可夫模型(HMM)。大词汇量语音识别实验结果表明:在纯净语音环境下,WTS-DBN模型的识别率比HMM,WT-DBN,WP-DBN和WPS-DBN模型的识别率分别提高了20.53%,40.77%,42.72%和7.52%。 展开更多
关键词 语音识别 动态贝叶斯网络 音素 音素
下载PDF
K子空间和时延自相关器的英汉音素识别
7
作者 罗万伯 罗霄岚 +2 位作者 陈炜 彭舰 吴端培 《电子科技大学学报》 EI CAS CSCD 北大核心 2006年第1期66-69,共4页
提出了用于音素识别的K子空间和时延自相关器神经网络结构,用将时延设计加入线性自相关器,以扩展音素滤波神经网络的方法,产生p维子空间,并采用迭代过程修改划分,以便捕获语音信号中的时间序列信息。这种带不分类训练过程的体系结构提... 提出了用于音素识别的K子空间和时延自相关器神经网络结构,用将时延设计加入线性自相关器,以扩展音素滤波神经网络的方法,产生p维子空间,并采用迭代过程修改划分,以便捕获语音信号中的时间序列信息。这种带不分类训练过程的体系结构提供了一种高识别性能的方法,没有大多数常规语音识别神经网络所常有的网络输出值不表示候选者似然性的缺陷。通过英语音素和汉语音素的初步试验,识别正确率为84.38%,比音素滤波神经网络方法好。 展开更多
关键词 语音识别 音素识别 神经网络 汉语音素 时延自相关
下载PDF
基于上下文三音素DBN模型的连续语音识别
8
作者 吕国云 赵荣椿 +1 位作者 蒋冬梅 SAHLI H 《计算机工程与应用》 CSCD 北大核心 2007年第35期35-38,共4页
考虑连续语音中的协同发音问题,提出基于词内扩展的单流上下文相关三音素动态贝叶斯网络(SS-DBN-TRI)模型和词间扩展的单流上下文相关三音素DBN(SS-DBN-TRI-CON)模型。SS-DBN-TRI模型是Bilmes提出单流DBN(SS-DBN)模型的改进,采用词内上... 考虑连续语音中的协同发音问题,提出基于词内扩展的单流上下文相关三音素动态贝叶斯网络(SS-DBN-TRI)模型和词间扩展的单流上下文相关三音素DBN(SS-DBN-TRI-CON)模型。SS-DBN-TRI模型是Bilmes提出单流DBN(SS-DBN)模型的改进,采用词内上下文相关三音素节点替代单音素节点,每个词由它的对应三音素单元构成,而三音素单元和观测向量相联系;SS-DBN-TRI-CON模型基于SS-DBN模型,通过增加当前音素的前音素节点和后音素节点,构成一个新的词间扩展的三音素变量节点,新的三音素节点和观测向量相联系,采用高斯混合模型来描述,采用数字连续语音数据库的实验结果表明:SS-DBN-TRI-CON具备最好的语音识别性能。 展开更多
关键词 动态贝叶斯网络 语音识别 音素 音素 上下文相关
下载PDF
多媒体技术在英语音素教学中的实践探索——FLASH在创作“学习英语音素”音像课件中的设计与应用
9
作者 张鸽 刘琳 《现代教育技术》 CSSCI 2010年第9期80-84,共5页
利用多媒体与计算机技术,设计集"看、听、模仿、练习"四位一体的人机互动式英语音素教与学模式。展现FLASH技术创作"学习英语音素"课件的探索,把英语48个音素发音的口形、舌位、声带的运动过程与教师的发音要领讲... 利用多媒体与计算机技术,设计集"看、听、模仿、练习"四位一体的人机互动式英语音素教与学模式。展现FLASH技术创作"学习英语音素"课件的探索,把英语48个音素发音的口形、舌位、声带的运动过程与教师的发音要领讲解、发音示范通过动画手段同步展示给学生。课件还设置了"跟读演示"和"单词练习"键,人机可互动交流。另外对在FLASH制作中遇到的问题及解决方法与注意事项加以说明,为使用FLASH软件丰富多媒体教学与网络自主学习资源,提供帮助。 展开更多
关键词 英语音素 FLASH软件 “学习英语音素”音像课件 多媒体教学
下载PDF
基于音素后验概率和层次凝聚聚类算法的音素边界检测
10
作者 冯志远 张连海 《太赫兹科学与电子信息学报》 2014年第2期260-265,共6页
提出了一种基于音素后验概率和层次凝聚聚类算法的音素边界检测方法。该方法首先利用改进的TRAP结构提取语音信号的帧级音素后验概率;然后,运用层次凝聚聚类算法将提取的音素后验概率进行聚类分析;最后根据其全部的最小损失函数值获取阈... 提出了一种基于音素后验概率和层次凝聚聚类算法的音素边界检测方法。该方法首先利用改进的TRAP结构提取语音信号的帧级音素后验概率;然后,运用层次凝聚聚类算法将提取的音素后验概率进行聚类分析;最后根据其全部的最小损失函数值获取阈值,并通过此阈值决定聚类数目和音素边界。实验证明:该方法具有较好的检测性能,且相对于梅尔倒谱参数(MFCC),音素后验概率更为适合音素边界的检测。 展开更多
关键词 音素边界检测 音素后验概率 层次凝聚聚类
下载PDF
巴别神系及其神名音素标记
11
作者 朱大可 《同济大学学报(社会科学版)》 CSSCI 北大核心 2014年第5期31-41,共11页
对全球各地神话的考察可以发现,绝大多数神祇的名字,都拥有自己的神格标记,并可以按主神、水神、地神、日神、冥神、母神、父神等类别加以识别。这个现象表明,全世界各民族的神话,必定拥有一个共同起源。而根据"主神音素递增效应&q... 对全球各地神话的考察可以发现,绝大多数神祇的名字,都拥有自己的神格标记,并可以按主神、水神、地神、日神、冥神、母神、父神等类别加以识别。这个现象表明,全世界各民族的神话,必定拥有一个共同起源。而根据"主神音素递增效应"可以推断,这个起源就是非洲,它不仅是智人及其语言的世界性摇篮,而且也是宗教/神话的唯一起源。 展开更多
关键词 巴别神系 神名音素标记 历时性阐释模型 主神音素递增效应
下载PDF
浅谈小学英语“音素意识”整合训练的探索
12
作者 沈莹 《新课程》 2018年第31期8-8,共1页
中国人学习英语因受母语发音的影响,在英语音素识别、音素意识养成方面欠缺关注。而音素意识的养成将直接影响学生单词识记、朗读水准和后期阅读能力的高低。基于音素理论和教学实际的理解,探索了在小学英语课堂中培养学生音素意识的意... 中国人学习英语因受母语发音的影响,在英语音素识别、音素意识养成方面欠缺关注。而音素意识的养成将直接影响学生单词识记、朗读水准和后期阅读能力的高低。基于音素理论和教学实际的理解,探索了在小学英语课堂中培养学生音素意识的意义及整合训练的方法。 展开更多
关键词 小学英语 音素 音素意识 整合训练
下载PDF
英语句子朗读发音中的音素自动检错系统 被引量:1
13
作者 丁晓飞 胡国平 戴礼荣 《计算机应用与软件》 CSCD 2009年第9期149-152,共4页
为探索智能语音技术在英语发音学习中的作用,开展了面向中国人朗读英语句子的音素发音自动检错技术研究。首先收集了45个人录制的900句英文朗读发音,并由两位专家对音素发音中的错误进行详细的标注,然后基于语音识别技术建立的句子朗读... 为探索智能语音技术在英语发音学习中的作用,开展了面向中国人朗读英语句子的音素发音自动检错技术研究。首先收集了45个人录制的900句英文朗读发音,并由两位专家对音素发音中的错误进行详细的标注,然后基于语音识别技术建立的句子朗读发音中音素自动检错系统,并针对中国人英语发音时最为常见的错读和漏读两大问题,分别提出音素独立检错阈值和限定音素对齐识别网络的方法,对音素检错系统进行了优化,显著地提高了系统的性能,最终系统的召回率和正确率分别达到49%和52%,接近人工专家间的69%召回率下59%的正确率的性能。 展开更多
关键词 语音识别 隐马尔可夫模型 音素检错 限定音素识别网络
下载PDF
利用SAPI5完成中文语音音素的分解 被引量:16
14
作者 宋阳 刘胜兰 张燕宏 《微计算机信息》 北大核心 2005年第3期230-231,27,共3页
本文讲述了在基于网络的人-人交互系统中,如何利用SAPI5来进行中文语音音素的分解,介绍了SAPI5语音识别(SR)引擎所提供的服务,在一个已经实现的MPEG-4兼容的人脸动画系统基础上,阐述了其在网络人-人交互系统应用中的设计思路和具体相关... 本文讲述了在基于网络的人-人交互系统中,如何利用SAPI5来进行中文语音音素的分解,介绍了SAPI5语音识别(SR)引擎所提供的服务,在一个已经实现的MPEG-4兼容的人脸动画系统基础上,阐述了其在网络人-人交互系统应用中的设计思路和具体相关实现技术。 展开更多
关键词 SAPI5.0 MPEG-4 语音识别 音素 可视音素 人脸动画
下载PDF
音素关联的多文种语音融合编码方法 被引量:6
15
作者 孙广武 戴永 +1 位作者 喻世东 李璇 《计算机工程与应用》 CSCD 2013年第19期217-221,共5页
依据异类文种之间、同类文种不同语音之间存在音素数据关联的特性,提出多文种语音数据融合编码方法。将不同文种存在的相同音素数据段块按段块模板截取语音样本序列,小波变换,提取特征矢量,生成共享模板集;任意字音或语句音串均按共享... 依据异类文种之间、同类文种不同语音之间存在音素数据关联的特性,提出多文种语音数据融合编码方法。将不同文种存在的相同音素数据段块按段块模板截取语音样本序列,小波变换,提取特征矢量,生成共享模板集;任意字音或语句音串均按共享模板集提供的元素进行编码与解码;以模板音素串构成的语音记录库按(音节、音素)索引。实验结果表明,单字语音数据压缩比、语音数据存储量、语音还原分段信噪比、主观评价得分等参数均明显优于已有方法,语音还原质量良好。 展开更多
关键词 语音 音素 关联 多文种 融合编码
下载PDF
面向语音合成的维吾尔语音素自动切分算法研究 被引量:3
16
作者 阿依木尼萨.胡甫尔 艾斯卡尔.艾木都拉 《计算机应用与软件》 CSCD 2011年第9期18-21,共4页
结合维吾尔语语音特征,以建立维吾尔音素语料库为目标,为了减少人工工作量,通过HTK工具实现了音素的自动切分算法:首先完成了文本设计、录音和手动标注等准备工作,设计了上下文属性集,通过训练获得了每个音素的HMM模型,随后对任意输入... 结合维吾尔语语音特征,以建立维吾尔音素语料库为目标,为了减少人工工作量,通过HTK工具实现了音素的自动切分算法:首先完成了文本设计、录音和手动标注等准备工作,设计了上下文属性集,通过训练获得了每个音素的HMM模型,随后对任意输入的语音句子进行了其音素构成部分的自动切分,最后分析了其切分准确度、存在的问题及对策等。实践表明,在语料库的建设中,该研究策略确实节省了大量的时间和人力成本,提高了语音语料库标注信息的一致性和准确性。 展开更多
关键词 音素自动切分 隐马尔科夫模型 维吾尔语 语音合成 音素语音语料库
下载PDF
基于音位属性和边界信息的音素识别 被引量:6
17
作者 许友亮 张连海 牛铜 《数据采集与处理》 CSCD 北大核心 2013年第2期178-183,共6页
在检测出音位属性的基础上,提出了一种基于音位属性后验概率的音素边界检测算法,并将音位属性与边界信息应用于基于条件随机场的音素识别。该方法首先计算得出相邻帧音位属性后验概率向量间的夹角,然后将夹角的极大值点所在的帧选为侯... 在检测出音位属性的基础上,提出了一种基于音位属性后验概率的音素边界检测算法,并将音位属性与边界信息应用于基于条件随机场的音素识别。该方法首先计算得出相邻帧音位属性后验概率向量间的夹角,然后将夹角的极大值点所在的帧选为侯选边界,最后通过约束条件去除极值点中的错误边界。本文将音素边界与音位属性信息进行组合,作为基于条件随机场模型的识别系统的观测特征,实验结果表明,增加边界信息后,音素正确识别率有了显著提升。 展开更多
关键词 音位属性 音素边界检测 自动语音识别 条件随机场
下载PDF
基于动态贝叶斯网络的音视频连续语音识别和音素切分 被引量:2
18
作者 吕国云 蒋冬梅 +5 位作者 蒋晓悦 赵荣椿 侯云舒 孙阿利 H.Sahli W.Verhelst 《计算机应用》 CSCD 北大核心 2007年第7期1670-1673,共4页
构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的... 构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的识别率比HMM模型平均高12.79%;而纯净语音下,基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别,DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系,为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。 展开更多
关键词 动态贝叶斯网络 音视频 语音识别 音素切分
下载PDF
音标-音素意识整合训练的重要价值——小学二年级干预组与三年级对照组的比较 被引量:1
19
作者 李庆安 许莹 +3 位作者 张萌 林崇德 姚峰 林依 《心理科学》 CSSCI CSCD 北大核心 2006年第6期1324-1330,共7页
采用前-后测对照组的准实验设计,通过小学二年级的两个干预组与小学三年级的一个对照组之间的比较研究,结果表明:音标知识、音素分解、合成、删除与替换技能相整合的训练方案,以及音标知识、音素分解与合成技能相整合的训练方案,都有利... 采用前-后测对照组的准实验设计,通过小学二年级的两个干预组与小学三年级的一个对照组之间的比较研究,结果表明:音标知识、音素分解、合成、删除与替换技能相整合的训练方案,以及音标知识、音素分解与合成技能相整合的训练方案,都有利于提高小学二年级学生的英语音素意识、准朗读和朗读技能;不过,训练内容相对多的前者,并没有显著地优于训练内容相对少的后者。 展开更多
关键词 音标 音素意识 整合 干预 准朗读
下载PDF
一种基于层次结构深度信念网络的音素识别方法 被引量:2
20
作者 王一 杨俊安 +2 位作者 刘辉 柳林 卢高 《应用科学学报》 CAS CSCD 北大核心 2014年第5期515-522,共8页
针对现有音素识别系统识别准确率不高、建模方法表征能力不强且易陷入局部最优解等问题,提出了一种基于层次结构深度信念网络(deep belief network,DBN)的音素识别新方法.该方法由基于层次结构DBN的瓶颈特征以及基于DBN的音素分类器两... 针对现有音素识别系统识别准确率不高、建模方法表征能力不强且易陷入局部最优解等问题,提出了一种基于层次结构深度信念网络(deep belief network,DBN)的音素识别新方法.该方法由基于层次结构DBN的瓶颈特征以及基于DBN的音素分类器两部分组成:其中的瓶颈特征能够充分利用DBN能够处理长时段语音、监督性的提取方法等特性;而基于DBN的音素分类器则具有更强的建模和表征能力.因此,将两者结合在一起能够在提取低维、监督性特征的同时,利用DBN更加有效地对音素后验概率进行识别.在TIMIT数据库上进行的实验结果表明,所提出的音素识别方法在识别正确率上相对于以往音素识别系统有较大提高. 展开更多
关键词 音素识别 层次结构 深度信念网络 瓶颈特征
下载PDF
上一页 1 2 48 下一页 到第
使用帮助 返回顶部