期刊文献+
共找到87篇文章
< 1 2 5 >
每页显示 20 50 100
Cross-Language Transfer Learning-based Lhasa-Tibetan Speech Recognition
1
作者 Zhijie Wang Yue Zhao +3 位作者 Licheng Wu Xiaojun Bi Zhuoma Dawa Qiang Ji 《Computers, Materials & Continua》 SCIE EI 2022年第10期629-639,共11页
As one of Chinese minority languages,Tibetan speech recognition technology was not researched upon as extensively as Chinese and English were until recently.This,along with the relatively small Tibetan corpus,has resu... As one of Chinese minority languages,Tibetan speech recognition technology was not researched upon as extensively as Chinese and English were until recently.This,along with the relatively small Tibetan corpus,has resulted in an unsatisfying performance of Tibetan speech recognition based on an end-to-end model.This paper aims to achieve an accurate Tibetan speech recognition using a small amount of Tibetan training data.We demonstrate effective methods of Tibetan end-to-end speech recognition via cross-language transfer learning from three aspects:modeling unit selection,transfer learning method,and source language selection.Experimental results show that the Chinese-Tibetan multi-language learning method using multilanguage character set as the modeling unit yields the best performance on Tibetan Character Error Rate(CER)at 27.3%,which is reduced by 26.1%compared to the language-specific model.And our method also achieves the 2.2%higher accuracy using less amount of data compared with the method using Tibetan multi-dialect transfer learning under the same model structure and data set. 展开更多
关键词 Cross-language transfer learning low-resource language modeling unit tibetan speech recognition
下载PDF
藏汉语音翻译数据集
2
作者 赵小兵 刘佳洛 +2 位作者 周毛克 江雪 戚肖克 《中国科学数据(中英文网络版)》 CSCD 2024年第4期21-29,共9页
语音翻译研究的前沿取决于可用数据集的质量和多样性。目前在探索少数民族语言的语音翻译时,由于缺乏公开的数据集,相关研究面临着诸多限制。为此,本文构建并公开藏语语音到汉语文本的语音翻译数据集。本数据集来源于微信公众平台以及... 语音翻译研究的前沿取决于可用数据集的质量和多样性。目前在探索少数民族语言的语音翻译时,由于缺乏公开的数据集,相关研究面临着诸多限制。为此,本文构建并公开藏语语音到汉语文本的语音翻译数据集。本数据集来源于微信公众平台以及已公开的藏语语音识别数据集。通过网络爬虫和机器翻译辅助采集数据,并进行人工切分与标注,最终交由专家审核和校正后得到高质量的藏汉语音翻译数据集。本数据集包含样本7270条,大小为965 MB。本数据集为探索低资源藏汉语音翻译技术提供了一定的数据基础,有助于推动相关技术和算法的进步,也为语音翻译系统在少数民族语言环境下的应用提供了实质性的支持。 展开更多
关键词 语音翻译 藏汉 少数民族语言 低资源 数据集
下载PDF
完全端到端的藏语语音合成方法
3
作者 拉巴顿珠 官政先 +2 位作者 德庆卓玛 张恒 珠杰 《中文信息学报》 CSCD 北大核心 2024年第9期82-92,116,共12页
在迈向多语言多模态大模型的时代下,藏语语音合成技术的研究意义更加凸显,其目的是将文字信息转化为可听的声音信息,使得人机交互更加便捷和人性化。该文针对目前主流的两段式端到端藏语语音合成方法出现重复吐词、跳词、漏词等鲁棒性... 在迈向多语言多模态大模型的时代下,藏语语音合成技术的研究意义更加凸显,其目的是将文字信息转化为可听的声音信息,使得人机交互更加便捷和人性化。该文针对目前主流的两段式端到端藏语语音合成方法出现重复吐词、跳词、漏词等鲁棒性差且推理速度慢的问题,研究了基于深度生成模型的完全端到端VITS模型及其在藏语语音合成中的应用。首先,通过自然语音采集、自动标注和声学分析等构建一个7000条中等规模的藏语卫藏方言语音数据库;其次,由于现有开源模型不能很好地表征藏文音节结构特征,且现有相关描述无法全面地刻画藏语语音结构,为此提出了现代藏文存在7种字形结构的主张,并将其转写成对应的音素序列作为模型的输入;最后,经典的开源模型VITS应用在上述语音数据上进行了藏语语音合成试验。同时,为了提高合成系统的鲁棒性,在模型中引入了预训练的音素强制对齐信息。实验结果表明,相比两阶段的方法,通过端到端建模不仅有效减少了模型的推理时间,进一步提高合成语音的质量,而且基于7种藏文字形结构的音素序列作为建模单元,显著提升藏语音段特征的覆盖率,从而缓解低资源且黏着语常见的数据稀疏带来发音错误,以及音素分散导致模型训练困难问题。 展开更多
关键词 语音合成 藏语 音节结构 字音转换 端到端
下载PDF
藏语音素转写的算法研究
4
作者 拉巴顿珠 珠杰 顿珠次仁 《计算机仿真》 2024年第6期370-374,434,共6页
藏语语音合成技术中,字-音转换是一项必不可少的关键性研究任务,即将藏语音节转写成对应的音素序列。从藏语语音合成技术的任务出发,以藏语传统文法为依据,分析其现代藏语音节的拼写结构和连续文本的复杂特征,提出一种基于拼写结构的藏... 藏语语音合成技术中,字-音转换是一项必不可少的关键性研究任务,即将藏语音节转写成对应的音素序列。从藏语语音合成技术的任务出发,以藏语传统文法为依据,分析其现代藏语音节的拼写结构和连续文本的复杂特征,提出一种基于拼写结构的藏语音素转写算法。经测试表明,只要是拼写规范的音节,则音素转写准确率高达99%以上。另外,所提出的音素转写方案不仅可以有效地处理语音合成技术中的字-音转换任务,而且对藏文排序、藏语文教学以及藏文信息处理的其它研发任务具有一定的参考意义,对于规范藏语、简化藏文编码等起到显而易见的作用。 展开更多
关键词 语音合成 拉丁字母 音素 藏语
下载PDF
基于深度神经网络的藏语语音关键词检索方法
5
作者 张恒 拉巴顿珠 +1 位作者 官政先 肖鑫 《西藏科技》 2024年第6期73-80,共8页
语音关键词识别作为人机语音交互的一项基础性研究课题,其目的是从连续的语音信号中提取特定的关键词,并实现对目标设备的唤醒以及其他相关功能。文章提出了一种基于DNN-HMM声学模型的藏语卫藏方言关键词检测方法。首先,通过切割、转换... 语音关键词识别作为人机语音交互的一项基础性研究课题,其目的是从连续的语音信号中提取特定的关键词,并实现对目标设备的唤醒以及其他相关功能。文章提出了一种基于DNN-HMM声学模型的藏语卫藏方言关键词检测方法。首先,通过切割、转换等方式对语音数据进行预处理;其次,使用MFCC从语音信号中提取出有效的特征作为模型的输入;再次,分别采用GMM-HMM和DNN-HMM模型对藏语声学特征进行建模。同时,为了提高模型的表现力和泛化能力,文章在模型中引入预训练和微调技术,对模型的结构进行了优化。实验结果表明,与传统基于GMM-HMM声学模型的识别结果相比,采用基于DNN-HMM声学模型的关键词检测方法能够更有效地检测出藏语语音关键词。 展开更多
关键词 声学模型 藏语 深度学习 关键词检测 语音识别
下载PDF
基于深度特征学习的藏语语音识别 被引量:8
6
作者 王辉 赵悦 +3 位作者 刘晓凤 徐晓娜 周楠 许彦敏 《东北师大学报(自然科学版)》 CAS CSCD 北大核心 2015年第4期69-73,共5页
根据听觉语音学的知识,提出使用稀疏自动编码器在MFCC特征基础上进行深度学习,提取了深度特征模仿听觉神经的稀疏触动信号,有利于HMM模型语音识别精度的提高.实验结果显示,学习到的深度特征较MFCC特征在藏语语音识别正确率方面有明显提高.
关键词 深度特征学习 稀疏自动编码器 藏语语音识别 MFCC特征
下载PDF
藏语连续语音语料库设计与实现 被引量:10
7
作者 李永宏 于洪志 孔江平 《计算机工程与应用》 CSCD 北大核心 2010年第13期233-235,248,共4页
以藏语夏河话为研究对象,建立了基于三音子的藏语连续语音语料库。首先收集了10万句藏语文本语料库,并根据夏河话的实际发音,进行了国际音标转写;然后总结了夏河话的三音子音联结构形式,并用藏语文本处理平台对其组合类型和在原始文本... 以藏语夏河话为研究对象,建立了基于三音子的藏语连续语音语料库。首先收集了10万句藏语文本语料库,并根据夏河话的实际发音,进行了国际音标转写;然后总结了夏河话的三音子音联结构形式,并用藏语文本处理平台对其组合类型和在原始文本语料库中的频度进行了详细的统计分析;最后在语音库的语料设计中综合考虑了三音子以及类三音子的覆盖率和稀疏度,设计并完成了语料抽取算法,实现了语料自动选取。 展开更多
关键词 藏语 三音子 语音库 Greed算法
下载PDF
融合音节特征的最大熵藏文词性标注研究 被引量:15
8
作者 于洪志 李亚超 +1 位作者 汪昆 冷本扎西 《中文信息学报》 CSCD 北大核心 2013年第5期160-165,共6页
藏文词性标注是藏文信息处理中非常重要的基础性问题,该文以最大熵模型为基本框架,根据藏文的构词特征及统计分析结果,定义并选取特征模板,研究了融合语言特征的最大熵藏文词性标注模型。实验结果表明,最大熵模型能够较好的处理藏文词... 藏文词性标注是藏文信息处理中非常重要的基础性问题,该文以最大熵模型为基本框架,根据藏文的构词特征及统计分析结果,定义并选取特征模板,研究了融合语言特征的最大熵藏文词性标注模型。实验结果表明,最大熵模型能够较好的处理藏文词性标注问题,音节特征可以显著提高藏文词性标注的效果,与基准系统相比使错误率降低了6.4%。 展开更多
关键词 藏文 词性标注 最大熵 形态特征
下载PDF
基于循环神经网络的藏语语音识别声学模型 被引量:16
9
作者 黄晓辉 李京 《中文信息学报》 CSCD 北大核心 2018年第5期49-55,共7页
探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学模型输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与... 探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学模型输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与解码效率。实验结果显示,与传统基于隐马尔可夫模型的声学建模方法相比,循环神经网络模型在藏语拉萨话音素识别任务上具有更好的识别性能,而引入时域卷积操作的循环神经网络声学模型在保持同等识别性能的情况下,拥有更高的训练和解码效率。 展开更多
关键词 循环神经网络 藏语语音识别 声学建模 时域卷积
下载PDF
基于瓶颈特征的藏语拉萨话连续语音识别研究 被引量:9
10
作者 周楠 赵悦 +3 位作者 李要嫱 徐晓娜 才旺拉姆 吴立成 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第2期249-254,共6页
基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征... 基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征的复合特征取得比深度神经网络后验特征和单瓶颈特征更好的识别表现。 展开更多
关键词 藏语拉萨话 连续语音识别 高斯混合–隐马尔科夫模型 瓶颈特征 深度神经网络
下载PDF
基于深层神经网络的藏语识别 被引量:14
11
作者 袁胜龙 郭武 戴礼荣 《模式识别与人工智能》 EI CSCD 北大核心 2015年第3期209-213,共5页
文中首次涉及藏语的自然对话风格大词汇电话连续语音识别问题.作为一种少数民族语言,藏语识别面临的最大的困难是数据稀疏问题.文中在基于深层神经网络(DNN)的声学模型建模中,针对数据稀疏的问题,提出采用大语种数据训练好的DNN作为目... 文中首次涉及藏语的自然对话风格大词汇电话连续语音识别问题.作为一种少数民族语言,藏语识别面临的最大的困难是数据稀疏问题.文中在基于深层神经网络(DNN)的声学模型建模中,针对数据稀疏的问题,提出采用大语种数据训练好的DNN作为目标模型的初始网络进行模型优化的策略.另外,由于藏语语音学的研究很不完善,人工生成决策树问题集的方式并不可行.针对该问题,文中利用数据驱动的方式自动生成决策树问题集,对三音子隐马尔可夫模型(HMM)进行状态绑定,从而减少需要估计的模型参数.在测试集上,基于混合高斯模型(GMM)声学建模的藏字识别率为30.86%.在基于DNN的声学模型建模中,采用三种大语种数据训练好的DNN网络作为初始网络,并在测试集上验证该方法的有效性,藏字识别正确率达到43.26%. 展开更多
关键词 藏语 连续语音识别 数据驱动 深层神经网络(DNN)
下载PDF
基于Matlab的藏语语音基音检测算法研究 被引量:7
12
作者 卓嘎 边巴旺堆 《现代电子技术》 北大核心 2015年第10期20-22,共3页
目前藏语语音基音检测算法相关研究较少,藏语语音基音检测是藏语语音处理过程中的重要环节,其准确性直接影响到系统的性能。介绍中心消波和自相关函数的算法原理及基音检测算法,设计藏语语音基音检测流程,利用Matlab进行编程和仿真。通... 目前藏语语音基音检测算法相关研究较少,藏语语音基音检测是藏语语音处理过程中的重要环节,其准确性直接影响到系统的性能。介绍中心消波和自相关函数的算法原理及基音检测算法,设计藏语语音基音检测流程,利用Matlab进行编程和仿真。通过实验表明该算法结构简单、运算量小,结果较准确,可用于信噪比较低环境下藏语语音辅音的基音估值检测。 展开更多
关键词 基音检测 藏语语音 自相关算法 MATLAB
下载PDF
临近最优主动学习的藏语语音识别方法研究 被引量:3
13
作者 赵悦 李要嫱 +1 位作者 徐晓娜 吴立成 《计算机工程与应用》 CSCD 北大核心 2018年第22期156-159,215,共5页
语音识别模型需要大量带标注语音语料进行训练,作为少数民族语言的藏语,由于语音标注专家十分匮乏,人工标注语音语料是一件非常费时费力的工作。然而,主动学习方法可以根据语音识别的目标从大量未标注的语音数据中挑选一些具有价值的样... 语音识别模型需要大量带标注语音语料进行训练,作为少数民族语言的藏语,由于语音标注专家十分匮乏,人工标注语音语料是一件非常费时费力的工作。然而,主动学习方法可以根据语音识别的目标从大量未标注的语音数据中挑选一些具有价值的样本交给用户进行标注,以便利用少量高质量的训练样本构建与大数据量训练方式一样精准的识别模型。研究了基于主动学习的藏语拉萨话语音语料选择方法,提出了一种临近最优的批量样本选择目标函数,并验证了其具有submodular函数性质。通过实验验证,该方法能够使用较少的训练数据保证语音识别模型的精度,从而减少了人工标注语料的工作量。 展开更多
关键词 临近最优批量主动学习 submodular函数 语音语料选择 藏语拉萨话语音识别
下载PDF
藏语拉萨语LPC语音参数提取研究 被引量:5
14
作者 卓嘎 董志诚 《现代电子技术》 北大核心 2017年第18期20-22,共3页
藏语语音参数提取是藏语语音识别的关键技术之一,参数提取的精确度直接影响语音识别的效果。线性预测系数(LPC)是语音信号的重要频域参数,是目前语音信号处理过程中比较重要的处理技术,广泛应用于语音压缩、语音声学建模、语音合成、语... 藏语语音参数提取是藏语语音识别的关键技术之一,参数提取的精确度直接影响语音识别的效果。线性预测系数(LPC)是语音信号的重要频域参数,是目前语音信号处理过程中比较重要的处理技术,广泛应用于语音压缩、语音声学建模、语音合成、语音识别等过程中。首先介绍了线性预测算法原理,然后提出了藏语语音LPC参数提取的方案,最后在Matlab平台上实现了藏语语音LPC参数的提取和仿真分析,研究结果对完善藏语语音合成技术和提高藏语语音识别效率有一定的研究参考价值。 展开更多
关键词 藏语语音 LPC 参数提取 语音信号
下载PDF
藏语语音合成中语料数据标注规则的设计 被引量:5
15
作者 曲珍 春燕 《西藏大学学报(社会科学版)》 CSSCI 2012年第2期62-66,共5页
基于隐马尔可夫模型(HMM)的藏语语音合成系统中,语料数据的标注是训练声学模型的基础和关键。文章结合藏语独有的语音特点对语料数据设计套标注规则,并以Praat为标注环境实现语料的标注。
关键词 藏语语音合成 语料数据 标注规则
下载PDF
基于词汇语料的白马藏语语音分析研究 被引量:3
16
作者 祁坤钰 杨士宏 《西藏大学学报(社会科学版)》 CSSCI 2014年第4期111-118,126,共9页
采用语料库方法,构建了一个具有4500余条词的白马藏语语音库,并做了规范的音标标注。该库涵盖了《藏语方言调查表》91%的词汇,包含了白马藏语固有的语音和词汇特征,完全能够代表白马藏语普遍的语言现象。依据语音库标注信息,从发音部位... 采用语料库方法,构建了一个具有4500余条词的白马藏语语音库,并做了规范的音标标注。该库涵盖了《藏语方言调查表》91%的词汇,包含了白马藏语固有的语音和词汇特征,完全能够代表白马藏语普遍的语言现象。依据语音库标注信息,从发音部位和发音方法两方面对白马藏语声母和韵母的音位系统进行了统计分析,获得了详细的白马藏语音系数据。同时,按发音方法归纳了声母与韵母的组合规律及其分布特征,总结了白马藏语语音与藏语书面语的对应关系,为今后的白马藏语研究提供了详实的数据和新的研究思路。 展开更多
关键词 白马藏语 语音库 音位系统
下载PDF
面向语音合成的藏语单音素与三音素自动切分算法研究 被引量:5
17
作者 张金溪 李永宏 +2 位作者 单广荣 李照耀 江静 《计算机应用研究》 CSCD 北大核心 2013年第11期3272-3275,共4页
在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别... 在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别为80.69%、88.74%。实验结果表明,三音素HMM模型的自动切分方法的准确率明显高于单音素HMM模型的切分率,提高了语音语料库标注信息的精确度和一致性。 展开更多
关键词 语音合成 藏语语料库 单音素 三音素 自动切分
下载PDF
基于Matlab的藏语语音MFCC参数提取研究 被引量:1
18
作者 卓嘎 姜军 边巴旺堆 《西藏大学学报(社会科学版)》 CSSCI 2017年第2期58-62,共5页
MFCC(Mel Frequency Cepstrum Coefficient)是语音处理过程中需要提取的重要频率参数之一,因其很好地模仿人耳的听觉感知,在各种语音识别和合成过程中得到广泛的应用。文章在分析标准的MFCC参数提取算法基础上,通过合并参数算法提取了... MFCC(Mel Frequency Cepstrum Coefficient)是语音处理过程中需要提取的重要频率参数之一,因其很好地模仿人耳的听觉感知,在各种语音识别和合成过程中得到广泛的应用。文章在分析标准的MFCC参数提取算法基础上,通过合并参数算法提取了藏语语音的MFCC,并给出了在Matlab里进行仿真实验的详细步骤。 展开更多
关键词 藏语语音 MFCC 参数提取 语音信号
下载PDF
纳西东巴古籍藏语音读经典初探 被引量:8
19
作者 和继全 《西藏大学学报(社会科学版)》 CSSCI 2013年第2期134-144,共11页
纳西东巴古籍藏语音读经典作为含有特殊语言现象的文献资料,对民族语言、宗教和历史具有较高的研究价值。文章对此类经典的数量、收藏地点、类别、使用情况等作了初步梳理,指出藏语音读东巴经典具有字音严格对应、成线性排列的写读特征... 纳西东巴古籍藏语音读经典作为含有特殊语言现象的文献资料,对民族语言、宗教和历史具有较高的研究价值。文章对此类经典的数量、收藏地点、类别、使用情况等作了初步梳理,指出藏语音读东巴经典具有字音严格对应、成线性排列的写读特征,部分源于早期苯教经典,还有部分属藏传佛教噶玛噶举派经文的东巴文转写。 展开更多
关键词 东巴古籍 藏语音读 数量 收藏 写读特征 来源
下载PDF
基于LPC的藏语语音基音周期的检测分析 被引量:1
20
作者 马英 陈超 贾国庆 《现代电子技术》 北大核心 2015年第16期13-15,19,共4页
基音周期是语音信号的重要参数,提取藏语语音基音周期为藏语语音识别和藏语语音合成奠定很重要的基础。这里在分析藏语发音特点的基础上进行基于LPC的藏语语音基音周期提取算法的分析,实践表明,该方法更加符合小信噪比藏语音信号基音周... 基音周期是语音信号的重要参数,提取藏语语音基音周期为藏语语音识别和藏语语音合成奠定很重要的基础。这里在分析藏语发音特点的基础上进行基于LPC的藏语语音基音周期提取算法的分析,实践表明,该方法更加符合小信噪比藏语音信号基音周期和提取。在传统LPC分析方法的基础上结合自相关法和倒谱法,分析计算平均相对误差,总结出了符合藏语语音特点的特征提取算法。 展开更多
关键词 LPC 藏语语音 基音周期 倒谱法
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部