基于决策树的藏语拉萨话三音子模型被引量：4

Triphone models of Lhasa Tibetan based on decision tree

下载PDF

导出

摘要对藏语拉萨话中单音子及三音子分布情况进行了统计,分析了在藏语大词表连续词表连续语音识别中建立上下文相关声学模型的必要性。选择音素为建模单元,根据藏语特点,建立以音节为单位的发音字典。讨论了利用决策树建立三音子模型的几个关键问题和基本算法,结合国际音标分类和经验知识,确定了38个藏语拉萨话音子类别集及相应的决策树问题集。建立了共20个发音人8 170句的训练语料,在HTK平台上建立和训练得到了基于决策树的藏语拉萨话三音子模型,并分析了不同隐马尔可夫模型状态数及高斯混合度下的识别结果,确定了一套藏语大词表连续语音识别的完整方案。 Abstract：Probability distribution of monophones and triphones in Lhasa Tibetan are calculated and the necessity of establishing a contextual acoustic model in ASR for Lhasa Tibetan is analyzed. Phoneme is chosen as basic unit for acoustic models. According to the characteristics of Tibetan, a pronunciation dictionary based on single syllable is established. Main issues and algorithms for triphone models based on decision tree are discussed. According to IPAs and characteristics of Lhasa dialect, 38 phoneme sub- sets and question sets for triphone modeling are established. 8170 sentences of 20 speakers are recorded to train the models. Contextual continuous Hidden Markov Models（HMM） based on triphones are es tablished and trained on HTK platform. The recognition results under different sates number and mix tures are analyzed. And the framework for large-vocabulary continuous speech recognition of Lhasa Dia- lect is established.

作者李冠宇于洪志李永宏马宁

机构地区西北民族大学中国民族语言文字教育部重点实验室

出处《计算机工程与科学》 CSCD 北大核心 2013年第9期146-150,共5页 Computer Engineering & Science

基金国家自然科学基金资助项目(61262054) 西北民族大学中央高校基本科研业务费专项资金项目(zyz2011100)

关键词藏语拉萨话大词表连续语音识别隐马尔可夫模型三音子模型 Tibetan Lhasa dialect ~ LVCSR ~ HMM ~ triphone model

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1OdellJ J. The use of context in large vocabulary speech rec-ognition[D]. Cambridge s Cambridge University. 1995.
2Steve Y. The HTK book (for HTK Version 3.4)[0]. Cam-bridge: Engineering Department of Cambridge University. 2009.
3Rabiner L.Juang Biing-Hwang. Fundamentals of speech rec-ognition [ M]. Beijing: Tsinghua University Press Copy. 1993.
4Gao Sheng. Xu Bo , Huang Tai-yi. Chinese triphone model based on acoustics decision tree[n. ACT A Acustica , 2000. 25(6) :505-509. (in Chinese).
5International Phonetic Association. Handbook of the interna-tional phonetic association [M].Jiang Di , translation. Shanghai: Shanghai Educational Publishing House. 2008. (in Chinese).
6Zheng Fang. Wu Wen-hu , Fang Di-rang. Recognition key-word research of continuous stream voice[CJ II Proc of the 4th National Conference on Human Machine Speech Commu-nication Proceedings. 1996: 1. (in Chinese).
7Stolcke A. Srilm-An extensible language modeling toolkit [CJ II Proc of the 7th International Conference on Spoken Language Processing. 2002:257-286.
8高升,徐波,黄泰翼.基于决策树的汉语三音子模型[J].声学学报,2000,25(6):504-509. 被引量：20
9国际语音学会.国际语音学会手册[M].上海:上海教育出版社,2008.
10郑方,吴文虎,方棣棠.连续无限制语音流中关键词识别的研究现状[C].第四届全国人机语音通讯学术会议论文集,1996.

二级参考文献6

1林焘王理嘉.语音学教程[M].北京:北京大学出版社,..
2徐波张亮等.基于决策树方法的语境有关HMM建模.第八届全国声学学术会议[M].,1998.421-424.
3Hwang Meiyuh，IEEE Trans Speech Audio Processing，1998年，4卷，6期，412页
4徐波，第八届全国声学学术会议，1998年，421页
5Ma Bin，ICASSP ’96,USA，1996年
6林杰，语音学教程

共引文献21

1陈振标,徐波.基于子带能量特征的最优化语音端点检测算法研究[J].声学学报,2005,30(2):171-176. 被引量：22
2徐向华,朱杰,郭强.一种基于模糊聚类分析的异音混合共享模型[J].声学学报,2005,30(5):457-461.
3徐向华,朱杰,郭强.决策树结构对说话人自适应影响的研究[J].声学学报,2006,31(1):42-47. 被引量：3
4XU Xianghua,ZHU Jie,GUO Qiang.A fuzzy-clustering analysis based phonetic tied-mixture HMM[J].Chinese Journal of Acoustics,2005,24(4):347-353.
5周梁,高鹏,丁鹏,徐波.语音识别准确率与检索性能的关联性研究[J].中文信息学报,2006,20(3):99-104. 被引量：2
6徐向华,朱杰,郭强.语音识别中基于最小描述长度准则的决策树动态剪枝算法[J].声学学报,2006,31(4):370-376. 被引量：7
7崔朝阳,王建纲.广播电视语音识别现状与应用策略[J].计算机工程与应用,2007,43(23):181-183. 被引量：2
8陶梅,吾守尔.斯拉木,那斯尔江.吐尔逊.基于HTK的维吾尔语连续语音声学建模[J].中文信息学报,2008,22(5):56-59. 被引量：12
9梁源,吴育珊.从语言格局看深圳新粤语音系[J].暨南学报（哲学社会科学版）,2011,33(4):132-137. 被引量：3
10李冠宇.基于HTK的藏语拉萨话大词表连续语音识别的研究与实现[J].西北民族大学学报（自然科学版）,2011,32(3):19-23. 被引量：3

同被引文献192

1多杰东智.简析安多藏语动词的自主非自主与使动自动关系[J].中央民族大学学报（哲学社会科学版）,2008,35(1):114-117. 被引量：7
2德庆卓玛.藏语语音识别研究综述[J].西藏大学学报（社会科学版）,2010,25(S1):192-195. 被引量：5
3戴庆厦,李洁.汉藏语被动句的类型学分析[J].中央民族大学学报（哲学社会科学版）,2007,34(1):88-95. 被引量：19
4车谦.藏语里有补语吗?[J].西南民族大学学报（人文社会科学版）,1999,20(S2):21-24. 被引量：1
5周毛草.藏语方言时态助词研究[J].民族语文,1999(6):39-46. 被引量：2
6胡书津,罗布江村.藏语白色颜色词的文化内涵[J].西南民族大学学报（人文社会科学版）,1997,18(2):39-41. 被引量：4
7胡坦.藏语并列式复合词的一些特征[J].民族语文,1986(6):13-19. 被引量：10
8车谦.吐蕃时期藏语声母的几个问题[J].民族语文,1986(6):25-29. 被引量：3
9胡书津.藏语A‘BAB型的四音格[J].民族语文,1986(6):34-36. 被引量：2
10马月华.藏语里一种特殊的四音组词结构[J].民族语文,1986(1):43-46. 被引量：1

引证文献4

1李泓波,彭三城,白劲波,杨高明,黄少伟.一类决策树ID3改进算法探究[J].软件导刊,2016,15(2):30-32. 被引量：4
2边巴旺堆,王希,王君堡.藏语语音识别研究进展综述[J].高原科学研究,2022,6(4):76-84. 被引量：4
3尹蔚彬(著),久西杰(译).藏语文研究70年[J].青海师范大学学报（藏文版）,2023(3):1-28.
4买买提阿依甫,帕丽旦·木合塔尔,郭文强.基于三音子模型的柯尔克孜最优语料选取算法[J].计算机仿真,2024,41(8):296-302.

二级引证文献8

1王三军,杨厚新,王向英.基于决策树的呼叫中心分时段话务量预测模型[J].软件导刊,2017,16(6):138-142. 被引量：1
2刘超,刘馨璐,王攀,张丽娜.基于DPI和大数据分析的宽带家庭画像[J].计算机技术与发展,2018,28(12):162-166. 被引量：4
3韩晓阳,程世宇,李晓兴,单桂华.基于增强现实的多层次协同可视化系统[J].集成技术,2022,11(1):66-76. 被引量：1
4贾俊杰,段超强.基于评分离散度的托攻击检测算法[J].计算机工程与科学,2022,44(3):554-562. 被引量：2
5蔡优新,边巴旺堆.基于双向GRU模型的藏语语音情感识别[J].信息技术与信息化,2023(10):209-213. 被引量：1
6张恒,拉巴顿珠,官政先,肖鑫.基于深度神经网络的藏语语音关键词检索方法[J].西藏科技,2024,46(6):73-80.
7王嘉文,高定国,索朗曲珍,尼琼.基于特征提示的跨语种语音识别模型[J].科学技术与工程,2024,24(24):10348-10355.
8巴果,高定国,尼琼.基于数据增强的藏语拉萨方言语音识别研究[J].电脑知识与技术,2024,20(35):1-5.

1刘玉宇,吴及,王作英.汉语三音子模型观测概率比较[J].中文信息学报,2003,17(3):47-52. 被引量：2
2李冠宇.基于HTK的藏语拉萨话大词表连续语音识别的研究与实现[J].西北民族大学学报（自然科学版）,2011,32(3):19-23. 被引量：3
3信息处理技术[J].中国学术期刊文摘,2008,14(2):143-149.
4其米克.巴特西,黄浩,王羡慧.基于深度神经网络的维吾尔语语音识别[J].计算机工程与设计,2015,36(8):2239-2244. 被引量：13
5黄治国,孙伟,吴海涛.基于差别矩阵的约简树构造方法[J].计算机应用,2008,28(6):1457-1459. 被引量：4
6朱恒声,龙夫.如何在Windows中直接输入国际音标[J].电脑技术——Hello-IT,2001(12):66-66.
7王庆楠,郭武,解传栋.基于端到端技术的藏语语音识别[J].模式识别与人工智能,2017,30(4):359-364. 被引量：8
8程雪林,吴开政,李宗葛.汉语连续数字串识别的改进[J].计算机工程,2003,29(12):93-95.
9徐向华,朱杰,郭强.汉语连续语音识别中的分级聚类算法的研究和应用[J].信号处理,2004,20(5):497-500. 被引量：2
10杨阳蕊,李永宏,于洪志.藏语安多方言的音联结构及统计分析[J].西北民族大学学报（自然科学版）,2008,29(2):11-16. 被引量：2

计算机工程与科学

2013年第9期

浏览历史

内容加载中请稍等...

基于决策树的藏语拉萨话三音子模型被引量：4

参考文献10

二级参考文献6

共引文献21

同被引文献192

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于决策树的藏语拉萨话三音子模型 被引量：4

参考文献10

二级参考文献6

共引文献21

同被引文献192

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于决策树的藏语拉萨话三音子模型被引量：4