自然语料缺乏的民族语言连续语音识别被引量：2

Continuous Speech Recognition for Natural Resource-deficient Minority Languages

下载PDF

导出

摘要以维吾尔语为例研究自然语料缺乏的民族语言连续语音识别方法。采用HTK通过人工标注的少量语料生成种子模型,引导大语音数据构建声学模型,利用palmkit工具生成统计语言模型,以Julius工具实现连续语音识别。实验用64个维语母语者自由发话的6 400个短句语音建立单音素声学模型,由100 MB文本、6万词词典生成基于词类的3-gram语言模型,测试结果表明,该方法的识别率为72.5%,比单用HTK提高4.2个百分点。 This paper discusses a continuous speech recognition approach for the resource-deficient languages,such as Uyghur.This approach tries a seed acoustic model using small training speech materials and creates final acoustic model using a larger speech materials and its transcription text by leading seed model.HTK is used for training acoustic model,and palmkit is used for creating language model,and the open-source speech recognition software Julius is applied for continuous speech recognition.In the test,the speech data of 6 400 sentences uttered by 64 native Uyghur speakers is used for training acoustic model and 100 MB text materials and a dictionary of 60 000 words are used for creating 3-garm language model based class.Experimental results show the rate of 72.5% for the real time sound recognition compared with the recognition result of 68.3% by HTK tool only.

作者武晓敏达瓦·伊德木草吾守尔·斯拉木

机构地区新疆大学信息科学与工程学院新疆大学多语种信息技术重点实验室

出处《计算机工程》 CAS CSCD 2012年第12期129-131,135,共4页 Computer Engineering

基金国家自然科学基金资助面上项目(2011211A012 60863008) 新疆维吾尔自治区科技支疆基金资助项目(201091106) 博士启动基金资助项目(BS090144)

关键词连续语音识别种子模型声学模型语言模型维吾尔语 continuous speech recognition seed model acoustic model language model Uyghur

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1曹剑芬.语音处理上如何逐渐减少对具体语料的依赖?[J].清华大学学报（自然科学版）,2009(S1):1380-1387. 被引量：3
2冯丽娟,吾守尔.斯拉木.维吾尔语连续语音识别技术研究[J].现代计算机,2010,16(1):4-7. 被引量：2
3那斯尔江.吐尔逊,吾守尔.斯拉木.基于隐马尔可夫模型的维吾尔语连续语音识别系统[J].计算机应用,2009,29(7):2009-2011. 被引量：17
4伊·达瓦,匂坂芳典,中村哲.语料资源缺乏的连续语音识别方法的研究[J].自动化学报,2010,36(4):550-557. 被引量：9
5Julius[EB/OL].[2008-05-13].http://Julius.Sourceforge.jp/.
6伊.达瓦,大川茂村,白井克彦.蒙古语七个元音声频特性计算机分析[J].声学学报,1999,24(1):94-97. 被引量：10
7Palmkit[EB/OL].[1997-10-24].http://palmkit.sourceforge.net/.

二级参考文献50

1曹剑芬,李爱军,胡方,张利刚.语音学知识在语音识别中的应用:案例分析[J].清华大学学报（自然科学版）,2008,48(S1):748-753. 被引量：3
2曹剑芬.连读变调与轻重对立[J].中国语文,1995(4):312-320. 被引量：43
3曹剑芬.音段延长的不同类型及其韵律价值[J].南京师范大学文学院学报,2005(4):160-167. 被引量：26
4伊.达瓦,张玉洁,上园一知,大川茂树,章森,井佐原均,白井克彦.蒙古语语言-文字的自动化处理[J].中文信息学报,2006,20(4):56-62. 被引量：6
5徐波,史晓东,刘群,宗成庆,庞薇,陈振标,杨振东,魏玮,杜金华,陈毅东,刘洋,熊德意,侯宏旭,何中军.2005统计机器翻译研讨班研究报告[J].中文信息学报,2006,20(5):1-9. 被引量：10
6伊·达瓦大川茂村等.蒙古语音素的分类及识别性能的评价.日本声学会全国论文集[M].,1997..
7伊·达瓦大川茂村等.蒙古语七个元音共振峰频率分析.日本声学会全国论文集[M].,1996..
8古井贞燕.音响.音声工学[M].日本近代科学社,1992..
9哈斯额尔德尼那仁巴特.蒙古语基础[M].吉林人民出版社,1977..
10BROWN P, COCKE J, PIETRA S, et al. A statistical approach to machine translation[J]. Computational Linguistics, 1990, 16(2):79 -85.

共引文献31

1伊.达瓦,大川茂树,白井克彦.蒙古语主要方言的声学和音律特征分析分类[J].民族语文,2001(1):26-32. 被引量：1
2图雅.关于声学语音学研究方法的几个问题[J].内蒙古大学学报（哲学社会科学版）,2004,36(6):94-98. 被引量：4
3伊.达瓦,张玉洁,上园一知,大川茂树,章森,井佐原均,白井克彦.蒙古语语言-文字的自动化处理[J].中文信息学报,2006,20(4):56-62. 被引量：6
4许慧燕,钱盛友.湖南方言声频特性的计算机分析[J].电声技术,2007,31(4):56-58. 被引量：2
5王昆仑,张贯虹,吐尔洪江.阿布都克力木.维吾尔语元音的声频特性分析和识别[J].中文信息学报,2010,24(2):122-128. 被引量：10
6伊·达瓦,匂坂芳典,中村哲.语料资源缺乏的连续语音识别方法的研究[J].自动化学报,2010,36(4):550-557. 被引量：9
7赵剑辉,凌卫新,陈卓铭,何敏聪,欧阳静明.基于模糊多类支持向量机的声母识别方法[J].计算机工程与科学,2011,33(5):160-164. 被引量：2
8木合塔尔.沙地克,李晓,布合力齐姑丽.瓦斯力.维吾尔语广播新闻敏感词检索系统的研究[J].中文信息学报,2011,25(4):3-10. 被引量：1
9薛化建,董兴华,周喜,吐尔洪.吾司曼,李晓.基于子字单元的维吾尔语语音识别研究[J].计算机工程,2011,37(20):208-210. 被引量：5
10木合塔尔.沙地克,李晓,布合力齐姑丽.瓦斯力.维吾尔语广播新闻连续语音敏感词检索系统[J].计算机系统应用,2012,21(3):29-35. 被引量：2

同被引文献21

1曹剑芬.语音处理上如何逐渐减少对具体语料的依赖?[J].清华大学学报（自然科学版）,2009(S1):1380-1387. 被引量：3
2张钹.计算机视听觉一人工智能的梦[R].第十届全国人机语音通讯学术会议暨国际语音语言处理研讨会论文集.特邀报告,2009,8:2-3.
3Satoshi Nakamura. Development and Application of Multilingual Speech Translation[C]. Oriental COCOSDA International Conference on Speech Database and Assessments. IEEE.2009:1-4.
4Wang Haifeng. Hybrid Method for Spoken Language Translation[R]. 7Th National Conference onMan-Machine Speech Communication and International Workshop on speech and language processing. Invited lecture. 2009.8:5.
5David Geer. Statistical Machine Translation Gains Respect[C]. IEEE Computer Society Press 2005~38(10):18-25.
6刘鹏,宗成庆.基于人机交互的统计翻译方法[C].机器翻译研究进展第四节全国机器翻译研讨会,2008:187-195.
7Roberto Togneri and Daniel Pullella. An Overview of Speaker Identification: Accuracy and Robustness Issues [J]. IEEE CIRCUST AND SYSTEM MAGAZINE. 2011,SECOND QUARTER:23-45.
8Dawa Yidemucao,Zhicheng Zhao, and Wushor.Silamu. Sound Scene Clustering without Prior Knowledge[C]. Chinese Con- ference Pattern Recognition, 2012,613-621.
9Li Zinai, Ye Azhong. Advanced Applied Econometrics[M]. Beijing: Tsinghua University Press, 2012.
10荒木雅弘.フリーソフトでつくる音声認識[M].東京.森北出版株式会社,2007.

引证文献2

1达瓦.伊德木草,木合亚提.尼亚孜别克,吾守尔.斯拉木.语音技术在少数民族语言的应用研究[J].新疆大学学报（自然科学版）,2014,31(1):88-96. 被引量：3
2哈尔肯别克.木哈西,钟珞,达瓦.伊德木草.用说话人相似度i-vector的非负值矩阵分解说话人聚类[J].计算机应用与软件,2017,34(4):165-168. 被引量：1

二级引证文献4

1达瓦.伊德木草,艾山.吾买尔.实例统计翻译混合策略的汉民病历翻译的研究[J].新疆大学学报（自然科学版）,2015,32(1):68-73. 被引量：3
2哈尔肯别克.木哈西,钟珞,达瓦.伊德木草.用说话人相似度i-vector的非负值矩阵分解说话人聚类[J].计算机应用与软件,2017,34(4):165-168. 被引量：1
3张旺,杨乘,罗娅娅.融合注意力机制的ResNeXt语音欺骗检测模型[J].计算机应用与软件,2024,41(8):298-302.
4伊.达瓦,王羡慧,米尔阿迪力江.麦麦提.基于统计机器翻译技术的胡都木—托忒文本转写的实现[J].西部蒙古论坛,2014(2):62-71.

1贾冀婷.软件测试中可靠性模型的设计与研究[J].计算机技术与发展,2014,24(3):110-112. 被引量：9
2付维,刘冬,闵华松.基于Julius的机器人语音识别系统构建[J].单片机与嵌入式系统应用,2011,11(8):41-44.
3岳玲玉,郑明春.基于窗口的网络流量组合预测模型研究[J].计算机技术与发展,2012,22(4):111-114.
4刘辉.基于网络的词典辅助编纂及生成系统(Ⅰ)——系统总体设计与功能分析[J].沈阳师范大学学报（自然科学版）,2007,25(3):335-338. 被引量：1
5应用橱窗[J].计算机应用文摘,2013(25):73-73.
6朱蔷蔷,张桂芸,刘文龙.基于MapReduce框架一种文本挖掘算法的设计与实现[J].郑州大学学报（工学版）,2012,33(5):110-113. 被引量：4
7徐杰.“并”字的语义分析及其形式化问题[J].文教资料,2013(35):163-165.
8卢笛,马建峰,王一川,习宁,孟宪佳.面向云计算环境的动态公平性度量方法[J].通信学报,2014,35(7):140-150. 被引量：1
9石刚,章宜华,刘辉.电子数据库的微观结构及词典文本的生成机制[J].安阳工学院学报,2005,4(6):40-45.
10钟利华,张素兰,胡立华,张继福.基于概念格层次分析的视觉词典生成方法[J].计算机辅助设计与图形学学报,2015,27(1):136-141. 被引量：5

计算机工程

2012年第12期

浏览历史

内容加载中请稍等...

自然语料缺乏的民族语言连续语音识别被引量：2

参考文献7

二级参考文献50

共引文献31

同被引文献21

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

自然语料缺乏的民族语言连续语音识别 被引量：2

参考文献7

二级参考文献50

共引文献31

同被引文献21

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

自然语料缺乏的民族语言连续语音识别被引量：2