语料资源缺乏的连续语音识别方法的研究被引量：9

Investigation of ASR Systems for Resource-deficient Languages

下载PDF

导出

摘要由于少数民族语言有其本身的特点,不能简单地套用现有的连续语音识别的方法.本文以蒙古语为例,研讨了声学和语言模型的建立,并在日本国际电气通信基础技术研究所的连续语音识别器上实现了蒙古语的语音识别系统.本文侧重于语言模型的建立,基于蒙古语黏着性语言特点,提出用相似词聚类方法建立多类N-gram模型.实验结果显示,应用我们提出的语言模型,识别精度比用传统的词的N-gram识别法提高了5.5%. Because the minority languages in China have their special characteristics, it is not suitable to directly adopt the traditional automatic speech recognition （ASR） methods which are used for some major languages, such as Chinese, English, Japanese, etc. In this paper, we take Mongolian （a resource-deficient language） as an example and build the acoustic and language models for applying the ATRASR system. In this paper, we specially focus on the language modeling aspect by considering the special characteristics of the Mongolian. We trained a multi-class N-gram language model based on similar word clustering. By applying the proposed language model, the system could improve the performance by 5.5 % compared with the conventional word N-gram.

作者伊·达瓦匂坂芳典中村哲

机构地区日本独立行政法人信息通信技术研究所日本早稻田大学国际信息通信研究科日本国际电气通信基础技术研究所

出处《自动化学报》 EI CSCD 北大核心 2010年第4期550-557,共8页 Acta Automatica Sinica

基金日本独立行政法人情报通信研究机构多语言高新技术语音–文本处理研究项目资助~~

关键词蒙古语黏着语言相似词分类连续语语音识别多类语言模型 Mongolian language, agglutinative language, similar word clustering, continuous speech recognition, multiclass N-gram model

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献23

1Young S J, Evermann G, Gales M J F, Hain T, Kershaw D, Moore G. The HTK Book, Version3.4. Berlin: Springer, 2006.
2Kawahara T. Participants' areas of research and technical work [Online], avaiable: http://www.julius.scorceforge.jp/, March 17, 2009.
3伊·达瓦,卢绪刚,清水微,中村哲.蒙古语连续语音识别在不同结构语言模型下的精度讨论.第十届全国人机语音通讯学术会议.兰州,中国:新疆师范大学出版社,2009.57.
4陶梅,吾守尔.斯拉木,那斯尔江.吐尔逊.基于HTK的维吾尔语连续语音声学建模[J].中文信息学报,2008,22(5):56-59. 被引量：12
5Schultz T, Waibel A. Experiments on cross-language acoustic modeling. In: Proceedings of the 7th European Conference on Speech Communication and Technology. Aalborg, Denmark: ISCA, 2001. 567-570.
6Lee C H. Attribute-based universal phone modeling for multilingual speech recognition. In: Proceedings of the International Conference on Speech Databases and Assessments. Kyoto, Japan: NICT, 2008. 1-28.
7伊.达瓦,大川茂树,白井克彦.蒙古语多方言语音识别及共享识别模型探索[J].中央民族大学学报（哲学社会科学版）,2001,28(4):114-121. 被引量：3
8Yamamoto H, Isogai S, Sagisaka Y. Multi-class composite N-gram language model using multiple word clusters and word successions. IEIC Technical Report, 2001, 101(156): 13-18.
9National Bureau of Statistics of China. Report of the population [Online], avaiable: http://www.stats.gov. cn/enGliSH/, July 22, 2006.
10Dawa I, Nakamura S. A study on cross trasformation of mongolian language. Journal of National Language Processing, 2008, 15(5): 3-21.

二级参考文献43

1清格尔泰.中国蒙古语方言的划分[J].民族语文,1979(1):13-20. 被引量：6
2希.罗布桑旺丹.关于现代蒙古诸语言、方言的分类问题[J].北京大学学报（哲学社会科学版）,1959,5(3):125-137. 被引量：4
3伊.达瓦,大川茂树,白井克彦.蒙古语主要方言的声学和音律特征分析分类[J].民族语文,2001(1):26-32. 被引量：1
4伊.达瓦,张玉洁,上园一知,大川茂树,章森,井佐原均,白井克彦.蒙古语语言-文字的自动化处理[J].中文信息学报,2006,20(4):56-62. 被引量：6
5石现峰,张学智,张峰.基于HTK的语音识别系统设计[J].计算机技术与发展,2006,16(10):37-38. 被引量：23
6伊·达瓦大川茂村等.蒙古语音素的分类及识别性能的评价.日本声学会全国论文集[M].,1997..
7伊·达瓦大川茂村等.蒙古语七个元音共振峰频率分析.日本声学会全国论文集[M].,1996..
8古井贞燕.音响.音声工学[M].日本近代科学社,1992..
9哈斯额尔德尼那仁巴特.蒙古语基础[M].吉林人民出版社,1977..
10伊·达瓦，日本声学会全国论文集，1996年

共引文献23

1伊.达瓦,大川茂树,白井克彦.蒙古语主要方言的声学和音律特征分析分类[J].民族语文,2001(1):26-32. 被引量：1
2图雅.关于声学语音学研究方法的几个问题[J].内蒙古大学学报（哲学社会科学版）,2004,36(6):94-98. 被引量：4
3伊.达瓦,张玉洁,上园一知,大川茂树,章森,井佐原均,白井克彦.蒙古语语言-文字的自动化处理[J].中文信息学报,2006,20(4):56-62. 被引量：6
4许慧燕,钱盛友.湖南方言声频特性的计算机分析[J].电声技术,2007,31(4):56-58. 被引量：2
5百顺.基于派生文法的日—蒙动词短语机器翻译研究[J].中文信息学报,2008,22(2):47-54. 被引量：5
6刘志文,侯宏旭,李沙茹拉,柳林.基于trigger对的蒙古语语言模型的三种实现方法比较[J].中文信息学报,2009,23(6):105-109. 被引量：1
7王昆仑,张贯虹,吐尔洪江.阿布都克力木.维吾尔语元音的声频特性分析和识别[J].中文信息学报,2010,24(2):122-128. 被引量：10
8车士伟,吾守尔.斯拉木.浅谈连续语音识别中的关键技术[J].电脑与信息技术,2010,18(2):6-9. 被引量：1
9彭丽莉,周传斌,田永涛.关于HMM模型算法的一种改进[J].绵阳师范学院学报,2010,29(8):110-112.
10薛化建,董兴华,周喜,吐尔洪.吾司曼,李晓.基于子字单元的维吾尔语语音识别研究[J].计算机工程,2011,37(20):208-210. 被引量：5

同被引文献62

1鲍怀翘,阿西木.维吾尔语元音声学初步分析[J].民族语文,1988(5):4-13. 被引量：22
2曹剑芬.语音处理上如何逐渐减少对具体语料的依赖?[J].清华大学学报（自然科学版）,2009(S1):1380-1387. 被引量：3
3伊.达瓦,张玉洁,上园一知,大川茂树,章森,井佐原均,白井克彦.蒙古语语言-文字的自动化处理[J].中文信息学报,2006,20(4):56-62. 被引量：6
4崔朝阳,王建纲.广播电视语音识别现状与应用策略[J].计算机工程与应用,2007,43(23):181-183. 被引量：2
5蒋鑫.基于Julian的语音关键词识别系统[DB/OL].[2009.2.13].
6中国科技论文在线.刘建.可定制关键词识别系统的研究与实现[D].清华大学:计算机科学与技术系,2004.
7Muhetaer Shadike, I.I Xiao, Buheliqiguli Wasili: Large Vocabulary Continuous Speech Recognition: Basic research of Trigram Language Model[C]//Yang Li. IC MCE (2010). Chengdu: IEEE Press. 2010:753-757.
8Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili: Large Vocabulary Continuous Speech Recognition: Basic research of Acoustic Model [C]//CSIE 2011. Changchun, IEEE Press. 2011.
9Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili: l.arge Vocabulary Continuous Speech Recognition:Basic re search of Front-end Processor[C]//NCIS'll. Guilin. IEEE Press. 2011.
10Muhetaer Shadike, LI Xiao, Buheliqiguli Wasili: Large "Vocabulary Continuous Speech Recognition: Basic re search of Decoder[C]//ISNN2011. Guilin. Springer's LNCS Press. 2011: 594-600.

引证文献9

1木合塔尔.沙地克,李晓,布合力齐姑丽.瓦斯力.维吾尔语广播新闻敏感词检索系统的研究[J].中文信息学报,2011,25(4):3-10. 被引量：1
2武晓敏,达瓦·伊德木草,吾守尔·斯拉木.自然语料缺乏的民族语言连续语音识别[J].计算机工程,2012,38(12):129-131. 被引量：2
3王玲,达瓦.伊德木草,吾守尔.斯拉木.维哈柯及蒙语多文种语言相似性考查研究[J].中文信息学报,2013,27(6):180-186. 被引量：5
4王辉,努尔麦麦提.尤鲁瓦斯,吾守尔.斯拉木.维吾尔语音素的声学特征分析[J].中文信息学报,2014,28(1):100-106. 被引量：1
5达瓦.伊德木草,木合亚提.尼亚孜别克,吾守尔.斯拉木.语音技术在少数民族语言的应用研究[J].新疆大学学报（自然科学版）,2014,31(1):88-96. 被引量：3
6哈尔肯别克.木哈西,钟珞,达瓦.伊德木草.用说话人相似度i-vector的非负值矩阵分解说话人聚类[J].计算机应用与软件,2017,34(4):165-168.
7刘加,张卫强.低资源语音识别若干关键技术研究进展[J].数据采集与处理,2017,32(2):205-220. 被引量：8
8陈绍雄,傅美君,胡文君,佘玉梅,潘文林.基于HTK的佤语特定人孤立词语音识别[J].云南民族大学学报（自然科学版）,2017,26(5):417-421. 被引量：4
9伊.达瓦,策.巴图.新疆蒙文地区双语教育多媒体教学的研究[J].西部蒙古论坛,2011(3):64-73.

二级引证文献22

1达瓦.伊德木草,木合亚提.尼亚孜别克,吾守尔.斯拉木.语音技术在少数民族语言的应用研究[J].新疆大学学报（自然科学版）,2014,31(1):88-96. 被引量：3
2布合力齐姑丽.瓦斯力,木合塔尔.沙地克,木特力甫.马木提,李晓.用MATLAB实现维吾尔语广播新闻敏感词检索系统[J].计算机系统应用,2014,23(6):69-73. 被引量：1
3李端端,吾守尔.斯拉木,艾尼宛尔.托乎提.支持维、哈、柯文的Web浏览器的研究与实现[J].新疆大学学报（自然科学版）,2014,31(4):470-474.
4伊.达瓦,米尔阿迪力江.麦麦提.丝绸之路经济带相似语言信息横向处理通信技术的研究[J].新疆师范大学学报（自然科学版）,2014,33(4):66-74.
5达瓦.伊德木草,艾山.吾买尔.实例统计翻译混合策略的汉民病历翻译的研究[J].新疆大学学报（自然科学版）,2015,32(1):68-73. 被引量：3
6买买提依明.哈斯木,吾守尔.斯拉木,维尼拉.木沙江,努尔麦麦提.尤鲁瓦斯.基于统计专用字符的维、哈、柯文文种识别研究[J].中文信息学报,2015,29(2):111-117. 被引量：5
7宋洋,努尔买买提.尤鲁瓦斯,吾守尔.斯拉木.维吾尔语韵律调节研究[J].新疆大学学报（自然科学版）,2015,32(4):453-461.
8哈尔肯别克.木哈西,钟珞,达瓦.伊德木草.用说话人相似度i-vector的非负值矩阵分解说话人聚类[J].计算机应用与软件,2017,34(4):165-168.
9舒帆,屈丹,张文林,周利莉,郭武.采用长短时记忆网络的低资源语音识别方法[J].西安交通大学学报,2017,51(10):120-127. 被引量：20
10周虎,张承明,张仁堂,杨晓霞,陈岩.红枣黑变过程中主要成分连续变化模拟方法[J].科教导刊（电子版）,2018,0(15):284-285.

1尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
2尹继豪,樊孝忠,于江德.基于类语言模型的中文机构名称自动识别[J].计算机科学,2006,33(11):212-214. 被引量：3
3日开发出可读懂人心看清图像新技术[J].中国科技产业,2005(6):54-54.
4顾思远,尹廷辉,岳振军.基于软聚类的模糊类语言模型[J].军事通信技术,2015,36(1):5-11. 被引量：1
5张仰森,曹元大.基于语料库的自然语言建模方法研究[J].计算机科学,2004,31(5):176-179. 被引量：1
6吐尔根·依步拉音,吾守尔·斯拉木,麦合甫热提,艾山·吾买尔.词典和统计相结合的维吾尔文拼写查错方法的研究[J].新疆大学学报（自然科学维文版）,2012(1):1-10.
7闪存的开发[J].电子产品世界,2004,11(12A):36-36.
8张杰,李红英.大型冶金电气通信网络节点中攻击图谱的建立[J].电气应用,2013,32(8):42-45.
9李明琴,李涓子,王作英,陆大.语义分析和结构化语言模型[J].软件学报,2005,16(9):1523-1533. 被引量：7
10日本电气通信大学入驻深圳虚拟大学园[J].广东科技,2009,18(9):9-9.

自动化学报

2010年第4期

浏览历史

内容加载中请稍等...

语料资源缺乏的连续语音识别方法的研究被引量：9

参考文献23

二级参考文献43

共引文献23

同被引文献62

引证文献9

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

语料资源缺乏的连续语音识别方法的研究 被引量：9

参考文献23

二级参考文献43

共引文献23

同被引文献62

引证文献9

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

语料资源缺乏的连续语音识别方法的研究被引量：9