基于三音子模型的柯尔克孜最优语料选取算法

Kyrgyz's Optimal Corpus Selection Algorithm Based on Triphone Model

下载PDF

导出

摘要选择具有丰富语音现象的语料库是提高语音识别性能的关键。为了构建柯尔克孜语语音识别文本语料库,首先利用预处理技术去除文本中的噪声信息并用文本转换算法将柯尔克孜文转换为拉丁文形式。其次,根据柯尔克孜语的音节结构和规则,提出了启发函数和两种最优自动选择句子的算法。最后,为了验证算法的有效性,将两组包含不同数量的句子集作为实验语料,采用两种算法生成最优句子集,并对两种算法生成的语料库进行了统计,实验结果表明,利用算法2挑选出来的文本包含的三音子覆盖率达到了78.70%,能够满足语音识别系统的需要,验证了提出的算法的有效性。 Choosing a corpus with rich phonetic phenomena is the key to improve the performance of speech recognition.In order to construct the text corpus of Kyrgyz speech recognition system,firstly,the noise information in the text is removed by pre-processing technology,and the Kyrgyz language is converted into Latin form by text conversion algorithm.Secondly,according to the syllable structure and rules of Kyrgyz language,the heuristic function and two optimal algorithms for automatically selecting sentences are proposed.Finally,in order to verify the effectiveness of the algorithm,two groups of sentence sets with different numbers are used as experimental corpora,two algorithms are used to generate the optimal sentence sets,and the corpora generated by the two algorithms are counted.The experimental results show that the coverage rate of tri-phones in the text selected by algorithm 2 reaches 78.70%,which can meet the needs of speech recognition system,and the effectiveness of the algorithm proposed in this paper is verified.

作者买买提阿依甫帕丽旦·木合塔尔郭文强 Maimaitiayifu;Paidan muhetaer;Guo Wen-qiang(School of information management,Xinjiang University of Finance&Economics,Urumqi Xinjiang 830012,China)

机构地区新疆财经大学信息管理学院

出处《计算机仿真》 2024年第8期296-302,共7页 Computer Simulation

基金高层次人才专项(2022XGC017,2022XGC029) 自治区天池博士计划项目(40050095) 国家重点研发专项(2018YFC0825504)

关键词三音子语音识别语料库柯尔克孜语 Tri-phone Speech recognition Corpus Kyrgyz language

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1达吾提·阿不都巴热.汉语与柯尔克孜语音节结构对比浅析[J].牡丹江教育学院学报,2021(1):13-15. 被引量：2
2王玮,张劲松.汉语中介语语音库的文本设计[J].世界汉语教学,2019,33(1):104-116. 被引量：6
3吴华,徐波,黄泰翼.基于三音子模型的语料自动选择算法[J].软件学报,2000,11(2):271-276. 被引量：12
4刘玉宇,吴及,王作英.汉语三音子模型观测概率比较[J].中文信息学报,2003,17(3):47-52. 被引量：2
5徐宝龙,努尔麦麦提.尤鲁瓦斯,吾守尔.斯拉木.关于维吾尔语口语语料的三音子选取方法研究[J].中文信息学报,2015,29(2):118-124. 被引量：2
6李冠宇,于洪志,李永宏,马宁.基于决策树的藏语拉萨话三音子模型[J].计算机工程与科学,2013,35(9):146-150. 被引量：4

二级参考文献49

1宁振江,杜利民.面向语音识别声学模型的汉语语料抽选方法[J].声学技术,2003,22(z2):356-358. 被引量：1
2曹剑芬.普通话双音子和三音子结构系统代表语料集[J].语言文字应用,1997(1):62-70. 被引量：7
3程棠.对外汉语语音教学中的几个问题[J].语言教学与研究,1996(3):5-18. 被引量：52
4曹剑芬.普通话语音的环境音变与双音子和三音子结构[J].语言文字应用,1996(2):58-63. 被引量：11
5沈炯.汉语音高系统的有声性和区别性[J].语言文字应用,1995(2):13-18. 被引量：12
6林焘.语音研究和对外汉语教学[J].世界汉语教学,1996,10(3):20-23. 被引量：82
7蔡琴,吾守尔.斯拉木.基于HTK的维吾尔语连续数字语音识别[J].现代计算机,2007,13(4):14-16. 被引量：7
8王作英.基于段长分布的HMM语音识别模型.第二届全国汉字语音识别会议[M].庐山,1989..
9国际语音学会.国际语音学会手册[M].上海:上海教育出版社,2008.
10郑方,吴文虎,方棣棠.连续无限制语音流中关键词识别的研究现状[C].第四届全国人机语音通讯学术会议论文集,1996.

共引文献21

1黄荷婷,沈慕芬,王朕,王玮.俄语为母语的汉语学习者送气—不送气辅音的产出偏误研究[J].中国语音学报,2022(2):191-198.
2李荪,曹峰,刘姿杉.面向算法模型的语音数据集质量评估方法研究[J].计算机科学,2022,49(S02):519-524. 被引量：2
3宁振江,杜利民.面向语音识别声学模型的汉语语料抽选方法[J].声学技术,2003,22(z2):356-358. 被引量：1
4宁振江,杜利民.一种改进后的递增式语音语料抽选算法[J].中国科学院研究生院学报,2005,22(2):140-146.
5刘刚,张洪刚,郭军.不同训练样本对识别系统的影响[J].计算机学报,2005,28(11):1923-1928. 被引量：15
6杨阳蕊,李永宏,于洪志.藏语安多方言的音联结构及统计分析[J].西北民族大学学报（自然科学版）,2008,29(2):11-16. 被引量：2
7赵晖,林成龙,唐朝京.基于视频三音子的双模态语料自动选取算法[J].计算机工程,2009,35(17):1-3. 被引量：2
8赵晖,林成龙,唐朝京.基于视频三音子的汉语双模态语料库的建立[J].中文信息学报,2009,23(5):98-103. 被引量：6
9赵晖,唐朝京.基于汉语视频三音素的可视语音合成[J].电子与信息学报,2009,31(12):3010-3014.
10邹灿,李柏岩.基于BIC的语音识别模型压缩算法[J].计算机与现代化,2014(6):71-73.

1马合怕丽•奴尔江.“一带一路”背景下的新疆少数民族语言与汉语言接触研究[J].现代语言学,2023,11(12):6322-6331.
2罗凯昂,哈里旦木·阿布都克里木,刘畅,阿布都克力木·阿布力孜,郭文强.融合剪枝和多语微调的黏着语命名实体识别[J].计算机工程与应用,2023,59(24):121-130.
3王莹莹,黄荷婷,王玮.儿童汉语口语语料库文本设计[J].汉江师范学院学报,2023,43(1):43-49.
4高畅.五声性集合的转换[J].星海音乐学院学报,2022(4):5-21.
5马寒威.昭通方言四音格词汇研究[J].现代语言学,2024,12(7):372-380.
6罗子灿,何广,周倩文.基于改进蚁群算法的AGV路径规划研究[J].湖南工业大学学报,2024,38(6):86-92.
7邵伟伟,王金龙,胡超.融合滚动窗口与改进RRT算法的路径规划[J].咸阳师范学院学报,2024,39(4):17-21.
8何淑君.母语音节结构对高中学习者英语发音的迁移[J].海外英语,2024(16):168-170.
9张俊林,贾兵,聂玲,石冬阳.基于双向搜索的改进A^(*)算法路径规划研究[J].重庆科技大学学报（自然科学版）,2024,26(4):89-97.
10张学通,彭展.基于藏文音节结构的单模式匹配算法[J].计算机仿真,2024,41(8):374-378.

计算机仿真

2024年第8期

浏览历史

内容加载中请稍等...

基于三音子模型的柯尔克孜最优语料选取算法

参考文献6

二级参考文献49

共引文献21

相关作者

相关机构

相关主题

浏览历史